"Estimating Conversion Rate in Display Advertising from Past Performance Data"を読んだ

読んだからおおざっぱに内容をまとめておく。

http://wan.poly.edu/KDD2012/docs/p768.pdf

タイトルの通り、過去の実績データからディスプレイ広告のCVRを予測しようという話。

モチベーションとしては、ユーザーIDとWebページのURLがAdExchangeからDSPへ送られてきたとき、
DSPが持っている広告のうちでそのユーザーとWebページの組み合わせに対してもっともCVする可能性が高い広告をオークションに使いたいということらしい。
(つまり、DSPを実装するうえで、より効果が高い入札をするためのアルゴリズムを開発しましたという話)。

DSPがn個広告を持っていたとして、与えられたユーザーIDとURLの組に対してそのn個の広告それぞれのCVRを予測できれば、予測したCVRが一番高かった広告を使えばいいということになる。

CVRの予測については、基本的に経験分布を使う方針。
つまり、"過去に太郎さんがwww.xxxxx.comというサイトに1000回訪れたことがあり、その1000回の訪問のすべてで同じ広告を出したところ、10回コンバージョンした"というデータが観測されていれば、AdExchangeから太郎さんのユーザーIDとwww.xxxx.comというurlが送られてきたとき、また同じ広告を出せばきっと1%の確率でCVするだろうという話。

問題となるのは、ユーザーとurlの組み合わせがとても多いので、十分な精度の経験分布を得るための実績データがほとんどの組み合わせでたまらないという点。

この問題を解消するために、この論文では広告やwebページのデータの階層構造を上ることで観測データ数の不足問題を回避するという方法をとっている。

DSPは複数の広告主をもっていて、それぞれの広告主は複数のキャンペーンをもっていて、それぞれのキャンペーンは複数の広告を持っている。
あるいは、Webページもパブリッシャによって階層状にカテゴリ分けされている。

"太郎さんが野球のニュースサイトに訪れたことはないのでCVRがどれくらいになるかはわからないが、サッカーやテニスなどのスポーツニュースサイトというくくりでなら複数回訪問し、コンバージョンしたこともあるのでそのデータから野球のニュースサイトに訪問した時のCVRも推測してしまおう"というのが主たるアイデアであろう。

具体的なものから抽象的なものへ緩和することで、実績データが足りないという問題を解消しようとしている。

ユーザー、Webページ、広告のそれぞれが階層構造を持っているのでどの項目でどれくらい緩和するか ⇒ 全パターン試して、ロジスティック回帰でまとめてしまいましょう

というのがおおざっぱなまとめ