「あなたへのおすすめ」はどう設計されているか
要点
- 「あなたへのおすすめ」は単一のアルゴリズムではなく、候補の生成・絞り込み・並べ替えという段階の積み重ねである。
- 各段階で最適化する対象が異なり、全体の体験はそれらの綱引きの結果として現れる。
- 改善はA/Bテストで検証されるが、検証の指標選びそのものが結果を左右する。
- もっとも、短期の指標で勝った変更が、長期の信頼を損なうこともある。
動画サービスの「あなたへのおすすめ」欄を、設計者の側から眺めてみる。利用者には一枚の棚に見えるこの欄は、内部では複数の工程を経て組み上げられている。一本の記事や動画がそこに並ぶまでに、系は何段階もの判断を重ねている。本稿では、その工程を順に追い、どこで何が最適化されているのかを具体的に見ていく。
候補生成——まず数を絞る
最初の工程は、膨大な在庫から「見せる可能性のある候補」を数百件ほどに粗く絞ることだ。ここでは精度より速さと網羅が優先される。コールドスタート問題で触れた協調フィルタリングや、属性に基づく単純な抽出が、この段階で働く。全在庫を一つひとつ精密に評価していては、表示が間に合わないからだ。
絞り込みと並べ替え——順番が体験を決める
次に、絞られた候補を一件ずつ評価し、表示順を決める。ここで初めて、計算量の大きい精密なモデルが投入される。同じ候補集合でも、並べる順番が変われば体験はまるで違う。上位に来たものはよく見られ、下位のものはほとんど見られない。つまり並べ替えは、単なる整列ではなく、露出の配分そのものだ。
この段階で設計者は難しい選択に直面する。クリックされやすいものを上に置けば短期の反応は良くなる。だが同じ傾向の候補ばかりが上位を占めると、棚は単調になる。そこで多様性を確保する補正を加えるが、補正を強めれば短期の反応は下がる。過剰最適化を避けるための綱引きが、ここに現れる。
A/Bテストという検証
こうした変更が本当に改善なのかは、A/Bテストで確かめられる。利用者を二群に分け、一方に新しい並べ替えを、もう一方に従来のものを見せ、反応を比べる。客観的に見えるこの手法には、しかし落とし穴が多い。何を「改善」とみなすか——その指標選びが、結論を先に決めてしまうからだ。クリック率を指標にすれば、クリックを誘う変更が勝つ。滞在時間を指標にすれば、引き留める変更が勝つ。詳しくはA/Bテストの落とし穴で扱う。
短期の勝者が長期に負けるとき
現場でしばしば観測されるのは、短期の指標で明確に勝った変更が、数か月の単位では利用者の信頼をすり減らしていた、という事態である。たとえば刺激的なサムネイルを上位に出す変更は、当初クリック率を押し上げる。だが期待を裏切る内容が続くと、利用者は次第に推薦を信用しなくなり、長期では離脱が増える。短期の指標は、この遅れてくる代償を捉えにくい。
もっとも、だからA/Bテストが無意味だということにはならない。問題は手法ではなく、何を測り、どの時間幅で評価するかという設計判断のほうにある。裏を返せば、「あなたへのおすすめ」の質は、アルゴリズムの精度よりも、改善をどう検証するかの作法に強く依存している。
棚は判断の集積である
一枚の棚に並ぶ数件の候補は、候補生成から並べ替え、検証までの一連の判断が積み重なった結果だ。利用者にはその工程は見えない。だが見えないからこそ、各段階で何を最適化しているのかを設計者が自覚していなければ、棚は測りやすい指標のほうへ静かに偏っていく。推薦の設計とは、目に見える結果を作る作業であると同時に、目に見えない判断の連なりを管理する作業でもある。
出典・参考
- 大規模推薦システムにおける候補生成・ランキングの多段構成に関する一般的な工学的議論
- オンライン実験(A/Bテスト)の設計と指標選択に関する標準的文献
関連するガイドと選択肢を、まとめて確認できます。
選択肢を見る