RLHF——人間のフィードバックで応答を調律する
要点
- 人間のフィードバックによる強化学習(RLHF)は、「正解の文例」ではなく「どちらが好ましいか」の比較から学ぶ手法だ。
- 従来の教師あり学習が正解の模倣だとすれば、RLHFは選好の近似であり、扱える問題の性質が異なる。
- 比較データから報酬モデルを作り、それを手がかりに応答を調律する、という二段構えが基本である。
- ただし、報酬モデルが人間の選好を取り違えると、調律はその誤りごと増幅してしまう。
応答の良し悪しを、機械にどう教えるか。一つの素直な方法は、良い応答の見本を大量に見せ、それを真似させることだ。だが「良い応答」が一意に定まらない場面では、この方法は行き詰まる。同じ問いに対する適切な応答は何通りもあり、見本を一つに固定できないからだ。人間のフィードバックによる強化学習(RLHF)は、この行き詰まりに別の角度から挑む。本稿では、従来の教師あり学習と並べ、両者が何を学んでいるのかを比べてみたい。
模倣と選好の違い
教師あり学習は、入力と正解の対を見せ、正解を再現できるようモデルを訓練する。翻訳や分類のように正解が比較的はっきりした問題では、これがよく効く。だが、文章の自然さや配慮の度合いのように、正解が一つに定まらない性質を相手にすると、模倣はうまくいかない。何を真似ればよいのかが、そもそも曖昧だからだ。
RLHFが採るのは、別の問いの立て方である。「これが正解だ」と一つを示すのではなく、「AとBでは、どちらが好ましいか」を人間に選ばせる。比較なら、正解を一つに固定できない場面でも判断できる。どちらが上等な見本かは言えなくても、二つを並べてどちらがましかは答えられる——この人間の能力を、学習の信号として使うのが要点だ。
二段構えの仕組み
RLHFは、おおむね二つの段階で進む。第一段階で、人間による多数の比較判断を集め、それを再現する「報酬モデル」を作る。報酬モデルは、ある応答がどれだけ好まれそうかを数値で見積もる代理装置だ。第二段階で、この報酬モデルを手がかりに、本体のモデルが、より高く評価される応答を出すよう調律される。フィードバックループの言葉でいえば、人間の選好を一度報酬モデルに写し取り、その写しを使って循環を回す、という構造になる。この基本的な枠組みは、クリスティアーノらによる2017年の研究などで提示されたものに連なる。
写し取りの誤差が増幅される
この二段構えには、構造的な弱点がある。報酬モデルは、人間の選好の完全な複製ではなく、近似にすぎない。近似である以上、ずれが含まれる。第二段階で本体が報酬モデルを熱心に追えば追うほど、そのずれもまた忠実に追われる。結果として、人間が本当は好まない方向へ、系が自信を持って進んでしまうことがある。これは過剰最適化が、報酬モデルという代理指標の上で起きる現象だと言える。
もっとも、だからRLHFが教師あり学習に劣るという話ではない。両者は競合ではなく、扱う問題の性質が違う。正解が明確なら模倣が、選好の近似が必要なら比較が向く。実際の系では、両者が組み合わされることも多い。
調律は目的の翻訳である
RLHFを「人間の好みで機械を微調整する技術」と要約すると、肝心な点が抜け落ちる。この手法の難しさは、計算ではなく、何を好ましいとみなすかという判断を、誰が、どんな基準で下すのかにある。比較を行う人々の偏りは、そのまま報酬モデルに、そして応答に流れ込む。裏を返せば、応答の調律とは、技術的な工程である以前に、目的を言葉と判断に翻訳する作業だ。指標を最適化すると何が失われるかで見るように、その翻訳が雑になれば、系は測りやすい好みのほうへ静かに偏っていく。
出典・参考
- Paul Christiano ほか「Deep reinforcement learning from human preferences」(2017)
- 報酬モデルの近似誤差と最適化に関する一般的議論
関連するガイドと選択肢を、まとめて確認できます。
選択肢を見る