インタラクション調整
指標を最適化すると何が失われるか——グッドハートの法則
要点 「指標が目標になると、それは良い指標ではなくなる」——グッドハートの法則は、最適化の宿命を突く。 社会科学者キャンベルも、近い時期に同種の警告(キャンベル…
インタラクション調整
要点 「指標が目標になると、それは良い指標ではなくなる」——グッドハートの法則は、最適化の宿命を突く。 社会科学者キャンベルも、近い時期に同種の警告(キャンベル…
インタラクション調整
要点 A/Bテストは強力だが、運用を誤ると「改善した」という誤った結論を量産する。 代表的な落とし穴は、途中で覗く(peeking)、多重比較、新奇性効果の三つ…
インタラクション調整
要点 人間のフィードバックによる強化学習(RLHF)は、「正解の文例」ではなく「どちらが好ましいか」の比較から学ぶ手法だ。 従来の教師あり学習が正解の模倣だとす…
最新の記事と論点を、まとめて受け取る。