本文へスキップ

Response Calibration

カテゴリ

インタラクション調整

RLHF、A/Bテスト、指標運用の落とし穴——応答を調律する手法と、その限界を検討します。

指標を最適化すると何が失われるか——グッドハートの法則

インタラクション調整

指標を最適化すると何が失われるか——グッドハートの法則

要点「指標が目標になると、それは良い指標ではなくなる」——グッドハートの法則は、最適化の宿命を突く。社会科学者キャンベルも、近い時期に同種の警告(キャンベル…

3分 · 2026.06.25

A/Bテストの落とし穴

インタラクション調整

A/Bテストの落とし穴

要点 A/Bテストは強力だが、運用を誤ると「改善した」という誤った結論を量産する。代表的な落とし穴は、途中で覗く(peeking)、多重比較、新奇性効果の三つ…

3分 · 2026.06.25

RLHF——人間のフィードバックで応答を調律する

インタラクション調整

RLHF——人間のフィードバックで応答を調律する

要点人間のフィードバックによる強化学習(RLHF)は、「正解の文例」ではなく「どちらが好ましいか」の比較から学ぶ手法だ。従来の教師あり学習が正解の模倣だとす…

4分 · 2026.06.25

ニュースレター

最新の記事と論点を、まとめて受け取る。