RLHFに関する論文が #NeurIPS 2024に採択されました!🎉
DPOが好みの割合を表すソフトな選好ラベルを活用できるように拡張し、オフラインとオンラインの両方でより良いLLMのアラインメントを達成します
Google DeepMindでのインターン中の成果です
Our paper on RLHF: Geometric-Averaged Preference Optimization for Soft Preference Labels was accepted to
#NeurIPS 2024! To deal with over-optimization in DPO, proportional soft labels taken from majority voting/AI feedback can adjust the gradient scale.
arxiv.org/abs/2409.06691








