ξ-DPO chce zjednodušiť doladenie preferencií bez zdĺhavého ladenia hyperparametrov
Nový preprint ξ-DPO tvrdí, že pri direct preference optimization vie nahradiť ťažko čitateľnú margin schému interpretovateľnejším pomerovým cieľom. Pre tímy, ktoré dolaďujú modely na ľudských preferenciách, to môže znamenať menej slepého skúšania a ľahšie prenositeľné nastavenia.