Tag

#DPO

Všetky publikované články, v ktorých sa téma DPO objavuje ako dôležitý kontext. Aktuálne 3 textov v archíve.

Produkty3. júna 2026

AWS ukazuje SFT a DPO pre presnejšie volanie nástrojov agentmi

AWS zverejnil praktický postup, ako na SageMaker AI dolaďovať malý jazykový model na tool-calling pomocou SFT a DPO a merať výsledok na datasete When2Call.

Výskum3. júna 2026

DPO mimo chatbotov: Hugging Face blog ukazuje použitie pri štruktúrovanom OCR

Dharma-AI opisuje, ako sa dá Direct Preference Optimization použiť na potláčanie opakovacích slučiek v OCR modeloch, nie iba na ladenie chatbotových odpovedí.

Výskum13. mája 2026

ξ-DPO chce zjednodušiť doladenie preferencií bez zdĺhavého ladenia hyperparametrov

Nový preprint ξ-DPO tvrdí, že pri direct preference optimization vie nahradiť ťažko čitateľnú margin schému interpretovateľnejším pomerovým cieľom. Pre tímy, ktoré dolaďujú modely na ľudských preferenciách, to môže znamenať menej slepého skúšania a ľahšie prenositeľné nastavenia.