Modely
Autor: Redakcia AI Feed
AWS ukazuje, ako ladiť Amazon Nova cez LLM-judge namiesto ručne písaných rewardov
AWS popisuje, ako pri reinforcement fine-tuningu modelov Amazon Nova nahradiť časť ručne písaných reward funkcií hodnotiacim modelom. Tvrdí, že prístup LLM-as-a-judge je vhodnejší tam, kde treba naraz sledovať presnosť, tón, bezpečnosť aj formát výstupu.