#RVPO

Všetky publikované články, v ktorých sa téma RVPO objavuje ako dôležitý kontext. Aktuálne 1 textov v archíve.

Výskum9. mája 2026

Apple navrhuje RVPO: pri dolaďovaní modelov trestá kolísanie medzi cieľmi, nie len slabý priemer

Výskumníci z Apple tvrdia, že pri multi-cieľovom dolaďovaní jazykových modelov nestačí maximalizovať priemernú odmenu. Ich metóda RVPO má obmedziť situácie, v ktorých model exceluje v jednej metrike, ale zlyháva v bezpečnosti, formáte alebo pri volaní nástrojov.