Apple navrhuje RVPO: pri dolaďovaní modelov trestá kolísanie medzi cieľmi, nie len slabý priemer
Výskumníci z Apple tvrdia, že pri multi-cieľovom dolaďovaní jazykových modelov nestačí maximalizovať priemernú odmenu. Ich metóda RVPO má obmedziť situácie, v ktorých model exceluje v jednej metrike, ale zlyháva v bezpečnosti, formáte alebo pri volaní nástrojov.