Preprint skúma dohľad nad agentom, keď človek aj AI vedia niečo iné
Nový arXiv preprint formalizuje situáciu, v ktorej človek pozná svoje preferencie, no AI lepšie pozná kvalitu navrhovanej akcie. Pre dohľad nad autonómnymi agentmi je to realistickejší model než jednoduché schvaľovanie každého kroku.