Apple ukazuje Ctrl-R: cielený tréning má učiť modely pestrejšie uvažovanie
Výskumný tím Apple a UCLA opisuje rámec Ctrl-R, ktorý pri posilňovanom učení aktívne vyhľadáva rôzne vzory riešenia. Cieľom nie je dlhší reťazec úvah, ale lepšie pokrytie stratégií, ktoré sa pri bežnom vzorkovaní objavujú zriedka.