AIPO chce rozšíriť hranice uvažovania modelov cez aktívnu spoluprácu agentov
Nový arXiv paper navrhuje tréningový rámec, v ktorom si jazykový model počas posilňovaného učenia pýta cielenú pomoc od troch špecializovaných agentov. Autori tvrdia, že takto vie zlepšiť matematické, vedecké aj programátorské úlohy bez toho, aby po tréningu na pomocníkov ďalej spoliehal.