Lineárne bandity môžu fungovať aj s jediným bitom spätnej väzby na dávku
Nový teoretický preprint skúma dávkové stochastické lineárne bandity, kde agent po každej dávke pošle iba jeden bit spätnej väzby. Výsledky ukazujú hranice straty aj algoritmy, ktoré sa v širokých režimoch blížia optimu.