aifeed.skAI Feed
AI produkty3 min čítania

AWS opisuje päť vzorov odolnosti pre Bedrock a LLM gateway

Nový technický návod AWS ukazuje, ako kombinovať cross-region inference, sharding účtov, fallback modely a LLM gateway pri produkčných generatívnych aplikáciách.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja
Kurátorovaný súhrn
Zdroj / autorita
AWS Machine Learning Blog

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI produkty a opiera sa o 3 zdroje.

AWS publikoval technický návod k odolnosti generatívnych AI aplikácií postavených na Amazon Bedrocku a LLM gateway. Je to téma, ktorá sa dostáva do popredia až vtedy, keď prototyp prestane byť prototypom. Pri internom demo chatbote stačí, že model väčšinou odpovedá. Pri zákazníckej službe, analytickom nástroji alebo agentovi v regulovanom procese treba riešiť dostupnosť, kvóty, latenciu, náklady a izoláciu medzi tímami či nájomníkmi.

AWS rámcuje rozhodovanie cez štyri rozmery: dostupnosť, čas odpovede, náklady a priepustnosť. Dostupnosť znamená, že inferencia pokračuje aj pri výpadku regiónu, modelu alebo poskytovateľa. Čas odpovede zahŕňa prvý token aj dokončenie odpovede. Náklady sú o cene tokenov a smerovaní požiadaviek. Priepustnosť hovorí, koľko súbežných požiadaviek systém zvládne. Blog sa sústreďuje hlavne na dostupnosť, no ukazuje, že tieto rozmery sa navzájom ovplyvňujú.

Prvým vzorom je cross-region inference v Amazon Bedrocku. Tá umožňuje smerovať požiadavky na modely cez profily, ktoré rozkladajú záťaž medzi viacero AWS regiónov. Cieľom je znížiť riziko throttlingu v jednom regióne a zvýšiť celkovú priepustnosť. AWS zároveň rozlišuje geograficky viazané profily, napríklad pre USA alebo Európu, a globálne profily, ktoré môžu ísť cez viac komerčných regiónov za cenu vyššej latencie. Pre firmy s dátovou rezidenciou je tento rozdiel zásadný.

Druhým vzorom je sharding účtov. Namiesto toho, aby všetky aplikácie a tímy súťažili o rovnaké kvóty v jednom AWS účte, môžu sa požiadavky rozdeliť medzi viac účtov s vlastnými kvótami a profilmi. Takáto architektúra vytvára aj prirodzené hranice izolácie: problém jedného tímu alebo nájomníka nemusí strhnúť ostatných. Pre veľké podniky to znie menej elegantne než univerzálny centrálny endpoint, no pri reálnych kvótach a špičkách môže ísť o praktickejšie riešenie.

Tretia vrstva je LLM gateway, teda inteligentná brána medzi aplikáciou a jedným alebo viacerými poskytovateľmi modelov. AWS v ukážkach používa LiteLLM a odkazuje aj na referenčné riešenie Multi-Provider Generative AI Gateway. Gateway zjednocuje rozhranie pre aplikácie, ale zároveň pridáva smerovanie, fallback, rate limiting, auditovanie, sledovanie nákladov a pozorovateľnosť. Pre produkčný tím je to miesto, kde sa dá presadiť politika namiesto toho, aby každá aplikácia riešila modely po svojom.

Jedným z konkrétnych scenárov je automatický fallback medzi modelmi. V demonštrácii má primárny model limit tri požiadavky za minútu a záložný model vyššiu kapacitu. Keď klient pošle desať súbežných požiadaviek, prvé tri prejdú primárnym modelom a zvyšok brána presmeruje na fallback. Výsledok nie je o tom, že fallback je vždy lacnejší alebo kvalitnejší, ale že aplikácia zostane dostupná aj pri vyčerpaní kvóty alebo dočasnom probléme.

AWS zároveň upozorňuje na problém „noisy neighbor“ v multi-tenant prostrediach. Ak jeden zákazník alebo tím náhle zvýši objem požiadaviek, nemal by vyčerpať kapacitu všetkým ostatným. Brána preto môže kombinovať per-consumer limity, oddelenie účtov, routing cez regióny a granularitu monitoringu. V generatívnej AI je to zvlášť dôležité, pretože náklady a záťaž sa neviažu len na počet požiadaviek, ale aj na dĺžku promptov, odpovedí a použité modely.

Pre slovenské a európske firmy je praktické ponaučenie v tom, že odolnosť AI aplikácie sa nedá doplniť až po incidente jedným prepínačom. Treba rozhodnúť, ktoré dáta môžu opustiť región, ktoré modely sú prípustné ako fallback, kto vlastní kvóty a ako sa bude merať kvalita odpovede po presmerovaní. AWS poskytuje vzory a ukážkový repozitár, no architektonické rozhodnutia zostávajú na prevádzkovateľovi. Čím viac sa AI aplikácie presúvajú do zákazníckych a regulačne citlivých procesov, tým viac bude táto nudná vrstva dostupnosti rozhodovať o tom, či nasadenie prežije prvú veľkú špičku.

Zdroje

Súvisiace čítanie

Ďalšie články k téme

Viac z kategórie