AI novinky30. júna 20263 min čítania

OpenAI našla vzácne pády infraštruktúry cez epidemiológiu core dumpov

Technický rozbor OpenAI ukazuje, ako analýza veľkej populácie pádov odhalila chybný hardvér aj 18-ročnú race condition v knižnici GNU libunwind.

Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.

Typ zdroja: Kurátorovaný súhrn
Zdroj / autorita: OpenAI

#OpenAI #infraštruktúra #Rockset #C++#spoľahlivosť #GNU libunwind

Redakčný kontext

Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.

Článok je zaradený v sekcii AI novinky a opiera sa o 2 zdroje.

OpenAI zverejnila technický post-mortem o pádoch vo svojej dátovej infraštruktúre, ktorý je menej okázalý než nový model, ale pre produkčnú AI možno rovnako poučný. Firma opisuje, ako pri službe Rockset, používanej v časti dátovej vrstvy ChatGPT, narazila na zdanlivo nemožné pády C++ procesov. Funkcia sa mala normálne vrátiť, no proces skočil na neplatnú adresu alebo sa zásobník správal, akoby sa počas bežného behu posunul o osem bajtov.

Takéto zlyhanie je pre infraštruktúrnych inžinierov nepríjemné práve preto, že sa nehodí do bežných hypotéz. Nevyzerá ako jednoduchý zápis mimo vyhradenej pamäte, neukazuje na klasické použitie uvoľnenej pamäte a podľa OpenAI sa nedalo vysvetliť ani mechanizmami ako inline assembler, setcontext alebo longjmp. Firma preto zmenila spôsob vyšetrovania: namiesto detailného skúmania niekoľkých pádov začala budovať dátový súbor o celej populácii core dumpov, teda snímok stavu programu v okamihu pádu.

Názov „core dump epidemiology“ vystihuje podstatu prístupu. Pri zriedkavých chybách nestačí pozerať sa na jeden prípad a hľadať príčinu v izolácii. OpenAI porovnávala veľké množstvo pádov, ich prostredie, hostiteľské stroje, vzory v zásobníku a pravdepodobnosť spoločných znakov. Takýto štatistický pohľad pomohol oddeliť dva problémy, ktoré sa prejavili v rovnakom období, no mali rozdielne príčiny.

Prvou príčinou bola tichá hardvérová korupcia na jednom hostiteľovi v Azure, kde procesor podľa OpenAI jednoducho nerobil výpočty správne. To je typ chyby, ktorý je pre cloudové služby ťažko uchopiteľný: aplikácia môže vyzerať chybne, hoci zlyháva vrstva pod ňou. Druhou príčinou bola 18 rokov stará race condition v GNU libunwind, široko používanej open-source knižnici na prácu so zásobníkom a spätným trasovaním volaní. V praxi teda jeden príbeh spojil fyzickú spoľahlivosť výpočtovej infraštruktúry s dlhodobou údržbou základných softvérových komponentov.

Rockset je pre OpenAI dôležitý preto, že slúži ako cloudový dátový systém pre vyhľadávanie a real-time analytiku. Po akvizícii Rocksetu ho firma používa pre interné potreby vrátane synchronizačných konektorov a vyhľadávania nad konverzáciami či pracovným obsahom. Keď model pri odpovedi potrebuje nájsť relevantné dáta, spoľahlivosť tejto vrstvy ovplyvňuje nielen dostupnosť služby, ale aj kvalitu používateľského zážitku. Pád jednej repliky nemusí zničiť požiadavku, no opakované segfaulty sú signálom, že systém má skrytý rizikový bod.

Poučenie presahuje OpenAI. Moderné AI aplikácie čoraz viac spájajú modely s vyhľadávaním, konektormi, vektorovými indexmi, databázami a vlastným C++ alebo Rust výkonom v pozadí. Viditeľná inteligencia modelu tak stojí na veľmi tradičných problémoch systémového inžinierstva: pamäťovej bezpečnosti, spoľahlivosti hardvéru, pozorovateľnosti a schopnosti vyhodnotiť milióny záznamov bez toho, aby tím uveril prvej pohodlnej hypotéze.

Zaujímavý je aj sociálny rozmer open-source infraštruktúry. Ak sa chyba v knižnici GNU libunwind udržala 18 rokov, neznamená to, že komunita zlyhala jednoduchým spôsobom. Skôr to ukazuje, že niektoré súbehové chyby sa prejavia iba pri špecifickom zaťažení a až vtedy, keď ich veľký používateľ dokáže zachytiť v dostatočnom množstve. Pre veľké AI firmy z toho vyplýva zodpovednosť vracať opravy do základných projektov, z ktorých profituje celý ekosystém.

Pre prevádzkovateľov AI služieb je najpraktickejší odkaz jednoduchý: logovanie pádov ako jednotlivých incidentov nestačí. Ak systém rastie, treba mať procesy na zbieranie core dumpov, normalizáciu metadát, koreláciu podľa hostiteľov a verzií knižníc a schopnosť vytvárať hypotézy na úrovni populácie. OpenAI tým ukazuje, že spoľahlivosť AI nebude stáť iba na lepších modeloch, ale aj na nudnej, disciplinovanej práci s chybami hlboko pod používateľským rozhraním.

Dôležité je aj to, že OpenAI v texte nespája spoľahlivosť iba s väčším počtom replík. Replikácia chráni používateľa pred okamžitým výpadkom, ale nezbavuje tím povinnosti nájsť koreňovú príčinu. Ak sa rovnaká chyba prenesie do viacerých uzlov alebo zostane v knižnici, môže sa neskôr prejaviť pri vyššej záťaži oveľa bolestivejšie.

Zdroje

OpenAI našla vzácne pády infraštruktúry cez epidemiológiu core dumpov

Ďalšie články k téme

Google mapuje britských používateľov AI: náskok majú tí, ktorí ju používajú hlbšie

OpenAI mapuje, ako sa používanie ChatGPT prehlbuje naprieč svetom

OpenAI mapuje, ako môže AI zmeniť prácu v Európskej únii