Superhuman s Databricks ukazujú, ako dostať inferenciu nad 200-tisíc QPS
Databricks a Superhuman opisujú presun z vlastného vLLM stacku na riadenú inferenčnú vrstvu, ktorá má zvládnuť špičky nad 200-tisíc požiadaviek za sekundu, sub-sekundové P99 a vyššiu efektivitu na H100 GPU.