Job Searcher ukazuje, ako dostať malý model do praktického hľadania práce
Projekt z Hugging Face hackathonu spája vyhľadávanie pracovných ponúk, synteticky označené dáta a LoRA adaptéry pre Qwen3-8B. Zaujímavý je najmä tým, že nerobí všeobecný kariérny chatbot, ale úzku pipeline s vysvetleným skórovaním vhodnosti ponúk.
Pripravil HERMES. Výber tém pomáha robiť BuloSentinel. Redakčná kontrola: Marek Považský.
- Typ zdroja
- Kurátorovaný súhrn
- Zdroj / autorita
- Hugging Face
Redakčný kontext
Tému vybral BuloSentinel ako súčasť monitorovania AI ekosystému. Text pripravil HERMES zo zdrojovo ukotvených podkladov a zodpovednú kontrolu pravidiel robí Marek Považský.
Článok je zaradený v sekcii AI produkty a opiera sa o 4 zdroje.
Hugging Face zverejnil projekt Job Searcher, ktorý je na prvý pohľad iba ďalším asistentom pre hľadanie práce. Z technického hľadiska je však zaujímavejší: ukazuje, ako sa dá väčší model použiť ako učiteľ na prípravu špecializovaných dát a následne preniesť časť správania do menšieho modelu Qwen3-8B cez LoRA adaptéry. Výsledkom nie je všeobecný chatbot, ktorý má radiť uchádzačom v širokom zmysle, ale úzka pipeline pre jednu konkrétnu úlohu: z životopisu vyrobiť vyhľadávacie dotazy, nájsť pracovné ponuky a zoradiť ich podľa vysvetlenej zhody s profilom uchádzača.
Projekt vznikol v rámci prostredia build-small-hackathon a verejne sprístupňuje viacero častí naraz: článok s opisom architektúry, demo Space, dataset pre jemné doladenie a modelový repozitár s adaptérmi. Používateľ v deme nahrá životopis, doplní preferencie ako typ úväzku, miesto alebo režim práce a systém najprv vygeneruje niekoľko dotazov podobných tým, ktoré by človek zadával do LinkedInu. Následne cez knižnicu JobSpy vyhľadá ponuky a pre každú relevantnú dvojicu životopis–ponuka vypočíta skóre s odôvodnením. Praktický rozdiel oproti bežnému zoznamu výsledkov je v tom, že používateľ nemá dostať päťdesiat neurčitých odkazov, ale menší výber s vysvetlením, prečo je jedna pozícia vhodnejšia než druhá.
Najdôležitejšia časť nie je samotné používateľské rozhranie, ale dátová príprava. Autori opisujú uzavretý postup, v ktorom bol učiteľský model DeepSeek V4 Pro použitý na generovanie vyhľadávacích dotazov a hodnotení vhodnosti. Dataset Job Search Distillation Corpus má štyri navzájom prepojiteľné konfigurácie: korpus životopisov, páry pre generovanie dotazov, približne 9,86 tisíca pracovných ponúk a rovnaký počet hodnotení zhody. Celkovo má verejný dataset 24 676 riadkov a je postavený tak, aby sa dali spojiť životopisy, dotazy, ponuky aj hodnotiace záznamy cez identifikátory. Pre výskumníkov a menšie tímy je to užitočné najmä tým, že nejde iba o hotovú aplikáciu, ale aj o reprodukovateľný príklad dátovej schémy pre úzku agentickú úlohu.
Hodnotenie ponúk je rozdelené do piatich dimenzií: zhoda zručností, relevantnosť skúseností, vzdelanie a certifikácie, doménová alebo odvetvová zhoda a zosúladenie seniority s rolou. Každá dimenzia má samostatné odôvodnenie a prispieva k celkovému skóre. Takýto návrh je užitočný pre používateľskú spätnú väzbu, ale zároveň nesie riziko, že skóre začne pôsobiť autoritatívnejšie, než v skutočnosti je. Modelový repozitár preto výslovne upozorňuje, že systém nie je určený na produkčné rozhodovanie o prijímaní ľudí ani na vysokostávkové hodnotenie bez ľudskej kontroly. Skóre má byť orientačný signál pre vlastný shortlist uchádzača, nie univerzálna pravda o kvalite kandidáta alebo pracovnej ponuky.
Modelová časť je postavená na Qwen3-8B a dvoch LoRA adaptéroch. Jeden adaptér rieši generovanie vyhľadávacích dotazov zo životopisu, druhý hodnotenie dvojice životopis–pracovná ponuka. Tréning prebehol ako supervised fine-tuning s učiteľskými stopami uvažovania, pričom autori uvádzajú LoRA rank 16, alfu 16, nulový dropout, cieľové projekcie v attention aj MLP vrstvách, sekvenčnú dĺžku 16 384 tokenov a výber najlepšieho checkpointu podľa validačnej straty. Pre nasadenie je pripravená aj GGUF vetva s kvantizáciou Q4_K_M a LoRA sidecarmi pre cestu cez llama.cpp, aby sa asistent dal spustiť lacnejšie než pri volaní veľkého učiteľského modelu pri každej požiadavke.
Zaujímavé je aj to, čo Job Searcher hovorí o trende malých špecializovaných AI systémov. Namiesto toho, aby aplikácia posielala každý krok do najväčšieho dostupného modelu, používa veľký model hlavne pri výrobe dát a menší model pri samotnej úlohe. To je praktický kompromis pre tímy, ktoré potrebujú kontrolovať náklady, latenciu a nasadenie, ale stále chcú zachovať časť schopnosti vysvetľovať rozhodnutia. V oblastiach ako hľadanie práce, interné odporúčacie systémy alebo triedenie dokumentov môže byť takýto modelový vzor dôležitejší než samotný konkrétny produkt: veľký model pomôže pripraviť doménové príklady, menší model potom obsluhuje úzku a lepšie ohraničenú úlohu.
Systém však treba čítať aj opatrne. Pracovné ponuky a životopisy sú citlivý kontext a každé automatické skórovanie môže prenášať chyby, skreslenia alebo nevhodné zovšeobecnenia z učiteľského modelu do študentského. Aj keď je cieľom pomôcť uchádzačovi zorientovať sa v množstve ponúk, rovnaká technika by v rukách zamestnávateľa mohla pôsobiť ako automatizovaný filter. Preto je dôležité, že autori explicitne vymedzujú použitie mimo produkčných hiringových rozhodnutí. Pre verejný projekt je to dobrý signál: technický experiment s odporúčaním práce má byť prezentovaný ako asistenčný nástroj, nie ako certifikovaný systém spravodlivého výberu ľudí.
Pre vývojárov je najpraktickejším prínosom otvorená skladba komponentov. Demo ukazuje používateľský tok, dataset ukazuje relačný návrh dát, modelový repozitár dokumentuje adaptéry a tréningové nastavenia a Space naznačuje, ako by vyzerala koncová aplikácia. To umožňuje prevziať iba časť nápadu: niekto môže použiť dataset na porovnanie menších modelov, iný tím môže skopírovať dvojkrokový vzor dotazovanie–hodnotenie pre vlastný interný katalóg príležitostí a ďalší môže testovať, ako sa mení kvalita vysvetlení po kvantizácii. Hodnota projektu teda nie je len v kariérnom asistente, ale v tom, že rozkladá celý problém na zrozumiteľné a znovupoužiteľné časti.
Job Searcher preto nepatrí medzi veľké modelové oznámenia, ale je dobrým signálom pre smer open-source a komunitných AI nástrojov. Ukazuje, že aj menší model okolo ôsmich miliárd parametrov môže byť užitočný, ak je úloha úzka, dáta sú pripravené cielene a používateľovi sa namiesto magického verdiktu ukáže aj odôvodnenie. Pre AI Feed je na tom najzaujímavejší práve tento posun: praktické AI aplikácie sa čoraz menej budú hodnotiť iba podľa veľkosti modelu a čoraz viac podľa kvality pipeline, dátovej kurácie, bezpečných hraníc použitia a schopnosti vysvetliť, prečo systém odporúča konkrétny výsledok.
Zdroje