Racka, a hazai mesterséges intelligencia, amit rendesen megtanítottak magyarul

frissítve

Fotó: Telex

Állítsd be a Telexet megbízható forrásnak!

Talán nem túl merész kijelentés, hogy időnként valószínűleg ön is szokta használni a mesterséges intelligenciát. A ChatGPT havi aktív felhasználóinak a száma nemrég elérte az egymilliárdot, a Google éppen MI-poklot csinál a keresőmotorjából és úgy általában is egyre gyakrabban lehet hallani azt emberektől, hogy „megkérdeztem a ChatGPT-t/Claude-ot, és azt mondta…”. Hogy ez jó-e, vagy rossz, arról hosszasan lehetne vitatkozni, de mindenképpen együtt kell vele élni. Ennek egyik fontos eleme, hogy ha már a magyarok is rengeteget használják az MI-t, akkor tudjanak is vele rendesen magyarul beszélgetni.

Ha most azt gondolta, hogy „de hát most is lehet vele magyarul beszélgetni”, akkor tulajdonképpen teljesen igaza van. Valóban, már évekkel ezelőtt is tudtak magyarul a legnépszerűbb MI-modellek. Vagy legalábbis úgy tettek, de ha valaki sokat beszélgetett velük, annak biztosan feltűnt, hogy időnként azért hiba csúszik a gépezetbe, hol egy fura szóhasználat, hol egy látványosan angolszász logikájú mondatszerkezet bukik ki. Ezt a problémát orvosolhatják a kifejezetten magyar nyelvű nagy nyelvi modellek, és ilyenek már vannak is. Korábban a Nyelvtudományi Kutatóközpont csinált ilyet a PULI-val, nemrég pedig egy összetettebb modell is megjelent, a Racka.

Ezt az ELTE Informatikai Kar Mesterséges Intelligencia Tanszékének kutatói készítették a Digitális Örökség Nemzeti Laboratóriummal együttműködésben, és már dolgoznak egy még nagyobb léptékű modellen a szintén magyar Mynds.ai nevű céggel.

Ennek nyomán beszélgettünk Palkó Gáborral, az ELTE MI Tanszéke és a Mynds.ai munkatársával, valamint a cég ügyvezetőjével, Radványi Miklóssal arról, hogy miért van szükség a Rackára, hogyan jött létre, mire lehet már most is használni, és hova fejlődhet még. Illetve arról is, hogy mi kellene ahhoz, hogy az ehhez hasonló fejlesztések meg tudjanak valósulni, és mit gondolnak a tavaly újra előszedett, az akkori ígéretek alapján évente frissítendő MI-stratégiáról, és a jelenlegi kilátásokról.

Mi az a Racka?

A Racka, illetve a Racka-4B modell az első, magyar szakemberek közreműködésével készült, magyar nyelvű érvelő nagy nyelvi modell (LLM), aminek az eddigi ilyen modellekkel ellentétben már logikai és érvelő képességei is vannak. Az érvelő, vagy más néven gondolkodó modellek két éve jelentek meg a köztudatban az OpenAI o1-ével, és nagyon leegyszerűsítve úgy lehet leírni őket, hogy válaszadás előtt végigrágják magukat a kérdésen, és egy végigkövethető gondolatmenettel jutnak el a megoldáshoz. Ezek a modellek fontos előrelépést hoztak a műfajban, különösen olyan feladatoknál, amelyeknél nem egyértelmű a válasz – mint, mondjuk, egy matekpélda, vagy egy logikai feladvány.

A Racka-4B egy elég kicsi, mindössze 4 milliárd paraméteres modell, és azt Palkó viszonylag hamar leszögezte, hogy hiába vetekszik a kutatók szerint akár kétszer akkora modellekkel is a teljesítménye a magyar nyelvi feladatokban, nem arra való, hogy átlagemberek használják. Ez inkább egy kísérleti modell, ahol nagyon fontos szempont volt a know-how megszerzése. A Racka esetében, mondjuk, pont volt már példa arra, hogy egy igazságügyi szakértő a gyakorlatban hasznosított egy ezen alapuló kísérleti eszközt, amivel nagy mennyiségű dokumentumot lehet átfésülni, de közben egy pici külső tárolón is elfut.

Az nyilvánvaló, hogy a Racka nem lesz soha a ChatGPT versenytársa, és Palkó szerint azt is pontosan tudják, hogy nem is fogják utolérni a piacvezető modellek nyelvi és tudásbeli képességeit.

Az érvelő kapacitáson túl a Racka még két dologban más, mint az eddigi magyar fejlesztések. Az egyik, hogy ez az első modell, amit HPC-n, vagyis adatközpontban, konkrétan a Komondor nevű szuperszámítógépen tanítottak. Így skálázható, a meglévő tudással nagyobb modellt is lehet csinálni. A másik pedig, hogy ebben sokkal nagyobb a kulturális örökségi tartalmak aránya, mint az eddigi kísérletekben. „Az volt az egyik elképzelésünk, hogy a csak weboldalakból összegyűjtött adathalmazon tanult modell butább lesz, mint ha könyvek, disszertációk, tehát értékes kulturális örökségi tartalmak kerülnek bele a korpuszba” – mondta Palkó Gábor.

A Racka tanításánál az eredeti, a kínai Alibaba Cloud által fejlesztett, nyílt forráskódú Qwen3-4B modell mintegy 150 ezer elemből álló szótárából eltávolítottak 32 ezer, a projekt szempontjából lényegtelen tokent, ezek helyére pedig kifejezetten a magyar nyelvre optimalizált tokeneket illesztettek be, és úgy hangolták át a rendszert, hogy előnyben részesítse ezek használatát. A magyar szöveg aránya így is csak 44 százalék volt, az úgynevezett katasztrofális felejtés elkerülése miatt – ez azt jelenti, hogy ha egy korábban sok mindenre megtanított modellt csak magyarul tanítanak, akkor az elfelejthet fordítani, vagy éppen kódolni. Így a Rackánál angol és német nyelvű adatok mellett programkód is került a korpuszba.

Miért jó, hogy van ilyen?

Felmerülhet a kérdés, hogy miért van szükség nyelvmodell fejlesztésre, amikor a kutatók is elismerik, hogy vannak nagyon jó nyelvmodellek, amelyek nyilvánvalóan messze jobbak, mint a PULI vagy a Racka, és nyilván az átlagembert is az érdekli, hogy egy új fejlesztés jobb-e bármiben, mint a ChatGPT. Pláne mert, ahogy az a modellt bemutató tanulmányban is szerepel, a Racka-4B nemcsak kicsi modell, hanem érvelőnek is leginkább azért lehet nevezni, mert az alapjául szolgáló Qwen3-4B is az volt, és a továbbtanítás során nem vesztette el ezt a képességét. Magát a gondolkodást angolul csinálja, és ez alapján tud magyar nyelvű válaszokat adni, de ahogy azt Palkó is kiemelte, nyilvánvaló, hogy

más eredményre jut egy olyan gondolkodás ami angolul folyik, mint egy olyan, ami magyarul, ezért komplexebb, nyelv- vagy kultúraspecifikus feladatoknál egyáltalán nem jó, ha ennek nyelve nem a magyar.

A Racka létezése viszont így is nagyon fontos. Palkó szerint egyrészt rendkívüli kiszolgáltatottságot jelent egy magyarhoz hasonló, kis vagy közepes erőforrású nyelv esetében, ha csak nemzetközi, nagy techcégek által készített nyelvi modellek állnak rendelkezésre. Ezek eleve gyengébben tudnak magyarul, mint angolul vagy németül, például azért, mert sokkal kisebb a tanítókorpusz, amit magyar nyelven ezekbe betöltenek a tanítás során, mint a világnyelvek esetében. A magyar nyelv a tapasztalataik szerint egyre hátrébb is sorolódik, mert a gondolkodási képességet erősítő tanítóadatok, ahol részletes feladatmegoldásokat táplálnak be a modellekbe, nem magyarul vannak. Ahhoz, hogy legyenek ilyenek magyarul is, elő kell állítani őket manuálisan, vagy szintetikusan – előbbihez rengeteg emberi munka, utóbbihoz számítási kapacitás kell.

Másrészt pedig ott van az is, hogy ha mindenki kész, polcról levehető, vagy inkább sok pénzért megvehető szolgáltatásokat használ, akkor a magyar nyelvtechnológia nem fejlődik, és gyakorlatilag nem tanulunk. „A hasonló, kis méretű LLM-ek fejlesztésében az is nagyon fontos szempont, hogy alakuljon ki egy olyan MI-fejlesztési tudás, ami aztán nemcsak LLM-ek fejlesztésében, hanem az ezekre épülő szolgáltatások kialakításában is elengedhetetlen lesz” – mondta Palkó. Radványi azt is hozzátette, hogy nem ugorhatnak egyből a 30, vagy 120 milliárd paraméteres modellekre, mert azokhoz sokkal több tanítóadatra és sokkal több gépidőre is van szükség. Azt ő is hangsúlyozta, hogy általánosságban nem a nagy modellekkel kell versenyre kelniük, és az átlagember nem is fogja a Rackához hasonló modelleket használni azok helyett, de vannak területek, ahol kifejezetten ezekre van szükség.

„Ilyenek például a jogi szövegek, vagy a nagyon érzékeny adatok, mint az egészségügy, az állami, állambiztonsági, nemzetbiztonsági témájú felhasználás, vagy akár önkormányzati. Ezeknél megvannak a kritériumok, amiket teljesíteni kell, és jelenleg csak ezeket megkerülve sikerül beépíteni az MI-t. Vagy egyszerűen azt mondják, hogy ők ezt nem tudják vállalni, hogy kimenjen az adat akár csak európai szerverekre” – mondta Radványi. Palkó szerint összességében a Racka nagyon speciális feladatokra már most is alkalmas, és a mérések szerint a legjobb ilyen eszköz ma, de komplex feladatokra nem jó, mert egyszerűen túl pici. Szerinte ugyanakkor egy éven belül ki lehet jönni olyan modellekkel, amik már nagyon-nagyon sok feladatra lehetnek alkalmasak.

Mi jöhet ezután?

Az ebből is látszik, hogy nagyjából mire lehetne használni a Rackát, vagyis inkább az ezen alapuló későbbi, nagyobb modelleket, és Palkó kiemelte, hogy a kutatócsoportjukban az a konszenzus, hogy már egy 30 milliárd paraméteres modell is rendkívül sok komplex szolgáltatásba beépíthető lehet. Ennek a megalkotása pedig, pláne esetleges állami támogatással, lehetséges is, hiszen a Racka természetéből adódóan jól skálázható. A kutató elmondta, hogy a Mynds.ai-jal közösen el is kezdték már az előkészítését egy következő projektnek, ahol a mostaniaknál jóval nagyobb, komplex feladatokat önállóan is kivitelezni képes, ágensrendszerekbe jól beépíthető modelleket szeretnénk létrehozni.

A mostani projektekben emellett megjelenik a digitális szuverenitás kérdése is, ami az amerikai modellek használatával gyakorlatilag elvész. Ez európai szinten is központi cél, hiszen az európaiak döntő többsége amerikai vagy kínai modellt használ – a kínai cégeknek kiemelt céljuk, hogy az amerikai hegemóniát csökkentsék, ezért is tesznek ingyen elérhetővé egészen jó minőségű modelleket. Radványi szerint, ha az európaiak amerikai modelleket használnak és azokat a saját, értékes adataikon újratanítják, akkor az amerikai modellek fejlődését segítik elő, és gyakorlatilag folyamatosan versenyhátrányban lesznek. Vagyis már vannak, és ők ennek ledolgozásában próbálnak magyar viszonylatban részt venni.

Ebben segíthet, hogy most már egy cégnek nincs szüksége több százmilliós beruházásokra akkor sem, ha azt szeretné, hogy az adatait ne kelljen felküldenie a felhőbe – a Rackához is használt Qwen-modellek pár milliós infrastruktúrán is el tudnak futni. És ha megfelelően vannak konfigurálva, akkor Radványi szerint nagyon jó minőségű munkát is tudnak végezni. Palkó szerint ugyanakkor Magyarország még Európán belül is versenyhátrányban van, hiszen a Tilde Open képében létezik már a nulláról felépített, 30 milliárd paraméteres LLM, és a lengyeleknek is vannak hasonló, sőt nagyobb modelljeik. Ezek abban is előbbre járnak, hogy céges használatra is közzétehetők, míg a Racka üzleti célokra nem használható,

ennél ugyanis nem vizsgálták, hogy a tanításhoz használt adatok legnagyobb részét adó Common Crawlban vannak-e olyan oldalak, ahol a tulajdonos letiltotta az adatbányászati célú felhasználást.

A fejlesztők viszont a jövőben szeretnének a piacon is megjelenni a modelljeikkel, nemcsak Magyarországon, hanem a kelet-közép-európai régióban is. Palkó elmondta, hogy a következő lépésben célzottan a környező országok nyelveivel akarják a magyar korpuszt kiegészíteni, és olyan modelleket létrehozni, amelyeket nemcsak nálunk, hanem, mondjuk, Szlovákiában vagy Romániában is lehet majd használni. Ehhez persze rengeteg megnyert pályázat kell, amikre a kutatók folyamatosan jelentkeznek is – a Tilde Open tanításához is használt LUMI-hoz is adtak be pályázatot, a következő, nagyobb léptékű modellt pedig a barcelonai MareNostrum 5 szuperszámítógépen akarják tanítani. Ezen már sikeresen le is zártak egy teljes pilot projektet, ami a későbbi, nagyobb léptékű pályázatok alapja lesz majd.

Az állam nélkül nem fog menni

A másik dolog, ami kell hozzá, az az állami támogatás, vagy legalábbis állami megrendelések. A tavaly frissített magyar MI-stratégiában már szó volt arról, hogy állami támogatással megkezdődik „az elitet megcélzó” magyar nyelvű nagy nyelvi modellek fejlesztése. A Digitális Örökség Nemzeti Laboratórium nevesítve volt a stratégiában, és fejlesztettek is például magyar nyelvű kézírásfelismerő-modellt, amivel kereshetővé tették Arany János hivatali iratainak 30 ezer oldalát. Nagy, állami, közcélból fejlesztett modell viszont sem Radványi, sem Palkó szerint nem volt még. Palkó azt is elmondta, hogy az elmúlt öt-hat évben MI-fejlesztéssel és alapkutatással

a Digitális Örökség Nemzeti Laboratórium és a Mesterséges Intelligencia Nemzeti Laboratórium foglalkozott, mostanra viszont az egész nemzeti laboratórium projekt elhalt.

Palkó úgy véli, hogy ha a stratégia mögött nem lesz állandó, biztos költségvetés, akkor az lesz, mint most, hogy a Racka részben garázsprojektként valósult meg, és voltak olyan kutatók, akik egy fillért sem kapnak a munkájukért, és csak azért vettek részt benne, mert érdekelte őket az egész. „A Nyelvtudományi Kutatóközpont évek óta fejleszti a PULI-családot, de nem kapnak megfelelő anyagi támogatást erre, ahhoz képest, hogy ez egy nemzeti szuverenitási kérdés. Szóval az egész kutatás-fejlesztési része Magyarországon teljesen kiszámíthatatlan és alulfinanszírozott, és ez nagy probléma” – mondta Palkó.

Radványi azt mondta, reménykednek abban, hogy Tanács Zoltán miniszteri kinevezése után konzekvensebb stratégiai program indul majd, de az új kormány csak nemrég állt fel, úgyhogy egyelőre kevés az információ. Azt viszont kijelentette, hogy nemzeti szuverenitási érdek, hogy az MI-stratégia következő verziójában megjelenjen az ilyen jellegű projektek támogatása. Mindez azért érdekes, mert ahogy azt korábban megírtuk, Tanács a miniszteri meghallgatásán sokat beszélt az MI-ről, elmondta, hogy fontosnak tartja az olcsó, államigazgatásban biztonságosan használható MI-t, hogy az ügyintézők ne suttyomban töltsék fel a ChatGPT-be a hivatalos iratokat, és azt is kiemelte, hogy egy modern, digitális államnak felelősséggel kell hozzáállnia az MI-hez, és észszerűen kell szabályoznia.

Abban Palkó is 99 százalékig biztos, hogy a kormánytisztviselők pont úgy használják az MI-t, ahogy Tanács leírta, ami szerinte nagyon veszélyes. Emiatt is lenne szükség arra, hogy az állam hangsúlyosabban jelenjen meg ezen a területen, és a hozzájuk hasonló csapatok ne garázsprojektekben foglalkozzanak 4 milliárd paraméteres modellek fejlesztésével, hanem kormányzati megrendelésre csináljanak, mondjuk, 30, vagy akár több százmilliárd paramétereseket. Szerinte egy ilyen együttműködés hosszabb távon elkerülhetetlen, Radványi pedig úgy vélekedett, hogy ez állami érdek is, és szerinte el fognak indulni ezek a projektek. Hogy pontosan mit kellene csinálni, arra Palkó sommás választ adott:

„Meg kell nézni Európában, hogy mi történik Svédországban, Lengyelországban és azt elég lemásolni.”

Arra a kérdésre, hogy Magyarországon is lehet-e akkora szuperszámítógép, mint amikre most pályáznak, Palkó azt mondta, biztos hogy szükség van új szuperszámítógépekre a szorosabb európai együttműködés mellett, de hogy ezek mekkorák lehetnek, azt nem tudja. A Rackához is használt, jelenleg legerősebb hazai gép Komondor utódának, a Leventének a megépítését még 2022-ben jelentették be, de egyelőre még nem valósult meg a projekt. Radványi szerint egyébként nem is feltétlenül olyan szuperszámítógépekre vagy adatközpontokra lenne szükség, amelyeken betanítani lehet egy modellt, hanem olyanokra, amelyeken futtatni lehet őket. Így ezeket igénybe vehetnék az üzemeltetési költségektől vagy az adatbiztonsági kockázatoktól esetleg ódzkodó vállalatok is.

Kedvenceink

Partnereinktől

Állítsd be a Telexet megbízható forrásnak!

Beállítom

Kövess minket Facebookon is!