A szankciók ellenére is rárúgta az ajtót a kínai mesterséges intelligencia Amerikára

A szankciók ellenére is rárúgta az ajtót a kínai mesterséges intelligencia Amerikára
Fotó: Liselotte Sabroe / Ritzau Scanpix / AFP

Ha mesterséges intelligenciát emlegetünk, elsőre a legtöbb embernek alighanem a ChatGPT fog beugrani, főleg itthon, ahol a Facebookba épített Meta AI egyelőre még nem elérhető. Az OpenAI csetbotját több százmillióan használják rendszeresen, és a szektor egyik legnagyobb úttörőjeként sokat tett azért, hogy a neve összeforrjon az MI-modellekkel. A ChatGPT, és a nyílt forráskódú modellek miatt érdekes Meta mellett a Claude (Anthropic) és a Gemini (Google) küzdenek az első helyért, de

a múlt héten gyakorlatilag a semmiből megérkezett ebbe a versenybe a kínai DeepSeek egy új modellel, amely állításuk szerint megszorongatja, sőt, le is hagyja az OpenAI legjobbját.

Nem rossz egy két éve alapított cégtől, amely hardveresen hatalmas hátrányban van a Kínának eladható gyorsítókártyák amerikai szabályozása miatt. A DeepSeek viszont úgy tűnik, mégis olyan modellt alkotott, ami olcsóbban, és hatékonyabban tudja azt, mint az OpenAI hasonló modellje. Valószínűsíthető, a szankciók annyira felpörgették a kínai innovációt a szektorban, hogy már egyáltalán nem olyan egyértelmű a nyugati fölény, ahogy azt a Szilícium-völgyben eddig gondolták.

Mi ez a modell?

A január 20-án megjelent DeepSeek R1 az OpenAI tavaly ősszel bemutatott, o1 nevű modelljéhez hasonlóan megerősítéses tanulást használ. Vagyis a modell a tanuláshoz kap példákat, de ezek nincsenek levezetve, ezek alapján ki kell kísérleteznie a helyes megoldást. Ehhez levezet egy gondolatmenetet, lehetséges válaszokat generál, majd visszajelzést kap, hogy melyik volt a legjobb, és ez alapján tud fejlődni és tanulni. Ebből következően itt nem a modell vagy az adatbázis mérete a lényeg – minél nagyobb számítási kapacitást szánnak a gondolkodásra, annál jobb lesz az eredmény.

A folyamat eléggé hasonlít az emberi tanuláshoz, és a leghangsúlyosabb részének számító gondolatmenetek is pont úgy néznek ki, ahogy mi is eljutunk a válaszig, ha egy nehezebb problémán kell gondolkoznunk. Az egész annyira zavarba ejtően emberi, hogy nehéz nem antropomorfizálni az R1-et, amely egy filozófiai kérdésre adott nem válaszig úgy jut el, hogy közben állandóan megkérdőjelezi önmagát, és hümmögve agyal azon, hogy önálló gondolatok nélküli mesterséges intelligenciaként az általa helyesnek gondolt válasz nem biztos, hogy az, amit a kérdező elvár tőle.

Az R1 és az o1 arra lettek kitalálva, hogy összetett feladatokat oldjanak meg, és logikai rejtvényekben, matekfeladványokban és kódolásban jobbak is a hagyományos nagy nyelvi modelleknél. Amikor az OpenAI szeptemberben bemutatta az o1-et, azt állította, hogy a modell több teszten elérte az emberi szakértők szintjét. A DeepSeek most azt mondja, az R1 hat tesztből négyben veri az o1-et, ráadásul úgy, hogy közben az OpenAI modelljeivel ellentétben nyíltan hozzáférhető. A tanításhoz használt adatokat viszont nem tették közzé, hasonlóan ahhoz, amit a Meta csinál a Llamával.

Az R1 regisztráció után elérhető a DeepSeek honlapján egy ChatGPT-hez hasonló csetbotban, de a GitHubról is le lehet tölteni, aztán futtatni egy erre kitalált interfész, például a nollama segítségével. A teljes, 671 milliárd paraméteres modell 404 gigabájt, és komoly hardverre van szükség a futtatásához, de a kisebb változatok csak pár gigát foglalnak, és akár egy laptopon is simán elfutnak. Az R1 emellett sokkal olcsóbb is az o1-nél: az API-on keresztül egymillió tokenenként durván 2 dollárt kérnek a használatáért. Összehasonlításképp az o1-nél ugyanez jelenleg 60 dollárba kerül.

Mi ez a cég?

A DeepSeek a Kínában roppant sikeres, High-Flyer nevű hedge fund (aránylag kevéssé szabályozott befektetési alap) egyik ágaként indult Fire-Flyer néven, és évekig építgette a szuperszámítógépeit a legmodernebb videókártyákkal, hogy hatékonyabban tudjon adatokat elemezni. Az alapító, Liang Ven-feng 2023-ban találta ki, hogy a hedge fund erőforrásait MI-kutatásra fordítja, ami elég merész húzás volt. Egy interjúban ő is beismerte, hogy gazdaságilag indokolhatatlan volt a cég megalapítása, de hozzátette, nem is ez volt a lényeg, őt inkább a kíváncsiság hajtotta.

Azóta kiderült, hogy megérte kíváncsinak lenni: a DeepSeek a kínai techóriások pénze nélkül lett éllovas az MI-ben, és úttörője a kínai cégek új generációjának, ahol a minél gyorsabb megtérülés helyett a hosszú távú technológiai fejlődést tartják szem előtt. Liang szerint a cég egyik titka az, hogy a frissen végzett egyetemisták krémjére vadásztak, és hagyták, hogy együttműködjenek a legfurcsább projekteken is. Marina Zhang, a Sydney-i Műszaki Egyetem kínai innovációval foglalkozó professzora a Wirednek azt mondta, a kínai egyetemisták felszipkázása azért is volt jó húzás,

mert ők a személyes ambícióik mellett azt is meg akarják mutatni a világnak, hogy Kína az amerikai szankciók ellenére is vezet az innovációban.

Az önmagában is figyelemre méltó lenne, hogy egy ismeretlen cég csinált egy modellt, ami lényegében azt tudja, amit a szektor szupersztárja, a jelenleg bő 150 milliárd dollár értékűre becsült OpenAI csúcsmodellje, ráadásul annál sokkal hatékonyabban és olcsóbban. Az, hogy ez a cég kínai, még hihetetlenebbé teszi az egészet, mert eleve óriási hátrányból indultak, miután az előző amerikai kormány megtiltotta az Nvidiának (és az AMD-nek) a legfejlettebb gyorsítókártyák kínai exportját. A kínai techóriások persze a tiltás életbe lépése előtt nagybevásárlásba kezdtek, és az Nvidia is csinált egy limitált kártyát, de a feltételek így sem voltak egyenlőek.

Kínában nem volt járható út az, hogy a végtelenségig skálázzák a hagyományos modelleket, a DeepSeek pedig ebből a helyzetből tudott végül előnyt kovácsolni. A cégnél a hardverínség miatt addig optimalizálták a saját architektúrájukat, hogy az erre épülő modell tanítása sokkal hatékonyabbá vált. Egy elemzés szerint annyira, hogy tizedannyi számítási kapacitásra van szükség az R1 tanításához, mint a Meta kevesebb paraméterből gazdálkodó Llamájának 3.1-es változatánál.

Az, hogy a DeepSeek a szignifikáns eredményeit hajlandó volt nyilvánosságra hozni, nem annyira meglepő, mert a kínai cégek ezzel tudnak felhasználókat és kutatókat bevonzani. A döntésnek viszont így is nagyon pozitív volt a visszhangja, a nagy presztízsű, a16z nevű kockázatitőke-befektető egyik alapítója, Marc Andreessen azt írta, ez az egyik legbámulatosabb áttörés, amit valaha látott, és hatalmas ajándék a világnak, hogy nyíltan elérhető. Yann LeCun, a Meta első számú MI-mágusa pedig a nyílt forráskódú projektek sikereként írt az R1-ről.

A DeepSeek egy héttel az R1 megjelenése után már globális jelenség lett, a mobilos alkalmazásukat hétfőn többen töltötték le, mint a ChatGPT-t. A DeepSeek sikerének hírére hétfőn zuhanni kezdtek az MI-ben érdekelt amerikai techcégek részvényei, piacnyitás előtt az Nvidia 10 százalékot vesztett az értékéből. Az, hogy a DeepSeek technológiája mennyire skálázható, és hogyan teljesít a teszteken kívül, valószínűleg csak a jövőben fog kiderülni. Az viszont biztos, hogy Amerikának át kell értékelnie mindent, amit eddig gondolt a kínai MI-ről.

Kedvenceink
Partnereinktől
Kövess minket Facebookon is!