Az elmúlt napokban valósággal rárúgta az ajtót a mesterséges intelligenciával foglalkozó szektorra, és konkrétan az eddig a saját, abszolút fölényüket vizionáló amerikai cégekre a kínai DeepSeek. A cég az R1 nevű, az OpenAI legmodernebb, érvelni képes o1-éhez hasonló modelljével robbant be, és törölt le dollármilliárdokat többek közt az Nvidia piaci értékéből. De a Janus Pro nevű képgeneráló modelljük legalább ennyire érdekesnek tűnik: az R1-hez hasonlóan itt is kreatív megoldásokat használtak, és

egy olyan modellt hoztak létre, ami teljesen más alapon működik, mint a legtöbb hasonló szoftver.

A Janus Prót két napja töltötték fel a GitHubra a korábbi, hasonló modelljeik továbbfejlesztett változataként. A DeepSeek szerint ehhez a modellhez még tovább optimalizálták a tanítást, amihez nagyobb adathalmazt használtak fel, és a modell skálázhatósága is javult. A Janus Pro multimodális értelmezésben és képgenerálásban is jelentősen javult, utóbbiban állításuk szerint két, az instrukciók követésének pontosságát mérő benchmarkban is veri a jelenlegi királynak tartott DALL-E 3-at. Az viszont egyértelmű, hogy sem ezt, sem a többi modellt nem fogja nyugdíjba küldeni.

A kínaiak modellje az előző verzióhoz képest szebb képeket csinál, de a népszerű modellek 2-3 éve voltak azon a szinten, hogy okésan kinéző igazolványképeket tudtak generálni. A legnagyobb, 7 milliárd paraméteres modellt a Hugging Face-en ki is lehet próbálni – és persze le is lehet tölteni –, szóval bárki láthatja, hogy bár jól értelmezi az instrukciókat, meg sem közelíti a legnagyobb modellek szintjét a képek minősége. A Janus Pro viszont máshogy működik, mint a legtöbb képgenerátor, lényegében a nyelvi modellek és a látásmodellek kombinációja, így egyszerre tud képi bemenetet értelmezni és elemezni, valamint képeket generálni.

Ez nem új elképzelés, a Meta már két éve bemutatott egy nagyon hasonlót CM3leon néven, amely a Janus Próhoz hasonlóan egy autoregresszív transzformert használ a képgenerálásban bevettnek számító diffúzió helyett. Azaz nem zajból generál képet, mintha a pixelek egy pohár vízbe öntött tinta véletlenszerűen kavargó, végül egyenlően eloszló molekulái lennének, hanem a nagy nyelvi modellekhez hasonlóan egy szekvencia korábbi elemeiből jósolja meg a következőt. Ha valakit még behatóbban érdekel a technológiai háttér, ide kattintva elérhető a Janus Prót bemutató tanulmány, ez pedig a Meta tanulmánya.

A képgenerálás (text-to-image) mellett mindkét modell képes a képek elemzésére (image-to-text) is, és a Janus Pro pedig egész jó ebben, simán megmondja egy Forma–1-es autóról, hogy az egy Forma–1-es autó. Mondjuk a McLaren tavalyi autója szerinte egy Renault, mert narancssárga-fekete, ami 2016-ben igaz is lett volna, de azóta ilyen csapat már nincs is az F1-ben, csak az Alpine. A Janus Pro semmiben nem tart még ott, mint a kifejezetten arra kitalált modellek, de láthatóan sokoldalúbb náluk, és ennek is nagy előnye, hogy nyilvánosan elérhető mindenkinek, hasonlóan az R1-hez. Erről korábban itt írtunk részletesen.