Az OpenAI új modelljével már tényleg csak egy lépésre vagyunk a sci-fik virtuális asszisztenseitől

2024. május 13. – 18:34

Forrás: OpenAI

777

Egészen lenyűgöző új modellt jelentett magyar idő szerint hétfő este a mesterséges intelligenciában élen járó OpenAI, amely natívan képes valós idejű, gyakorlatilag teljesen késleltetésmentes beszélgetést folytatni, nemcsak írott szöveg, hanem videók, képek és hangok alapján is. A GPT-4o-nak nevezett modell a következő hetekben fokozatosan érkezik majd meg, a cég pedig azt is bejelentette, hogy a jelenlegi csúcsmodellel ellentétben mindenkinek ingyenesen elérhetővé teszi ezt.

A hétfői esemény előtt jó pár nappal beindultak már a találgatások, hogy pontosan mit fog bejelenteni az OpenAI. A Reuters nyomán a világsajtó nagy része kész tényként kezelte, hogy a Google továbbra is megingathatatlan keresőmotorjának csinálnának konkurenciát egy MI-alapú saját megoldással, a cég vezérigazgatója, Sam Altman azonban másnap az X-en (korábban Twitter) tette egyértelművé, hogy sem keresőmotort, sem a GPT-5-öt nem fogják bejelenteni. Azt viszont hozzátette, hogy

keményen dolgoztak valami olyan újdonságon, amit szerinte az emberek imádni fognak, és ami neki még mindig varázslatnak érződik, és a hétfőn látottak alapján ez egyáltalán nem is meglepő.

Az eseményen nem nagyon húzták az időt, rögtön az elején ledarálták a legfontosabb dolgokat, azaz hogy a ChatGPT kap egy asztali verziót és egy új kezelőfelületet, valamint hogy GPT-4o néven érkezik az új, mindenki számára ingyenesen elérhető modelljük. Mira Murati, a cég technológiai vezetője előbbiek kapcsán elmondta, a küldetésük fontos eleme, hogy az MI-modelljeik szabadon hozzáférhetőek legyenek, és használni is könnyű legyen őket, hiába válnak maguk a modellek egyre összetettebbé.

Ezután ugrottak fejest a GPT-4o-ba, ami egy GPT-4 szintű modell, de a jelenlegi csúcsmodellnél (ez GPT-4 Turbo, amit amúgy durván fél éve mutattak be) sokkal gyorsabb, és minden bemeneti módszernél jelentősen javulni tudott az elődjéhez képest. A fejlesztők által használható API is erre frissül, ez Murati szerint az előző modellnél kétszer gyorsabb és ötször annyi a sebességkorlátja, mindemellett viszont csak feleannyiba kerül. Az új modellben minden funkció benne lesz, ami eddig csak az előfizetőknek volt elérhető, de náluk továbbra is ötször akkora lesz a limit.

Murati elmondta, hogy a modellek az elmúlt években egyre jobbak lettek, de most a kezelését is számottevően leegyszerűsítették, így nagy lépést tettek afelé, hogy az emberek és gépek közötti interakció természetesnek hasson. A legfontosabb változás az, hogy a hangalapú bevitel, ahol eddig három modell dolgozott együtt (egy ami leiratozott, egy ami értelmezett és válaszolt, és egy, ami ezt felolvasta), a GPT-4o-ban natívan megy. Ez azt jelenti, hogy

a modell valós időben, késleltetés nélkül tud kommunikálni kamerakép, írott szöveg és élő beszéd alapján is, és a bemutató alapján olyan, mintha egyenesen egy sci-fiből szedték volna elő.

Ez elsőre túlzásnak tűnik, de a demók alapján tényleg olyasmit raktak össze, amire még egy éve is simán azt mondta volna az ember, hogy ezt biztosan előre rakták össze. Az új modellel felvértezett ChatGPT-hez ugyanúgy kell szólni, mint a Google Asszisztenshez vagy a Sirihez, csak azokkal ellentétben ezután úgy lehet vele valós időben beszélgetni, mint egy másik emberrel. Nemcsak azért, mert nem kell rá másodperceket várni, hanem azért is, mert ijesztően természetesnek érződik amit, és ahogy mond.

Az új modell felismeri az emberi hanglejtést és valós időben reagál is rá, a szóhasználatába se nagyon lehet belekötni, és még azt is felismeri, hogy valaki idegesen zihál vagy nyugodtan veszi a levegőt, és reagálni is tud rá. Félbe lehet szakítani a mondandóját, mint egy valódi embernek, és ő maga is képes különböző érzelmi stílusokat utánozni. Ezt úgy mutatták be, hogy egyre drámaibb hangvételben meséltettek vele mesét, és egyre drámaibb is lett. A végét énekelve kellett befejeznie, ami előtt konkrétan felsóhajtott, hogy miért szívatják ezzel.

Az ilyen, az információátadáshoz nem szükséges, de az emberi kommunikációban gyakori elemek amúgy végig megjelentek a modellnél, amikor videóra váltottak, és a ChatGPT még azelőtt elkezdett beszélni, hogy megmutatták volna neki, hogy mit akarnak tőle, olyanokat mondott, hogy „hupsz, kicsit elragadtattam magam”. A modell amúgy itt simán rávezette a megoldásra az OpenAI egyik szakértőjét egy papírra felírt elsőfokú egyenletnél, és mikor Murati a háttérből közbevágott, hogy oké, de mi haszna ennek a mindennapokban, még erről is tartott egy kiselőadást.

Emellett természetesen a kódolásban is tudott segíteni, nagyjából egy másodperc alatt felfogta, hogy mit csinál a kód, amit a képernyőn megmutattak neki, és össze is foglalta, aztán ugyanígy tett a grafikonnal is, ami a kód lefuttatása után megjelent. Ezen túl kiderült, hogy tud valós időben fordítani, sőt, még azt is meg tudta mondani az egyik szakértő arcáról, hogy éppen jókedve van (előtte pedig viccelődött egy sort, mert elsőre véletlenül az asztalt mutatták meg neki). Az egész olyan volt, mint ha

csak egy lépésre lennénk a Mass Effect holografikus virtuális intelligenciáitól – vagy a Her (magyarul A nő) című film MI-oprendszerétől, nem véletlenül írta ki Altman is ezt a bemutató után –, és ha a GPT-4o tényleg így működik, akkor ez akár még így is lehet.

A teljes közvetítést alább lehet visszanézni, az OpenAI csatornáján pedig az itt látott demókon túl is lehet még találni érdekességeket, a favicceléstől az interjús felkészülésen és a kutyával találkozáson át az egymással beszélgető és közösen éneklő GPT-4o-kig.