A mesterséges intelligencia sebességet váltott
2023. március 18. – 18:01
Bő egy hónap telt el azóta, hogy a Microsoft bemutatta a Bing mesterséges intelligenciával felturbózott változatát, és annak ellenére, hogy a keresőmotor használata közben mi is tapasztaltunk furcsaságokat, nagyon izgalmas volt használni a leginkább a ChatGPT-ből ismert GPT-modell erősebb, sokoldalúbb változatát. Az új Bing és az ezzel felvértezett új Edge egy hónap alatt sokat fejlődött, a Microsoft pedig a pszichopata chatbotról szóló cikkek és posztok ellenére is elégedett lehet, mert a keresőnek már több mint 100 millió aktív felhasználója van.
A cégnél láthatóan nem is akarják levenni a lábukat a gázpedálról, a héten ugyanis két nagy, mesterséges intelligenciához, illetve azon belül is nagy nyelvi modellekhez kapcsolódó bejelentés érkezett a holdudvarukból. Az egyik a két hete a német Microsoftnál emlegetett, a céggel szorosan együttműködő OpenAI által fejlesztett GPT-4 bemutatkozása volt kedden, a másik pedig egy csütörtöki előadás, ahol a cég bejelentette, hogy a Microsoft 365 Copilottal az üzleti alkalmazásaiba is beépíti az MI-t. Összeszedtük, mi mindent jelentettek be a héten, és miért jó ez az egész.
Színre lépett a GPT-4
Ha már ezt jelentették be előbb, kezdjük mi is a GPT-4-gyel, amely az elődjéhez képest rengeteget fejlődött, és új funkciókkal is bővült. A modell elődje, a GPT-3 már a tavaly júniusi nagy MI-hullámban is feltűnt a DALL-E Mini montázsok mellett, de igazán nagy népszerűségre csak tavaly év végén, a ChatGPT megjelenésével tett szert. Ezt a GPT-3 finomhangolt változata, a GPT-3.5 hajtotta, és bár azzal, hogy kifejezetten chatbotnak volt szánva, a sokoldalúságából talán veszített, jóval gördülékenyebb és egyszerűbb lett a használata, így nem meglepő, hogy óriási siker lett belőle.
A Bing is az OpenAI segítségével született újjá, de az már a bemutatkozásakor kiderült, hogy az abba integrált GPT-modell amellett, hogy kifejezetten a keresésre lett optimalizálva, erősebb is annál, amely a ChatGPT-t hajtja. A keddi bejelentés után a Microsoft aztán elárulta, hogy az erősebb modell alatt konkrétan a GPT-4-ről volt szó, a Bing több mint egy hónapja azon fut, és ahogy a modell fejlődik, úgy lesz egyre jobb a keresőmotor is. Ennek fényében nem meglepő, hogy a Bing chatbotja érzésre sokszor jobban teljesített a ChatGPT-nél, a GPT-4 legfontosabb újdonságát azonban a Bingből (egyelőre) nem lehetett megismerni.
A GPT-4 egy úgynevezett multimodális modell, amely a Microsoft mérnökeinek tanulmányában bemutatott Kosmos-1-hez hasonlóan nemcsak szöveges, hanem képi bemenetet is képes értelmezni. Ez a gyakorlatban azt jelenti, hogy ha például feltöltünk egy képet egy taxira kötözve vasaló csávóról, és megkérdezzük, hogy mi a furcsa ebben, akkor a GPT-4 nemcsak felismeri, hogy mi van a képen, hanem azt is meg tudja mondani, hogy az emberek általában nem szoktak mozgó taxikon vasalni – még akkor sem, ha az extrém vasalás amúgy egy létező dolog. A GPT-4 emellett többek közt el tud magyarázni mémeket is, a multimodalitás legdurvább demonstrációját viszont a keddi élő demón szállította az OpenAI.
Greg Brockman, a cég elnöke itt egy füzetbe rajzolt honlapvázlatról készült képet táplált be a modellbe, melynek azt a parancsot adta, hogy csináljon egy valódi, működő honlapot ez alapján. A GPT-4 pedig néhány másodperc alatt le is programozta a honlapot (ezt a fentebbi linken 17:24-től lehet megnézni). Az OpenAI ezt a funkciót egyelőre nem tette publikusan elérhetővé, így azt nem lehet első kézből megnézni, hogy mennyire működik jól, de akár weblapkészítésről, akár a hűtőnk tartalmáról készült fotó alapján adott kulináris tanácsokról van szó, nem nehéz látni, hogy mennyire hasznos lehet a képeket is felismerő modell.
A GPT-4 ezen túl nem ment át gyökeres változásokon, ahogy azt az OpenAI is hangsúlyozta, egy átlagos beszélgetés során nem lehet számottevő különbségeket találni a GPT-3.5 és a GPT-4 között, kellően összetett feladatoknál viszont látható a fejlődés. A cég embereknek szánt, és a gépi tanulásos modellekre szabott tesztekre is ráeresztette a GPT-4-et, amely a legtöbb esetben simán túlszárnyalta az elődjét. A GPT-4 simán tette le a jogi szakvizsgát, a középiskolai, egyetemi felvételik nagy részén is remekül teljesített, sőt, még sommelier-nek is elmehetne az elméleti vizsgákon elért eredményei alapján. Az angol nyelv és irodalom viszont még mindig nem az erőssége, és bár kalkulusban rengeteget fejlődött, továbbra is csak az emberek 40 százalékánál teljesít jobban.
A GPT-4 más nyelveken sem teljesített rosszul, az MMLU nevű, gépi tanulásos teszt kérdéseit 26 nyelvre fordították le, ebből 24-en – többek közt lettül, walesiül és szuahéliül is – jobban teljesített a modell, mint a GPT-3.5 angolul.
Az OpenAI ugyanakkor leszögezte azt is, hogy a GPT-4 is szenved a korábbi modelleket érintő problémáktól, élen azzal, hogy továbbra is hajlamos hallucinálni, vagyis teljesen légből kapott dolgokat kitalálni. A Bing tesztje során ez egyértelműen ki is derült, de az OpenAI azt azért hozzátette, hogy a korábbi modellekhez képest sikerült jelentősen csökkenteni ennek mértékét a GTP-3.5-höz képest. Ha valaki szeretné kipróbálni az új modellt, az a fizetős ChatGPT Plusban megteheti, illetve a már emlegetett Bingben is ezt a modellt tudja nyüstölni az, akinek már van hozzáférése a megújult felülethez.
Az MI és a munka jövője
A másik bejelentés ennél frissebb, a Microsoft csütörtök este tartott bemutatót, ahol Satya Nadella és Jared Spataro beszéltek arról, hogy milyen hatással lesz a mesterséges intelligencia a munkavégzésre. Előzetesen nem lehetett pontosan tudni, hogy ez mit takar, de Nadella nem húzta sokáig az időt, és gyorsan bejelentette, hogy a cég a Microsoft 365-be, vagyis az üzleti alkalmazásaiba is beépíti a mesterséges intelligenciát a Copilot képében. Mielőtt azonban megnéznénk, hogy mi ez, érdemes egy rövid kitérőt tenni, a Copilot ugyanis ismerősen csenghet azoknak, akik gyakran járnak a GitHubon, és/vagy olvastak az elmúlt hónapokban a Microsoft MI-s törekvéseiről.
Ahogy azt az új Bing bemutatójáról szóló cikkünkben is írtuk, a GitHub Copilot miatt jelenleg is perben áll a Microsoft, a GitHub és az OpenAI, mert a programozók munkáját tényleg megkönnyítő, hasznos eszköz egyesek szerint minden óvintézkedés ellenére gyakran egy az egyben reprodukál olyan kódokat, amelyek a tanítására használt adatbázisban szerepelnek, amivel szerzői jogokat sért. A Microsoft csütörtökön külön panelt szentelt annak, hogy leszögezze, a Copilotöt a már létező adatvédelmi és felelős MI-re vonatkozó irányelvek mentén fejleszti, az ebben dolgozó nyelvi modelleket pedig nem a felhasználói adatokon vagy egyes parancsokon tanítják.
Az mindenesetre biztos, hogy a csütörtöki bemutató alapján lelkesedni elég könnyű lesz a Copilotért, ami a gyakorlatban kétféle módon jelenik majd meg: a Wordben, a PowerPointban, az Excelben, az Outlookban vagy a Teamsben a megboldogult Gem Géza (eredeti nevén Clippy) MI-vel felturbózott változataként, illetve átfogóan az úgynevezett üzleti chatben (Business Chat). Előbbi eléggé hasonlít a Microsoft Edge-be a napokban bekerült Edge-integrációra, de ahogy azt külön ki is emelték, a Copilot működésében a nagy nyelvi modellek mellett kulcsszerepe van a Microsoft Graphnek is, ami lényegében nem más, mint a Microsoft 365 alá tartozó alkalmazásokban tárol összes felhasználói adatunk.
Ez utóbbi kicsit ijesztőnek is tűnik, a Copilot simán ki tud szedni infókat egy hetekkel korábbi emailből is anélkül, hogy ki kellene keresni azt. Az viszont egyértelmű, hogy elképesztő mennyiségű időt lehet spórolni azzal, hogy a Copilottel íratjuk meg a szövegeinket, pakoltatjuk össze a prezentációinkat, és rakatjuk tele grafikonokkal a táblázatainkat. Persze továbbra is ellenőrizni, adott esetben módosítani kell a Microsoft által is konzekvensen vázlatoknak nevezett tartalmakat, de így is sokkal gyorsabbnak tűnik a folyamat, arról nem is beszélve, hogy a végeredmény jobban is néz ki, hacsak valakinek nincs átlagon felüli tudása az Office-termékekben.
És akkor arról még nem is beszéltünk, hogy a Copilot össze tud foglalni olyan mítingeket, amiken nem voltunk ott, sőt, valós időben is képes ugyanerre, és a legfontosabb infókat is össze tudja foglalni, hogy soha többet ne kelljen senkinek odafigyelnie ezeken.
Nagyjából ugyanerre lesz jó az üzleti chat is, amiről meg a Binggel való csetelés juthat rögtön eszébe az embernek. Ez lényegében nem más, mint egy integrált chatbot, ami az internet helyett a felhasználó saját Microsoft 365-os adataiból dolgozik, és össze tudja szedni helyettünk a legfontosabb infókat bármiről, aminek van kézzel fogható nyoma a fiókunkban, és tartalmat is generál, ha arra kérjük. Hogy mindez mikor lesz mindenkinek elérhető, az egyelőre nem derült ki, mint írták, egyelőre egy szűk körben zajlik a tesztelés.