Félelmetesen lenyűgöző videókat generál az OpenAI új modellje

2024. február 16. – 11:33

Félelmetesen lenyűgöző videókat generál az OpenAI új modellje
A Sora által generált egyik videó részlete – Forrás: OpenAI

Másolás

Vágólapra másolva

Új videógeneráló modellt mutatott be a mesterséges intelligencia (MI) fejlesztésének egyik úttörője, az OpenAI. A Sora szöveges utasításokat alakít maximum egyperces videóvá – jelentette be a cég, amely a ChatGPT csetalkalmazást és a DALL-E képgenerátort is fejleszti. A Sora nemcsak szövegből képes videót generálni, hanem állóképekből is, illetve már létező videót is meg tud hosszabbítani vagy hiányzó részletekkel kiegészíteni.

A közleményükben egyúttal 38 példavideót is meg lehet nézni, állításuk szerint ezek mindegyikét egy az egyben a Sora hozta létre, pusztán a rövid szöveges utasítás alapján, és semmilyen utólagos módosítást nem hajtottak végre rajtuk – ami a videók minősége alapján egészen durván hangzik. Persze némelyik még inkább egy nagyon jó minőségű videójátékra vagy animációra hasonlít, mint valódi filmfelvételre, de több olyan videó is van, amelyről első ránézésre könnyen hihetnénk, hogy egy kamerával rögzítették. Egy-egy videónál persze már magából a tartalomból kitalálható, hogy nem valódi felvétel, de ezekről is elmondható, hogy egészen fotorealisztikusak.

Mutatunk néhány példát a Sora videóiból, melléjük téve a szöveges kiindulópontot, amely alapján a modell generálta őket.

„Nyüzsög a gyönyörű, havas Tokió. A kamera a nyüzsgő városi utcán halad, követve több embert, akik élvezik a gyönyörű havas időt, és vásárolnak a közeli üzletekben. Gyönyörű japáncseresznye-szirmok és hópelyhez szállnak a szélben”:

Felül: „Egy filmelőzetes, amely a harmincéves, piros gyapjúból kötött bukósisakot viselő űrhajós kalandjait mutatja be, kék ég, sós sivatag, filmes stílus, 35 mm-es filmre felvéve, élénk színek.” Alatta: „Egy divatos nő sétál egy tokiói utcán, amely tele van melegen izzó neonnal és animált városi feliratokkal. Fekete bőrdzsekit, hosszú piros ruhát és fekete csizmát visel, és fekete táskája van. Napszemüveget és piros rúzst visel. Magabiztosan és lazán sétál. Az utca párás és tükröződik, tükörhatást keltve a színes fényekkel. Sok gyalogos sétál a közelben”:

Felül: „Kínai holdújévi ünnepi videó a kínai sárkánnyal.” Alatta: „Egy nagy, narancssárga polip látható az óceánfenéken pihenve, beleolvadva a homokos és sziklás terepbe. Csápjai szétterülnek a teste körül, és a szemei csukva vannak. Nem veszi észre a királyrákot, amely egy szikla mögül mászik felé, felemelt ollóival, támadásra készen. A rák barna és tüskés, hosszú lábakkal és csápokkal. A jelenet nagy látószögből készült, megmutatva az óceán kiterjedtségét és mélységét. A víz tiszta és kék, a napfény átszűrődő sugaraival. A felvétel éles és tiszta, nagy dinamikatartományú. A polip és a rák van fókuszban, míg a háttér kissé elmosódott, mélységélesség-hatást létrehozva”:

A közlemény – és a közzétett példavideók tanúsága – szerint a Sora képes olyan komplex videókat generálni, amelyekben több karakter és különféle mozgástípusok jelennek meg, és a jelenetekben látható szereplők és hátterek is részletgazdagok. A modell képes egy videóban több beállítást is kombinálni, azaz gyakorlatilag automatikusan vágni, és a karakterek, illetve a videó egyéb elemei nemcsak a beállításváltásokon belül, hanem azokon átívelően egységesen és következetesen jelennek meg. Mindehhez az is kell, hogy az írott nyelvet mélységében is értelmezni tudja a modell, és ne csak azt értse meg, mire gondolhatott az utasítás írója, hanem azt is, hogy az utasításban szereplő dolgok hogyan működnek a való világban.

Az OpenAI is elismeri, hogy mindez még közel sem működik tökéletesen. Egyelőre még problémát okozhat például a Sorának, hogy pontosan szimuláljon fizikai törvényszerűségeket komplex jelenetekben, és az ok-okozatisággal is meggyűlhet a baja. Utóbbira példaként hozzák, hogy előfordulhat olyan jelenet, amelyben egy ember beleharap egy sütibe, de ezután a sütin mégsem jelenik meg harapásnyom. A térbeli tájékozódás sem megy még tökéletesen, összekeveredhet például a jobb és a bal oldal, és időben elhúzódó események leírását sem mindig tudja követni a modell, például ha egy bizonyos kameramozgást vár el tőle a felhasználó.

Próbálják már előre kezelni a veszélyeit

„A mesterséges intelligenciát a mozgásban lévő fizikai világ megértésére és szimulálására tanítjuk, azzal a céllal, hogy olyan modelleket tanítsunk be, amelyek segítenek az embereknek valós interakciót igénylő problémák megoldásában” – kezdi a közleményét a cég, és talán nem véletlen, hogy a legelső mondatukban rögtön azt emelik ki, hogy segíteni akarnak az embereknek elvégezni a munkájukat, nem pedig elvenni azt tőlük, mint ahogy ettől a mesterséges intelligencia egyre gyorsuló térnyerésének kritikusai rendre óva intenek. Feltehetően ugyanebből az okból a cég azt is kiemeli, hogy a Sorát már most, a közzététele előtt elérhetővé teszi művészeknek, dizájnereknek és filmkészítőknek, hogy visszajelzést adhassanak arról, milyen irányba érdemes továbbfejleszteni a modellt, hogy minél jobban tudja segíteni az ő munkájukat.

A művészek és kreatív szakemberek munkájának elvétele mellett a másik gyakori félelem, hogy a minél egyszerűbb és jobb minőségű kép- és videógenerálás elérhetővé tétele egyre meggyőzőbb átverésekre is lehetőséget ad. Egyre több ilyen sztoriról hallani, nemrég például mi is megírtuk, hogy egy hongkongi alkalmazottat úgy vettek rá kilencmilliárd forintnyi pénz átutalására, hogy elhitették vele, hogy a főnökeivel videócsetel, pedig ő volt az egyetlen valódi ember a hívásban. De eszünkbe juthat az a friss jelentés is, amely szerint Kína mesterséges intelligencia által generált képekkel készül az amerikai elnökválasztási kampány befolyásolására.

Ezeknek a félelmeknek az OpenAI azzal próbál elébük menni, hogy szintén még a Sora közzététele előtt ráereszti a szakértőket a modellre, hogy felmérhessék a visszaélések kockázatát. Olyan aspektusokat vizsgáltatnak meg velül, mint az álhírek, a gyűlöletbeszéd, illetve az elfogultság, azaz az olyan torzítások, amelyek a modell betanításához használt adatokból öröklődhetnek át (például nemek közötti különbségekre vonatkozó vagy rasszista előítéletek).

Technikailag is igyekeznek megelőzni vagy legalább megnehezíteni, hogy bárki visszaéljen a technológiájukkal. Olyan eszközöket fejlesztenek, amelyek segítenek felismerni, ha egy videó a Sora felhasználásával készült, és a C2PA nevű nyílt sztenderdet is bele fogják építeni, amely metaadatokkal látja el a videókat, hogy bárki láthassa, hogy azokat MI-vel generálták. Ez utóbbi persze korlátozottan hasznos, hiszem maga a cég is megjegyzi róla, hogy eltávolítható a fájlból, akár véletlenül, mondjuk egy közösségi platformra feltöltve is törlődhet.

A szöveges utasításokra is automatikus ellenőrzéseket vezetnek be, hogy kiszűrjék a visszaélésre irányuló próbálkozásokat, azaz hogy senki ne generálhasson olyan videókat, amelyek szembemennek a felhasználói feltételekkel, például mert extrém erőszakot, szexualitást, gyűlöletkeltést tartalmaznak, és/vagy ismert emberek képmásával akarnak visszaélni – mint ahogy az történt a Microsoft képgenerátora és Taylor Swift esetében. A szerzői jogi visszaéléseket is próbálják majd kiszűrni, bár ez eleve egy terhelt téma, mert már az ilyen modellek betanításához is gyakran jogvédett tartalmakat használnak fel a fejlesztők.

„A kiterjedt kutatás és tesztelés ellenére sem tudjuk megjósolni, hogy az emberek milyen előnyös módon fogják használni a technológiánkat, sem azt, hogy milyen módon fognak visszaélni vele. Ezért hiszünk abban, hogy a való világbeli használatból való tanulás kritikus eleme az idővel egyre biztonságosabb MI-rendszerek létrehozásának és kiadásának” – írja a cég a kockázatokról, illetve arról, hogy miért mutatják be és tervezik majd piacra dobni mégis a Sorát.

Az OpenAI egyébként épp a napokban számolt be arról, hogy a Microsoft biztonsági részlegével együttműködve törölt egy sor olyan felhasználói fiókot, amellyel állami kötődésű szereplők próbáltak meg visszaéléseket elkövetni. Egyúttal azt is közölték, hogy a vizsgálataik szerint a modelljeik csak korlátozott pluszképességeket kínálnak a rosszindulatú kibertevékenységhez – magyarul a cég szerint a hekkerek önmagában az ő megoldásukkal nem sokra mennek.

Nemrég az OpenAI egyik nagy MI-riválisa, a Google is bemutatta a maga szövegből videót generáló modelljét, a Lumiere-t. A generált videók ennek a modellnek az esetében is meggyőzőek, ahogy a kockázatai is hasonlóak. A Google a SynthID nevű megoldással igyekszik elejét venni a visszaéléseknek. Ennek az a lényege, hogy pixelszinten vízjelezi a generált videókat, ami szabad szemmel nem látszik, de gépi ellenőrzéssel azonosíthatóvá teszi az MI által létrehozott tartalmakat. Ez ígéretesen hangzik, bár ez a módszer sem tökéletes, ahogy azt maga a cég is elismeri.

Tavaly ősszel az OpenAI még inkább azzal került a hírekbe, hogy kirúgták, majd a cégen és az iparágon belüli nagy felháborodás után mégis visszahívták a vezérigazgató Sam Altmant, ami az ő személyén túlmutatóan arról is szólt, hogy a cégen belül ki mennyire gyorsan és bátran vagy lassabban és megfontoltabban képzeli el a kétségtelenül bizonyos kockázatokkal járó MI-fejlesztést. Az OpenAI közelmútbeli kálváriájáról és annak iparági jelentőségéről itt olvashat részletesen.

Kedvenceink
Partnereinktől
Kövess minket Facebookon is!