Tényleg kamu a Magyar Péterről kiszivárogtatott hangfelvétel? Fogalmunk sincs, és önnek se!

Legfontosabb

2024. november 13. – 10:21

Tényleg kamu a Magyar Péterről kiszivárogtatott hangfelvétel? Fogalmunk sincs, és önnek se!
Magyar Péter és Vogel Evelin a Kossuth téren 2024. április 6-án – Fotó: Kummer János / Getty Images

Másolás

Vágólapra másolva

„Az AI hanganalizáló azt állítja, hogy a hangfelvétel kamu!” „Egyértelmű, hogy a felvétel nem volt eredeti, mindent elkövetnek a hatalomért.” „Az igazság Péter oldalán van! Mi sokan tudjuk és neki hiszünk!! Hajrá Péter!”

– ilyen megjegyzésekkel osztják és kommentelik a Tisza Párt szimpatizánsai Facebookon azt a bejegyzést, amely szerint bebizonyosodott, hogy mesterséges intelligencia segítségével hozták létre vagy manipulálták a Magyar Péter lejáratását célzó hangfelvételt. Erre maga a Tisza Párt elnöke is ráerősített, aki egy hozzászólásban megosztotta az Okoshír.hu nevű oldal cikkét, amely szintén tényként kezeli: „A Vogel Evelin által rögzített hangfelvétel manipulált”.

Pedig ahogy az lenni szokott, a dolog egyáltalán nem ilyen egyszerű.

Akinek volt szerencséje lemaradni az elmúlt napok közéleti fejleményeiről, annak röviden összefoglaljuk, miről is van szó. Magyar Péter vasárnap sajtótájékoztatót tartott, amelyen azt állította, hogy titkosszolgálati módszerekkel lehallgatták őt; hogy „Rogán Antalék egymilliárd forintot költöttek egy MI-alapú szoftverre”, amelybe az ő minden beszédét és megszólalását feltöltik, és ennek segítségével gyártanak róla lejárató felvételeket (a vasárnapi egymilliárd kedden már másfél milliárd volt); illetve közzétett egy hangfelvételt, amellyel azt szándékozott bizonyítani, hogy volt barátnője, Vogel Evelin megzsarolta őt és a pártját.

Ezután hétfőn megjelent a Vogel által készített felvétel arról, hogy Magyar Péter szerint a júniusi Hősök terei tüntetésén „büdösek az emberek és a szájuk”. Miután Magyar már egy nappal korábban belengette, hogy MI-vel akarják lejáratni, nem kellett sokat várni arra, hogy valaki fogjon egy oldalt, amely a deepfake, azaz MI-vel létrehozott, félrevezető tartalmak detektálását ígéri, és lefuttassa a detektort a felvételen. Több ilyen eszköz is elérhető ingyen, de a Vogel-féle felvételről a Resemble Detect elemzése kezdett el terjedni, amely tömören megállapította, hogy a felvétel hamis. Ez aztán a Redditen és a fenti Facebook-bejegyzésben is terjedni kezdett.

Itt igaz, ott hamis, mindenhol megbízhatatlan

„Modellünk 90%+-os pontossággal elemzi a hangot, hogy megállapítsa, hogy a tartalmat mesterséges intelligencia hozta-e létre” – állítja magáról a Resemble Detect, ami igen jól hangzik. Nyáry Krisztián irodalomtörténész, a Líra kreatív igazgatója is azzal osztotta meg a Facebookon – a friss hangfelvételeket nem említve, általánosságban –, hogy „van egy AI-eszköz, amely elég megbízhatóan megmondja, hogy egy hangfelvétel manipulált-e, vagy sem”.

Mivel ilyen detektorból több ingyenes is található az interneten, úgy döntöttünk, hogy mi magunk is teszteljük, mit mondanak a Vogel-felvételről. Először saját magunk is kipróbáltuk a Resemble Detectet, és már itt érdekes eredményt kaptunk. Mivel az oldalra ingyenesen maximum egypercnyi hanganyag tölthető fel egyszerre, feldaraboltuk (a félnél elvágva) a másfél perces felvételt. Az első részletéről az oldal szépen meg is állapította, hogy hamis, a másodiknál viszont már arra jutott, hogy az valódi. (Ez persze jelentheti azt is, hogy a felvétel elején lát manipulációt, a vége pedig eredeti.)

Továbbmentünk a TrueMediára, amely szintén elemezte a felvételt, és megállapította, hogy „Little Evidence of Manipulation”, azaz kevés jel utal arra, hogy manipulálták volna. (Itt egyébként öt különböző kategóriában kapunk részértékelést is, egynél volt bizonytalan a detektor, a másik négynél nem gyanakodott.) A harmadik teszteszközünk az ElevenLabs detektora volt, amely a manipuláció valószínűségét 3,5 százalékra tette, azaz nagyon valószínűtlennek tartja – igaz, ez az oldal azt írja magáról, hogy csak azt ellenőrzi, hogy az adott felvétel az ElevenLabs generátorával készült-e.

A tesztünk második köréhez kontrollcsoportot kerestük, és hát mi lett volna ennél megfelelőbb, mint az elmúlt napok másik, nagy figyelmet kapott hangfelvétele: a Magyar Péter által közzétett hanganyag, amely azt hivatott bizonyítani, hogy Vogel Evelin megzsarolta őket. Ez kicsit hosszabb volt, úgyhogy a Resemble Detect négy részletben ette meg: az elsőt igazinak vélte, míg a másodikat, a harmadikat és a negyediket hamisnak. A TrueMedia ugyanúgy kis esélyt látott arra, hogy manipulált, míg az ElevenLabs az előző felvételénél kicsit nagyobb, de még mindig elég kicsi esélyt.

A tesztünkkel egybevágott a Poynter korábbi hasonló kísérlete, illetve az is, hogy egy MI-vel foglalkozó magyar csoportban is téma volt a mostani, állítólagos hamisítás, de ott többen is jelezték, hogy ezek az eszközök messze nem tévedhetetlenek, és ennek illusztrálására több olyan felvételt is posztoltak, amelyeket saját maguk generáltak, és már hallásra is nyilvánvalóan kamuk, a detektor mégis valódinak értékelte őket.

Mindebből természetesen nem az következik, hogy egyik vagy másik felvétel valóban hamis vagy eredeti, hanem az, hogy ezekkel az eszközökkel ez eldönthetetlen, és innentől kezdve inkább hitvita az, hogy ki melyiket minek véli és kinek hisz.

Ilyen szempontból kifejezetten káros technológiai eszközökre mutogatni és ezekkel próbálni egyik vagy másik álláspontot igazolni. Van így is elég bajunk az egyre élethűbb MI-generált tartalmak megtévesztési potenciálja miatt, ezért érdemes legalább az ezek lebuktatásával próbálkozó, de még közel sem tökéletes eszközöket fenntartásokkal kezelni.

Már az egyszerűbb módosítást se mindig könnyű kiszúrni

A tesztünk természetesen inkább illusztratív, mint reprezentatív, ezért szerettünk volna egy MI-szakértővel is beszélni arról, hogy mi az oka a deepfake-detektorok megbízhatatlanságának, egyáltalán hogyan működnek ezek, és van-e remény a fejlődésükre. A téma erős átpolitizáltságát jelzi, hogy sorra pattantunk le az általunk megkeresett szakértőkről, hiába hangsúlyoztuk, hogy nem a konkrét felvételekről kérünk ítéletet, hogy hamisak vagy valódiak-e, hanem a dolog technológiai hátterére és tanulságaira vagyunk kíváncsiak. Végül a Mynds.ai egy szakértője segített nekünk eligazodni a hangalapú deepfake-ek terén, de ő is azt kérte, hogy a nevét ne írjuk le.

Alapvetően kétféle módon lehet félrevezető, megtévesztésre, lejáratásra alkalmas hanganyagot gyártani: egyrészt egy valódi hangfelvétel módosításával, például tendenciózus összevágásával – egy egyszerűbb korban ez volt maga a manipulációs lehetőség, de persze az MI már ebben is segítségére lehet annak, aki ilyesmire adja a fejét. Emellé jött be aztán az a módszer, amikor a mesterséges intelligencia segítségével generálunk egy olyan hanganyagot, amely eredetiben semmilyen formában nem létezett, illetve csak a modell betanításához használt hangminták formájában, amelyeknek tartalmukban semmi közük a végtermékhez.

A közösségi médiában mindkét manipulációs irány lehetősége felmerült a Magyarról közzétett felvétellel kapcsolatban. Mivel maga Magyar is arról beszélt a felvétel közzététele előtti napon, hogy MI-vel generált hanganyaggal készülnek őt lejáratni, ez a módszer kapott nagyobb figyelmet. De nagyot futott egy olyan Reddit-bejegyzés is, amelynek a szerzője azt állította, hogy megtalálhatta a háttérzajt, amelyet a hanganyag összeállításához felhasználhattak. (A bejegyzést később a létrehozója törölte.)

„A háttérzaj mesterséges előállítására szolgáló megoldások nem is klasszikus MI-modellek, vagy csak részben azok, nagyon sok az ilyen montázstechnológia, amik különböző háttérzajrétegeket nagyon szépen egymásra szintetizálnak. Elég komoly elemzések vannak arról a közösségi médiában, hogy ezek most valósak voltak-e, ugyanazok-e, illeszthető-e egyik minta a másikra, mennyivel kellett eltorzítani ahhoz, hogy ilyen vagy olyan legyen – mondta a Telexnek nyilatkozó szakértő, de rögtön hozzátette azt is, hogy ezen a téren sem lehet egyértelmű ítéletet mondani. – Én nem láttam se egyik, se másik oldalra döntő bizonyítékot, tehát olyat se, ami egyértelműen ne lehetne valós, meg olyat se, ami egyértelműen arra utal, hogy ez valóságos. De ha valaki manipulálni akar egy felvételt, akkor egy változó tempóeltolással, a hang tempójának 1–2 százalék közötti tologatásával máris teljesen szétzilálja a frekvencia képét, így az nehezen lesz azonosítható.”

Egyszerűbb, ha már eleve megjelölik

Detektorból is többféle létezik, nem csak MI-generált manipulációt lehet MI-vel kiszúrni. „Vannak olyan detektáló rendszerek, amik a klasszikus hangeditáló műveleteket MI segítségével keresik, például hogy hol volt két hang összeillesztve, amiknek az illesztéséről valamilyen egyértelmű algoritmus gondoskodik. Ezek mintázatainak a felismerésére be lehet tanítani rendszereket. Ha jól láttam, a közösségi médiában nem merült fel, hogy ilyenen átfuttatták-e a felvételt, hanem kifejezetten a deepfake-detektorokra mentek rá, amik a másik oldal, a teljesen MI-generált tartalom detektálására valók” – mondta a szakértő.

Az ilyen tartalmakat kétféleképpen lehet detektálni. „Az egyik az, hogy ha maga az MI-modell tartalmaz generálás közben egy olyan vízjelet, ami emberi füllel hallhatatlan és emberi szemmel láthatatlan mintázat. A lényege, hogy a különböző frekvenciatartományokban a hangerőt egy picit úgy módosítják, hogy ennek a módosításnak legyen egy olyan mintázata, ami nem lehet a véletlen műve, hanem biztosan ennek a modellnek a műve. Ezek a vízjelek viszont roncsolódnak a későbbi utófeldolgozás hatására, tehát ha valaki ezt berakja egy hangszerkesztőbe, és elkezdi szerkesztgetni, akkor ennek a vízjelnek a visszamérhetősége, felismerhetősége csökken.”

A vízjelezés lehetőségével a nagy techcégek is kísérleteznek, a Google ilyen megoldása például a SynthID, de ha valaki manipulációs céllal, lejáratáshoz akarna MI-generált tartalmat használni, nem igazán életszerű, hogy ilyen megoldással éljen.„Az open-source, azaz szabadon elérhető modellek tipikusan nem vízjelezettek. A prémium deepfake-modellek nagyon sokszor igen. Az OpenAI a ChatGPT-vel generált szöveg detekciójában például ilyesmit használ, ott a szöveg mintázatának a valószínűségét próbálják felismerni, de ez a vízjel is roncsolódik néhány mondat kicserélése után. Tipikusan azt szokták mondani, hogy addig lehet detektálni egy vízjelet, amíg a szövegnek a negyedét nem módosítják. Utána már kicsit nehézkesebb, elmegyünk a 99 százalékos detektálási valószínűségtől a 60 irányába, és akkor az már egy kicsit izgalmasabb sztori.”

Rabló és pandúr

A másik detektálási módszer vízjelek azonosítása helyett a hanganyag teljes frekvenciaképe alapján működik. „Ezeknek az MI-modelleknek van egy sajátos mintázatuk, amit egy másik modell meg tud tanulni, hogy elkülönítse ezeket a mintázatokat. Ezeket tipikusan »rabló-pandúr üzemmódban« (szaknyelven adversarial training) szokták futtatni: van egy generátorunk, meg vannak valós adatpontjaink, amiket a generátor próbál lemodellezni, illetve van egy diszkriminátorunk is, ami maga a detektor, és együtt tanítják a generátort és a diszkriminátort. Ez mindaddig jól működik, amíg a generátorhoz van a diszkriminátor tanítójának hozzáférése. Ha egy deepfake kiadója a saját modelljéhez szeretne detektort készíteni, az egy aránylag egyszerű feladat, hiszen teljes hozzáférése van ehhez a modellhez. Amint egy másik modellről van szó, abban a pillanatban neki kellően sok mintát kell szereznie ennek a másik generátornak az adataiból ahhoz, hogy egyáltalán bármennyire is tudja detektálni a deepfake-eket a maga detektorával” – mondta a szakértő.

Szerinte azoknál a deepfake-detektoroknál, amiket most a Redditen használtak, egyértelműen látszik, hogy van egy saját generátoruk, úgyhogy valószínűleg a saját adataikon tanították a detektort. Szembetűnő az is, hogy semmilyen tudományos vagy műszaki leírás nincs arról, hogy hogyan működnek ezek, és milyen jellegű deepfake-ek felismerésére valók. „Néhány esetben van egy-két semmitmondó bekezdés, de nincs rendes metodológia mögé téve. Ez egy érdekes dolog, például egy év múlva ez az AI Act miatt Európában már nem is menne át így, fogyasztóvédelmileg kifogásolható lenne” – mondta, utalva az Európai Unióban idén elfogadott és jövő évtől fokozatosan élesedő MI-rendeletre.

„Én azt gondolom, hogy erre nem érdemes felépíteni döntéseket, és alapvetően nagyon rossz állapotban van a technológiának ez a része, ami a különböző deepfake vagy MI-generált tartalmak felismerését illeti. Ez egy forró terület még mindig, és nincsenek jó megoldásaink.” Persze fejlődik ez a terület is, a vízjeles megoldások is 2020 után kezdtek csak el megjelenni az MI-generált tartalmakhoz, illetve a klasszikusabb szerkesztéses manipulációk kiszűrése már kifejezetten jól működik. A gyenge pont épp a teljesen MI-generált tartalmak felismerése. „A nagyon jó generátorok felismerése ugyanolyan jó detektort feltételez mögöttük, ami mérsékelten érdeke bárkinek is, hiszen sokkal kevesebb tőke van egy detektorban, ami sose lesz százszázalékos; sokkal több tőke van valamiben, amivel az emberek el tudnak játszani, tudnak generálni egy újat.”

Ráadásul kis erőbefektetéssel könnyű nagyon megnehezíteni a detektorok dolgát. „Ha én holnap egy kicsit módosítok egy modellt, ami az emberi fülnek nem lesz hallható, akkor azok a mikromintázatok, amik benne vannak a modell kimenetében, és amiket a detektor megtanult felismerni, teljesen megváltoznak. És ezt nagyon-nagyon könnyen meg tudja csinálni bárki otthon, akinek van egy nagyobb GPU-szervere. Maga a detektálás tehát nem egy holtbiztos valami, és nem is zárja ki azt, hogy egy felvétel módosított vagy MI-generált lenne, de az ellenkezőjét sem.”

„Ha pedig a két módszert kombináljuk, tehát azt mondjuk, hogy vannak MI-generált, szintetizált részek egy felvételben, és vannak emberi módosítások, az meg talán teljesen észrevehetetlen. Tehát ha valaki ebbe rendesen beleteszi a munkát, akkor azt a jelenlegi módszerekkel szinte lehetetlen detektálni.”

Mindez nem hangzik megnyugtatóan a jövőre nézve, pláne, hogy szinte hetente hallani a híreket arról, hogy milyen újabb fejlődésen estek át az ismertebb MI-modellek. Márpedig ha ilyen ütemben húz el az MI-tartalmak generálása a detektálásuktól, akkor nemcsak a mostanihoz hasonló közéleti sárdobálásokban nézünk cudar idők elé, de a kiberbűnözők dolga is egyre könnyebb lesz az áldozataik átverésében.

Az viszont jó hír ezen a téren, hogy az MI-fejlesztésben élen járó techóriások egyelőre mintha gyakorolnának némi önmérsékletet a szakértő szerint: az utóbbi időben egyre gyakrabban tűntek fel újabb és újabb, jobbnál jobb deepfake-technológiák, de „azt lehetett látni, hogy a tudomány útvesztőiben a kutatási eredmények meg a cikkek megjelennek, de a modellek nem válnak elérhetővé, meg a forráskódok sem, és a legtöbben arra hivatkozva nem teszik ezeket elérhetővé, hogy ennek nagyon nagy rizikója lenne” – mondta, hozzátéve, hogy ez alól az önmegtartóztatás alól leginkább kínai laborok jelentettek kivételt.

Kedvenceink
Partnereinktől
Kövess minket Facebookon is!