Egyre jobb a gépi fordítás, de a Galaxis útikalauztól azért még mindig messze vagyunk
2023. december 14. – 13:39
„A jövőben biztosan repülni fognak az autók” – sóhajtott fel valaki vágyakozva 1980-ban, nem sejtve, hogy a legjobb, amivel 2023 elő tud majd állni, egy ronda elektromos terepjáró lesz egy 52 éves ember testébe zárt tinédzsertől, amit azzal akarnak eladni, hogy golyóálló, és „bestia módba” lehet rakni. Persze ebből hiba lenne azt leszűrni, hogy kudarcot vallottunk mint civilizáció, elvégre a mesterséges intelligencia például rohamléptekkel fejlődött az elmúlt időszakban. Mondjuk, a fejlődés sokszor nem annyira látszik, megesik, hogy
az Amazon csetbotja üzleti titkokat kotyog ki, és most éppen azzal van tele az internet, hogy az MI a valóságot fokozatosan transzcendáló képsorozatokat generál, de ettől még a technológia számos ponton változtatja meg az életünket.
Ilyen az orvosdiagnosztika felturbózása és a még hitelesebb deepfake-ek, vagy az egyre jobb gépi fordítók, amelyek a 30-40 évvel ezelőtti szótárazáshoz képest legalább olyan lenyűgözők, mint egy repülő autó. Mi most a tavalyi atlétikai vb-n is használt iFLYTEK fordítógépeit kipróbálva igyekeztünk kideríteni, van-e egyáltalán szükség ilyen dedikált eszközre, vagy a telefonos és webes alkalmazások is tartanak már itt – és ami a legfontosabb, lecserélhetik-e ezek az emberi tolmácsokat és fordítókat.
Közelebb kerülni a Bábel-halhoz
A Galaxis útikalauz stopposoknak című könyvet rengeteg okból lehet igazi klasszikusnak nevezni, de a témánk szempontjából most a könyvbeli istentagadók egyik ütőkártyája, a Bábel-hal a legfontosabb, amelyet a fülünkbe dugva Douglas Adams elképzelése szerint visszatérhetünk a bábeli nyelvzavar előtti időkbe, és minden létező nyelvet meg tudunk érteni. Az ehhez hasonló univerzális fordítók nem ritkák a sci-fikben, egyebek mellett a Star Trekben és a Ki vagy, Doki?-ban és a Neurománcban is feltűnik ilyesmi, Murray Leinster pedig már 1945-ben eljátszott a gondolattal a First Contact című novellájában.
Mindez természetesen egyáltalán nem meglepő, űrlények sem kellenek hozzá, hogy az ember vágyakozzon egy olyan eszköz után, amellyel egy csapásra bárkit meg tud érteni anélkül, hogy éveket töltene el egyetlen idegen nyelv megtanulásával. Persze az angolról már évekkel korábban is számos szakértő gondolta, hogy nagyon közel van ahhoz, hogy globális nyelv legyen, és kínaiul is majdnem másfél milliárd ember beszél a Földön, de többek közt Magyarország is ékes példája annak, hogy hiába beszél valaki angolul, egyáltalán nem biztos, hogy meg is fogják érteni. Ilyenkor pedig marad a kézzel-lábbal mutogatás, a szótárazás vagy a gépi fordító.
Ez utóbbira rengeteg példát lehet felhozni, a legismertebbek a Google Translate, és a DeepL limitáltan ugyan, de ingyenes fordítója, amit évek óta az mesterséges intelligenciával reklámoznak, és ami hosszabb szövegeknél általában minőségben simán lekörözi a Google – ugyancsak neurális gépi fordítással dolgozó – megoldását. A korábbi, statisztikai alapú modellről 2016-ban váltó Google Fordító is egyre jobban teljesít, egy 2020-as tanulmány pedig azt is bizonyította, hogy a technológia megfelelően használva nagyon közel tud kerülni az emberi fordítók teljesítményéhez. Ezeken túl az MI-nek köszönhetően egy rakás olyan megoldás is megjelent mostanában, amelyek egy kicsit már a sci-fibe hajlanak.
A 2015 óta létező Skype Translator például tavaly óta nem pusztán képes az elhangzottak lefordítására, hanem a beszélő saját hangján szólal meg. A Meta pedig éppen a napokban villantott egy még ennél is menőbb funkciót az idén nyáron bemutatott SeamlessM4T nevű, elég ambiciózus modelljéhez, amellyel nemcsak a hangunkat veszi át a fordító, hanem a hanghordozásunkat is. A Meta egyébként elég komolyan kutatja ezt a témát, egy rakás hasonló projektjük van még, de ez az első olyan, amelyben egyetlen modell felelős a fordításért, valamint a szöveg leírásáért és felolvasásáért is. Abban pedig biztosak lehetünk, hogy amikor teljes beszélgetéseket lehet generálni deepfake hangokkal, ennek az egésznek bőven van még hova fejlődnie.
Az tehát nyilvánvaló, hogy manapság a gépi fordítás főként a mesterséges intelligenciának köszönhetően elég jó szinten van, de az még érdekesebb kérdés, hogy szükség van-e a fordításhoz külön eszközre. A Meta már említett modelljei nyíltan hozzáférhetők, de a mobilokon elérhető, éppen idén tavasszal a Google Lensszel felturbózott Google Fordítóban, és az Apple saját, iPhone-okon elérhető fordítójában is lehet kamerával szövegeket fordítani, és virtuális tolmácsként is tudnak funkcionálni. Emiatt kicsit szkeptikusan viszonyultam az iFLYTEK eszközeihez, úgy meg aztán pláne, hogy újságíróként (is) kiemelten fontos elkerülni a félrefordításokat.
A jó, a rossz és a csúf
Két eszközt kaptunk a kínai cégtől, az egyik az alap okosfordító, a másik pedig a tollba oltott okosszótár, és rögtön le is lövöm, hogy utóbbit én nem éreztem túl hasznosnak. A cég honlapja szerint a tollal gyerekjáték a nyelvtanulás, de én előbb lépkednék legókon, mint hogy még több időt töltsek azzal, hogy lassan húzogatom a tollat egy papíron, pláne akkor, ha egy olyan mondatot akarok lefordítani, amiben van sortörés is. A szkennelgetésnél nekem még a szótárazás is vonzóbb alternatívának tűnt.
Az okostoll bemondás alapján is tud fordítani, ami nemcsak hasznosabb, hanem kevésbé körülményes is a szkennelésnél, és a cég javára válik, hogy nagyon jól is működik. Az is érdekes, hogy az angol szavak kiejtését is meg lehet ismerni, mert valódi emberekkel vették fel őket, sőt még a mi kiejtésünket is tudja értékelni, szóval angoltanulásnál (amihez ajánlják) hasznos lehet, főleg ha valaki teljesen autodidakta módon próbál tanulni. Ezzel együtt viszont érzésre annyira specifikus igények kielégítésére lett szabva, hogy őszintén nem tudom, kinek lehetne jó szívvel ajánlani 67 ezer forintért. Az egész kicsit olyan, mint a legendás okostáblák – papíron jó, de egy iskolában biztosan sosem használná senki.
A sima fordítóval ennél sokkal elégedettebb voltam, hiába kerül több mint kétszer annyiba (160 ezer forint). A tavalyi atlétikai vb-n az újságíróknak is osztogatott fordító nem sokban különbözik egy nyomottabb okostelefontól, konkrétan Android fut rajta, annyi különbséggel, hogy a szoftver az eszközre lett szabva. Az okostollhoz hasonlóan itt is lehet bemondott szöveget fordítani, összesen hatvan nyelven, bár itt azért azt meg kell említeni, hogy ebben franciából kettő, kínaiból három, spanyolból négy, angolból pedig tizenkettő van az eltérő nyelvjárások miatt. Itt van egy egyperces limit, szóval olyasmiket nem fogunk tudni végigfordítani, mint Kira Josikage monológja a JoJo’s Bizarre Adventure negyedik évadában, de kb. negyven másodpercet ebből is remekül leírt, aztán lefordított a gép.
A fordítóban viszont nyilván nem ez a pláne, hanem minden más. Az egyik ilyen a szemtől szembe fordítás, ahol lényegében tolmácsnak lehet használni az eszközt úgy, hogy beállítunk két nyelvet, aztán a dupla képernyő két felét nyomkodva bemondjuk a saját nyelvünkön, amit akarunk, a gép lefordítja, felolvassa a partnerünknek, aki aztán válaszol rá, és így tovább. Ez elég hasznosnak tűnik, és annál mindenképpen jobb, mint amikor ugyanezt teljesen manuálisan csinálja valaki valamelyik fordítóval, de tapasztalataim szerint azért a tökéletestől messze van.
Egyrészt néha a gép csúnyán félrehall dolgokat, azt például még mindig nem értem, hogy a legutóbbi Telexikonban abból, hogy az emberi testet 60 százalékban víz alkotja, hogy lett nála pixálkotja, amit aztán szépen le is fordított arra, hogy az emberi testet 60 százalékban pixelek borítják. Másrészt pedig hajlamos arra, hogy az egyik nyelven jól leírt szöveget jól fordítja, de nem jól tagolja, ami így a felolvasásban nyilván nagyon hülyén hangzik, és a beszélgetőpartnerünk nem is fogja érteni, hacsak nem olvassa el a szöveget. És akkor arról még nem is beszéltünk, hogy a magyar menüpontok több helyen is elég pongyolán vannak fordítva, ami egy fordítógépnél egy kicsit kellemetlen.
Ráadásul én nem annyira látom magam előtt azt a szituációt, amikor külföldön előkapom, mondjuk, egy étteremben a zsebemből a fordítót, és meggyőzöm a pincért, hogy legyen szíves ezen keresztül kommunikálni velem. Bár ez talán még mindig kevésbé kellemetlen, mint mutogatni az étlapra, szóval akár működhet is, főleg mert a hangok amúgy meglepően jók. A magyar olyan, mintha egy tévés bemondónő lenne, nagyon ritkán lehet kihallani a gépiességet belőle, ami egészen lenyűgöző, ahogy az is, hogy a gép tényleg meglepően jól tud magyarul, pedig azért nem ez a világ legegyszerűbb nyelve.
Ami viszont garantáltan mindenkinek hasznos lehet, az a fotóalapú fordítás, ami remekül működik, a gép egy-egy fotó alapján, pár másodperc gondolkodás után már adja is a meglepően jó minőségű szöveget. Én főleg olyan dolgokat fordítottam, amiknek a jelentéséről anélkül is volt némi fogalmam, és ezek alapján úgy éreztem, hogy a fordításai simán pariban vannak a DeepL-lel, nemcsak pontosságban, hanem a szöveg természetességében is. A fordításról és az eredeti szövegről tagolt leirat is készül és mindkettőt fel is lehet olvastatni, szóval ez a funkció nyelvtanuláshoz és külföldi turistáskodáshoz is remek; nem tökéletes, de nehezen tudnék belekötni.
Na de akkor van értelme?
A sima fordító mellett én abszolút tudnék érvelni, pláne akkor, ha velem ellentétben, valaki szeret gyakran külföldre utazni, mert a fotóalapú fordítás van annyira hasznos, hogy önmagában is elvinné a hátán az egészet. Azt ugyanakkor hozzá kell tenni, hogy 160 ezer forint nem kevés pénz, és bár ugyanezt tapasztalataim szerint nem lehet megkapni ingyen, azért bizonyos pontokon vannak egyéb lehetőségek. A Google Fordító például bőven labdába tud rúgni mellette bizonyos dolgokban.
A Google mobilos alkalmazása ugyanazokat a dolgokat tudja, mint az iFLYTEK gépe, azaz van benne hang- és fotóalapú fordítás, valamint tolmácsolás. A tolmácsolás és a hangalapú fordítás nem igazán működik jól, a fent említett monológnál például egyből megadja magát, ahogy elhangzik, hogy Kira Josikage, míg a fordítógép gond nélkül leírja azt is hibátlanul japánul, aztán angolos átírással is. Itt tényleg megmutatkozik a dedikált eszköz előnye, és bár egy átlagos beszélgetéshez valószínűleg elég lehet a Google Fordító is, még itt is sokat számíthat az elegánsabb, természetesebb fordítás és a külön mikrofonok megléte.
A fotóalapú fordításnál én nem éreztem ekkora különbséget, a felturbózott Google Lens ugyan nem mindig tudja eldönteni, hogy valami egybefüggő szöveg vagy különálló szavakról van szó és néhol pontatlanabb is, de a különbség itt érdekes módon nem tűnik akkorának. Az biztos, hogy kevésbé gördülékeny, de olyan ordító hibákat azért nem ejt, amitől értelmezhetetlenné válna a szöveg. Ugyanúgy lehet vele leiratot készíttetni és legalább olyan gyors is, amellett hogy természetesen ingyen van. Az életemet nem bíznám rá egy ilyen fordításra, de ez nem jelent semmit, mert a fordítógéppel is ugyanez a helyzet.
Az MI-n alapuló modellek egyelőre azért annyira bőven nem megbízhatók, hogy ne kelljen felülvizsgálni azt, amit mondanak, ha pedig egyiket sem lehet feltétel nélkül ajánlani, akkor ez a különbség nem számít túl sokat.
Éppen emiatt van az is, hogy bár az ilyen eszközök, sőt az ingyenes megoldások is egyre jobbak, és az elmúlt időszakban egyre gyakoribbak voltak az olyan hírek, mint hogy a dokumentumok fordítására rengeteg pénzt költő Európai Unió az MI segítségével szép lassan leépíti az óriási fordítói osztályát, a japán igazságügyi minisztérium pedig szintén egy MI-n alapuló rendszerrel vágna neki az ottani törvények lefordításának, egyelőre nem tartunk ott, hogy kitúrná a veszélyeztetettnek tartott tolmácsokat és fordítókat a munkájukból.
Az persze valószínű, hogy a feladatuk egyre inkább az MI munkájának felülvizsgálata lesz majd a fordítás helyett, de ezt egy bizonyos szint fölött valószínűleg a távolabbi jövőben sem lehet majd sosem megúszni. A mai fordítógépek korában pedig úgy tűnik, ez a szint bőven az átlagembereknél húzódik, szóval egyelőre még mindig jól járunk azzal, ha elkezdünk nyelveket tanulni.
A fordítógépeket a magyarországi forgalmazaó BrainBridge-től kaptunk kölcsön tesztelésre.