A Facebook mesterséges intelligenciával segít a látássérülteknek a képek megismerésében
2021. január 21. – 10:13
frissítve
A Facebook évek óta használja az automata alternatív szöveget (automatic alternative text – AAT) arra, hogy a látássérülteknek képaláírásokat generáljon, hogy ők is megismerhessék, mik szerepelnek az ismerőseik által feltöltött képeken. A technológia nem új, sokan már a betárcsázós internet korában is használták a nagy sávszélesség-igényű képeknél.
A Facebook algoritmusa eddig száz különböző dolgot tudott felismerni egy képen, mint például egy fát vagy egy hegyet, de egy blogposztjuk szerint egy fejlesztéssel több mint megtízszerezték a felismert objektumokat.
Ehhez több milliárd Instagramra posztolt képet és hashtaget mutattak meg a gépnek, hogy minél több mindent felismerje. Azt írják, hogy a betanításnál figyeltek arra, hogy minél több földrajzi területről húzzanak be tananyagot, hogy az algoritmus minél több nyelvet, nemet, bőrszínt és korosztályt is felismerjen.
Így például felismeri több kultúra esküvőjét is részben a tradicionális viseletek alapján, tehát már nem csak a fehér ruhás menyasszonyos képeket írja majd le úgy, hogy esküvő.
A frissítéssel már azt is felismeri az algoritmus, hogy a képen szereplő személyek vagy objektumok egymáshoz képest hogyan helyezkednek el, így meg tudja mondani, mi van az előtérben, vagy hogy mi a kép központi eleme.
A Facebook 2016-ban vezette be a technológiát az alkalmazásaiban. A képernyőolvasók korábban is segítettek a látássérülteknek, de nagy akadály volt, hogy a felhasználók által megadott tagekre hagyatkoztak. Mivel a legtöbb felhasználó nem gondolt bele, hogy nem mindenki, aki elé a képe kerül, látja majd, mit is örökített meg, nem sokan foglalkoztak részletes képaláírásokkal.
Az AAT ezt próbálja meg kiküszöbölni. Ha egy látássérült felhasználó egy képhez ér, egy szintetizált hang már 1200 különböző dolgot tud neki elmondani egy képről. Például azt, hogy öt ember látható a képen – köztük Jay Youmens –, emberek zenélnek, emberek állnak, és a képen látható két kalap és öt dob.
A szintetikus hang nem gyönyörű körmondatokban beszél a képről, hanem gyors, egyszerű, közérthető tőmondatokban. Az AAT jelenleg 45 nyelven érhető el, többek között magyarul is.