Egyetlen fénykép és egy hangsáv elég ahhoz, hogy egy mesterségesintelligencia-modell élő deepfake-videót készítsen rólunk
2024. április 20. – 13:24
A Microsoft bemutatta azt a VASA-1 névre hallgató mesterségesintelligencia-modell programját, ami egy meglévő fénykép és egy hangsáv segítségével képes szinkronizált animált videót készíteni egy beszélő vagy éneklő személyről – írja a ArsTechnica.
Ez azt jelenti, hogy ez a program képes arra, hogy élő avatart – hasonlót, mint amilyen nemrég a közmédián, a Delta című műsorban debütált – hozzon létre rólunk, pusztán egy kép és a hangunk segítségével. Ez lehetővé teszi, hogy bárki, aki hasonló eszközökkel rendelkezik, fényképet készíthessen egy online személyről, és úgy tűnjön, hogy azt az adott illető mondja.
A program gépi tanulást használ egy statikus kép és egy beszédhangklip elemzéséhez. Ezután képes egy valósághű videót generálni, pontos arckifejezésekkel, fejmozgásokkal és a hanggal szinkronizált ajkakkal. Nem klónozza vagy szimulálja a hangokat (mint a Microsoft más fejlesztései), hanem egy meglévő hangbemenetre támaszkodik, amelyet kifejezetten egy adott célra lehet felvenni vagy beszéltetni.
A Microsoft szerint az új modell jelentősen felülmúlja a korábbi beszédanimációs módszereket, sokkal valósághűbb és hatékonyabb. A programot YouTube-videók segítségével tréningezték, a példák között szerepel egy olyan videó is, ahol Mona Lisa rappel egy olyan hangsávra, amelyen Anne Hathaway egy „Paparazzi” dalt ad elő Conan O'Brien műsorában.