2024. július 23. – 22:57
Miközben a mesterséges intelligencia (MI) körüli viták a legtöbbször a szöveges tartalmak vagy képek generálását érintik, addig néhány nemrég megjelent zenei MI-eszköz már egészen élvezhető dalokat képes létrehozni a semmiből.
Más társaikhoz hasonlóan ezek is elég megosztó szoftverek, és talán még több kérdést vetnek fel, mint a ChatGPT, vagy a különféle képgenerátorok. Az vitathatatlan, hogy kiváló szórakozást nyújtanak, és vannak olyan előadók és producerek, akik már munkához is használják őket. Jogi hátterük azonban tisztázatlan, néhány lemezkiadó pedig már perbe is fogta őket.
Zenegép végtelen választási lehetőséggel
Az egyik legnépszerűbb zenegeneráló platform egyértelműen a Suno AI. Ide bárki ingyen regisztrálhat, és egyszerű parancsokat begépelve generáltathat dalt, aminek a szövegét is betáplálhatja, de azt is rábízhatja az MI-re. Pillanatok alatt lehet például Damu Roland ikonikus Hal a tortán-ban elhangzott monológjából szomorú, lírai popdalt generálni.
Az algoritmus ráadásul van annyira okos, hogy jól promptolva (megfelelő parancsokat megadva) akár összetettebb dalokat is létrehozhassunk. Megadhatjuk, hogy a szövegünk melyik része funkcionáljon verzeként, melyik legyen a refrén, esetleg rapbetét. Az oldal fogja a kezünket, ha szeretnénk, de teljesen szabadjára is engedhetjük a fantáziánkat, és bármilyen stílust beírhatunk, nagyon kevés az olyan prompt, amivel ne birkózna meg. Ez a bekezdés így hangzana például, ha egy atmoszferikus black metal zenekar zenésítené meg.
A Suno startupként indult, négy amerikai zenész-fejlesztő hozta létre, akik egy másik MI fejlesztésén dolgoztak közösen, mielőtt kiváltak volna a cégből, hogy sajátot alapítsanak. Az első, kezdeti verziót tavaly áprilisban jelentették meg, az igazán jól működő verzióra pedig decemberig kellett várni. Nem sokkal ezután a Microsoft is beépítette a Sunót a saját MI asszisztensébe, a Copilotba.
A probléma ott kezdődik, hogy a Sunóról nem tudni, hogy milyen adatbázisból dolgozik. A Sunóhoz hasonló mesterséges intelligenciák ugyanis nyilvánvalóan nem maguktól tanulnak meg szöveget vagy dalt írni, hanem egy óriási adathalmaz alapján mímelik az emberi alkotást. Tavaly ősszel például akkor perelte be több író a ChatGPT-t fejlesztő OpenAI-t, mikor kiderült, hogy az ő illegális forrásból megszerzett könyveiket is felhasználták a szoftver tanítására.
Sérülnek a zenészek jogAI?
A Suno természetesen amellett érvel, hogy a szoftverük nem a zenészek ellen jött létre, nem céljuk az ő ellehetetlenítésük, csupán szélesebb tömegeknek szeretnék lehetővé tenni a zenealkotást. Az egyik befektetőjük, Antonio Rodriguez, egész pontosan úgy fogalmazott a Rolling Stone-nak adott interjújában, hogy
„azon dolgozunk, hogy emberek milliárdjait bevonjunk a zenébe, sokkal jobban, mint most. Nem helyettesítjük a művészeket.”
Ez a nemesnek hangzó hozzáállás persze nem ad kielégítő választ arra, hogy mégis mi alapján tud a Suno bármilyen szövegből szinte bármilyen stílusban ennyire meggyőző dalokat generálni, és pontosan kiknek a dalai alapján készít új számokat.
Nem is annyira meglepő tehát, hogy az Amerikai Hanglemezgyártók Szövetségén keresztül (Recording Industry Association of America, RIAA) a három nagy kiadó, a Sony, a Warner és a Universal nemrég közösen perelte be a Sunót és egy másik, Udio nevű zenei MI-t gyártó céget, mert több könnyen beazonosítható előadó, producer is felismerhető a generált dalokban.
Az Udio onnan is ismert, hogy a néhány hónapja Drake és Kendrick Lamar között zajló rapháborúba a BBL Drizzy című dallal beszálló Metro Boomin a dalban egy ezen a platformon készült MI-hangmintát használt.
A vitában a kiadók narratívája egyszerű: a zenei MI-k hátterében egy olyan adathalmazt sejtenek, amelynek nagy valószínűséggel részei az ő birtokukban lévő dalok – ebből tanulhattak az algoritmusok, jogtalanul. Ahogy a RIAA közleményében olvasható, „ezek a szerzői jogok megsértésének egyszerű esetei, amelyek a hangfelvételek tömeges, engedély nélküli másolását jelentik. A Suno és az Udio megpróbálja elrejteni a jogsértést, ahelyett hogy szolgáltatásaikat törvényes alapokra helyeznék. Ezekre a perekre azért van szükség, hogy megerősítsük a generatív MI-rendszerek felelős, etikus és jogszerű fejlesztésének legalapvetőbb szabályait, és hogy véget vessünk a Suno és az Udio kirívó jogsértéseinek.”
A Suno vezérigazgatója, Mikey Shulman, többek között azzal védekezett, hogy nem véletlenül nem engedik a felhasználóknak, hogy promptjaikban konkrét előadók zenéjét másoltassák le az MI-jükkel. „A Suno küldetése, hogy mindenki számára lehetővé tegye a zenélést. A technológiánk célja az új létrehozása, nem pedig a már meglévő tartalmak átalakítása. A Suno új zenékre, új felhasználási módokra és új zenészekre épül. Az eredetiséget díjazzuk” – mondta Shulman, hozzátéve, hogy ők ezt megpróbálták elmagyarázni a kiadóknak még a per előtt is.
Iamyank, azaz Yank, producer, előadó és zeneoktató véleménye szerint azonban hosszú távon ezek az MI-eszközök is csak az előadók elleni fejleményként értékelhetők. „A Spotifynak és a streamingszolgáltatóknak is ugyanez volt az ígérete. Mindenkinek elérhető lesz a zene, és aki nem tud CD-t venni, vagy nagy pénzt szánni a dologra, ahhoz is eljut majd. Az előadókhoz pedig így is lecsorog valami, a playlistekkel pedig még új közönséget is tudnak építeni.
Most már tökre látszik, hogy ez az egész kurvára nem így működik.”
A zenész „a művészet demokratizálása mellett van”, de szerinte sokkal kifizetődőbb lenne „edukálni az embereket, hogy értsék a zenét egy mélyebb szinten, és tudják is csinálni azt a tudásukból adódóan, akár ingyenes eszközökkel, otthon”. Yank szerint ezzel szemben az MI-eszközök csupán az alkotás illúziói.
„Az a gondom az egésszel, hogy lehet, hogy az embereket hozzásegíti valamiféle élményhez, de szerintem ugyanazt csinálja, mint a streaming, azaz tovább csökkenti a zene értékét az emberek szemében. Megtapasztalják azt, hogy egy két hónapos programmal tudnak csinálni valamit, ami majdnem olyan, mint egy Beethoven-darab, vagy egy popdal. Nem hiszem, hogy szüksége van a kultúrának arra, hogy tovább erősítse a befogadókban azt, hogy most már tényleg szó szerint egy gombnyomással is lehet zenét létrehozni.”
Yank ráadásul azt sejti a perek hátterében, hogy a kiadók kizárólag a saját érdekeiket féltik. „Örülök, hogy valamiféle jogi kontrollt próbálnak szabni ennek a technológiának. De nem tudom ilyen szép álmokba kergetni magam, mert nyilvánvalóan a kiadók egyik fő célja, hogy meg tudják fojtani ezeket a szolgáltatásokat, és a saját MI-szolgáltatásukat fel tudják építeni a piacon. Most látható, hogy a piacon ennek van értéke, és lesz is, a reklámzene, a háttérzene nagyon fontos szolgáltatások lesznek szerintem a jövőben, és nyilván a kiadók ezt nem akarják kiadni a kezükből. Úgyhogy ez egy szép lépés, de ez az előadók szempontjából nagyjából jelentéktelen. Ez nem arról szól, hogy a kiadók tiszta vizet öntsenek a pohárba, hanem arról, hogy
köszönjük az MI-fejlesztőknek, hogy rámutattak, hogy ez egy értékes piac, innentől átvesszük.”
A Sunót egyébként nem verte földhöz, hogy a per szerint dalonként akár 150 ezer dollárt is fizethetnének a kiadóknak, néhány nappal a jogi procedúra elindulása után kiadták az MI-jüket alkalmazás formájában is.
Nem ördögtől való
A zenei MI-k és a különféle produceri munkát segítő MI-eszközök kétes természetére Tövisházi Ambrus zeneszerző, producer is rávilágít. Tövisházi nagyjából másfél éve használ különféle MI-eszközöket alkotáshoz, de azt mondja, „rettentően sok gagyi zenei szoftvert próbálnak MI-plecsnivel eladni.
Az egyik alapszintű, sokak által MI-nak tulajdonított szolgáltatás a stemszeparálás. Ezzel egy kész hangfájlt lehet hangszercsoportokra bontani anélkül, hogy meg kellene szerezni az eredeti dal sávjait a készítőktől. Ez a funkció viszont már évek óta benne van a zenei szoftverek egy részében, úgyhogy ezt is inkább rebrandelték MI-szolgáltatásként” – meséli Tövisházi.
A producer a Sunóval is dolgozott nemrég, amiről azt mondja, hogy
„formailag annyira rádiókompatibilis zenét csinál, hogy elsőre sokaknak ledobja tőle a láncot az agya, némileg joggal”.
Az amerikai kiadókhoz hasonlóan Tövisházi is arra gyanakszik, hogy „rettentően nagy mennyiségű rádióban játszott dalt bedobtak az adathalmazba, és azt elég ügyesen, finomhangolták úgy, hogy teljesen jól lehessen rajta szórakozni”. Alkotóként persze hozzáteszi, hogy „mindegyik dalban van valami valami viccesen darabos, robotos dolog, főleg a dalszövegekben, és egyelőre nem túl jó minőségű MP3-hangzású zenéket csinál”.
Ezek miatt munkára, egy az egyben zene generálásra egyelőre nem kifejezetten használható, de a legutóbbi frissítés ezen is sokat dobott. „Pár héttel ezelőtt kihozták a 3.5-ös frissítést, ami megengedi, hogy a saját zenédet beletöltsd, és arra ír neked szöveges dalt énekkel együtt, vagy folytatja instrumentális verzióként, a megadott prompttól függően” – meséli Tövisházi, aki szerint a Suno ebben a formában egy tökéletes „ötletgenerátor”.
„A gagyi hangminőséget különféle trükkökkel át lehet hidalni, és nekem az az érzésem hogy fog jönni kifejezetten producerek számára olyan, magasabb árú verzió is, amelyik jobb minőségű fájlokat fog majd produkálni. Én egy olyan munkához használtam, aminél gyorsan kellett teljes hosszúságú, kész popdalokat készíteni háttérzenének, és erre (a hangminőség-trükközéssel és plusz egyéb erőbedobással együtt) tökéletesen alkalmas” – összegzi tapasztalatait Tövisházi.
Yank már évekkel korábban kísérletezett olyan saját fejlesztésű rendszerekkel, amikbe a saját inspirációit táplálva kvázi egy gépi alkotótársat kaphat. „Nem volt rossz, de sajnos arra jutottunk, hogy akkora adatmennyiség kéne a betanításhoz, amit nem tudunk szolgáltatni, az a néhány száz minta, amit kézzel be tudtunk táplálni, az nagyon kevés volt ahhoz, hogy hatékony legyen a rendszer. Rájöttünk, hogy az én ízlésemre alapozva nem igazán lehet akkora adatmennyiséget feltölteni, hogy tényleg alkotótársként tudjon működni egy ilyen rendszer” – emlékezik vissza a sok más mellett kísérleti elektronikával foglalkozó előadó.
Ezzel párhuzamosan Yank azt látja, a rétegműfajok képviselőit kevésbé fenyegeti az MI-k térnyerése. „Az adatmennyiség a kulcs. Minél nagyobb a betáplált adatmennyiség, annál jobb outputot tud szolgáltatni az MI-d. Viszont kilóra mérve sokkal több átlagos zene születik, mint különleges, ezért az MI-zene minősége művészeti szempontból nagy eséllyel átlagos lesz, hiszen átlagos anyagokon tanítják. Természetesen műfajokat meg tud különböztetni, de minden műfajnak a legáltalánosabb, legismertebb ágát dobja fel, hogyha beírod neki például, hogy rockot csináljon, akkor az AC/DC lesz. Az underground előadók nem fogják úgy befolyásolni a kimenetet, hogy egyszer csak megjelenik egy következő nagyon izgalmas, művészeti szempontból különleges zene, ami full MI” – véli Yank.
A Sunót érintő jogi kérdésekről Tövisházi szintén úgy véli, a Sunóval generált számok „soha nem egy konkrét dalhoz, hanem az egész popzene-masszához hasonlítanak leginkább. A Suno a rendszerrel megetetett óriási mennyiségű szám logikájából, dallamaiból, ritmusképleteiből generál valami olyat, ami formailag popszámnak mondható. A popzene előállításában pont az az érdekes, hogy mindenki unásig ismeri a lehetséges építőkockákat, és az a sikeres, aki ugyanazokból a kockákból tud csinálni valami jót, vagányat, ne adj’ isten időtállót alkotni. Ebből az irányból nézve az MI által generált zenével semmi baj nincs. Arra a valóban fenyegető kérdésre, hogy a Spotifyra feltöltött milliós nagyságrendű MI által generált tartalom mennyire fogja veszélyeztetni a zenészek jogdíjait, nem tudok válaszolni, de szerintem egyelőre senki. Ettől a technológiától ugyanúgy nem kell félni, mint ahogy a fájlcserés letöltéstől, a CD halálától, meg a streamingszolgáltatások uralmától sem.”