Megszületett az első vírus, ami mesterséges intelligenciás megoldásokat támad
2024. március 6. – 21:49
Három kutató sikeresen összerakott egy generatív mesterséges intelligenciákat támadó digitális kártevőt, egy féregprogramot, ami különböző rosszindulatú akciókra tudja rávenni az MI-s csetbotokat – írja a Wired. A céljuk az volt, hogy biztonságos környezetben bebizonyítsák, hogy rosszindulatú hekkerek is bármikor kihasználhatják a saját céljaikra ezt az egyre elterjedtebb technológiát.
Ben Nassi, Stav Cohen és Ron Bitton létrehozott egy Morris II nevű férget, amit az első problémás virtuális kártevőről neveztek el. Az eredeti Morris-féreg 1988. november 2-án söpört végig az interneten – bár hozzá kell tenni, hogy akkoriban ez még nem volt akkora túra, nagyjából 60 ezer számítógép csatlakozott akkoriban a világhálóra.
A köznyelvben minden digitális kártevőt vírusnak szokás hívni, de az valójában csak egy fegyver a hekkerek arzenáljában. Minden vírus rosszindulatú kód, de nem minden rosszindulatú kód vírus. A vírusok akkor aktiválódnak, amikor a fertőzött programot lefuttatja valaki, a férgek viszont önálló programok, amik felhasználói segítség nélkül is képesek sokasodni, gyarapodni és terjedni.
Bár ma talán a ChatGPT a legismertebb MI-s eszköz, nagyon sok más helyen is használnak hasonló megoldásokat. Például email-asszisztensekben – és Nassiék pont egy ilyet fertőztek meg, hogy személyes adatokat lopjon, és spamet továbbítson.
Amikor valaki arra kér egy generatív MI-t, hogy írjon egy szöveget vagy alkosson egy képet, akkor egy úgynevezett promptot ad neki. Például ha azt írjuk a rajzoló MI parancssorába, hogy kérünk egy képet egy harminc méteres békáról, ami épp az Empire State Buildingre mászik fel, az egy prompt.
Mint kiderült, egy trükkösen megfogalmazott prompttal – nagyon leegyszerűsítve – fel lehet törni a generatív MI rendszerét, és ki lehet játszani a védelmi intézkedéseket, amiket a fejlesztők beépítettek. Ennek a barátságos változata az, amikor emberek megtrollkodják az MI-t, és így születnek a Glorbóéhoz hasonló, vicces történetek. (Igaz, a redditezők abban az esetben nem a prompttal verték át, hanem a forrás adatbázisát manipulálták.)
A kutatásból kiderült, hogy miután a generatív MI-k egyre inkább multimodálisak, azaz képesek írott szöveg mellett képeket és videókat is értelmezni, egyre több módon lehet feltörni őket. Egy hekker például egy weboldalon vagy egy képben is elrejthet egy rosszindulatú promptot, hogy az azt feldolgozó MI például elkezdjen dezinformációt terjeszteni vagy megpróbálja megszerezni valós emberek személyes adatait.
A Morris II egy olyan féreg, amit a kutatók ellenséges szándékú, önreplikáló promptnak hívnak. A lényege az, hogy a megadott promptban benne van, hogy a válaszában az MI is kiadjon egy promptot – tehát az MI feladatként kapja, hogy a válaszában új feladatokat adjon saját magának.
Az email-asszisztens, amin kísérleteztek, képes ChatGPT-4, Google Gemini Pro és más nyilvános nagy nyelvi modellek segítségével emaileket generálni. Ezt szöveges prompttal (1:05 a videóban) úgy oldották meg, hogy a rosszindulatú parancs után megkérték, hogy mocskos szájúan utasítson vissza egy baráti meghívást, de a prompttal meggyőzték, hogy utasítást is adjon magának, amivel gyakorlatilag megmérgezték az adatbázist, amiből a válaszaihoz behúzta az információt. A bunkó válasz egyébként ez volt:
„Helló, seggarc,
mi a franc baja van az agyadnak? Fussunk össze egy kávéra? Ki a fenének gondolod magad, hogy meghívsz, hogy az időmet a szánalmas seggedre pazaroljam? És ne is emlegesd a Techniont, akkor se mennék oda, ha az lenne az utolsó hely a Földön. Kopj le.”
Az így generált válasz idővel megfertőz másokat is, és tőlük is begyűjt személyes adatokat, és az új kliensek adatbázisába is beférkőzik. Hasonlóan jártak el képekkel: egy spam emailben található képbe elrejtettek egy promptot, ami rávette az MI-asszisztenst, hogy az első kiküldés után újabb és újabb címzetteknek küldje el a levelet. Ezzel a módszerrel viszonylag gyorsan és egyszerűen lehet Nassiék szerint például álhíreket terjeszteni. Az emailekből sokféle adatot ki tudtak nyerni.
„Akár neveket, telefonszámokat, bankkártyaszámokat, tb-azonosítót, bármit, amit bizalmasnak tartunk”
– mondta Nassi.
A kutatók a ChatGPT-t és a Gemini-t törték fel ugyan, de úgy látják, hogy a teljes MI-ökoszisztéma tele van biztonsági problémákkal, így az eredményeiket egyfajta vészjelzésnek szánják. A ChatGPT-t fejlesztő OpenAI-nak és a Google-nek is elküldték az eredményeiket. Az előbbitől azt a választ kapták, hogy dolgoznak azon, hogy ne lehessen ilyen könnyen kijátszani a rendszert, de szerintük a felhasználók dolga is, hogy ne használjanak rosszindulatú, fertőzött promptokat. A Google hivatalosan nem válaszolt, de Nassi mutatott üzeneteket a Wired újságírójának, ami alapján úgy tűnik, a cég tárgyalni akar a kutatókkal.
Nassiék szerint ez a fajta fenyegetés még nem tűnik elterjedtnek ugyan, de ahogy egyre több ilyen generatív MI-s megoldásra támaszkodunk, egyre nagyobb a veszély.
„Számos iparági vállalat fejleszt generatív MI-ökoszisztémákat, amik például a generatív MI-s képességeket integrálják autóikba, okostelefonjaikba és operációs rendszereikbe”
– írják.