Februárban megjelent egy videó a Youtube-on, amin egy képernyőn kívüli kérdező arról kérdezi az 1960-as évek ikonikus francia énekesnőjét, Françoise Hardyt, hogy Donald Trump amerikai elnök miért küldte a nyilvánosság elé Sean Spicer fehér házi szóvivőt arról hazudozni, hogy a valósnál jóval nagyobb volt a tömeg az elnök beiktatásán. Hardy először egyetért, majd azt mondja, Spicer „alternatív tényeket adott ehhez”.
Egyértelmű, hogy manipuláció eredménye a videó: eleve furán villog, Françoise Hardy ma már 73 éves, és a hang, amin megszólal, Trump egyik tanácsadójához, Kellyanne Conway-hez tartozik. Ennek ellenére úgy tűnik, Hardy tátogatása követi a szavakat, amik elhangzanak.
Az „Alternative Face v1.1” című videót, amin Hardy digitális szellemét egy NBC-s Conway-interjúval szinkronizálták, Mario Klingemann német művész készítette, és nyilvánvaló, hogy a hullámzó, pixeles képet egy jobb grafikusszoftverrel sokkal szebbre, hihetőbbre is meg lehetett volna csinálni. Csakhogy Klingemann nem vacakolt vágóprogramokkal, hanem pár nap alatt egy asztali számítógépen, egy ún. generatív ellentétes hálózattal (GAN), egyfajta gépi tanulási algoritmussal dobta össze. Miután Klingemann régi zenei videókat táplált be, a program automatikusan kidobta az interjú hangjához többé-kevésbé passzoló, manipulált videót.
Klingemann kísérleténél még teljesen egyértelmű, hogy amit látunk, az nem valódi, de egyre nyilvánvalóbb, hogy a közeljövőben hol húzódik majd meg a hazugság és az igazság közötti háború új csatatere. Az írott információkat évek óta igyekeznek hitelteleníteni az álhírekkel, és tele van a net robotok által írt posztokkal, de eddig a képeket és a videókat nem hamisították nagy mennyiségben (automatizált gyárral semmiképpen). Vagy legalábbis a mainstream sajtót nem sikerült velük rászedni, legfeljebb megrendezett videók készítésével, mint a bajai törpdominós videónál, tehát alapvetően erősebb bizonyítéknak számítanak, mint az írott szó. A GAN és az ahhoz hasonló technológiáknak hála ez nem sokáig maradhat így – erről írt az Economist.
A hangot könnyebb meghamisítani. A számítógépek általában úgy generálnak beszédet, hogy rövid beszédtöredékeket összeillesztve alkotnak mondatokat – így működik például a Siri, az Apple digitális személyi asszisztense. De az ilyen hangokat korlátozza a megjegyzett töredékek tartománya, ezért csak akkor hangzanak realisztikusan, ha a gép nem egyes hangokból, hanem konkrét kifejezésekből alkot sorozatot.
A GAN máshogy működik: először is egy neurális hálózatokkal statisztikailag tanulmányozza a szóban forgó hangforrás tulajdonságait, majd ezeket a tulajdonságokat többféle kontextusban reprodukálva modellezi, a beszéd változását nem csak másodpercenként, hanem milliszekundumról milliszekundumra elemezve. Így mondjuk Trump, Putyin, Orbán vagy más közszereplő szájába szavakat adni csak attól függ, van-e elég hangfelvétel róluk, amit bevihetünk, hogy a szoftver kiadja a kívánt mondatokat. Az elmúlt egy évben ezen az elven az Alphabet (a Google anyavállalata) DeepMindja Nagy-Britanniában, a kínai Baidu szilícium-völgyi Institute of Deep Learningje és a montreali MILA is kiadott nagyon valósághű, írott szövegből beszédet generáló algoritmust. Jelenleg az ilyesmihez csak a nagy techcégeknek van elég számítási kapacitásuk, de ez hamarosan változni fog.
Képeket generálni sokkal nehezebb. A GAN-eket 2014-ben mutatta be Ian Goodfellow az MILA hallgatójaként, Yoshua Bengiótól, a deep learning egyik alapító atyjától tanulva. Goodfellow megfigyelte, hogy a deep learninggel a számítógépek nagyon ügyesen meg tudták különböztetni a különböző információkat, például hogy egy kutya vagy egy macska van-e a képen, de új, kutyát vagy macskát ábrázoló képet már messze nem tudtak olyan jól generálni. A gépeknek ugyanis túl nehéz volt átvergődniük nagy mennyiségű fotókon ahhoz, hogy azokból értelmezhető képet tudjanak alkotni. Ehhez létrehoztak egy másik, „konkurens” szoftvert: ahelyett, hogy az eredeti szoftver egy valósághű kamuképet hozott volna létre, egyszerűen elkezdte gyártani a képeket, a versenytársnak pedig az volt a feladata, hogy megmondja, melyik nem hasonlít az eredeti képadatbázisban lévő képekre, azaz melyik kamu. Az eredeti szoftver ez alapján egyre ügyesebben cselezte ki az ellenőrző szoftvert, így végül képes volt valósághű hamis fotót létrehozni.
A GAN-technológia most ott tart, hogy egy egymondatos utasítás alapján képes egy kis, bélyeg méretű, madarat ábrázoló képet hamisítani, és ugyan még nem tökéletes, de ha csak egy pillanatig nézzük a képet, valódinak tűnik. Ettől persze még nem fog összeomlani az internet, de ebben a szakmában nagyon gyorsan változnak a dolgok: az elmúlt 5 évben a fotók besorolását végző, hasonló algoritmusokkal futó szoftverek hibaaránya 25 százalékról csak néhányra csökkent, és a képalkotás esetében is hasonló fejlődésre számítanak. Mike Tyka, aki a Google-nél kísérletezik a gépi tanulással, például már 768 pixel széles képeket gyártott szoftverrel hitelesnek tűnő képzeletbeli arcokról, és ez több mint a duplája annak, amit korábban el tudtak érni.
Innen már nem lesz nehéz egy közszereplő számítógéppel generált képéhez mesterségesen alkotott szöveget illeszteni. „Úgy gondoljuk, hogy a mesterséges intelligencia meg fogja változtatni azokat a bizonyítékokat, amikben megbízhatunk” – mondta az Econimstnak Goodfellow, aki szerint már 3 éven belül megjelenhetnek a nem első pillantásra egyértelműen kamu, gépileg hamisított Youtube-videók.
A lap azt is írja, hogy más szakértők szerint még több idő kell ehhez, de szerintük is biztosan eljön majd ez az idő, csak az a kérdés, mikor.
Az újfajta, szoftverek jelentette veszély ellen is megvan a szoftveres védelem: a felvételek metaadatait elemezve például meg lehet tudni, mikor, hol és hogyan rögzítették. Ezek ismeretében sokszor ki lehet szúrni, ha valami nem stimmel. Például 2014-ben az NVIDIA chipgyártó cég (aminek a chipjeivel fut egy csomó mesterséges intelligencia) elemezte az Apollo 11 holdra szállásáról készült felvételeket, és szimulációkon keresztül bemutatta, hogy Buzz Aldrin űrruhájának furcsa fénye – ami összeesküvés-hívők szerint bizonyította, hogy a holdra szállás csak hollywoodi stúdiótrükk – valóban a holdfény tükröződése volt.
Az Amnesty International már foglalkozik ezekkel a kérdésekkel: van egy részlege (a Citizen Evidence Lab), ami állítólagos emberijog-sértéseket ábrázoló fotókat és videókat hitelesít. A Google Earth felvételei alapján próbálják ellenőrizni a domborzatot, és a Wolfram Alpha keresőmotorral vetik össze a videón látható időt a valódi időjárással, hogy rájöjjenek, valóban ott és akkor készült a felvétel, ahogy állítják. Az Amnesty általában régi videókat vesz észre, amik új attrocitásoknál rendszerint frissként feltüntetve bukkannak fel, terrortámadásoknál például az ilyen átverési kísérletek kifejezetten gyakoriak. De a jövőben a teljesen hamis álvideókra is oda kell majd figyelniük. (Címlapkép: Tbg)
Kommentek
Közösségünk messze túlnyomó többségének jószándéka és minden moderációs igyekezetünk ellenére cikkeink alatt időről-időre a kollégáinkat durván sértő, bántó megjegyzések jelentek meg.
Hosszas mérlegelés és a lehetőségeink alapos vizsgálata után úgy döntöttünk, hogy a jövőben a közösségépítés más útjait támogatjuk, és a cikkek alatti kommentelés lehetőségét megszüntetjük. Közösség és Belső kör csomaggal rendelkező előfizetőinket továbbra is várjuk zárt Facebook csoportunkba, a Közértbe, ahol hozzászólhatnak a cikkeinkhez, és kérdezhetnek a szerzőinktől is.