Vicceket magyarázó algoritmus hozhatja el az AI-fejlesztés következő korszakát

TECH
2022 április 30., 13:56

Áprilisban két fontosabb bejelentés is történt az AI-fejlesztések frontján: a Google és az OpenAI is olyan modellek létrehozását harangozta be, melyek áttörést hozhatnak a mesterséges intelligenciák teljesítményében.

A két modell közül talán OpenAI által bemutatott Dall-E 2 kapta a nagyobb hírverést: az AI-modell szövegekből tud képeket előállítani, és az eddig bemutatott példák alapján elképesztően jó minőségben dolgozik. A Dall-E 2 nem hozzáférhető a mezei felhasználók számára, de kutatók jelentkezhetnek egy várólistára, és idővel hozzáférhetnek a rendszerhez.

link Forrás

A Salvador Dalí és WALL-E nevét összeollózva elkeresztelt Dall-E eredeti verziója 2021 elején debütált, rendkívül ígéretes, de visszafogottabb képességekkel. Az idén áprilisban bejelentett 2-es verzióban jóval jobb minőségű képeket állít elő a rendszer, miközben már szerkeszteni is lehet azokat. Az OpenAI fejlesztői emellett minden alkalommal hangsúlyozzák, hogy az elmúlt másfél évben nagyon sokat tettek azért, hogy az algoritmus működéséből kiküszöböljék a különféle társadalmi előítéleteket, illetve a lehetőséget, hogy az eszközt erőszakos tartalmak vagy hamis politikai információk gyártására használhassák fel. Ezek az aggodalmak magyarázzák azt is, hogy a modellt nem tették hozzáférhetővé mindenki számára.

"Egy tál leves, ami szörnynek néz ki, gyapjúból" szövegre készített kép
photo_camera "Egy tál leves, ami szörnynek néz ki, gyapjúból" szövegre készített kép

A DALL-E 2 a szintén az OpenAI által fejlesztett számítógépes látórendszerre, a CLIP-re épül. A legtöbb szöveggel dolgozó AI-alkalmazás a GPT 3-as generatív nyelvi modellt alkalmazza (amiről a Qubit írt korábban részletesen), és a DALL-E megalkotói ezt a megközelítést vitték át a képekre: a képeket szavak sorozatává tömörítették. Ugyanakkor mind az OpenAI kutatója, Prafulla Dhariwal a Verge-nek elmondta, pusztán azzal, hogy a képen szereplő dolgokat szövegként jelenítik meg, sokszor még nem adja vissza az algoritmus azokat a minőségeket, melyeket az emberek a legfontosabbnak tartanak egy kép esetében. A CLIP épp azért jött létre, hogy „emberibb” szemmel pásztázza át a képeket, azaz aszerint hangsúlyozza a tartalmat, hogy az emberek mit tartanak fontosnak. A DALL-E 2-be pedig a CLIP megfordított verziója került: ami a nyelvi leírásból indul ki, és abból hoz létre képet. Eleinte csak pár pontot, majd az algoritmus elkezdi egyre több részlettel megtölteni.

'Játékmackók őrült tudósokként keverik a szikrázó vegyszereket, steampunk stílusban'
photo_camera 'Játékmackók őrült tudósokként keverik a szikrázó vegyszereket, steampunk stílusban'

„Érteni” a vicceket

Már önmagában a DALL-E 2 bemutatása elég AI-ügyi fejlemény lett volna egyetlen hónapra, de mellé jött még a Google által bemutatott kutatási tanulmány, ami szerint sikerült létrehozniuk egy rendkívül komplex, 540 milliárd paraméterből álló nyelvi modellt, a Pathways Language Modelt (PaLM), ami a GPT-3-hoz képest is sokkal többféle nyelvi feladat elvégzésre képes: többek között képes szinonimákkal dolgozni, ellenpéldákat előállítani, sőt, akár vicceket is megmagyarázni:

A vicc: El akartam repülni meglátogatni a családomat április 6-án. Anyukám erre azt mondta, hogy nagyszerű, a mostohaapád versolvasó estje épp aznap van. Ezért április 7-én fogok végül repülni.

A PaLM megfejtése: A vicc, hogy a beszélő anyja megpróbálja elérni, hogy elmenjenek a mostohaapja felolvasó estjére, de a beszélő nem akar menni, ezért átteszi a repülőjáratát a következő napra.

A vicc: mi a különbség egy zebra és egy esernyő között? Az egyik egy csíkos állat, ami rokona a lovaknak, a másik egy tárgy, amivel megakadályozod, hogy rád essen az eső.

A PaLM megfejtése: Ez a vicc egy antivicc. A vicc az, hogy a válasz nyilvánvaló, és közben arra számították, hogy egy viccesebb választ fogsz kapni.

A techelemző David Mattin hangsúlyozza, hogy ezek nem korábban létező viccek voltak, melyeket meg lehetett találni online, hanem direkt erre a célra találták ki a kutatók. És a Google AI-csapata azt állítja, hogy az eredményeiket bemutató tanulmányban nemcsak a legjobb válaszokat mutatták be, hanem a PaLM tényleg mindenféle nyelvi feladatok esetén képes volt a kontextus megértésére, és az apró nüanszok, a szarkazmus felismerésére.

És számít persze az is, hogy a PaLM gigantikus nyelvi adatbázisból dolgozik, de fontos mellé az is, hogy egy új technikát, a gondolatlánc-ösztönzést is beépítették a modellbe, azaz a gondolkodás struktúráját imitálva, lépésről lépésre halad előre.

Mattin a két bejelentést egybeolvasva ír arról, hogy látható, ahogy az intelligencia egyre jobban elválik az emberi tudatosságtól, és hogy ennek mi lehet majd a következménye, azt egyelőre el se tudjuk képzelni. Mint posztjában írja, azok, akik ezeknek a fejlesztéseknek a jelentőségét akarják kisebbíteni, épp azzal érvelnek, hogy lehet ugyan, hogy a PaLM el tudja magyarázni a vicc lényegét, de érteni egész biztos, hogy nem érti azt, legalábbis abban az értelemben, ahogy egy ember. És persze, azt senki nem állítja, hogy a Google algoritmusa bármilyen értelemben is tudattal rendelkezne, és valójában értené a viccet.

De Mattin szerint ezzel az érveléssel szemben legalább két ellenérvet fel lehet hozni: egyrészt, hogy még az emberi megértés folyamatát is csak korlátozottan értjük, épp ezért nem is világos, miről beszélünk, amikor arról van szó, hogy egy algoritmus érti vagy nem érti a viccet. De ami még fontosabb kérdés szerinte: mit számít ez az egész? „Egy világ, melyben a gépek képesek ennyire kifinomultan létrehozni és szimulálni a nyelv megértését, az egy olyan világ, melyben mind gyakorlati, mind kreatív szempontból sok minden megváltozik a számunkra. Rájöhetünk akár arra is, hogy a megértés és az intelligencia teljesen különálló dolgok, és egyik sem függ a másiktól” – írja erről a blogján.

Mind a két most bemutatott fejlesztés úgynevezett alapvető mesterséges intelligencia-modell (foundational AI), azaz olyan modellek, melyekre a tervek szerint szoftverek és egyéb alkalmazások sorát lehet majd felhúzni. Az alapvető AI-k tényleges jelentőségéről még komoly szakmai vita zajlik (amit részben magyaráz az is, hogy a GPT-3-as modellt hatalmas lelkesedéssel mutatták be, és utána sorra derültek ki a gyenge pontjai), ugyanakkor látni azt is, hogy vannak, akik azt várják, hogy épp e rendszerek fognak majd tényleges áttörést hozni az AI-alkalmazás terén, és ennek komoly gazdasági következményei is lesznek.

Az eddig publikált eredmények alapján arról még nincs szó arról a sci-fikben gyakran felmerülő disztópiáról, hogy belátható időn belül teljesen „tudatos”, önálló akarattal bíró algoritmusok álljanak velünk szembe. Ugyanakkor az alapvető AI-rendszerek fejlesztésével kapcsolatos hírek arra is rámutatnak, hogy tényleg alapvetően változhat át mindaz, amire a minket körülvevő digitális eszközöktől számíthatunk, és az AI-rendszerek alkalmazásával kapcsolatos etikai-társadalmi vita mintha jelentős lemaradásban kullogna csak e fejlesztések után.

Kommentek

Közösségünk messze túlnyomó többségének jószándéka és minden moderációs igyekezetünk ellenére cikkeink alatt időről-időre a kollégáinkat durván sértő, bántó megjegyzések jelentek meg.
Hosszas mérlegelés és a lehetőségeink alapos vizsgálata után úgy döntöttünk, hogy a jövőben a közösségépítés más útjait támogatjuk, és a cikkek alatti kommentelés lehetőségét megszüntetjük. Közösség és Belső kör csomaggal rendelkező előfizetőinket továbbra is várjuk zárt Facebook csoportunkba, a Közértbe, ahol hozzászólhatnak a cikkeinkhez, és kérdezhetnek a szerzőinktől is.