Lehet, hogy jön az eddigi legnagyobb MI-tél

Az MI-tél (AI winter) fogalma a „nukleáris tél” kifejezéstől ihletve 1984-ben jelent meg egy vitában az Amerikai Mesterséges Intelligencia Szövetség éves találkozóján. Az MI-tél láncreakciószerű jelensége időről időre visszaveti mesterségesintelligencia-fejlesztést:

  1. Először a mesterséges intelligenciával foglalkozók válnak pesszimistává.
  2. Azután a sajtó ábrándul ki a témából.
  3. Majd az MI-kutatásba való befektetési kedv csökken.
  4. Végül visszaesik vagy megszűnik a téma komoly kutatása.

Az első MI-tél már az 1950-es években bekövetkezett: egy georgetowni kísérletben egy számítógép néhány orosz mondatot lefordított angolra, erre a megfigyelők azt gondolták, hogy néhány éven belül megjelenhetnek a piacon a számítógépes nyelvfordítók, de egy évtized sikertelen fejlesztés után a befektetők eltűntek. Az 1984-es találkozón két vezető MI-kutató, az 1970-es évekbeli „tél” túlélői, Roger Schank és Marvin Minsky arra figyelmeztette a gazdasági szereplőket, hogy az 1980-as évekre az MI iránti lelkesedés annyira megnőtt, hogy biztosan kiábrándulás fogja követni  3 évvel később a több milliárd dolláros MI-ipar összeomlott, és az 1990-es évekig mélyponton volt.

Ez csak illusztráció, a birodalmi lépegető csak egy jármű.

A 2010-es években a mesterséges intelligenciát – és azon belül is a gépi tanulást – minden eddiginél szélesebb körben kutatják, és sosem látott mértékben finanszírozzák. Ray Kurzweil, a Google jövendőmondója már 2005 óta hangoztatja: „Az MI-télnek rég vége.” De vannak jelek, amik nem adnak okot ekkora optimizmusra.

Zuhan az MI-hőmérséklet

Május végén Filip Piekniewski a blogján arról írt, hogy több jel szerint is közeledik egy újabb MI-tél, a posztot a VentureBeat is átvette, és a fejtegetés akkora vihart kavart, hogy a deep learninggel és MI-technológiával foglalkozó, népszerű blogger néhány napja kénytelen volt még egy kiegészítő, pontosító posztot írni a témában.

Piekniewski írása azzal indult, hogy a nagy technológiai cégek az MI-forradalomra és a deep learning nagy áttöréseire (például a gó- és sakkvilágbajnok AlphaGóra) hivatkozva, 2014 és 2016 között óriási ígéreteket tettek, a Tesla például bejelentette, hogy a teljesen önvezető autói már nagyon közel állnak, és a vásárlók már elő is jegyezhettek rájuk. Csakhogy 2018-ra a dolgok megváltoztak, bár egyelőre nem a felszínen, hiszen a konferenciák teltházasak, a PR-esek továbbra is ontják a közleményeket az MI-sikerekről, Elon Musk még mindig az önvezető autókkal reklámozza magát, és a Google is folyamatosan sulykolja Andrew Ng mondatát arról, hogy az MI nagyobb, mint az elektromosság. Egyesek már a – fél évszázada is többeket foglalkoztató – technológiai szingularitásról álmodoznak.

De a poszt szerint ez a narratíva repedezni kezdett, és ez leginkább az MI tényleges alkalmazásának számító, önvezető autókon látszik.

Az MI-fagyban nem megy a deep learning a robotgyereknek

Amikor 2012 és 2017 között zajlott az ImageNet-verseny, amiben nagy techcégek egymással versengve mesterséges intelligenciát tanítottak egy nagy adatbázisban szereplő képek felismerésére, a terület elismert kutatói (például Yann Lecun, Andrew Ng, Fei-Fei Li és még az amúgy általában csendes Geoff Hinton is) rengeteg interjút adtak, és a közösségi médiában is népszerűsítették a technológiát, mondván, egy hatalmas forradalom előtt állunk, és a dolgok mostantól csak felgyorsulhatnak. (Közben egyébként ugyanők nem egyszer szkeptikusan is nyilatkoztak.) Azóta viszont eltelt pár év, és az MI prófétáinak Twitter-feedjei már kevésbé aktívak, ez például Andrew Ng fiókjának a statisztikája:

  • 2013-ban napi 0,413 poszt
  • 2014-ben napi 0,605 poszt
  • 2015-ben napi 0,320 poszt
  • 2016-ban napi 0,802 poszt
  • 2017-ben napi 0,668 poszt
  • 2018. május 24-ig napi 0,263 poszt

Egyre kevésbé hallani, hogy a deep learning lenne a végső algoritmus, és a „forradalmi” szó helyett is inkább az „evolúciós” kifejezés kerül elő. A DeepMind az AlphaGo 2016-os áttörése óta nem állt elő hasonló, lélegzet-elállító hírrel, pedig a cikk írója szerint még ez sem volt igazán forradalmi, tekintve, hogy nevetségesen sok számítási kapacitásra volt szükség hozzá, pedig még csak játékokra fejlesztették. (Az ilyen esetekről szól a Moravec-paradoxon, ami szerint a magas szintű gondolkodás nagyon kicsi számítási teljesítményt vesz igénybe, míg az alacsony szintű, szenzomotoros készségek óriási számítási erőforrásokat igényelnek.) Most úgy néz ki, a Google sem tudja, mit kezdjen ezután a DeepMinddal, aminek az eredményei nem annyira praktikusak, mint várták, ahogy egy hasonló projekt, az OpenAI Dota 2-je sem keltett már komolyabb visszhangot.

A cikk szerint az is az MI-tél egyik előjele lehet, hogy a kutatók francia és kanadai kormányzati tisztviselőkkel kezdtek el találkozni, hogy biztosítsák a jövőbeli támogatásukat. Márpedig az, hogy a nagy, gazdag vállalatok helyett állami intézetek felé nézelődnek, azt is jelentheti, hogy a cégek (a piac) érdeklődése kezd alábbhagyni a területen.

Sok 01101000 11000101 10110001 01101000 11000011 10110011 semmiért

Az egyik nagy baj a deep learninggel, hogy elképesztő tempóban nőnek a nagyságrendek, és nem látszik, hogy ez indokolt lenne: 2012-ben az AlexNet kb. 60 millió paramétert tett ki, most pedig legalább ezerszer ekkora modellek lehetnek, az AlphaGo Zero például az AlexNet számítási kapacitásának a 300 ezerszeresét igényli. De úgy tűnik, ennyivel nem váltak alkalmasabbakká: az AlphaGo Zero és a valamennyivel általánosabb AlphaZero például valójában nem igazán használható fel, mert a hatalmas számítási kapacitás nagy része ahhoz kell, hogy szimulálja és legenerálja az adatokat a beprogramozott, nagy adatszükségletű modellekhez. (A neurális gépi fordításba is nagy erőfeszítéseket ölnek a nagy internetes keresők, ahhoz is nagy számítási kapacitás kell.)Tehát speciális architektúrákra van szükségünk, és azzal, hogy növeljük az egyik méretét, nem fogunk arányosan jobb eredményt elérni, sőt a nagyságrendekkel nagyobb adatbázisok a gyakorlatban egyelőre csak szimulált játékkörnyezetben állnak rendelkezésre.

Az önvezető roncstelep

A deep learning hírnevének manapság a legtöbbet az önvezető autók baleseteiről szóló hírek ártanak. A tavalyi, kaliforniai önvezető autókról szóló kormányzati jelentés szerint az Nvidiával felszerelt autók 16 kilométert sem tudtak megtenni emberi beavatkozás nélkül, és egyelőre a mérések sem támasztják alá, hogy az önvezető autók biztonságosabbak lennének a hagyományosaknál, hiszen az utóbbiaknál egyrészt sokkal nagyobb a merítés, másrészt rengeteg baleset olyan, szélsőséges időjárási viszonyok között történik, amikben még nem is tesztelik az önvezető autókat. 2016 óta több – köztük néhány halálos – Tesla AutoPilot-baleset is történt, és bár a robotpilótát nem szabad összekeverni a mesterséges intelligenciával, az alapjai hasonló technológián nyugszanak.

Feltolta a járdára a parkoló rendőrautót egy robotpilótával közlekedő Tesla.Fotó: Laguna Beach-i Rendőrség - közkincs

Egy önvezető autó ma – az alkalmanként előforduló, látványos hibák mellett – még mindig nem tud biztosan megállni egy kereszteződésnél, átnavigálni egy körforgalmon vagy felismerni egy közlekedési lámpát. Pedig az ígéretek szerint már hónapokkal korábban meg kellett volna tennie egy önvezető Teslának az Egyesült Államok egyik partjától a másikig tartó utat, de ez nem történt meg ,állítólag megpróbálták, de csak kb. 30 emberi beavatkozással sikerült. Februárban Elon Musk azt mondta, egy bizonyos útra be tudták volna programozni az autót, de annak nem lett volna sok értelme, ráadásul azt szeretnék, hogy az autó egy jó sofőrre emlékeztessen, most meg még egy elég bénára hasonlít. Ezt így is lehetne fordítani: még nincs meg a szükséges technológia, de ha akartuk volna, eljátszhattuk volna (talán), és nagyon reméljük, hogy hamarosan valamilyen exponenciális ugrás következik be a neurális hálózatok képességeit illetően, hogy megmeneküljünk a szégyentől és a súlyos perektől.

Az eddigi, legsúlyosabb ügy az önjáró Uber arizonai halálos balesete volt, ami simán elkerülhető lett volna. A balesetet hivatalból vizsgáló testület jelentéséből kiderült, hogy általános rendszerhibákon túl arról is szó volt, hogy a rendszer hosszú másodpercekig próbálta eltalálni, pontosan mit lát (járókelőt, biciklit, autót, mást?), ahelyett, hogy a körülmények között az egyetlen logikus döntést meghozta volna: biztosra menni, hogy ne menjen neki.

Bután okosítjuk a mesterséges intelligenciát

A probléma az, hogy az ember eleve nem így vezet, hanem gyakran utólag tudatosítja magában, hogy mi történik. Amikor a sofőr elé odalép valaki, az idegrendszerében beindul egy reflex, és a sofőr kikerüli az illetőt, aztán sokszor csak ezután esik le neki, hogy majdnem tényleg elgázolt valakit, és félreáll, hogy megnyugtassa az idegeit. De mivel az ilyen közlekedési események nehezen verbalizálhatók (ráadásul az emberiség történetének elég új fejleménye az automobil, az evolúció erre nem készített fel minket), így nehéz az ilyesmit mérni, ezért nem is ilyen szempontok szerint optimalizáljuk a gépi tanulási rendszereinket. Az Nvidia ún. „end-to-end deep learning” megközelítése pont arról szólna, hogy a képfelismeréstől a cselekvéstervezésig eljutva a rendszer kihagyja a verbalizációt, de a gond az, hogy elképesztően sok az input, miközben a cselekvési tér nagyon kicsi.

Vagyis a jelenlegi technika arra optimalizál, hogy a gép egy adott helyzetben minél több mintát felfedezzen, de nem vesz figyelembe nehezen magyarázható, ezért nehezen mérhető dolgokat, így sosem fog azon gondolkodni, hogy ez vagy az micsoda, hogyan kerül oda, és miért látja azt, csak vakon végrehajtja a cselekvést, ami hozzá van rendelve. A gép hiába tud beazonosítani tárgyakat, nem érti vagy tudja, mi az a tárgy, csak megtanították arra, hogy ha „lát” egy dolgot, aminek a koordinátái vagy az alakja vagy a dimenziói {X,Y,Z}, akkor 97,8989834 százalék esélye van, hogy az egy biciklis. És mivel nem érti, mit lát, így nehéz a mostani felismerés → azonosítás problémakörön túl is alkalmazni egy MI-t. A nehezen verbalizálható, és emiatt nehezen mérhető dolgokat akkor sem fogja tudni megérteni egy ilyen technikával/algoritmussal felépülő MI, ha még többet tanítjuk, vagy még nagyobb gépeken futtatjuk.

Egy példa, hogy érthető legyen a posztban kifejtett probléma: egy MI mondjuk 360 fokban és mindenféle szemszögből felismeri az arcképedet, de sosem fogja megérteni, hogy egy arcképet azonosított, a te arcképedet azonosította, téged látott, ha az van neki beprogramozva, hogy amikor a te arcképedet látja, akkor mit tegyen. Azt fogja tenni minden alkalommal, de nem lesz értelme vagy fogalma arról, mit és miért csinál. Csak egy nagyon bonyolult számítógép lesz, ami végigmegy egy matematikai műveleten, és nem fog tudni tanulni ezekből.

Ez már az MI-vihar előtti csend?

Már több neves kutató is arról beszélt, hogy ez még nem igazán intelligens módszer, hiszen a rendszer nem értheti, mit csinál. Geoffrey Hintonis, a deep learningben használt backpropagation (hiba-visszaterjesztés) atyja is beismerte egy interjúban, hogy úgy érzi, zsákutcához érkeztek, újra kell kezdeni az egészet. Ennek ellenére a hype akkora, hogy még a kutatásterület alapító atyái sem hallgatnak a figyelmeztetésekre, amik szerint az MI-tél eljövetele olyan, mint egy tőzsdei lufi kidurranása: azt lehetetlen előrejelezni, pontosan mikor fog bekövetkezni, de majdnem biztos, hogy meg fog történni.

Piekniewski az újabb posztjában arról is ír, hogy most az a nagy különbség a korábbi MI-telekhez képest, hogy ezúttal az MI-be való befektetés profitot is hoz, és a technológiát appokban is használják. Ez így van, főleg a képkeresés, a hangfelismerés és talán a megfigyelés hoz profitot a Google-nek és a Facebooknak. Csakhogy ezek terén 3 évvel ezelőtt voltak nagy előrelépések, és Piekniewski szerint a mostani konferenciákon nem annyira hangzanak el ígéretes dolgok a deep learning-appokról.

Ha a valóság nem éri utol a hatalmas elvárásokat, eljön az MI-tél. Márpedig ebben a ciklusban (mondhatni ezen az MI-nyáron) elképesztő méretű befektetésekről beszélünk, és ezek fókuszpontja épp az önvezető autók piacán van, ahol az igazi gazdasági haszna csak a valóban önvezető autóknak lenne, nem azoknak, amik éppen csak eljutnak A-ból B-be, ha az ember közben 30-szor átvált kézi vezérlésre. Márpedig ezen a területen a legaggasztóbbak a rövidtávú akadályok. (Érdekes, hogy a Google – aminek a legtöbb pénze van a piacon – vagy 10 éve kísérletezik az önvezető autókkal, de például a Teslához vagy az Uberhez képest lassan, csendesen halad. A nagy óvatosság marketingszempontból is érthető: Google-autó még nem gázolt halálra senkit.)

Egy MI-tél minden hátránnyal együtt lehetőségeket is nyújt: ha eljön egy átmeneti gazdasági visszaesés, a befektetők és a kutatók a felesleges kutatások helyett a több haszonnal kecsegtető, életképesebb technológiákra összpontosíthatnak. Így talán hosszú távon előbb elérhetjük a szingularitást – ha ez egyáltalán jó ötlet.