Miután kiderült, hogy a Cambridge Analytica Facebook-felhasználók millióinak adatait használta fel politikai kampányok befolyásolására, hatalmas figyelmet kapott, hol tartanak azok a módszerek, amikkel a hatalmas méretű digitális adathalmazokat lehet algoritmusokkal feldolgozni. De szerencsére ezeket nem csak tömegmanipulációra lehet használni.
Az egyre kifinomultabb adatelemző algoritmusok a társadalomtudományokat is forradalmasíthatják. A kvantitatív szövegelemzést és szövegbányászatok most a nemzetközi társadalomtudomány egyik leggyorsabban fejlődő területének tartják, más Big Data kutatási irányokkal együtt. Három éve az MTA-n belül is külön kutatócsoport alakult az adatbányász módszerek társadalomtudományi hasznosítására.
A szövegbányászat nagy mértékben épít az adatbányászat eredményeire, ahol főleg számszerű adatokat dolgoznak fel intelligens gépi módszerekkel. Az itt kimutatott statisztikai összefüggéseket, adatreprezentációkat a szövegbányászatnál is felhasználják, de nem jól számszerű adatokkal dolgoznak, hanem inkább strukturálatlan szöveges állományokkal.
Az MTA POLTEXT kutatócsoportja tavaly ilyen szövegbányászati módszerekkel vizsgálta meg, hogy a különböző kormányok mennyire módosították szét a törvényeket, vagyis hogy a gyakori változtatások mennyit rontottak a jogszabályok minőségén. Idén pedig nagy figyelmet kapott Korrupciókutató Központ Budapest szövegbányász projektje, ami hasonló módszerekkel elemezte, hogy a kormánypárti média mennyire követi az orosz propaganda irányvonalait.
A kutatócsoportot vezető Sebők Miklós szerint arra lehet számítani, hogy a mesterséges intelligenciára épülő gépi tanulási eljárások ismertebbé válásával hamarosan forradalmi eredményeket lehet elérni, és olyan politikai jelenségeket is megérthetünk, melyeket korábban adathiány vagy a megfelelő elemzési eszköztár hiányában nem vizsgálhattak a kutatók.
A múlt héten ezeket az új irányokat MTA Társadalomtudományi Kutatóközpontjában rendezett nemzetközi konferencián mutatták be. Volt olyan kutatás, ami a katalán tüntetések alatt a Twitter-üzenetek alapján elemezte az események érzelmi dinamikáját, amihez mesterséges intelligenciát használtak az érzelmi mintázatok azonosítására. Egy másik kutató pedig ugyanígy elemezte a Kreml kommunikációját Vlagyimir Putyin hatalomra kerülése óta. Különösen arra koncentrált, hogy a georgiai és az ukrajnai események hogyan befolyásolták az orosz-nyugati kapcsolatokat. Számszerűen kimutatta, hogyan épültek le azok a témák, ahol egyetértés volt a nyugati államokkal.
Miközben ezekből a példákból is látszik, hogy a szövegbányászat milyen fontossá vált, Sebők szerint itthon még gondot jelent az ehhez szükséges tudás megszerzése, mert a magyar egyetemek - a vezető külföldi intézményekkel szemben - nem ismerték fel a területben rejlő potenciált. Ezért egyelőre nincs a műszaki-informatikai területen és a CEU-n kívül szövegbányászati képzési program, de még nagyon kurzusok sem. Ezen az MTA TK-ban rövid képzések segítségével próbál változtatni, de megfelelő képzettséget csak az egyetemek tudnak adni.
Update: A cikk megjelenése után Az ELTE egyik oktatója jelezte, hogy a Társadalomtudományi Kara survey statisztika szakán is foglalkoznak hasonló kutatásokkal, valamint a BME-n is létezik a Szöveg- és webbányászat specializáció.
Kommentek
Közösségünk messze túlnyomó többségének jószándéka és minden moderációs igyekezetünk ellenére cikkeink alatt időről-időre a kollégáinkat durván sértő, bántó megjegyzések jelentek meg.
Hosszas mérlegelés és a lehetőségeink alapos vizsgálata után úgy döntöttünk, hogy a jövőben a közösségépítés más útjait támogatjuk, és a cikkek alatti kommentelés lehetőségét megszüntetjük. Közösség és Belső kör csomaggal rendelkező előfizetőinket továbbra is várjuk zárt Facebook csoportunkba, a Közértbe, ahol hozzászólhatnak a cikkeinkhez, és kérdezhetnek a szerzőinktől is.