A szövegbányászat forradalmasíthatja a társdalomtudományokat

  • A társadalomtudományok itthon is egyre több területen használják az adatbányász módszereket, amikkel olyan politikai jelenségeket is megérthetünk, amiket korábban nem vizsgálhattak a kutatók.  

Miután kiderült, hogy a Cambridge Analytica Facebook-felhasználók millióinak adatait használta fel politikai kampányok befolyásolására, hatalmas figyelmet kapott, hol tartanak azok a módszerek, amikkel a hatalmas méretű digitális adathalmazokat lehet algoritmusokkal feldolgozni. De szerencsére ezeket nem csak tömegmanipulációra lehet használni. 

Az egyre kifinomultabb adatelemző algoritmusok a társadalomtudományokat is forradalmasíthatják. A kvantitatív szövegelemzést és szövegbányászatok most a nemzetközi társadalomtudomány egyik leggyorsabban fejlődő területének tartják, más Big Data kutatási irányokkal együtt. Három éve az MTA-n belül is külön kutatócsoport alakult az adatbányász módszerek társadalomtudományi hasznosítására.

A szövegbányászat nagy mértékben épít az adatbányászat eredményeire, ahol főleg számszerű adatokat dolgoznak fel intelligens gépi módszerekkel. Az itt kimutatott statisztikai összefüggéseket, adatreprezentációkat a szövegbányászatnál is felhasználják, de nem jól számszerű adatokkal dolgoznak, hanem inkább  strukturálatlan szöveges állományokkal. 

Az MTA POLTEXT kutatócsoportja tavaly ilyen szövegbányászati módszerekkel vizsgálta meg, hogy a különböző kormányok mennyire módosították szét a törvényeket, vagyis hogy a gyakori változtatások mennyit rontottak a jogszabályok minőségén. Idén pedig nagy figyelmet kapott Korrupciókutató Központ Budapest szövegbányász projektje, ami hasonló módszerekkel elemezte, hogy a kormánypárti média mennyire követi az orosz propaganda irányvonalait

A kutatócsoportot vezető Sebők Miklós szerint arra lehet számítani, hogy a mesterséges intelligenciára épülő gépi tanulási eljárások ismertebbé válásával hamarosan forradalmi eredményeket lehet elérni, és olyan politikai jelenségeket is megérthetünk, melyeket korábban adathiány vagy a megfelelő elemzési eszköztár hiányában nem vizsgálhattak a kutatók. 

A múlt héten ezeket az új irányokat MTA Társadalomtudományi Kutatóközpontjában rendezett nemzetközi konferencián mutatták be. Volt olyan kutatás, ami a katalán tüntetések alatt a Twitter-üzenetek alapján elemezte az események érzelmi dinamikáját, amihez mesterséges intelligenciát használtak az érzelmi mintázatok azonosítására. Egy másik kutató pedig ugyanígy elemezte a Kreml kommunikációját Vlagyimir Putyin hatalomra kerülése óta. Különösen arra koncentrált, hogy a georgiai és az ukrajnai események hogyan befolyásolták az orosz-nyugati kapcsolatokat. Számszerűen kimutatta, hogyan épültek le azok a témák, ahol egyetértés volt a nyugati államokkal. 

Miközben ezekből a példákból is látszik, hogy a szövegbányászat milyen fontossá vált, Sebők szerint itthon még gondot jelent az ehhez szükséges tudás megszerzése, mert a magyar egyetemek - a vezető külföldi intézményekkel szemben - nem ismerték fel a területben rejlő potenciált. Ezért egyelőre nincs a műszaki-informatikai területen és a CEU-n kívül szövegbányászati képzési program, de még nagyon kurzusok sem. Ezen az MTA TK-ban rövid képzések segítségével próbál változtatni, de megfelelő képzettséget csak az egyetemek tudnak adni. 

Update: A cikk megjelenése után Az ELTE egyik oktatója jelezte, hogy a Társadalomtudományi Kara survey statisztika szakán is foglalkoznak hasonló kutatásokkal, valamint a BME-n is létezik a Szöveg- és webbányászat specializáció. 

November végén 476 újság, rádió, tévécsatorna és internetes oldal ajándékozta oda magát nemzetstratégiai közérdekből az új fideszes médiaalapítványnak, az eddiginél is jobban a kormány felé hajlítva a magyar nyilvánosságot.

A 444 nem közpénzből működik, és szerencsére senki sem tud bennünket a Fidesznek ajándékozni.

A hosszú távú, biztos működéshez viszont a te segítségedre is szükségünk van. Idén 50 millió forintot szeretnénk olvasóinktól összegyűjteni, 36 millió már összejött, ezt nagyon köszönjük!

Hogy elérjük a kitűzött célt, kérjük támogasd rendszeresen a 444-et!

Kapcsolódó
Népszerű
Uralkodj magadon!
Új kommentelési szabályok vannak 2016. január 21-től. Itt olvashatod el, hogy mik azok, és itt azt, hogy miért vezettük be őket.