A Google Translate lassan jobban tudja, mit akar mondani Németh Szilárd, mint maga Németh Szilárd

anarki

tech 2017. április 20. 16:23

Link másolása
Facebook
X (Twitter)
Tumblr
LinkedIn

Nincs hálásabb dolog a világon, mint a gépi fordítók szörnyű baklövésein gúnyolódni: én például több mint egy évtizede gúnyolódom lelkesen a Microsoft, a Google és a többi mindenre elszánt próbálkozó fordítási kísérletein. Most viszont úgy tűnik, lassan abba lehet hagyni a gúnyolódást, és belátni, hogy a tudomány és technika eljutott arra a szintre, hogy a legjobb gépi fordítók kis szerencsével talán még egy angol írásbeli középfokú nyelvvizsga-fordítást is sikerrel abszolválnának. Egy alapfokút pedig szinte biztosan.

Mi történt? A gépi fordítók kezdetben a klasszikus, szabályalapú fordítási módszert (rules-based machine translation, RBMT) alkalmazták: felül betáplálja az ember a szótárt meg a nyelvtani szabályokat, alul a gép kiköpi az eredményt. A statisztikai alapú (SMT), illetve mintaalapú (EBMT) rendszerek már létező kétnyelvű szövegek –szakszerűen: bilingvális korpuszok – összehasonlításával próbálták meghatározni az egyes szavak, kifejezések és mondatok megfelelő fordítását, több-kevesebb sikerrel – a végeredményt tekintve inkább kevesebbel, mint többel.

A forradalmat a neurális gépi fordítás (NMT) hozta el: ezeknek a programoknak az alapja egy mesterséges neurális háló, amely, ahogy a neve is utal rá, hasonlóan épül fel ahhoz, ahogyan az emberi agy sejtjei működnek, pontosabban ahhoz, amit az emberi agy működéséről tudni vélünk. Ezek az egymással kapcsolatban álló mesterséges neuronok millióiból összeálló rendszerek már képesek a tanulásra és az önkorrekcióra, sőt a legfejlettebb, dinamikus neurális hálók újabb és újabb neuronokat és kapcsolatokat is létre tudnak hozni. És bár korántsem olyan komplexek, mint a mintájukként szolgáló emberi agy, úgy tűnik, hogy bizonyos feladatokra egyre alkalmasabbak. Ilyen feladat például egy angol nyelvű szöveg magyarra fordítása.

A Google tavaly ősszel vezette be saját, hibrid verzióját, a GNMT-t, ami a neurális technológia mellett erősen hagyatkozik a példaalapú (EMT) fordítási módszerekre is; a magyarországi Google pedig a napokban jelentette be, hogy fordítószolgáltatása, a Translate angol-magyar és magyar-angol modulja mostantól az új neurális technológiával működik. Az eredmény több mint meggyőző.

A változást bejelentő magyar nyelvű sajtóközlemény például így hangzik:

„A neurális fordítási technológiával rendelkező Google Fordító jóval intelligensebb, mint az eddig használt kifejezés-alapú rendszer, amely már egész mondatokat képes fordítani, egyszerű kifejezések helyett. Ennek köszönhetően a fordítások mától sokkal pontosabbak lesznek és közelebb járnak majd ahhoz, ahogy az emberek a nyelveket ténylegesen használják. Főképp egész mondatok, hosszabb szövegek fordítása esetén lesz igazán érezhető a fejlesztés.”

A Google Translate által előállított angol verzió pedig így:

„Google Translator with Neural Translation Technology is much smarter than the phrase-based system used so far, which can translate entire sentences instead of simple terms. As a result, translations will become much more accurate today and will be closer to how people actually use the languages. Especially when it comes to translating whole sentences or longer texts, development is really noticeable.”

Néhány apró hibától eltekintve tökéletes fordítás. A neurális technológia nagybetűzése megkérdőjelezhető, a today nem azt jelenti, hogy mától, a languages elé nem kell névelő, a kifejezésalapú egybe van, de megkockáztatom, hogy ennek a gép által előállított fordításnak a minősége felülmúlja azét a szövegét, amelyet egy átlagos alapfokú nyelvvizsgázó elő tudna állítani (az, hogy a which vonatkozó névmás rossz előzményre utal vissza, nem a gép, hanem az eredeti szöveg hibája, mert már ott is rosszul van).

Nézzünk egy másik fontos kortárs textust, Német Szilárd rezsibiztos, Fidesz-alelnök, Nemzetbiztonsági Bizottság-alelnök, csepeli expolgármester nevezetes szavait a liberálisokról!

Eredeti szöveg:

„Hablaty, hamuka, duma, hazugság. Mondjam még másképp? (...) És vállalom a megbélyegzést. Már szinte kezdem élvezni. A liberálisok azért építették fel virtuális valóságukat, mert brutálisan nagy pénz és gazdasági érdek, hatalom van mögötte. Mindezzel egész Európát szeretnék befolyásolni.”

A régi Google Translate fordítása:

„Hablaty, hamuka, talk, lie. I say otherwise? (...) And I take the stigma. I have been almost beginning to enjoy. The Liberals were built up their virtual reality, brutally Because a lot of money and economic interests, power is behind it. With all this love to influence the whole of Europe.”

Az új, nerurális alapú Google Translate fordítása:

„Hablaty, ash, dummy, lie. Can I tell you differently? (...) And I take the stigma. I'm almost beginning to enjoy it. The liberals have built their virtual reality because they have brutally great money and economic interests, power behind them. All this is to influence Europe as a whole.”

A notórius szőrszálhasogatók nyilván fennakadnak azon, hogy a gépnek sem a hablatyot, sem a hamukát nem sikerült lefordítania, és a Can I tell you differently? sem jött össze, de a többi szinte teljesen rendben van, sőt a gép nyelvtanilag korrektebb fordítást állított elő annál, amit Németh Szilárd eredetileg hablatyolt – bár értelme, az így sincs semennyi, azon pedig el lehet vitatkozni, hogy a virtuális valóság mögött áll sok pénz, vagy a liberálisok mögött. Valószínűleg mindkettő igaz.

Verset ereszteni egy gépi fordítóra végképp szemétség, mert a versekkel még a hivatásos műfordítók is meg szoktak küzdeni, de itt is jól látható a javulás:

Petőfi Az alföldje a régi Google Translate szerint:

És az új Google Translate szerint:

Oké, a sasból zakó lett, a rónából meg báró, és ezen továbbra is lehet gúnyosan mosolyogni, de még öt év, legfeljebb tíz, a mesterséges neuronok összeszedik magunkat, és akkor majd örökre arcunkra fagy az a mosoly. Addig is mindenki tanuljon nyelveket, legalább a magyart, nehogy úgy járjon, mint Németh Szilárd.

tech nmt neurális hálózatok google translate gépi fordítás