Az emberek az esetek 73 százalékában képesek felismerni, hogy mesterségesen generált beszédet hallanak éppen, vagy pedig egy létező ember hangját, állapította meg a University College London kutatása. A vizsgálatot angol és mandarin anyanyelvű embereken végezték el, és mindkét csoport azonos pontossággal tudta megállapítani, hogy valós vagy generált hangot hallanak.
A kutatók egy olyan szövegfelolvasó - text-to-speech - algoritmust használtak a kísérlethez, amit először egy angol és egy mandarin nyelvű adatbázison képeztek ki, majd 50-50 deepfake hangmintát hozattak létre vele a két nyelven. Ezeket lejátszották 529 alanynak, akiknek azt kellett felismerniük, hogy valódi mintát hallanak, vagy algoritmus által létrehozott hangot: a résztvevők az esetek 73 százalékában tudták azonosítani az AI által generáltat. Ez az eredmény csak némileg javult, miután az alanyokat kiképezték arra, milyen jelek alapján ismerjék fel a deepfake beszédet.
A deepfake a generatív mesterséges intelligencia egy fajtája, olyan mesterséges kép- vagy hanganyag, esetleg más típusú tartalom, amelyet úgy hoznak létre, hogy hasonlítson egy valódi személy hangjára vagy megjelenésére. Például az alábbi videón Orbán Viktor jelenlegi, és Gyurcsány Ferenc korábbi miniszterelnök - ugyan nem tökéletes - deepfake hangja beszélgetnek úgy, mintha közösen Minecraftoznának.
Ez az első olyan kutatás, amely az angolon kívül más nyelv esetében is vizsgálta a mesterségesen generált beszéd észlelésének képességét. A tanulmány rámutat arra a széles körben osztott aggodalomra, miszerint az emberek nem képesek következetesen felismerni azt, ha egy hangfelvétel nem valódi, még akkor sem, ha erre kiképezték őket, írja a Guardian.