Egy kutatás szerint az emberek csak az esetek háromnegyedében ismerik fel, hogy mesterséges intelligencia által generált beszédet hallanak éppen

TECH
2023 augusztus 02., 19:42

Az emberek az esetek 73 százalékában képesek felismerni, hogy mesterségesen generált beszédet hallanak éppen, vagy pedig egy létező ember hangját, állapította meg a University College London kutatása. A vizsgálatot angol és mandarin anyanyelvű embereken végezték el, és mindkét csoport azonos pontossággal tudta megállapítani, hogy valós vagy generált hangot hallanak.

A kutatók egy olyan szövegfelolvasó - text-to-speech - algoritmust használtak a kísérlethez, amit először egy angol és egy mandarin nyelvű adatbázison képeztek ki, majd 50-50 deepfake hangmintát hozattak létre vele a két nyelven. Ezeket lejátszották 529 alanynak, akiknek azt kellett felismerniük, hogy valódi mintát hallanak, vagy algoritmus által létrehozott hangot: a résztvevők az esetek 73 százalékában tudták azonosítani az AI által generáltat. Ez az eredmény csak némileg javult, miután az alanyokat kiképezték arra, milyen jelek alapján ismerjék fel a deepfake beszédet.

A deepfake a generatív mesterséges intelligencia egy fajtája, olyan mesterséges kép- vagy hanganyag, esetleg más típusú tartalom, amelyet úgy hoznak létre, hogy hasonlítson egy valódi személy hangjára vagy megjelenésére. Például az alábbi videón Orbán Viktor jelenlegi, és Gyurcsány Ferenc korábbi miniszterelnök - ugyan nem tökéletes - deepfake hangja beszélgetnek úgy, mintha közösen Minecraftoznának.

link Forrás

Ez az első olyan kutatás, amely az angolon kívül más nyelv esetében is vizsgálta a mesterségesen generált beszéd észlelésének képességét. A tanulmány rámutat arra a széles körben osztott aggodalomra, miszerint az emberek nem képesek következetesen felismerni azt, ha egy hangfelvétel nem valódi, még akkor sem, ha erre kiképezték őket, írja a Guardian.