Képzelj el egy innovatív fejhallgatót, amely varázslatos módon képes több idegen nyelven kommunikáló emberek szavait egyszerre fordítani. Ezzel a modern csodával a nyelvi határok eltűnnek, és lehetőséged nyílik bármilyen beszélgetésben részt venni, függet


A jelenség, amely sokak számára ismerős lehet: bárki, aki rendelkezik okostelefonnal vagy fejhallgatóba integrált fordítóprogrammal, könnyen szembesülhet azzal a problémával, hogy zajos környezetben a technológia nem tudja hatékonyan értelmezni a beszédet. Ezen a kihíváson dolgoztak a Washingtoni Egyetem kutatói, akik innovatív megoldást találtak. Fejhallgató-alapú rendszerük, amelyet Spatial Speech Translation (térbeli beszédfordítás) néven ismerünk, már meglévő alkatrészek felhasználásával készült, és célja, hogy a zörejek között is pontosan érzékelje és fordítsa a beszédet.

A fejhallgató-rendszer egyszerre több beszélő mondanivalóját is lefordítja, miközben megőrzi a beszélő hangjának irányát és minőségét. A beépített algoritmusok ehhez elkülönítik a beszélőket, követik őket mozgás közben, lefordítják, amit mondanak, és 2-4 másodperces késleltetéssel le is játsszák azt.

Tuochao Chen, a kutatás vezetője így fogalmaz: "Algoritmusaink működése hasonló a radarokéhoz. Széles spektrumú, 360 fokos teret figyelnek, folyamatosan elemzik és frissítik az információkat arról, hogy jelen van-e egy, kettő, hat vagy akár hét személy a környéken."

A rendszer alapját egy pár Sony SH-100XM4 zajszűrős fejhallgató és egy Sonic Presence SP15C binaurális fejhallgató alkotja. A binaurális fejhallgatók képesek a hangot úgy rögzíteni, ahogyan azt az emberi fül percepciója érzékeli, vagyis két különböző forrásból. Miután a mikrofonok begyűjtötték a hangokat, a jel egy mobileszközre kerül, ahol valós időben neurális hálózati modellek feldolgozzák az információt.

Ebben az esetben a csapat egy Apple M2 chipet tartalmazó laptopot használt, amely kifejezetten a neurális hálózatok futtatására lett optimalizálva. A hangklónozással kapcsolatos adatvédelmi problémák elkerülése érdekében a felhőalapú megoldásokat nem alkalmazták. A jelet ezt követően dekódolják és visszajuttatják a fejhallgatón keresztül, amely akár 1-2 másodperces késleltetéssel működik. Azonban a tesztelés során a felhasználók a 3-4 másodperces késleltetést preferálták, mivel így a rendszer kevesebb hibát produkált.

A mesterséges intelligencia alapú rendszer nemcsak a csoportos beszélgetésekben képes a különböző hangok kiszűrésére, hanem megőrzi a beszéd természetes ritmusát is, így a lefordított üzenet nagyon természetesen szól. Emellett alkalmazkodik, ahogy a viselő körbejár a szobában vagy elforgatja a fejét, rögzítve a különböző beszélgetési szálakat.

A rendszer 10 beltéri és kültéri tesztelés során megfelelően működött, sőt egy 29 résztvevős teszt során a felhasználók jobban kedvelték ezt a megoldást azokkal a modellekkel szemben, amelyek nem követték nyomon a hangszórókat a térben.

A Spatial Speech Translation jelenleg csak a köznyelvi beszéddel boldogul, a szakzsargont nem érti. A mostani tanulmány készítésekor a csapat spanyol, német és francia nyelven dolgozott, viszont a fordítási modelleken végzett korábbi munkák azt mutatták, hogy az ilyen modellek akár száz nyelv fordítására is betaníthatók.

"Ez egy jelentős előrelépés a különböző kultúrák közötti nyelvi gátak lebontásában" - osztotta meg Chen. "Például, amikor Mexikó városában sétálok, és nem beszélek spanyolul, akkor is képes leszek megérteni, hogy mit mondanak körülöttem" - tette hozzá. A technológia mögötti kódot ráadásul nyílt forráskódúvá alakították, így bárki számára elérhető a GitHubon, lehetőséget adva a további kísérletezésre.

Related posts