A hang-asszisztensek közötti választás nem egyszerű, így mielőtt kiválasztanánk a számunkra legmegfelelőbbet, ismerkedjünk meg velük.
Az első hang-asszisztens 2011. október 4-én jelent meg az Apple iPhone 4S-sel: Ő volt Siri a digitális asszisztens, akit azóta többször megújult hangszínileg, új képességeket szerzett és egy időben eléggé lemaradt közben a feltörekvő konkurenciához képest.
Na de hogyan is működik egy hang-asszisztens, milyen célból hozták létre és mire használják elsősorban az emberek?
Nézzük sorban:
Hogy működik egy hang-asszisztens, egyáltalán mi is az?
A hang-asszisztensek két irány találkozásából jöttek létre. Az egyik a virtuális asszisztens, amely nyelvtani mondatokat dolgozott fel és próbált rá választ adni természetesnek ható szöveggel. Chat szerű megoldások korán, már az 1960-as évektől rendelkezésre álltak, a az ELIZA nevű “chat-bot” például az össes Tandy/Radio Shack számítógépen elérhető volt az 1970-es években. A működés a begépelt szövegben lévő kulcskifejezések megtalálására és erre való “dobozolt válaszra” épített, így az életszerű beszélgetéstől messze állt, viszont nagyon jól tudta hozni a “táv psziho-analítikust”, aki mindig visszakérdez a válaszadás helyett.
A másik irányvonal a természetes hang alapú szöveg írásos leképzése (TTS) függetlenül a hang egyedi tulajdonságaitól.
Viszonylag korán rendelkezésre álltak a hangutasításokat feldolgozó rendszerek, amelyek egy konkrét hangmintára reagáltak: Azonos szórend, hanglejtés, akcentus és szövegdinamika kellett ahhoz, hogy a hangutasítást egy parancshoz tudják rendelni. A viruális asszisztensek megjelenésével egy lépéssel közelebb kerültünk a Turing által megálmodott világhoz, ahol nem lehet különbséget tenni csak a beszélgetés alapján, hogy emberrel vagy géppel folytatunk-e párbeszédet. Ez persze koránt sem jelenti azt, hogy a Apple Siri, Google Assistant (mért nincs még emberi neve vajon?), és Amazon Alexa képesek úgy kommunikálni, mintha egy valódi asszisztenssel beszélgetnénk (bár a Google Duplex eléggé meggyőző), és ennek több oka is van, amit a következő pontokban fogok kifejteni.
A hang-asszisztens célja tehát, hogy az élő beszédet “megértse” és annak megfelelően reagáljon, akár valamilyen feladat végrehajtásával akár válaszadással.
Miért nem képesek a jelenlegi hang-asszisztensek úgy kommunikálni, mint egy valódi asszisztens?
Több oka is meghúzódik a háttérben.
- A jelenleg elterjedt megoldások “kiszervezik a megértést”: Valójában egy hangszóró és mikrofon párost kapunk, amely az adott hívószóval való aktiválás után elküldi a rögzített szöveget egy szerverfarmban található számítógép együttesre (értsd “felhőbe”) az interneten keresztül és az onnan érkező hangfájlt játsza le. Bár vannak próbálkozások a lokális hang-asszisztensi működésre is (ezekről is ejtünk szót a későbbiekben), jelenleg szinte csak felhős megoldáshoz férhetünk hozzá. Ennek az egyértelmű hátránya a hálózati szolgáltatástól való függés: ha nincs internet kapcsolat, akkor csak hangszóróként alkalmazhatjuk ezeket, illetve a szolgáltatás feltételei is változhatnak idővel.
- A válaszadások nem tanuló algoritmusokkal történnek (még), hanem vagy egy előre felépített végrehajtási sorrend alapján, amit akár magunk is megtaníthatunk nekik.
- A legtöbben nem virtuális asszisztensként használják, hanem szórakozásra. A komplexebb feladatokat nem bízzák az asszisztensre, így a legtöbb esetben az időmérés, zene lejátszás vagy az időjárás előrejelzés funkciót használják.
A legtöbb mobiltelefonban ott csak egy gombnyomásra van a hang-asszisztens, használatának viszont van egy nagyon fontos vetülete, ami korlátozza a felhasználhatóságukat, ez pedig az általuk ismert nyelvek.
Milyen nyelven beszélnek a hang-asszisztensek?
Azt egyből kijelenthetjük, hogy magyarul jelenleg (2021. június) nem beszélnek. Van rá lehetőség, hogy a Google Assistant-ot rábirjuk magyar mondatok kimondására, sőt Siri is képes feladatokat végrehajtani egy-egy rövid magyar kifejezésre, de ennél többet jelenleg nem hajlandóak megtenni.
Amellett sem szabad elmennünk, hogy hivatalosan sem a Google, sem az Amazon hang-asszisztens szolgáltatása nem támogatott Magyarországon. Ez annyit tesz, hogy az USA-ban rendelkezésre álló lehetőségek nagyjából 5-10%-át lehet itthoni címmel kihasználni.
A hang-asszisztensek ugyanis geolokációs alapon engedélyeznek és tiltanak egyes funkciókat, így előfordulhat, hogy egy termék bőszen hirdeti, hogy bizony ő Google Home és Amazon Alexa kompatibilis, majd hazaérve és kicsomagolva döbbenünk rá, hogy kis országunk bizony nem szerepel a támogatottak között, így el is felejthetjük a “legális” hozzáférést.
Persze a probléma megoldásához nem kell az USA-ba költöznünk, vagyis elég, ha azt virtuálisan tesszük. Ha sikerül meggyőznünk a hang-asszisztensünket, hogy valójában New York egyik kertvárosában lakunk, akkor ezek a problémák egy csapásra megoldódnak, bár előfordul, hogy ideiglenesen, mert viszonylag hamar feltűnik a magyar IP címről való folyamatos bejelentkezés.
Ez egyébként a legtöbb tartósan külföldön dolgozó felhasználó problémája is, amint kiérnek az országhatáron, rögtön elvesztik a jogosultságukat a szolgáltatások egy jelentős része felett.
De nézzük akkor jelenleg mely nyelveket támogatják a legjelentősebb hang-asszisztensek:
Amazon Alexa | Google Assistant (Eszközönként eltérő lehet) | Apple Siri |
Angol | Angol | Angol |
Német | Német | Német |
Francia | Francia | Francia |
Hindi | Hindi | |
Olasz | Olasz | Olasz |
Japán | Japán | Japán |
Portugál (Brazil) | – | Portugál (Brazil) |
Spanyol | Spanyol | Spanyol |
– | Holland | Holland |
– | Norvég | Norvég |
– | Svéd | Svéd |
– | Koreai | Koreai |
– | Dán | Dán |
– | Mandarin (Tajvan) | Mandarin |
– | – | Arab |
– | – | Kanton |
– | – | Finn |
– | – | Héber |
– | – | Maláj |
– | – | Orosz |
– | – | Thai |
– | – | Török |
Általánosságban igaz, hogy a főbb nyelveket a támogatással nem rendelkező országokban lehet használni, így nálunk az angol, német, spanyol, francia nyelvek érhetőek el elsősorban.
Milyen megoldások vannak jelenleg a piacon?
A fent említett három, nagy piaci részesedéssel rendelkező hang-asszisztens (Amazon Alexa, Google Assistant, Apple Siri) mellett a nagyobb telefon- és okoseszköz gyártóknak is vannak hang-asszisztens megoldásai: Samsung Bixby/Viv, a Microsoft Cortana (ami már csak vállalati szinten érhető el), Yandex Alice, Alibaba csoport AliGerie, Huawei Celia, Xiaomi XiaoAI, csak hogy a nagyobb márkákat említsük. Közös bennük a “felhős működés.
A bejegyzés elején említettem, hogy néhány lokálisan működő megoldás van a piacon, többségük vagy túl kicsi, vagy felvásárlás során elvesztette a lokális funkcióját. A tgalpon lévő megoldások közül a Mycroft emelkedik ki, nyílt-forráskódú és az adatbiztonság a fő fókusza, viszont jelenleg nem “Plug & Play” (a Mark II 2021-ben érkezik, a chip válság hátráltatja a megjelenést), ezért a felhasználók jelentős részének nem jelent alternatív megoldást.
Az Alexa, Google Assistant és Siri összehasonlítását a következő bejegyzésünkben ejtem meg.
Hogyan lássunk hozzá?
bármilyen összeg befektetése nélkül kipróbálhatjuk a hang-asszisztensek működését, elég csak elővenni a telefonunkat, hiszen azon nagyon nagy valószínűséggel “ül” már egy virtuális asszisztens, gyártótól függően, de akár le is tölthetjük a megfelelő alkalmazásokat a telefonunkra (Az Amazon megoldása érhető el egyformán az Apple és a Google eszközökre is, a másik két asszisztenst teljesértékűen csak a saját ökoszisztémájából érhetjük el).
Érdemes itt kezdeni, és ha megtetszik, akkor tovább lehet lépni az okos hangszórók irányába.