AI alapú hangasszisztensek csatája

Amazon Alexa, Apple Siri, Google Assistant már egy évtizede segíti a világ szerencsésebb felét a hangvezérelt kommunikációval. A nagy nyelvi modellek (LLM) rohamos fejlődése azonban alapos kihívás elé állítja a három nagyvállalat fejlesztőmérnökeit: saját megoldásaikat fejlesszék vagy beálljanak valamelyik vezető LLM megoldás mögé?

Amazon Alexa és a Claude AI

Amazon hangasszisztense, az Alexa, új korszakba lép, miután integrálta a Claude nevű mesterséges intelligencia modellt. Hosszú távú fejlesztési problémák miatt az Amazon úgy döntött, hogy külső partner technológiáját építi be saját hangasszisztensébe. Az új verzió, amit „Remarkable Alexa”-nak kereszteltek, októberben várható, és előfizetéses szolgáltatásként lesz elérhető. Az Anthropic vállalat Claude AI modelljének bevezetése jelentős előrelépést ígér az eddig használt Amazon modellekhez képest, melyek gyakran küzdöttek a szavak értelmezésével és a felhasználói kérések megválaszolásával (Elég csak rákeresni a YouTube-on az „Amazon Alexa not understand„-ra ).

Az Amazon 4 milliárd dollárt fektetett az Anthropic startupba, lehetővé téve ezzel, hogy a korai hozzáférést kapjon ezekhez az újításokhoz. Az új Alexa várhatóan mesterséges intelligencia által generált hírösszefoglalókat, gyermekeknek szóló chatbot funkciókat és beszélgetés-alapú vásárlási eszközöket fog tartalmazni. A hagyományos, ingyenes „Classic Alexa” verzió továbbra is elérhető marad, de az újításokért havi 5-10 dolláros előfizetési díjat kell majd fizetni.

Apple Siri: Az Apple Intelligence korszak

Az Apple Siri jelentősen okosabbá válik az Apple Intelligence nevű fejlesztése révén, amely az OpenAI ChatGPT montorjára épít. A legújabb frissítések segítségével Siri képes lesz természetesebb beszélgetéseket folytatni, és összetett feladatokat is elvégezni anélkül, hogy a felhasználónak részletekbe kellene bocsátkoznia. Az Apple ügyel arra, hogy Siri zavartalanul együttműködjön az Apple ökoszisztéma többi elemével, így a felhasználók könnyedén használhatják azt mindennapi feladataik során.

Az Apple már korábban is beépítette Siri mögött álló technológiát saját fejlesztéseibe, de a nagy nyelvi modellekkel való integráció további rugalmasságot és lehetőségeket biztosít majd a hangasszisztens számára. Ennek köszönhetően Siri relevánsabb és pontosabb válaszokat ad, jobban megértve a felhasználói kéréseket és összefüggéseket.

Google Assistant és a Gemini

A Google Assistant frissítése a Google Gemini nevű hangcsevegés mód révén várható. A Gemini segítségével a Google Assistant képességei jelentősen bővülnek, lehetővé téve, hogy a korábbiaknál természetesebb és folyékonyabb beszélgetéseket folytasson a felhasználókkal. A nagy nyelvi modellek (LLM) alkalmazásával a Google Assistant képes lesz komplex feladatokat is elvégezni, és jobban alkalmazkodik a felhasználók napi rutinjához és preferenciáihoz.

A Google célja olyan intelligens asszisztenst kínálni, amely mélyebb és részletesebb megértést nyújt a felhasználói kérésekkel kapcsolatban. Ez a megközelítés lehetővé teszi, hogy az Assistant proaktív javaslatokat tegyen és kérésekre válaszoljon, anélkül, hogy részletes utasításokra lenne szükség.

A nagy nyelvi modellek jövője a hangasszisztensekben

A nagy nyelvi modellek (LLM) integrációja az Amazon, Apple és Google hangasszisztenseibe forradalmasíthatja a hangvezérléses technológiát, és jelentős előrelépést hozhat a felhasználói élmény terén, főleg, ha az LLM-ek által jelenleg támogatott nyelveken is elérhetők leszenek. Az új modellek révén Alexa, Siri és Google Assistant egyaránt képesek lesznek pontosabban megérteni a felhasználói igényeket, komplex feladatokat elvégezni és proaktív javaslatokat tenni.

Az LLM-ek előnye, hogy természetesebb beszélgetéseket biztosítanak, hiszen ezek a modellek hatalmas mennyiségű nyelvi adaton alapulnak a korábban alkalmazott korlátozott nyelvkészlet és elfogadott utasításokhoz hasonlítva. Ennek köszönhetően a hangasszisztensek képesek lesznek a felhasználók napi rutinjához, érdeklődési köréhez és egyéni igényeihez igazodni.

Az Amazon Alexa, Apple Siri és Google Assistant új korszakba lépnek a nagy nyelvi modellek (LLM) integrációjával. Bár mindhárom asszisztens különböző irányokba fejleszti a technológiáit, céljuk közös: a felhasználói élmény és az intelligens funkciók javítása. Az LLM-ek révén az asszisztensek képesek lesznek természetesebb, intelligensebb és hatékonyabb interakciókat biztosítani a felhasználók számára még olyan kis felhasználószámmal rendelekző nyelveken is, mint a magyar, ezáltal megváltoztatva a mindennapi életet.

A cikkben nem tértünk ki a nyílt forráskódú megoldásokra, amelyek szintén nagy lehetőségeket kínálnak, erről külön cikkben fogunk írni.

Ha szeretnél hasonló gondolkodású okosotthon rajongókkal és szakemberekkel beszélgetni, csatlakozz a Discord csatornánkhoz vagy kövesd a LinkedIn profilomat, vagy vegyél részt a SmartHomeCampen!

Ha szeretnél mélyebben elmerülni az okosotthonok világában, első lépésben vegyél részt az okosotthon kihívásban vagy legyél te is „Okosotthon Kalandor”.

Ha készen állsz arra, hogy te is okosotthon telepítő legyél, foglalj időpontot egy ingyenes 45 perces konzultációra.

AI alapú hangasszisztensek csatája

Amazon Alexa és a Claude AI

Apple Siri: Az Apple Intelligence korszak

Google Assistant és a Gemini

A nagy nyelvi modellek jövője a hangasszisztensekben

Zsák Péter