Broj aplikacija i važnost glasovnih interfejsa ubrzano raste

Sadržaj

velika četvorka
Amerikanci žele da kupe
Operite, ispecite, očistite!
Stari koncept. Da li je konačno došlo njeno vreme?
tehnički teško pitanje
Glas? Grafička umjetnost? Ili možda oboje?
Pazite na sigurnost!

Američka porodica u Portlandu, Oregon, nedavno je saznala da je Alexov glasovni asistent snimio njihove privatne razgovore i poslao ih prijatelju. Vlasnica kuće, koju su mediji prozvali Danielle, rekla je novinarima da "nikada više neće uključiti taj uređaj jer joj se ne može vjerovati".

Alexa, koju pružaju Echo (1) zvučnici i drugi uređaji u desetinama miliona američkih domova, počinje snimati kada čuje svoje ime ili "pozivnu riječ" koju je izgovorio korisnik. To znači da čak i ako se riječ "Alexa" spomene u TV reklami, uređaj može početi snimati. Upravo to se dogodilo u ovom slučaju, kaže Amazon, distributer hardvera.

"Ostatak razgovora je glasovni asistent protumačio kao komandu za slanje poruke", navodi se u saopštenju kompanije. “U nekom trenutku, Alexa je glasno upitala: “Kome?” Nastavak porodičnog razgovora o parketu trebalo je da mašina shvati kao stavku na listi kontakata kupca.” Tako barem misli Amazon. Dakle, prijevod se svodi na niz nezgoda.

Anksioznost, međutim, ostaje. Jer iz nekog razloga, u kući u kojoj smo se još uvek osećali opušteno, moramo da uđemo u neku vrstu „glasovnog režima“, da gledamo šta pričamo, šta TV emituje i, naravno, šta ovaj novi zvučnik na grudima fioke kaže . nas.

Ipak, Uprkos nesavršenosti tehnologije i zabrinutosti za privatnost, sa porastom popularnosti uređaja kao što je Amazon Echo, ljudi se počinju navikavati na ideju interakcije s kompjuterima koristeći svoj glas..

Kao što je Werner Vogels, tehnički direktor Amazona, primijetio tokom svoje AWS re:Invent sesije krajem 2017. godine, tehnologija je do sada ograničavala našu sposobnost interakcije s računarima. U Google upisujemo ključne riječi pomoću tastature, jer je to i dalje najčešći i najlakši način za unos informacija u mašinu.

rekao je Vogels. -

velika četvorka

Kada smo koristili Google pretraživač na telefonu, vjerovatno smo davno primijetili znak mikrofona sa pozivom za razgovor. Ovo Google sada (2), koji može diktirati upit za pretraživanje, unijeti poruku glasom, itd. Posljednjih godina, Google, Apple i Amazon su se uvelike poboljšali tehnologija za prepoznavanje glasa. Glasovni asistenti kao što su Alexa, Siri i Google Assistant ne samo da snimaju vaš glas, već i razumiju šta im kažete i odgovaraju na pitanja.

Google Now je besplatno dostupan svim Android korisnicima. Aplikacija može, na primjer, postaviti alarm, provjeriti vremensku prognozu i provjeriti rutu na Google mapama. Konverzacijski nastavak Google Now stanja Google asistent () – virtuelna pomoć korisniku opreme. Dostupan je uglavnom na mobilnim i pametnim kućnim uređajima. Za razliku od Google Nowa, može učestvovati u dvosmjernoj razmjeni. Asistent je debitovao u maju 2016. kao dio Google aplikacije za razmjenu poruka Allo, kao i u Google Home glasovnom zvučniku (3).

3. Google Home

IOS sistem takođe ima svog virtuelnog asistenta, Siri, koji je program uključen u Appleove operativne sisteme iOS, watchOS, tvOS homepod i macOS. Siri je debitovao sa iOS 5 i iPhone 4s u oktobru 2011. na Let's Talk iPhone konferenciji.

Softver je baziran na konverzacijskom interfejsu: prepoznaje prirodni govor korisnika (uz iOS 11 moguće je i ručno unositi komande), odgovara na pitanja i izvršava zadatke. Zahvaljujući uvođenju mašinskog učenja, vremenom asistent analizira lične preferencije korisnik da pruži relevantnije rezultate i preporuke. Siri zahtijeva stalnu internet vezu - glavni izvori informacija ovdje su Bing i Wolfram Alpha. iOS 10 uveo je podršku za ekstenzije trećih strana.

Još jedan od velike četvorke Cortana. To je inteligentni lični asistent koji je kreirao Microsoft. Podržan je na Windows 10, Windows 10 Mobile, Windows Phone 8.1, Xbox One, Skype, Microsoft Band, Microsoft Band 2, Android i iOS platformama. Cortana je prvi put predstavljena na Microsoft Build Developer konferenciji u aprilu 2014. u San Francisku. Naziv programa dolazi od imena lika iz serije Halo igrica. Cortana je dostupna na engleskom, italijanskom, španskom, francuskom, njemačkom, kineskom i japanskom.

Korisnici već spomenutog programa Alexa moraju uzeti u obzir i jezična ograničenja - digitalni asistent govori samo engleski, njemački, francuski i japanski.

Amazon Virtual Assistant je prvi put korišten u pametnim zvučnicima Amazon Echo i Amazon Echo Dot koje je razvio Amazon Lab126. Omogućava glasovnu interakciju, reprodukciju muzike, kreiranje liste obaveza, postavljanje alarma, strimovanje podcasta, reprodukciju audio knjiga i informacije o vremenu, saobraćaju, sportu i drugim vijestima u realnom vremenu kao što su vijesti (4). Alexa može kontrolisati više pametnih uređaja za kreiranje sistema kućne automatizacije. Može se koristiti i za praktičnu kupovinu u Amazon prodavnici.

4. Za šta korisnici koriste Echo (prema istraživanju)

Korisnici mogu poboljšati Alexa iskustvo instaliranjem Alexa "vještina" (), dodatnih funkcija koje su razvile treće strane, koje se u drugim postavkama češće nazivaju aplikacijama kao što su vremenske prilike i audio programi. Većina Alexa uređaja vam omogućava da aktivirate svog virtuelnog asistenta pomoću lozinke za buđenje, koja se zove .

Amazon danas definitivno dominira tržištem pametnih zvučnika (5). IBM, koji je uveo novu uslugu u martu 2018. godine, pokušava da uđe u prva četiri Watsonov asistent, dizajniran za kompanije koje žele da kreiraju sopstvene sisteme virtuelnih asistenata sa glasovnom kontrolom. Koja je prednost IBM rješenja? Prema riječima predstavnika kompanije, prije svega na mnogo većim mogućnostima personalizacije i zaštite privatnosti.

Prvo, Watson Assistant nije brendiran. Kompanije mogu kreirati vlastita rješenja na ovoj platformi i označiti ih vlastitim brendom.

Drugo, oni mogu trenirati svoje pomoćne sisteme koristeći sopstvene skupove podataka, za koje IBM kaže da olakšava dodavanje funkcija i komandi tom sistemu nego druge tehnologije VUI (glasovni korisnički interfejs).

Treće, Watson Assistant ne daje IBM-u informacije o aktivnostima korisnika – programeri rješenja na platformi mogu samo zadržati vrijedne podatke za sebe. U međuvremenu, svako ko pravi uređaje, na primjer sa Alexom, trebao bi biti svjestan da će njihovi vrijedni podaci završiti na Amazonu.

Watson Assistant već ima nekoliko implementacija. Sistem je koristio, na primjer, Harman, koji je kreirao glasovnog asistenta za konceptni automobil Maserati (6). Na aerodromu u Minhenu, pomoćnik IBM-a pokreće Pepper robota kako bi pomogao putnicima da se kreću. Treći primjer je Chameleon Technologies, gdje se glasovna tehnologija koristi u pametnom kućnom mjeraču.

6. Watson asistent u konceptnom automobilu Maserati

Vrijedi dodati da osnovna tehnologija ovdje također nije nova. Watson Assistant uključuje mogućnosti šifriranja za postojeće IBM proizvode, Watson Conversation i Watson Virtual Agent, kao i API-je za analizu jezika i ćaskanje.

Amazon nije samo lider u tehnologiji pametnog glasa, već je pretvara u direktan posao. Međutim, neke kompanije su eksperimentisale sa Echo integracijom mnogo ranije. Sisense, kompanija iz BI i analitičke industrije, predstavila je Echo integraciju u julu 2016. Zauzvrat, startup Roxy odlučio je kreirati vlastiti softver i hardver koji se kontrolira glasom za ugostiteljsku industriju. Ranije ove godine, Synqq je predstavio aplikaciju za bilježenje koja koristi glasovnu obradu i obradu prirodnog jezika za dodavanje bilješki i kalendarskih unosa bez potrebe da ih kucate na tastaturi.

Sva ova mala preduzeća imaju visoke ambicije. Najviše od svega, međutim, naučili su da ne želi svaki korisnik svoje podatke prenijeti na Amazon, Google, Apple ili Microsoft, koji su najvažniji igrači u izgradnji platformi za glasovnu komunikaciju.

Amerikanci žele da kupe

U 2016. glasovno pretraživanje činilo je 20% svih Google mobilnih pretraživanja. Ljudi koji svakodnevno koriste ovu tehnologiju navode njenu pogodnost i multitasking među njenim najvećim prednostima. (na primjer, mogućnost korištenja tražilice dok vozite automobil).

Analitičari Visiongaina procjenjuju trenutnu tržišnu vrijednost pametnih digitalnih asistenata na 1,138 milijardi dolara Takvih mehanizama je sve više. Prema Gartneru, već do kraja 2018 30% naših interakcija sa tehnologijom će biti kroz razgovore sa glasovnim sistemima.

Britanska istraživačka kompanija IHS Markit procjenjuje da će tržište digitalnih asistenata sa AI-om dostići 4 milijarde uređaja do kraja ove godine, a taj broj bi mogao porasti na 2020 milijardi do 7. godine.

Prema izvještajima eMarketera i VoiceLabsa, 2017 miliona Amerikanaca koristilo je glasovnu kontrolu barem jednom mjesečno u 35,6. To znači povećanje od skoro 130% u odnosu na prethodnu godinu. Očekuje se da će samo tržište digitalnih asistenata porasti do 2018% u 23. To znači da ćete ih već koristiti. 60,5 miliona Amerikanaca, što će rezultirati konkretnim novcem za njihove proizvođače. RBC Capital Markets procjenjuje da će Alexa interfejs generirati do 2020 milijardi dolara prihoda za Amazon do 10. godine.

Operite, ispecite, očistite!

Glasovni interfejsi sve hrabrije ulaze na tržište kućnih aparata i potrošačke elektronike. To se već moglo vidjeti tokom prošlogodišnje izložbe IFA 2017. Američka kompanija Neato Robotics predstavila je, na primjer, robot usisivač koji se povezuje na jednu od nekoliko platformi za pametne kuće, uključujući Amazon Echo sistem. Razgovarajući sa Echo pametnim zvučnikom, možete uputiti mašinu da očisti cijelu vašu kuću u određeno doba dana ili noći.

Na izložbi su predstavljeni i drugi proizvodi koji se aktiviraju glasom, od pametnih televizora koje pod brendom Toshiba prodaje turska kompanija Vestel do grijanih ćebadi njemačke kompanije Beurer. Mnogi od ovih elektronskih uređaja mogu se aktivirati i daljinski pomoću pametnih telefona.

Međutim, prema riječima predstavnika Boscha, prerano je reći koja će od opcija domaćih pomoćnika postati dominantna. Na IFA 2017, njemačka tehnička grupa predstavila je mašine za pranje rublja (7), pećnice i aparate za kafu koji se povezuju na Echo. Bosch također želi da njegovi uređaji u budućnosti budu kompatibilni sa Google i Apple glasovnim platformama.

7. Bosch mašina za veš koja se povezuje na Amazon Echo

Kompanije kao što su Fujitsu, Sony i Panasonic razvijaju sopstvena rješenja glasovnog pomoćnika zasnovana na umjetnoj inteligenciji. Sharp dodaje ovu tehnologiju pećnicama i malim robotima koji ulaze na tržište. Nippon Telegraph & Telephone zapošljava proizvođače hardvera i igračaka da prilagode sistem umjetne inteligencije kontroliran glasom.

Stari koncept. Da li je konačno došlo njeno vreme?

U stvari, koncept Voice User Interface (VUI) postoji već decenijama. Svako ko je gledao Zvezdane staze ili 2001: Odiseju u svemiru pre mnogo godina verovatno je očekivao da ćemo oko 2000. godine svi kontrolisati kompjutere svojim glasovima. Takođe, nisu samo pisci naučne fantastike videli potencijal ove vrste interfejsa. 1986. Nielsenovi istraživači su pitali IT stručnjake šta misle da će biti najveća promjena u korisničkim interfejsima do 2000. godine. Najčešće su ukazivali na razvoj glasovnih interfejsa.

Ima razloga za nadati se takvom rješenju. Verbalna komunikacija je, na kraju krajeva, najprirodniji način da ljudi svjesno razmjenjuju misli, pa se njeno korištenje za interakciju čovjeka i mašine čini kao najbolje rješenje do sada.

Jedan od prvih VUI, tzv kutija za cipele, nastao je ranih 60-ih od strane IBM-a. Bio je to preteča današnjih sistema za prepoznavanje glasa. Međutim, razvoj VUI uređaja bio je ograničen ograničenjima računarske snage. Raščlanjivanje i tumačenje ljudskog govora u realnom vremenu zahtijeva mnogo truda, a trebalo je više od pedeset godina da se dođe do tačke u kojoj je to zapravo postalo moguće.

Uređaji s glasovnim sučeljem počeli su se pojavljivati u masovnoj proizvodnji sredinom 90-ih, ali nisu stekli popularnost. Prvi telefon sa glasovnom kontrolom (biranjem) bio je Philips Sparkobjavljen 1996. Međutim, ovaj inovativni uređaj koji je jednostavan za korištenje nije bio oslobođen tehnoloških ograničenja.

Drugi telefoni opremljeni oblicima glasovnog interfejsa (koje su kreirale kompanije kao što su RIM, Samsung ili Motorola) redovno dolaze na tržište, omogućavajući korisnicima da biraju glasovno ili šalju tekstualne poruke. Sve su one, međutim, zahtijevale memorisanje određenih naredbi i njihovo izgovaranje u forsiranom, umjetnom obliku, prilagođenom mogućnostima tadašnjih uređaja. To je generiralo veliki broj grešaka, što je zauzvrat dovelo do nezadovoljstva korisnika.

Međutim, sada ulazimo u novu eru računarstva, u kojoj napredak u mašinskom učenju i veštačkoj inteligenciji otključava potencijal razgovora kao novog načina interakcije sa tehnologijom (8). Broj uređaja koji podržavaju glasovnu interakciju postao je važan faktor koji je imao veliki uticaj na razvoj VUI. Danas skoro 1/3 svjetske populacije već posjeduje pametne telefone koji se mogu koristiti za ovu vrstu ponašanja. Izgleda da je većina korisnika konačno spremna da prilagodi svoje glasovne interfejse.

8. Savremena istorija razvoja glasovnog interfejsa

Međutim, prije nego što možemo slobodno razgovarati s kompjuterom, kao što su to učinili junaci Odiseje u svemiru, moramo prevladati niz problema. Mašine još uvijek nisu baš dobre u rukovanju lingvističkim nijansama. Osim toga mnogi ljudi se i dalje osjećaju neugodno davati glasovne komande pretraživaču.

Statistike pokazuju da se glasovni asistenti uglavnom koriste kod kuće ili među bliskim prijateljima. Niko od intervjuisanih nije priznao da koristi glasovnu pretragu na javnim mestima. Međutim, ova blokada će vjerovatno nestati sa širenjem ove tehnologije.

tehnički teško pitanje

Problem sa kojim se sistemi (ASR) suočavaju je izdvajanje korisnih podataka iz govornog signala i njihovo povezivanje sa određenom rečju koja ima određeno značenje za osobu. Zvukovi koji se proizvode su svaki put drugačiji.

Varijabilnost govornog signala je njegovo prirodno svojstvo, zahvaljujući kojem, na primjer, prepoznajemo akcenat ili intonaciju. Svaki element sistema za prepoznavanje govora ima specifičan zadatak. Na osnovu obrađenog signala i njegovih parametara kreira se akustički model koji se povezuje sa jezičkim modelom. Sistem prepoznavanja može raditi na osnovu malog ili velikog broja obrazaca, što određuje veličinu vokabulara sa kojim radi. Možda i jesu mali rječnici u slučaju sistema koji prepoznaju pojedinačne riječi ili naredbe, kao i velike baze podataka koji sadrži ekvivalent jezičkog skupa i uzimajući u obzir jezički model (gramatiku).

Problemi sa kojima se suočavaju pre svega glasovni interfejsi pravilno razumjeti govor, u kojem se, na primjer, često izostavljaju čitavi gramatički nizovi, javljaju se jezičke i fonetske greške, greške, propusti, govorni nedostaci, homonimi, neopravdana ponavljanja itd. Svi ovi ACP sistemi moraju raditi brzo i pouzdano. Barem su takva očekivanja.

Izvor poteškoća su i zvučni signali osim prepoznatog govora koji ulaze na ulaz sistema za prepoznavanje, tj. sve vrste smetnje i buke. U najjednostavnijem slučaju, oni su vam potrebni filtrirati. Ovaj zadatak se čini rutinskim i lakim – na kraju krajeva, razni signali se filtriraju i svaki inženjer elektronike zna što treba učiniti u takvoj situaciji. Međutim, to se mora učiniti vrlo pažljivo i pažljivo kako bi rezultat prepoznavanja govora ispunio naša očekivanja.

Filtriranje koje se trenutno koristi omogućava da se, uz govorni signal, uklone i vanjski šum koji je uhvatio mikrofon i unutrašnja svojstva samog govornog signala, koja otežavaju njegovo prepoznavanje. Međutim, mnogo složeniji tehnički problem nastaje kada je smetnja analiziranom govornom signalu ... drugi govorni signal, odnosno, na primjer, glasne rasprave okolo. Ovo pitanje je u literaturi poznato kao tzv. To već zahtijeva korištenje složenih metoda, tzv. dekonvolucija (otkrivanje) signala.

Problemi sa prepoznavanjem govora tu ne završavaju. Vrijedi shvatiti da govor nosi mnogo različitih vrsta informacija. Ljudski glas sugerira spol, godine, različite karaktere vlasnika ili stanje njegovog zdravlja. Postoji opsežna katedra za biomedicinsko inženjerstvo koja se bavi dijagnostikom raznih bolesti na osnovu karakterističnih akustičkih pojava koje se nalaze u govornom signalu.

Postoje i aplikacije u kojima je glavna svrha akustičke analize govornog signala identifikacija govornika ili potvrda da je on ono za koga se predstavlja (glas umjesto ključa, lozinke ili PUK koda). Ovo može biti važno, posebno za tehnologije pametnih zgrada.

Prva komponenta sistema za prepoznavanje govora je mikrofon. Međutim, signal koji je uhvatio mikrofon obično ostaje od male koristi. Istraživanja pokazuju da oblik i tok zvučnog talasa veoma variraju u zavisnosti od osobe, brzine govora, a delimično i raspoloženja sagovornika – dok u maloj meri odražavaju sam sadržaj izgovorenih komandi.

Dakle, signal mora biti pravilno obrađen. Moderna akustika, fonetika i računarstvo zajedno pružaju bogat skup alata koji se mogu koristiti za obradu, analizu, prepoznavanje i razumijevanje govornog signala. Dinamički spektar signala, tzv dinamički spektrogrami. Prilično ih je lako dobiti, a govor, predstavljen u obliku dinamičkog spektrograma, relativno je lako prepoznati korištenjem tehnika sličnih onima koje se koriste u prepoznavanju slika.

Jednostavni elementi govora (na primjer, naredbe) mogu se prepoznati po jednostavnoj sličnosti cijelih spektrograma. Na primjer, rječnik mobilnog telefona koji se aktivira glasom sadrži samo nekoliko desetina do nekoliko stotina riječi i fraza, obično unaprijed složenih tako da se mogu lako i efikasno identificirati. Ovo je dovoljno za jednostavne kontrolne zadatke, ali ozbiljno ograničava ukupnu primjenu. Sistemi izgrađeni prema shemi, u pravilu, podržavaju samo određene zvučnike za koje su glasovi posebno obučeni. Dakle, ako postoji neko novi ko želi da koristi svoj glas da kontroliše sistem, najverovatnije neće biti prihvaćen.

Rezultat ove operacije se zove 2-W spektrogram, odnosno dvodimenzionalni spektar. Postoji još jedna aktivnost u ovom bloku na koju vrijedi obratiti pažnju - segmentacija. Uopšteno govoreći, govorimo o razbijanju kontinuiranog govornog signala na dijelove koji se mogu zasebno prepoznati. Tek iz ovih pojedinačnih dijagnoza formira se prepoznavanje cjeline. Ovaj postupak je neophodan jer nije moguće identificirati dug i složen govor u jednom potezu. Već su čitavi tomovi napisani o tome koje segmente treba razlikovati u govornom signalu, pa nećemo sada odlučivati da li bi izdvojeni segmenti trebali biti fonemi (zvučni ekvivalenti), slogovi ili možda alofoni.

Proces automatskog prepoznavanja uvijek se odnosi na neke karakteristike objekata. Stotine skupova različitih parametara je testirano za govorni signal podijeljen u prepoznate okvire i imati odabrane karakteristikepri čemu se ovi okviri predstavljaju u procesu prepoznavanja, možemo izvesti (za svaki okvir posebno) klasifikacija, tj. dodeljivanje identifikatora okviru, koji će ga predstavljati u budućnosti.

Sledeća faza sastavljanje okvira u zasebne riječi - najčešće na osnovu tzv. model implicitnih Markovljevih modela (HMM-). Zatim dolazi montaža riječi kompletne rečenice.

Sada se možemo na trenutak vratiti na Alexa sistem. Njegov primjer pokazuje višestepeni proces mašinskog "razumijevanja" osobe - tačnije: naredbu koju je on dao ili postavljeno pitanje.

Razumijevanje riječi, razumijevanje značenja i razumijevanje namjere korisnika su potpuno različite stvari.

Stoga je sljedeći korak rad NLP modula (), čiji je zadatak prepoznavanje namjere korisnika, tj. značenje naredbe/pitanja u kontekstu u kojem je izgovorena. Ako je namjera identificirana, onda dodjela vještina i sposobnosti tzv, tj. specifičnu funkciju koju podržava pametni asistent. U slučaju pitanja o vremenu, pozivaju se izvori podataka o vremenu, koje ostaje za obradu u govor (TTS - mehanizam). Kao rezultat, korisnik čuje odgovor na postavljeno pitanje.

Glas? Grafička umjetnost? Ili možda oboje?

Većina poznatih modernih sistema interakcije zasniva se na posredniku tzv grafičko korisničko sučelje (grafički interfejs). Nažalost, GUI nije najočitiji način interakcije s digitalnim proizvodom. Ovo zahtijeva da korisnici prvo nauče kako koristiti sučelje i zapamtiti ove informacije sa svakom sljedećom interakcijom. U mnogim situacijama, glas je mnogo praktičniji, jer možete komunicirati sa VUI jednostavnim razgovorom sa uređajem. Sučelje koje ne prisiljava korisnike da pamte i pamte određene komande ili metode interakcije uzrokuje manje problema.

Naravno, proširenje VUI ne znači napuštanje tradicionalnijih interfejsa – radije će biti dostupni hibridni interfejsi koji kombinuju nekoliko načina interakcije.

Glasovni interfejs nije pogodan za sve zadatke u mobilnom kontekstu. Uz to ćemo pozvati prijatelja koji vozi automobil, pa čak i poslati mu SMS, ali provjera najnovijih transfera može biti preteška - zbog količine informacija koje se prenose sistemu () i generiraju od strane sistema (sistema). Kao što Rachel Hinman sugerira u svojoj knjizi Mobile Frontier, korištenje VUI postaje najefikasnije kada se obavljaju zadaci gdje je količina ulaznih i izlaznih informacija mala.

Pametni telefon povezan na internet je zgodan, ali i nezgodan (9). Svaki put kada korisnik želi nešto kupiti ili koristiti novu uslugu, mora preuzeti drugu aplikaciju i kreirati novi račun. Ovdje je stvoreno polje za korištenje i razvoj glasovnih interfejsa. Umjesto da prisiljavaju korisnike da instaliraju mnogo različitih aplikacija ili kreiraju zasebne račune za svaku uslugu, stručnjaci kažu da će VUI prebaciti teret ovih glomaznih zadataka na glasovnog asistenta koji pokreće AI. Biće mu zgodno da obavlja naporne aktivnosti. Mi ćemo mu samo naređivati.

9. Glasovni interfejs preko pametnog telefona

Danas je više od telefona i računara povezano na Internet. Pametni termostati, svjetla, kuhala za vodu i mnogi drugi IoT integrirani uređaji su također povezani na mrežu (10). Dakle, svuda oko nas postoje bežični uređaji koji ispunjavaju naše živote, ali ne uklapaju se svi prirodno u grafičko korisničko sučelje. Korišćenje VUI će vam pomoći da ih lako integrišete u naše okruženje.

10. Glasovni interfejs sa Internetom stvari

Kreiranje glasovnog korisničkog interfejsa uskoro će postati ključna dizajnerska vještina. Ovo je pravi problem – potreba za implementacijom glasovnih sistema potaknut će vas da se više fokusirate na proaktivni dizajn, odnosno pokušaj da shvatite početne namjere korisnika, predviđajući njihove potrebe i očekivanja u svakoj fazi razgovora.

Glas je efikasan način za unos podataka—omogućava korisnicima da brzo izdaju komande sistemu prema vlastitim uslovima. S druge strane, ekran pruža efikasan način za prikaz informacija: omogućava sistemima da istovremeno prikažu veliku količinu informacija, smanjujući opterećenje memorije korisnika. Logično je da njihovo kombinovanje u jedan sistem zvuči ohrabrujuće.

Pametni zvučnici poput Amazon Echo i Google Home uopće ne nude vizualni prikaz. Značajno poboljšavajući tačnost prepoznavanja glasa na umjerenim udaljenostima, omogućavaju rad bez ruku, što zauzvrat povećava njihovu fleksibilnost i efikasnost – poželjni su čak i za korisnike koji već imaju pametne telefone s glasovnom kontrolom. Međutim, nedostatak ekrana je veliko ograničenje.

Samo zvučni signali se mogu koristiti za informiranje korisnika o mogućim naredbama, a čitanje izlaza naglas postaje zamorno osim za najosnovnije zadatke. Podešavanje tajmera sa glasovnom komandom tokom kuvanja je odlično, ali nije potrebno da pitate koliko je vremena ostalo. Dobijanje redovne vremenske prognoze postaje test pamćenja za korisnika, koji mora da sluša i upija niz činjenica tokom cele nedelje, umesto da ih pokupi sa ekrana na prvi pogled.

Dizajneri već jesu hibridno rešenje, Echo Show (11), koji je osnovnom pametnom zvučniku Echo dodao ekran. To uvelike proširuje funkcionalnost opreme. Međutim, Echo Show je i dalje mnogo manje sposoban za obavljanje osnovnih funkcija koje su odavno dostupne na pametnim telefonima i tabletima. Na primjer, ne može (još) surfati internetom, prikazati recenzije ili prikazati sadržaj Amazon korpe za kupovinu.

Vizuelni prikaz je inherentno efikasniji način da se ljudima pruži obilje informacija nego samo zvuk. Dizajniranje s glasovnim prioritetom može uvelike poboljšati glasovnu interakciju, ali dugoročno, proizvoljno ne korištenje vizualnog menija radi interakcije će biti kao borba s jednom rukom vezanom iza leđa. Zbog nadolazeće složenosti end-to-end inteligentnih interfejsa za glas i ekran, programeri bi trebali ozbiljno razmotriti hibridni pristup interfejsima.

Povećanje efikasnosti i brzine sistema za generisanje i prepoznavanje govora omogućilo je njihovu upotrebu u aplikacijama i područjima kao što su, na primjer:

• vojni (glasovne komande u avionima ili helikopterima, na primjer, F16 VISTA),

• automatska transkripcija teksta (govor u tekst),

• interaktivni informacioni sistemi (Prime Speech, glasovni portali),

• mobilni uređaji (telefoni, pametni telefoni, tableti),

• robotika (Cleverbot - ASR sistemi u kombinaciji sa veštačkom inteligencijom),

• automobilska (hands-free kontrola komponenti automobila, kao što je Blue & Me),

• kućne aplikacije (sistemi pametne kuće).

Pazite na sigurnost!

Automobilska industrija, kućni aparati, sistemi za grejanje/hlađenje i kućni sigurnosni sistemi, kao i mnoštvo kućnih aparata počinju da koriste glasovne interfejse, često zasnovane na veštačkoj inteligenciji. U ovoj fazi se šalju podaci dobijeni iz miliona razgovora sa mašinama računarski oblaci. Jasno je da su trgovci zainteresovani za njih. I ne samo oni.

Nedavni izvještaj Symantecovih stručnjaka za sigurnost preporučuje da korisnici glasovnih komandi ne kontroliraju sigurnosne funkcije kao što su brave na vratima, a kamoli kućni sigurnosni sistemi. Isto vrijedi i za pohranjivanje lozinki ili povjerljivih informacija. Sigurnost umjetne inteligencije i pametnih proizvoda još nije dovoljno proučena.

Kada uređaji u cijelom domu slušaju svaku riječ, rizik od hakovanja sistema i zloupotrebe postaje velika briga. Ako napadač dobije pristup lokalnoj mreži ili pridruženim adresama e-pošte, postavke pametnog uređaja se mogu promijeniti ili resetirati na tvorničke postavke, što će dovesti do gubitka vrijednih informacija i brisanja istorije korisnika.

Drugim riječima, sigurnosni profesionalci se plaše da umjetna inteligencija vođena glasom i VUI još uvijek nije dovoljno pametna da nas zaštiti od potencijalnih prijetnji i drži jezik za zubima kada stranac nešto traži.