Поговоріть зі мною Комп’ютер: голосове управління зникає

Якщо у ваших дверях починають з’являтися несподівані пакети, можливо, ви захочете поговорити з одним із ваших смарт-пристроїв.

На початку цього місяця шестирічна дитина в Далласі запитала у своєї родини Amazon Echo розумна колонка для лялькового будиночка. І Алекса, штучний помічник Amazon, подібний до Siri, негайно замовили до себе додому.

Телешоу з новин у Сан -Дієго підхопив цю історію і ненароком повторив її, коли один із ведучих новин прокоментував: «Я люблю маленьку дівчинку, кажучи:« Алекса, замови мені ляльковий будиночок ». Підслухавши це, кілька інших пристроїв Amazon у будинках по всьому Сан -Дієго намагався купити більше лялькових будиночків.

Звістка CW6 у Сан -Дієго про випадкову покупку лялькового будиночка Алекси.

{youtube}oI2KLIULjXc{/youtube}

Історія може здатися жахливо знайомою кожному, хто намагався вести розмову з Siri від Apple або Cortana від Microsoft. Наші пристрої чудово слухають нас, але це не завжди означає, що вони розуміють нас.

Дослідники Microsoft нещодавно визнали це потенційною проблемою сучасних інтерфейсів, що розмовляють: вони продаються як «розумні» помічники, з розумними жартами та світськими знаннями, але вони часто засмучують нас через відсутність здорового глузду.


Innersele підписатися графіка


В невелике навчання, дослідники виявили, що люди, які з часом продовжували спілкуватися зі своїми цифровими помічниками, були тими, хто починав з найменшими очікуваннями.

Що насправді робить голосовий інтерфейс?

Коли ви розмовляєте з голосовим інтерфейсом, він повинен:

  • «Чути» звук вашого голосу і відрізняти його від фонового шуму
  • з'ясуйте, де кожне слово починається і закінчується, ігноруючи ваші "umms" та "ahhs"
  • зіставте звук кожного слова зі словом у словнику, вибравши правильне з контексту, якщо воно є омофони
  • правильно тлумачити зміст всього речення
  • створити змістовну та корисну відповідь, яка відповідає вашому запиту.

Кожен із них є складним технічним викликом, і різні технологічні компанії досягли прогресу в різних сферах.

Google Асистент добре дає відповідні відповіді на широкий спектр запитів, оскільки він користується величезною кількістю даних Google про Інтернет та вашу особисту діяльність, якщо ви користуєтесь службами Google.

Amazon Echo особливо добре чує ваші запити з усієї галасливої ​​кімнати, завдяки шумопоглинаючій мікрофонній системі далекого поля. Звичайно, це також добре для здійснення покупок через Amazon.

За останні кілька років голосові інтерфейси стали набагато краще розуміти повсякденну або «природну» мову, а не лише хоробрі та ретельно сформульовані команди. Вони все ще краще справляються з простими запитами, такими як "хто грає на Відкритому чемпіонаті Австралії?", І, як правило, борються зі складнішими запитами, такими як "хто вперше цього року грає на Відкритому чемпіонаті Австралії?", І подальші дії питання, наприклад, "чи буде дощ під час фіналу?".

Ситуація є ще більш змішаною для інших мов, окрім англійської: хоча Siri підтримує більше 40 мов та діалектів, поки Alexa доступна лише англійською та німецькою мовами. Але всі ці функції неухильно вдосконалюються.

Де заїкаються голосові інтерфейси

Тож голосові інтерфейси незабаром захоплять усі наші технології, як передбачалося у фільмі Її? Gartner, компанія з дослідження технологій, має прогноз що до наступного року 30% нашої взаємодії з технологіями будуть розмовами з голосовими інтерфейсами.

Але голосові інтерфейси мають обмеження, і не всі з них можна вирішити за допомогою кращих технологій.

Голос є центральним засобом взаємодії з технологіями у фільмі Спайка Джонза «Вона».

{youtube}ne6p6MfLBxc{/youtube}

Шумове забруднення - одна з основних перешкод. Чи може ваш пристрій відрізнити те, що ви говорите, від фонового шуму навколо вас? У цьому можуть допомогти технології, включаючи зменшення шуму, індивідуальне розпізнавання голосу та читання губ.

Але як щодо фонового шуму, який ви створюєте для інших, спілкуючись зі своїм розумним пристроєм? Уявіть, що людина сидить поруч з вами в офісі - або в літаку - спілкується з Siri, коли ви намагаєтесь читати, і ви можете зрозуміти, чому голосові інтерфейси не завжди можуть бути соціально прийнятними.

Інший набір проблем випливає з розумових вимог до голосових інтерфейсів. Навчитися користуватися голосовою системою може бути важко, особливо якщо немає екрана, як у Amazon Echo.

Якщо ви коли -небудь дзвонили в банк або телефонну компанію, ви знаєте жалюгідне поєднання концентрації та нудьги, яке виникає в результаті прослуховування синтезованого голосового списку, в якому ви знайдете всі варіанти, поки чекаєте потрібного і намагаєтесь не змішувати їх вгору. Традиційні графічні інтерфейси дозволяють уникнути цієї проблеми, показуючи доступні параметри та дозволяючи швидко натиснути на свій вибір.

Після того, як ви вивчили голосові команди, їх використання може відволікати увагу. Дослідники виявили, що голосові команди зірвати твій хід думок більше, ніж миша та клавіатура.

Це особливо небезпечно для автомобільних голосових інтерфейсів: пару досліджень з Університету Юти показали, що це водії відволікається до 27 секунд після використання голосових команд.

Університет штату Юта / AAA Foundation for Safety Traffic Research щодо відволікання водія.

{vimeo}108281698{/vimeo}

Знайти його голос?

Тож навряд чи голосові інтерфейси захоплять повністю, але вони знайдуть корисні ніші в нашому житті. Вони вже поширені в автомобілях, де, сподіваємось, вони будуть менш відволікати увагу у міру вдосконалення технології.

На кухні ви можете попросити Alexa розповісти вам рецепт або оновити список покупок, поки ваші руки зайняті приготуванням їжі. У віртуальній та доповненій реальності голосові інтерфейси дозволяють керувати системою, коли ви взагалі не бачите своїх рук.

Під час вивчення мови їх можна використовувати для відпрацювання вимови. Найголовніше, що голосові інтерфейси допомагають користувачам з руховими порушеннями, RSI або дислексією подолати свої вади.

Голосові інтерфейси-це довгоочікувана технологія, і є вагомі підстави вважати, що їхній час нарешті настав. Просто пам’ятайте, що вони, можливо, ще не такі розумні, як здаються. І ви можете поставити PIN -код для голосових покупок, якщо поруч є діти.

Бесіда

про автора

Фрейзер Еллісон, кандидат філософських наук у сфері взаємодії людини та комп’ютера, Університет Мельбурна

Ця стаття була спочатку опублікована на Бесіда. Читати оригінал статті.

супутні товари

{amazonWS:searchindex=KindleStore;keywords=AmazonEcho" target="_blank" rel="nofollow noopener">InnerSelf Market і Amazon