Как сделатьУмный дом

Как Алекса слушает бодрствующие слова

Алекса на столе с речевым пузырем, который говорит: «Ты сказал Алекса?»

Алекса всегда слушает, но не постоянно записывает. Он ничего не отправляет на облачные серверы, пока не услышит, как вы произносите слово «пробуждение» (Alexa, Echo или Computer). Но прислушиваться к пробужденным словам сложнее, чем вы думаете.

Эхо аппаратное обеспечение не так уж и умно. Без Интернета любой запрос или вопрос, который вы зададите, потерпит неудачу. Это потому, что ваши команды отправляются в облако для интерпретации и принятия решений. Amazon не хочет, чтобы записывались все ваши разговоры перед умным оратором, а просто команды, которые вы даете умному динамику. По этой причине компания использует слово «бодрствование», чтобы привлечь внимание умного говорящего. Для этого Amazon использует комбинацию тонко настроенных микрофонов, короткого буфера памяти и обучения нейронной сети.

Тонко настроенные микрофоны точно определяют ваш голос

Amazon Echo dot 3 с голубым светодиодным кольцом.
Голубой светодиод всегда будет направлен на ваш голос. Амазонка

Динамики Voice Assistant, такие как Echo и Echo Dot, обычно имеют несколько встроенных микрофонов. У Echo Dot, например, семь. Этот массив дает устройствам несколько возможностей: от слышимых команд, произносимых далеко, до отделения фонового шума от голосов.

Последнее особенно полезно для обнаружения пробужденного слова. Используя несколько микрофонов, Echo может точно определить ваше местоположение относительно того, где он сидит, и слушать в этом направлении, игнорируя при этом остальную часть комнаты.

Вы видите это в действии всякий раз, когда используете слово «пробуждение». Встаньте рядом с Echo или Echo Dot и произнесите слово «пробуждение». Обратите внимание, что кольцо загорается темно-синим, а затем светло-синим, когда оно кружится и «указывает» на вас. Теперь переместитесь на несколько шагов в сторону и еще раз произнесите слово «пробуждение». Обратите внимание, что светло-голубые огни следуют за вами.

Знание того, где вы находитесь, помогает устройству лучше ориентироваться на вас и настраивать шумы, исходящие из других источников .

Короткая память не дает громкоговорителю удерживать слишком много

Эхо-устройства имеют много места для хранения, но они не используют его много. По словам Рохита Прасада, вице-президента Amazon и главного научного сотрудника Alexa искусственного интеллекта, эхо может физически хранить только несколько секунд звука .

Сокращая свои возможности, Amazon не только обеспечивает вам большую конфиденциальность (это место, в котором хранится ваш голос), но и не позволяет Echo прослушивать целые разговоры, ограничивая свое внимание поиском слова-будильника.

Представьте, что у вас есть трехсекундная кассета и магнитофон. Предположим, что после того, как он достиг конца, лента снова и снова возвращалась к началу. Если вы начнете записывать разговор, все, что вы сказали четыре секунды назад, будет стерто и немедленно записано. Это то, что делает Amazon Echo.

Он записывает непрерывно, но стирает все, что только что записал одновременно. Этот короткий объем внимания означает, что все, что он может услышать, это слово «Alexa», и не намного. Однако трех секунд достаточно для того, чтобы это слово было записано, проверено и соответствующим образом обработано.

Обучение нейронной сети помогает с сопоставлением с образцом

Блок-схема слоев алгоритма Amazon.
Представление слоев, используемых алгоритмами Amazon. Амазонка

Наконец, Amazon полагается на обучение нейронной сети, чтобы научить Echo, как сопоставлять паттерны. Подобно другим формам машинного обучения , Amazon обучает свои алгоритмы , передавая его экземпляр за экземпляром слова Alexa (или Computer, или Echo, в зависимости от того, какое слово просыпается в компании).

СВЯЗАННЫЕ: Что такое алгоритмы и почему они делают людей неудобными?

Идея состоит в том, чтобы охватить все перегибы и акценты, а также контекст. Amazon хочет, чтобы ваше эхо распознало разницу, когда вы разговариваете с ним, когда вы говорите об этом, или, возможно, когда вы разговариваете с человеком по имени Alexa. Направленные микрофоны также помогают с этой целью.

С каждым словом, которое слышит Эхо, оно пропускает звук через слои алгоритмов. Каждый слой предназначен для исключения ложных срабатываний, поиска похожих звуков или контекстных подсказок. Если проверка одного слоя проходит, слово переходит к следующему. Наконец, когда локальное устройство решает, что оно услышало слово «пробуждение», оно начинает записывать и передавать аудио на облачные серверы Amazon. Amazon использует четыре алгоритма: по одному для каждого слова пробуждения (Alexa, Computer, Echo) и один для Alexa Guard, который обрабатывает определенные звуки, такие как разбивание стекла, как слово после пробуждения.

Но даже когда совпадение происходит, Amazon все равно проводит более сложные проверки. Вы заметили, что когда кто-то произносит слово «Алекса» в телешоу или рекламе, оно обычно не вызывает отклика у вашего «Эха»? Это потому, что Amazon также выполняет проверку облака.

Проверки облака исключают некоторые ложные срабатывания

Мужчина из рекламного ролика Alexa уставился на свою освещенную зубную щетку Echo.
Этот веселый рекламный ролик Alexa не разбудит ваше эхо. Амазонка

Когда компании делают рекламные ролики с функцией Alexa, они могут отправлять аудио в Amazon . Компания проводит аудио через аналогичные алгоритмы сопоставления с образцом, используемые для идентификации слова пробуждения. Когда этот точный экземпляр полностью каталогизирован, он добавляется в базу данных.

Как часть процесса при обращении к облаку, ваше Echo включает в себя информацию о услышанном им сигнале пробуждения и проверяет эту базу данных. Всякий раз, когда он находит совпадение, Amazon инструктирует ваше эхо игнорировать слово «пробуждение», закрывать и удалять любой записанный звук.

Кроме того, Amazon проверяет наличие единственного слова, произносимого одновременно. Не каждая компания передает аудио в Amazon, поэтому компания разработала новое решение для резервного копирования. После проверки соответствия базы данных компания сравнивает отпечаток слова пробуждения с любыми другими экземплярами, поступающими одновременно. Маловероятно, что два человека, которые говорят, что Alexa одновременно звучат одинаково, поэтому, если есть совпадение, Amazon знает, что это, скорее всего, реклама или телешоу, и игнорирует запрос.

Несмотря на все проверки, ложные срабатывания все же происходят. Вы можете прослушать то, что ваше Echo записало в центре конфиденциальности Amazon , и вы, вероятно, найдете хотя бы один ложный положительный результат в этой группе. Но технология постоянно совершенствуется, и, в конечном итоге, Amazon хотела бы, чтобы она функционировала без лишних слов.

Похожие посты
Как сделать

Как получить возмещение за покупки в iTunes или App Store

Как сделать

Поверхностное перо не работает? Вот как это исправить

Как сделать

Как настроить и использовать Fire TV Recast

Как сделать

Как изменить рингтон по умолчанию на вашем iPhone