'Вопросы к интервью
26 апреля 2015
Z Точка Все выпуски

Технологии распознавания речи


Время выхода в эфир: 26 апреля 2015, 22:05

Александр Плющев Московское время 22 часа 9 минут. Добрый вечер! Вы слушаете радиостанцию «Эхо Москвы». Меня зовут Александр Плющев. Сегодня я один, без ансамбля, без Сергея Оселедько, нашего интернет-эксперта. Но я, надо сказать, об этом сожалею весьма, поскольку ему было бы, что оценить. Всякие разные перспективы технологий, которые мы будем сегодня обсуждать. Но Сергей появится, я надеюсь, уже в следующем выпуске, когда вернется в Москву. Сегодня мы о технологиях распознавания речи поговорим. У нас в гостях Денис Филиппов, руководитель речевых технологий «Яндекса». Добрый вечер, Денис!

Денис Филиппов Добрый вечер!

А. Плющев Видит Бог, звали мы еще и представителя компании «Google», чью технологию мы тут в свое время демонстрировали, когда только появился «Окей Google». Вот значит. Но не смогли их представители к нам присоединиться сегодня. Даст Бог, еще присоединятся. Будем считать, что сегодняшняя программа – одна из нескольких. Будет такой цикл, посвященный распознаванию речи, речевым технологиям и тому подобным вещам посвящены. Вот. Ваши вопросы, если особенно вы как-то сталкивались или пользовались технологиями распознавания речи, в том числе и яндексовскими. Яндексовскими особенно. Вот.

Д. Филиппов Да. Или хотите пользоваться.

А. Плющев Сейчас Денис, он ответит за все, за все, что не понял «Яндекс» в свое время, в смысле со слуха. Да? С речи. Плюс 7 985 970 45 45 или твиттер-аккаунт «Вызвон». Есть также две формы на нашем сайте. Вам нужно прокрутить вниз до конца страницы… Вот, к сожалению, я вот подумал, а вот круто бы на самом деле…

Д. Филиппов Голосом сказать.

А. Плющев Да. Сделать такую штуку на сайте «Эха», речевую технологию, и задать вопрос в эфир «Эха Москвы». Ты голосом просто задаешь и…

Д. Филиппов Конечно.

А. Плющев И все. Было бы круто. А можно как-то… Как Вы думаете, можно это…

Д. Филиппов Можем.

А. Плющев … воплотить?

Д. Филиппов То есть технологически мы готовы распознавать вопросы. Для этого все есть. И с достаточно хорошим качеством и на веб-сайтах.

А. Плющев На веб-сайтах. В приложении же можно сделать. У «Эха Москвы» есть приложение…

Д. Филиппов Конечно, да.

А. Плющев … например. Слушайте, это хорошая штука, потому что человек иногда и хочет задать вопрос, иногда. Но ему лень идти к телефону, набирать какой-то номер. Он его еще не помнит, может быть. Хотя, конечно, у всех у вас он уже в крови. Да? Номер плюс 7 985 970 45 45. Вот. И вообще как-то не охота. А так произнес и…

Д. Филиппов Проще сказать, конечно.

А. Плющев Может быть, и проще. Но не все привыкли разговаривать с роботами. Я вот не люблю, например.

Д. Филиппов В общем-то, здесь это вопрос привычки опять же. То есть…

А. Плющев Ну, мне странно пялится в компьютер или в телефон и говорить ему. Конечно, я понимаю, что раньше мы смотрели на человека, который идет и, казалось, бы разговаривает ни с кем, смотрели одичавшими глазами. Да? Теперь мы понимаем, что у него просто где-то есть blue tooth или наушничек какой-то, и он разговаривает по телефону. И не надо этому удивляться. Перестаньте. Вот так, наверное, и здесь. Но, правда, это очень сложно даже для меня, человека такого, в общем, технически воцерковленного, такой психологический барьер.

Д. Филиппов Все определяет, насколько просто решается задача. То есть, например, если мы про мобильные говорим, то вводить текст с маленькой экранной клавиатуры не всегда удобно, особенно если вы за рулем. То есть здесь уже, если вам прощу сказать голосом, и приложение вам понимает с высокой долей вероятности, то вы, скорее всего, к этому очень быстро привыкните, потому что к хорошему быстро привыкаешь. То есть, например, в «Навигаторе» у нас очень много людей вводят уже голосом свои запросы, адреса, потому что навигатор очень хорошо понимает. Поэтому здесь вопрос в том, что нужно попробовать, и приложение покажет хорошее качество, и люди этим начнут пользоваться. Проблема еще в том, что раньше все голосовые интерфейсы, которые были, они строились на технологиях предыдущего поколения, которое не всегда давало хорошее качество. И возникали такие ситуации, когда проще было сделать руками, чем общаться вот с этим как раз роботом. Повторять ему по нескольку раз – это ужасно раздражает. А сегодня, например, у «Яндекса» уже технология совершенно другого поколения, которая демонстрирует качество близкое уже к человеку. То есть опять же возвращаясь к «Навигатору», качество распознавания 95 процентов. Человек… вот мы с Вами тоже не идеально речь распознаем. В среднем мы распознаем 96-98 процентов в зависимости от тематики, на которую мы разговариваем, и шумового окружения. То есть уже очень близко.

А. Плющев Это правда. Есть у нас проблемы. Буквально на этой неделе в выходные тут вел ночную программу, у нас мы там целый час обсуждали, как мы по нескольку лет слышим в песнях совсем не то, что там поется. Вот. Поэтому и люди ошибаются действительно. Но навигатор — действительно это такая штука… Ну, как? Где применяется, где активно применяется. Видел я на наших такси московских, когда люди говорят так, что человек не отличит вообще, что там сказано. Вот.

Д. Филиппов А навигатор понимает.

А. Плющев Он как-то понимает вот эти акценты и выговоры, и, может быть, даже нечленораздельное произнесенное что-то. Человек может вполне быть местным, но произносит крайне… и нечленораздельно. Я вот сам нечленораздельно произнес.

Д. Филиппов Да, как раз таки в этом и заключается. Вот новое поколение распознавания речи, оно строится уже на так называемых нейронных сетях. То есть в распознавании речи есть две основные части – это акустическая модель и языковая модель. Вот 1-я часть акустической модели, она как раз отвечает за разные акценты, за понимание мужчин, женщин, детей разных возрастов. И здесь весь секрет заключается в том, что вот эти нейронные сети у нас обучаются на огромном количестве записей, в которых уже представлены разные голоса с разными акцентами. Поэтому мы справляемся с такой задачей достаточно хорошо.

А. Плющев Но фокус тут достаточно простой, тем более что Денис, он мне… Мы довольно долго проговорили до эфира. Он мне массу всяких секретов раскрыл. И я теперь могу себя таким умным здесь показывать в эфире. Фокус простой. Поскольку в «Навигаторе» довольно ограниченное число…

Д. Филиппов Тематика.

А. Плющев Да, число вариантов там, условно говоря, улица такая-то, кафе такое-то. Да? Кинотеатр такой-то. Что могу сказать? АЗС там такая-то. Ну, понятно. Тут легко это все количество вариантов просто перевести, и понимает. Другое дело совсем, когда речь у нас такая…

Д. Филиппов Когда заранее неизвестная тематика.

А. Плющев Машина не знает. Да.

Д. Филиппов Или она слишком широкая. Ну, то есть смотрите, в «Яндексе» мы развивались следующим образом. Мы сначала сделали языковую модель для «Навигатора», потому что это понятная тематика – геозапросы, адреса. В принципе там модель тоже большая. Там порядка где-то 400-500 тысяч уникальных слов. То есть очень большая модель, но тематика ограничена, поэтому высокое качество. 2-м шагом мы научились распознавать поисковые запросы. И там уже тематика, она не определена.

А. Плющев Конечно.

Д. Филиппов То есть люди в поиск вбивают вообще все вопросы, которые у них есть в жизни. Но опять же тут нам помогает наша поисковая система. Она обладает огромным количеством данных, накопленных за десятки лет уже. И на этих данных мы опять же создаем очень большую языковую модель. И по сути мы знаем… наша языковая модель знает все запросы, которые люди спрашивают в поиске. Поэтому и там тоже качество достаточно хорошее получается. Но оно уже чуть ниже, чем в «Навигаторе», потому что очень широкая тематика. А следующий шаг, вот который мы сейчас решаем, – это распознавание, скажем так, длинных текстов. То есть если поисковые запросы – это в среднем 3-5 слов, то сейчас мы хотим научиться распознавать длинные тексты, ну, например, чтобы можно было в телефон надиктовать что-то. Ну, например, лекцию или какую-то заметку.

А. Плющев Стоп, стоп! Вы так говорите, как будто это еще какой-то предмет исследований, хотя у «Яндекса» уже есть приложение «Диктовка».

Д. Филиппов Вот как раз наше приложение «Диктовка» — это экспериментальное приложение, которое позволяет диктовать разные тексты. Это заметки, смс, комментарии или просто можно произвольно отрывок текста надиктовать. Но сейчас, в общем-то, в мире еще никем не решена задача распознавания слитной речи в режиме диалога. Вот мы сейчас с Вами общаемся, и чтобы наша речь превратилась в текст, это уже будет технология следующего поколения. И сейчас как раз в «Яндексе» решаем эту задачу.

А. Плющев Что… Сейчас, секунду. Я остановлю только… Что перевела из нашего гостя сейчас… Я включил, вы, может быть, слышали звуки, приложение «Диктовка». Вот такую слитную речь, каким образом она преобразовала ее в текст. Надо сказать, частично ей это удалось, прямо скажем.

Д. Филиппов С учетом того, что телефон был далеко от меня.

А. Плющев Это далеко считается, да? Я поближе потом поднесу. Мы повторим эксперимент. Вот, что нам дала «Диктовка»: «И я, чтобы наша речь превратилась в текст, яйца жаль, политтехнологи следующего поколения, мы заказ через «Яндекс» решаемым задачам, что». Ну, в принципе неплохо. То есть уже какой-то…

Д. Филиппов То есть уже понятно, о чем речь.

А. Плющев Да, да. Но то есть… О! Она еще сама по себе включается. Да. Хорошо. Я потом, как и обещал, повторю это…

Д. Филиппов Она голосовую активацию понимает: «Слушай, Яндекс!».

А. Плющев Значит, эта штука еще не работает даже на этой стадии, в смысле когда один человек говорит, говорит весьма членораздельно, но быстро, и неизвестна тематика. И она еще сильно несовершенна.

Д. Филиппов Да. Так и есть. То есть это еще нерешенная задача, потому что короткие запросы – да, мы научились распознавать на любую тематику. А спонтанную речь даже одного человека, ее очень сложно смоделировать именно на уровне языковой модели, потому что, ну, по сути нам нужно сделать модель всего нашего языка. Вот мы пытаемся это сделать.

А. Плющев Как это можно сделать? Вот тут появились вопросы: «А если я говорю с акцентом?» Ну, мы проговорили уже, что…

Д. Филиппов Акцент – это акустическая модель, это решенная проблема.

А. Плющев Если я шепелявлю там?

Д. Филиппов Тоже решенная.

А. Плющев Если я говорю там с некоторыми особенностями? Например, заикаюсь, там еще что-то.

Д. Филиппов Это все акустика. Акустика сейчас для русского языка, она, мы считаем, одна из лучших. И она покрывает вот эти все дефекты речи, акценты. Ну, пример вот с такси приводили. Вот действительно там люди, которые плохо владеют языком, могут на слух просто повторить с сильным акцентом, и система их понимает.

А. Плющев Давайте сделаем только московский и все. Чтобы питерцы не могли пользоваться, например. Ну, я не знаю.

Д. Филиппов Вот. А уже 2-я часть – языковое моделирование. Вот здесь основная сложность в том, что в текстовом виде очень сложно найти прямую речь человека. Вот как мы с Вами общаемся, да? То есть в основном тексты пишутся, они не содержат прямую речь. Ну, то есть можно из книг выдернуть диалоги, можно взять интервью. Но все равно это какие-то ограниченные тематики. И мы сейчас вот с этим экспериментируем. И вот как раз вот «Диктовка» — это экспериментальный проект, в котором мы показываем последние результаты свои вот в этой области. Языковой моделирование вот всего русского языка, когда можно говорить на любую тематику и говорить долго.

А. Плющев А какой здесь временной горизонт? Когда Вы ожидаете каких-то результатов? Я знаю, что «Яндекс» о своих проектах будущих никогда не рассказывает, но это же не проект. Просто это исследование научное.

Д. Филиппов Это исследование…

А. Плющев Когда можно ждать решения этой задачи?

Д. Филиппов Ну, в общем, пока мы двигались очень быстро. То есть в «Яндексе» речевые технологии зародились в 2012 году. То есть это мы впервые задумались о создании собственно технологии. То есть сейчас у нас 2015 год, и у нас конкурентоспособное распознавание речи, уже синтез речи. То есть вот буквально меньше, чем за 3 года мы сделали два больших шага. То есть можно сказать, что в следующие 2 года мы решим задачу с диктовкой.

А. Плющев Вообще у нас сегодня отлично получится, потому что следующая программа наша, ну, в следующем часе, она тоже посвящена русскому языку. Там будет о моде на грамотность. Вот. И тоже будет такая передача эстафеты.

Д. Филиппов Не только наша тотальный диктант писала.

А. Плющев Да. А как написала?

Д. Филиппов Два. Но при этом важно отметить, что ни одной грамматической ошибки. То есть основная проблема с пунктуацией пока.

А. Плющев С пунктуацией. Но она не слышит же пунктуацию. Если ей сказать «запятая», она поставит ее.

Д. Филиппов Поставит. Да. Это она умеет.

А. Плющев Или там любой знак препинания. Но постойте, а как слышать… Ну, да, человек слышит…

Д. Филиппов Смотрите, «Диктовка», она в словах не ошибается. Ну, то есть…

А. Плющев … все нормально.

Д. Филиппов Орфография точно нормальная. Либо она может другое слово просто поставить. Вот и все.

А. Плющев Конечно. Да, интересно. Я не знаю, о чем спрашивает Вадим, может быть, Вы поймете: «А как синтаксически членить речь?» Что это означает? Вы имеет в виду, Вадим, что мы слитно говорим? Слова сливаются друг с другом. Как это разбивать? Мне кажется, что это как раз не самая большая задача.

Д. Филиппов Это не большая задача. Это тоже решенная задача. Ну, как бы на уровне акустики мы все равно улавливаем даже минимальные паузы. То есть там анализ идет 20 миллисекунд – кусочки речи. То есть на этих маленьких отрывках можно понять, что началось следующее слово.

А. Плющев Вот Сергей-Алексей, наш постоянный слушатель из Томска, спрашивает… Я не знаю, про какую технологию он спрашивает. Явно не про «Яндекс». Вот, друзья, у нас сегодня, если вы вдруг не слышали, то у нас Денис Филиппов. Руководитель речевых технологий «Яндекса». Почему я сделал вывод, что не про «Яндекс»? Он спрашивает: «Почему речевой ввод текста прекрасно работает с английского языка и криво с русского?» Это как раз хороший вопрос к компании «Google», например. Вот. Там есть сложности. Это правда. Это хороший вопрос компании «Apple» и ее разработке «Siri». Тоже есть сложности. Но у «Яндекса» я так понимаю основной-то упор на русский язык.

Д. Филиппов Да, мы сейчас фокусируем все свои усилия на русском языке и хотим сделать вот идеальное качество для русского языка.

А. Плющев Вот расскажите насчет русского языка. С ним же большие проблемы. У него… Ладно склонение, спряжение. Ладно там всякие окончания. У него еще проблема – свободный порядок слов. И кроме того еще масса нюансов, когда вот это «да нет, не знаю». Ну, и так далее. Вот все эти вещи, которые машина… Как она это…

Д. Филиппов Это статистика. То есть языковые модели – это большие статистические модели. То есть в них загружается… То есть наши модели обучаются примерно 4 миллиарда слов. Ну, то есть это не уникальные слова, а вот как раз взятые из логов. И там как раз считается статистика, какие слова вместе употребляются, как они следуют друг за другом, какие… Как раз расположение слов учитывается. Языковая модель нам генерирует вероятность, что там мама мыла раму – это вот вероятно. А вот рама мыла маму – это уже не такая вероятная. Вот это статистика. То есть работает с помощью статистической модели.

А. Плющев Ехал фикус на коне. Да.

Д. Филиппов И здесь самая главная проблема – найти вот эти данные для обучения в большом количестве. То есть нейронные сети, они любят большие данные. Вот и как раз таки за счет, что в мире появилось несколько больших технологических компаний, которые стали обладать таким огромным объемом данных.

А. Плющев «Яндекс» в том числе, надо сказать.

Д. Филиппов И «Яндекс» — одна из них естественно. Вот. Удалось совершить принципиально новый скачок в распознавании речи. То есть сейчас по сути в России перезапускается рынок речевых технологий.

А. Плющев То есть, ну, и до Вас, и до «Яндекса», ну, то есть помимо Вас в России есть разработчики речевых технологий. В Санкт-Петербурге, я знаю, есть компания «Речевые технологии»…

Д. Филиппов Конечно, да.

А. Плющев Так называется. И многие другие. Чем Вы отличаетесь от них?

Д. Филиппов В общем-то, ровно этим и отличаемся, что у нас накоплено огромное количество данных, которые мы можем применить для распознавания речи. Кроме этого естественно основная ключевая компетенция «Яндекса» — это машинообучение. То есть мы строим свой поиск на этих технологиях, на этих подходах. И естественно у нас очень сильные лингвисты в «Яндексе». И все это мы используем для создания речевых технологий. Вот поэтому нам удается с помощью наших данных и наших технологий делать очень высокое качество.

А. Плющев Крайне критично настроен к «Яндексу» наш слушатель, тоже постоянный, Владимир в бане, как он себя называет, ну, в смысле за баней, пишет: «Знаю, как «Яндекс» сделал, — в кавычках, — «браузер». Просто взяли готовый браузер, пристроили к нему пару микроскопических расширений». Я здесь не могу согласиться с такой постановкой вопроса, но, тем не менее, так спрашивает Владимир. «Голосовое вот это тоже не разработка «Яндекса»? Взяли чужое и чуть допилили?»

Д. Филиппов В общем, с 2012 года мы сделали собственную технологию, то есть это наш полностью движок «Яндекса» распознавания речи. И как я сказал ранее, сама ценность распознавания речи – это в акустических и языковых моделях. Вот их где-то взять и чуть-чуть допилить никак не получится. Здесь нужно знать очень хорошо машинное обучение, построение нейронных сетей, алгоритмы тренировки нейронных сетей, иметь огромную серверную инфраструктуру для тренировки нейронных сетей. Почему раньше, кстати, нейронные сети не были развиты? Потому, что не было таких вычислительных мощностей. То есть раньше подобные задачи могли решаться десятками лет. А у нас сейчас модели тренируются за неделю. То есть это очень быстро. И это огромное количество ресурсов. В общем-то, мы сделали распознавание речи сами, собственными силами.

А. Плющев Так, еще, значит, пишет Марина из Перми: «Мне вчера «Siri» помогла с проблемой в Айпаде разобраться. Спасибо «Siri». Мы тоже присоединяемся. Сегодня речь о… К сожалению, представителя «Apple» вообще невозможно ни о чем спросить. Но бывает. Так, сейчас еще. Был хороший вопрос. А! Вот! Целое направление задает наш радиослушатель, и мы, может быть, даже через перерыв на рекламу о нем поговорим. Вот: «Когда мой компьютер будет полноценно со мной разговаривать?» — спрашивает Виталий Авилов. Это, мне кажется, еще, поскольку мы поговорили о том, что даже «Диктовка» не очень здорово работает. Да? Не говоря уже о том, чтобы диалог различать. Вот диалог для нашей радиостанции, например, жизненно важно различать…

Д. Филиппов Да, да. Потом спикеров разделять.

А. Плющев Ну, я не знаю. Сейчас вот те, кто зарабатывают деньги на расшифровке люди, они подумали: «Нет, пусть подольше не разрабатывают эту штуку. Иначе нам придется искать другую работу».

Д. Филиппов На самом деле нет, этим людям данная технология может очень сильно помогать в работе. То есть она может давать 1-й результат, а человек его уже доуточняет. То есть система понятно, если и будет работать, то это там будет 90-95 процентов качества. Если нужно там 100-процентное качество, то, конечно, здесь включается человек. И человек просто сможет давать большую производительность за счет использования в своей работе этой технологии.

А. Плющев Тут пишут: «У «Apple» диктовка даже на русском языке работает лучше, чем у «Яндекса». Проверьте хоть прямо сейчас. Зайдите в заметки и нажмите значок микрофона». Я, к сожалению, не могу, у меня убрана клавиатура «Apple» родная. И значка микрофона на другой нет. Хотел проверить. Правда. Не могу сравнить. Ничего не могу сделать в этом смысле.

Д. Филиппов … признать, что если говорить о конкурентах, у них… у «Эпла» очень хорошая технология. Она действительно с последним обновлением показывает хороший результат.

А. Плющев Но, тем не менее, мы возвращаемся вот к этому вопросу: «Когда я буду полноценно разговаривать со своим компьютером?»

Д. Филиппов Вопрос в том, а нужно ли Вам разговаривать полноценно с Вашим компьютером? То есть в моем понимании лучше разговаривать с живыми людьми полноценно. Да? То есть компьютер может и сейчас с помощью синтеза речи Вам читать книги, зачитывать новости. Можно сделать…

А. Плющев Нет, нет.

Д. Филиппов … программу, которая…

А. Плющев Вопрос же… Я понимаю нашего слушателя. И он спрашивает о другом: когда ты ему даешь команды, а он, допустим, тебе говорит: «Я завис потому, что…» Или «Эта программа не может быть запущена, потому что…» Или он рассказывает там, я не знаю, что лучше эту операцию выполнить следующим образом.

Д. Филиппов Ну, смотрите, технологически все для этого уже есть. То есть здесь как раз таки диктовка не нужна, потому что мы говорим о каких-то коротких фразах. Да? То есть почему ты завис? Запусти Microsoft Word. Открой почту там и так далее. То есть это командный интерфейс. Его можно уже сейчас реализовать. С помощью синтеза речи можно давать обратную связь. Зачитывать ошибку. Я закрешился потому, что у тебя слишком много окон в браузере открыто.

А. Плющев Ну, например, да.

Д. Филиппов Или что-то такое. Это можно уже сделать. Мы как раз таки свои технологии, кроме того, что используем в своих приложениях, мы их даем еще и наружу. То есть у нас есть целая линейка продуктов «Яндекс.SpeechKit», которая называется. Там есть облачный сервис, в котором есть библиотека для веб-приложений, для десктопов. Пожалуйста, используйте. То есть любой разработчик, которому хочется сделать голосовой интерфейс управления компьютером, это уже может сделать.

А. Плющев Мы продолжим с Денисом Филипповым, руководителем речевых технологий «Яндекса» через пару минут после небольшого перерыва. Ваши вопросы продолжают поступать на плюс 7 985 970 45 45 или через твиттер-аккаунт «Вызвон». Есть также веб-форма на нашем сайте. С них и начнем буквально через пару минут.

**********

А. Плющев Отличные от вас вопросы приходят Денису Филиппову, руководителю речевых технологий «Яндекса», с которым мы об этих самых технологиях распознавания речи и говорим. Продолжайте их задавать. Правда, один из… одна из реплик, на которую я посчитаю своим долгом ответить, не смотря на то, что мы с вами живем какой-то полминуты времени, видимо, наш… и не имеет отношения к нашей программе. Видимо, наш сетевизор нездорово распознает цвета. Или Ваш компьютер нездорово их отображает. У меня не розовый, у меня красный телефон. Денис подтвердит. Да.

Д. Филиппов … подтверждаю.

А. Плющев Ну, не в смысле телефон, а обложка к нему. Вот. Так что так. Сейчас перейдем к вопросам наших слушателей, много интересных. Но пока я не забыл. Хорошо, компьютер – черт с ним! С компьютером все понятно. Но вот бытовая техника. Начнем с того, что уже оборудовано речевыми технологиями. Это автомобиль. Многие автомобили, ну, многие – не многие, а в некоторые автомобили ставят системы распознавания речи. Самая известная из них – это Microsoft SYNC. Он у компании «Форд». Вот. Есть и на русском языке, правда, немного обчекрыженная версия, англоязычная, там немецкоязычная. Они, в общем, в этом довольно неплохи. Каковы перспективы на Ваш взгляд? Я вот когда попользовался этим всем, ну, довольно забавно, довольно интересно. Но где-то на 3-й день ты перестаешь этим пользоваться, ну, потому что как-то и так хорошо без этого.

Д. Филиппов В общем, перспектива очень большая, потому что автомобиль контекстно очень хорош для речевых технологий, потому что мы должны быть сконцентрированы на дороге, не должны отвлекаться. И современные автомобили обладают огромным количество функций, климатконтроли сложные, мультимедиа-системы сложные, навигация достаточно сложная. И, конечно, всем этим хочется управлять голосом. Но проблема опять же в том, что те технологии, которые применяются, они предыдущего поколения. Поэтому они заставляют нажимать кнопку, говорить специальную команду, например, «Музыка», потом называть название музыкальной группы и дальше называть название трека. То есть все постепенно, по шагам. И человек понимает: да, сначала это здорово, забавно поисследовать это новое что-то. А дальше, в общем-то, время на решение моей задачи послушать мою любимую группу, оно сильно больше голосом решается, чем я просто нажму кнопку нужную и все, на плейере. Тем более на руле есть управление музыкой. Вот. А опять же современные речевые технологии вот последнего поколения, они позволяют в одном запросе понять, что хочет человек. Я могу сказать машине: «Поставь мою любимую группу. Трек такой-то, альбом такой-то». Все. В одном запросе. При этом еще я могу и активировать: «Слушай машина». — «Да? Что Вы хотите?» — «Поставь такую-то музыку». Все. То есть время уже сильно меньше, и я не отвлекаюсь от дороги, и это удобней. Пример опять же тот же самый навигатор. Почему люди сейчас в основном массово, вот реально миллионы людей каждый день вводят в навигатор голосом запрос? Почему они это делают? Потому, что это быстрее. Они понимают, что это быстро.

А. Плющев А у него, кстати, в отличие от диктовки нет голосовой активации. В навигаторе.

Д. Филиппов В навигаторе? Это следующая feature навигатора.

А. Плющев То есть будет?

Д. Филиппов Конечно.

А. Плющев Ну, такая типа «Окей Google»?

Д. Филиппов Да.

А. Плющев В данном случае «Окей навигатор». Или что там? «Привет, навигатор». Что-нибудь в этом духе. Хорошо. Так. Значит, Дмитрий Мезенцев, наш постоянный слушатель, спрашивает: «Умеет ли машина понимать фразеологические и идиоматические обороты?»

Д. Филиппов Машина умеет понимать все, что вы говорите. То есть она достаточно в этом смысле прямолинейная. То есть как вы сказали, так она и поймет. То есть дальше есть, в общем-то, технология, которая уже находится рядом с речевыми. Это там технология Natural language understanding, то есть понимание сказанного текста. И эти технологии пытаются как раз таки в различных формулировках понимать задачу пользователя.

А. Плющев Вот Диггер спрашивает: «А разговорности рассекать умеет? «Щас», «Кремль», «сисски» — в смысле социалистический, а также «дожь», «вожь» и прочие тискет… Атаскет…» — я не знаю, что это означает? Ну, неважно.

Д. Филиппов В общем, здесь ответ простой. Если в поиске вбивают и ищут, то умеет.

А. Плющев Вбивают руками.

Д. Филиппов Ну, да. Мы… Языковые модели обучаются на текстах. То есть…

А. Плющев Ну, я думаю, что типа «щас» — это, конечно, вбивают, а вот… Но с другой стороны если человек произносит «крем», практически ближе к слову «крем», нежели «Кремль». Да? Вбивают и то, и другое. Он распознает как «крем».

Д. Филиппов Но если одно слово сказано, то да, это проблема коротких слов действительно может быть распознано, ну, другое слово. А если в связке с какой-то… с каким-то там: «крем для рук», то уже все, здесь будет однозначный результат.

А. Плющев Значит, тут Эдуард из Тольятти пишет… Я не очень понял, но мы попробуем совместными усилиями. «То, что облачными технологиями можно будет свободно пользоваться – очередная ложь», — считает он, — «как автоматическая посылка письма или смс, как и что-либо еще автоматическое. Везде будет капча, чтобы включить свой процесс было принципиально нельзя. Закон рынка». Что включить в свой процесс? Ну, неважно. Короче говоря, трудности на пути речевых технологий, потому что когда мы, значит, сталкиваемся с тем, что необходимо там оградить от спама, например, обезопасить там какие-то вещи от большого числа запросов, от перегрузки и так далее, да, вводятся такие вещи как капча и тому подобное. И получается, что голосовые запросы вообще, в данном случае облачное решение, оно обессмысливается. Вот о чем вопрос, я так понимаю.

Д. Филиппов Ну, на самом деле тут особых проблем нет. То есть мы никак не ограничиваем наших пользователей. Они могут сколь угодно много запросов делать в текстовом виде, так и в голосовом. То есть для нас этой проблемы нет.

А. Плющев Валентина из Москвы спрашивает: «Денис, есть у «Яндекса» планы создать свой аналог «Siri»? В чем этот аналог может ее превзойти?» Ну, тут надо признать, что у «Яндекса» нет своего телефона. Вот есть своя оболочка для Андройда «Яндекс.кип» называется. Может быть об этом речь.

Д. Филиппов В общем-то, это такой философский вопрос.

А. Плющев Правда, ее теперь пока никуда не ставят больше эту оболочку.

Д. Филиппов Пока да. Философский вопрос. Что такое «Siri»? Если это понимать как виртуального персонального ассистента, то, ну, в общем-то, «Яндекс» уже много лет вам помогает решать задачи. Мы уже лучше, чем «Siri». То есть задача «Siri» какая? Помочь решить какую-то задачу. Ровно это делает «Яндекс». Мы помогаем пользователям решать их ежедневные задачи. Дальше есть 2-й план задач «Siri» — это управление телефоном. И тут с Александром согласен, что у нас пока нет такой задачи – управлять телефоном. То есть совершать звонки, администрировать календарь и так далее. Как только такая задача появится, естественно наша технология позволит ее решить. А «Siri» очень часто говорит: «Вот что мне удалось найти на этот запрос в интернете». И это «Яндекс» как раз таки помогает ровно в этом: искать запросы.

А. Плющев А в «Siri», что мне ужасно нравится, – это… Сейчас мы отходим от персонального помощника. Это то, что абсолютно в эплском стиле они зашили туда кучу разных фишек. И, конечно же, первые дни, когда появилась «Siri» на русском языке, мы видели огромное количество скриншотов в разных социальных сетях, как и на что им ответила «Siri». И это часто бывало смешно. Часто бывало оригинально, забавно, остроумно, надо признать. Бывало и нелепо, но, в общем, это привлекало внимание, привлекало интерес. Используете ли Вы этот метод? Мне Денис, надо сказать, коварно объяснил, зачем это делается. Это, надо сказать, интересно. Я думаю, что он вам сейчас тоже пояснит. И используете ли Вы этот метод? И будете ли использовать?

Д. Филиппов В общем-то, «Siri» имеет большую функциональность по развлечению пользователя. Развлечение – это, ну, с одной стороны нужно сначала найти это развлечение, найти какой-то fun в «Siri». Для этого нужно провести… задать «Siri» достаточно большое количество ваших запросов. А как она отреагирует на это? А как вот на это? Чем больше вы запросов задаете, тем больше появляется у компании «Apple» статистики. На этой статистике обучаются акустические и языковые модели. Соответственно повышается качество.

А. Плющев То есть вас, друзья мои, разводят на самом деле вот на всех этих шуточках, чтобы вы побольше задавали запросов. А вы и рады. Ну, собственно и я тоже рад.

Д. Филиппов Ну, в общем, да, это развлечение, это весело, это хорошая функциональная «Siri».

А. Плющев Да, и я просто спрашивал-то о том, будете ли Вы как-то это использовать и применять?

Д. Филиппов На самом деле нам не нужно это использовать, потому что мы…

А. Плющев У Вас запросов и так много.

Д. Филиппов Да. Мы отличный поисковик. У нас с данными проблем нет.

А. Плющев Я вот подумал, например, а что если… Я никогда не хулиганил с навигатором «Яндекса» с голосовыми запросами, да и вообще редко им пользуюсь. Вот. А что если, например, сказать ему вот таким образом: «Отвези меня, куда глаза глядят». Что он сделает? Интересно. Он… «Возможно, вы искали деревня, куда глаза диат. Вязьмы, куда глаза диат». У него диат вообще… 5 вариантов. Я не буду все перечислять. Последнее: «Деревня, куда глаза взгляд». Вот например, было бы забавно, например, если бы он мне что-нибудь ответил в том духе, что проспись иди сначала, а потом поговорим. Например.

Д. Филиппов Это хорошая идея.

А. Плющев Ну, мне каже… А почему нет? Их, таких вопросов не так много. В «Siri» же очевидно просчитали какие-то вопросы…

Д. Филиппов Конечно.

А. Плющев Там спой песню, расскажи стишок. Вот это все. Там похвали меня и все прочее. Так. Значит: «Насколько сложно перевести распознавание речи в offline? Достаточно ли вычислительной мощности смартфонов для этого?» — задает шикарный вопрос Вячеслав.

Д. Филиппов В общем-то, да, это следующий шаг развития речевых технологий. Задача эта решаема. То есть вычислительных мощностей современного смартфона более, чем достаточно и процессора, и оперативной памяти. Здесь, в общем-то, мы как раз таки над этой задачей сейчас работаем. То есть эта задача позволяет в основном решить проблему с наличием хорошего, устойчивого мобильного интернета. То есть текущие технологии требуют соединения с интернетом и…

А. Плющев Вот тут спрашивают: доколе?

Д. Филиппов Работаем в этом… Будет offline распознавание.

А. Плющев А техни… мощности смартфона достаточно?

Д. Филиппов Достаточно, да.

А. Плющев То есть сейчас, да? То есть можно уже теоретически, если бы была технология оффлайна…

Д. Филиппов Вот смотрите, вот в «Диктовке» вот эта команда «Слушай, Яндекс» или «Яндекс, записывай» — это уже offline. То есть эта команда распознается прямо на устройстве. То есть в «Диктовке» уже маленький движок распознавания речи встроен. То есть дальше есть задача просто расширить словарь этого движка, положить туда хорошую языковую модель и, в общем, повторить online-сервис. И это как раз таки открывает уже перспективы для использования в бытовых приборах. Пожалуйста, управление холодильником…

А. Плющев Вот я совсем забыл от автомобилей перейти к бытовым приборам. Тоже когда мы… весь наш умный дом… Вот нам все время обещают умный дом. Я сколько себя помню в интернете, вот столько нам и обещают умный дом. Еще, по-моему, Билл Гейтс в своей книге «Дорога в будущее», уже полностью несбывшаяся, значит, обещал, что у нас будет умный дом там у каждого, и себе даже пытался строить. А он все никак не умнеет и не умнеет. И под этим делом нам все время охранные системы какие-то предлагают. Вот. А мне кажется, что умный дом – это немножко другое. Это когда ты пришел, сказал: «Мне, пожалуйста, свет там-то и там-то. Подогрев там-то на такую температуру, а здесь на такую. Чайничек, вот котлетки и все прочее».

Д. Филиппов На самом деле…

А. Плющев Ванну…

Д. Филиппов … это уже реальность. То есть у нас есть облачный сервис «Яндекс.Cloud», и есть разработчики в том числе, ну, скажем, домашние разработчики, которые сами для себя с помощью нашего сервиса «Яндекс.Спички.Cloud» реализуют функционал умного дома. То есть технологически эта задача с точки зрения распознавания речи решена. То есть можно уже создать систему. В том числе я думаю, и крупные поставщики умных домов – систем будут…

А. Плющев То есть Вы сейчас говорите, что у нас есть такое решение, а вот эти самые производители бытовой техники, условно говоря, или комплексных решений вроде умных домов, они по идее могут этим решение воспользоваться.

Д. Филиппов Да, это уже, ну, как бы речь про, скажем так, про наши продукты, нацеленные на be-to-be-рынок. «Яндекс» готов на коммерческих условиях предоставлять…

А. Плющев Ну, понятно. А сейчас вот уже, где работают Ваши продукты? Где их можно встретить.

Д. Филиппов Смотрите, ну, в 1-ю очередь в наших мобильный приложениях. Дальше мы даем мобильным разработчикам на основе фримиум наши технологии, то есть в мобильных приложениях, например, «Авиасейлз» можно там встретить. Тоже наша технология. И, конечно, огромный пласт технологий наши… применение речевых технологий…

А. Плющев В «Авиасейлз» это ты говоришь: «Хочу в Монреаль»?

Д. Филиппов Да, именно так. Лежит в телефонии, например. В любом бизнесе сейчас есть телефон. Например, отличный кейс с интернет-магазинами. В условиях кризиса они вынуждены экономить свои издержки, и речевые технологии позволяют это делать. Например, стоимость работы оператора – 10 рублей минута. А с речевыми технологиями эту минуту можно сократить до менее рубля за минуту. То есть автоматизировать, например, сценарии… там узнать о наличии товара на складе или подтвердить время доставки. Все это можно сделать с помощью речевых технологий.

А. Плющев Ну, конечно, Вы главные враги, не смотря на то, что Вы говорили о том ,что людям не грозит ничего, Вы главные враги операторов.

Д. Филиппов Операторы будут заниматься более…

А. Плющев Интеллектуальным…

Д. Филиппов … интеллектуальными задачами. Это на самом деле очень важная проблема. То есть в бизнесах есть пиковые нагрузки, когда просто людей не хватает для решения каких-то простых вопросов. Вот это уже… на этом этапе можно включать автоматизированные системы, которые будут разгружать людей и оставлять их для решения более сложных вопросов. Причем сценариев здесь может быть очень много. Например, вот в ЖКХ у нас, мы сами не ожидали, что будут применяться наши технологии. Ребята, по-моему, из Новосибирска, расчетный центр, сделали сбор показания счетчиков с помощью речевых технологий. И сами прочитали на хабре о нас, потом писали нам благодарность: «Ребята, вы нам помогли там с пиковыми нагрузками». Потому, что там проблема, что показания счетчиков раз сдаются в 5 дней. У них просто операторов не хватало на весь город. Вот. А сейчас все, пожалуйста, все работает.

А. Плющев То есть люди обучились звонить и говорить: «У меня там холодная вода – 982, а горячая там 784».

Д. Филиппов Так и есть. Причем уже по номеру телефона запоминается лицевой счет. И все, человек звонит, назвал две цифры. Цифры там распознаются с качеством близким к 97-98…

А. Плющев А человеку дают удостовериться, что распознал…

Д. Филиппов Конечно. Сценарий, может быть, любым реализован. Ну, как правило, вот эти ребята сделали, что задиктовываются принятые показания, человек подтверждает: «Да, все верно». Если что-то неверно, может перевести.

А. Плющев Прям Александр из Тульской… из Тулы прислал прям рекламное сообщение какое-то. Он говорит: «Послушал Вас и попробовал на планшете Андройд в навигаторе и поиске «Яндекса» поговорить. Класс! До этого не пользовался, не доверял. Думал, что игрушки, а тут все по-взрослому. Спасибо».

Д. Филиппов Уже новый уровень технологий.

А. Плющев Но тут проблема – проблема в привычке, конечно. Особенно в навигаторе распознает, правда, здорово. Но трудно мне разговаривать с приборами. Но об этом мы уже говорили. А вот еще не успели поговорить вот о чем. Георгий пишет: «Я инвалид по зрению. Зрение 0,1 процента. Работаю дома юристом. Когда можно будет, – это важно, – надиктовывать тексты и редактировать голосом?

Д. Филиппов Вот «Диктовка» — 1-й шаг для… Мы пробуем голосовой интерфейс редактирования текста. В «Диктовке» уже поддерживаются голосовые команды для редактирования. Можно там удалить слово, заменить слово, естественно все знаки пунктуации расставить. Да, мы работаем в этом направлении. И, конечно, применение для людей с ограниченными возможностями речевых технологий очень большое.

А. Плющев Так. Еще есть вопрос отличный тоже. «Возможна ли настройка на определенный голос, чтобы мои команды распознавали, а, например, команды детей нет?» Удобно…

Д. Филиппов В общем-то, речевые технологии, они не ограничиваются распознаванием речи. Это целый комплекс технологий. Есть распознавание речи. Есть синтез речи, то есть обратная технология, когда текст озвучиваем. Есть еще голосовая биометрия. Это когда мы по голосу можем узнать человека.

А. Плющев Это типа как отпечаток пальца.

Д. Филиппов Типа как отпечаток пальца. Да, именно так. То есть в принципе технологически можно сделать, что система будет вас идентифицировать как основного пользователя, а остальным доступ по голосу запрещать.

А. Плющев Даже интересно, а вот пародисты, которые пародируют, ну, имитаторы – да? – они смогут поддельно войти или нет? Насколько уникален в этом смысле голос? Насколько…

Д. Филиппов Скорее всего, нет, потому что в голосе есть, сейчас точно помню, порядка, ну, около, наверное, 50 уникальных характеристик в каждом голосе. И в принципе по каким-то характеристикам звучать голос будет похоже, но то, что наше ухо не слышит, будет отличаться. И у пародиста, скорее всего, не получится.

А. Плющев Сергей Алексеев еще один вопрос задает из Томска: «Насколько военные разработки в данной области? Например, голосовое управление боем», — ну, может быть, в самолете имеется в виду или в танке, я не знаю. – «Ушли вперед по сравнению с «Яндексом»? Каково их влияние на рынок?» Военные что-нибудь разрабатывают в этом смысле? Или к Вам обращаются они?

Д. Филиппов Ну, к нам пока не обращались за такими системами управления. Мы… Если они что-то и разрабатывают, мы об этом пока еще не знаем.

А. Плющев А, кстати, в игровых технологиях? Я вот поскольку в этом плане абсолютный профан, в играх, насколько голосовые, ну, технологии распознавания речи широко применяются в последние вот годы? И есть ли какие-нибудь здесь?

Д. Филиппов В общем-то, предпосылки большие. Но вот в России пока как-то не очень широко распространено, но, видимо, потому что доступность технологий, она вот только недавно случилась. То есть речевые технологии общедоступные с хорошим качеством, они появились вот у нас буквально там прошлым летом. То есть рынок зреет для этого. То есть в играх очень широкое может быть применение.

А. Плющев Денис, у нас… да, еще спрашивают, когда будут вопросы. Вот если я вопрос задаю, когда он интонационно будет понимать, что в конце вопросительный знак?

Д. Филиппов Вот как раз опять же «Диктовка», она умеет в принципе автоматически ставить знаки препинания. Пока она это делает не всегда точно, но мы как раз работаем в этом направлении. Это как раз в области акустики опять же лежит действительно… есть подходы, которые позволяют отследить уникальные характеристики наши интонационные, которые выражают…

А. Плющев А все из-за свободного порядка слов в русском языке. Было бы как в английском, там нет проблем.

Д. Филиппов Ну, в общем, да.

А. Плющев Минута у нас осталась. И хочу, чтобы Денис обрисовал некоторые перспективы. Что в будущем? Вот мы сказали уже примерные области, где это может применяться, и где буквально там завтра, послезавтра, через полгода, год, два-три. А что еще может быть? Может быть, мы чего-то не охватили.

Д. Филиппов Ну, в общем, у меня в этой области есть две мечты в речевых технологиях. То есть первая – это распознавание слитной речи в режиме диалога, чтобы после рабочей встречи у меня был текстовый конспект встречи, или чтобы после нашего интервью у нас тоже был текстовый конспект…

А. Плющев Расшифровочка. Хоп!

Д. Филиппов Расшифровочка. Это очень удобно. Сокращает время, упрощает нам жизнь. И 2-я мечта – это, в общем-то, чтобы девайсы, которые нас окружают, их становится все больше и больше, они понимали меня, ну, что называется с полуслова, ну, или хотя бы мои какие-то простые команды, чтобы мне не нужно было тратить время на разбирательство с инструкцией пользователя. Сказал «Поехали домой», и автомобиль меня повез домой.

А. Плющев А мы с Денисом Филипповым, руководителем речевых технологий «Яндекса», прощаемся с вами. Желаем хорошего вечера Александру из Тулы, которому, похоже, сегодня сделали этот вечер. Он тут всех ищет голосом. Вот сейчас уже меня нашел, на каком я там месте в выдаче. Спасибо большое.

Д. Филиппов Спасибо большое. Хорошего вечера!

А. Плющев Счастливо! И пока!

Комментарии

0

Пожалуйста, авторизуйтесь или зарегистрируйтесь, чтобы оставить комментарий.

Самое обсуждаемое

Популярное за неделю

Сегодня в эфире