Читать книгу Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет - Терренс Сейновски - Страница 7
Часть I. Переосмысление интеллекта: хронология
Глава 1. Развитие машинного обучения
Учим слушать
ОглавлениеЕще одна заветная мечта ИИ – распознавание устной речи. До недавнего момента оно применялось в ограниченных областях, например при бронировании авиабилетов. Теперь же возможности безграничны. Летний исследовательский проект Microsoft Research, осуществленный в 2012 году стажером из университета Торонто, значительно улучшил систему распознавания речи (рис. 1.4)[16]. В 2016 году одно из подразделений Microsoft заявило, что в результате применения глубокого обучения они достигли эффективности, сравнимого с человеческой[17].
Рис. 1.4. Ричард Рашид, руководитель отдела исследований компании Microsoft, на презентации функции распознавания голоса, использующей глубокое обучение. 25 октября 2012 года в Тяньцзинь в Китае. Две тысячи китайских студентов в аудитории увидели субтитры, созданные с помощью автоматического распознавания речи, которые следовали за устным переводом на китайский язык. Это стало всемирной сенсацией
Последствия этого прорыва будут ощущаться в обществе в ближайшие годы, и в итоге голосовой интерфейс вытеснит клавиатуру. Это уже начало происходить с появлением виртуальных помощников, таких как Алекса, Сири и Кортана, разработчики которых постоянно стремятся превзойти друг друга. Как печатные машинки исчезли из-за повсеместного распространения компьютеров, так и клавиатуры вскоре станут всего лишь экспонатами музеев.
Когда функция распознавания речи соединится с функцией автоматического перевода, станет возможно межкультурное общение в режиме реального времени. Почему же требуется так много времени, чтобы они вышли на тот же уровень, что и у человека? Просто ли совпадение, что они и другие когнитивные способности достигли своего предела одновременно? Ко всем этим достижениям привели огромные потоки данных.
16
G. Hinton, L. Deng, G. E. Dahl, A. Mohamed, N. Jaitly, A. Senior, V. Vanhoucke, P. Nguyen, T. Sainath, B. Kingsbury, «Deep Neural Networks for Acoustic Modeling in Speech Recognition», IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82–97, Nov. 2012.
17
W. Xiong, Wayne Xiong, Jasha Droppo, Xuedong Huang, Frank Seide, Achieving Human Parity in Conversational Speech Recognition, arXiv:1610.0525.