Читать книгу Метод параноика: книга о создании цифровых продуктов, Вселенной и всем остальном - Вадим Викторович Митякин - Страница 12
Глава 1. Цифровые продукты
Приемы поиска технологических решений для бизнеса
Голосовые интерфейсы
ОглавлениеСистемы с голосовым интерфейсом сейчас переживают период, очень похожий на то, как в свое время шел поиск областей применения мобильных приложений. Это тем удивительнее, что концепты и даже работающие продукты с возможностью использовать человеческую речь для управления появились задолго до смартфонов. Более того, фантастами и футурологами голосовые системы рассматривались как одна из ключевых технологий будущего, но, тем не менее, сейчас мы находимся в точке, когда ажиотаж вокруг технологии очень высокий, но ее практическое применение не так заметно в повседневной жизни. Вероятно, пройдет еще достаточно времени, чтобы голосовые ассистенты и другие технологии с поддержкой речи заняли свое место в нашей жизни.
Текущему интересу к голосовым технологиям предшествовал бум чат-ботов. В какой-то момент казалось, что текстовый формат переписки сможет заменить уже ставшие традиционными графические интерфейсы сайтов и мобильных приложений. Были попытки, и надо сказать иногда весьма успешные, реализовать сервисы обработки заказов в интернет-магазинах, покупки билетов и финансовых систем. Эта концепция родилась как логичное развитие обычных чатов с реальными операторами служб клиентской поддержки. Гипотеза состояла в том, что если найти способ заменить человека в роли оператора на алгоритм или чат-бот, поддерживающий разговор, то можно будет сократить расходы и легко масштабироваться, не расширяя состав сотрудников.
Но проблема, как обычно, скрывается в деталях. В данном случае в способности чат-ботов улавливать эти самые важные детали в разговоре с человеком. На конференциях и в статьях любят приводить статистику о том, какой процент пользователей успешно сделал заказ через подобные системы. Но согласитесь, для вас при заказе, например, авиабилета имеет критическое значение, чтобы были учтены все требуемые параметры путешествия, такие как время вылета и прилета, аэропорты, условия тарифа и т.п. Если система может пропустить что-то из этого, то цена ошибки для вас будет очень высокой и вам будет все равно, что остальные 85% пользователей получили именно то, что хотели, и остались довольны.
Как бы то ни было, следующим шагом в развитии стала идея конвертировать голос пользователя в текст, передаваемый в чат, и генерировать голосовое сообщение на основе сгенерированного текстового ответа. Современные технологии уже прошли далеко вперед, и качество распознавания и генерации голоса находятся на очень высоком уровне. И это только усугубляет проблему наполнения смыслом общения с голосовым чат-ботом. Человек, слыша речь, интуитивно подразумевает, что тот, кто ему отвечает, обладает интеллектом, которого, конечно же, нет, даже «искусственного». В результате у пользователей появляются завышенные ожидания, которые подобные системы не способы оправдать. Проработка сценариев, делающих общение человека с голосовым сервисом полезным и осмысленным, – самая сложная часть в создании подобных систем. И этому нужно уделять максимум внимания.
Где же, с учетом вышесказанного, взаимодействие с пользователем голосом может дать преимущества, недоступные для других технологий? Стоит сфокусироваться на двух аспектах. Первое, с учетом того, что никакой интеллектуальностью тут не пахнет, подобная система должна однозначно быть ориентирована на какие-то конкретные прикладные функции, не предполагающие пространные рассуждения и длинные сценарии общения человека и сервиса. Например, сказать системе: «Помоги организовать мне поездку» означает, что вы никогда никуда не поедете, а вот «Закажи мне такси на ближайшее время, поедем на вокзал» уже сработает.
Второе, голос не является предпочтительным способом коммуникаций в большинстве контекстов использования, например, в офисе, в транспорте, на улице среди прохожих. Но есть ситуации, когда руки заняты и нет возможности посмотреть на экран, к примеру, вы за рулем. И здесь появляется небольшое, но важное пространство для подобной возможности. Другой вариант, это когда человек взаимодействует с сервисом через телефонный звонок, т.е. в случае отсутствия в принципе работы через компьютерные устройства. Так может быть организована работы со службой поддержки того же сотового оператора, звонки с опросами и т.п. Но есть и более прикладные варианты, когда в компании есть сотрудники, которым необходимо что-то сообщить коллегам в рамках бизнес-процесса. Хорошим примером может быть прораб на стройке с кнопочным сотовым телефоном, звонящий в бухгалтерию и сообщающий о недостающий материалах в последней поставке.
Помимо сценариев использования голосовых интерфейсов через «умные» устройства, например, колонки и телефонные звонки, есть уже ставшие традиционными мобильные приложения голосовых ассистентов. Вкратце их концепция такова: обращаясь к ассистенту в приложении, вы запускаете определенный сервис, реализованный в виде отдельного сценария голосового взаимодействия. Такие сервисы чем-то похожи на приложения и называются «навыками». Используя «навыки», вы можете, к примеру, заказать такси, поиграть в игру, узнать статус заказа и т.п. Любая компания или разработчик может создать свой «навык», чтобы он был доступен всем пользователям одного из голосовых ассистентов, таких как Яндекс Алиса или Amazon Alexa. Но у подобного подхода есть один серьезный изъян – сложность и неочевидность способа использования.
В системах с графическим интерфейсом пользователь сразу видит доступные функции, но в случае с голосовым интерфейсом нет возможности быстро и понятно сообщить, как им пользоваться. Конечно, «навык» может начинать приветственную фразу с короткого пояснения, как его можно использовать, но при реальном использовании это становится серьезным ограничением. Недавно мой коллега Дмитрий Чечеткин из компании Just AI предложил новую концепцию использования голосовых систем. Вместо того чтобы иметь общую точку входа в виде отдельного приложения голосового ассистента, есть смысл добавлять голосовые функции непосредственно в приложения, которыми мы уже пользуемся. Отпадает необходимость пытаться в виде сложных голосовых сценариев предоставить доступ ко всем функциям сервиса, достаточно найти места в приложении, которые проще пройти голосом, например, при заказе в интернет-магазине продиктовать адрес доставки, вместо того чтобы его заполнять. Ряд сценариев при таком подходе также можно сильно упростить, когда вместо череды экранов, через которые пользователь продвигается, у него появляется возможность голосом ответить на несколько вопросов и сразу оказаться в финальной точке. К тому же существующее мобильное приложение уже знает пользователя и может получить доступ к предыдущей истории взаимодействия, например, содержанию прошлых заказов, тем самым еще больше упростив взаимодействие.
Вероятно, в дальнейшем будет найдена наиболее приемлемая форма использования голосовых технологий в каждой из сфер жизни. Что можно точно сказать, так это то, что это будет не единственный и далеко не единственный способ коммуникаций с компьютерными системами. Люди, общаясь друг с другом, используют речь только как один из способов обмена информацией, дополняя его книгами, схемами, картинами, музыкой, физическими предметами и, конечно же, выражением эмоций в виде мимики и жестов. С другой стороны, по мере того как то, что называется «искусственным интеллектом» будет все больше приобретать интеллект, начнет меняться и способ постановки и решения задач людей.