Читать книгу Создай голосового помощника. И научи бизнес летать - Ар'лан ис'Дрекхэм - Страница 7

Часть 1: Введение в эру разговорного бизнеса (Почему это важно именно сейчас)
Глава 6. Что такое стек технологий: GPT, ASR, TTS простыми словами для бизнесмена

Оглавление

Представьте, что вы пришли в ресторан. Вы не обязаны уметь готовить, но чтобы заказать вкусный ужин, вам нужно понимать разницу между супом и десертом, между мясом и рыбой.

Точно так же и с голосовыми помощниками. Вам не нужно уметь программировать нейросети. Но чтобы не переплачивать подрядчикам и ставить правильные задачи, вам нужно понимать, из каких «ингредиентов» состоит ваш будущий помощник.

Сегодня мы разберем три главных ингредиента. Три кита, на которых стоит любой голосовой ИИ. Зовут этих китов: ASR, TTS и GPT.

Ингредиент 1. ASR: Уши вашего помощника

ASR – это Automatic Speech Recognition (Автоматическое распознавание речи).

Простыми словами: это технология, которая превращает звук (то, что говорит клиент) в текст. Это уши вашего помощника.

Когда клиент говорит в трубку: «Здравствуйте, я хочу заказать пиццу», – ASR должен услышать этот набор звуков и записать его буквами: «Здравствуйте я хочу заказать пиццу».

Почему это сложно?

– Акценты и картавость (человек сказал «пиццу» или «питцу»? ).

– Шум на фоне (клиент говорит из машины или с ветром).

– Слова-паразиты (ну, это, типа, блин).

Аналогия для бизнеса: ASR – это стенографистка. Она сидит и записывает всё, что говорит клиент, слово в слово. Если стенографистка глуховата или невнимательна, она напишет ерунду, и дальше весь разговор пойдет насмарку.

На что обращать внимание: Качество ASR измеряется процентом ошибок. Для бизнеса критически важно, чтобы ASR «понимал» вашу тематику (медицинские термины, названия товаров, сленг).

Ингредиент 2. TTS: Рот вашего помощника

TTS – это Text-To-Speech (Преобразование текста в речь).

Это технология, которая делает обратное: превращает текст, который придумал мозг помощника, в звук, который слышит клиент. Это рот вашего помощника.

Именно TTS отвечает за то, с какой интонацией, с какой скоростью и с каким тембром говорит робот.

Почему это сложно?

Раньше TTS звучал как робот из 90-х: «Здра-вствуй-те, ваш-за-каз-при-нят». Это бесило всех.

Современный TTS (нейросетевой) умеет:

– Делать паузы в нужных местах (как живой человек).

– Менять интонацию: радоваться, сочувствовать, удивляться.

– Делать вдох перед фразой (да, это важно для реалистичности).

– Произносить сложные слова и иностранные имена.

Аналогия для бизнеса: TTS – это актер озвучки. Можно нанять дешевого актера, который прочитает текст монотонно, как сводку погоды. А можно нанять профессионала, который сыграет роль: заботливого консультанта, уверенного эксперта или веселого помощника. Разница в восприятии клиентом – колоссальная.

На что обращать внимание: Голос. Он должен быть приятным, подходить под ваш бренд и, самое главное, вызывать доверие.

Ингредиент 3. LLM (GPT): Мозг вашего помощника

LLM – это Large Language Model (Большая языковая модель). Самая известная такая модель – это ChatGPT от OpenAI, но есть и другие (YandexGPT, GigaChat, Claude и т.д.).

Это мозг вашего помощника. Самая важная часть.

Именно LLM получает текст от ASR («Я хочу заказать пиццу») и решает, что с этим делать. Она лезет в свою память (в нейросеть, обученную на гигантском количестве текстов), анализирует контекст и придумывает ответ.

Что умеет мозг (LLM):

– Понимать смысл, даже если фраза построена коряво.

– Помнить, что было сказано 5 минут назад (контекст диалога).

– Отвечать развернуто и по делу.

– Притворяться человеком (если его правильно попросить).

– Обращаться к внешним системам (проверить наличие товара в CRM).

Аналогия для бизнеса: LLM – это очень опытный, начитанный и быстрый сотрудник. Вы даете ему инструкцию (промпт): «Ты – менеджер по продажам пиццерии. Твоя задача – принять заказ и вежливо предложить дополнительные топпинги». И дальше этот сотрудник работает сам, опираясь на свой гигантский опыт.

Как это работает в связке: Оркестр

Теперь давайте соберем всё вместе. Представьте, что происходит за одну секунду, когда клиент говорит:

«Девушка, а пицца „Пепперони“ у вас ещё острая?»

– ASR (Уши): Слышит звук, превращает его в текст. На выходе: строка «девушка а пицца пепперони у вас ещё острая».

– LLM (Мозг): Получает текст. Анализирует: «Клиент спрашивает про остроту пиццы „Пепперони“. Смотрю в базу знаний… В нашей пицце „Пепперони“ острота 7 из 10, есть примечание, что можно сделать менее острую по просьбе клиента. Формулирую ответ».

– LLM (Мозг) пишет ответ: «Здравствуйте! Да, наша классическая „Пепперони“ имеет пикантную остроту за счет колбасы. Но если вы хотите помягче, мы можем положить меньше пепперони или заменить соус. Вам как удобнее?»

– TTS (Рот): Получает этот текст и произносит его вслух голосом приятной девушки, с заботливой интонацией, делая паузу после вопроса.

Всё это происходит за доли секунды. Клиент даже не замечает, что разговаривал с тремя разными технологиями, собранными воедино.

Бонус-ингредиенты (Для продвинутых)

Кроме трех китов, в «стеке» (так программисты называют набор технологий) есть еще полезные штуки:

– CRM и Базы знаний: Это внешняя память помощника. Место, где лежат ваши цены, адреса, данные о заказах клиентов. Мозг (LLM) обращается к ним, чтобы дать точный ответ.

– STT/SST: Иногда так называют то же самое, что и ASR (распознавание). Не пугайтесь, если услышите.

– Нейросетевой голос: Это TTS, обученный на записях реальных дикторов. Звучит неотличимо от человека.

Резюме для внедрения

Теперь, когда вы пойдете разговаривать с разработчиками или подрядчиками, вы будете знать, о чем спрашивать:

– Какие уши? Какой ASR используется? Хорошо ли он распознает речь в вашей сфере?

– Какой мозг? Какая LLM стоит в основе? ChatGPT, YandexGPT или своя доработка?

– Какой рот? Чей голос используем? Можно ли выбрать другой? Есть ли эмоциональная окраска?

Понимание этих трех простых слов – ASR, LLM, TTS – делает вас не просто заказчиком, а грамотным партнером. Вы перестаете быть «чайником» и становитесь человеком, который управляет процессом, а не плывет по течению.

Создай голосового помощника. И научи бизнес летать

Подняться наверх