Читать книгу Агенты среди нас. Как нанять нейросеть на работу и не уволиться самому - - Страница 8
Часть I. Рекрутинг: Кого мы нанимаем?
Глава 1. Анатомия агента
Мозг: Большая Языковая Модель (LLM)
ОглавлениеЭто центральный процессор агента. Именно здесь происходит магия «мышления». Когда вы используете GPT-4, Claude или Llama, вы обращаетесь к мозгу.
Роль мозга – понимать намерения и принимать решения.
Представьте себе выпускника Гарварда, которого заперли в пустой комнате без интернета и книг. Он очень умен. Он знает 50 языков. Он читал всю Википедию (по состоянию на прошлый год). Он может написать сонет Шекспира или решить сложное уравнение.
Но он оторван от реальности.
– Если вы спросите его: «Какая сегодня погода?», он ответит: «Я не знаю, я в закрытой комнате».
– Если вы спросите: «Сколько денег у нас на счету?», он ответит: «Я не знаю, у меня нет доступа к вашему банку».
Ключевая функция LLM в агенте – это Оркестратор.
Мозг не обязательно должен знать всё. Его главная задача – понять, что нужно сделать, и решить, какой инструмент для этого использовать.
Пример мыслительного процесса агента (это скрытый монолог, который происходит за доли секунды):
«Пользователь спрашивает про остатки товара на складе. Я сам этого не знаю. Но у меня есть инструмент „Поиск в базе 1С“. Значит, мне нужно сформулировать SQL-запрос, передать его в инструмент, получить ответ и перевести его на человеческий язык для пользователя».
Выбор «мозга» для агента:
Не всем агентам нужен «Эйнштейн» (дорогая модель вроде GPT-4o).
– Для сложных переговоров и стратегического планирования мы берем «дорогие мозги».
– Для сортировки почты или извлечения данных из чеков достаточно «стажера» (быстрой и дешевой модели, например, GPT-4o-mini или Haiku). В бизнесе это называется LLM Routing – экономия бюджета за счет назначения задач моделям соответствующего уровня.
2. Память: RAG (Retrieval-Augmented Generation)
Самая большая проблема «голого» мозга – амнезия и галлюцинации.
LLM помнит только то, чему её учили при создании (общие знания мира), и то, что помещается в текущее окно диалога (кратковременная память). Как только вы закрываете чат, агент всё забывает.
Для бизнеса такой сотрудник бесполезен. Вы не можете нанять менеджера, который каждое утро забывает прайс-лист компании и имена ключевых клиентов.
Здесь на сцену выходит RAG (Retrieval-Augmented Generation) – Генерация, дополненная поиском.
Простыми словами, RAG – это долгосрочная память агента, его личная библиотека и картотека.
Это технология, которая позволяет агенту перед тем, как ответить, «сбегать в архив» и подсмотреть правильный ответ.
Как это работает механически:
– Вы загружаете в систему PDF-инструкции, регламенты, историю переписки, базу знаний компании.
– Система нарезает эти документы на маленькие кусочки (чанки) и складывает в специальную «Векторную Базу Данных» (Vector Database).
– Когда вы задаете вопрос, агент не выдумывает ответ из головы. Он сначала ищет похожие кусочки в вашей базе.
– Он находит нужный пункт инструкции: «Ага, при возврате товара мы требуем заявление по форме №5».
– И только потом формулирует вежливый ответ клиенту, опираясь на этот факт.
Без RAG агент – это фантазер. С RAG агент – это бюрократ, который следует букве вашего закона. RAG – это то, что превращает общедоступную нейросеть (которая училась на всем интернете) в вашу корпоративную нейросеть (которая знает только ваш бизнес).
3. Руки: Инструменты (Tools / API)
Мозг с памятью может умно рассуждать, но он по-прежнему парализован. Он может выдать гениальный совет, но не может выполнить действие.
Чтобы агент стал сотрудником, ему нужны «Руки». В мире софта руками являются API (Application Programming Interface) и Функции (Function Calling).
Инструменты – это навыки агента. Это «кнопки», которые вы разрешаете ему нажимать во внешнем мире.
Типичные «руки» бизнес-агента:
– Web Search (Поиск в интернете): Способность гуглить актуальные курсы валют или новости конкурентов.
– Email Sender: Способность реально отправить письмо, а не просто сгенерировать его текст.
– Calendar API: Способность забронировать слот в вашем расписании.
– CRM Action: Способность передвинуть сделку на этап «Оплачено» или изменить телефон клиента.
– Code Interpreter: Способность написать и выполнить код (например, чтобы построить график в Excel или посчитать сложную математику).
Принцип минимальных привилегий:
Выдавая агенту руки, вы должны быть осторожны. Если вы дадите ему «руку», которая умеет удалять файлы, он может случайно удалить базу данных. Поэтому в архитектуре агентов мы всегда строго очерчиваем список доступных инструментов.
Хороший агент знает границы своих рук. Если вы попросите его: «Свари мне кофе», а у него нет подключения к API умной кофемашины, он (благодаря Мозгу) ответит: «Извините, у меня нет доступа к управлению физическими объектами».
Итоговая формула:
– Мозг (LLM) = Рассуждает и планирует.
– Память (RAG) = Дает контекст и факты.
– Руки (Tools) = Совершают полезное действие.
Уберите любой элемент, и система рухнет. Без мозга это скрипт. Без памяти это болтун. Без рук это консультант. Вместе – это Агент.