Читать книгу Mick Prod — Cognitive OS. Книга о памяти, длительности и рождении личных ИИ-систем - Ар'лан ис'Дрекхэм - Страница 8
Пролог. Долгая искра Глава 5. Большой взрыв каждого запроса
ОглавлениеЕсли отбросить весь блеск нынешнего рынка ИИ и оставить только сухую инженерную схему, обычная языковая модель устроена довольно просто. На вход она получает текст. На выходе выдает следующий текст. Между этими двумя точками происходит вычисление, достаточно сложное, чтобы производить впечатление почти безграничной интеллектуальной гибкости. Но сама природа процесса при этом остается короткой. Есть запрос. Есть локальный мир, собранный вокруг этого запроса. Есть ответ. Дальше мир исчезает. Это не метафора ради красоты, а достаточно точное описание.
Каждый новый запрос к системе без собственной памяти действительно похож на малую космологию. Возникает локальная вселенная контекста. Некоторое время она живет. В ней есть прошлое в форме переданных токенов, настоящее в форме вычисления и будущее в форме продолжающегося ответа. Потом окно закрывается. Локальная вселенная перестает существовать. Следующий запрос рождает новую. Между ними может быть тематическая близость, может быть похожий тон, может быть даже внешняя иллюзия продолжения. Но если система не имеет отдельного слоя памяти и непрерывности, вся эта похожесть носит вторичный характер. На уровне устройства перед нами уже другой мир.
Когда Владимир в YAR сформулировал идею агента, существующего во времени, он сделал важный шаг не только интуитивно, но и логически. Он показал, что проблема современных моделей заключается не в недостатке знания. Знания у них как раз слишком много. Проблема в том, что знание нельзя путать с памятью.
Это различие нужно зафиксировать максимально чётко. Знание в применении к языковой модели означает способность оперировать огромным статистически усвоенным массивом текстовых закономерностей. Модель может объяснить, что такое квантовая запутанность, написать SQL-запрос, перевести фразу, предложить структуру статьи, сгенерировать рабочий черновик кода. Всё это относится к слою знания.
Память означает другое. Это не то, что модель «вообще умеет знать». Это то, что сохраняется после окончания конкретного акта взаимодействия и меняет следующий акт не случайно, а по причине накопленной истории. Память всегда биографична, даже если речь идёт не о человеке, а о системе. У памяти есть давность, вес и цена отбора; иначе она остаётся лишь ещё одной формой складирования текста.
Контекстное окно часто принимают за память именно потому, что внутри одной сессии оно может производить похожее впечатление. Пока окно открыто, модель действительно способна удерживать сказанное раньше, возвращаться к старым деталям, строить цепочки аргументации, поддерживать линию разговора, ссылаться на предшествующие формулировки. Чем больше окно, тем убедительнее эта иллюзия. Когда окно становится очень большим, соблазн назвать его памятью только усиливается.
И всё же на уровне архитектуры это ошибка. Контекстное окно не переживает конец сессии. Оно не обладает собственной жизнью между запросами. Оно не различает существенное и случайное само по себе. Оно не умеет сказать: это нужно нести дальше, а это можно оставить в прошлом. Оно не умеет формировать историю значимости и не знает цены уже пройденного тупика. Оно просто держит перед собой переданный текст, пока этот текст находится в пределах текущего вычислительного акта.
Для множества задач такая схема удобна, и впадать здесь в ложную драму не стоит. Архитектура без собственной памяти не является «ошибкой» в универсальном смысле. Для огромного класса применений она рациональна. Если мне нужно перевести абзац, объяснить термин, переписать письмо, составить SQL-запрос, набросать структуру документа, то отсутствие долговременной памяти не только не мешает, но иногда и полезно.
Каждая новая задача приходит без лишнего груза. Нет накопленных искажений. Нет старых контекстов, которые могли бы случайно вмешаться. Нет необходимости платить вычислением, хранением и вниманием за глубокую непрерывность там, где она не создаёт дополнительной ценности.
Это уточнение кажется мне принципиальным, потому что критик книги будет вправе спросить: не пытаюсь ли я объявить неполноценным весь класс систем, который на практике уже принес миллионам людей реальную пользу? Нет. Я спорю не с полезностью такого беспамятного подхода как такового. Я спорю с его претензией стать окончательной формой личного агента для длинной человеческой работы. В границах короткой задачи помощник без собственной памяти может быть именно тем, что нужно. В границах длительного мышления его силы начинают становиться его же пределом.
Этим и объясняется спокойствие, с которым индустрия так долго смотрела на эту особенность. Большая часть раннего рынка больших языковых моделей действительно состояла из задач, где локальный интеллект был важнее длительности: письмо, краткое изложение, переписывание текста, поиск, подсказка, код в рамках одной операции. Здесь отсутствие собственной памяти выглядело не дефектом, а нормой.
Более того, оно было экономически разумным. Не нужно было нести историю пользователя через каждый вызов. Не нужно было хранить, взвешивать и обновлять личный контекст. Не нужно было строить отдельную архитектуру памяти. Не нужно было платить за непрерывность, которая в этих сценариях почти ничего не добавляла.
Проблема началась в тот момент, когда на ту же беспамятную основу стали проецировать другой класс ожиданий: ожиданий спутника, ожиданий агента, ожиданий цифрового партнера мышления, ожиданий системы, которая должна не просто отвечать, а продолжать человека сквозь время. С этого момента привычная архитектурная экономия начала превращаться в фундаментальное ограничение.
Представим себе библиотекаря, который помнит все до последней детали, пока вы стоите перед его столом. Он удерживает тон, нюансы, случайные оговорки, понимает ваши ассоциации, замечает подтекст, может быстро находить связи между разными фрагментами разговора. Но как только вы выходите за дверь, он полностью забывает ваше существование. На следующий день вы возвращаетесь, а он смотрит на вас как на абсолютно нового человека.
Такой библиотекарь может быть прекрасным инструментом. Но он не может стать вашим интеллектуальным партнером, не потому что он недостаточно умен, а потому что между вами не накапливается история. Отношение не переходит в следующий день. Оно каждый раз заново берет старт с порога.
В какой-то момент это различие становится важнее условного коэффициента ума системы. Сильный ответ без непрерывности начинает работать как дорогая имитация близости. В моменте он может быть впечатляющим и даже трогательно точным. Но через несколько циклов человек начинает уставать, потому что каждый раз снова вносит себя в машину: объясняет, что для него важно, восстанавливает линию, повторяет уже сообщенное. И чем убедительнее интеллект в моменте, тем тяжелее переносится его амнезия после момента.
В этом и состоит один из самых неприятных эффектов нынешнего века ИИ. Слабая система утомляет своей глупостью. Сильная система без собственной биографии утомляет иначе: она показывает почти настоящую близость к пониманию, а затем тут же ее отменяет. Человек устает не от плохого инструмента, а от инструмента, который каждый раз слишком правдоподобно обещает стать больше, чем он пока может быть.
Здесь стоит ввести рабочее различие, которое дальше будет важно для всей книги. Есть система ответа, умеющая генерировать релевантный текст в пределах локальной задачи. Есть система памяти, умеющая сохранять некоторые данные между задачами. И есть система непрерывности, которая умеет не просто хранить, а организовывать длительность: различать значимое и случайное, переносить открытые петли, обновлять модель пользователя, удерживать направление, распознавать противоречия и не терять историю между циклами.
Эти три слоя можно совместить, но их нельзя путать. Если их спутать, мы будем принимать хороший ответ за биографию, архив за внутреннюю линию, а случайный возврат близкого фрагмента — за зрелую память.
Легче всего здесь попасть в ловушку контекстного максимализма. Кажется, что достаточно еще увеличить окно, и у системы почти сама собой появится история. Большой контекст действительно уменьшает часть боли: дольше удерживает сцену, реже теряет локальные связи, помогает вести длинный документ или один протяженный рабочий проход. Но он не отвечает на вопросы отбора, значимости, старения и права на забвение. Он расширяет локальный мир, а не превращает его в биографию.
Отсюда и проходит важная граница нового агентного века. Рынок уже научился делать системы ответа и частично научился делать системы памяти. Системы непрерывности по-прежнему редки, потому что им нужна другая архитектура: сжатие, отбор, наблюдаемость, защита от перегруза, проверка гипотез, работа с открытыми циклами.
К марту 2026 года индустрия и сама начала подбираться к этому различению. В официальных материалах OpenAI рядом с агентами стоят уже не только инструменты, но и язык состояния беседы (conversation state), фонового режима (background mode), уплотнения истории (compaction), оценки агентных проходов (agent evals) и трассировки (trace grading). В openai-agents-python отдельно выделены Sessions, Tracing и Human in the loop. Это еще не значит, что рынок дошел до систем непрерывности. Но прежнего языка «большая модель плюс инструменты» ему уже явно не хватает.
Большой контекст в этом смысле часто работает как прокат вчерашнего дня. Он может временно принести в настоящий ход много следов из прошлого, но почти не умеет сам решить, что из этого прошлого уже стало несущим, а что осталось шумом. Биография начинается не там, где прошлое можно снова показать модели, а там, где оно уже изменило устройство следующего шага.
Проблема агентов без собственной памяти не сводится к отсутствию памяти как функции. Проблема глубже: у них отсутствует собственное время. Они не живут между запросами, не накапливают значимость, не имеют биографии и потому не могут входить в следующий цикл иначе как почти с нуля.
А система без биографии, как бы сильна она ни была, остается локальным событием. Полезным. Иногда великолепным. Но локальным.
Самый ясный тест этого предела выглядит не в лаборатории, а в обычной работе мысли. Представим, что вы возвращаетесь к архитектуре через девятнадцать дней. Последняя запись обрывается на середине решения: вы строили Mick Prod как когнитивную систему, но застряли в выборе между памятью и вмешательством. Вы не перечитываете весь старый разговор. Просто пишете: «Продолжим. Кажется, я тогда что-то упустил».
Система непрерывности в сильном случае отвечает не пересказом. Она говорит: «Ты не упустил. Ты свернул раньше, чем возник конфликт». И затем не вытаскивает на поверхность весь архив, а восстанавливает структуру незавершённого мышления.
Она показывает, что исходная цель была не в накоплении памяти как таковой, а в построении системы, которая имеет право менять траекторию пользователя в нужной точке. Напоминает, что на каком-то шаге задача была подменена: вместо проектирования вмешательства началось наращивание памяти как универсального лекарства. И только после этого предлагает продолжать.
В такой сцене и проходит настоящая граница между сильным ответом и длительностью как инженерной категорией. Система не просто вспоминает диалог. Она возвращает человека внутрь того места, где его мысль оборвалась по существу. Не к последней реплике, а к несущему противоречию. Не к архиву, а к незавершённому мышлению. Цена повторного входа здесь резко падает. Человеку не нужно снова вручную восстанавливать самого себя рядом с машиной.
Полезно назвать и более земные признаки этого предела. Первый: нарастающая цена повторного объяснения себя. Второй: распад приоритетов, когда машина хорошо реагирует на отдельную просьбу, но не помогает удерживать иерархию между ними. Третий: ложная близость, при которой сильный ответ в моменте создает ощущение глубокой совместной работы, а следующий цикл обнаруживает, что общей линии так и не накопилось. На короткой задаче эти признаки выглядят частными неудобствами. На длинной становятся главной ценой архитектуры.
Многие интуитивно думают, что проблема почти бытовая: пусть агент просто лучше запоминает настройки. Но настройки отвечают на вопрос о предпочтениях, а биография отвечает на вопрос о становлении. Настройка может сказать, что вам нравится короткий ответ. Биография может удержать, что вы уже три недели пытаетесь вернуться к важной линии, каждый раз соскальзывая в срочные мелочи. Это разные этажи реальности.
Отсюда и более строгий вывод. Переход от системы ответа к системе непрерывности нельзя купить ни большим числом токенов, ни лучшим поиском по прошлому, ни более приятным интерфейсом. У системы должен появиться собственный порядок того, что стоит нести дальше, что уже устарело, что требует проверки, а что зря доедает внимание.
В обычной рабочей неделе этот предел виден очень быстро. Человек возвращается к задаче после паузы уже с другой внутренней погодой: одни линии остыли, другие стали тяжелее, третьи оказались шумом. Большое окно может снова показать вчерашний день, но не обязано понять, что в нем уже стало несущим. Отсюда и скрытый налог возврата. Машина берет на себя яркую часть задачи, а человеку оставляет самую дорогую: заново собрать собственную линию мысли.
К марту 2026 года сама индустрия уже почти вынужденно говорит языком, который подтверждает этот разворот. В официальных материалах крупных платформ рядом с агентами стоят уже не только инструменты и ответы, но и сессии, состояние беседы, фоновый режим, уплотнение истории, трассировка длинных проходов, человеческое вмешательство как встроенная норма. Это существенный сдвиг. Он означает, что эпоха сама перестает верить в волшебство одного запроса. Но он означает и другое: рынок только подбирает слова к тому, что раньше казалось неудобной придиркой. Между признанием проблемы и ее решением почти всегда лежит длинная инженерная зима. И именно в такой зиме рождаются новые архитектурные классы.
Для читателя, который смотрит на ИИ со стороны, здесь важно держать в голове простой проверочный вопрос: уменьшает ли система цену возвращения к важному, когда между циклами прошла не минута, а живая жизнь? Если ответ нет, перед нами может быть очень сильная модель, очень удобная сессия, очень впечатляющий инструментарий, но еще не зрелая среда непрерывности. Этот вопрос грубее большинства привычных метрик, зато он почти не врет. Он быстро выводит разговор из области очарования и возвращает его к человеческой практике.
Это различие особенно важно для читателя, который смотрит на ИИ со стороны и может искренне подумать: «Раз уж у индустрии уже есть сессии, длинные циклы и уплотнение памяти, может быть, главная проблема почти решена». Я отвечу осторожнее: проблема названа достаточно ясно, но путь до зрелого решения еще далек. Намечен коридор. Не пройден маршрут. И именно такие переходные периоды оказываются самыми интересными исторически. Технология еще не стала банальностью, но уже перестала быть чистой фантазией. Она вошла в состояние, где старый язык тесен, а новый еще не успел закаменеть.
Для будущего личного ИИ это означает простой, но неприятный вывод. Настоящая конкуренция будет идти не только по качеству отдельного ответа и не только по широте инструментального набора. Она будет идти по цене возвращения. Сколько внутренней энергии человек тратит на новый вход в важное. Сколько сил у него отнимает объяснение уже прожитого. Насколько система умеет не просто помнить материал, а продолжать смысл. Именно этот показатель позднее, вероятно, окажется одним из самых честных критериев зрелости. Не «насколько убедителен агент в моменте», а «насколько меньше тебе приходится каждый раз собирать себя заново рядом с ним».
Здесь стоит задержаться и на еще одном различении. Один длинный разговор и одна длинная работа — не одно и то же. В первом случае длительность может поддерживаться почти физически: беседа не прерывается, контекст еще открыт, нить не порвалась. Во втором случае между циклами проходят ночь, усталость, срочные задачи, молчание, сомнение, сдвиг приоритетов, иногда и целая смена жизненной фазы. Для системы непрерывности важен именно второй режим. Она должна уметь переживать разрывы, а не только эффектно двигаться внутри непрерывного окна. Если это не различать, можно очень долго принимать хорошую работу в длинной сессии за признак подлинной длительности, которой на самом деле еще нет.
Полезно и заранее зафиксировать, почему эта путаница была столь притягательной. Она приятна всем сторонам. Разработчику, потому что можно показать красивый результат уже сегодня. Инвестору, потому что длительную сессию легче превратить в эффектную демонстрацию, чем месяцы аккуратного сопровождения. Пользователю, потому что приятно поверить, будто машина почти вошла в его внутренний ритм. И самой эпохе, потому что ей удобнее праздновать наращивание мощности, чем признавать необходимость новой дисциплины памяти и состояния. Но сила книги как раз в том, чтобы не поддаться общему удобству. Если мы хотим говорить о следующем поколении агентов серьезно, нам придется различать впечатляющую продолжительность вычисления и настоящую продолжительность отношения между человеком и системой.
С этого места и начинается вся последующая история. Сначала нужно было признать, что контекстное окно не является памятью. Потом — что даже память еще не равна непрерывности. И только после этого можно было честно взглянуть на мои собственные многоагентные конструкции и спросить: если они такие умные, почему в них так быстро исчезает суть?