Читать книгу Собственная языковая модель. Когда, зачем и в каком масштабе - Ар'лан ис'Дрекхэм - Страница 12

Часть II. Устройство и процесс создания LLM Глава 3. Анатомия LLM 3.2. Как модель хранит смысл

Снаружи токен — номер в словаре. Внутри модели он живёт в другой форме: у каждого токена есть эмбеддинг (embedding) — длинный вектор, набор из сотен или тысяч чисел, в котором упакована информация о том, как этот токен связан с другими. Не «номер слова» и не «код буквы»; это координаты точки в многомерном пространстве, и именно с такими точками модель и работает. Токен на входе — как почтовый индекс; эмбеддинг — как сама точка на карте, со всей её географией.

Образ, который работает ближе к физике, чем к математике. Огромное пространство — не три измерения, как в нашем физическом мире, а тысячи. В этом пространстве каждый токен — точка, и расположены они не случайно: близкие по значению оказываются близкими геометрически, далёкие — удалёнными. «Король» и «королева» располагаются рядом; «тигр» и «лев» — тоже; «стол» и «ложка» оказываются ближе друг к другу, чем «стол» и «галактика». Это — в укороченном виде — действительно то, что происходит внутри модели. Главное здесь — идея: смысл в LLM устроен как геометрия. Близость слов есть расстояние, аналогия есть параллельный сдвиг, противоположность — направление.

Ближе всего это пространство по устройству напоминает звёздную карту. Есть плотные скопления — области, в которых слова «гравитационно» связаны множеством устойчивых смысловых нитей: бытовая речь, политика, международные новости, поп-культура. Есть разреженные окраины — области, в которых точек мало и расстояния между ними большие: редкие языки, узкие профессиональные жаргоны, специализированные технические темы. Есть и пустоты — области, куда обучающие данные почти не заглядывали, и где модель, вынужденная туда перемещаться, теряет уверенность шага. Эта карта — не абстрактная схема, а во многом портрет того, на чём модель училась: по плотности скоплений можно прочитать, какие темы были в её корпусе обильны, а какие — проходили поодаль.

Это пространство не возникает само по себе и не прописывается инженерами вручную; оно складывается в процессе обучения. Модель видит триллионы последовательностей токенов и постепенно размещает их в смысловом пространстве так, чтобы слова, встречающиеся в похожих контекстах, оказывались рядом. Геометрия смысла вытекает из статистики употребления: если два слова ведут себя в текстах одинаково, модель начинает считать их близкими. Это не тот способ хранить смысл, каким пользуется человек, и любые аналогии с человеческой памятью быстро подводят, — но это способ, эффективно работающий для текста. И ещё одно замечание, связанное с разговором из Главы 2: именно эта обученная геометрия — координаты всех точек и связи между ними — и есть значительная часть того, чем компания «владеет», когда речь идёт о владении весами. Веса — это, в том числе, и конкретное расположение «короля», «королевы» и всего остального в тысячах измерений; чужую модель можно развернуть приватно, но геометрию её внутреннего мира нельзя изменить — она у неё одна на всех.

Теперь — тонкий момент, который часто пропускают. Сам по себе механизм, работающий с эмбеддингами, последовательность токенов не видит. Казалось бы, странно: модель ведь читает текст слева направо, как мы, — разве порядок не заложен в устройство? На деле нет. Каждый токен модель рассматривает как точку в пространстве, и сам факт «этот токен идёт после того» для неё не существует, пока его отдельно не закодировать. Порядок слов — не побочный факт чтения, а инженерный сюжет, решаемый специально.

Способ, которым модели сообщают порядок токенов, — отдельная техническая задача, и от её решения зависит одна очень практическая вещь: на какую максимальную длину текста модель способна распространить свою работу. Одни способы кодирования хорошо переносятся на последовательности длиннее тех, на которых модель училась; другие ломаются уже на выходе за привычное окно. Существуют разные подходы; для руководителя их перечень неважен. Важно, что способность модели уверенно обрабатывать длинные документы — не «просто выкрутить ещё одну ручку», а следствие вполне конкретного инженерного решения, принятого на ранней стадии её конструирования.

Когда в рекламе новой модели звучит «контекстное окно в сотни тысяч или в миллион токенов», за этой цифрой стоит не общая магия масштаба, а в том числе выбор способа кодирования позиций — наравне с готовностью платить квадратичную стоимость центрального механизма. Два разных инженерных решения, принятых на ранних этапах, формируют то, что потом будет продаваться как свойство продукта.

И ещё одна линия, которую стоит дочертить, пока мы ещё в смысловом пространстве. Геометрия смысла — не только удобный образ для объяснения; это причина, по которой LLM ведут себя так, как ведут. Модель, отвечая на запрос, по сути перемещается в этом пространстве: выбирает направление, движется туда, шаг за шагом подбирая токены, которые ближе всего к текущему смысловому положению. Это объясняет и её сильные стороны, и её болезни. Модель хорошо попадает туда, где её смысловое пространство плотно заполнено, — где в обучающих корпусах было много близких примеров. И плохо — там, где в пространстве пустота: редкие темы, специализированные домены, узкие профессиональные контексты. Для компаний с собственной предметной областью эта геометрия важна в практическом смысле: там, где в смысловом пространстве открытой модели зияет пустота, нередко лежит самое ценное содержание бизнеса, — и именно эту пустоту имеет смысл заполнять специализированным обучением или собственной моделью. Этот сюжет вернётся в Главе 5, когда речь пойдёт об основаниях браться за проект, и в Главе 7 — о данных.

Пространство, в котором модель живёт, описано; порядок токенов в этом пространстве обозначен как отдельный инженерный выбор. Остаётся главный вопрос — как модель связывает эти точки между собой, какой механизм заставляет все они работать вместе. Здесь и находится центральный приём всех современных LLM и, одновременно, главная статья их расходов.

Собственная языковая модель. Когда, зачем и в каком масштабе

Подняться наверх