Читать книгу Собственная языковая модель. Когда, зачем и в каком масштабе - Ар'лан ис'Дрекхэм - Страница 6
Часть I. Собственная LLM как стратегическое решение Глава 2. Предмет, границы и альтернативы 2.1. Что мы называем «своей LLM»
ОглавлениеЕсть короткая формула, которая снимает большую часть путаницы: своя LLM — это владение весами. Не контроль над инфраструктурой, не возможность поднять модель в своём контуре, не монопольный доступ к API — именно веса, те самые числовые параметры, которые и делают модель моделью. Владение здесь — в юридическом смысле: компания может эти веса модифицировать как угодно, дообучать, переобучать, сжимать, склеивать с другими, лицензировать третьим сторонам, встраивать в свои продукты без разрешения вендора. Из этого следует и обратное: все обязанности по модели тоже остаются на компании. Ответственность за её поведение, правовые риски по данным, расходы на поддержание — всё это часть права собственности, а не приложение к нему. Владение — одновременно свобода и обуза. Именно это сочетание отличает свой актив от аренды, даже самой комфортной.
Хороший способ думать об этом — дом. Можно построить его с нуля, можно перестроить из купленного вчерне, но в обоих случаях документы оформлены на тебя. Арендованная квартира — пусть с отдельным входом, своим замком и разрешением переклеить обои — домом в этом смысле не становится. Разница незаметна день в день и становится очевидной в тот момент, когда арендодатель меняет правила.
Владение весами достигается одним из двух путей. Первый — предобучение с нуля (pretraining): модель начинается с набора случайных чисел и проходит через гигантский корпус текстов, постепенно превращаясь в то, что мы называем языковой моделью. Это самый тяжёлый режим. Компания начинает с пустоты и создаёт модель целиком. Характерен этот путь для сценариев B (Собственная) и C (Фронтир), подробно разворачиваемых в Главе 6. Порядки величин, которые здесь появляются, — триллионы токенов обучающих данных, сотни или тысячи GPU, многомесячные прогоны обучения; детализация этих цифр — предмет Глав 6—7. Для нас пока важно одно: предобучение с нуля — это режим создания модели из ничего, и он даёт полное, ничем не обременённое право собственности на результат.
Второй путь — продолженное предобучение (continued pretraining): берётся уже существующая модель — открытая, как Llama или DeepSeek, или собственная предыдущая версия — и дообучается на новых данных. Результат этого процесса — новые веса, отличающиеся от исходных, и именно они становятся собственностью компании. Ресурсов требуется кратно меньше, чем для предобучения с нуля — в разы меньше данных, в разы меньше вычислений, — но статус актива получается тот же: новые веса полностью принадлежат компании. Этот режим характерен для сценария A (Адаптированная) и отчасти для S (Малая). И именно поэтому А — полноценная «своя LLM» наравне с B и C: их отличает масштаб и дороговизна, а не статус актива на выходе. Разница между арендой и собственностью здесь важнее, чем разница между большим домом и малым.
Осталось отделить своё от похожего. Частый случай терминологической путаницы — приватное развёртывание чужой модели. Компания поднимает Llama или DeepSeek внутри своего контура, получает полный контроль над инфраструктурой и данными, может работать с моделью в закрытом режиме и применять к ней лёгкие методы настройки. Всё это серьёзная инженерная работа, и для многих задач её более чем достаточно. Но веса остаются чужими. Лицензия исходной модели продолжает действовать, право на глубокую модификацию ограничено её условиями, лицензировать третьим сторонам эти веса нельзя. Это не своя LLM — это приватная эксплуатация чужой.
Различение практически важное, потому что на внутренних совещаниях оба проекта часто называют одним словом — «наша LLM». За одним стоит актив с собственными правами и долгой жизнью внутри компании; за другим — аккуратно развёрнутая чужая модель, у которой есть срок годности, лицензия и вендор. Проекты разные, и путать их в смете опасно.