DeepSeek v3 – как Китай нагнул США

DeepSeek v3 – как Китай нагнул США
Автор книги: id книги: 3231017     Оценка: 0.0     Голосов: 0     Отзывы, комментарии: 0 199 руб.     (2,3$) Купить и читать книгу Электронная книга Жанр: Правообладатель и/или издательство: Автор Дата публикации, год издания: 2025 Дата добавления в каталог КнигаЛит: Возрастное ограничение: 12+

Реклама. ООО «ЛитРес», ИНН: 7719571260.

Описание книги

DeepSeek также выпустила DeepSeek-V3, модель Mixture-of-Experts (MoE) с 671B параметрами, из которых 37B активированы для каждого токена. Модель использует Multi-head Latent Attention (MLA) и архитектуру DeepSeekMoE для эффективного вывода и экономичной обучения. DeepSeek-V3 была предварительно обучена на 14,8 триллионах разнообразных и высококачественных токенов, за которыми следовали этапы контролируемой доработки и обучения с подкреплением, чтобы полностью использовать ее возможности. Оценки показывают, что DeepSeek-V3 превосходит другие модели с открытым исходным кодом и достигает производительности, сопоставимой с ведущими закрытыми моделями, при этом для полного обучения требуется всего 2,788M часов H800 GPU.

Добавление нового отзыва

Комментарий Поле, отмеченное звёздочкой  — обязательно к заполнению

Отзывы и комментарии читателей

Нет рецензий. Будьте первым, кто напишет рецензию на книгу DeepSeek v3 – как Китай нагнул США
Подняться наверх