Читать книгу Сравнительный анализ современных AI-моделей: OpenAI o3-mini и DeepSeek-V3 - - Страница 3

Глава 3. Обзор DeepSeek-V3

3.1 История создания и эволюция

DeepSeek-V3 – это новейшая разработка китайской компании DeepSeek, которая быстро завоевала внимание в глобальной ИИ-среде благодаря своему высокому качеству и экономической эффективности. Впервые модель была представлена в декабре 2024 года, когда DeepSeek объявила о выпуске базовой версии DeepSeek-V3-Base, а затем – о чат-версии для широкого круга пользователей. Основное отличие DeepSeek-V3 от предыдущих моделей заключается в использовании инновационных методов оптимизации, что позволило существенно снизить затраты на обучение при сохранении высоких показателей точности и масштабируемости [github.com].

Эта модель была обучена на 14.8 триллионах тщательно отобранных токенов, где особое внимание уделялось математическим и программным задачам. Благодаря продуманной архитектуре и эффективной инженерной оптимизации, DeepSeek-V3 смогла достичь конкурентных результатов с моделями западных компаний, несмотря на использование значительно меньших вычислительных ресурсов. Такой прорыв стал поводом для названия модели «шокирующим» событием для индустрии – она продемонстрировала, что высококачественные ИИ-решения можно создавать при значительно меньших инвестициях [;ft.com].

3.2 Технические особенности и архитектура

DeepSeek-V3 построена на принципах современных больших языковых моделей, но обладает рядом особенностей, позволяющих ей работать существенно эффективнее:

Mixture-of-Experts (MoE) архитектура. Модель включает в себя 671 миллиард параметров, из которых для каждого токена активируется около 37 миллиардов. Использование схемы с экспертами позволяет задействовать только часть параметров при обработке конкретного запроса, что значительно снижает вычислительные затраты и ускоряет обработку [github.com].

Сравнительный анализ современных AI-моделей: OpenAI o3-mini и DeepSeek-V3

Подняться наверх