Читать книгу Сравнительный анализ современных AI-моделей: OpenAI o3-mini и DeepSeek-V3 - - Страница 3
Глава 3. Обзор DeepSeek-V3
Оглавление3.1 История создания и эволюция
DeepSeek-V3 – это новейшая разработка китайской компании DeepSeek, которая быстро завоевала внимание в глобальной ИИ-среде благодаря своему высокому качеству и экономической эффективности. Впервые модель была представлена в декабре 2024 года, когда DeepSeek объявила о выпуске базовой версии DeepSeek-V3-Base, а затем – о чат-версии для широкого круга пользователей. Основное отличие DeepSeek-V3 от предыдущих моделей заключается в использовании инновационных методов оптимизации, что позволило существенно снизить затраты на обучение при сохранении высоких показателей точности и масштабируемости [github.com].
Эта модель была обучена на 14.8 триллионах тщательно отобранных токенов, где особое внимание уделялось математическим и программным задачам. Благодаря продуманной архитектуре и эффективной инженерной оптимизации, DeepSeek-V3 смогла достичь конкурентных результатов с моделями западных компаний, несмотря на использование значительно меньших вычислительных ресурсов. Такой прорыв стал поводом для названия модели «шокирующим» событием для индустрии – она продемонстрировала, что высококачественные ИИ-решения можно создавать при значительно меньших инвестициях [;ft.com].
3.2 Технические особенности и архитектура
DeepSeek-V3 построена на принципах современных больших языковых моделей, но обладает рядом особенностей, позволяющих ей работать существенно эффективнее:
Mixture-of-Experts (MoE) архитектура. Модель включает в себя 671 миллиард параметров, из которых для каждого токена активируется около 37 миллиардов. Использование схемы с экспертами позволяет задействовать только часть параметров при обработке конкретного запроса, что значительно снижает вычислительные затраты и ускоряет обработку [github.com].