DeepSeek представляет модели V4: колоссальный скачок в эффективности ИИ с открытыми весами

3

Китайская исследовательская лаборатория DeepSeek официально выпустила превью-версии своих новейших больших языковых моделей (LLM) — DeepSeek V4 Flash и DeepSeek V4 Pro. Этот релиз знаменует собой значительную эволюцию по сравнению с предыдущей архитектурой V3.2 и ставит целью бросить вызов доминированию таких лидеров индустрии, как OpenAI и Google, предлагая высокий уровень логического мышления за лишь малую часть их стоимости.

Масштабирование: мощь архитектуры Mixture-of-Experts

Обе новые модели используют архитектуру Mixture-of-Experts (MoE) («смесь экспертов»). Вместо того чтобы активировать каждый параметр при каждом запросе — что крайне затратно и медленно — модель MoE задействует только тех конкретных «экспертов» (подразделов модели), которые необходимы для выполнения данной задачи. Это позволяет достичь огромных масштабов без пропорционального увеличения затрат энергии или вычислительных мощностей.

Две модели существенно различаются по масштабу:
DeepSeek V4 Pro: тяжеловесная модель, обладающая 1,6 триллиона параметров в общей сложности, из которых 49 миллиардов активны при выполнении любой отдельной задачи. Это делает её крупнейшей моделью с открытыми весами на текущий момент, значительно превосходящей таких конкурентов, как Kimi K 2.6 от Moonshot AI.
DeepSeek V4 Flash: более оптимизированная версия, включающая 284 миллиарда параметров, из которых лишь 13 миллиардов активны за раз; она разработана для максимальной скорости и эффективности.

Обе модели обладают контекстным окном в 1 миллион токенов, что позволяет пользователям обрабатывать огромные массивы данных, такие как целые базы программного кода или объемные юридические документы, в рамках одного запроса.

Сокращение разрыва с передовыми моделями

DeepSeek утверждает, что серия V4 практически «сократила разрыв» с самыми продвинутыми проприетарными моделями мира. Анализ производительности демонстрирует нюансированную картину того, где именно DeepSeek занимает место в глобальной иерархии ИИ:

1. Логика и программирование: конкурентное преимущество

В специализированных задачах, таких как логическое рассуждение и программирование, результаты DeepSeek поражают. Компания сообщает, что модель V4 Pro-Max превосходит большинство аналогов с открытым исходным кодом и даже соперничает с топовыми моделями, такими как GPT-5.4 от OpenAI и Gemini 3.0 Pro от Google, в определенных задачах. В бенчмарках по написанию кода модели V4 описываются как «сопоставимые с GPT-5.4».

2. Общие знания: не покоренный рубеж

Несмотря на выдающиеся способности к рассуждению, DeepSeek признает небольшое отставание в тестах на общие знания. В этой области модели на данный момент уступают GPT-5.4 от OpenAI и Gemini 3.1 Pro от Google. Собственный анализ DeepSeek показывает, что их траектория развития отстает от абсолютных лидеров рынка примерно на 3–6 месяцев.

3. Ограничения модальности

В отличие от «омни-моделей» (omni) от OpenAI или Google, которые способны нативно обрабатывать и генерировать аудио, видео и изображения, модели DeepSeek V4 на данный момент работают только с текстом.

Революция цен: высокая производительность при низкой стоимости

Пожалуй, самым прорывным аспектом релиза V4 является стратегия ценообразования. DeepSeek агрессивно демпингует рынок, делая высокоуровневый интеллект доступным для разработчиков и предприятий.

Модель Стоимость входа (за 1 млн токенов) Стоимость выхода (за 1 млн токенов) Контекст конкуренции
V4 Flash $0,14 $0,28 Дешевле, чем GPT-5.4 Nano и Claude Haiku 4.5
V4 Pro $0,145 $3,48 Дешевле, чем Gemini 3.1 Pro и GPT-5.4

Такая агрессивная ценовая политика говорит о том, что DeepSeek конкурирует не только качеством интеллекта, но и экономической целесообразностью масштабирования ИИ-приложений.

Итог

DeepSeek V4 представляет собой важную веху для ИИ с открытыми весами, предлагая колоссальный масштаб и элитные возможности логического мышления по цене, которая бросает вызов гигантам индустрии. Хотя модель всё еще немного отстает в общих знаниях и мультимодальных возможностях, её эффективность делает её грозным игроком в задачах программирования и сложной логики.

Попередня статтяПремиальный звук в пути: скидка 25% на Bang & Olufsen Beosound Explore
Наступна статтяMullvad VPN внедряет ручной переключатель для борьбы с утечками данных в iOS