DeepSeek V4: 1,6 billones de parámetros, empata con Claude Opus 4.7 en coding
V4-Pro liberado 24 abril 2026. 80,6% SWE-bench Verified, USD 0,30 por millón de tokens. Atención híbrida CSA+HCA. Contexto 1 millón.
DeepSeek (laboratorio chino de IA con sede en Hangzhou, fundado por Liang Wenfeng en 2023) liberó DeepSeek V4 el 24 de abril de 2026. V4-Pro es un modelo Mixture of Experts (MoE, arquitectura donde solo se activa un subconjunto de parámetros por consulta) de 1,6 billones de parámetros con 49 mil millones activos. V4-Flash tiene 284 mil millones de parámetros con 13 mil millones activos. Ambos soportan ventana de contexto de 1 millón de tokens. V4-Pro-Max obtuvo 80,6% en SWE-bench Verified (benchmark de resolución de bugs reales en GitHub) y 93,5 en LiveCodeBench. Está estadísticamente empatado con Claude Opus 4.7 (80,8%) de Anthropic. El precio es USD 0,30 por millón de tokens.
V4 introduce dos innovaciones técnicas. La primera es atención híbrida CSA+HCA: reduce el cálculo a 27% del modelo anterior V3.2 y la memoria KV a 10%. La segunda es el cambio de optimizador AdamW por Muon, con convergencia más rápida en entrenamiento a escala de billones de parámetros. DeepSeek opera con presupuesto cercano a USD 6 millones por modelo, contra los miles de millones de OpenAI o Anthropic. R2 (segundo modelo de razonamiento) se preparaba para liberación en febrero de 2026. La estrategia china es clara: liberar pesos abiertos, presionar precios de mercado a la baja, romper foso económico estadounidense en IA.