DeepSeek R2 supera a GPT-4o en benchmarks de razonamiento matemático y código
El laboratorio chino de IA vuelve a sorprender con un modelo que iguala o supera a los líderes de EE.UU. a una fracción del costo de entrenamiento.
DeepSeek, laboratorio de inteligencia artificial con sede en Hangzhou, publicó en marzo de 2026 su modelo R2, que supera a GPT-4o de OpenAI en los benchmarks MATH-500 (92,1% vs 88,4%) y HumanEval de generación de código (94,3% vs 90,2%), según resultados publicados por el propio DeepSeek y validados por el benchmark independiente LMSYS Chatbot Arena. El costo reportado de entrenamiento fue inferior a USD 6 millones, frente a estimaciones de USD 100 millones o más para modelos equivalentes de OpenAI y Google.
DeepSeek opera en China bajo restricciones de exportación de chips avanzados de EE.UU. (reglas de octubre 2022 y octubre 2023). El equipo ha desarrollado técnicas de entrenamiento eficiente —Mixture of Experts, optimización de atención multi-head— que reducen requerimientos de cómputo. El modelo R1, lanzado en enero de 2025, ya había generado pánico en mercados financieros de EE.UU. al demostrar capacidad comparable a modelos de frontera con costo radicalmente menor. R2 profundiza esa trayectoria.