China entrena modelos de IA con datos de plataformas occidentales sin avisar
WSJ documenta cómo empresas chinas extraen data de GitHub, Reddit y Twitter para entrenar LLMs que compiten directamente con OpenAI
Wall Street Journal publicó una investigación que revela cómo empresas chinas de IA acceden a conjuntos de datos de plataformas estadounidenses —GitHub, Reddit, Twitter— para entrenar sus modelos de lenguaje, sin declararlo públicamente. El reporte documenta casos de ByteDance, Alibaba y startups menores que utilizan técnicas de scraping masivo. La práctica ocurre mientras EE.UU. restringe exportación de chips avanzados a China.
La ventaja competitiva en IA no está solo en los chips: está en la calidad y diversidad de los datos de entrenamiento. Mientras DeepSeek sorprendió al mundo con eficiencia computacional usando chips menos avanzados, el acceso a corpus textuales en inglés —especialmente código de GitHub— permitió a modelos chinos cerrar la brecha de capacidad con una fracción del hardware. La restricción de semiconductores no toca la capa de datos, donde China opera sin fricción regulatoria.