Última actualización 16:27, Santiago de Chile
Lai cumple mitad de mandato en Taiwan mientras Trump re…Trump retira Tíbet de agenda bilateral con Xi: preceden…CEPAL confirma: LATAM sigue vendiendo materias primas a…Costa Rica importa 4 veces más de China de lo que expor…EE.UU. pide reabrir agenda del yuan mientras China cier…El FMI advierte: el consumo chino no despega sin reform…La healing economy china convirtió el sentimiento en la…SMIC entra en 5nm y Huawei proyecta USD 12.000 millones…Las 6 industrias del futuro del Plan Quinquenal 15 chin…Post-cumbre Beijing: Taiwán sin resolución, Irán sin ac…Comercio China–LATAM llegó a USD 510.000 millones en 20…Precio del litio casi se duplicó en Q1 2026 — USD 26.27…Lai cumple mitad de mandato en Taiwan mientras Trump re…Trump retira Tíbet de agenda bilateral con Xi: preceden…CEPAL confirma: LATAM sigue vendiendo materias primas a…Costa Rica importa 4 veces más de China de lo que expor…EE.UU. pide reabrir agenda del yuan mientras China cier…El FMI advierte: el consumo chino no despega sin reform…La healing economy china convirtió el sentimiento en la…SMIC entra en 5nm y Huawei proyecta USD 12.000 millones…Las 6 industrias del futuro del Plan Quinquenal 15 chin…Post-cumbre Beijing: Taiwán sin resolución, Irán sin ac…Comercio China–LATAM llegó a USD 510.000 millones en 20…Precio del litio casi se duplicó en Q1 2026 — USD 26.27…

Tecnología ·

China entrena modelos de IA con datos de plataformas occidentales sin avisar

WSJ documenta cómo empresas chinas extraen data de GitHub, Reddit y Twitter para entrenar LLMs que compiten directamente con OpenAI

Wall Street Journal publicó una investigación que revela cómo empresas chinas de IA acceden a conjuntos de datos de plataformas estadounidenses —GitHub, Reddit, Twitter— para entrenar sus modelos de lenguaje, sin declararlo públicamente. El reporte documenta casos de ByteDance, Alibaba y startups menores que utilizan técnicas de scraping masivo. La práctica ocurre mientras EE.UU. restringe exportación de chips avanzados a China.

La ventaja competitiva en IA no está solo en los chips: está en la calidad y diversidad de los datos de entrenamiento. Mientras DeepSeek sorprendió al mundo con eficiencia computacional usando chips menos avanzados, el acceso a corpus textuales en inglés —especialmente código de GitHub— permitió a modelos chinos cerrar la brecha de capacidad con una fracción del hardware. La restricción de semiconductores no toca la capa de datos, donde China opera sin fricción regulatoria.