Última actualización 19:34, Santiago de Chile
Tesla activa conducción autónoma supervisada en China m…China y EE.UU. flexibilizan tierras raras pero Beijing…Bolivia busca en Xi 13 proyectos industriales mientras…Xiaomi baja precio de YU7 estándar y presiona a Tesla e…GM traslada Aveo y Groove a México tras arancel de Trum…China recorta 25% de su compra de soja: Brasil pierde U…China advierte a EE.UU. sobre llamada Trump-Taiwán tras…Trafigura retira 60.000 toneladas de cobre de depósitos…BYD lanza sedán eléctrico de 900 km que redefine la aut…China multa a Tiger y Futu por canalizar capital hacia…Nvidia crece 85% pero sigue excluyendo China de su proy…Freeport empuja Grasberg a máxima producción en 2027 —…Tesla activa conducción autónoma supervisada en China m…China y EE.UU. flexibilizan tierras raras pero Beijing…Bolivia busca en Xi 13 proyectos industriales mientras…Xiaomi baja precio de YU7 estándar y presiona a Tesla e…GM traslada Aveo y Groove a México tras arancel de Trum…China recorta 25% de su compra de soja: Brasil pierde U…China advierte a EE.UU. sobre llamada Trump-Taiwán tras…Trafigura retira 60.000 toneladas de cobre de depósitos…BYD lanza sedán eléctrico de 900 km que redefine la aut…China multa a Tiger y Futu por canalizar capital hacia…Nvidia crece 85% pero sigue excluyendo China de su proy…Freeport empuja Grasberg a máxima producción en 2027 —…

Tecnología ·

China entrena modelos de IA con datos de plataformas occidentales sin avisar

WSJ documenta cómo empresas chinas extraen data de GitHub, Reddit y Twitter para entrenar LLMs que compiten directamente con OpenAI

Wall Street Journal publicó una investigación que revela cómo empresas chinas de IA acceden a conjuntos de datos de plataformas estadounidenses —GitHub, Reddit, Twitter— para entrenar sus modelos de lenguaje, sin declararlo públicamente. El reporte documenta casos de ByteDance, Alibaba y startups menores que utilizan técnicas de scraping masivo. La práctica ocurre mientras EE.UU. restringe exportación de chips avanzados a China.

La ventaja competitiva en IA no está solo en los chips: está en la calidad y diversidad de los datos de entrenamiento. Mientras DeepSeek sorprendió al mundo con eficiencia computacional usando chips menos avanzados, el acceso a corpus textuales en inglés —especialmente código de GitHub— permitió a modelos chinos cerrar la brecha de capacidad con una fracción del hardware. La restricción de semiconductores no toca la capa de datos, donde China opera sin fricción regulatoria.