GitHub usará datos de Copilot para entrenar sus modelos desde abril

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

GitHub ha anunciado un cambio importante en la política de uso de datos de GitHub Copilot que afecta directamente a los usuarios individuales. A partir del 24 de abril de 2026, la compañía podrá utilizar datos de interacción de los planes Copilot Free, Pro y Pro+ para entrenar y mejorar sus modelos de Inteligencia Artificial, salvo que el usuario decida desactivar esa opción. La medida no afecta a Copilot Business ni a Copilot Enterprise, dos planes que GitHub insiste en mantener fuera de este programa de entrenamiento.

El anuncio, publicado por GitHub el 25 de marzo de 2026, supone un cambio de fondo en la relación entre la plataforma y millones de desarrolladores que usan Copilot como herramienta cotidiana de asistencia al código. La compañía enmarca esta decisión como una forma de ofrecer una ayuda “más inteligente y más consciente del contexto”, apoyándose en datos reales de uso para mejorar sugerencias, comprensión de flujos de trabajo y detección de errores antes de que lleguen a producción.

Lo relevante no es solo que GitHub vaya a usar más datos, sino qué tipo de datos entran en ese entrenamiento. Según la propia empresa, el programa puede incluir las salidas aceptadas o modificadas por el usuario, los inputs enviados a Copilot, fragmentos de código mostrados al modelo, el contexto de código alrededor del cursor, comentarios y documentación, nombres de archivos, estructura del repositorio, patrones de navegación e interacciones con funciones como el chat o las sugerencias en línea. También puede incorporar las valoraciones positivas o negativas que el usuario haga sobre las respuestas del sistema.

Ese nivel de detalle explica por qué el cambio ha llamado tanto la atención. No se trata únicamente de recoger “telemetría” genérica para mejorar el producto, sino de emplear una parte sustancial de la experiencia real de programación para entrenar modelos. GitHub sostiene que esta práctica se alinea con tendencias ya asentadas en el sector y asegura que, al usar datos del mundo real, los modelos pueden mejorar su rendimiento en más lenguajes y más escenarios de desarrollo. La empresa añade que ya ha estado utilizando datos de interacción de empleados de Microsoft y que eso ha producido mejoras medibles, entre ellas un aumento en las tasas de aceptación en varios lenguajes.

Qué usuarios se ven afectados y cómo se puede desactivar

La política nueva afecta a quienes usan Copilot Free, Copilot Pro y Copilot Pro+. En cambio, GitHub subraya que no utilizará datos de clientes de Copilot Business o Copilot Enterprise para entrenar modelos de Inteligencia Artificial y recuerda que esas cuentas están protegidas por su acuerdo de protección de datos, que prohíbe ese uso sin autorización del cliente. Además, la documentación oficial recalca que tampoco se incluyen datos procedentes de repositorios propiedad de empresas dentro de esos planes.

Otro punto importante es que GitHub afirma que respetará las decisiones previas de los usuarios que ya hubieran desactivado la recogida de datos para mejoras de producto. Según la compañía, esa preferencia se mantiene, de modo que esos datos no se usarán para entrenamiento salvo que el usuario vuelva a activar expresamente la opción. No es un detalle menor, porque evita que el cambio entre en vigor como una especie de “reseteo silencioso” de la configuración anterior.

GitHub también ha explicado de forma bastante directa cómo puede desactivarse esta función. En la documentación oficial en español, la ruta pasa por la imagen de perfil del usuario en GitHub, entrar en Copilot settings y cambiar el desplegable “Allow GitHub to use my data for AI model training” a Disabled. La propia documentación añade que la opción está en la sección de políticas de GitHub Copilot para suscriptores individuales.

El punto más delicado: repositorios privados y contexto en uso

La parte más sensible del anuncio está en el tratamiento del código privado. GitHub aclara que no usará contenido “en reposo” procedente de issues, discusiones o repositorios privados almacenados simplemente en la plataforma. Pero introduce un matiz decisivo: Copilot sí procesa código de repositorios privados cuando el usuario lo está usando activamente, y esa interacción podría emplearse para entrenamiento del modelo si el usuario no se da de baja de esta nueva política.

Ese matiz cambia por completo la lectura del anuncio para muchos desarrolladores. No implica que GitHub vaya a vaciar y reutilizar sin más todos los repositorios privados alojados en su plataforma, pero sí que el uso activo de Copilot dentro de ese contexto puede entrar en la bolsa de datos de entrenamiento si no se desactiva la opción. Para una parte del mercado, especialmente freelancers, indies y pequeños equipos técnicos que trabajan sobre código no público pero usan planes individuales, este punto será probablemente el más sensible.

GitHub intenta rebajar esa preocupación subrayando que los datos recogidos en este programa pueden compartirse con afiliadas corporativas, incluida Microsoft, pero no con proveedores de modelos de terceros ni con otros prestadores independientes de IA. Es decir, la compañía limita ese uso al entorno de su propio grupo empresarial. Aun así, para quienes mantienen repositorios privados o flujos de trabajo sensibles en planes personales, la cuestión ya no es solo quién accede a los datos, sino si quieren que su interacción diaria con el código se convierta en material de entrenamiento.

En el fondo, este cambio revela algo más amplio: la nueva generación de herramientas de programación asistida necesita datos de uso real para seguir mejorando, y las plataformas están empezando a pedir ese combustible de forma mucho más explícita. GitHub lo presenta como una mejora natural del producto. Una parte de la comunidad lo verá como un intercambio razonable. Otra, como un recordatorio de que la comodidad de la IA integrada rara vez es gratis en términos de datos. La diferencia, esta vez, es que la compañía ha dejado por escrito quién entra en el programa, qué datos podrían utilizarse y dónde está el interruptor para decir que no.

Preguntas frecuentes

¿Desde cuándo GitHub podrá usar datos de Copilot para entrenar modelos?
Desde el 24 de abril de 2026, según el anuncio oficial y la documentación de GitHub para suscriptores individuales.

¿Qué planes de GitHub Copilot se ven afectados?
Afecta a Copilot Free, Copilot Pro y Copilot Pro+. Copilot Business y Copilot Enterprise quedan fuera de esta actualización.

¿GitHub usará mis repositorios privados para entrenar IA?
GitHub dice que no utilizará contenido de repositorios privados “en reposo”, pero sí advierte de que el código procesado durante el uso activo de Copilot en repositorios privados podría emplearse para entrenamiento si el usuario no desactiva la opción.

¿Cómo se puede impedir que GitHub use esos datos?
Desde la configuración personal de Copilot en GitHub, cambiando la opción “Allow GitHub to use my data for AI model training” a Disabled.

vía: github.blog

X (Twitter) Facebook Pinterest LinkedIn Email WhatsApp

Suscríbete al boletín SysAdmin

Este es tu recurso para las últimas noticias y consejos sobre administración de sistemas, Linux, Windows, cloud computing, seguridad de la nube, etc. Lo enviamos 2 días a la semana.

¡Apúntate a nuestro newsletter!

– patrocinadores –