El gobierno del Reino Unido posee algunos de los conjuntos de datos más valiosos del mundo, incluidas las estadísticas oficiales, los registros del patrimonio cultural y los datos de salud del NHS. Estos conjuntos de datos tienen avances científicos alimentados, innovación empresarial y mejoras en los servicios públicos.
Con la publicación del tan esperado plan de acción de AI Oportunidades, el potencial transformador de los datos del gobierno para la IA nunca ha sido más evidente. Sin embargo, la investigación reciente del Instituto de Datos Abiertos (ODI) revela deficiencias críticas en cómo se preparan y publican conjuntos de datos gubernamentales para la IA.
Datos del gobierno y el desafío de confiabilidad de la IA
Los modelos de base (FMS), como ChatGPT y Gemini, se utilizan cada vez más para proporcionar información sobre políticas y servicios públicos. Sin embargo, la investigación del ODI destaca que, si bien estos modelos raspe los repositorios de datos del gobierno, a menudo no ofrecen resultados precisos en función de ellos. En cambio, los modelos se basan en fuentes secundarias o poco confiables, como publicaciones en redes sociales o artículos de opinión, o simplemente fabrican respuestas.
Las consecuencias son significativas. Los ciudadanos que usan herramientas de IA para comprender los derechos de beneficio, por ejemplo, pueden recibir asesoramiento engañoso o incompleto, socavando la confianza pública tanto en la IA como en los servicios gubernamentales. Esto es particularmente preocupante dado el énfasis del gobierno del Reino Unido en mejorar la prestación de servicios públicos a través de la innovación de IA.
Déficit de datos en el ecosistema de IA
El Plan de Acción de Oportunidades de IA, escritos por Matt Clifford, enfatiza correctamente el papel de la Biblioteca Nacional de Datos (NDL) como un medio para desbloquear los datos del gobierno para los innovadores de IA. Sin embargo, el estado actual de conjuntos de datos gubernamentales presenta barreras significativas para lograr esta visión.
El análisis ODI de CommonCrawl, un repositorio clave del conjunto de datos para modelos de IA, descubrió que raspó 13,556 páginas de Data.gov.uk a abril de 2024. Sin embargo, estas páginas rara vez contribuyeron a salidas de modelo precisas. En 195 consultas de prueba, los modelos se referían correctamente a Data.gov.uk estadísticas en solo cinco casos.
Este problema surge porque los datos del gobierno a menudo no se publican en formatos listos para AI. Si bien las tecnologías como DCAT se utilizan para hacer que los conjuntos de datos sean descubiertos, raspar la infraestructura como CommonCrawl no admite completamente estas tecnologías. Como resultado, los modelos de IA se basan en fuentes menos autorizadas, perpetuando la información errónea. Los hallazgos del ODI sugieren que la ambición del Reino Unido de liderar en la innovación de IA podría vacilar a menos que se aborde esta desconexión.
Evidencia de experimentos ODI
El ODI realizó dos experimentos para examinar cómo los datos gubernamentales respaldan los modelos de IA y, a su vez, cómo los modelos de IA están permitidos para apoyar a los residentes del Reino Unido.
El primer experimento analizó cuán importantes son los sitios web gubernamentales del Reino Unido para la IA. Los investigadores realizaron un estudio de ablación que utiliza una ‘técnica de desaprendizaje de máquinas’ para eliminar los sitios web de Gov.uk de una selección de datos de capacitación de FMS.
Los resultados revelaron un aumento del 42.6% en la inexactitud de los modelos cuando se privan de contenido de Gov.uk, lo que lleva a errores fundamentales. Por ejemplo, una prueba encontró que los modelos que no tenían acceso a sitios web gubernamentales informaron a los usuarios sobre su elegibilidad para el beneficio infantil.
En contraste, el segundo experimento encontró que los conjuntos de datos del gobierno son actualmente desconocidos para los modelos de IA. Este experimento, un estudio de la capacidad de los modelos para recordar estadísticas específicas de Data.gov.uk, encontró que de 195 consultas, los modelos hacen referencia con precisión a las estadísticas del gobierno oficial de las liberaciones solo cinco veces.
La conclusión de estos experimentos fue que, si bien los sitios web gubernamentales son vitales para la precisión de la IA, los conjuntos de datos de estadísticas gubernamentales están subutilizados a pesar de su enorme valor y potencial en la entrega de servicios públicos. Si queremos darnos cuenta del potencial de la IA para ofrecer beneficios, como mejorar la calidad de la atención, la seguridad y la rentabilidad en el NHS, el gobierno debe priorizar la mejora de la calidad, la accesibilidad y la usabilidad de sus datos.
El camino hacia adelante
La adopción de principios justos, asegurando que los datos sean encontrables, accesibles, interoperables y reutilizables, ha sido defendida durante mucho tiempo por Data.gov.uk y sigue siendo una base sólida. Herramientas emergentes como Croissant, un formato de metadatos legible por máquina diseñado para el aprendizaje automático, pueden mejorar aún más la capacidad de descubrimiento e integración en los flujos de trabajo de los desarrolladores. Si se mejoran las descripciones del conjunto de datos, serán más utilizables para los usuarios humanos y de máquinas.
El gobierno debe incentivar el intercambio de datos responsable para garantizar un acceso equitativo a datos de alta calidad. Esto podría incluir incentivos fiscales para el intercambio de datos del sector privado, mandatos para proyectos financiados con fondos públicos para hacer que sus datos sean apropiados cuando corresponda, o incluso un impuesto sobre el contenido generado por IA para financiar fuentes de información confiables. Debemos utilizar tecnologías de mejora de la privacidad como SOLID, que ofrecen a las personas el acceso directo y el control de sus datos, por ejemplo, sus datos de bienestar y salud, para garantizar el acceso a datos confidenciales sin comprometer la privacidad personal, la sensibilidad comercial o la seguridad nacional . Esto podría proporcionar beneficios importantes, como el uso del aprendizaje automático para identificar factores de riesgo personal para las condiciones de salud, lo que permite la acción preventiva. Los fideicomisos de datos se pueden construir sobre los datos sólidos para agregar. Estos datos agregados se pueden recopilar en conjuntos de datos con metadatos de croissant para prepararlos para el uso de la investigación.
Alineando con el plan de acción
El énfasis del Plan de Acción de Oportunidades de IA en los datos de alta calidad y la fuerte gobernanza se alinea con el largo compromiso del ODI con soluciones socio técnicas que integran la infraestructura de datos avanzados con la confianza pública. Para apoyar el desarrollo de sistemas interoperables, conjuntos de datos listos para AI y tecnologías de mejora de la privacidad, el ODI aboga por una hoja de ruta de infraestructura nacional de datos de diez años. Esta hoja de ruta apoyaría el enfoque del plan de acción en impulsar la innovación de IA a través de la inversión en la infraestructura de datos a largo plazo.
Sin embargo, el plan de acción deja varios huecos sin abordar. No detalla completamente cómo la Biblioteca de Datos Nacional incorporará la entrada del usuario o involucrará a diversas partes interesadas para garantizar que brinde beneficios públicos. Hay detalles limitados sobre los estándares formales para la calidad de los datos y la procedencia, que son críticos para garantizar conjuntos de datos listos para AI. Además, si bien el plan de acción destaca la necesidad de apoyar a los innovadores de IA, podría fomentar más explícitamente nuevas empresas centradas en datos especializadas en herramientas de preparación de datos y gobernanza. Esperamos que estas brechas se aborden a medida que el gobierno implementa las recomendaciones.
Liderazgo internacional a través de la colaboración
La investigación del ODI destaca la importancia global de los enfoques centrados en los datos para el gobierno de la IA. Sin embargo, pocas naciones priorizan este enfoque, arriesgando socavando la adopción más amplia de prácticas de datos abiertos y compartidas. Sin una gobernanza sólida centrada en los datos, los cimientos de los sistemas de IA transparentes y responsables podrían debilitarse.
El ODI ha lanzado el Observatorio Global de Datos de Políticas de AI para abordar esto. Esta iniciativa proporciona recursos prácticos para apoyar a los responsables políticos en el desarrollo de la gobernanza de la IA centrada en los datos. Al ofrecer información sobre metadatos legibles por máquina, los kits de herramientas para el uso de datos responsables y las mejores prácticas para la transparencia, el observatorio tiene como objetivo fortalecer la base de evidencia global para la IA centrada en los datos.
Darse cuenta del potencial de IA del Reino Unido
El acceso a datos gubernamentales de alta calidad es esencial para realizar el potencial de IA en la prestación de servicios públicos. Al mejorar las prácticas de publicación de datos e invertir en infraestructura a largo plazo, el Reino Unido puede posicionarse como un líder mundial en la provisión de datos para la IA. Este liderazgo desbloqueará beneficios económicos y sociales transformadores, alineándose con las ambiciones del Plan de Acción de Oportunidades de AI.
El informe completo está disponible para descargar en Informe ODI: El gobierno del Reino Unido como proveedor de datos para AI.
Elena Simperl es la directora de investigación en el ODI. Neil Majithia es investigador en el ODI.