El algoritmo de aprendizaje automático puede mostrar si los secretos de estado están clasificados correctamente
AI podría determinar por qué la información se clasifica o desclasifica por error.por Emerging Technology from the arXiv
El Departamento de Estado de EE. UU. Genera unos dos mil millones de correos electrónicos cada año. Una fracción significativa de estos contiene información sensible o secreta y, por lo tanto, debe clasificarse, un proceso que lleva mucho tiempo y es costoso. Solo en 2015, gastó $ 16 mil millones para proteger la información clasificada.
Pero la fiabilidad de este proceso de clasificación no está clara. Nadie sabe si las reglas para clasificar la información se aplican de manera consistente y confiable. De hecho, existe una disputa significativa sobre lo que constituye información que debe clasificarse.
Además, es fácil imaginar que el error humano desempeña un papel considerable en la clasificación errónea de los secretos oficiales. Pero nadie sabe cuán significativos podrían ser estos errores.
Hoy eso cambia gracias al trabajo de Renato Rocha Souza en el think tank brasileño Fundação Getulio Vargas en Río de Janeiro y sus colegas en la Universidad de Columbia en Nueva York. Estos tipos han utilizado un algoritmo de aprendizaje automático para estudiar más de un millón de cables desclasificados del Departamento de Estado de la década de 1970.
Su trabajo proporciona una visión sin precedentes sobre la naturaleza de los secretos oficiales, cómo los humanos aplican las reglas y con qué frecuencia los errores se infiltran en el proceso para revelar información sensible u ocultar detalles inocuos. Los algoritmos también revelan patrones sospechosos en la forma en que los cables se pierden.
El equipo comenzó con un corpus de un millón de cables, que descargaron de los Archivos Nacionales de EE. UU. En forma de archivos XML. Cada cable es un mensaje de texto intercambiado entre el Departamento de Estado y una misión diplomática en un país extranjero, como una embajada o consulado.
Los cables están etiquetados como "secreto", "confidencial", "uso oficial limitado" o "no clasificado". La información secreta se define como la que tiene el potencial de dañar gravemente la seguridad nacional; la información confidencial se define como que tiene el potencial de causar daño. pero no daño serio La categoría de Uso Oficial Limitado no se definió en la década de 1970 e incluso hoy sigue siendo controvertida.
Los cables también contienen otra información. Cada mensaje tiene una fecha, un remitente y un receptor, un tema y, por supuesto, el texto del mensaje.
Souza y compañía utilizaron una variedad de enfoques de aprendizaje automático para determinar cómo estos factores se correlacionan con la etiqueta de clasificación. Y después de descubrir esta correlación, luego probaron el algoritmo para ver qué tan bien podía predecir si un cable determinado estaba clasificado o no.
Los resultados hacen una lectura interesante. Souza y compañía dicen que el mensaje en sí es el mejor indicador de si un cable está clasificado. "De todas las características, la frecuencia relativa de diferentes palabras en el cuerpo fue la más útil para identificar información sensible", dicen. Los datos del remitente y del destinatario también son un buen indicador del nivel de sensibilidad, pero pueden llevar al algoritmo a clasificar muchos cables que no se clasificaron como los que sí lo fueron. En otras palabras, esto conduce a una alta tasa de falsos positivos.
Cuando el algoritmo de aprendizaje automático combina los diversos tipos de metadatos en sus decisiones, puede detectar aproximadamente el 90 por ciento de los cables clasificados, con una tasa de falsos positivos de solo 11 por ciento. Y Souza y compañía dicen que debería ser posible hacerlo mejor si se incluyeran los cables que todavía están clasificados.
Los falsos positivos y falsos negativos son en sí mismos interesantes. Estos son cables que la máquina predijo que se clasificarían pero no lo fueron, y viceversa. En muchos casos, la máquina reveló cables que habían sido clasificados erróneamente por humanos. Un ejemplo es un cable sobre la sensibilidad del gobierno japonés sobre las inspecciones estadounidenses de sus instalaciones nucleares. Este cable no se clasificó, pero debería haber sido porque el texto revela que originalmente era confidencial, dicen los investigadores.
Una limitación de los datos es que muchos cables se han perdido, aparentemente debido a problemas al convertirlos en un formato electrónico. Quizás el aspecto más interesante de este trabajo es que sugiere que estos mensajes pueden haber desaparecido por otras razones.
Una pista es la velocidad a la que desaparecieron los mensajes, que difieren para los cables clasificados y no clasificados. "Los mensajes electrónicos clasificados como 'Secretos' tenían una probabilidad tres veces mayor de desaparecer en comparación con los mensajes de Uso oficial no clasificado y limitado", dicen Souza y compañía.
Además, los metadatos asociados con los cables a menudo sobreviven cuando se pierde el mensaje electrónico. Cómo pudo haber sucedido esto es un rompecabezas.
Además, si los mensajes se perdieron cuando se convirtieron de un formato a otro, es muy probable que desaparezcan cuando el Departamento de Estado configure su nuevo sistema de almacenamiento de datos. "Es notable que la mayoría de estos cables [faltantes] no datan de cuando el Departamento de Estado configuró por primera vez el sistema, cuando uno podría esperar que hubiera estado solucionando problemas para transferir datos de manera confiable entre diferentes plataformas de hardware y software", dice el equipo .
El trabajo tiene implicaciones importantes para el equilibrio entre la transparencia y el secreto. Las máquinas claramente pueden ayudar a monitorear la práctica de clasificar datos. Pero no pueden hacerlo mejor en promedio que las bases de datos de las que aprenden. Si estos contienen errores, como claramente lo hacen los cables del Departamento de Estado, las máquinas inevitablemente serán bloqueadas.
Pero una pregunta interesante es si los datos que revela este tipo de aprendizaje automático deberían clasificarse si revelan patrones de comportamiento que podrían dañar el interés nacional. Por ejemplo, la velocidad a la que se clasifica erróneamente la información confidencial como no clasificada podría ser útil para una potencia extranjera que intente recopilar información clasificada de cables no clasificados.
Claramente hay más trabajo por hacer. Souza y compañía dicen que a pesar del gran gasto del Departamento de Estado en la protección de información clasificada, hay poca o ninguna investigación publicada sobre la consistencia de la clasificación. Tampoco hay mucha comprensión de cuánto puede revelar este tipo de aprendizaje automático.
Tal vez todo este trabajo se haga a puertas cerradas. Por otro lado, quizás no.
Ref: arxiv.org/abs/1611.00356: Using Artificial Intelligence to Identify State Secrets