viernes, 22 de junio de 2018

Por qué es importante saber sobre el modelado de agentes


Por qué necesita saber sobre el modelado basado en agentes



Simone Gabbriellini
Sociólogo Computacional, Científico Senior de Datos
Linkedin


Ya sea la difusión global de un virus peligroso, el disturbio inesperado de una minoría étnica en un área urbana o la elección de una mayoría populista en el parlamento, es cada vez más difícil de entender (sin mencionar predecir) cómo se desarrollan los fenómenos sociales .

Los comportamientos colectivos no solo son difíciles de predecir: a menudo no son deseados a nivel del actor social. Cuando las acciones de muchos actores se acumulan, podemos observar patrones fuertes a nivel global que surgen como consecuencias no deseadas (eche un vistazo al modelo de segregación de Schelling aquí).

Los métodos avanzados de análisis son necesarios para desentrañar estos mecanismos complejos, mientras que los investigadores sociales y los profesionales se entrenan a menudo solo en estadísticas, econometría o métodos de observación clásicos.

Los experimentos mentales son un activo útil en la caja de herramientas de estos métodos avanzados: en un contexto comercial, esto equivale a llevar el análisis del nivel de correlaciones estadísticas a la causalidad, respondiendo a la pregunta: ¿por qué sucedió? Sin embargo, en lugar de acumular evidencia estadística para respaldar algunas hipótesis, los experimentos mentales permiten probar que nuestras hipótesis realmente despliegan las consecuencias que observamos.

Sin embargo, para explicar ese nivel de complejidad, necesitamos ayudar a nuestra intuición. Aquí, el modelado basado en agentes y la simulación por computadora pueden ayudarnos a comprender el surgimiento de estos patrones sociales complejos ya menudo no deseados al simular la interacción del agente en una computadora.

Un agente puede representar cualquier cosa, desde un nodo en una red hasta un cliente o una empresa. La idea es desenredar las propiedades y las reglas de comportamiento de estos agentes en su configuración específica, y luego ejecutar múltiples simulaciones para comprender la tendencia central del sistema: si lo que ves en silico es similar a lo que observas empíricamente, tu modelo puede ser un candidato para explicar (no solo describir) lo que observaste.

Puedes pensar en ti mismo como un cartógrafo construyendo un mapa: quizás una escala 1: 1 será demasiado detallada (y probablemente inútil), pero una escala demasiado pequeña no te ayudará a entender el mejor camino desde el lugar A hasta el lugar B. Como así como cada tarea requiere el mapa correcto, se necesita, por supuesto, un poco de experiencia para comprender el nivel correcto de abstracción para cada tarea de modelado específica.

¿Suena demasiado?

Bueno, el modelado basado en agentes de aprendizaje a menudo es difícil, pero si se introducen bien con ejercicios prácticos durante un entrenamiento intensivo, todos pueden aprender cómo realizar investigaciones computacionales avanzadas que importan.

Esto es lo que ofrecemos en BEHAVE Summer School en Modelado Basado en Agentes para Científicos Sociales, que se lleva a cabo en Brescia, Italia, del 3 al 9 de septiembre de 2018.

miércoles, 16 de mayo de 2018

Algoritmo de aprendizaje automático puede mostrar si los secretos de estado están clasificados correctamente

El algoritmo de aprendizaje automático puede mostrar si los secretos de estado están clasificados correctamente

AI podría determinar por qué la información se clasifica o desclasifica por error.
por Emerging Technology from the arXiv


El Departamento de Estado de EE. UU. Genera unos dos mil millones de correos electrónicos cada año. Una fracción significativa de estos contiene información sensible o secreta y, por lo tanto, debe clasificarse, un proceso que lleva mucho tiempo y es costoso. Solo en 2015, gastó $ 16 mil millones para proteger la información clasificada.

Pero la fiabilidad de este proceso de clasificación no está clara. Nadie sabe si las reglas para clasificar la información se aplican de manera consistente y confiable. De hecho, existe una disputa significativa sobre lo que constituye información que debe clasificarse.

Además, es fácil imaginar que el error humano desempeña un papel considerable en la clasificación errónea de los secretos oficiales. Pero nadie sabe cuán significativos podrían ser estos errores.



Hoy eso cambia gracias al trabajo de Renato Rocha Souza en el think tank brasileño Fundação Getulio Vargas en Río de Janeiro y sus colegas en la Universidad de Columbia en Nueva York. Estos tipos han utilizado un algoritmo de aprendizaje automático para estudiar más de un millón de cables desclasificados del Departamento de Estado de la década de 1970.

Su trabajo proporciona una visión sin precedentes sobre la naturaleza de los secretos oficiales, cómo los humanos aplican las reglas y con qué frecuencia los errores se infiltran en el proceso para revelar información sensible u ocultar detalles inocuos. Los algoritmos también revelan patrones sospechosos en la forma en que los cables se pierden.

El equipo comenzó con un corpus de un millón de cables, que descargaron de los Archivos Nacionales de EE. UU. En forma de archivos XML. Cada cable es un mensaje de texto intercambiado entre el Departamento de Estado y una misión diplomática en un país extranjero, como una embajada o consulado.

Los cables están etiquetados como "secreto", "confidencial", "uso oficial limitado" o "no clasificado". La información secreta se define como la que tiene el potencial de dañar gravemente la seguridad nacional; la información confidencial se define como que tiene el potencial de causar daño. pero no daño serio La categoría de Uso Oficial Limitado no se definió en la década de 1970 e incluso hoy sigue siendo controvertida.

Los cables también contienen otra información. Cada mensaje tiene una fecha, un remitente y un receptor, un tema y, por supuesto, el texto del mensaje.

Souza y compañía utilizaron una variedad de enfoques de aprendizaje automático para determinar cómo estos factores se correlacionan con la etiqueta de clasificación. Y después de descubrir esta correlación, luego probaron el algoritmo para ver qué tan bien podía predecir si un cable determinado estaba clasificado o no.

Los resultados hacen una lectura interesante. Souza y compañía dicen que el mensaje en sí es el mejor indicador de si un cable está clasificado. "De todas las características, la frecuencia relativa de diferentes palabras en el cuerpo fue la más útil para identificar información sensible", dicen. Los datos del remitente y del destinatario también son un buen indicador del nivel de sensibilidad, pero pueden llevar al algoritmo a clasificar muchos cables que no se clasificaron como los que sí lo fueron. En otras palabras, esto conduce a una alta tasa de falsos positivos.

Cuando el algoritmo de aprendizaje automático combina los diversos tipos de metadatos en sus decisiones, puede detectar aproximadamente el 90 por ciento de los cables clasificados, con una tasa de falsos positivos de solo 11 por ciento. Y Souza y compañía dicen que debería ser posible hacerlo mejor si se incluyeran los cables que todavía están clasificados.

Los falsos positivos y falsos negativos son en sí mismos interesantes. Estos son cables que la máquina predijo que se clasificarían pero no lo fueron, y viceversa. En muchos casos, la máquina reveló cables que habían sido clasificados erróneamente por humanos. Un ejemplo es un cable sobre la sensibilidad del gobierno japonés sobre las inspecciones estadounidenses de sus instalaciones nucleares. Este cable no se clasificó, pero debería haber sido porque el texto revela que originalmente era confidencial, dicen los investigadores.

Una limitación de los datos es que muchos cables se han perdido, aparentemente debido a problemas al convertirlos en un formato electrónico. Quizás el aspecto más interesante de este trabajo es que sugiere que estos mensajes pueden haber desaparecido por otras razones.

Una pista es la velocidad a la que desaparecieron los mensajes, que difieren para los cables clasificados y no clasificados. "Los mensajes electrónicos clasificados como 'Secretos' tenían una probabilidad tres veces mayor de desaparecer en comparación con los mensajes de Uso oficial no clasificado y limitado", dicen Souza y compañía.

Además, los metadatos asociados con los cables a menudo sobreviven cuando se pierde el mensaje electrónico. Cómo pudo haber sucedido esto es un rompecabezas.

Además, si los mensajes se perdieron cuando se convirtieron de un formato a otro, es muy probable que desaparezcan cuando el Departamento de Estado configure su nuevo sistema de almacenamiento de datos. "Es notable que la mayoría de estos cables [faltantes] no datan de cuando el Departamento de Estado configuró por primera vez el sistema, cuando uno podría esperar que hubiera estado solucionando problemas para transferir datos de manera confiable entre diferentes plataformas de hardware y software", dice el equipo .

El trabajo tiene implicaciones importantes para el equilibrio entre la transparencia y el secreto. Las máquinas claramente pueden ayudar a monitorear la práctica de clasificar datos. Pero no pueden hacerlo mejor en promedio que las bases de datos de las que aprenden. Si estos contienen errores, como claramente lo hacen los cables del Departamento de Estado, las máquinas inevitablemente serán bloqueadas.

Pero una pregunta interesante es si los datos que revela este tipo de aprendizaje automático deberían clasificarse si revelan patrones de comportamiento que podrían dañar el interés nacional. Por ejemplo, la velocidad a la que se clasifica erróneamente la información confidencial como no clasificada podría ser útil para una potencia extranjera que intente recopilar información clasificada de cables no clasificados.

Claramente hay más trabajo por hacer. Souza y compañía dicen que a pesar del gran gasto del Departamento de Estado en la protección de información clasificada, hay poca o ninguna investigación publicada sobre la consistencia de la clasificación. Tampoco hay mucha comprensión de cuánto puede revelar este tipo de aprendizaje automático.

Tal vez todo este trabajo se haga a puertas cerradas. Por otro lado, quizás no.

Ref: arxiv.org/abs/1611.00356: Using Artificial Intelligence to Identify State Secrets

sábado, 12 de mayo de 2018

Conducta simple creando cuadros complejos

Coordinación de led mediante reglas simples



Cada ficha tiene la misma regla simple: si ves un vecino parpadeando, entonces aumenta tu deseo de parpadear un 10%. ¡De esa simple regla viene un resultado tan asombroso!

miércoles, 25 de abril de 2018

Machine learning busca distinguir los inicios de la Revolución Francesa en los discursos parlamentarios

Una computadora está analizando discursos parlamentarios para entender cómo comenzó la revolución francesa

Por Kathleen J. Davis | Pittsburgh News Radio



La toma de la Bastilla el 14 de julio de 1979.
JEAN-PIERRE HOUËL / WIKIPEDIA COMONS

La Revolución Francesa, que comenzó en 1789, fue el escenario sangriento de una miríada de trastornos políticos europeos. Ahora, el aprendizaje automático arroja luz sobre cómo la lingüística desempeñó un papel en la discusión de los ideales democráticos y la formación del nuevo gobierno.

Un equipo de investigadores, incluido el profesor asistente de la Universidad Carnegie Mellon, Simon DeDeo, utilizó el aprendizaje automático para analizar más de 40,000 transcripciones digitalizadas de los primeros dos años de debates del primer parlamento francés improvisado, durante el comienzo de la revolución.

"Lo primero que realmente salió y nos sorprendió fue que se puede distinguir entre izquierda y derecha no por lo que dicen, sino por cómo lo dicen", dijo DeDeo.

El estudio encontró que los revolucionarios liberales eran más propensos a usar giros novedosos de la frase para hablar sobre nuevas ideas, y también hicieron más discusiones descarrilando.

"Así que tienes estas personas realmente carismáticas que son esencialmente los timones de la revolución", dijo. "Dirigen esta conversación sobre cómo llevar a Francia a direcciones que nadie ha visto nunca".

Los conservadores, por otro lado, usaban patrones de lenguaje y habla más tradicionales, y tendían a mantener las conversaciones en el buen camino. DeDeo señaló que la situación de los conservadores en Francia se volvió cada vez más hostil a medida que la revolución avanzaba y muchos se vieron obligados a huir.

DeDeo dijo que el estudio confirma lo que muchos historiadores han pensado sobre los roles de los diferentes revolucionarios, lo cual es algo bueno.

"Porque ahora lo que tenemos es una herramienta computacional y matemática que podemos aplicar a muchos otros sistemas políticos diferentes", dijo.

DeDeo dijo que el equipo de investigación planea utilizar esta máquina de aprendizaje para analizar las transiciones democráticas de otros países, como Serbia, que son mucho menos entendidas.