viernes, 22 de junio de 2018

Por qué es importante saber sobre el modelado de agentes


Por qué necesita saber sobre el modelado basado en agentes



Simone Gabbriellini
Sociólogo Computacional, Científico Senior de Datos
Linkedin


Ya sea la difusión global de un virus peligroso, el disturbio inesperado de una minoría étnica en un área urbana o la elección de una mayoría populista en el parlamento, es cada vez más difícil de entender (sin mencionar predecir) cómo se desarrollan los fenómenos sociales .

Los comportamientos colectivos no solo son difíciles de predecir: a menudo no son deseados a nivel del actor social. Cuando las acciones de muchos actores se acumulan, podemos observar patrones fuertes a nivel global que surgen como consecuencias no deseadas (eche un vistazo al modelo de segregación de Schelling aquí).

Los métodos avanzados de análisis son necesarios para desentrañar estos mecanismos complejos, mientras que los investigadores sociales y los profesionales se entrenan a menudo solo en estadísticas, econometría o métodos de observación clásicos.

Los experimentos mentales son un activo útil en la caja de herramientas de estos métodos avanzados: en un contexto comercial, esto equivale a llevar el análisis del nivel de correlaciones estadísticas a la causalidad, respondiendo a la pregunta: ¿por qué sucedió? Sin embargo, en lugar de acumular evidencia estadística para respaldar algunas hipótesis, los experimentos mentales permiten probar que nuestras hipótesis realmente despliegan las consecuencias que observamos.

Sin embargo, para explicar ese nivel de complejidad, necesitamos ayudar a nuestra intuición. Aquí, el modelado basado en agentes y la simulación por computadora pueden ayudarnos a comprender el surgimiento de estos patrones sociales complejos ya menudo no deseados al simular la interacción del agente en una computadora.

Un agente puede representar cualquier cosa, desde un nodo en una red hasta un cliente o una empresa. La idea es desenredar las propiedades y las reglas de comportamiento de estos agentes en su configuración específica, y luego ejecutar múltiples simulaciones para comprender la tendencia central del sistema: si lo que ves en silico es similar a lo que observas empíricamente, tu modelo puede ser un candidato para explicar (no solo describir) lo que observaste.

Puedes pensar en ti mismo como un cartógrafo construyendo un mapa: quizás una escala 1: 1 será demasiado detallada (y probablemente inútil), pero una escala demasiado pequeña no te ayudará a entender el mejor camino desde el lugar A hasta el lugar B. Como así como cada tarea requiere el mapa correcto, se necesita, por supuesto, un poco de experiencia para comprender el nivel correcto de abstracción para cada tarea de modelado específica.

¿Suena demasiado?

Bueno, el modelado basado en agentes de aprendizaje a menudo es difícil, pero si se introducen bien con ejercicios prácticos durante un entrenamiento intensivo, todos pueden aprender cómo realizar investigaciones computacionales avanzadas que importan.

Esto es lo que ofrecemos en BEHAVE Summer School en Modelado Basado en Agentes para Científicos Sociales, que se lleva a cabo en Brescia, Italia, del 3 al 9 de septiembre de 2018.

miércoles, 16 de mayo de 2018

Algoritmo de aprendizaje automático puede mostrar si los secretos de estado están clasificados correctamente

El algoritmo de aprendizaje automático puede mostrar si los secretos de estado están clasificados correctamente

AI podría determinar por qué la información se clasifica o desclasifica por error.
por Emerging Technology from the arXiv


El Departamento de Estado de EE. UU. Genera unos dos mil millones de correos electrónicos cada año. Una fracción significativa de estos contiene información sensible o secreta y, por lo tanto, debe clasificarse, un proceso que lleva mucho tiempo y es costoso. Solo en 2015, gastó $ 16 mil millones para proteger la información clasificada.

Pero la fiabilidad de este proceso de clasificación no está clara. Nadie sabe si las reglas para clasificar la información se aplican de manera consistente y confiable. De hecho, existe una disputa significativa sobre lo que constituye información que debe clasificarse.

Además, es fácil imaginar que el error humano desempeña un papel considerable en la clasificación errónea de los secretos oficiales. Pero nadie sabe cuán significativos podrían ser estos errores.



Hoy eso cambia gracias al trabajo de Renato Rocha Souza en el think tank brasileño Fundação Getulio Vargas en Río de Janeiro y sus colegas en la Universidad de Columbia en Nueva York. Estos tipos han utilizado un algoritmo de aprendizaje automático para estudiar más de un millón de cables desclasificados del Departamento de Estado de la década de 1970.

Su trabajo proporciona una visión sin precedentes sobre la naturaleza de los secretos oficiales, cómo los humanos aplican las reglas y con qué frecuencia los errores se infiltran en el proceso para revelar información sensible u ocultar detalles inocuos. Los algoritmos también revelan patrones sospechosos en la forma en que los cables se pierden.

El equipo comenzó con un corpus de un millón de cables, que descargaron de los Archivos Nacionales de EE. UU. En forma de archivos XML. Cada cable es un mensaje de texto intercambiado entre el Departamento de Estado y una misión diplomática en un país extranjero, como una embajada o consulado.

Los cables están etiquetados como "secreto", "confidencial", "uso oficial limitado" o "no clasificado". La información secreta se define como la que tiene el potencial de dañar gravemente la seguridad nacional; la información confidencial se define como que tiene el potencial de causar daño. pero no daño serio La categoría de Uso Oficial Limitado no se definió en la década de 1970 e incluso hoy sigue siendo controvertida.

Los cables también contienen otra información. Cada mensaje tiene una fecha, un remitente y un receptor, un tema y, por supuesto, el texto del mensaje.

Souza y compañía utilizaron una variedad de enfoques de aprendizaje automático para determinar cómo estos factores se correlacionan con la etiqueta de clasificación. Y después de descubrir esta correlación, luego probaron el algoritmo para ver qué tan bien podía predecir si un cable determinado estaba clasificado o no.

Los resultados hacen una lectura interesante. Souza y compañía dicen que el mensaje en sí es el mejor indicador de si un cable está clasificado. "De todas las características, la frecuencia relativa de diferentes palabras en el cuerpo fue la más útil para identificar información sensible", dicen. Los datos del remitente y del destinatario también son un buen indicador del nivel de sensibilidad, pero pueden llevar al algoritmo a clasificar muchos cables que no se clasificaron como los que sí lo fueron. En otras palabras, esto conduce a una alta tasa de falsos positivos.

Cuando el algoritmo de aprendizaje automático combina los diversos tipos de metadatos en sus decisiones, puede detectar aproximadamente el 90 por ciento de los cables clasificados, con una tasa de falsos positivos de solo 11 por ciento. Y Souza y compañía dicen que debería ser posible hacerlo mejor si se incluyeran los cables que todavía están clasificados.

Los falsos positivos y falsos negativos son en sí mismos interesantes. Estos son cables que la máquina predijo que se clasificarían pero no lo fueron, y viceversa. En muchos casos, la máquina reveló cables que habían sido clasificados erróneamente por humanos. Un ejemplo es un cable sobre la sensibilidad del gobierno japonés sobre las inspecciones estadounidenses de sus instalaciones nucleares. Este cable no se clasificó, pero debería haber sido porque el texto revela que originalmente era confidencial, dicen los investigadores.

Una limitación de los datos es que muchos cables se han perdido, aparentemente debido a problemas al convertirlos en un formato electrónico. Quizás el aspecto más interesante de este trabajo es que sugiere que estos mensajes pueden haber desaparecido por otras razones.

Una pista es la velocidad a la que desaparecieron los mensajes, que difieren para los cables clasificados y no clasificados. "Los mensajes electrónicos clasificados como 'Secretos' tenían una probabilidad tres veces mayor de desaparecer en comparación con los mensajes de Uso oficial no clasificado y limitado", dicen Souza y compañía.

Además, los metadatos asociados con los cables a menudo sobreviven cuando se pierde el mensaje electrónico. Cómo pudo haber sucedido esto es un rompecabezas.

Además, si los mensajes se perdieron cuando se convirtieron de un formato a otro, es muy probable que desaparezcan cuando el Departamento de Estado configure su nuevo sistema de almacenamiento de datos. "Es notable que la mayoría de estos cables [faltantes] no datan de cuando el Departamento de Estado configuró por primera vez el sistema, cuando uno podría esperar que hubiera estado solucionando problemas para transferir datos de manera confiable entre diferentes plataformas de hardware y software", dice el equipo .

El trabajo tiene implicaciones importantes para el equilibrio entre la transparencia y el secreto. Las máquinas claramente pueden ayudar a monitorear la práctica de clasificar datos. Pero no pueden hacerlo mejor en promedio que las bases de datos de las que aprenden. Si estos contienen errores, como claramente lo hacen los cables del Departamento de Estado, las máquinas inevitablemente serán bloqueadas.

Pero una pregunta interesante es si los datos que revela este tipo de aprendizaje automático deberían clasificarse si revelan patrones de comportamiento que podrían dañar el interés nacional. Por ejemplo, la velocidad a la que se clasifica erróneamente la información confidencial como no clasificada podría ser útil para una potencia extranjera que intente recopilar información clasificada de cables no clasificados.

Claramente hay más trabajo por hacer. Souza y compañía dicen que a pesar del gran gasto del Departamento de Estado en la protección de información clasificada, hay poca o ninguna investigación publicada sobre la consistencia de la clasificación. Tampoco hay mucha comprensión de cuánto puede revelar este tipo de aprendizaje automático.

Tal vez todo este trabajo se haga a puertas cerradas. Por otro lado, quizás no.

Ref: arxiv.org/abs/1611.00356: Using Artificial Intelligence to Identify State Secrets

sábado, 12 de mayo de 2018

Conducta simple creando cuadros complejos

Coordinación de led mediante reglas simples



Cada ficha tiene la misma regla simple: si ves un vecino parpadeando, entonces aumenta tu deseo de parpadear un 10%. ¡De esa simple regla viene un resultado tan asombroso!

miércoles, 25 de abril de 2018

Machine learning busca distinguir los inicios de la Revolución Francesa en los discursos parlamentarios

Una computadora está analizando discursos parlamentarios para entender cómo comenzó la revolución francesa

Por Kathleen J. Davis | Pittsburgh News Radio



La toma de la Bastilla el 14 de julio de 1979.
JEAN-PIERRE HOUËL / WIKIPEDIA COMONS

La Revolución Francesa, que comenzó en 1789, fue el escenario sangriento de una miríada de trastornos políticos europeos. Ahora, el aprendizaje automático arroja luz sobre cómo la lingüística desempeñó un papel en la discusión de los ideales democráticos y la formación del nuevo gobierno.

Un equipo de investigadores, incluido el profesor asistente de la Universidad Carnegie Mellon, Simon DeDeo, utilizó el aprendizaje automático para analizar más de 40,000 transcripciones digitalizadas de los primeros dos años de debates del primer parlamento francés improvisado, durante el comienzo de la revolución.

"Lo primero que realmente salió y nos sorprendió fue que se puede distinguir entre izquierda y derecha no por lo que dicen, sino por cómo lo dicen", dijo DeDeo.

El estudio encontró que los revolucionarios liberales eran más propensos a usar giros novedosos de la frase para hablar sobre nuevas ideas, y también hicieron más discusiones descarrilando.

"Así que tienes estas personas realmente carismáticas que son esencialmente los timones de la revolución", dijo. "Dirigen esta conversación sobre cómo llevar a Francia a direcciones que nadie ha visto nunca".

Los conservadores, por otro lado, usaban patrones de lenguaje y habla más tradicionales, y tendían a mantener las conversaciones en el buen camino. DeDeo señaló que la situación de los conservadores en Francia se volvió cada vez más hostil a medida que la revolución avanzaba y muchos se vieron obligados a huir.

DeDeo dijo que el estudio confirma lo que muchos historiadores han pensado sobre los roles de los diferentes revolucionarios, lo cual es algo bueno.

"Porque ahora lo que tenemos es una herramienta computacional y matemática que podemos aplicar a muchos otros sistemas políticos diferentes", dijo.

DeDeo dijo que el equipo de investigación planea utilizar esta máquina de aprendizaje para analizar las transiciones democráticas de otros países, como Serbia, que son mucho menos entendidas.


martes, 27 de febrero de 2018

El algoritmo de las hormigas para hacer puentes

El algoritmo simple que utilizan las hormigas para construir puentes

Incluso sin nadie a cargo, las hormigas del ejército trabajan colectivamente para construir puentes desde sus cuerpos. Una nueva investigación revela las reglas simples que conducen a un comportamiento grupal tan complejo.
1


Vaishakh Manohar

Kevin Hartnett  |  Quanta Magazine
Escritor sénior

Las hormigas del ejército forman colonias de millones sin embargo, no tienen un hogar permanente. Marchan a través de la jungla cada noche en busca de un nuevo terreno de forrajeo. En el camino, realizan hazañas logísticas que harían sentir orgulloso a un general de cuatro estrellas, incluida la construcción de puentes con sus propios cuerpos.

Al igual que los enjambres de robots baratos y tontos que exploré en mi artículo reciente, las hormigas del ejército manejan esta coordinación sin ningún líder y con recursos cognitivos mínimos. Una hormiga del ejército individual es prácticamente ciega y tiene un cerebro minúsculo que no puede comenzar a comprender su elaborado movimiento colectivo. "No hay un líder, ningún arquitecto que diga 'tenemos que construir aquí'", dijo Simon Garnier, director del Swarm Lab en el Instituto de Tecnología de Nueva Jersey y coautor de un nuevo estudio que predice cuándo una colonia de hormigas del ejército decidirá construir un puente.

El estudio de Garnier ayuda a explicar no solo cómo las hormigas no organizadas construyen puentes, sino también cómo llevan a cabo la tarea aún más compleja de determinar qué puentes vale la pena construir.


A medida que la brecha se amplía lentamente, un puente de la hormiga del ejército se derrumba y luego se recupera. Simon Garnier, Helen McCreery y el Instituto de Tecnología de Nueva Jersey

Para ver cómo se desarrolla esto, toma la perspectiva de una hormiga en la marcha. Cuando se trata de una brecha en su camino, se ralentiza. El resto de la colonia, aún avanzando a toda velocidad a 12 centímetros por segundo, viene pisoteando su espalda. En este punto, dos simples reglas entran en juego.

El primero le dice a la hormiga que cuando sienta que otras hormigas caminan sobre su espalda, se debe congelar. "Mientras alguien te pase, te quedas quieto", dijo Garnier.

Este mismo proceso se repite en las otras hormigas: pasan por encima de la primera hormiga, pero - uh - oh - la brecha sigue ahí, por lo que la siguiente hormiga en la línea se ralentiza, se pisotea y se congela en su lugar. De esta manera, las hormigas construyen un puente lo suficientemente largo como para abarcar cualquier brecha que se encuentre frente a ellos. Las hormigas que se arrastran en la colonia caminan sobre ella.

Sin embargo, hay más que eso. Los puentes implican compensaciones. Imagina que una colonia de hormigas llega a una brecha en forma de V en su camino. La colonia no quiere rodear la brecha, eso llevaría demasiado tiempo, pero tampoco construye un puente en la parte más ancha de la brecha que minimice la distancia que debe recorrer la colonia. El hecho de que las hormigas armadas no siempre construyan el puente minimizador de distancia sugiere que hay algún otro factor en su cálculo inconsciente.


Una brecha en forma de V ofrece a las hormigas una solución de compromiso: una ruta más directa requerirá más hormigas para construir. Christopher R. Reid, Matthew J. Lutz y el Instituto de Tecnología de Nueva Jersey

"En ecología cuando ves algo como esto, generalmente significa que hay una relación de costo-beneficio", dijo Garnier. "Intenta comprender: ¿cuál es el beneficio y cuál es el costo?"

El costo, según los ecologistas, es que las hormigas atrapadas en puentes no están disponibles para otras tareas, como la búsqueda de alimento. En cualquier momento de una marcha, una colonia puede mantener de 40 a 50 puentes, con tan solo uno y hasta 50 hormigas por puente. En un documento de 2015, Garnier y sus colegas calcularon que hasta el 20 por ciento de la colonia se puede bloquear en puentes a la vez. En este punto, una ruta más corta no vale las hormigas adicionales que se necesitarían para crear un puente más largo.

Excepto, por supuesto, las hormigas individuales no tienen idea de cuántos de sus colonos se están aferrando a una brecha. Y aquí es donde entra en juego la segunda regla. Como las hormigas individuales ejecutan el algoritmo "puente", tienen una sensibilidad a ser estampadas. Cuando el tráfico sobre sus espaldas está por encima de cierto nivel, se mantienen en su lugar, pero cuando cae por debajo de un umbral -tal vez porque muchas otras hormigas están ocupadas en la construcción de puentes- la hormiga se descongela y vuelve a unirse a la marcha.

Este nuevo artículo surgió de experimentos realizados con hormigas del ejército en la jungla panameña en 2014. Con base en esas observaciones, los investigadores han creado un modelo que cuantifica la sensibilidad de las hormigas al tránsito peatonal y predice cuándo una colonia se unirá a un obstáculo y cuándo lo hará. decidir, en cierto sentido, que es mejor dar la vuelta.

"Estamos tratando de averiguar si podemos predecir cuánto atajo harán las hormigas dada la geometría de su entorno", dijo Garnier.

La evolución ha equipado aparentemente a las hormigas del ejército con el algoritmo correcto para la construcción de puentes sobre la marcha. Los investigadores que trabajan para construir enjambres de robots simples todavía están buscando las instrucciones que les permitan a sus máquinas baratas realizar hazañas similares. Un desafío al que tienen que enfrentarse es que la naturaleza hace que las hormigas sean más confiables, y a un costo menor, que los humanos pueden fabricar enjambres de bots, cuyas baterías tienden a morir. Un segundo es que es muy posible que exista más comportamiento de hormigas gobernantes que dos reglas simples.

"Describimos hormigas del ejército como simples, pero ni siquiera entendemos lo que están haciendo. Sí, son simples, pero tal vez no sean tan simples como la gente piensa ", dijo Melvin Gauci, un investigador de la Universidad de Harvard que trabaja en la robótica de enjambres.


viernes, 29 de diciembre de 2017

4 características de un científico de datos

4 habilidades fundamentales para ser Data Scientist

Los Científicos de Datos lideran los rankings mundiales de los profesionales más solicitados. Si bien adquirir este perfil no es complejo, es indispensable contar con conocimientos muy concretos.



En la “era de los datos” los Data Scientists son los reyes. Lideran numerosos rankings sobre los perfiles más demandados tanto en la Argentina como en el resto del mundo. Este fenómeno se debe a que estos profesionales son los que tienen los conocimientos apropiados para analizar inmensos volúmenes de datos con el objetivo de descubrir tendencias y detectar patrones. Así es como las empresas pueden anticiparse a diferentes escenarios y, por ende, tomar mejores decisiones para el negocio.

En este contexto, estos talentos en Estados Unidos tienen salarios que rondan los 111 mil dólares anuales, según la plataforma norteamericana Glassdoor. Además, hay escasez de profesionales, de hecho, como señala la consultora Gartner, en los próximos dos años hasta el 75% de las empresas invertirán en Big Data y necesitarán contratar a estos colaboradores.

Para ser Científico de Datos hay que contar con las siguientes habilidades:

1. Programación

Como trabajan con conjuntos de datos inmensos, no es posible apelar al Excel. Por este motivo, utilizan SQL (del inglés “Structured Query Language”), que es un lenguaje de programación especialmente diseñado para manipular y extraer datos de sistemas gestores de bases de datos relacionales, como MySQL y SQL Server, entre otros.

También es indispensable dominar Python. Se trata de un lenguaje que tiene una curva de aprendizaje corta que permite visualizar datos y automatizar procesos. Además, resulta útil para extraer datos o avanzar en trabajos de basados en aprendizaje automático.

2. Modelado Predictivo

 El modelado predictivo es lo que distingue al Científico de Datos del analista de datos. Los primeros tienen la tarea de predecir el futuro utilizando datos del pasado y el presente. Por ejemplo, si una tienda de electrodomésticos quiere saber cuántos calefactores va a vender el próximo invierno, el Data Scientist estima esta predicción cruzando datos tales como el historial de unidades comercializadas en el pasado, el pronóstico meteorológico histórico y la situación económica de los consumidores, entre otros para llegar a obtener una cifra aproximada. Para explotar esa gran cantidad de datos, el profesional utiliza métodos de aprendizaje automático tales como regresiones, máquinas vectoriales de apoyo o árboles de decisión para determinar la conducta de los consumidores y así anticiparse al comportamiento de la próxima temporada de venta de estos electrodomésticos.

3. Matemáticas

Ya sea para solucionar problemas o bien para interpretar información, los Científicos de Datos deben tener conocimientos de estadística y probabilidad, entre otros. De esta manera, es capaz de entender y representar datos de forma más apropiada.

4. Visualización

 Obtenidas las conclusiones buscadas, llega el momento de transmitirlas a los tomadores decisión de la compañía, y para eso es crucial que el Data Scientist cuente con habilidades de comunicación para transmitir sus hallazgos de forma clara y precisa. Para eso, existen librerías que son de gran utilidad como Matplotlib, Seaborn, plot.ly y Bokeh, entre otras.

La revolución digital ya comenzó, y este es uno de los motivos por los cuales las empresas de todas las industrias están creando la posición de Científico de Datos para que se desempeñen en distintas áreas, como Marketing, Ventas y Recursos Humanos, por mencionar solo algunas. Por este motivo, esta disciplina promete un gran futuro laboral para aquellas personas que tengan pasión por interpretar y analizar los datos que circulan entre nosotros.

Digital House

lunes, 19 de diciembre de 2016

Explorando modelos en Netlogo

Exploración de modelos de NetLogo


Acoplamiento preferencial: este modelo simula cómo se crean redes; La mayoría de las veces, sólo unos pocos "hubs" están fuertemente conectados con el resto de la red, mientras que los otros nodos sólo tienen algunas conexiones. Es interesante observar cómo se forman esas conexiones y por qué algunos hubs son preferidos sobre otros. El gráfico log-log es especialmente interesante: al transformar el gráfico, se obtiene casi una línea recta. Como consecuencia, hay muy pocos hubs creados con el paso del tiempo. Además, con un modelo muy grande la línea recta sólo es visible para la primera mitad de los nodos; Mi interpretación es que en una red muy grande, es menos probable que sea elegido por el nodo más reciente. El resultado es que cada vez menos nodos muestran un alto grado de conexión, mientras que muchos de ellos sólo tienen un enlace.





Cambio climático: Realmente me gusta este modelo porque separa los diferentes agentes que influyen en el efecto invernadero. Como consecuencia, es más fácil seguir un rayo de luz y entender cómo las nubes y moléculas de CO2 impactan su trayectoria (botón "ver un rayo"). Es divertido tratar de conseguir la temperatura más alta (me detuve a 300 por tener 0 albedo y un montón de moléculas de CO2, pero supongo que subirá indefinidamente). También es interesante ver que la atmósfera tiene algún tipo de permeabilidad fija (con un brillo completo y sin albedo, la temperatura se estabilizará a 50 grados); O que las nubes disminuyen la temperatura, mientras que las moléculas de CO2 la aumentan.




Modelo de Segregación: este modelo no es tan complejo pero el resultado es impresionante; Bajo el 40% de similitud deseada, las flechas rojas y verdes se mezclaron muy fácilmente. Pero cuando se pasa este umbral, se puede ver claramente algunas fronteras que se están creando y diferentes grupos que se están formando. Además, cuanto mayor es el grupo y el mayor porcentaje de similitud, se necesita mucho tiempo para crear fronteras y hacer feliz a la gente.



Finalmente, opté por modificar el modelo de apego preferencial y lo rebautizé como el modelo de difusión de información. Mi objetivo era recrear la teoría de los "dos pasos de la comunicación". La idea es que los "exploradores" (personas en el borde de la red) descubren nuevas piezas de información (por ejemplo, inovaciones, por ejemplo); Si un explorador está conectado a un "hub" (alguien con muchas conexiones), la información se propagará al resto del gráfico y se convertirá en viral. Si el explorador no tiene las conexiones correctas, la información morirá. Para lograr este propósito, agregué un interruptor llamado "propagación" al modelo y cambié el color y el tamaño de los nodos a medida que la información se propaga a través del modelo; El código es bastante simple y funciona bastante bien.