La historia de los agujeros y los sesgos en la IA.

La AI y sus herramientas habilitadas continúan cautivando el negocio con su promesa de eficiencia e innovación. Pero, una de las cosas que el sexo anal también permite claramente es el sesgo. Todos hemos leído las noticias y escuchado las historias alarmista sobre posibles defectos y prejuicios en los sistemas de Inteligencia Artificial. Creo que para que esta tecnología alcance su pleno potencial, abordar los sesgos deberá ser una prioridad absoluta. En este artículo de blog, me gustaría hablar de una de las principales razones por las que la IA es parcial y compartir la "historia del agujero" con una lección aprendida de la Segunda Guerra Mundial.

Sesgo en la IA

Según una nueva investigación encargada por Qlik, que encuestó a más de 2.000 ciudadanos del Reino Unido, el "debate sobre la IA" ha pasado de los temores por la pérdida de empleo a un nuevo debate sobre el papel de los seres humanos en la programación de la IA, el potencial de sesgo y dónde debería estar la rendición de cuentas para aliviar ese sesgo. Más de un tercio (41%) de los encuestados afirmaron que la IA en su estado actual está sesgada y, como resultado, están preocupados por su impacto. Sin embargo, hay una idea errónea entre el público del Reino Unido de que es el análisis humano o la mala interpretación de los datos (en lugar de los datos en sí mismos), lo que puede causar tal sesgo. Después de todo, los datos proporcionan sustento a la IA, incluyendo su capacidad de aprender a un ritmo mucho más rápido que el de los humanos. Y los datos que los sistemas de IA utilizan como entrada pueden tener sesgos ocultos.

Causas de los sesgos ocultos

El sesgo es a menudo causado por conjuntos de datos incompletos, y quizás lo más importante, por la falta de contexto en torno a esos conjuntos de datos. Por ejemplo, cuando hacemos una pregunta como humanos, la hacemos basándonos en una hipótesis, lo que hace que esa pregunta esté intrínsecamente sesgada desde el principio. Por eso, la IA tiene que tener la capacidad de tener un contexto `integrado' para analizar todos los datos en nombre de los seres humanos y proporcionar resultados más objetivos.

Me gustaría darles un ejemplo de Word War II que muestra cómo los datos incompletos pueden causar resultados sesgados.

Durante la Segunda Guerra Mundial, el matemático húngaro Abraham Wald realizó un estudio con el Ministerio del Aire Británico para utilizar análisis estadísticos que ayuden a proteger a los bombarderos que vuelan sobre territorio enemigo. Los datos que se iban a analizar incluían el número y la ubicación de los agujeros de bala en los aviones que regresaban, y el objetivo era utilizar esta información para determinar dónde se podía añadir armadura a la estructura del avión de la mejor manera posible.

Esta información fue presentada visualmente para comprender mejor los datos, mostrando dónde se encontraba el número máximo de agujeros de bala en los aviones que regresaban.

Esta tabla mostraba los mayores daños no en el ala principal y en los largueros de la cola, los motores y el núcleo del fuselaje, sino en las extremidades de la aeronave. Basado en esto, el Ministerio del Aire sugirió agregar armadura a esas extremidades.

Pero Wald sugirió que estaban totalmente equivocados. Dijo que debería haber más armadura en los lugares que tuvieran menos agujeros, ya que se dio cuenta de que estaban olvidando que sus datos no incluían los aviones que se habían perdido. Si los aviones que regresaban no tenían agujeros en los largueros y motores de sus alas, la mejor suposición es que incluso unos pocos agujeros en esos lugares eran mortales: no se registraron daños en esas áreas porque esos aviones eran los que se habían estrellado. Wald recomendó más armadura en esas áreas "libres de datos".

La lección: los datos que no están ahí pueden contar una historia tan importante como los datos que sí están.

En Qlik, a menudo hablamos del poder de nuestra diferencia asociativa, que comprende todo el conjunto de datos para que los usuarios puedan ver lo que sucede y lo que no sucede en cualquier selección de datos. Esto a menudo puede incitar a los usuarios a hacer preguntas que tal vez no hayan pensado en hacer o a seguir caminos de investigación que tal vez no hayan comprendido que eran importantes. Si los datos de nuestro ejemplo de la Segunda Guerra Mundial se pusieran en Qlik, el análisis podría haberse visto así:

Al tener el contexto completo de los datos que se examinan y ver qué datos se excluyen, se puede entender rápidamente que los daños se concentran en las puntas de las alas y el cuerpo central y también que algunos aviones se excluyen de ese conjunto de datos. Específicamente, los aviones excluidos no tienen agujeros y/o fueron derribados (los datos en gris).

Esta poderosa diferencia asociativa única también permite a Qlik Cognitive Engine, el framework de Inteligencia Artificial de Qlik, aprender de todos los datos, con todo el contexto `integrado'.

Esta poderosa tecnología aumenta la visión periférica de nuestros usuarios, permitiéndoles obtener información al analizar el contexto completo de los datos en su nombre y evitar posibles sesgos en su análisis. Le sugiero que compruebe las capacidades del Motor Cognitivo Qlik, si aún no lo ha utilizado, y evite "cualquier agujero" en sus decisiones de negocio.

Mondial de la Moto 2018

Chloe está regresando a Oklahoma

Guardianes de la galaxia de privacidad de datos

Mesur.io gana el premio supernova constelación de investigación 2018

La única cosa que cada almacén de datos debería considerar

Haga su almacén de datos más ágil

Buscando en la investigación de COVID-19 con Qlik y Machine Learning

¿Cómo está la plomería? El creciente valor del Pipeline de datos.

LLAMADA DE ATENCION QlikWorld y los Negocios Digitales que se Impulsan por Datos.

_Barry

Comentarios para esta entrada