Buscando en la investigación de COVID-19 con Qlik y Machine Learning

La investigación sobre COVID-19 se está produciendo a un ritmo acelerado, y la Machine Learning podría ser crucial para ayudar a la comunidad médica a encontrar información y conocimientos clave. Cuando me encontré con el conjunto de datos de investigación abierta de COVID-19 (CORD-19), contenía unos 57.000 artículos académicos. Sólo un mes después, tiene más de 158.000 artículos. Si las pistas para luchar contra COVID-19 se encuentran en este vasto depósito de conocimientos, ¿cómo puede ayudar Qlik?

La llamada a la acción sobre el conjunto de datos de CORD-19 se ha hecho a través de un desafío de la IA a los expertos mundiales en IA. El resultado deseado es un conjunto de herramientas de minería de texto y datos que pueden ayudar a responder a preguntas científicas de alta prioridad. Al examinar las propuestas del desafío, me di cuenta de que se trata de un objetivo muy ambicioso si nos basamos totalmente en la IA tal como existe hoy en día. Por lo tanto, traté de abordar este problema de manera un poco diferente con Qlik.

Mi objetivo era dar a los investigadores la posibilidad de encontrar artículos relacionados con COVID-19 basados en las capacidades de búsqueda y exploración nativas de Qlik, y luego aplicar las técnicas de aprendizaje automático (ML) en el contexto elegido. Verán la solución al final de este post.

Lo mejor de ambos mundos

En los últimos dos años, he estado trabajando en un proyecto de código abierto ((https://github.com/nabeel-oz/qlik-py-tools)) que proporciona a Qlik capacidades de Ciencia de los Datos y ML. Me ha fascinado la idea de utilizar técnicas analíticas avanzadas dentro de la experiencia exploratoria de forma libre de Qlik Sense.

En este caso, utilicé dos capacidades ML: Reconocimiento de Entidades Nombradas y Agrupación. La primera técnica se utiliza para extraer entidades biomédicas del título y el resumen de cada artículo utilizando un modelo de aprendizaje profundo previamente entrenado. Esto se convierte en una nueva y rica dimensión de búsqueda y exploración en la aplicación Sentido Qlik. Aunque esto se hace durante el proceso de recarga, el algoritmo de clustering se utiliza en tiempo real para el análisis interactivo. A medida que el usuario profundiza en el análisis haciendo selecciones, un algoritmo agrupa los artículos de investigación en clusters basados en la similitud de las entidades que aparecen en los títulos y resúmenes.

En resumen, la solución combina la experiencia asociativa de Qlik con técnicas de ML de una forma que potencia la inteligencia y la capacidad humanas.

Mantenerse al día

Una parte clave del desafío es mantenerse al día con una cantidad creciente de investigación. Con Qlik, es una práctica estándar establecer cargas incrementales, y esta solución hace que el proceso sea relativamente sencillo.

Aplicabilidad a los datos no estructurados

Aunque esta aplicación fue construida para el conjunto de datos de la CORD-19, las técnicas pueden aplicarse a los datos de texto en general. Esta es una demostración de cómo Qlik puede ayudar a proporcionar inteligencia sobre la gran cantidad de datos no estructurados que generalmente se dejan fuera de las soluciones analíticas en la mayoría de las organizaciones de hoy en día.

"El valor de los datos en la lucha contra COVID-19 no puede ser exagerado. La capacidad de aportar datos no estructurados e información de investigación a la solución y de combinarlos con conjuntos de datos de la OMS, CDC, Johns Hopkins y otros acelerará la capacidad de nuestra sociedad de aprovechar los conocimientos y recursos para detener la pandemia y recuperarse de la forma más rápida, saludable, segura y económica posible", dijo Julie Kae, Directora Ejecutiva de Qlik.org. "Qlik.org ha puesto a disposición muchos activos, que pueden encontrarse en www.qlik.org/covid19 y se enorgullece de incluir también esta solución única de acceso público".

Demostración

Vea a continuación una breve demostración de la solución.

El proyecto se mantiene en GitHub, y la aplicación está disponible públicamente y se puede acceder a ella pulsando aquí.

Tags


Avatar

_Barry

Bot de Binext
Aún no tiene entrenamiento para crear articulos (ni para seguridad de muchos: interpretar las 3 leyes de la robótica) pero tiene un buena capacidad para encontrar excelentes temas en la red.

Comentarios para esta entrada

Sección en desarrollo...