La Paradoja de la calidad de los Datos

Cuanto más le pidas a un usuario que te proporcione, menos podrás confiar en el resultado

En las últimas semanas, me he estado instalando en mi nueva función como Oficial Jefe de Datos (CDO) en Qlik. Como la mayoría de las empresas en el año 2020, Qlik se centra en capitalizar las nuevas tendencias de datos y análisis para impulsar la agilidad de nuestro proceso de toma de decisiones. A diferencia de la mayoría de las empresas, tenemos el lujo de disponer de las herramientas propias de Qlik, que incluyen el paquete de software Qlik Data Integration para el flujo de datos y el catálogo y el paquete Qlik Data Analytics para el análisis, la visualización y la acción.

Cuando empecé, me reuní con muchas personas de negocios y operaciones de toda la empresa para comprender las lagunas de información y las aspiraciones analíticas de toda la empresa. En la mayoría de los casos, había algunos desafíos de procesos tradicionales relacionados con los datos, y tomé cuidadosamente notas de los conjuntos de datos que requerían priorización para entrar en nuestro catálogo empresarial. Otras conversaciones se centraron en la evolución de la analítica desde los tradicionales KPI hasta el aprendizaje automático y el modelado predictivo frente a los complejos datos de telemetría, a medida que nuestro modelo empresarial evolucionaba desde el software on-prem hasta la distribución SaaS. Pero una conversación me detuvo en seco. "No te molestes en intentar hacer ese análisis", me dijo mi colega. "Los datos simplemente no existen".

¿No existe? ¿Cómo puede ser que las transacciones que dirigían nuestro negocio no dejaran un claro rastro de migajas de lo que había ocurrido para permitir el análisis descriptivo y predictivo?

En los días siguientes, llegué a comprender una interesante paradoja en el diseño de nuestros sistemas. Como empresa de análisis, teníamos un gran número de atributos que habíamos añadido a nuestras transacciones, para poder informar sobre ellas más tarde. Pero con el tiempo, tanta gente había pedido tantas cosas que los usuarios de negocios podían verse abrumados por la solicitud de datos y simplemente dejaban algunos de estos campos en blanco. La paradoja, en resumen, era que nuestra gran sed de más datos nos daba, de hecho, menos.

Empecé a investigar sobre esto y me encontré con la Ley de Hick, que se ha utilizado en el diseño de software durante décadas. Estipula que, a medida que aumentas el número de opciones que los usuarios de la aplicación tienen, hay una relación logarítmica con el tiempo que les lleva completar la elección. En otras palabras, demasiadas opciones pueden provocar una cierta parálisis en la toma de decisiones. Parece lógico que esto también podría estar relacionado con el número de campos que alguien tiene que actualizar. Y, sospecho que la reacción humana para superar este estrés es ignorar cualquier cosa que no sea obligatoria, lo que lleva directamente a un desafío de calidad de los datos que es un obstáculo para el propio análisis que los datos debían permitir.

Esto me hizo pensar en las prácticas convencionales de calidad de datos y lo defectuosas que pueden ser. Elegimos elementos de datos críticos, diseñamos controles de perfil periódicos y ponemos administradores de datos para supervisar y medir los datos que nos importan. Todo esto es constructivo, pero hay un conocido adagio que me gusta que encaja aquí: "Si quieres eliminar la contaminación de un río, deberías empezar por detener la contaminación del río en primer lugar". En otras palabras, si necesitamos que los datos sean fiables, no sólo debemos supervisarlos, sino también poner en marcha procesos sencillos y controles útiles para que los datos sean correctos en el momento de su introducción.

Nuestra respuesta a esto en Qlik es que, además del establecimiento de prácticas estándar de administración y calidad de los datos, estamos desarrollando propietarios de procesos que tienen autoridad para automatizar y simplificar las pantallas para los usuarios, para aplicar controles sobre el terreno a medida que se introducen los datos, y para asumir la responsabilidad no sólo de la ejecución de la transacción, sino también del impacto de esta transacción en las necesidades analíticas y transaccionales posteriores.

En resumen, ¿quién es el dueño de la calidad? Bueno, ciertamente más de una persona o equipo. El propietario del proceso diseña el proceso y los requisitos adecuados para permitir la automatización, la TI es propietaria de la aplicación de sistemas que son sencillos y satisfacen esas necesidades, y la oficina de la CDO es propietaria de la comprobación de la calidad en caso de que algo se caiga por las grietas. El establecimiento de estas funciones y las relaciones que las vinculan es la base de la estrategia analítica de Qlik.

Mondial de la Moto 2018

Chloe está regresando a Oklahoma

Guardianes de la galaxia de privacidad de datos

Mesur.io gana el premio supernova constelación de investigación 2018

La única cosa que cada almacén de datos debería considerar

Haga su almacén de datos más ágil

Buscando en la investigación de COVID-19 con Qlik y Machine Learning

¿Cómo está la plomería? El creciente valor del Pipeline de datos.

LLAMADA DE ATENCION QlikWorld y los Negocios Digitales que se Impulsan por Datos.

_Barry

Comentarios para esta entrada