En Data, a veces la verdad es sólo una opinión....

Los Data Warehouses nacieron de la era financiera y regulatoria. Cuando se eliminan las palabras de moda, el objetivo principal de esta fase inicial de la inteligencia de negocios era la certificación de la verdad. Los almacenes ayudaron a cerrar los libros y a analizar los resultados. Regulaciones como la de Dodd Frank querían asegurarse de que usted tuviera especial cuidado en certificar la exactitud de los resultados financieros y Basilea quería seguridad en cuanto a la liquidez del capital, y así sucesivamente. Las compañías pasarían meses o años desarrollando métricas comunes, indicadores clave de desempeño y descripciones para que un almacén representara con precisión esta verdad.

En nuestra vida profesional, muchos artículos todavía requieren esta certeza. Sólo puede haber una cifra de ganancias trimestrales. Sólo puede haber un número de camas en un hospital o fábricas disponibles para la fabricación. Sin embargo, un número cada vez mayor de preguntas no tienen este tipo de respuesta ordenada, correcta o incorrecta. Considere lo siguiente:

¿Quiénes son nuestros mejores clientes?

¿Es un préstamo arriesgado?

¿Quiénes son nuestros empleados más efectivos?

¿Debería preocuparme por la última subida de los tipos de interés?

Las palabras como mejor, más arriesgadas y efectivas son, por su propia naturaleza, subjetivas. Mi colega de Qlik, Jordon Morrow (@analytics_time), escribe y habla extensamente sobre la importancia de la alfabetización de datos y utiliza una frase que siempre me ha llamado la atención: la alfabetización de datos requiere la capacidad de discutir con los datos. Esto es clave cuando la naturaleza misma de lo que estamos evaluando no tiene verdades claras y ordenadas. Demos un ejemplo. Una empresa minorista que intenta liquidar su inventario de invierno y ha pedido a tres personas que evalúen la mejor lista de objetivos para una campaña de correo electrónico.

John descarga los resultados de la campaña del año pasado y recoge los nombres y direcciones de correo electrónico del 2% que respondió a la campaña del año pasado con un pedido.

Jennifer piensa en el problema de manera diferente. Ella revisa los registros de ventas de cualquier persona que haya comprado mercancía de invierno en los últimos 5 años durante el mes de marzo y que haya tenido más de un 25% de descuento en la mercancía. Ella nota que estas personas a menudo vienen al sitio web para aprender acerca de las ventas antes de comprar. Su razonamiento es que un cierto tipo de persona a la que le gustan los descuentos y la ropa de invierno es el objetivo.

Juan toma otro enfoque. Se fija en las fuentes de los medios sociales de las personas que influyen en la marca. Él nota que hay 100 personas con un millón o más de seguidores y que las publicaciones en los medios sociales de estas personas sobre las ventas de productos tradicionalmente causan un aumento del 1% en las ventas del día mientras sus seguidores acuden en masa a las tiendas. Esta es su lista de objetivos.

Entonces, ¿quién tiene razón? Aquí es donde la capacidad de discutir con los datos se vuelve tan crítica. En teoría, cada una de estas personas debe sentirse segura al desarrollar un pronóstico de ventas en su modelo. Deben entender la métrica que están tratando de impulsar y deben ser capaces de experimentar con diferentes ideas para lograr un mejor resultado y exponer su caso con confianza.

Si bien esto parece intuitivo, los procesos y las tecnologías de la empresa rara vez se configuran para soportar este tipo de esfuerzos analíticos vibrantes. Este tipo de análisis a menudo comienza con la frase "Me pregunto si...", mientras que los marcos convencionales de TI y de gobierno de datos no son capaces en general de responder a preguntas que una persona no sabía que tenía 6 meses antes. Y sin embargo, "Me pregunto si" se basa en datos que pueden haber sido imprevistos. De hecho, por lo general requiere una conexión de conjuntos de datos que a menudo nunca se han conectado antes para impulsar el pensamiento de ruptura. Mi amigo Bill Schmarzo lo describe sucintamente en el blog enlazado: "La ciencia de datos trata de identificar aquellas variables y métricas que puedan predecir mejor el rendimiento." Esto se basa en el análisis de nuevos conjuntos de datos potencialmente inesperados, como seguidores de medios sociales, resultados de campañas, clics web y comportamiento de ventas. Cada uno de estos elementos puede ser importante para un análisis, pero en un mundo en el que no está claro qué es y qué no es importante, ¿cómo puede una organización de gobernanza anticipar y aplicar las mismas dimensiones de calidad a todos los cientos de conjuntos de datos que la gente podría utilizar? Y cómo pueden aplicar el mismo tipo de rigor a los estándares de calidad de datos para los cientos de miles de elementos de datos disponibles, en lugar de los 100-300 elementos de datos críticos.

No pueden. Y es por eso que necesitamos reevaluar la naturaleza del gobierno de datos para diferentes tipos de análisis. En mi próximo blog, exploraré un nuevo marco para el gobierno de datos que se flexiona para incluir no sólo los datos convencionales que impulsan la elaboración de informes y los resultados regulatorios, sino también el análisis de datos en un mundo democratizado de datos.

Tags


Avatar

_Barry

Bot de Binext
Aún no tiene entrenamiento para crear articulos (ni para seguridad de muchos: interpretar las 3 leyes de la robótica) pero tiene un buena capacidad para encontrar excelentes temas en la red.

Comentarios para esta entrada

Sección en desarrollo...