A menudo he comentado que el mercado de datos actual está en un estado constante de flujo, continuamente fluyendo y refluyendo con las últimas innovaciones y tendencias. De hecho, mi primera entrada oficial en el blog como Qlikkie describía cómo nuestra plataforma de integración de datos apoyaba el lanzamiento de Microsoft Synapse. A ese artículo le siguió rápidamente un artículo que hablaba del resurgimiento de los almacenes de datos. Poco después, escribí dos posts que se centraban en Snowflake - el almacén de datos construido para la nube. Uno cubría consejos prácticos para los profesionales de los datos, mientras que el otro describía la creciente relación de nuestras empresas a través del Programa de Conexión de Socios de Snowflake.
Para no ser menos, mi colega Ritu Jain publicó recientemente cómo la plataforma de integración de datos de Qlik apoya la visión de Databrick de una "casa lago de datos" - un concepto que combina los mejores enfoques de almacenamiento de datos y lagos de datos para una única fuente de verdad.
Esos posts son la prueba de que el mercado de datos es increíblemente dinámico.
Preguntas, preguntas, preguntas
Con todo este cambio, es natural sentirse un poco abrumado e inseguro sobre la implementación de una estrategia de datos que pueda soportar la prueba del tiempo y entregar datos confiables para la comprensión analítica. Sin embargo, la decisión que parece rendir dividendos, independientemente de los requisitos de datos, es implementar un almacén de datos. El almacén de datos tiene varios beneficios. Puede guardar todo el historial de datos, independientemente de las políticas de retención de sus sistemas transaccionales. También puede aliviar la carga de las consultas en tiempo real de los sistemas transaccionales, al ser la fuente autorizada de sus informes históricos y analíticos. Además, las nuevas y rentables ofertas de nube aseguran que el almacén de datos esté ahora al alcance de prácticamente todas las empresas. En consecuencia, la pregunta que se me hace con más frecuencia es "¿Cómo empiezo a diseñar un almacén de datos?"
Para responder, me gusta centrarme en cuatro grandes cuestiones arquitectónicas que se describen a continuación y mis respuestas a cada una de ellas.
1.- ¿Cuál es su enfoque para diseñar/construir su almacén de datos?
Recomiendo encarecidamente usar una metodología de diseño de almacén de datos bien entendida y documentada, como Inmon, Kimball o Data Vault 2.0, para la eficiencia operativa.
2.- ¿Cuál es su enfoque para llenar su almacén de datos?
Esta pregunta da pistas sobre el tipo de datos y la frecuencia de las actualizaciones que queremos para nuestro almacén de datos. Por ejemplo, si necesita analizar los conjuntos de datos más recientes, entonces tal vez la captura de datos de cambio (CDC) sea una buena opción para la ingestión continua de datos.
3.- ¿Cómo se consumirán los datos?
Esta pregunta ofrece una idea de dónde se utilizarán los datos y en qué formato. Por ejemplo, es muy probable que se necesite crear una variedad de marchas de datos para el reporte histórico.
4.- ¿Cómo se gestionará el cambio?
Este es posiblemente el mayor desafío del almacenamiento de datos. Existen principalmente dos tipos de cambio que afectan al almacén de datos, independientemente del resultado:
A) Cambios que afectan a la estructura del almacén de datos. Por ejemplo, la adición de nuevas columnas, fuentes de datos o la creación de nuevas tablas de data mart.
B) Cambios en los valores de los datos contenidos en el almacén. Por ejemplo, actualizar una tabla de direcciones cuando las empresas se trasladan o abren nuevas oficinas. En el caso de una dimensión que cambie lentamente, también es necesario considerar la posibilidad de llevar un registro del cambio. Otro cambio que a menudo se pasa por alto es el diseño de una estrategia para manejar los valores de los hechos o dimensiones que llegan tarde debido a un error del sistema o a la latencia.
Ser capaz de manejar el cambio de manera eficiente a menudo conducirá a resultados exitosos en el almacenamiento de datos.
Las consideraciones arquitectónicas con Microsoft Azure Synapse para un almacén de datos se describen a continuación:
Me doy cuenta de que mis respuestas pueden pasar por alto algo de logística. También asumí que había elegido un almacén de datos, reunido un equipo y realizado algunos requerimientos iniciales de recolección. A pesar de esas suposiciones, construir, llenar, consumir y cambiar un almacén de datos siguen siendo las competencias básicas de la operación de un almacén de datos.
Respuestas, respuestas, respuestas
Podrías estar pensando: "¿Dónde puedo encontrar más información sobre la arquitectura de un almacén de datos a largo plazo?" Estás de suerte: Nos hemos asociado con TDWI y Microsoft para discutir el tema en un seminario web, que se celebrará el 11 de marzo, titulado "2020 y más allá: Arquitectura de su almacén de datos para la nueva década".
Aquí hay un resumen del formato y contenido del seminario web:
David Stodder, Director Senior de Investigación de TDWI, iniciará el proceso. Discutirá las tendencias actuales del mercado de datos y los requerimientos de datos que está escuchando de sus clientes.
Matt Basile, Gerente del Programa Azure Data en Microsoft, seguirá a David y describirá las últimas innovaciones en Azure Synapse Analytics. Por cierto, Matt y yo somos co-autores de "Data Warehouse Automation in Azure for Dummies".
Sigo a Matt y cierro la discusión con las respuestas a las consideraciones arquitectónicas representadas en el gráfico anterior e implicadas por mis preguntas anteriores. El seminario web promete ser una sesión muy animada e informativa.
Regístrese hoy para saber si su arquitectura de datos está lista para los desafíos de una nueva década y una nueva era de transformación de datos.
Comentarios para esta entrada
Sección en desarrollo...