Durante el último año, he encontrado cientos de empresas que se han embarcado en una iniciativa de data warehouse en la nube. Aunque cada una tenía diferentes impulsores de negocios y motivos para la adopción, una similitud siguió ocurriendo - una similitud tan fuerte que apareció sin importar el caso de uso. En consecuencia, no importaba si estaban migrando de un almacén de datos heredado como IBM Netezza o Teradata, o si estaban comenzando una nueva implementación con Amazon Redshift, Azure Synapse, Google BigQuery o Snowflake. El rasgo común que surgió fue que virtualmente todos, excepto los más raros, no usaban una warehouse design methodology.
Nada que ver aquí, moverse
"¡Bien, boomer!" Te oigo gritar. "¡Las metodologías de almacenamiento de datos son viejas, Daddio!" De hecho, escuché mucho del mismo retroceso de muchos prospectos. Mis respuestas favoritas fueron las siguientes:
"No tenemos tiempo para eso. Necesitamos construir el almacén hoy".
"La metodología de un almacén de datos es demasiado complicada".
"El diseño del almacén de datos es demasiado lento".
"No tenemos esa clase de experiencia".
"Sólo estamos haciendo un proyecto rápido. Eso es demasiado hinchado."
"Sólo escribiremos SQL para nosotros."
A primera vista, muchas de estas razones parecen justas. Después de todo, los almacenes de datos heredados que se basaban en metodologías tienen una reputación menos que estelar de responder a las necesidades de los negocios, especialmente cuando se los compara con las ofertas de nubes de hoy en día. Por lo tanto, tiene sentido eliminar al intermediario y canalizar los datos directamente desde la fuente a la nube. Además, gran parte del atractivo de un almacén de datos en la nube es que es infinitamente más flexible que una solución tradicional. Entonces, ¿cuál es el problema?
Salir sobre nuestros esquís
Es verdad: Los almacenes de datos en la nube ofrecen mucha más flexibilidad, porque escalan los cálculos y el almacenamiento para adaptarse a la demanda. También son extremadamente fáciles de adoptar. En muchos casos, usted puede simplemente deslizar una tarjeta de crédito para empezar y aprovisionar un almacén de datos con unos simples clics de ratón. Sin embargo, es esta seductora simplicidad la que nos anima a tomar atajos, llevándonos a construir y llenar múltiples almacenes de datos sin pensarlo.
Cuantos más almacenes construyamos, más tablas, campos y datos tendremos que gestionar. A medida que nuestros almacenes crecen, nuestro enfoque cambia a la discusión del SQL que gestiona los datos. Como resultado, lo que comenzó como unos simples guiones se convierte en una masa de código de espagueti. El rápido y ágil almacén de datos en la nube es ahora difícil de cambiar, y hemos cerrado el círculo.
Un marco para la agilidad
Aquí es donde una metodología de diseño de almacén de datos puede ayudar. Las tres metodologías de diseño más comunes en uso hoy en día son las siguientes:
1. Inmon - Fábrica de Información Corporativa
El enfoque descendente de Bill Inmon modela el almacén de datos en un patrón de ejes y radios, donde las entidades y las relaciones están en la tercera forma normal (3NF). Los mercados de datos se crean según sea necesario para la presentación de informes y análisis.
2. Kimball - Modelado dimensional
El enfoque de abajo hacia arriba de Ralph Kimball comienza con las métricas y medidas para informar y crea mercados como esquemas estelares. El modelado dimensional optimiza el almacén de datos para una rápida recuperación de los mismos.
3. Linstedt - Bóveda de datos
La arquitectura de la Bóveda de Datos de Dan Linstedt es un enfoque híbrido que combina lo mejor del modelado 3NF y de las dimensiones. Esta técnica permite el almacenamiento histórico de datos, la integración de datos de diferentes sistemas operativos y el rastreo del linaje de los datos entrantes. El enfoque de la Bóveda de Datos se basa en el concepto de Hubs, Enlaces y Satélites.
Aunque una descripción detallada de cada metodología va más allá del alcance de esta entrada en el blog, es importante reconocer los beneficios de emplear cualquiera de los métodos con un depósito de datos en la nube. El principal beneficio de utilizar una metodología de diseño de almacén es que puede ser automatizada con herramientas. La mayoría de las soluciones de automatización generan en realidad el código SQL necesario para aplicar la metodología y proporcionan un marco de trabajo para todo el ciclo de vida del almacén de datos. En última instancia, esto puede ahorrarle horas de codificación SQL y reducir el dolor de la gestión de códigos, lo que significa que puede dedicar más tiempo al diseño y la entrega de los datos para sus proyectos de análisis.
Por lo tanto, la próxima vez que quiera implementar un almacén de datos en la nube como Snowflake, Amazon Redshift, Google BigQuery o Azure Synapse, no se sienta tentado a saltarse la metodología de diseño. No te arrepentirás!
Descargue mi libro electrónico gratuito, "Data Warehouse Automation in Azure for Dummies", para más información. También puede aprender más sobre la automatización del almacén de datos haciendo clic aquí.
Comentarios para esta entrada
Sección en desarrollo...