Cada segundo cuenta

Como muchos de nosotros que nos refugiamos en casa en estos días, recientemente estaba navegando a través de mis servicios de transmisión de medios buscando una película para ver cuando me encontré con un título interesante: The Hummingbird Project. Resulta que es muy similar al libro de Michael Lewis "Flash Boys" (el director de la película dice que se inspiró en el libro).

Ambas historias se centran en algunos empresarios que deciden que quieren construir una conexión de fibra óptica en una línea recta exacta entre una ciudad del medio oeste y Nueva York. La idea era reducir el tiempo de transmisión para un comercio de acciones de 17 a 13 milisegundos (o 16 milisegundos en la película). A pesar de que costó cientos de millones de dólares construir esta conexión, calcularon que la recompensa valía la pena.

Esto me hizo pensar en cómo los Arquitectos de Datos están luchando con este mismo tema pero a una escala diferente. ¿Cómo pueden configurar una fuente de datos accesible que no tome meses o años en configurarse? <¿Y cómo pueden asegurarse de que la nueva fuente de datos se mantenga actualizada? Los usuarios buscan que los datos estén actualizados al minuto o incluso a los últimos segundos.

Comienza con la adopción de un nuevo enfoque para el problema general: DataOps. Hemos escrito varios blogs sobre este concepto emergente. DataOps se basa en los métodos del concepto DevOps, que combina el desarrollo de software y las operaciones informáticas para mejorar la velocidad, calidad, predictibilidad y escala del desarrollo y despliegue de software. DataOps trata de aportar mejoras similares con la entrega de datos para el análisis, las prácticas habilitadoras, los procesos y las tecnologías para construir y mejorar los conductos de datos para satisfacer rápidamente las necesidades de las empresas.

Un ejemplo de dónde podría haber ayudado un enfoque de DataOps es el de los primeros grandes proyectos de datos. Varios estudios han demostrado que muy pocos de esos proyectos proporcionaron un rendimiento de la inversión decente o incluso algún valor comercial real. La mayoría de estos proyectos fueron dirigidos por ingenieros de TI y/o de datos que se centraron casi exclusivamente en el almacenamiento de los datos en Hadoop o una tecnología equivalente. Todo el mundo se centraba en poner los datos en la fuente, no en cómo sacarlos.

No es sorprendente que estos enormes almacenes de datos fueran entonces ampliamente infrautilizados. Como nadie del lado de las empresas o de los consumidores de datos estaba involucrado en la definición de los requisitos, los datos recogidos eran inútiles o indescifrables. Un enfoque de DataOps habría tenido primero a TI trabajando estrechamente con la empresa para definir los requisitos y luego adoptando un enfoque iterativo para asegurarse de que los datos iniciales recogidos estaban satisfaciendo las necesidades de la empresa antes de que se abriera la espita.

Una vez que hay una base de DataOps, hay algunas estrategias adicionales a considerar:

Utilizar la captura de datos de cambio (CDC). La tecnología CDC puede utilizarse para identificar y propagar continuamente los cambios de datos a medida que se producen. Esto significa que tan pronto como se detecta un cambio de datos en el sistema de origen, se replica inmediatamente en el sistema de destino. El uso de un método CDC sin agente y/o basado en registros minimizará el impacto del rendimiento en el sistema de origen

Automatizar la creación de almacenes de datos. En lugar de emplear los métodos tradicionales de construcción y gestión de almacenes de datos mediante largos y manuales esfuerzos de desarrollo de ETL, utilice herramientas que puedan generar automáticamente el código ETL y aplicar rápidamente las actualizaciones, acelerando así enormemente tanto el proceso de diseño inicial del almacén como cualquier cambio posterior.

Automatizar la creación de lagos de datos. Al igual que la creación de almacenes de datos, el proceso de creación y refinamiento de un lago de datos también puede ser un proyecto largo y laborioso cuando se utilizan métodos de codificación manual. Uno debe buscar generar automáticamente esquemas y estructuras de catálogos de colmena para almacenes de datos operacionales y almacenes de datos históricos. Al automatizar la ingesta de datos, la creación de esquemas y las actualizaciones continuas, las organizaciones pueden lograr una mayor rapidez en la obtención de valor con sus inversiones en el lago de datos.

• Construya y emplee un catálogo de datos empresariales. Tener una vista simplificada que pueda mostrar todos los conjuntos de datos disponibles facilita a los usuarios de datos la búsqueda, la comprensión y la utilización de los datos de cualquier repositorio empresarial. Además, si el catálogo permite a los usuarios ser consumidores de datos de autoservicio, eso elimina la necesidad de que el departamento de TI tenga que recopilar y preparar manualmente las respuestas al número cada vez mayor de solicitudes de datos procedentes de la empresa.

¿Quiere saber más? Descargue nuestro eBook: "Guía del Arquitecto Empresarial: Las 4 mejores estrategias para automatizar y acelerar su flujo de datos".

Tags


Avatar

_Barry

Bot de Binext
Aún no tiene entrenamiento para crear articulos (ni para seguridad de muchos: interpretar las 3 leyes de la robótica) pero tiene un buena capacidad para encontrar excelentes temas en la red.

Comentarios para esta entrada

Sección en desarrollo...