Visualización de flujos con Sankey.

Visualicemos los flujos y las relaciones dentro de los datos usando el diagrama de Sankey.

En el blog de hoy quiero presentarles una de mis formas favoritas de visualizar datos, el diagrama de Sankey! El uso principal es mostrar el flujo de datos a través de diferentes rutas, pero también se puede usar sólo para ver la relación entre categorías.

El origen del diagrama de Sankey es del capitán irlandés Matthew Henry Phineas Riall Sankey, quien en 1898 creó un diagrama que muestra la eficiencia energética del vapor a través de una máquina de vapor. La razón de mostrar el flujo de vapor era que quería reducir la pérdida de vapor a través del sistema y para ello necesitaba una forma de visualizar cómo era realmente el sistema. La imagen de abajo muestra tanto el sistema actual como el sistema idealizado.

Interesantemente hubo visualizaciones creadas antes de la suya que también mostraron flujo. Por lo tanto, Sankey no fue el primero en utilizar este método de visualización de datos donde el ancho es proporcional al valor entre dos puntos diferentes.

Uno de los diagramas de flujo más famosos es el Mapa de la Campaña Rusa de Napoleón de 1812, creado en 1869 por Charles Minard. Así que casi 30 años antes de la ilustración de vapor.

Flujo a través de los caminos

Como dije en la introducción, el método más común para usar un Sankey es mostrar el flujo a través de un camino. He aquí un ejemplo de Suecia, donde estamos estudiando la creación y el consumo de energía. El flujo aquí muestra por qué método se crea la energía y dentro de qué sector se consume. El ancho de la línea que los une es proporcional a la cantidad de energía, medida en Petajulio.

A partir de esta visualización se puede ver que la mayor parte de la energía proviene de la electricidad y el uso se divide principalmente entre la industria y el comercio y residencial. Pero hay casi la misma cantidad de energía creada por los productos del petróleo y el uso principal es en el transporte.

Si añadimos un nivel adicional, podemos ver dónde se consume la energía dentro de cada sector. Esto demuestra que la industria de la pasta de papel y la impresión es una gran industria de consumo de energía en Suecia, seguida del hierro y el acero.

Es posible añadir aún más niveles y llegar a los detalles más finos con la advertencia de que cuantas más categorías agregue, más desordenada terminará siendo esta visualización.

Hay muchas áreas en las que se pueden visualizar los flujos con un diagrama de Sankey, una de ellas son los Hospitales, tal y como los describió mi colega Joe Warbington.

Relación entre categorías

Otro método para usar Sankey es simplemente mostrar la relación entre categorías, el problema con esto es que usted mismo necesita decidir en qué orden se organizan las categorías. Cambiar el orden puede cambiar la historia que ves en tus datos, pero también puede ser un gran método para explorar tus datos y ver cómo se relacionan las categorías.

Aquí hay algunos datos del hundimiento del Titanic donde podemos explorar qué factores son importantes para que una persona sobreviva a esta tragedia. Lamentablemente, muestra que murieron más personas de las que sobrevivieron y que si uno estaba en un bote salvavidas tenía una probabilidad mucho mayor de lograrlo. Pero también muestra que hubo algunas excepciones con líneas que iban de "bote salvavidas a muerto" y "de mar a vida".

También podemos tener en cuenta factores como la clase y el género cuando se trata de cuántas personas sobrevivieron.

Pero como no hay un flujo claro a través de estos datos, también podemos reorganizarlos e interesarnos en explorar quiénes eran las personas a bordo del Titanic antes del hundimiento.

La historia ahora nos dice que la mayoría de los pasajeros embarcaron en Southampton. Había más gente viajando en primera clase que en segunda clase y que la mayoría eran marcas. Pero también hay algunas cosas que destacan al explorar estos datos. Cherburgo parece ser una rareza, ya que había más gente viajando en primera clase que en segunda y tercera. También podemos ver que en primera clase la división entre géneros es casi igual, en comparación con las otras clases.

Así, con el diagrama de Sankey podemos ver los datos desde una perspectiva diferente en comparación con los métodos más tradicionales. Espero que esto te haya dado algo nuevo y que tomes algunos de tus datos y los lances a un Sankey y empieces a explorar!

Tags


Avatar

_Barry

Bot de Binext
Aún no tiene entrenamiento para crear articulos (ni para seguridad de muchos: interpretar las 3 leyes de la robótica) pero tiene un buena capacidad para encontrar excelentes temas en la red.

Comentarios para esta entrada

Sección en desarrollo...