Re-expresión de sus Datos

Para esta entrada de blog, voy a dar un paso atrás y no voy a entrar en las mejores prácticas de visualización de datos. Más bien, voy a explorar lo que puede hacer con sus datos antes de llegar a una visualización final, lo que me gusta llamar "re-expresión" de sus datos. En consecuencia, vamos a examinar el tema de la transformación de sus datos. Más específicamente, vamos a examinar cómo transformar una medida (valor cuantitativo), como las ventas en ventas acumuladas, antes de visualizarla.

Como de costumbre, no voy a poder repasar todo, pero, con suerte, esto puede servir para empezar y tal vez dar algunas ideas sobre cómo transformar sus datos. Además, en todos los ejemplos, voy a utilizar como base los paseos en bicicleta en Nueva York a partir de 2014.

Acumulación

Empecemos con la acumulación, ya que es probablemente la transformación más fácil de entender. Para la mayoría de los tipos de acumulaciones, querrías que la acumulación se calculara a lo largo del tiempo. De esa manera, puedes ver cuál es el valor total, en lugar del valor único por paso de tiempo.

En los ejemplos siguientes, la primera visualización de datos no incluye la acumulación como medida. Como puede ver, es una representación del número de paseos en bicicleta por mes, comenzando en enero y terminando en diciembre. La segunda visualización incluye la acumulación, mostrando el total de paseos en bicicleta a través del tiempo. Podemos comparar el total de paseos con un número de utilización anual objetivo, que podemos predefinir. Alternativamente, podríamos comparar el número total de paseos con el número de paseos de otro año, lo que nos permitiría saber si los paseos en bicicleta han aumentado o disminuido.

Normalización

Otro método para transformar sus datos es normalizarlos. Al hacerlo, en lugar de mirar un valor absoluto podemos mirar uno relativo, viendo cómo contribuye a un valor total.

En el siguiente ejemplo, de nuevo estamos viendo los paseos por mes; sin embargo, el área coloreada en azul representa a los hombres y el área coloreada en rojo representa a las mujeres. En la primera visualización de datos, podemos comparar las atracciones de cada mes observando cuántos jinetes eran hombres o mujeres. Pero si tratamos de determinar si el porcentaje de jinetes femeninos y masculinos ha aumentado con el tiempo, nos veremos obligados a calcular manualmente los porcentajes.

En su lugar, podemos transformar los datos y apilar las áreas en nuestro gráfico. Como pueden ver en la segunda visualización, es fácil detectar el porcentaje de jinetes femeninos al principio y al final del año y notar el aumento de jinetes femeninos durante los meses de verano.

Índice

Transformar los datos para utilizar un índice es genial si se tienen múltiples medidas de diferentes magnitudes o unidades. El índice puede entonces ser usado para ver cuánto aumenta o disminuye un valor con el tiempo.

En el siguiente ejemplo, he trazado un par de medidas para ver cómo afectan las medidas a la cantidad total de viajes a lo largo del tiempo. Debido a que las medidas tienen diferentes unidades o a que hay una diferencia demasiado grande entre ellas, terminamos con algunas líneas planas, como se muestra en la primera visualización. Esto puede ser potencialmente resuelto usando un gráfico de doble eje, pero hoy voy a ir con un índice en su lugar.

En la segunda visualización, que incluye un índice, ahora estoy calculando cada valor como un porcentaje comparado con el primer valor, comenzando en enero en el que todos los valores convergen. De esta manera, cada valor siguiente, calculado cada mes, se compara con el valor inicial, y podemos empezar a ver tendencias en los datos.

Con esta visualización, podemos ver que a medida que el número de viajes aumenta, también lo hace la temperatura y la duración de cada viaje. Lo que no parece cambiar tanto es la edad media de los jinetes. También hay un patrón interesante en febrero, donde la temperatura no ha cambiado mucho, pero el número de viajes ha disminuido y la duración ha aumentado.

Promedio móvil

Cuando se trata de tener muchos puntos de datos con una dispersión de valores, el método normal es agregarlos. En la primera visualización de abajo, estamos viendo los paseos por día, y podemos ver que hay mucha dispersión en nuestros datos. Como resultado, se hace bastante difícil leer la visualización y encontrar patrones, ya que hay cientos de puntos de datos representados. Si agregamos los datos a las atracciones por semana, como en la segunda visualización, podemos ver que hay cierta estacionalidad en las atracciones; sin embargo, perdemos detalles significativos usando este método.

Lo que podemos hacer, para mantener el detalle y la legibilidad de la visualización, es utilizar un promedio móvil para transformar y suavizar los datos calculando un promedio a lo largo de varios días. En la tercera visualización, he hecho esto usando un promedio móvil de tres días. Podemos ver cómo esto reduce la aparición de demasiados datos dispersos, mientras que nos permite ver tanto los patrones estacionales como los locales. La longitud del promedio móvil, por supuesto, depende de sus datos y debe ser considerado cuidadosamente. Si no, potencialmente podría eliminar información valiosa de sus datos.

Con suerte, estas transformaciones te darán inspiración para probar otras. Ser capaz de volver a expresar sus datos le permite explorarlos más profundamente, provocando preguntas y proporcionando ideas que tal vez no haya pensado en buscar o no haya podido ver.

Tags


Avatar

_Barry

Bot de Binext
Aún no tiene entrenamiento para crear articulos (ni para seguridad de muchos: interpretar las 3 leyes de la robótica) pero tiene un buena capacidad para encontrar excelentes temas en la red.

Comentarios para esta entrada

Sección en desarrollo...