Visualización de datos Teoría y técnicas
Visualización de datos' (Data Visualization)
En un paisaje digital dominado por big data y algoritmos intrincados, uno podría pensar que la persona promedio se pierde en un océano de números y datos.
¿No es así?
Sin embargo, el puente entre los datos en bruto y las ideas comprensibles se encuentra en el arte de la visualización de datos.
Es la brújula que nos dirige, el mapa que nos guía y el intérprete que descodifica la gran cantidad de datos con los que nos encontramos a diario.
- Las gafas inteligentes desequilibran el poder con los no usuarios
- Los pilares principales del desarrollo de aplicaciones de chat
- Ingeniería de Datos Espaciales con Typescript
Pero, ¿cuál es el encanto detrás de una buena visualización?
¿Por qué una visualización ilumina mientras que otra confunde?
Hoy, volvemos a lo básico y tratamos de comprender los fundamentos de la visualización de datos.
¡Descubrámoslo juntos! 👇🏻
Desglosando la visualización de datos a sus fundamentos
El dominio de cómo contar una historia eficientemente es una de las habilidades más difíciles de dominar como científico de datos. Si buscamos el término Visualización de Datos en un diccionario, encontramos la siguiente definición:
“El acto de representar información como una imagen, diagrama o gráfico, o una imagen que representa información de esta manera”
Esto básicamente significa que la visualización de datos tiene como objetivo crear una historia a partir del conjunto de datos, presentando ideas de una forma digerible, atractiva e impactante.
La visualización de datos, o hacer que los datos se vean bien en gráficos y diagramas, puede no parecer tan genial como cosas como el aprendizaje automático.
Pero, en realidad, es una parte clave de lo que hace un científico de datos.
En el mundo impulsado por datos de hoy en día, la visualización de datos es como las gafas que nos ayudan a ver claramente. Y, para aquellos que no están familiarizados con el lenguaje de los números y los algoritmos, ofrece un medio eficiente para comprender narrativas de datos complejas.
Cualquier gráfico siempre está compuesto por dos componentes principales:
1. Tipos de datos
Apostaría a que estás pensando en los datos como números, pero los valores numéricos son solo dos de varios tipos de datos con los que podemos encontrarnos. Siempre que visualicemos datos, siempre debemos considerar qué tipos de datos estamos tratando.
Además de los valores numéricos continuos y discretos, los datos pueden presentarse en forma de categorías discretas, en forma de fechas o tiempos, y como texto.
Cuando los datos son numéricos, también los llamamos cuantitativos, y cuando son categóricos, los llamamos cualitativos.
Por lo tanto, cualquier dato mostrado siempre se puede describir en una de las siguientes categorías.
Una vez que tenemos claro qué tipo de datos tenemos, debemos entender cómo codificar estos datos en gráficos finales.
2. Codificación de la información: El léxico visual
La codificación visual está en el núcleo de la visualización de datos. Traduce números abstractos en representaciones gráficas, un lenguaje en el que todos somos fluidos.
Aunque hay muchos tipos diferentes de visualizaciones de datos, y a primera vista, un diagrama de dispersión, un gráfico circular y un mapa de calor no parecen tener mucho en común, todas estas visualizaciones se pueden describir con un lenguaje común que captura cómo los valores de datos se convierten en manchas de tinta en papel o píxeles de color en una pantalla.
Pero… como ya debes saber…
¡Hay miles de formas de codificar números!
Existen dos grupos principales:
- Codificaciones retinianas: Desde la forma, el tamaño, los colores y la intensidad, estos son elementos que nuestros ojos captan al instante. Son inherentes al elemento.
- Codificaciones espaciales: Explotan la conciencia espacial de la corteza cerebral para codificar información. Este tipo de codificación se puede lograr mediante la posición en una escala, un orden definido o el uso de tamaños relativos.
Con todas las codificaciones previamente explicadas, podríamos usar todas ellas en un mismo gráfico, pero sería difícil para el lector comprender toda la información rápidamente. Sobrecargar un gráfico con múltiples codificaciones puede ser confuso, por lo que 1 o 2 codificaciones retinianas por gráfico es óptimo.
Recuerda siempre que menos suele ser más, así que siempre intenta crear gráficos minimalistas y fáciles de entender.
Piénsalo como sazonar un plato: una pizca de sal y pimienta puede realzarlo, pero echar todo el salero entero podría arruinar el sabor.
Entonces… ¿qué codificación debería elegir uno?
Eso, mis amigos, depende de la historia que quieras contar.
Así que podrías preguntarte mejor…
¿Qué funciona y qué no?
Aunque nuestro arsenal visual es vasto, no todas las armas son adecuadas para cada batalla.
Considera qué codificaciones son las mejores para cada tipo de variable.
- Variables de datos continuos, como peso y altura, encuentran su mejor representación en la posición en una escala común.
- Variables discretas, como género o nacionalidad, resaltan cuando se representan mediante colores o regiones espaciales.
Existen algunas razones detrás de la intuición de algunos gráficos. Y hay dos teorías principales detrás de ello.
1. Teoría de la Gestalt
Las personas que trabajan con tecnología a veces olvidan el lado humano de las cosas. Los Principios de la Gestalt son reglas de la psicología que explican cómo nuestro cerebro percibe los patrones.
Algunas de estas reglas nos ayudan a entender por qué agrupamos cosas que se parecen o notamos cosas que destacan.
- Semejanza: La semejanza gestáltica significa que nuestro cerebro agrupa cosas que se parecen. Esto puede ser debido a su posición, forma, color o tamaño. Se utiliza ampliamente en mapas de calor o gráficos de dispersión.
- Cierre: Los objetos dentro de un borde, como una línea o un color compartido, parecen pertenecer juntos. Esto los hace destacar entre otras cosas que vemos. A menudo utilizamos bordes o colores en tablas y gráficos para agrupar datos.
- Continuidad: Cuando los elementos individuales están conectados, nuestros ojos piensan que pertenecen juntos. Incluso si se ven diferentes, la línea nos hace verlos como un grupo. Se utiliza ampliamente en gráficos de líneas.
- Proximidad: Pensamos que las cosas están en el mismo grupo si están cerca una de la otra. Para mostrar que las cosas pertenecen juntas, ponlas cerca. El uso de un poco de espacio puede ayudar a separar diferentes grupos. Esto se utiliza comúnmente en gráficos de dispersión o diagramas de nodos-enlaces.
Imagen del autor
Por lo tanto, los principios de la Gestalt y sus interacciones son importantes de considerar al realizar visualizaciones.
2. El Principio de la Tinta Proporcional
En muchos escenarios de visualización diferentes, representamos los valores de datos mediante la extensión de un elemento gráfico.
Es práctica común utilizar la palabra tinta para referirse a cualquier parte de una visualización que se desvía del color de fondo. Esto incluye líneas, barras, puntos, áreas compartidas y texto.
Por ejemplo, en un gráfico de barras, dibujamos barras que comienzan en 0 y terminan en el valor de datos que representan. En este caso, el valor de datos no solo se codifica en el punto final de la barra, sino también en la altura o longitud de la barra.
Si dibujamos una barra que comienza en un valor diferente a 0, entonces la longitud de la barra y el punto final de la barra transmitirían información contradictoria.
Imagen por Autor
En todos estos casos, debemos asegurarnos de que no haya inconsistencia. Este concepto ha sido denominado el principio de la tinta proporcional por Bergstrom y West.
“Cuando se utiliza una región sombreada para representar un valor numérico, el área de esa región sombreada debe ser directamente proporcional al valor correspondiente”.
Las violaciones de este principio son bastante comunes al intentar manipular datos, en particular en la prensa popular y en el mundo de las finanzas.
Problemas similares ocurrirán siempre que usemos elementos gráficos como rectángulos, áreas sombreadas de forma arbitraria u otros elementos que tengan un alcance visual definido que puede ser consistente o inconsistente con el valor de los datos mostrados.
La Esencia de una Buena Visualización
Un equilibrio llamativo entre estética y funcionalidad es fundamental. Adherirse estrictamente a principios como la tinta proporcional de Bergstrom, pero no a costa de la legibilidad.
Y aunque algunos codificaciones pueden parecer menos efectivas, se pueden elegir deliberadamente para hacer una declaración o evocar una emoción.
En nuestra era de un flujo cada vez mayor de datos, la importancia de crear narrativas visuales significativas no puede ser exagerada. Especialmente cuando intentamos comunicar nuestras ideas a profesionales no especializados en datos.
Una buena visualización de datos no se trata solo de presentar números, sino de intentar articular nuestros datos alrededor de una historia. Dar vida a nuestros datos mientras contamos historias y forjamos conexiones entre información en bruto e implicaciones e ideas del mundo real.
Como tecnólogos y amantes de los datos, es nuestro arte, nuestro lenguaje y nuestro puente hacia el mundo entero. Josep Ferrer es un ingeniero de análisis de datos de Barcelona. Se graduó en ingeniería de física y actualmente trabaja en el campo de la ciencia de datos aplicada a la movilidad humana. Es un creador de contenido a tiempo parcial enfocado en ciencia de datos y tecnología. Puedes contactarlo en LinkedIn, Twitter o VoAGI.