¿Debería el área o la longitud de un cuadrado ser proporcional a los datos que se visualizan?

Estoy haciendo una visualización de datos. Cada dato está representado por un cuadrado. Para que los datos subyacentes sean intuitivamente legibles, ¿debería ser proporcional la longitud del lado de cada cuadrado o el área de cada cuadrado al dato que representa?

No todavía. ¿Es amplio? Esperaba que la respuesta fuera definitiva (supongo que es "área"), pero esa gente aquí tendría más conocimiento de diseño gráfico y psicología perceptiva para respaldar eso.
IIRC esto fue cubierto en un libro alemán que leí una vez, "So lügt man mit Statistik" por en.wikipedia.org/wiki/Walter_Krämer - no estoy seguro si hay un equivalente en inglés. TL; DR: depende de lo que desee que sus lectores lean de las visualizaciones.
La respuesta ciertamente no es definitiva. Todo depende de los detalles, a saber, qué datos está presentando, cómo los está presentando y qué desea comunicar con dichos datos.
¿Puede dar ejemplos en los que los detalles o lo que queremos que los lectores lean de la visualización nos lleven a elegir hacer que la longitud del lado de un cuadrado sea proporcional al dato en lugar del área del cuadrado?
+1 ¿Por qué cada pregunta interesante atrae al menos un voto cerrado? <gruñón>

Respuestas (5)

Si usted, el creador, no está seguro, ¿cómo sabrá el lector cuál es?

Respuesta corta: el valor debe estar vinculado 1:1 a la cantidad de color en la página . Entonces, en tu ejemplo, debería ser area. Pero hay más que eso: también debe evitar las pistas engañosas que podrían hacer que un lector lo lea incorrectamente, y debe saber por qué está usando el área en lugar de la longitud (por ejemplo, gráficos de barras), porque tiene ventajas y desventajas reales.


En primer lugar, nunca cambie tanto la longitud como el ancho (es decir, el área) de una forma cuando en realidad la variable solo está vinculada a la longitud de un lado. Si X es el doble de Y pero Y tiene cuatro veces más color en la página, está engañando a sus lectores. Este tipo de distorsión a veces se denomina " factor de mentira " y, a menudo, se supone que es un intento deliberado de engañar y exagerar las diferencias.

ingrese la descripción de la imagen aquí


Si usa el área como medida, le recomiendo encarecidamente:

  • Saber por qué estás usando area . Al usar el área en lugar de una dimensión lineal como la longitud, usted:

    • Sacrificar la capacidad de ver claramente las diferencias matemáticamente (no se puede decir fácilmente "mira, eso es el doble que el otro")
    • Invite a sus lectores a verlo de una manera intuitiva , cotidiana y no numérica, de la misma forma en que la gente, por ejemplo, compara los tamaños de las tartas en una tienda. Menos sofisticado, pero más inmediato. Más tripa, menos cabeza.
    • Las pequeñas diferencias entre números muy similares se vuelven casi invisibles.
    • Cuando una variable es muchas veces más pequeña que otra, la muy pequeña no desaparece tanto como lo haría en un gráfico de barras, lo que puede permitir una mayor flexibilidad en los diseños.

ingrese la descripción de la imagen aquí

  • Considere usar círculos para el área, no cuadrados, alineados al centro :

    • Círculos porque no invita a la confusión con gráficos de barras y similares. La altura y el ancho están menos en primer plano: parece menos que esté invitando a una comparación basada en la altura o el ancho.
    • Alineado al centro porque no invita a las personas a comparar alturas

ingrese la descripción de la imagen aquí

Por ejemplo, arriba, es difícil no ver que el cuadrado etiquetado como "5" tiene tres cuartas partes de la altura del cuadrado etiquetado como "10", por lo que es potencialmente engañoso.

Los círculos no invitan a este tipo de comparación: es más bien un "esa gota es bastante más grande que la siguiente gota" instantánea a nivel de tripas.


Existe una variedad de pruebas, desde pruebas de usuarios hasta estudios a pequeña escala (intentaremos buscar algunos ejemplos más adelante) de que este tipo de comparación intuitiva basada en áreas puede ser más atractiva, puede reducir la barrera de entrada a audiencias menos comprometidas y puede ayudar a mantener la atención del lector en el tema en lugar de las frías minucias de los números. Pero esto tiene el costo de interponerse en el camino de un análisis más numérico.

No elijas entre unidimensional (longitud o distancia) y bidimensional (área) por razones estéticas: elige entre ellos en función de tu audiencia y mensaje.

¿Qué es más apropiado para la comunicación: comparaciones instantáneas de nivel intuitivo al nivel de "eso es mucho más grande", o comparaciones numéricas más consideradas al nivel de "eso es aproximadamente el 80% del otro"?

¿O hay razones prácticas por las que necesita usar el área?

Luego, cuando hayas elegido por razones prácticas , aplica la estética.

El 'proporcional a la cantidad de color en la página' es una regla empírica muy útil (al menos en 2D); gracias por eso lo voy a usar. El diseño al que me muevo es a base de círculos, creo que ahí tienes razón

Yo diría la zona. Ópticamente, un cuadrado con un lado dos veces más largo se muestra como un área 4 veces más grande. Los observadores casuales se relacionarán con el área, incluso sin leer su leyenda.

Un buen ejemplo es este gráfico legendario de Randall Munroe de xkcd :

ingrese la descripción de la imagen aquí( versión enorme y legible )

No somos tan buenos juzgando las diferencias de área como lo somos de longitud. Usamos la longitud como proxy y, por lo tanto, tendemos a subestimar las diferencias en las áreas.

Por eso, un círculo que en realidad tiene 2x el área de otro parece demasiado pequeño porque nuestro cerebro está relacionando sus radios, que difieren en un factor de 1,4x.

Hay intentos interesantes de conciliar este fenómeno, como el mapeo de símbolos proporcionales en R , que propone una escala perceptual de símbolos para alinearse más estrechamente con la forma en que juzgamos longitudes y áreas.

Aquí está la Fig. 2 de este artículo

ingrese la descripción de la imagen aquí

Personalmente, no tengo experiencia con esto y evito usar áreas si se requieren juicios cuantitativos.

Una tangente interesante es la relación entre la percepción del volumen y la longitud. La diferencia en cómo los percibimos es aún más llamativa. Esto se puede ilustrar en este video de comparaciones de tamaños de estrellas .

Cuando llegas a la estrella más grande, que tiene aproximadamente 1.700x el diámetro del sol, te queda la impresión de que es mucho más grande que 1.700x.

Para obtener una mirada más sistemática a nuestro error al percibir diferencias en áreas y longitudes, consulte Crowdsourcing Graphical Perception: Using Mechanical Turk to Assess Visualization Design de Jeffrey Heer y Michael Bostock.

En mi opinión el área (D), no cada lado (E).

Si estás usando un lado de longitud 2, entonces el área sería 4 veces el valor y tendrías un gráfico muy superpuesto. (MI)

Cuando tiene un gráfico de barras normal (A), los datos son lineales y el ancho de la barra es solo por estética. (B)

En esos casos, el área nuevamente es representativa de los datos porque el ancho de las barras es el mismo. Puede tener una barra 3D y aún así el volumen de la barra es el que representa los datos (C)

Gráficos que ilustran las diferencias perceptuales de tamaño y la superposición

¿4 veces? ¿No es la diferencia entre lineal y cuadrado?
Déjame ilustrar y editar el post.
Supongamos que el dato es 81. Si usamos el área, los lados tienen una longitud de 9 dando un área de 81. Si usamos los lados, entonces tienen una longitud de 81 y el área es 6,561. 81 no es 4 por 9 y 6561 no es 4 por 81. ¿De dónde sacas 4?
"Si está usando un lado de longitud 2, entonces el área sería 4 veces el valor" No puedo decir lo que está tratando de decir allí. Creo que quiere decir que, si usa la longitud del lado para representar la magnitud de los datos, duplicar el valor de los datos multiplica el área por cuatro.
David: ¡esa es mi edición! La publicación original de Rafael decía "si estás usando un lado, el área sería 4 veces el valor". Si conoce una mejor manera de aclarar eso, por favor hágalo.

Tufte se ocupó de esto extensamente. Ver:

  • La presentación visual de información cuantitativa,
  • Envisioning Information y otros.

Algunos principios de integridad gráfica:

  1. La representación de números, medida físicamente en la superficie del gráfico mismo, debe ser directamente proporcional a las cantidades numéricas representadas.
  2. Se debe utilizar un etiquetado claro, detallado y completo para vencer la distorsión y la ambigüedad gráficas. Escriba explicaciones de los datos en el gráfico mismo. Etiquete eventos importantes en los datos.
  3. Muestre la variación de los datos, no la variación del diseño.
  4. En las visualizaciones de series temporales de dinero, las unidades de medida monetarias deflactadas y estandarizadas son casi siempre mejores que las unidades nominales.
  5. La cantidad de información que contiene dimensiones (variables) representadas no debe exceder la cantidad de dimensiones en los datos. Los gráficos no deben citar datos fuera de contexto.

En su caso, debe preguntarse si los datos se representan mejor con una imagen 2D o 3D o una línea. Un cubo, un cuadrado y una línea no son lo mismo. Esa es una de las razones por las que los gráficos de barras 3D a menudo son engañosos.