Cómo histogramas pueden falsear los datos estadísticos

No hay reglas duras y rápidas sobre cómo crear un histograma basado en un conjunto de Data-estadística de la persona que hace el gráfico tiene que elegir las agrupaciones en el x-eje, así como la escala y puntos inicial y final en el y-eje. El hecho de que hay un elemento de elección, sin embargo, no significa que cada elección es su caso-, de hecho, un histograma puede ser hecho para ser engañosa en muchos aspectos.

Video: Interpretando histogramas

Aunque el número de grupos que se utiliza para un histograma es a la discreción de la persona que hace el gráfico, hay una cosa tal como ir al agua, ya sea por tener demasiado pocos bares, con todo agrupados, o por tener demasiados bares, donde se magnifica cada pequeña diferencia.

Para decidir el número de barras de un histograma debe tener, usted debe tomar un buen vistazo a las agrupaciones utilizadas para formar las barras de la x-eje y ver si tienen sentido. Por ejemplo, no tiene sentido hablar de los resultados del examen en grupos de 2 puntos- que es demasiado detalle - demasiados bares. Por otro lado, no tiene sentido a las edades del grupo de la gente por intervalos de 20 años- que no es lo suficientemente descriptivo.

Histograma # 1 que muestra el tiempo entre las erupciones para géiser fiel viejo (& lt; i & gt; n & lt; / i & gt; = 222) “/ & gt;. & Lt; / p & gt; & lt; div class =Histograma # 1 que muestra el tiempo entre las erupciones de géiser Old Faithful (norte = 222).

Las cifras anteriores y siguientes ilustran este punto.

Video: ESTADISTICA, VARIABLE CONTINUA: TABLA DE FRECUENCIA, HISTOGRAMA, OJIVA Y AUTO EVALUACIÓN

# 2 Histograma que muestra el tiempo entre las erupciones de géiser Old Faithful (<i>n = 222) “/ GT.;</div><div class=# 2 histograma que muestra el tiempo entre las erupciones de géiser Old Faithful (norte = 222).

Cada histograma resume norte = 222 observaciones de la cantidad de tiempo entre las erupciones del géiser Old Faithful en el parque de Yellowstone. Histograma # 1 utiliza seis bares que agrupan los datos por intervalos de 10 minutos. Este histograma muestra un patrón sesgado a la izquierda en general, pero con 222 observaciones que están metiendo una gran cantidad de datos en sólo seis grupos- por ejemplo, la barra de 75-85 minutos tiene más de 90 piezas de datos en el mismo. (Eso es más del 40% del conjunto de datos!) Usted puede descomponer aún más que eso.

Histograma # 2 muestra el mismo conjunto de datos, donde el tiempo entre las erupciones se divide en grupos de 3 minutos cada uno, lo que resulta en 19 bares. Observe el patrón definido en los datos que se presenta con este histograma que no fue descubierto en histograma # 1. Se ven dos picos distintos en los datos: un pico alrededor de la marca de 50 minutos, y uno alrededor de la marca de 75 minutos. Un conjunto de datos con dos picos se llama bimodal- histograma # 2 muestra un ejemplo claro.

En cuanto a histograma # 2, se puede concluir que el géiser tiene dos categorías de erupciones: un grupo que tiene un tiempo de espera más corto, y otro grupo que tiene un tiempo de espera más largo. Dentro de cada grupo se ven los datos son bastante cerca de donde se encuentra el pico. En cuanto a histograma # 1, no se podía decir eso.

los y-eje de un histograma muestra el número de observaciones son en cada grupo, utilizando los recuentos o porcentajes. Un histograma puede ser engañoso si se tiene una escala engañosa y / o de partida apropiado y puntos para concluir en la y-eje.

Ver la escala de la y-eje de un histograma. Si se va por incrementos grandes y tiene un punto final que es mucho más alta que sea necesario, se ve una gran cantidad de espacio en blanco por encima del histograma. Las alturas de las barras se aprietan hacia abajo, haciendo que sus diferencias se ven más uniforme de lo que deberían. Si la escala va en pequeños incrementos y termina en el valor más pequeño posible, las barras se estiran verticalmente, exagerando las diferencias en sus alturas y que sugiere una diferencia más grande que existe en realidad.

El ejemplo siguiente utiliza una escala diferente en el vertical (y) Eje de histograma # 2.

# 3 histograma muestra los tiempos de la erupción del géiser Old Faithful, con incrementos verticales más grandes
# 3 histograma muestra los tiempos de la erupción del géiser Old Faithful, con incrementos verticales más grandes

Video: Estadistica | Cómo hacer histogramas en Excel

Histograma # 3 toma los datos fieles viejos (tiempo entre erupciones) y utiliza incrementos verticales de 20 minutos, de 0 a 100. comparar esto con histograma # 2, que utiliza incrementos verticales de 5 minutos, de 0 a 35. Histograma # 3 tiene una gran cantidad de espacio en blanco y da la apariencia de que los tiempos están distribuidos de manera más uniforme entre los grupos de lo que realmente son. También hace que el conjunto de datos se vea más pequeña, si no se presta atención a lo que está en el y-eje. De los dos gráficos, histograma # 2 es más apropiado.

Artículos Relacionados