Mostrar la distribución de histogramas

histogramas son gráficos de barras que muestran qué fracción de los sujetos tienen valores que caen dentro de los intervalos especificados. El propósito principal de un histograma es mostrar cómo se distribuyen los valores de un valor numérico. Esta distribución es una aproximación de la verdadera distribución de frecuencias de la población de esa variable.

Video: Histograma

La curva suave muestra cómo los valores de CI se distribuyen en una población infinitamente grande. La altura de la curva en cualquier valor IQ es proporcional a la fracción de la población en la proximidad inmediata de que el CI. Esta curva tiene el típico “campana” forma de una distribución normal.

Video: Función de distribución en histogramas

El histograma indica cómo podrían distribuirse el CI de 60 sujetos seleccionados al azar de la población. Cada barra representa un intervalo de valores de CI con un ancho de diez puntos de CI, y la altura de cada barra es proporcional al número de sujetos en la muestra cuyo IQ cayó dentro de ese intervalo.

distribuciones log-normal

Debido a que una muestra es solamente una representación imperfecta la población, la determinación de la forma precisa de una distribución puede ser difícil a menos que su tamaño de la muestra es muy grande. Sin embargo, por lo general un histograma ayuda a detectar sesgada datos.

Una forma sesgada es típico de una log-normal distribución, que se produce muy a menudo en trabajo biológico. Se llama log-normal ya que si se toma el logaritmo de cada valor de datos (no importa qué tipo de logaritmo tomas), los registros resultantes tendrán una distribución normal.

Video: Tabla de frecuencias e histograma

Así que es una buena práctica para preparar un histograma para cada variable numérica que va a analizar, para ver si es notablemente desigual y, de ser así, si un logarítmica “transformación” hace que la distribución más casi normal.

Otras distribuciones anormales

Log-normalidad no es la única clase de no normalidad que pueden surgir en los datos del mundo real. Dependiendo del proceso subyacente que da lugar a los datos, los números se pueden distribuir de otra manera.

Por ejemplo, los recuentos de eventos a menudo se comportan de acuerdo a la distribución de Poisson y pueden ser, al menos aproximadamente, normalizado por la raíz cuadrada de cada cargo (en lugar del logaritmo, como lo hace para los datos log-normal). Sin embargo, otros procesos pueden dar lugar a izquierda; datos asimétricos o para datos con dos (o más) picos.

¿Y si ni el registro de lo normal ni la raíz cuadrada de transformación normaliza sus datos asimétricos? Un método consiste en utilizar el Box-Cox transformación, que tiene esta fórmula general: Transformado x = (x^UN - 1) /UN, dónde UN es un parámetro ajustable que puede variar desde valores negativos a positivos.

Dependiendo del valor de UN, esta transformación a menudo puede hacer la izquierda; sesgada o derecha; datos asimétricos más simétrico (y más normalmente distribuido). La figura muestra cómo la transformación de Box-Cox puede ayudar a normalizar los datos asimétricos.

Algunos programas de software le permite variar UN a través de una gama de valores positivos o negativos utilizando un cursor en la pantalla que se puede mover con el ratón. A medida que desliza el UN valora de ida y vuelta, se ve el histograma cambiar su forma de izquierda a derecha; sesgada a simétrica a derecha; sesgada. En este caso, el uso de UN = 0.12 normaliza los datos bastante bien.

Cuando UN es exactamente 0, la fórmula de Box-Cox se convierte en 0/0, que es indeterminado. Pero se puede demostrar que a medida UN se aproxima a 0 (ya sea desde el lado positivo o negativo), la fórmula Box-Cox se convierte en la misma que la función logaritmo. Por lo que la transformación logarítmica es sólo un caso especial de la más general de transformación de Box-Cox.

Si no puede encontrar ninguna transformación que hace que sus datos se vean aún aproximadamente normal, entonces usted tiene que analizar sus datos utilizando no paramétrico métodos, que no asumen que sus datos se distribuyen normalmente.