¿Cómo se mide la covarianza y la correlación de muestras de datos

Al comparar las muestras de datos de diferentes poblaciones, dos de las medidas más populares de asociación es covarianza y correlación. Covarianza y correlación muestran que las variables pueden tener una relación positiva, una relación negativa, o ninguna relación en absoluto.

Una muestra es una selección elegido al azar de elementos de una población subyacente.

covarianza de la muestra mide la fuerza y ​​la dirección de la relación entre los elementos de dos muestras, y la correlación de la muestra se deriva de la covarianza. La covarianza muestral entre dos variables, x y Y, es

Esto es lo que cada elemento en esta ecuación significa:

  • sXY = La covarianza de la muestra entre las variables x y Y (Los dos subíndices indican que esta es la covarianza de la muestra, no la desviación estándar de la muestra).

  • norte = El número de elementos en ambas muestras.

  • yo = una índice que asigna un número a cada elemento de la muestra, que van desde 1 a norte.

  • xyo = Un único elemento en la muestra para x.

  • Yyo = Un único elemento en la muestra para Y.

La covarianza muestral puede tener cualquier valor positivo o negativo.

Video: Covarianza, Coeficiente de Correlacion, Diagrama Dispersión

Se calcula el correlación de la muestra (También conocida como la muestra coeficiente de correlación) Entre x y Y directamente de la covarianza de la muestra con la siguiente fórmula:

Los términos clave en esta fórmula son

  • rXY = Correlación de la muestra entre x y Y

  • sXY = Covarianza muestral entre x y Y

  • sx = Desviación estándar de muestra x

  • sY = Desviación estándar de muestra Y

La fórmula utilizada para calcular el coeficiente de correlación de la muestra se asegura de que su valor varía entre -1 y 1.

Por ejemplo, supongamos que se toma una muestra de la rentabilidad de las acciones de la Corporación y el Excelsior Adirondack Corporación de los años 2008 a 2012, como se muestra aquí:

AñoExcelsior Corp. Annual Return (porcentaje) (x)Adirondack Corp. Annual Return (porcentaje) (Y)
200813
2009-22
201034
201106
201230

¿Cuáles son la covarianza y la correlación entre los rendimientos de las acciones? Para darse cuenta de eso, primero hay que encontrar la media de cada muestra. En este ejemplo, x representa los rendimientos de Excelsior y Y representa los rendimientos de Adirondack.

  • La media de la muestra de x es

Se obtiene la media de la muestra mediante la suma de todos los elementos de la muestra y dividiendo por el tamaño de la muestra. En este caso, los elementos de la muestra suman 5 y el tamaño de la muestra es 5. La división de estos números da una media de la muestra de 1.

  • La media de la muestra de Y es

Esta tabla muestra los cálculos restantes para la covarianza de la muestra:

En la tabla, el

columna representa las diferencias entre cada retorno a Excelsior en la muestra y la muestra Entretanto Del mismo modo, la

columna representa los mismos cálculos para Adirondack. Las entradas de la

la columna es igual al producto de las entradas en las dos columnas anteriores. La suma de las

columna da el numerador en la fórmula de la muestra de covarianza:

El denominador es igual al tamaño de la muestra menos uno, que es 5 - 1 = 4. (Ambas muestras tienen cinco elementos, norte = 5.) ​​Por lo tanto, la covarianza de la muestra es igual

Para calcular el coeficiente de correlación de la muestra, dividir la covarianza muestra por el producto de la desviación estándar de la muestra de x y la desviación estándar de la muestra de Y:

A encontrar la desviación estándar de la muestra de x mediante el cálculo de la varianza de la muestra de x y luego tomando la raíz cuadrada del resultado. La tabla muestra los cálculos de la varianza de la muestra de x.

En la tabla, el

columna representa las diferencias entre cada retorno a Excelsior en la muestra y la muestra decir- la

Video: Covarianza (tabla de datos agrupados)

columna representa el al cuadrado diferencia entre cada vuelta al Excelsior y la media de la muestra. La suma de las

columna da el numerador en la fórmula muestra la varianza. Se divide este número por el tamaño de la muestra menos uno (5 - 1 = 4) para obtener la varianza de la muestra de x:

La desviación estándar de la muestra de x es la raíz cuadrada de 4.5, o

La tabla muestra los cálculos de la varianza de la muestra de Y.

Sobre la base de los cálculos de la tabla, la varianza de la muestra de Y es igual

La desviación estándar de la muestra de Y es igual a la raíz cuadrada de 5, o

Sustituyendo estos valores en la fórmula de correlación muestra que da

El resultado negativo muestra que hay una débil correlación negativa entre los rendimientos de las acciones de Excelsior y Adirondack. Si dos variables son perfectamente una correlación negativa (que siempre moverse en direcciones opuestas), su correlación será -1. Si dos variables son independiente (Sin relación entre sí), su correlación será 0. La correlación entre los rendimientos de Excelsior y Adirondack de valores es un -0,2108, lo que indica que las dos variables muestran una ligera tendencia a moverse en direcciones opuestas.

Artículos Relacionados