La compresión de datos para el aprendizaje de máquina

Video: Técnicas para memorizar más y mejor (Con menos esfuerzo)

Lo ideal sería que en el aprendizaje de máquina que pueda obtener los mejores resultados cuando sus características no se correlacionan completamente entre sí y cada uno tiene un poder predictivo con respecto a la respuesta que está modelando. En realidad, sus características a menudo se correlacionan entre sí, mostrando un alto grado de redundancia en la información disponible para el conjunto de datos.

Contar con datos redundantes significa que la misma información se transmite a través de múltiples características. Si se trata de exactamente la misma información, representa una colinealidad perfecta. Si, en cambio, que no es exactamente la misma información, pero varía de alguna manera, tiene la colinealidad entre dos variables o multicolinealidad entre más de dos variables.

redundante de datos es un problema que soluciones estadísticas teoría creada para hacer frente a hace mucho tiempo (debido a cálculos estadísticos pueden sufrir mucho de multicolinealidad). Usted podría considerar el tema desde un punto de vista estadístico, que ilustran el uso de los conceptos de varianza, covarianza y correlación. Se puede imaginar cada función como portadores de diferentes componentes informativos, mezclados en diferentes proporciones:

varianza único: La redundancia es única para una característica particular, y cuando correlacionados o asociados con la respuesta, se puede añadir una contribución directa en la predicción de la respuesta en sí.
varianza compartida: La redundancia es común con otras características debido a una relación de causalidad entre ellos. En este caso, si la información compartida es relevante para la respuesta, el algoritmo de aprendizaje tendrá un momento difícil elección que cuentan para recoger. Y cuando una función es recogido por su varianza compartida, sino que también aporta lo largo de su ruido aleatorio específico.
componente de ruido aleatorio: Información debido a problemas de medición o aleatoriedad que no es útil para el mapeo de la respuesta, pero que a veces, por mera casualidad (sí, la suerte o la desgracia es parte de ser aleatoria), pueden aparecer en relación con la respuesta en sí.

varianza única, varianza compartida, y el fusible ruido aleatorio entre sí y no pueden separarse fácilmente. Usando la función de selección, a reducir el impacto del ruido mediante la selección de un conjunto mínimo de funciones que funcionan mejor con su algoritmo de aprendizaje automático. Otro posible enfoque se basa en la idea de que se puede fusionar esa información redundante entre sí mediante una media ponderada, creando así una nueva función cuyo componente principal es la varianza compartida de múltiples funciones, y su ruido es un promedio de ruido anterior y la varianza única.

Por ejemplo, si A, B, y C comparten la misma varianza, mediante el empleo de la compresión se puede obtener un componente (por lo que se llama una nueva característica) compone de la suma ponderada de los tres características tales como 0,5 * A + 0,3 * B + 0,2 * C. Usted decide los pesos sobre la base de una técnica particular llamado descomposición en valores singulares (SVD).

SVD tiene diversas aplicaciones, no sólo en la compresión de datos, sino también en la búsqueda de factores latentes (características ocultas en nuestros datos) y en los sistemas de recomendación, que son sistemas para el descubrimiento de lo que alguien podría recibir en términos de productos o películas basadas en las selecciones anteriores. Para los propósitos de compresión, es posible considerar una técnica llamada análisis de componentes principales (PCA), que utiliza partes de las salidas SVD.

PCA trabaja de forma sencilla y sin rodeos: Toma como entrada un conjunto de datos y devuelve un nuevo conjunto de datos, reconstruida de la misma forma. En este nuevo conjunto de datos, todas las características, llamadas componentes, no están correlacionados, y los componentes más informativos aparecen al principio del conjunto de datos.

PCA también ofrece un informe de cómo cada componente equivale al conjunto de datos inicial. Sumando el valor informativo de los nuevos componentes, es posible que algunos componentes expresan el 90 por ciento o incluso 95 por ciento de la información original. Tomando sólo aquellos pocos componentes es equivalente a usar los datos originales, logrando así una compresión de los datos mediante la eliminación de redundancias y reducir el número de características.

A modo de ejemplo, el siguiente ejemplo se refiere al conjunto de datos de Boston y utiliza la implementación de Python Scikit del PCA. R tiene muchas funciones equivalentes, el más popular es PRINCOMP, que se puede aprender sobre usando el comando de ayuda (PRINCOMP) para obtener más información y algunos ejemplos de su uso. Aquí está el fragmento de código Python para probar la eficacia de un PCA:

de sklearn.datasets load_boston importación

sklearn.decomposition de PCA importación

de sklearn.preprocessing escala de importación

importar numpy como NP

de sklearn.datasets load_boston importación

Video: ¿Cómo funciona la compresión de Archivos? Básica explicación de la utilidad de los Compresores

sklearn.decomposition de PCA importación

de sklearn.preprocessing escala de importación

importar numpy como NP

Boston = load_boston ()

X, Y = boston.data, boston.target

PCA = PCA (). ajuste (X)

Después de calcular el PCA, el ejemplo procede a imprimir el poder informativo de este nuevo conjunto de datos reconstruido:

print (`` .join ([ `% 5i` % (k + 1) para k en el rango de (13)]))

print (`` .join ([ `-----`] * 13))

print (`` .join (["% 0.3f" % (Varianza) de varianza

en pca.explained_variance_ratio_]))

print (`` .join (["% 0.3f" % (Varianza) de varianza

en np.cumsum (pca.explained_variance_ratio_)]))

1 2 3 4 5 6 7 8 9 ...

----- ----- ----- ----- ----- ----- ----- ----- ----- ...

Video: Let’s Write a Pipeline - Machine Learning Recipes #4

0,163 0,021 0,007 0,806 0,001 0,001 0,000 0,000 0,000 ...

0,969 0,990 0,997 0,806 0,998 0,999 1,000 1,000 1,000 ...

En el informe impreso, los trece componentes representan un conjunto de datos acumulativa que excede el 85 por ciento del original cuando teniendo en cuenta seis componentes de 13 y 95 por ciento con nueve componentes. El uso de un conjunto de datos reconstruida con menos componentes que el número de las características originales a menudo resulta beneficioso para los procesos de aprendizaje de la máquina al reducir el uso de memoria y tiempo de cálculo y por que contiene la varianza de las estimaciones, asegurando así la estabilidad de los resultados.