Aprovechando la descomposición de valor singular para el análisis predictivo

Puede aprovechar la descomposición de valor singular para el análisis predictivo. descomposición de valor singular (SVD) representa un conjunto de datos mediante la eliminación de las partes menos importantes y generando una aproximación precisa de la base de datos original. En este sentido, SVD y PCA son los métodos de reducción de datos.

SVD se llevará a una matriz como una entrada y se descomponen en un producto de tres matrices simples.

Una m por la matriz n M puede ser representado como un producto de otras tres matrices como sigue:

Video: Valores singulares 1

M = U * S * V ^T

Donde U es un m por la matriz r, V es una matriz N por R, y S es un r por r Matriz donde r es el rango de la matriz M. El * representa la multiplicación de matrices. ^T indica la transposición de la matriz.

En una matriz de datos en un menor número de conceptos para describir los datos, o se pueden relacionar las columnas de la matriz de datos a sus filas, a continuación, SVD es una herramienta muy útil para extraer esos conceptos. Por ejemplo, podría hacerlo un conjunto de datos contiene clasificaciones libros, donde las opiniones son las filas y los libros de las columnas. Los libros pueden ser agrupados por tipo o de dominio, como la literatura y la ficción, historia, biografías, libros de niños o adolescentes. Esos serán los conceptos que SVD puede ayudar a extraer.

Estos conceptos deben ser significativas y concluyente. Si usted se pega a sólo unos pocos conceptos o dimensiones para describir un conjunto de datos más grande, nuestra aproximación no será tan precisa. Esto es principalmente por eso que es importante eliminar solamente conceptos que son menos importantes y no es relevante para el conjunto de datos global.

indexación semántica latente es una técnica de procesamiento de minería de datos y lenguaje natural que se utiliza en la recuperación de documentos y la similitud de palabras. indexación semántica latente emplea SVD a los documentos del grupo de los conceptos que podrían consistir en diferentes palabras que se encuentran en esos documentos. El universo de las palabras puede ser muy grande, y varias palabras se pueden agrupar en un concepto. SVD ayuda a reducir la correlación entre la ruidosa esas palabras y sus documentos, y le da una representación de ese universo utilizando muchos menos dimensiones que el conjunto de datos original.

Es fácil ver que los documentos de discusión de temas similares pueden utilizar diferentes palabras para describir esos mismos temas. Un documento que describe los leones en Zimbabwe y otro documento que describe los elefantes en Kenia deberían agruparse. Así que se basan en conceptos (vida silvestre en África, en este caso), no palabras, para agrupar estos documentos. La relación entre los documentos y sus palabras se establece con esos conceptos o temas.

Video: Популярные Video – Сингулярное разложение и Наука

SVD y PCA se han utilizado en la clasificación y agrupación. La generación de estos conceptos es sólo una forma de clasificación y agrupación de los datos. Ambos también se han utilizado para el filtrado colaborativo.