La aplicación de análisis de componentes principales para el análisis predictivo

Video: Analisis de Componentes Principales - Ejemplo Practico en R

Análisis de componentes principales (PCA) es una técnica valiosa que se utiliza ampliamente en análisis y los datos de predicción ciencia. Se estudia un conjunto de datos para conocer las variables más relevantes responsables de la mayor variación en ese conjunto de datos. PCA se utiliza sobre todo como una técnica de reducción de datos.

Aunque la construcción de modelos de predicción, es posible que tenga que reducir el número de características que describen el conjunto de datos. Es muy útil para reducir esta alta dimensionalidad de los datos a través de técnicas de aproximación, en la que sobresale PCA. Los datos aproximada resume todas las variaciones importantes de los datos originales.

Por ejemplo, el conjunto de características de los datos sobre las existencias puede incluir precios de las acciones, los máximos y mínimos diarios, el volumen de operaciones, las medias móviles de 200 días, relaciones precio-ganancia, la fuerza con respecto a otros mercados, tipos de interés, y fortaleza de las monedas.

Video: APLICACIÓN DEL ANÁLISIS DE COMPONENTES PRINCIPALES EN EXCEL

Encontrar las variables predictoras más importantes es el núcleo de la construcción de un modelo predictivo. La forma en que muchos han estado haciendo es mediante el uso de un método de fuerza bruta. La idea es comenzar con tantas variables relevantes como sea posible, y luego usar un enfoque de embudo para la eliminación de características que no tienen ningún impacto, o ningún valor predictivo.

La inteligencia y la visión es llevado a este método mediante la participación de accionistas de la empresa, ya que tienen algunas impresiones sobre las variables que tendrán el mayor impacto en el análisis. La experiencia de los científicos de datos que participan en el proyecto también es importante saber cuáles son las variables a trabajar y qué algoritmos a utilizar para un tipo de datos específico o un problema específico del dominio.

Para ayudar con el proceso, los científicos de datos emplean muchas herramientas de análisis predictivo que hacen más fácil y más rápido para ejecutar varias permutaciones y análisis sobre un conjunto de datos con el fin de medir el impacto de cada variable sobre ese conjunto de datos.

Sabiendo que hay una gran cantidad de datos para trabajar, se puede emplear PCA en busca de ayuda.

Video: Teoría del Análisis de Componentes Principales

La reducción del número de variables que tener en cuenta es motivo suficiente para emplear PCA. Además, mediante el uso de PCA se está protegiendo a sí mismo de forma automática el sobreajuste del modelo.

Ciertamente, se puede encontrar correlación entre los datos del tiempo en un país dado y el rendimiento de su mercado de valores. O con el color de los zapatos de una persona y la ruta que él o ella necesita para la oficina, y el rendimiento de su cartera para ese día. Sin embargo, incluso esas variables en un modelo predictivo es algo más que un ajuste por exceso, es engañosa y da lugar a predicciones falsas.

PCA utiliza un enfoque matemáticamente válida para determinar el subconjunto del conjunto de datos que incluye el características- más importante en la construcción de su modelo en ese conjunto de datos más pequeña, tendrá un modelo que tiene valor predictivo para el conjunto de datos en general, más grande que está trabajando. En resumen, la ACP debe ayudar a dar sentido a sus variables mediante la identificación del subconjunto de variables responsables de la mayoría de la variación con el conjunto de datos original. Le ayuda redundancia lugar. Se le ayuda a descubrir que dos (o más variables) que están diciendo la misma cosa.

Además, el análisis de componentes principales toma su conjunto de datos multidimensional y produce un nuevo conjunto de datos cuyas variables son representativos de la linealidad de las variables en el conjunto de datos original. Además, el conjunto de datos emitida tiene individualmente variables correlacionadas ONU, y su varianza es ordenado por sus componentes principales donde el primero es el más grande, y así sucesivamente. En este sentido, la ACP también se puede considerar como una técnica para la construcción de características.

Mientras que el empleo PCA u otras técnicas similares que ayudan a reducir la dimensionalidad del conjunto de datos que está tratando, usted tiene que ejercer siempre tenga cuidado para no afectar el rendimiento del modelo negativamente. La reducción del tamaño de los datos no debe realizarse a expensas de un impacto negativo en el rendimiento (la exactitud del modelo predictivo). Pisar con seguridad y gestionar el conjunto de datos con cuidado.

El aumento de la complejidad de un modelo no se traduce en una mayor calidad en el resultado.

Para conservar el rendimiento del modelo, puede que tenga que evaluar cuidadosamente la eficacia de cada variable, medir su utilidad en la conformación del modelo final.

Sabiendo que el PCA puede ser especialmente útil cuando las variables están altamente correlacionadas dentro de un determinado conjunto de datos, y luego tener un conjunto de datos con variables predictoras no correlacionadas sólo puede complicar la tarea de reducir la dimensionalidad de los datos multivariados. Muchas otras técnicas se pueden utilizar aquí, además de la PCA, tales como la función de selección hacia adelante y hacia atrás en función de eliminación.

PCA no es una varita mágica que va a resolver todos los problemas con los datos multidimensionales. Su éxito depende de los datos que está trabajando con el altamente. La varianza estadística puede no alinear a las variables con los valores más predictivos, a pesar de que es seguro trabajar con tales aproximaciones.

Artículos Relacionados