Cómo utilizar el ajuste de curva de análisis predictivo

Video: Método de Mínimos cuadrados

Ajuste de curvas es un proceso utilizado en el análisis predictivo en el que el objetivo es crear una curva que representa la función matemática que mejor se ajuste a los puntos de datos reales (originales) en una serie de datos.

La curva puede o bien pasar a través de cada punto de datos o permanecer dentro de la mayor parte de los datos, haciendo caso omiso de algunos puntos de datos en la esperanza de atraer las tendencias de los datos. En cualquier caso, una función matemática solo se asigna a todo el cuerpo de datos, con el objetivo de ajustar todos los puntos de datos en una curva que delinea las tendencias y coadyuvantes de predicción.

El ajuste de curvas se puede lograr en una de tres maneras:

  • Al encontrar un ajuste exacto para cada punto de datos (un proceso llamado interpolación)

  • Si se aloja dentro de la mayor parte de los datos sin tener en cuenta algunos de los puntos de datos con la esperanza de tendencias de dibujo de los datos

  • Mediante el empleo de suavizado de datos para llegar a una función que representa el gráfico de suavizado

El ajuste de curvas se puede utilizar para rellenar posibles puntos de datos para reemplazar los valores perdidos o ayudar a los analistas a visualizar los datos.

Cuando se trabaja para generar un modelo de análisis predictivo, evitar la adaptación de su modelo para adaptarse a su muestra de datos perfectamente. Tal modelo fallará - miserablemente - para predecir los conjuntos de datos aún que varían similares fuera de la muestra de datos. Ajuste de un modelo demasiado cerca de una muestra de datos en particular es un error clásico llamado sobreajuste.

Los problemas de sobreajuste

En esencia, un modelo sobreajuste es lo que pasa cuando overtrain el modelo para representar únicamente los datos de la muestra - que no es una buena representación de los datos en su conjunto. Sin un conjunto de datos más realista a seguir, el modelo puede ser plagado de errores y riesgos cuando se va operativo - y las consecuencias para su negocio puede ser grave.

Sobreajuste un modelo es una trampa común porque la gente quiere crear modelos que funcionan - y así son tentados para mantener las variables de ajustes y parámetros hasta que el modelo funciona perfectamente - en muy pocos datos. Errar es humano. Afortunadamente, también es humana para crear soluciones realistas.

Para evitar el sobreajuste su modelo para el conjunto de datos de muestra, asegúrese de tener un cuerpo de datos de ensayos disponibles que es separado de sus datos de la muestra. A continuación, se puede medir el rendimiento de su modelo de forma independiente antes de hacer el modelo operativo.

Así, uno de salvaguardia general contra el sobreajuste es dividir los datos en dos partes: la formación de los datos y los de la prueba. El desempeño del modelo frente a los datos de prueba le dirá mucho acerca de si el modelo está listo para el mundo real.

Otra práctica es asegurarse de que los datos representan la población más grande del dominio que va a modelar para. Todo un modelo de sobreentrenamiento sabe es las características específicas de la muestra de datos que ha entrenado. Si se entrena el modelo solamente en las ventas de raquetas de nieve (por ejemplo) en invierno, no se sorprenda si fracasa miserablemente cuando se ejecuta una vez más en los datos en cualquier otra estación.

¿Cómo evitar el sobreajuste

Vale la pena repetir: Demasiado ajustes del modelo es apto para dar lugar a sobreajuste. Uno de tales pellizco está incluyendo demasiadas variables en el análisis. Mantener esas variables a un mínimo. incluir solo las variables que se ven como absolutamente necesario - los que creen que va a hacer una diferencia significativa en el resultado.

Video: Ajuste No Lineal Utilizando Solver de Excel

Esta visión sólo proviene de un profundo conocimiento del dominio de negocio que se encuentre. Ahí es donde la experiencia de los expertos de dominio puede ayudar a evitar que caigan en la trampa de sobreajuste.

He aquí una lista de las mejores prácticas para ayudar a evitar el sobreajuste su modelo:

  • Eligió un conjunto de datos para trabajar con esto es representativa de la población en su conjunto.

  • Dividir el conjunto de datos de dos partes: la formación de los datos y los de la prueba.

  • Mantener las variables analizadas al mínimo saludable para la tarea en cuestión.

    Video: Análisis de un experimento: Uso de papel logarítmico para ajustar curvas cuya función es potencial

  • Contar con la ayuda de expertos en el conocimiento de dominio.

En el mercado de valores, por ejemplo, una técnica analítica clásica es Las pruebas retrospectivas - la ejecución de un modelo frente a los datos históricos para buscar la mejor estrategia de negociación.

Supongamos que, después de ejecutar su nuevo modelo con los datos generados por un mercado alcista reciente, y ajustar el número de variables utilizadas en su análisis, el analista crea lo que parece ser una estrategia de negociación óptima - uno que produciría la mayor rentabilidad Si que pudiera volver atrás y comerciar sólo durante el año que produjo los datos de prueba. Por desgracia, no puede.

Si trata de aplicar ese modelo en un mercado a la baja actual, busque a continuación: Él va a incurrir en pérdidas mediante la aplicación de un modelo demasiado optimizado para un período limitado de tiempo y un conjunto de condiciones que no se ajustan a la realidad actual. (Esto en cuanto a ganancias hipotéticas.)

El modelo funcionó sólo para que desapareció mercado alcista porque era sobreentrenamiento, teniendo la pinta de un contexto que produjo los datos de ejemplo - con sus específicos, valores atípicos y deficiencias. Todas las circunstancias que rodean a ese conjunto de datos probablemente no se repetirán en el futuro, o en una verdadera representación de toda la población - pero todos ellos se presentaron en el modelo overfitted.

Si la salida de un modelo es demasiado precisa, tenga en cuenta que una pista para echar un vistazo más de cerca. Contar con la ayuda de expertos en el conocimiento de dominio para ver si sus resultados son realmente demasiado bueno para ser verdad, y ejecutar ese modelo en más datos de prueba para más comparaciones.

Artículos Relacionados