Complejidad del modelo de aprendizaje de máquinas

Video: Complejidad (teoría CSM #1)

Así como la simplicidad de las formulaciones es un problema en el aprendizaje de máquina, recurrir automáticamente a la cartografía de formulaciones muy intrincados no siempre proporciona una solución. De hecho, no se sabe la verdadera complejidad de la asignación de respuesta requerida (por ejemplo, si se ajusta en una línea recta o en una curva). Por lo tanto, al igual que la simplicidad puede crear una respuesta inadecuada, también es posible representar la complejidad de los datos con un mapeo excesivamente complejo.

Video: Conferencia Las Competencias, la Complejidad y su Naturaleza en la Educación

9781119245513-fg1101

En tal caso, el problema con un mapeo complejo es que tiene muchas condiciones y parámetros - y en algunos casos extremos, el algoritmo puede tener más parámetros que los datos tienen ejemplos. Debido a que se debe especificar todos los parámetros, el algoritmo comienza entonces memorizar todo en los datos - no sólo las señales, sino también el ruido aleatorio, los errores, y todas las características ligeramente específicas de su muestra.

Video: Taller: Proyectos integradores: Las TIC ante la complejidad y los modelos descriptivos

En algunos casos, puede incluso sólo memorizar los ejemplos como son. Sin embargo, a menos que esté trabajando en un problema con un número limitado de características simples con pocos valores distintos (básicamente un conjunto de datos juguete, es decir, un conjunto de datos con algunos ejemplos y características, por lo tanto fácil de tratar y ideal para ejemplos), se estés muy poco probable que encuentre el mismo ejemplo dos veces, dado el enorme número de posibles combinaciones de todas las características disponibles en el conjunto de datos.

Cuando la memorización sucede, usted puede tener la ilusión de que todo está funcionando bien debido a que su algoritmo de aprendizaje automático parece haber ajustado los datos dentro de la muestra tan bien. En cambio, los problemas pueden convertirse rápidamente evidente cuando empieza a tener que trabajar con datos fuera de la muestra y se observa que éste produce errores en sus predicciones, así como los errores que realmente cambian mucho cuando se aprende de nuevo a partir de los mismos datos con un poco diferente enfoque.

Sobreajuste se produce cuando el algoritmo ha aprendido mucho de sus datos, hasta el punto de formas de la curva de mapeo y normas que no existen. Cualquier pequeño cambio en el procedimiento o en los datos de entrenamiento produce predicciones erráticos.

modelo lineal demasiado complejo — Ejemplo de un modelo lineal de ir a la derecha y llegar a ser demasiado complejo al intentar asignar una función de curva.