Evitando las trampas de polarización y de fuga de la muestra en el aprendizaje de las máquinas

El enfoque de validación para el aprendizaje de máquina es un examen de un posible remedio a sesgo en-muestreo. Dentro de la toma de muestras sesgo puede ocurrir a los datos antes de aprendizaje automático se pone en acción, y causa una alta varianza de las estimaciones siguientes. Además, usted debe ser consciente de las trampas de fuga que pueden ocurrir cuando alguna información del fuera de muestra pasa a los datos dentro de la muestra. Este problema puede surgir cuando se preparan los datos o después de su modelo de aprendizaje máquina está lista y en funcionamiento.

El remedio, que se llama ensembling de predictores, funciona perfectamente cuando la muestra de entrenamiento no está completamente distorsionada y su distribución es diferente de la fuera de la muestra, pero no de una manera irremediable, por ejemplo, cuando todas sus clases están presentes pero no en la proporción adecuada (como un ejemplo). En tales casos, los resultados se ven afectados por una cierta variación de las estimaciones que se puede estabilizar posiblemente en una de varias maneras: por muestreo, como en bootstrapping- por submuestreo (tomar una muestra de la muestra) - o mediante el uso de muestras más pequeñas ( lo que aumenta sesgo).

Para entender cómo funciona tan eficazmente ensembling, visualizar la imagen de un ojo de buey. Si la muestra está afectando a las predicciones, algunas predicciones serán exactos y otros se equivocan de manera aleatoria. Si cambia de muestra, las predicciones correctas seguirá siendo correcta, pero los incorrectos comenzarán a ser variaciones entre diferentes valores. Algunos valores serán la predicción exacta que busca otras lucro sólo va a oscilar alrededor de la correcta.

Mediante la comparación de los resultados, se puede adivinar que lo que se repite es la respuesta correcta. También puede tomar un promedio de las respuestas y supongo que la respuesta correcta debería estar en el medio de los valores. Con el juego de ojo de buey, se puede visualizar la superposición de fotos de diferentes juegos: Si el problema es la varianza, en última instancia va a adivinar que el objetivo está en la zona más frecuentemente afectado o por lo menos en el centro de todos los disparos.

En la mayoría de los casos, este enfoque ha demostrado ser correcto y mejora sus predicciones de la máquina de aprendizaje mucho. Cuando el problema es el sesgo y no varianza, utilizando ensembling realmente no causa daño a menos que submuestra muy pocas muestras. Una buena regla general para las submuestras es tomar una muestra de 70 a 90 por ciento en comparación con los datos originales de la muestra. Si desea realizar el trabajo ensembling, usted debe hacer lo siguiente:

Iterar un gran número de veces a través de sus datos y modelos (de sólo un mínimo de tres iteraciones para Idealmente cientos de veces de ellos).
Cada vez que usted repite, submuestra (o bien de arranque) de los datos dentro de la muestra.
Uso de aprendizaje automático para el modelo a los datos de la nueva muestra, y predecir los resultados fuera de la muestra. Almacenar los resultados de distancia para su uso posterior.
Al final de las iteraciones, para todos los casos fuera de la muestra que desea predecir, tomar todas sus predicciones y promediarlos si usted está haciendo una regresión. Tomar la clase más frecuente si se está haciendo una clasificación.

trampas de fuga pueden sorprender a usted, ya que puede llegar a ser una fuente desconocida y sin ser detectados a problemas de los procesos de aprendizaje automático. El problema está fisgoneando, o de otro modo la observación de los datos fuera de la muestra demasiado y adaptarse a él con demasiada frecuencia. En resumen, snooping es una especie de sobreajuste - y no sólo en los datos de entrenamiento, sino también en los datos de prueba, por lo que el problema mismo sobreajuste más difíciles de detectar hasta obtener nuevos datos.

Por lo general, se da cuenta de que el problema está fisgoneando cuando ya se ha aplicado el algoritmo de aprendizaje automático para su negocio o para un servicio para el público, por lo que el problema de un tema que todo el mundo puede ver.

Puede evitar espionaje de dos maneras. En primer lugar, cuando se opera en los datos, cuidar a los datos de entrenamiento, validación y prueba claramente separadas. Además, cuando se procesan, nunca tome ninguna información de validación o prueba, incluso los ejemplos más simples y de aspecto inocente. Peor aún es aplicar una transformación compleja utilizando todos los datos.

En las finanzas, por ejemplo, es bien sabido que el cálculo de la media y la desviación estándar (que en realidad se puede decir mucho acerca de las condiciones del mercado y el riesgo) de todos los datos de entrenamiento y de prueba puede filtrar información valiosa acerca de sus modelos. Cuando ocurre la fuga, algoritmos de aprendizaje automático realizan predicciones sobre la configuración de prueba en lugar de los datos fuera de la muestra de los mercados, lo que significa que no funcionan en absoluto, lo que provoca una pérdida de dinero.

Comprobar el rendimiento de sus ejemplos fuera de la muestra. De hecho, puede traer de vuelta alguna información de su espionaje sobre los resultados de las pruebas para ayudarle a determinar que ciertos parámetros son mejores que otros, o que conducen a elegir algoritmo de aprendizaje de una máquina en lugar de otro. Para cada modelo o parámetro, aplicar su elección sobre la base de los resultados de validación cruzada o de la muestra de validación. Nunca se cae para conseguir comida para llevar de sus datos fuera de la muestra o lo lamentarás más tarde.