La elección del algoritmo adecuado para el aprendizaje automático
Video: Algoritmo de aprendizaje por refuerzo
El aprendizaje automático implica el uso de muchos algoritmos diferentes. Esta tabla le da un resumen rápido de los puntos fuertes y débiles de los diferentes algoritmos.
Algoritmo | mejor en | Pros | Contras |
Random Forest | Apt a casi cualquier problema de aprendizaje automático bioinformática | Pueden trabajar en paralelo overfits rara vez Maneja automáticamente los valores que faltan No hay necesidad de transformar cualquier variable No hay necesidad de ajustar los parámetros Puede ser utilizado por cualquier persona con excelentes resultados | Difíciles de interpretar Más débil en la regresión cuando la estimación de los valores en los extremos de la distribución de los valores de respuesta Sesgado a problemas multiclase hacia las clases más frecuentes |
Impulsar gradiente | Apt a casi cualquier problema de aprendizaje automático Los motores de búsqueda (la solución del problema de aprendizaje para clasificar) | Se puede aproximar más función no lineal El mejor predictor de la clase Maneja automáticamente los valores que faltan No hay necesidad de transformar cualquier variable | Puede overfit si se ejecuta para demasiadas iteraciones Sensible a los datos de ruido y valores atípicos No funciona bien sin ajuste de parámetros |
Regresión lineal | predicciones de línea de base predicciones econométricas respuestas de marketing de modelado | Sencillo de entender y explicar Rara vez overfits El uso de L1 & L2 regularización es eficaz en la selección de características Rápido para entrenar Fácil de entrenar en grandes volúmenes de datos gracias a su versión estocástica | Hay que trabajar duro para hacer que encaje funciones no lineales Pueden sufrir de valores atípicos |
Máquinas de Vectores Soporte | El reconocimiento de caracteres Reconocimiento de imagen clasificación de texto | Creación automática característica no lineal Se puede aproximar funciones no lineales complejas | Difíciles de interpretar cuando se aplica granos no lineales Sufre de demasiados ejemplos, después de 10.000 ejemplos que comienza a tomar demasiado tiempo para entrenar |
K-vecinos más cercanos | Visión por computador etiquetado Multilabel Los sistemas de recomendación Hechizo problema con el registro | , Formación perezoso rápido naturalmente, puede manejar los problemas multiclase extremas (como texto etiquetado) | Lento y engorroso en la fase de predicción Puede dejar de predecir correctamente debido a la maldición de la dimensionalidad |
Adaboost | Detección de rostro | Maneja automáticamente los valores que faltan No hay necesidad de transformar cualquier variable No overfit facilidad Unos parámetros pellizquen Se puede aprovechar muchas diferentes débiles-aprendices | Sensible a los datos de ruido y valores atípicos Nunca la mejor clase de predicciones |
naive Bayes | Reconocimiento facial Análisis de los sentimientos La detección de spam clasificación de texto | Fácil y rápido de implementar, no requiere demasiada memoria y no puede ser utilizado para el aprendizaje en línea Fácil de comprender Tiene en cuenta el conocimiento previo | supuestos fuertes y poco realistas independencia función Falla la estimación de ocurrencias raras Sufre de características irrelevantes |
Redes neuronales | Reconocimiento de imagen el reconocimiento del lenguaje y la traducción Reconocimiento de voz reconocimiento de la visión | Se puede aproximar cualquier función no lineal Robusta a los valores atípicos Sólo funciona con una porción de los ejemplos (los vectores de soporte) | Muy difícil de configurar Difícil de ajustar debido a demasiados parámetros y también se tiene que decidir la arquitectura de la red Difíciles de interpretar Fácil de overfit |
Regresión logística | Pedido de resultados por probabilidad respuestas de marketing de modelado | Sencillo de entender y explicar Rara vez overfits El uso de L1 & L2 regularización es eficaz en la selección de características El mejor algoritmo para predecir la probabilidad de un evento Rápido para entrenar Fácil de entrenar en grandes volúmenes de datos gracias a su versión estocástica | Hay que trabajar duro para hacer que encaje funciones no lineales Pueden sufrir de valores atípicos |
SVD | Los sistemas de recomendación | Puede reestructurar los datos de una manera significativa | Difícil de entender los datos Por qué se ha reestructurado de una manera determinada |
PCA | Extracción de colinealidad La reducción de dimensiones del conjunto de datos | Puede reducir la dimensionalidad de datos | Implica fuertes supuestos lineales (componentes son una sumas ponderadas de características) |
K-means | Segmentación | Rápida en la búsqueda de grupos Puede detectar valores atípicos en múltiples dimensiones | Sufre de multicolinealidad Clusters son esféricas, no puede detectar grupos de otra forma soluciones inestables, depende de inicialización |