La elección del algoritmo adecuado para el aprendizaje de máquina

Video: Algoritmo de aprendizaje por refuerzo

El aprendizaje automático implica el uso de muchos algoritmos diferentes. Esta tabla le da un resumen rápido de los puntos fuertes y débiles de los diferentes algoritmos.

Algoritmo	mejor en	Pros	Contras
Random Forest	Apt a casi cualquier problema de aprendizaje automático bioinformática	Pueden trabajar en paralelo overfits rara vez Maneja automáticamente los valores que faltan No hay necesidad de transformar cualquier variable No hay necesidad de ajustar los parámetros Puede ser utilizado por cualquier persona con excelentes resultados	Difíciles de interpretar Más débil en la regresión cuando la estimación de los valores en los extremos de la distribución de los valores de respuesta Sesgado a problemas multiclase hacia las clases más frecuentes
Impulsar gradiente	Apt a casi cualquier problema de aprendizaje automático Los motores de búsqueda (la solución del problema de aprendizaje para clasificar)	Se puede aproximar más función no lineal El mejor predictor de la clase Maneja automáticamente los valores que faltan No hay necesidad de transformar cualquier variable	Puede overfit si se ejecuta para demasiadas iteraciones Sensible a los datos de ruido y valores atípicos No funciona bien sin ajuste de parámetros
Regresión lineal	predicciones de línea de base predicciones econométricas respuestas de marketing de modelado	Sencillo de entender y explicar Rara vez overfits El uso de L1 & L2 regularización es eficaz en la selección de características Rápido para entrenar Fácil de entrenar en grandes volúmenes de datos gracias a su versión estocástica	Hay que trabajar duro para hacer que encaje funciones no lineales Pueden sufrir de valores atípicos
Máquinas de Vectores Soporte	El reconocimiento de caracteres Reconocimiento de imagen clasificación de texto	Creación automática característica no lineal Se puede aproximar funciones no lineales complejas	Difíciles de interpretar cuando se aplica granos no lineales Sufre de demasiados ejemplos, después de 10.000 ejemplos que comienza a tomar demasiado tiempo para entrenar
K-vecinos más cercanos	Visión por computador etiquetado Multilabel Los sistemas de recomendación Hechizo problema con el registro	, Formación perezoso rápido naturalmente, puede manejar los problemas multiclase extremas (como texto etiquetado)	Lento y engorroso en la fase de predicción Puede dejar de predecir correctamente debido a la maldición de la dimensionalidad
Adaboost	Detección de rostro	Maneja automáticamente los valores que faltan No hay necesidad de transformar cualquier variable No overfit facilidad Unos parámetros pellizquen Se puede aprovechar muchas diferentes débiles-aprendices	Sensible a los datos de ruido y valores atípicos Nunca la mejor clase de predicciones
naive Bayes	Reconocimiento facial Análisis de los sentimientos La detección de spam clasificación de texto	Fácil y rápido de implementar, no requiere demasiada memoria y no puede ser utilizado para el aprendizaje en línea Fácil de comprender Tiene en cuenta el conocimiento previo	supuestos fuertes y poco realistas independencia función Falla la estimación de ocurrencias raras Sufre de características irrelevantes
Redes neuronales	Reconocimiento de imagen el reconocimiento del lenguaje y la traducción Reconocimiento de voz reconocimiento de la visión	Se puede aproximar cualquier función no lineal Robusta a los valores atípicos Sólo funciona con una porción de los ejemplos (los vectores de soporte)	Muy difícil de configurar Difícil de ajustar debido a demasiados parámetros y también se tiene que decidir la arquitectura de la red Difíciles de interpretar Fácil de overfit
Regresión logística	Pedido de resultados por probabilidad respuestas de marketing de modelado	Sencillo de entender y explicar Rara vez overfits El uso de L1 & L2 regularización es eficaz en la selección de características El mejor algoritmo para predecir la probabilidad de un evento Rápido para entrenar Fácil de entrenar en grandes volúmenes de datos gracias a su versión estocástica	Hay que trabajar duro para hacer que encaje funciones no lineales Pueden sufrir de valores atípicos
SVD	Los sistemas de recomendación	Puede reestructurar los datos de una manera significativa	Difícil de entender los datos Por qué se ha reestructurado de una manera determinada
PCA	Extracción de colinealidad La reducción de dimensiones del conjunto de datos	Puede reducir la dimensionalidad de datos	Implica fuertes supuestos lineales (componentes son una sumas ponderadas de características)
K-means	Segmentación	Rápida en la búsqueda de grupos Puede detectar valores atípicos en múltiples dimensiones	Sufre de multicolinealidad Clusters son esféricas, no puede detectar grupos de otra forma soluciones inestables, depende de inicialización