La elección del algoritmo adecuado para el aprendizaje automático

Video: Algoritmo de aprendizaje por refuerzo

El aprendizaje automático implica el uso de muchos algoritmos diferentes. Esta tabla le da un resumen rápido de los puntos fuertes y débiles de los diferentes algoritmos.

Algoritmomejor enProsContras
Random ForestApt a casi cualquier problema de aprendizaje automático

bioinformática
Pueden trabajar en paralelo

overfits rara vez

Maneja automáticamente los valores que faltan

No hay necesidad de transformar cualquier variable

No hay necesidad de ajustar los parámetros

Puede ser utilizado por cualquier persona con excelentes resultados
Difíciles de interpretar

Más débil en la regresión cuando la estimación de los valores en los extremos de la distribución de los valores de respuesta

Sesgado a problemas multiclase hacia las clases más frecuentes
Impulsar gradienteApt a casi cualquier problema de aprendizaje automático

Los motores de búsqueda (la solución del problema de aprendizaje para clasificar)
Se puede aproximar más función no lineal

El mejor predictor de la clase

Maneja automáticamente los valores que faltan

No hay necesidad de transformar cualquier variable
Puede overfit si se ejecuta para demasiadas iteraciones

Sensible a los datos de ruido y valores atípicos

No funciona bien sin ajuste de parámetros
Regresión linealpredicciones de línea de base

predicciones econométricas

respuestas de marketing de modelado
Sencillo de entender y explicar

Rara vez overfits

El uso de L1 & L2 regularización es eficaz en la selección de características

Rápido para entrenar

Fácil de entrenar en grandes volúmenes de datos gracias a su versión estocástica
Hay que trabajar duro para hacer que encaje funciones no lineales

Pueden sufrir de valores atípicos
Máquinas de Vectores SoporteEl reconocimiento de caracteres

Reconocimiento de imagen

clasificación de texto
Creación automática característica no lineal

Se puede aproximar funciones no lineales complejas
Difíciles de interpretar cuando se aplica granos no lineales

Sufre de demasiados ejemplos, después de 10.000 ejemplos que comienza a tomar demasiado tiempo para entrenar
K-vecinos más cercanosVisión por computador

etiquetado Multilabel

Los sistemas de recomendación

Hechizo problema con el registro
, Formación perezoso rápido

naturalmente, puede manejar los problemas multiclase extremas (como texto etiquetado)
Lento y engorroso en la fase de predicción

Puede dejar de predecir correctamente debido a la maldición de la dimensionalidad
AdaboostDetección de rostroManeja automáticamente los valores que faltan

No hay necesidad de transformar cualquier variable

No overfit facilidad

Unos parámetros pellizquen

Se puede aprovechar muchas diferentes débiles-aprendices
Sensible a los datos de ruido y valores atípicos

Nunca la mejor clase de predicciones
naive BayesReconocimiento facial

Análisis de los sentimientos

La detección de spam

clasificación de texto
Fácil y rápido de implementar, no requiere demasiada memoria y no puede ser utilizado para el aprendizaje en línea

Fácil de comprender

Tiene en cuenta el conocimiento previo
supuestos fuertes y poco realistas independencia función

Falla la estimación de ocurrencias raras

Sufre de características irrelevantes
Redes neuronalesReconocimiento de imagen

el reconocimiento del lenguaje y la traducción

Reconocimiento de voz

reconocimiento de la visión
Se puede aproximar cualquier función no lineal

Robusta a los valores atípicos

Sólo funciona con una porción de los ejemplos (los vectores de soporte)
Muy difícil de configurar

Difícil de ajustar debido a demasiados parámetros y también se tiene que decidir la arquitectura de la red

Difíciles de interpretar

Fácil de overfit
Regresión logísticaPedido de resultados por probabilidad

respuestas de marketing de modelado
Sencillo de entender y explicar

Rara vez overfits

El uso de L1 & L2 regularización es eficaz en la selección de características

El mejor algoritmo para predecir la probabilidad de un evento

Rápido para entrenar

Fácil de entrenar en grandes volúmenes de datos gracias a su versión estocástica
Hay que trabajar duro para hacer que encaje funciones no lineales

Pueden sufrir de valores atípicos
SVDLos sistemas de recomendaciónPuede reestructurar los datos de una manera significativaDifícil de entender los datos Por qué se ha reestructurado de una manera determinada
PCAExtracción de colinealidad

La reducción de dimensiones del conjunto de datos
Puede reducir la dimensionalidad de datosImplica fuertes supuestos lineales (componentes son una sumas ponderadas de características)
K-meansSegmentaciónRápida en la búsqueda de grupos

Puede detectar valores atípicos en múltiples dimensiones
Sufre de multicolinealidad

Clusters son esféricas, no puede detectar grupos de otra forma

soluciones inestables, depende de inicialización

Artículos Relacionados