Algoritmos de clasificación utilizados en la ciencia de datos

Con algoritmos de clasificación, se toma un conjunto de datos existente y utilizar lo que sabe sobre él para generar un modelo predictivo para su uso en la clasificación de los futuros puntos de datos. Si su objetivo es utilizar el conjunto de datos y sus subconjuntos conocidos para construir un modelo para predecir la clasificación de los futuros puntos de datos, tendrá que utilizar algoritmos de clasificación.

En la aplicación de la clasificación supervisada, usted ya debe saber subconjuntos de sus datos - estos subconjuntos se denominan categorías. La clasificación ayuda a ver lo bien que sus datos encaja en categorías predefinidas del conjunto de datos de modo que usted puede construir un modelo predictivo para su uso en la clasificación de los futuros puntos de datos.

La figura ilustra cómo se ve a clasificar a ingresos y educación conjuntos de datos del Banco Mundial según la categoría Continente.

Se puede ver que, en algunos casos, los subconjuntos es posible identificar con una técnica de agrupación se corresponden a la categoría de los continentes, pero en otros casos, no lo hacen. Por ejemplo, mira el país asiático en medio de los puntos de datos africanos. Eso es Bután. Se podría utilizar los datos de esta base de datos para construir un modelo que podría predecir una categoría continente para los puntos de datos entrantes.

Video: Yo ciencia de datos y Demo de Algoritmos de ML

Pero si usted introdujo un punto de datos para un nuevo país que mostró estadísticas similares a las de Bután, entonces el nuevo país podría clasificarse como parte de cualquiera de los dos el continente asiático o el continente africano, dependiendo de cómo se defina su modelo.

Ahora imaginar una situación en la que los datos originales no incluye Bhután, y se utiliza el modelo para predecir continente de Bután como un nuevo punto de datos. En este escenario, el modelo predice erróneamente que Bhután es parte del continente africano.

Video: Curso: Algoritmos y Estructura de Datos - Ordenamiento Por Selección

Esto es un ejemplo de modelo de sobreajuste - situaciones en las que un modelo tan fuertemente ajuste a su conjunto de datos subyacente, así como el ruido o error aleatorio inherente a ese conjunto de datos, que el modelo funciona mal como predictor de nuevos puntos de datos.

Para evitar el sobreajuste sus modelos, dividir sus datos en un conjunto de entrenamiento y un conjunto de prueba. Una relación típica es asignar 80 por ciento de los datos en el conjunto de entrenamiento y el restante 20 por ciento en el conjunto de prueba. Construir su modelo con el conjunto de entrenamiento, y luego usar el teléfono de prueba para evaluar el modelo con la pretensión de que los puntos de datos de prueba de conjunto son desconocidos. Puede evaluar la exactitud de su modelo mediante la comparación de las categorías asignadas a estos puntos de datos de prueba, establecido por el modelo de las categorías verdaderos.

generalización excesiva modelo también puede ser un problema. sobregeneralización es lo contrario de sobreajuste: Ocurre cuando un científico de datos trata de evitar errores de clasificación debido a un ajuste por exceso al hacer un modelo muy general. Modelos que son demasiado generales terminan asignando cada categoría un bajo grado de confianza.

Para ilustrar modelo de generalización excesiva, considere de nuevo el Ingreso del Banco Mundial y Educación conjuntos de datos. Si el modelo utiliza la presencia de Bután para poner en duda cada nuevo punto de datos en su proximidad cercana, a continuación, usted termina con un modelo insípida que trata a todos los puntos cercanos, africano, pero con una baja probabilidad. Este modelo sería un artista predictivo pobre.

Una buena metáfora de sobreajuste y generalización excesiva puede ilustrarse a través de la conocida frase, “Si camina como un pato y habla como un pato, entonces es un pato.” Overfitting sería convertir esta frase en: “Es un pato si, y sólo si, se camina y grazna exactamente de la manera que he observado personalmente un pato a caminar y charlatán. Ya que nunca he observado la forma de un pato manchado australiana camina y grazna, un pato manchado australiano no debe realmente ser un pato en absoluto “.

Por el contrario, la generalización excesiva podría decir: “Si se mueve en torno a dos patas y emite ningún sonido agudo, nasal, es un pato. Por lo tanto, Fran Fine, el personaje de Fran Drescher en los años 90 serie estadounidense La niñera debe ser un pato “.

Video: Algoritmos y Metodos de Ordenacion Estructura de Datos

aprendizaje automático supervisado - el término de lujo para la clasificación - es apropiada en situaciones en las que las siguientes características son ciertas:

  • Usted sabe y entiende el conjunto de datos que está analizando.

  • Los subconjuntos (categorías) de su conjunto de datos se definen antes de tiempo y no están determinados por los datos.

  • Usted quiere construir un modelo que correlaciona los datos dentro de sus categorías predefinidas para que el modelo puede ayudar a predecir la clasificación de los futuros puntos de datos.

Video: Algoritmos I (C++) - Teoría

Al realizar la clasificación, mantenga los siguientes puntos en mente:

  • Las predicciones del modelo son tan buenos como los datos subyacentes del modelo. En el ejemplo de datos del Banco Mundial, podría darse el caso de que, si se añaden otros factores como la esperanza de vida o el uso de energía per cápita al modelo, su fuerza predictiva podría aumentar.

  • Las predicciones del modelo son sólo tan buena como la clasificación del conjunto de datos subyacente. Por ejemplo, ¿qué hacer con países como Rusia, que abarcan dos continentes? Se puede distinguir el norte de África desde el África subsahariana? ¿Se Lump América del Norte en Europa con, ya que tienden a compartir los atributos similares? ¿Se considera Centroamérica para ser parte de América del Norte o del Sur?

Existe el peligro constante de sobreajuste y generalización excesiva. Un término medio debe encontrarse entre los dos.

Artículos Relacionados