Cómo preparar los datos para el análisis predictivo

Cuando usted está aprendiendo un nuevo lenguaje de programación, se acostumbra a escribir el programa “hola mundo”. Para el aprendizaje de máquina y análisis predictivo, la creación de un modelo para clasificar el conjunto de datos del iris es su “hola mundo” programa equivalente. Este es un ejemplo bastante simple, pero es muy eficaz en la enseñanza de los fundamentos de la máquina de aprendizaje y análisis predictivo.

¿Cómo obtener la muestra de datos

Para crear nuestro modelo predictivo, tendrá que descargar la muestra Iris conjunto de datos. Este conjunto de datos está disponible gratuitamente de muchas fuentes, especialmente en instituciones académicas que tienen departamentos de aprendizaje automático. Afortunadamente, la gente en eran lo suficientemente bueno para incluir algunos conjuntos de datos de muestra y las funciones de carga de datos junto con su paquete. A los efectos de estos ejemplos, lo único que necesita para ejecutar un par de simples líneas de código para cargar los datos.

Cómo etiquetar sus datos

Aquí es uno de observación y sus características de cada clase de la flor del iris del conjunto de datos.

sépalo Longitud	sépalo Ancho	Longitud pétalo	pétalo Ancho	Clase de destino / de la etiqueta
5.1	3.5	1.4	0.2	Setosa (0)
7.0	3.2	4.7	1.4	Versicolor (1)
6.3	3.3	6.0	2.5	Virginica (2)

El conjunto de datos flor del diafragma es un verdadero conjunto de datos multivariante de tres clases de la flor del iris (setosa del iris, iris virginica, y Iris versicolor) Introducido por Ronald Fisher en su artículo de 1936, “El uso de múltiples mediciones en taxonómica problemas.” Este conjunto de datos es mejor conocido por su amplio uso en el mundo académico para el aprendizaje de máquina y estadísticas.

El conjunto de datos consta de 150 casos en total, con 50 casos de cada una de las 3 clases de la flor del diafragma. La muestra tiene 4 características (también comúnmente llamados atributos), Que son las medidas de longitud y anchura de los sépalos y pétalos.

La parte interesante de este conjunto de datos es que las tres clases son algo linealmente separables. los setosa clase se puede separar de las otras dos clases dibujando una línea recta en el gráfico entre ellas. los virginica y versicolor las clases no pueden ser perfectamente separados utilizando una línea recta - a pesar de que está cerca. Esto hace que sea un conjunto de datos candidato perfecto para hacer análisis de clasificación, pero no tan bueno para la agrupación de análisis.

Video: La policía utiliza el análisis predictivo para reducir el crimen

Los datos de la muestra ya se marcó. La columna derecha (Label) anterior muestra los nombres de cada clase de la flor del diafragma. El nombre de la clase se llama etiqueta o una objetivo- por lo general es asignado a una variable llamada y. Es básicamente el resultado o el resultado de lo que se predijo.

En la estadística y la modelización, se refiere a menudo como la variable dependiente. Depende de las entradas que corresponden a sépalo longitud y anchura y para pétalo longitud y anchura.

También es posible que desee saber lo que es diferente acerca de la scikit preprocesado Iris conjunto de datos, en comparación con el conjunto de datos original. Para averiguarlo, es necesario obtener el archivo de datos original. Usted puede hacer una búsqueda en Google de conjunto de datos del iris y descargarlo o verlo desde cualquiera de las instituciones académicas.

El resultado que habitualmente aparece en primer lugar es la Universidad de California Irvine (UCI) repositorio de aprendizaje automático de conjuntos de datos. El conjunto de datos del iris en su estado original desde el repositorio UCI máquina de aprendizaje se puede encontrar en la página web de la UCI.

Video: Por qué aplicar la estrategia predictiva en en mantenimiento industrial

Si lo descarga, usted debería ser capaz de ver con cualquier editor de texto. Tras ver los datos en el archivo, se dará cuenta de que hay cinco columnas en cada fila. Las primeras cuatro columnas son las mediciones (que se refiere como el caracteristicas) Y la última columna es la etiqueta. La etiqueta difiere entre el original y scikit versiones del conjunto de datos del iris.

Otra diferencia es la primera fila del archivo de datos. Incluye una fila de cabecera utilizado por la scikit la función de carga de datos. No tiene ningún efecto en los propios algoritmos.

La normalización de las características de los números en lugar de mantenerlos en forma de texto hace que sea más fácil para los algoritmos de proceso - y es mucho más eficiente en la memoria. Esto es especialmente evidente si se ejecuta muy grandes conjuntos de datos con muchas características - que es a menudo el caso en escenarios reales.

Aquí está datos de la muestra de ambos archivos. Todas las columnas de datos son los mismos a excepción de COL5. Tenga en cuenta que scikit tiene nombres de las clases con labels- numérica el archivo original tiene etiquetas de texto.

Video: Analisis Predictivo con Analysis Services

Fuente	col1	col2	col3	col4	COL5
scikit	5.1	3.5	1.4	0.2	0
original	5.1	3.5	1.4	0.2	Iris-setosa
scikit	7.0	3.2	4.7	1.4	1
original	7.0	3.2	4.7	1.4	Iris-versicolor
scikit	6.3	3.3	6.0	2.5	2
original	6.3	3.3	6.0	2.5	Iris-virginica