Cómo preparar los datos en un modelo de análisis predictivo r clasificación

Con el fin de ejecutar un análisis predictivo, usted tiene que obtener los datos en una forma que el algoritmo puede utilizar para construir un modelo. Para hacer eso, usted tiene que tomar algún tiempo para entender los datos y conocer su estructura. Escribir la función para averiguar la estructura de los datos. Esto es lo que parece:

gt; str (semillas) `data.frame`: 210 obs. de 8 variables: $ V1: num 14.9 14.3 13.8 15.3 16.1 ... $ V2: num 14.6 14.1 13.9 14.8 15 ... $ V3: num 0,881 0,905 0,895 0,871 0,903 $ ... V4: num 5,55 5,29 5,32 5,76 5,66. .. $ V5: num 3,31 3,33 3,34 3,38 3,56 ... $ V6: num 2,22 1,02 2,7 2,26 1,35 ... $ V7: num 5,22 4,96 4,83 4,8 5,17 $ ... V8: iNT 1 1 1 1 1 1 1 1 1 1 ...

De su análisis de la estructura, se puede decir que los datos necesitan una etapa de pre-procesamiento y un paso de conveniencia:

  • Cambiar el nombre de los nombres de columna. Esto no es estrictamente necesario, pero para los propósitos de este ejemplo, es más conveniente utilizar nombres de columna se puede entender y recordar.

  • Cambie el atributo con valores categóricos a un factor. La etiqueta tiene tres categorías posibles.

    Video: Análisis multivariante de datos. Métodos de clasificación y reducción de datos (URJCx)

Para cambiar el nombre de las columnas, escriba el siguiente código:

gt; COLNAMES (semillas) lt; - 
do("zona","perímetro","compacidad","longitud", "anchura","asimetría","longitud2","seedType")

A continuación, cambiar el atributo que tiene valores categóricos a un factor. El código siguiente cambia el tipo de datos a un factor:

gt; semillas $ seedType lt; - factores (semillas $ seedType)

Este comando termina la preparación de los datos para el proceso de modelado. La siguiente es una vista de la estructura después de que el proceso de preparación de los datos:

Video: Análisis predictivo con técnicas big data

gt; str (malas hierbas) `data.frame`: 210 obs. de 8 variables: $ de área: num 14.9 14.3 13.8 15.3 16.1 ... $ perimetrales: num 14.6 14.1 13.9 14.8 15 ... $ compacidad: num 0,881 0,905 0,895 0,871 0,903 ... $ longitud: num 5,55 5,29 5,32 5,76 5,66. .. $ anchura: num 3,31 3,33 3,34 3,38 3,56 ... $ asimetría: num 2,22 1,02 2,7 2,26 1,35 ... $ longitud2: num 5,22 4,96 4,83 4,8 5,17 ... $ seedType: Factor w / 3 niveles "1","2","3": 1 1 1 1 1 1 1 1 1 1 ...
Artículos Relacionados