Cómo preparar los datos de regresión r para análisis predictivo

Usted tiene que obtener los datos en una forma que el algoritmo puede utilizar para construir un modelo de análisis predictivo. Para ello, usted tiene que tomar algún tiempo para entender los datos y conocer la estructura de los datos. Escribir la función para averiguar la estructura de los datos. El comando y su salida se ven así:

gt; str (automóviles) `hoja.de.datos`: 398 des. de 9 variables: $ V1: num 18 15 18 16 17 15 14 14 14 15 ... $ V2: int 8 8 8 8 8 8 8 8 8 8 ... $ V3: num 307 350 318 304 302 429 454 440 455 390 ... $ V4: CHR "130,0" "165,0" "150,0" "150,0" ... $ V5: num 3504 3693 3436 3433 3449 ... $ V6: num 12 11,5 11 12 10,5 10 10 9 8.5 8.5 ... $ V7: int 70 70 70 70 70 70 70 70 70 70 ... $ V8: int 1 1 1 1 1 1 1 1 1 1 ... $ V9: Factor w / 305 niveles "amc Brougham embajador", ..:
50 37 232 15 162 142 55 224 242 2 ...

De su análisis de la estructura, se puede decir que hay una cierta preparación de los datos y la limpieza de hacer. He aquí una lista de las tareas necesarias:

  • Cambiar el nombre de los nombres de columna.

    Esto no es estrictamente necesario, pero para los propósitos de este ejemplo, es mejor utilizar nombres de columna se puede entender y recordar.

  • Cambiar el tipo de datos de V4 (caballo de fuerza) A una numérico tipo de datos.

    En este ejemplo, caballo de fuerza es un valor numérico continuo y no una personaje tipo de datos.

  • Manejar los valores que faltan.

    aquí caballo de fuerza tiene seis valores que faltan.

  • Cambiar los atributos que tienen valores discretos a factores.

    Video: Regresión lineal múltiple: cálculo con excel; lógica y explicación de parámetros

    aquí cilindros, año del modelo, y origen tener valores discretos.

  • Descartar el V9 (nombre de coche) Atributo.

    Video: Regresion lineal multiple EXCEL

    aquí nombre de coche no añade valor al modelo que se está creando. Si el origen atributo no se les dio, que podría haber derivado el origen de la nombre de coche atributo.

Para cambiar el nombre del tipo columnas en el siguiente código:

Video: REGRESION LINEAL SIMPLE

gt; COLNAMES (autos) lt; - 
do("mpg","cilindros","desplazamiento","caballo de fuerza", "peso","aceleración","modelo del año","origen",
"carName")

A continuación, cambiar el tipo de datos de caballo de fuerza a numérico con el siguiente código:

Video: Regresion Lineal en Excel para Pronósticos

gt; Autos $ caballos de fuerza lt; - as.numeric (autos $ caballos de fuerza)

El programa se quejan porque no todos los valores en caballos de fuerza eran representaciones de cadena de números. Hubo algunos valores perdidos que estaban representados como el carácter “?”. Eso está bien por ahora porque R convierte cada instancia de ? dentro N / A.

Una forma común para manejar los valores perdidos de las variables continuas es reemplazar cada valor que falta con la media de toda la columna. La siguiente línea de código que:

gt; Autos $ caballos de fuerza [is.na ($ automóviles caballos de fuerza)] lt; - media (autos $ caballos de fuerza, na.rm = TRUE)

Es importante tener na.rm-TRUE en el media función. Se dice que la función no utilizar columnas con valores nulos en su cálculo. Sin ella, la función devolverá.

A continuación, cambiar los atributos con valores discretos de factores. Tres atributos han sido identificados como discreta. Las siguientes tres líneas de código cambian los atributos.

gt; Autos $ origen lt; - factor de (autos $ origen) gt; Autos $ modelo del año lt; - factores (autos $ modelo del año) gt; cilindros de autos $ lt; - factores (autos cilindros $)

Por último, quite el atributo de la trama de datos con esta línea de código:

gt; Autos $ carName lt; - NULL

En este punto, usted ha terminado de preparar los datos para el proceso de modelado. La siguiente es una vista de la estructura después de que el proceso de preparación de los datos:

gt; str (automóviles) `hoja.de.datos`: 398 des. de 8 variables: $ mpg: num 18 15 18 16 17 15 14 14 14 15 ... $ cilindros: Factor w / 5 niveles "3","4","5","6", ..:
5 5 5 5 5 5 5 5 5 5 ... $ desplazamiento: num 307 350 318 304 302 429 454 440 455 390 ... $ caballos de fuerza: num 130 165 150 150 140 198 220 215 225 190 ... $ peso: num 3504 3693 3436 3433 3449. . . $ Aceleración: num 12 11,5 11 12 10,5 10 10 8,5 8,5 9 ... $ modelo del año: Factor w / 13 niveles "70","71","72", ..:
1 1 1 1 1 1 1 1 1 1 ... $ origen: Factor w / 3 niveles "1","2","3":
1 1 1 1 1 1 1 1 1 1 ...
Artículos Relacionados