El aprendizaje automático: crear sus propias características de los datos

A veces los datos en bruto se obtiene de diversas fuentes no tendrá las características necesarias para realizar tareas de aprendizaje automático. Cuando esto sucede, usted debe crear sus propias características con el fin de obtener el resultado deseado. La creación de una característica no significa la creación de datos desde el aire. Se crean nuevas características a partir de datos existentes.

La comprensión de la necesidad de crear características

Una gran limitación de los algoritmos de aprendizaje automático es que puede ser imposible de adivinar una fórmula que podría enlazar su respuesta a las características que se está usando. A veces, esta incapacidad de adivinar sucede porque no se puede asignar la respuesta utilizando la información que tiene disponible (lo que significa que usted no tiene la información correcta). En otros casos, la información que no ayuda al algoritmo de aprender correctamente.

Video: What Makes a Good Feature? - Machine Learning Recipes #3

Por ejemplo, si usted está modelando el precio de las propiedades inmobiliarias, la superficie de la tierra es bastante predecible porque las propiedades más grandes tienden a costar más. Pero si en lugar de la superficie, que proporciona su algoritmo de aprendizaje automático con la longitud de los lados de la tierra (las coordenadas de latitud y longitud de sus esquinas), el algoritmo no puede averiguar qué hacer con la información que ya ha proporcionado. Algunos algoritmos conseguirán encontrar la relación entre las características, pero la mayoría de los algoritmos no.

La respuesta a este problema es la creación de operaciones. creación de la operación es la parte de la máquina de aprendizaje que se considera más un arte que una ciencia, ya que implica la intervención humana en la mezcla de manera creativa las características existentes. De llevar a cabo esta tarea por medio de la suma, resta, multiplicación, y la relación de generar nuevos rasgos derivados con mayor poder predictivo que las originales.

Video: Inteligencia artificial y aprendizaje automático

Conociendo bien el problema y encontrar la manera de un ser humano resolvería es parte de la creación de operaciones. Por lo tanto, la conexión con el ejemplo anterior, el hecho de que la superficie de la tierra se conecta con el precio de la propiedad es de conocimiento común. Si la superficie no se encuentra en sus funciones cuando se trata de adivinar el valor de una propiedad, puede recuperar esa información de los datos existentes - y al hacerlo aumenta el rendimiento de las predicciones.

Independientemente de si usted confía en el sentido común, el conocimiento común, o conocimientos especializados, se puede hacer mucho por su algoritmo de la máquina si primero averiguar qué información debe trabajar lo mejor para el problema y luego tratar de tenerlo disponible o derivarla de entre sus características.

Creación de funciones de forma automática

Puede crear algunas nuevas características de forma automática. Una forma de lograr la creación de operaciones automática es utilizar la expansión polinómica. formas específicas están disponibles para lograr la expansión polinómica de manera que se crea automáticamente características en ambos R y Python. Por el momento, es necesario comprender los conceptos detrás de la expansión polinómica.

En la expansión polinómica, se crea automáticamente las interacciones entre las características, así como crear poderes (por ejemplo, calculando el cuadrado de una función). Las interacciones se basan en la multiplicación de las características. La creación de una nueva función por medio de la multiplicación ayuda a hacer un seguimiento de cómo las características tienden a comportarse como un todo. Por lo tanto, ayuda a mapear las relaciones complejas entre sus características que puede hacer alusión a situaciones especiales.

Un gran ejemplo de una interacción es el ruido emitido por un coche y el precio del coche. Los consumidores no aprecian coches ruidosos a menos que comprar un coche deportivo, en cuyo caso el ruido del motor es un plus que recuerda al dueño de la energía del coche. También hace que los espectadores notan el coche fresco, por lo que el ruido juega un gran papel en mostrar porque el ruido sin duda atraerá la atención de los demás. Por otro lado, el ruido cuando se conduce un coche de la familia no es todo lo que se enfríe.

En una aplicación de aprendizaje automático, al tratar de predecir la tasa de preferencia por un determinado coche, características tales como el ruido y el precio del coche son predictivos por sí mismos. Sin embargo, multiplicando los dos valores y agregarlos al conjunto de características puede hacer alusión inequívoca a un algoritmo de aprendizaje que el objetivo es un coche deportivo (cuando se multiplica altos niveles de ruido por un precio muy alto).

Poderes ayudan mediante la creación de relaciones no lineales entre la respuesta y las características, haciendo alusión a situaciones específicas.

Como otro ejemplo, imagina que tienes para predecir los gastos anuales de una persona. La edad es un buen predictor debido a que las personas crecen, su vida y su situación familiar cambio de edad y madurez, también. Los estudiantes comienzan pobre pero luego encontrar trabajo y se puede construir una familia. Desde un punto de vista general, los gastos tienden a crecer como lo hace la edad hasta un cierto punto. Jubilación por lo general marca un punto en el que los gastos tienden a disminuir. Edad contiene dicha información, pero es una característica que tiende a crecer, y relacionando los gastos a su crecimiento no ayuda a describir la inversión que se produce a una edad determinada.

La adición de la función cuadrado ayuda a crear un efecto contrario a la edad en sí, que es pequeño al principio, pero crece rápidamente con la edad. El efecto final es una parábola, con un crecimiento inicial caracterizado por un pico en los gastos a cierta edad, y luego una disminución.

Video: “Machine Learning en ocho minutos” en KeepCoding Connect

Como se mencionó al principio, saber de antemano esa dinámica (ruido y los deportes de automóviles, el consumo y la edad anciano) puede ayudar a crear las características adecuadas. Pero si usted no sabe estas dinámicas de antemano, la expansión polinómica creará automáticamente para usted, ya que, dado un cierto orden, se creará interacciones y los poderes de ese orden. El orden va a señalar el número de multiplicaciones y la potencia máxima que se aplica a las características existentes.

Por lo que una expansión polinómica de orden 2 plantea todas las características a la segunda potencia y multiplica todas las características individuales de todos los demás. (Se obtiene la multiplicación de todas las combinaciones de dos características.) Es evidente que, cuanto mayor sea el número, se crearán las nuevas características más, pero muchos de ellos serán redundantes y apenas contribuye a hacer que su algoritmo de aprendizaje automático overfit los datos.

Cuando se utiliza la expansión polinómica, hay que prestar atención a la explosión de las características que está creando. Poderes aumentan de forma lineal, por lo que si usted tiene cinco características y necesita una expansión de orden 2, cada característica se eleva hasta la segunda potencia. El aumento del orden de un sólo añade una nueva característica de potencia para cada rasgo original. En cambio, las interacciones aumentan basan en combinaciones de las características hasta ese orden.

De hecho, con cinco características y una expansión polinómica de orden 2, los diez combinaciones únicas del acoplamiento de las características se crean. El aumento de la orden de 3 requerirá la creación de todas las combinaciones únicas de dos variables, además de las combinaciones únicas de tres variables, es decir, 20 funciones.

Artículos Relacionados