¿Cómo generar datos derivados y reducir su dimensionalidad de análisis predictivo

En esta fase de exploración del análisis predictivo, obtendrá un conocimiento íntimo de sus datos - que a su vez le ayudará a elegir las variables relevantes para analizar. Este entendimiento también le ayudará a evaluar los resultados de su modelo. Pero primero hay que identificar y limpiar los datos para su análisis.

¿Cómo generar datos derivados

Los atributos derivados son completamente nuevos registros construidos a partir de uno o más atributos existentes. Un ejemplo podría ser la creación de registros que identifican los libros que son los más vendidos en las ferias del libro. Los datos en bruto no pueden capturar dichos registros - pero para el modelado de los propósitos, los registros derivados pueden ser importantes. relación y el promedio móvil de 200 días de ganancias de precio-por-son dos ejemplos de datos derivados que se utilizan mucho en las aplicaciones financieras.

Los atributos derivados se pueden obtener de cálculo simple, como la deducción de edad a partir de la fecha de nacimiento. Los atributos derivados también se pueden calcular con un resumen de la información de múltiples registros.

Por ejemplo, la conversión de una tabla de clientes y sus libros comprados en una tabla puede permitirle realizar un seguimiento del número de libros vendidos a través de un sistema de recomendación, a través de marketing dirigido, y en una feria del libro - e identificar las características demográficas de los clientes que compraron esos libros .

La generación de tales atributos adicionales traer poder predictivo adicional para el análisis. De hecho, muchos de estos atributos se crean con el fin de sondear su poder predictivo potencial. Algunos modelos predictivos pueden utilizar atributos derivados más que los atributos en su estado crudo. Si algunos atributos derivados resultan especialmente predictivo y su poder ha demostrado ser relevante, entonces tiene sentido para automatizar el proceso que las genera.

registros derivados son registros nuevos que aportan nueva información y proporcionar nuevas formas de presentar Data- prima que pueden ser de gran valor para el modelado predictivo.

¿Cómo reducir la dimensionalidad de los datos

Los datos utilizados en modelos de predicción por lo general se agruparon de múltiples fuentes. Su análisis se puede extraer de los datos dispersos a través de múltiples formatos de datos, archivos y bases de datos o tablas múltiples dentro de la misma base de datos. El agrupamiento de los datos juntos y combinar en un formato integrado para los modeladores de datos a utilizar es esencial.

Si los datos contienen ningún contenido jerárquico, es posible que tenga que ser aplanada. Algunos datos tiene algunas características jerárquicas, como las relaciones entre padres e hijos, o un registro que se compone de otros registros. Por ejemplo, un producto tal como un coche puede tener múltiples datos de aplanamiento makers-, en este caso, significa la inclusión de cada fabricante como una característica adicional del registro que está analizando.

Aplanamiento de datos es esencial cuando se fusionó a partir de múltiples registros relacionados para formar una mejor imagen.

Por ejemplo, el análisis de eventos adversos para varios medicamentos realizados por varias empresas pueden requerir que los datos se aplana en el nivel de sustancia. Al hacer esto, se termina la eliminación de la uno-a-muchos (En este caso, muchos fabricantes y muchas sustancias de un producto) que pueden causar demasiada duplicación de los datos mediante la repetición de entradas múltiples sustancias que se repiten información del producto y el fabricante en cada entrada.

Aplanamiento reduce la dimensionalidad de los datos, que está representado por el número de características un registro o una observación tiene.

Por ejemplo, un cliente puede tener las siguientes características: nombre, edad, dirección, artículos comprados. Al iniciar su análisis, usted puede encontrarse registros que evalúan con muchas características, sólo algunos de los cuales son importantes para el análisis. Por lo que debe eliminar todo pero las pocas características que tienen el mayor poder predictivo para su proyecto específico.

La reducción de la dimensionalidad de los datos se puede lograr poniendo todos los datos en una sola tabla que utiliza varias columnas para representar atributos de interés. Al comienzo del análisis, por supuesto, el análisis ha de evaluar un gran número de columnas - pero ese número puede ser reducido mientras progresa el análisis.

Este proceso puede ser ayudado mediante la reconstitución de los campos - por ejemplo, mediante la agrupación de los datos en categorías que tienen características similares.

El conjunto de datos resultante - el conjunto de datos limpiado - generalmente se coloca en una base de datos separada para los analistas de usar. Durante el proceso de modelado, estos datos deben ser de fácil acceso, logró, y se mantiene hasta la fecha.