Tamizar los datos que necesita

Cuando esté minería de datos, a veces usted tiene más datos de lo que necesita para un proyecto determinado. Así es como para reducirlas a todo lo que necesita.

El estrechamiento de los campos

Cuando tiene muchas variables en un conjunto de datos, que puede ser difícil de encontrar o ver los que le interesan. Y si sus conjuntos de datos son grandes, y que no necesitan todas las variables, manteniendo los extras absorbe recursos innecesariamente. Por lo tanto, a veces es necesario mantener algunas variables y soltar los demás. La figura muestra un ejemplo en el KNIME, donde la herramienta correcta se denomina filtro de columna.

Un ejemplo de configuración de esta herramienta se muestra en la siguiente figura.

Video: Cómo tamizar harina - Dulces Cupcakes Mallorca

Para limitar los campos, buscar una herramienta de selección de variables en su minería de datos Aplicación- estos se encuentran con otras herramientas para la manipulación de datos. Al igual que con otras herramientas de minería de datos, los nombres varían de un producto a otro. Busque variaciones de las palabras columna, variable, o campo, y selección o filtración.

Selección de los casos pertinentes

Los casos con datos incompletos pueden ser filtrados antes de construir el modelo. Extracción de los casos incompletos es un ejemplo común de selección de datos, o filtración.

Pero, ¿cómo habría que seleccionar sólo los casos relevantes para cada segmento que le interese? Tendrá que utilizar una herramienta de selección de datos.

La siguiente figura muestra una herramienta de selección de datos en otra aplicación de minería de datos.

La siguiente figura muestra cómo lo haces con esa herramienta para otro tipo de selección, éste basado en el valor de una variable.

Es común el uso de este tipo de selección de datos, y algunas aplicaciones proporcionan todo tipo de funciones integradas para ayudarle a definir con exactitud los casos que desee. Éste tiene alguna excepcional características- se muestra un resumen estadístico de la variable y te dice exactamente cuántos casos cumplen los criterios de selección.

La mayoría de las aplicaciones de minería de datos tienen herramientas para seleccionar sólo los casos que necesita. Mira en los menús (o buscar) para seleccionar o filtrar.

Muestreo

Una noción popular en estos días es que hay más datos mejores datos. Esto no es una idea nueva. aplicaciones de minería de datos siempre se han desarrollado para trabajar con grandes cantidades de datos. Incluso la “minería de datos” nombre indica grandes cantidades. Pero a menudo, trabajando con una muestra de sus datos le dará la información que es tan útil, a hacer su trabajo más fácil, y conservar su tiempo y recursos.

Video: ¿Qué es y Cómo Tamizar? | Harina y Levadura

El muestreo desempeña un papel importante en la minería de datos. Si los datos se equilibra que significa que el modelo utilizado números iguales de casos en cada uno de los grupos que se comparan (en ese ejemplo, los grupos eran propiedades que cambiado de manos y propiedades que no lo hicieron), a pesar de que un grupo tenía muchos más casos que la otra en los datos originales.

Posteriormente, los datos se divide, separa en un subconjunto de utilizar para la formación de un modelo y otro para la prueba. Usando sólo una muestra de los datos en una trama paralela coordina puede hacer que sea más fácil de ver e interpretar. (Diagramas de dispersión con miles de puntos pueden ser increíblemente difícil de leer!) Quizás lo más importante de todo, el muestreo solo reduce la cantidad de datos, así que las cosas funcionen más rápido.

Artículos Relacionados