Fase 4 del modelo de proceso crisp-dm: el modelado

El modelado es la parte del proceso estándar entre la industria de la minería de datos (CRISP-DM) modelo de proceso que la mayoría de los mineros de datos como el mejor. Sus datos ya está en buena forma, y ​​ahora se puede buscar patrones útiles en sus datos.

La fase de modelado incluye cuatro tareas. Estos son

  • Selección de técnicas de modelado

  • prueba (s) Proyectos

  • La construcción de modelos)

  • La evaluación del modelo (s)

Tarea: Selección de técnicas de modelado

El maravilloso mundo de la minería de datos ofrece montones de técnicas de modelado, pero no todos ellos se adapte a sus necesidades. Reducir la lista sobre la base de los tipos de variables que intervienen, la selección de las técnicas disponibles en sus herramientas, y cualquier aspecto del negocio que son importantes para usted.

Por ejemplo, muchas organizaciones prefieren métodos con la salida que es fácil de interpretar, por lo que los árboles de decisión o una regresión logística podría ser aceptable, pero probablemente no se aceptarán las redes neuronales.

Entregables para esta tarea incluyen dos informes:

  • técnica de modelado: Especificar la técnica (s) que va a utilizar.

    Video: Modelo CRISP-DM

  • supuestos del modelo: Muchas técnicas de modelado se basan en ciertas suposiciones. Por ejemplo, un tipo de modelo puede estar destinado para su uso con datos que tiene un tipo específico de distribución. Documentar estos supuestos en el presente informe.

Los estadísticos están bien informados, estricta y exigente con la hipótesis. Eso no es necesariamente cierto para la minería de datos, y no es un requisito para convertirse en un minero de datos. Si usted tiene conocimiento estadístico profundo y entender los supuestos detrás de los modelos que seleccione, puede ser estricto y exigente con la hipótesis.

Pero muchos mineros de datos, especialmente los mineros de datos novatos, No se complique mucho más suposiciones. La alternativa es la prueba - montones y montones de pruebas - de sus modelos.

Tarea: Diseño de pruebas

La prueba de esta tarea es la prueba que se va a utilizar para determinar qué tan bien funciona el modelo. Puede ser tan simple como dividir sus datos en un grupo de casos para la formación de modelo y otro grupo para las pruebas de modelo.

Video: The intersection of data and creativity (plus CRISP-DM)

Los datos de entrenamiento se utiliza para adaptarse a las formas matemáticas para el modelo de datos, y los datos de prueba se utiliza durante el proceso de modelo de entrenamiento para evitar sobreajuste: hacer un modelo que es perfecto para un conjunto de datos, pero ningún otro. También puede utilizar datos de exclusión, datos que no se utiliza durante el proceso de modelo de formación, una prueba adicional.

El entregable para esta tarea es el diseño de la prueba. No tiene que ser elaborado, pero al menos debe tener cuidado de que sus datos de entrenamiento y de prueba son similares y que evitar la introducción de cualquier sesgo en los datos.

modelo (s) Construcción: Tarea

El modelado es lo que mucha gente se imagina que todo el trabajo de la minería de datos, pero es sólo una tarea de docenas! No obstante, el modelado de hacer frente a los objetivos de negocio específicos es el corazón de la profesión de minería de datos.

Entregables para esta tarea incluyen tres elementos:

  • Ajustes de parámetros: Cuando la construcción de modelos, la mayoría de las herramientas le dará la opción de ajustar una variedad de entornos, y esta configuración tiene un impacto en la estructura del modelo final. Documentar estas configuraciones en un informe.

  • descripciones de los modelos: Describir sus modelos. Indicar el tipo de modelo (como regresión lineal o red neural) y las variables utilizadas. Explicar cómo se interpreta el modelo. Documentar las dificultades encontradas en el proceso de modelado.

  • modelos: Esta realización es los mismos modelos. Algunos tipos de modelos se pueden definir fácilmente con un simple demás equation- son demasiado complejas y deben ser transmitidos en un formato más sofisticado.

Tarea: La evaluación del modelo (s)

Ahora se va a revisar los modelos que ha creado, desde un punto de vista técnico y también desde un punto de vista comercial (a menudo con la participación de expertos en negocios en su equipo de proyecto).

Entregables para esta tarea incluyen dos informes:

  • Modelo de evaluación: Resume la información desarrollada en su revisión del modelo. Si ha creado varios modelos, es posible clasificarlos en función de su evaluación de su valor para una aplicación específica.

  • ajustes de los parámetros revisados: Usted puede optar por realizar ajustes precisos que se utilizaron para construir el modelo y llevar a cabo otra ronda de modelado y tratar de mejorar sus resultados.

La minería de datos, como una cebolla, una torta Dobos, o una roca sedimentaria, tiene un montón de capas. Cuando acaba de empezar en la minería de datos, puede empezar por dejar los ajustes de parámetros a sus valores por defecto (de hecho, puede que ni siquiera se dará cuenta opciones a menos que haga un esfuerzo para buscarlos).

A medida que se sienta cómodo en su nueva carrera de minería de datos, tendrá sentido para usted para averiguar acerca de los parámetros del modelo y saber cómo puede utilizarlos. Las opciones varían ampliamente con el tipo de modelo y herramienta específica que está utilizando.

Artículos Relacionados