La minería de datos para los datos grande

Video: Minería de Datos, por explainers.tv

La minería de datos consiste en explorar y analizar grandes cantidades de datos para encontrar patrones de grandes volúmenes de datos. Las técnicas salieron de los campos de la estadística y la inteligencia artificial (IA), con un poco de gestión de base de datos produce en la mezcla.

En general, el objetivo de la minería de datos es o bien la clasificación o predicción. En la clasificación, la idea es ordenar los datos en grupos. Por ejemplo, un vendedor podría estar interesado en las características de los que respondieron en comparación con quienes no respondieron a una promoción.

Se trata de dos clases. En la predicción, la idea es predecir el valor de una variable continua. Por ejemplo, un vendedor podría estar interesado en la predicción de los que será responder a una promoción.

algoritmos típicos utilizados en la minería de datos incluyen los siguientes:

árboles de clasificación: Una técnica de minería de datos popular que se utiliza para clasificar una variable dependiente categórica basada en mediciones de una o más variables predictoras. El resultado es un árbol con nodos y enlaces entre los nodos que pueden ser leídos para formar reglas si-entonces.
Regresión logística: Una técnica estadística que es una variante de regresión estándar sino que se extiende el concepto de tratar clasificación. Produce una fórmula que predice la probabilidad de la ocurrencia como una función de las variables independientes.
Redes neuronales: Un algoritmo de software que se modela después de la arquitectura paralela de los cerebros de animales. La red consta de nodos de entrada, capas ocultas y nodos de salida. Cada unidad se le asigna un peso. Los datos se da al nodo de entrada, y por un sistema de prueba y error, el algoritmo ajusta los pesos hasta que se encuentra un cierto criterio de parada. Algunas personas han comparado a un enfoque de recuadro negro.
técnicas de agrupamiento como K-vecinos más cercanos: Una técnica que identifica grupos de registros similares. El K-cercano vecino técnica calcula las distancias entre el disco y puntos en los datos históricos (formación). Se asigna entonces este registro a la clase de su vecino más cercano en un conjunto de datos.

Aquí está un ejemplo de clasificación de árboles. Tenga en cuenta la situación en la que una compañía telefónica quiere determinar qué clientes residenciales es probable que desconectar su servicio.

La compañía telefónica tiene información que consta de los siguientes atributos: el tiempo que la persona ha tenido el servicio, la cantidad que gasta en el servicio, si el servicio ha sido problemático, ya que tiene el mejor plan de llamadas que necesita, dónde vive, cómo la edad que tiene, si tiene otros servicios empaquetados juntos, información sobre la competencia en relación con otros planes de portadores, y si aún tiene el servicio.

Por supuesto, se pueden encontrar muchos más atributos que esto. El último atributo es el resultado variable que esto es lo que el software utilizará para clasificar los clientes en uno de los dos grupos - tal vez llamados Medio Fondo y los riesgos de vuelo.

El conjunto de datos se divide en datos de entrenamiento y un conjunto de datos de prueba. Los datos de entrenamiento consiste en observaciones (llamadas atributos) y una variable de resultado (binario en el caso de un modelo de clasificación) - en este caso, los que se quedan o los riesgos de vuelo.

El algoritmo se ejecuta sobre los datos de entrenamiento y viene con un árbol que puede ser leído como una serie de reglas. Por ejemplo, si los clientes han estado en la compañía desde hace más de diez años y son más de 55 años de edad, que es probable que permanezcan como clientes leales.

Estas reglas son luego se extienden sobre los datos de prueba establecidos para determinar lo bueno que este modelo se encuentra en “nuevos datos”. Se proporcionan medidas de precisión del modelo. Por ejemplo, una técnica popular es la matriz de confusión. Esta matriz es una tabla que proporciona información sobre el número de casos fueron clasificados correctamente frente incorrectamente.

Video: MINERIA DE DATOS PARA LA INVESTIGACION CIENTIFICA

Si el modelo se ve bien, se puede implementar en otros datos, ya que está disponible (es decir, utilizarlo para predecir nuevos casos de peligro de fuga). Basado en el modelo, la empresa podría decidir, por ejemplo, para enviar ofertas especiales para aquellos clientes a quienes se cree que son los riesgos de vuelo.