Fundamentos de datos estructurados y no estructurados en análisis predictivo

Los datos contenidos en las bases de datos, documentos, correos electrónicos y otros archivos de datos para el análisis predictivo pueden clasificarse ya sea como datos estructurados o no estructurados. Estructurado datos está bien organizada, sigue un orden consistente, es relativamente fácil de buscar y consulta, y se puede acceder fácilmente y entendido por una persona o un programa de ordenador.

Un ejemplo clásico de datos estructurados es una hoja de cálculo de Excel con columnas etiquetadas. Tales datos estructurados encabezados de columna es consistent- - por lo general breves, descripciones precisas del contenido de cada columna - le dirá exactamente qué tipo de contenido que puede esperar.

Los datos estructurados se almacena por lo general en los esquemas bien definidos, tales como bases de datos. Por lo general es tabular, con columnas y filas que definen claramente sus atributos.

no estructurada datos, por el contrario, tiende a ser de forma libre, no tabular, dispersa, y no fácilmente retrievable- estos datos requiere la intervención deliberada de hacer sentido de ella. Varios correos electrónicos, documentos, páginas web y archivos (ya sea texto, audio y / o vídeo) en lugares dispersos son ejemplos de datos no estructurados.

Es difícil de categorizar el contenido de los datos no estructurados. Tiende a ser principalmente texto, se crea normalmente en una mezcolanza de estilos de forma libre, y la búsqueda de cualquier atributo puede utilizar para describir o grupo que no es tarea fácil.

El contenido de los datos no estructurados es difícil de trabajar o hacer sentido de programación. Los programas de ordenador no pueden analizar o generar informes sobre estos datos, simplemente porque carece de estructura, no tiene ninguna característica dominante subyacente, y distintos componentes de los datos no tienen puntos en común.

En general, hay un mayor porcentaje de datos no estructurados que los datos estructurados en el mundo. Los datos no estructurados requiere más trabajo para que sea útil, por lo que recibe más atención - por lo tanto tiende a consumir más tiempo.

No subestime la importancia de los datos estructurados y el poder que trae a su análisis. Es mucho más eficiente para analizar datos estructurados que analizar datos no estructurados. Los datos no estructurados también pueden ser costosos para preprocesar para el análisis como está la construcción de un proyecto de análisis predictivo. La selección de los datos relevantes, su limpieza, y las transformaciones posteriores puede ser largo y tedioso.

Los resultantes datos recién organizados de esos pasos de preprocesamiento necesarias se pueden utilizar en un modelo de análisis predictivo. La transformación a gran escala de datos no estructurados sin embargo, puede tener que esperar hasta que tenga su modelo de análisis predictivo en funcionamiento.

minería de datos y análisis de texto son dos enfoques para la estructuración de documentos de texto, la vinculación de sus contenidos, agrupar y resumir sus datos, y el descubrimiento de patrones en los datos. Ambas disciplinas proporcionan una rica marco de algoritmos y técnicas para extraer el texto dispersos a través de un mar de documentos.

Es también digno de mención que las plataformas de motores de búsqueda proporcionan herramientas disponibles para los datos de indexación y lo que es investigable.

Vamos a comparar los datos estructurados y no estructurados.

característicasEstructuradono estructurada
AsociaciónOrganizadoEsparcidos y dispersos
Aparienciaformalmente definidoForma libre
AccesibilidadDe fácil acceso y consultaDifícil acceso y consulta
Disponibilidadporcentualmente menorEn términos de porcentaje más alto
AnálisisEficiente para analizarSe necesita preprocesamiento adicional

Los datos no estructurados no carecen por completo la estructura - sólo hay que desentrañar a cabo. Incluso el texto dentro de archivos digitales todavía tiene alguna estructura asociada a ella, a menudo apareciendo en los metadatos - por ejemplo, títulos de los documentos, las fechas de los archivos fueron modificados por última vez, y los nombres de sus autores.

Lo mismo se aplica para los mensajes de correo electrónico: El contenido puede ser estructurado, pero los datos estructurados se asocia con ellos - por ejemplo, la fecha y hora en que fueron enviados, los nombres de sus remitentes y destinatarios, si contienen archivos adjuntos.

La línea de separación entre los dos tipos de datos no siempre es clara. En general, siempre se puede encontrar algunos de los atributos de los datos no estructurados que se pueden considerar los datos estructurados. Ya sea que la estructura es un reflejo del contenido de esos datos - o útil en el análisis de datos - no está claro en el mejor.

Video: Introducción al concepto de Tipos de Datos Estructurados

Por lo demás, los datos estructurados pueden contener datos no estructurados dentro de ella. En un formulario web, por ejemplo, se les puede pedir a los usuarios a dar su opinión sobre un producto por la elección de una respuesta de múltiples opciones - sino que también presentan con un cuadro de comentario en el que puedan proporcionar información adicional.

Las respuestas de múltiples opciones están structured- el campo de comentarios es estructurado debido a su naturaleza de forma libre. Tales casos se entienden mejor como una mezcla de datos estructuradas y no estructuradas. La mayoría de los datos es un compuesto de ambos.

Video: Tipo de dato estructurado

Para un proyecto de análisis predictivo de éxito, tanto los datos estructurados y no estructurados se deben combinar en un formato lógico que puede ser analizado.

Artículos Relacionados