Los datos no estructurados en un entorno de datos grande

Video: Los 10 datos de Bills y su entorno más fascinantes y desconocidos ★ ya, igual conoces algunos ¿no?

Los datos no estructurados son datos que no sigue un formato especificado para grandes volúmenes de datos. Si el 20 por ciento de los datos disponibles para las empresas son datos estructurados, y el otro 80 por ciento es estructurado. Los datos no estructurados es realmente la mayor parte de los datos que se encontrará. Hasta hace poco, sin embargo, la tecnología no apoyan realmente hacer mucho con ella, excepto su almacenamiento o analizar de forma manual.

Las fuentes de datos no estructurados grande

Los datos no estructurados está en todas partes. De hecho, la mayoría de los individuos y organizaciones a mantener sus vidas en torno a los datos no estructurados. Al igual que con los datos estructurados, los datos no estructurados es o bien la máquina genera o genera humano.

Video: Curso Avanzado de Datos Estructurados y Rich Snippets

Estos son algunos ejemplos de los datos no estructurados generados por máquina:

  • Las imágenes de satélite: Esto incluye los datos climáticos o los datos que el gobierno capta en sus imágenes de vigilancia por satélite. Basta con pensar en Google Earth, y se obtiene la imagen.

  • Los datos científicos: Esto incluye las imágenes sísmicas, datos atmosféricos, y física de alta energía.

  • Las fotografías y vídeo: Esto incluye la seguridad, vigilancia y tráfico de vídeo.

  • Radar o sonar de los datos: Esto incluye vehículos, meteorológicos y oceanográficos perfiles sísmicos.

Video: Importar datos en formato CSV al entorno de R

La siguiente lista muestra algunos ejemplos de datos no estructurados generado por los humanos:

  • Texto interno de su empresa: Piense en todo el texto dentro de documentos, registros, resultados de encuestas, y correos electrónicos. información de la empresa en realidad representa un gran porcentaje de la información de texto en el mundo de hoy.

  • datos de medios de comunicación social: Estos datos se genera a partir de las plataformas de medios sociales como YouTube, Facebook, Twitter, LinkedIn y Flickr.

  • Datos móviles: Esto incluye datos tales como mensajes de texto y la información de ubicación.

  • contenido del sitio web: Esto viene desde cualquier sitio de la entrega de contenido no estructurado, como YouTube, Flickr o Instagram.

Video: Que es una Base de Datos y Entorno de Acces

Y la lista continúa.

Algunas personas creen que el término los datos no estructurados es engañosa, ya que cada documento puede contener su propia estructura específica o el formato basado en el software que lo creó. Sin embargo, lo que es interno al documento es realmente no estructurada.

Por el momento, los datos no estructurados es la mayor parte de la ecuación de datos, y los casos de uso de los datos no estructurados se están expandiendo rápidamente. Por el lado de texto por sí solo, análisis de texto se pueden utilizar para analizar el texto no estructurado y para extraer datos relevantes y transformar los datos en información estructurada que se puede utilizar de varias maneras.

Por ejemplo, un caso muy popular el uso de datos es grande análisis de medios sociales para su uso con las conversaciones con clientes de gran volumen. Además, los datos no estructurados a partir de las notas de centros de llamadas, correos electrónicos, comentarios por escrito en una encuesta, y otros documentos son analizados para entender el comportamiento del cliente. Esto se puede combinar con los medios sociales de decenas de millones de fuentes para entender la experiencia del cliente.

El papel de un CMS en el manejo de grandes volúmenes de datos

Organizaciones almacenar algunos datos no estructurados en bases de datos. Sin embargo, también utilizan sistemas de administración de contenido empresarial (CMS) que pueden gestionar el ciclo de vida completo del contenido. Esto puede incluir el contenido de la web, el contenido del documento, y otras formas de comunicación.

De acuerdo con la Asociación para la Información y Gestión de la imagen (AIIM), una organización no lucrativa que proporciona la educación, la investigación y las mejores prácticas, gestión de contenidos empresariales (ECM) comprende las “estrategias, métodos y herramientas que se utilizan para capturar, gestionar, almacenar, preservar y presentar contenidos y documentos relacionados con la organización los procesos.”Las tecnologías incluidas en ECM incluyen la gestión de documentos, gestión de archivos, digitalización, gestión de flujo de trabajo, gestión de contenidos web, y la colaboración.

Toda una industria ha crecido en torno a la gestión de contenidos, y muchos proveedores de gestión de contenido están escalar sus soluciones para manejar grandes volúmenes de datos no estructurados. Sin embargo, las nuevas tecnologías también están evolucionando para ayudar a mantener los datos no estructurados y el análisis de los datos no estructurados. Algunos de éstos soportan tanto los datos estructurados y no estructurados. Algunos soporte en tiempo real arroyos. Estos incluyen tecnologías como Hadoop, MapReduce, y streaming.

Sistemas que están diseñados para almacenar el contenido en forma de sistemas de gestión de contenidos ya no son soluciones independientes. Más bien, es probable que sean parte de una solución global de gestión de datos. Por ejemplo, su organización puede monitorear feeds de Twitter, que luego pueden desencadenar una búsqueda mediante programación CMS.

Ahora, la persona que provocó el tweet obtiene una posterior respuesta que ofrece un lugar donde el individuo puede encontrar el producto que él o ella podría estar buscando. El mayor beneficio es cuando este tipo de interacción puede ocurrir en tiempo real. También ilustra el valor de aprovechar en tiempo real no estructurada y estructurada (datos de clientes acerca de la persona que twitteó), y semi-estructurado (el contenido real de los datos de CMS).

La realidad es que es probable que utilice un enfoque híbrido para resolver sus problemas grandes de datos. Por ejemplo, no tiene sentido para mover todo su contenido de noticias, por ejemplo, en Hadoop de sus instalaciones, ya que se supone para ayudar a gestionar los datos no estructurados.

Artículos Relacionados