Las técnicas de análisis y extracción de grandes volúmenes de datos

En general, las soluciones de análisis de texto para datos grandes utilizan una combinación de técnicas estadísticas y el procesamiento del lenguaje natural (NLP) para extraer información de los datos no estructurados. PNL es un campo amplio y complejo que se ha desarrollado durante los últimos 20 años.

Un objetivo principal de la PNL es derivar el significado del texto. Procesamiento del Lenguaje Natural generalmente hace uso de conceptos lingüísticos, tales como las estructuras gramaticales y partes del discurso. A menudo, la idea detrás de este tipo de análisis es determinar quién hizo qué a quién, cuándo, dónde, cómo y por qué.

NLP realiza el análisis en el texto en los diferentes niveles:

  • Análisis léxico / morfológica examina las características de una palabra individual - incluyendo prefijos, sufijos, raíces y partes de la oración (sustantivo, verbo, adjetivo, etc.) - la información que contribuya a la comprensión de lo que significa la palabra en el contexto del texto proporcionado. El análisis léxico depende de un diccionario de sinónimos, o cualquier lista de palabras que proporciona información acerca de esas palabras.

  • El análisis sintáctico utiliza la estructura gramatical para diseccionar el texto y poner palabras individuales en contexto. Aquí están ampliando su mirada de una sola palabra de la frase o la frase completa. Este paso puede diagramar la relación entre las palabras (la gramática) o buscar secuencias de palabras que forman frases correctas o para secuencias de números que representan fechas o valores monetarios.

    Video: Exploración en la frontera de los grandes volúmenes de datos - Tim Smith

  • El análisis semántico determina los posibles significados de una frase. Esto puede incluir el examen orden de las palabras y la estructura de la oración y la desambiguación de palabras relacionando la sintaxis que se encuentra en las frases, oraciones y párrafos.

    Video: Análisis de grandes volúmenes de datos para usuarios y analistas de negocio

  • análisis a nivel de discurso intenta determinar el significado del texto más allá del nivel de la oración.

Comprender la información extraída de los datos de gran

Ciertas técnicas, combinadas con otras técnicas estadísticas o lingüísticas para automatizar el etiquetado y marcado de documentos de texto, se pueden extraer los siguientes tipos de información:

Condiciones: Otro nombre para palabras clave.

  • entidades: Llamado a menudo entidades nombradas, estos son ejemplos específicos de abstracciones. Ejemplos de ello son los nombres de personas, nombres de empresas, ubicaciones geográficas, información de contacto, fechas, horas, monedas, títulos y posiciones, y así sucesivamente. Por ejemplo, el software de análisis de texto puede extraer la entidad fulano de tal como una persona se hace referencia en el texto que se está analizando. La entidad 3 de marzo de, de 2007 se puede extraer como una fecha, y así sucesivamente.

  • Hechos: También llamado relaciones, hechos indican que la / lo / donde las relaciones entre dos entidades. John Smith es el CEO de la empresa Y y La aspirina reduce la fiebre son ejemplos de hechos.

  • Eventos: Mientras que algunos expertos utilizan los términos hecho, relación, y evento indistintamente, otros distinguen entre los acontecimientos y hechos, indicando que los eventos por lo general contienen una dimensión de tiempo y con frecuencia causan hechos para cambiar. Los ejemplos incluyen un cambio en la gestión dentro de una empresa o el estado de un proceso de venta.

    Video: Charla #8: Data Science: Herramientas, Lenguajes y Python

  • Conceptos: Estos son grupos de palabras y frases que indican una idea en particular o un tema con el que el usuario se refiere. Por ejemplo, el concepto cliente insatisfecho puede incluir las palabras enojado, decepcionado, y confuso y las frases desconectar el servicio, no devolver la llamada, y perdida de dinero - Entre muchos otros. Así, el concepto cliente insatisfecho se puede extraer sin las palabras infeliz o cliente que aparece en el texto.

  • sentimientos: El análisis de sentimientos se utiliza para identificar los puntos de vista o las emociones en el texto subyacente. Algunas técnicas hacen mediante la clasificación de texto como, por ejemplo, subjetiva (opinión) u objetivo (de hecho), utilizando técnicas de aprendizaje automático o PNL. El análisis de sentimientos se ha vuelto muy popular en la “voz del cliente” tipo de aplicaciones.

    Video: Cómo Construir Una Tabla De Intervalos Con Excel 2007.swf

  • taxonomías de datos grandes

    Las taxonomías son a menudo críticos al texto de análisis. UN taxonomía es un método para organizar la información en las relaciones jerárquicas. A veces se refiere como una forma de organizar las categorías. Debido a que una taxonomía define las relaciones entre los términos que utiliza una empresa, hace que sea más fácil encontrar y luego analizar el texto.

    Por ejemplo, un proveedor de servicios de telecomunicaciones ofrece tanto el servicio de cable e inalámbricas. Dentro del servicio inalámbrico, la compañía puede apoyar a los teléfonos celulares y acceso a Internet. La empresa puede entonces tener dos o más formas de categorizar servicio de telefonía celular, tales como los planes y los tipos de teléfono. La taxonomía podría llegar hasta el fondo de las partes de un teléfono en sí.

    Taxonomías también pueden usar sinónimos y expresiones alternativas, reconociendo que el teléfono móvil, teléfono celular, teléfono móvil y son todos iguales. Estas taxonomías pueden ser bastante complejos y pueden tomar mucho tiempo para desarrollarse.

    Artículos Relacionados