Big data: la necesidad de metadatos en los flujos de datos

Video: Servicios de Integración de Datos Semana2

profesionales más grandes de gestión de datos están familiarizados con la necesidad de gestionar los metadatos en entornos de gestión de bases de datos estructuradas. Estas fuentes de datos de tipo fuerte (por ejemplo, los diez primeros caracteres son el primer nombre) y diseñados para funcionar con metadatos. Usted puede suponer que los metadatos es inexistente en los datos no estructurados, pero eso no es cierto.

Por lo general se encuentra en la estructura de cualquier tipo de datos. Tomemos el ejemplo de vídeo. Aunque puede que no sea capaz de conocer con exactitud el contenido de un vídeo específico, mucha estructura existe en el formato de que los datos basados en vídeo. Si usted está buscando en el texto no estructurado, usted sabe que las palabras están escritas en Inglés y que si se aplican las herramientas adecuadas, se puede interpretar el texto.

Debido a esto metadatos implícitos a partir de datos no estructurados, es posible analizar la información utilizando eXtensible Markup Language (XML). XML es una técnica para la presentación de archivos de texto no estructurados con las etiquetas significativas. La tecnología subyacente no es nuevo y fue una de las tecnologías de base para la implementación de la orientación al servicio.

Ejemplos de productos para el flujo de datos incluyen InfoSphere Streams de IBM, Tormenta de Twitter, y S4 de Yahoo.

grandes volúmenes de datos y IBM InfoSphere Streams

InfoSphere Streams proporciona un análisis continuo de los volúmenes de datos masivos. Se pretende realizar análisis complejos de los tipos de datos heterogéneos, incluyendo texto, imágenes, audio, voz, VoIP, video, tráfico web, correo electrónico, datos de GPS, datos de transacciones financieras, datos de satélite y sensores. InfoSphere Streams puede soportar todos los tipos de datos. Se puede realizar en tiempo real y análisis de los datos generados regularmente visto bueno mira, mediante filtrado digital, análisis de patrones / correlación, y la descomposición, así como el análisis geoespacial.

Big data y la tormenta de Twitter

Video: Exportar Metadata

Tormenta de Twitter es un motor de análisis en tiempo real de código abierto desarrollado por una empresa llamada BackType que fue adquirida por Twitter en 2011 en parte debido a la tormenta Twitter utiliza internamente. Todavía está disponible como código abierto y ha ido ganando tracción significativa entre las empresas emergentes.

Se puede utilizar con cualquier lenguaje de programación para aplicaciones tales como análisis en tiempo real, la computación continua, llamadas a procedimiento remoto (RPC) distribuidos, y la integración. La tormenta está diseñado para trabajar con tecnologías de gestión de colas y de bases de datos existentes. Las empresas que utilizan la tormenta en sus grandes implementaciones de datos incluyen Groupon, RocketFuel, Navisite y Oolgala.

Video: What's new in Android development tools - Google I/O 2016

Big data y Apache S4

El cuatro S‘S en S4 destacan por simple Streaming System escalable. Apache S4 fue desarrollado por Yahoo! como de propósito general, plataforma distribuida y escalable, parcialmente tolerante a fallos, conectable que permite a los programadores desarrollar fácilmente aplicaciones para el procesamiento de flujos continuos de datos. La plataforma central está escrito en Java y fue lanzado por Yahoo! en 2010.

Video: HUNTING ALIENS | Space Documentary | Astrobiology and the Universe

Un año más tarde, se dio la vuelta a Apache bajo la licencia Apache 2.0. Los clientes que envían y reciben los eventos pueden ser escritos en cualquier lenguaje de programación. S4 está diseñado como un sistema altamente distribuido. Throughput se puede aumentar linealmente mediante la adición de nodos en un clúster. El diseño S4 es el más adecuado para aplicaciones a gran escala para la minería de datos y aprendizaje automático en un entorno de producción.