Identificar los datos que necesita para su grandes datos

Hacer un balance de los tipos de datos que está tratando con los datos en su proyecto grande. Muchas organizaciones están reconociendo que una gran cantidad de datos generados internamente no se ha utilizado en todo su potencial en el pasado.

Video: Optimización │área de un rectángulo

Mediante el aprovechamiento de las nuevas herramientas, las organizaciones están ganando nuevos conocimientos a partir de fuentes sin explotar de datos no estructurados en los correos electrónicos, registros de servicio al cliente, los datos del sensor, y los registros de seguridad. Además, existe un gran interés en la búsqueda de una nueva visión basada en el análisis de datos que es principalmente externo a la organización, tales como las redes sociales, la ubicación del teléfono móvil, el tráfico y el clima.

La etapa de exploración de grandes volúmenes de datos

En las primeras etapas de su análisis, tendrá que buscar patrones en los datos. Es sólo mediante el examen de grandes volúmenes de datos que nuevas e inesperadas relaciones y correlaciones entre los elementos pueden ser evidentes. Estos patrones pueden dar una idea de las preferencias del cliente para un nuevo producto, por ejemplo. Usted necesitará una plataforma para la organización de grandes volúmenes de datos para buscar estos patrones.

Hadoop es ampliamente utilizado como un bloque de construcción fundamental para la captura y el procesamiento de grandes volúmenes de datos. Hadoop está diseñado con funciones que aceleran el procesamiento de grandes volúmenes de datos y hacen posible la identificación de patrones en grandes cantidades de datos en un tiempo relativamente corto. Los dos componentes principales de Hadoop - Hadoop Distributed File System (HDFS) y MapReduce - se utilizan para gestionar y procesar grandes volúmenes de datos.

FlumeNG para la integración de datos grande

A menudo es necesario recoger, agregar y mover cantidades extremadamente grandes de transmisión de datos para buscar patrones ocultos en grandes volúmenes de datos. herramientas de integración tradicionales, como ETL no serían lo suficientemente rápido como para mover los grandes flujos de datos en el momento de entregar los resultados de análisis, tales como la detección de fraudes en tiempo real. FlumeNG carga datos en tiempo real de transmisión de sus datos en Hadoop.

Típicamente, Canal de flujo se utiliza para recoger grandes cantidades de datos de registro de servidores distribuidos. Se realiza un seguimiento de todos los nodos físicos y lógicos en una instalación Flume. nodos de agente están instalados en los servidores y son responsables de la gestión de la forma en que un único flujo de datos se transfiere y se procesa a partir de su punto de inicio hasta su punto de destino.

Además, los colectores se utilizan para agrupar los flujos de datos en corrientes más grandes que se pueden escribir en un sistema de archivos Hadoop u otro recipiente grande de almacenamiento de datos. Canal de flujo está diseñado para la escalabilidad y puede añadir continuamente más recursos a un sistema para manejar extremadamente grandes cantidades de datos de forma eficiente. la salida del canal de flujo se puede integrar con Hadoop y Hive para el análisis de los datos.

Video: Habilita los icono de datos móviles en Galaxy S4, S5, S6 con Lollipop

Canal de flujo también tiene elementos de transformación para uso en los datos y puede convertir su infraestructura Hadoop en una fuente de transmisión de datos no estructurados.

Patrones en los datos grandes

A encontrar muchos ejemplos de empresas que empiezan a darse cuenta de las ventajas competitivas de análisis de grandes volúmenes de datos. Para muchas empresas, los flujos de datos de medios sociales se están convirtiendo cada vez más en un componente integral de una estrategia de marketing digital. En la etapa de exploración, esta tecnología se puede utilizar para buscar rápidamente a través de enormes cantidades de datos de streaming y sacar los patrones de tendencias que se refieren a productos o clientes específicos.

La etapa de codificación de datos grande

Con cientos de tiendas y muchos miles de clientes, se necesita un proceso repetible para dar el salto de identificación de patrones de aplicación de la nueva selección de productos y la comercialización más específica. Después de encontrar algo interesante en el análisis de datos grande, codificarlo y que sea una parte de su proceso de negocio.

Para codificar la relación entre sus analítica de grandes datos y sus datos operativos, es necesario integrar los datos.

integración de datos grande y la etapa de incorporación

grandes datos está teniendo un impacto importante en muchos aspectos de la gestión de datos, incluyendo la integración de datos. Tradicionalmente, la integración de datos se ha centrado en el movimiento de datos a través de middleware, incluyendo las especificaciones relativas a la transmisión de mensajes y los requisitos para las interfaces de programación de aplicaciones (API). Estos conceptos de integración de datos son más apropiados para la gestión de datos en reposo en lugar de los datos en movimiento.

Video: 10 Datos del ROTTWEILER �� que Desconocías #TopListas

La entrada en el nuevo mundo de los datos no estructurados y los datos de streaming cambia la noción convencional de integración de datos. Si desea incorporar el análisis de la transmisión de datos en sus procesos de negocio, necesita tecnología avanzada que es lo suficientemente rápido para que pueda tomar decisiones en tiempo real.

Después de su análisis de grandes volúmenes de datos se ha completado, es necesario un enfoque que le permitirá integrar o incorporar los resultados de su análisis de grandes volúmenes de datos en su proceso de negocio y acciones de negocios en tiempo real.

Las empresas tienen altas expectativas para la obtención de un valor empresarial real del análisis de datos grande. De hecho, muchas empresas les gustaría iniciar un análisis más profundo de grandes volúmenes de datos generados internamente, como los datos del registro de seguridad, que no era posible anteriormente debido a las limitaciones tecnológicas.

Tecnologías para el transporte de alta velocidad de datos muy grandes y rápidos son un requisito para la integración de las fuentes de datos distribuidos grandes y entre grandes volúmenes de datos y los datos operativos. fuentes de datos no estructurados a menudo necesitan ser movido rápidamente a través de grandes distancias geográficas para el intercambio y la colaboración.

Video: Conoce la manera de enviar una carta por correo tradicional

La vinculación de las fuentes tradicionales con grandes volúmenes de datos es un proceso de múltiples etapas después de haber examinado todos los datos de la transmisión de grandes fuentes de datos e identificado los patrones relevantes. Después de reducir la cantidad de datos que necesita para gestionar y analizar, ahora es necesario pensar acerca de la integración.