Los análisis de datos y el almacenamiento de datos

Video: ¿El fin de la memoria? - Documental

Va a encontrar valor en traer las capacidades del almacén de datos y el gran ambiente de datos juntos. Es necesario crear un entorno híbrido donde los datos grandes pueden trabajar de la mano con el almacén de datos.

En primer lugar, es importante reconocer que el almacén de datos, ya que está diseñado hoy no va a cambiar en el corto plazo.

Por lo tanto, es más pragmático para utilizar el almacén de datos por lo que ha sido diseñado para hacer - proporcionar una versión bien examinada de la verdad sobre un tema que la empresa quiere analizar. El almacén puede incluir información acerca de la línea de producto de una empresa en particular, sus clientes, sus proveedores, y los detalles de transacciones por valor de un año.

Video: ALMACENAMIENTO DE DATOS

La información que se maneja en el almacén de datos o un mercado de datos departamental se ha construido con cuidado para que los metadatos es exacta. Con el crecimiento de nueva información basada en la web, es práctico ya menudo necesario analizar esta enorme cantidad de datos en contexto con los datos históricos. Aquí es donde el modelo híbrido entra en acción.

Ciertos aspectos de casarse con el almacén de datos con grandes volúmenes de datos pueden ser relativamente fácil. Por ejemplo, muchas de las grandes fuentes de datos proceden de fuentes que incluyen sus propios metadatos bien diseñados. sitios de comercio electrónico complejos incluyen elementos de datos bien definidos. Por lo tanto, al realizar el análisis entre el almacén y la gran fuente de datos, la organización de gestión de la información está trabajando con dos conjuntos de datos con modelos de metadatos cuidadosamente diseñados que tienen que ser racionalizado.

Por supuesto, en algunas situaciones, las fuentes de información carecen de metadatos explícita. Antes de que un analista puede combinar los datos de transacciones históricas con los datos de gran menos estructurado, el trabajo tiene que ser hecho. Por lo general, el análisis inicial de petabytes de datos revelará patrones interesantes que pueden ayudar a predecir los cambios sutiles en soluciones de negocio o potenciales para el diagnóstico de un paciente.

El análisis inicial puede ser completado el aprovechamiento de herramientas como MapReduce con el marco del sistema de archivos Hadoop distribuida. En este punto, se puede comenzar a entender si es capaz de ayudar a evaluar el problema a tratar.

Video: Metal Gear Rising Revengeance | Datos de almacenamiento | Logro / trofeo: Extracción de datos

En el proceso de análisis, es tan importante para eliminar los datos innecesarios, ya que es para identificar los datos pertinentes al contexto empresarial. Cuando esta fase se ha completado, los datos restantes necesita ser transformado de modo que las definiciones de metadatos son precisas. De esta manera, cuando los datos grande se combina con los datos históricos tradicionales, desde el almacén, los resultados serán exactos y significativos.

El gran eje central de integración de datos

Este proceso requiere una estrategia de integración de datos bien definido. Si bien la integración de datos es un elemento crítico de la gestión de grandes volúmenes de datos, es igualmente importante al crear un análisis híbrido con el almacén de datos. De hecho, el proceso de extracción de datos y su transformación en un entorno híbrido es muy similar a cómo se ejecuta este proceso dentro de un almacén de datos tradicional.

Video: Tecnologias de la informacion y la comunicacion - Buen uso de las TIC

En el almacén de datos, los datos se extrae de los sistemas de código tradicionales, tales como los sistemas de CRM o ERP. Es fundamental que los elementos de estos diversos sistemas pueden emparejar correctamente.

Reconsiderar la extracción, transformación y carga de los almacenes de datos

En el almacén de datos, a menudo se encuentra una combinación de tablas de bases de datos relacionales, archivos planos, y las fuentes no relacionales. Un almacén de datos bien construido será con arquitectura de modo que los datos se convierten en un formato común, lo que permite consultas para ser procesados precisa y consistente. Los archivos extraídos deben transformarse para que coincida con las reglas de negocio y procesos de la materia que el almacén de datos está diseñado para analizar.

En otras palabras, los datos tienen que ser extraídos de las grandes fuentes de datos de manera que estas fuentes pueden trabajar con seguridad juntos y producir resultados significativos. Además, las fuentes tienen que transformarse para que sean útiles en el análisis de la relación entre los datos históricos y los datos más dinámica y en tiempo real que proviene de fuentes de datos grandes.

Cargando información en el modelo grande de datos será diferente de lo que cabría esperar en un almacén de datos tradicional. Con los almacenes de datos, después de los datos ha sido codificado, que nunca cambia. Un almacén de datos típica proporcionará el negocio con una instantánea de los datos basados en la necesidad de analizar un problema de negocio en particular que requiere un seguimiento, tales como el inventario o de ventas.

La estructura distribuida de datos grandes a menudo conducen a organizaciones primeros datos de carga en una serie de nodos y luego realizar la extracción y transformación. Al crear un híbrido del almacén de datos tradicional y el gran ambiente de datos, la naturaleza distribuida de la gran entorno de datos puede cambiar dramáticamente la capacidad de las organizaciones para analizar grandes volúmenes de datos en el contexto de la empresa.