Modificar los productos de inteligencia de negocios para manejar grandes volúmenes de datos

Video: IMPLEMENTACION DE SISTEMAS DE INTELIGENCIA DE NEGOCIOS PARA LA MEJORA EN LOS NEGOCIOS

productos de inteligencia de negocio tradicionales no fueron realmente diseñados para manejar grandes volúmenes de datos, por lo que pueden requerir alguna modificación. Fueron diseñados para trabajar con los datos, bien entendido muy estructurados, a menudo almacenados en un repositorio de datos relacional y que se muestran en el escritorio o portátil. Este análisis de inteligencia de negocio tradicional se aplica típicamente a las instantáneas de datos en lugar de la cantidad total de datos disponibles. Lo que es diferente con el análisis de grandes datos?

datos de grandes volúmenes de datos

grandes volúmenes de datos consiste en datos estructurados, semi-estructurados y no estructurados. Que a menudo tienen una gran cantidad de ella, y puede ser bastante complejo. Cuando se piensa en el análisis, es necesario estar al tanto de las características potenciales de los datos:

  • Puede provenir de fuentes no fiables. Los análisis de datos a menudo implica la agregación de datos de diversas fuentes. Estos pueden incluir ambas fuentes de datos internos y externos. ¿Qué tan confiable son estas fuentes externas de información? Por ejemplo, qué tan confiable es de datos de medios sociales como un tweet? La información puede venir de una fuente no verificada. La integridad de esta información tiene que ser considerado en el análisis.

    Video: Inteligencia de Negocios con PowerView

  • Puede ser sucio. datos sucios se refiere a los datos inexactos, incompletos o erróneos. Esto puede incluir la falta de ortografía de palabras: un sensor que está roto, no está calibrado correctamente, o dañado de alguna manera- o incluso datos duplicados. datos científicos debaten acerca de dónde limpiar los datos - ya sea cerca de la fuente o en tiempo real.

    Video: Proyecto de inteligencia de negocios con pentaho

    Por supuesto, una escuela de pensamiento dice que los datos sucios no deben limpiarse en absoluto, ya que puede contener valores atípicos interesantes. La estrategia de la limpieza dependerá probablemente de la fuente y el tipo de datos y el objetivo de su análisis. Por ejemplo, si está desarrollando un filtro de correo no deseado, el objetivo es detectar los malos elementos de los datos, por lo que no querría para limpiarlo.

  • La relación señal a ruido puede ser baja. En otras palabras, la señal (información útil) puede ser sólo un pequeño por ciento de los datos- el ruido es el resto. Ser capaz de extraer una pequeña señal de datos con ruido es parte del beneficio de análisis de datos grandes, pero hay que tener en cuenta que la señal de hecho puede ser pequeña.

    Video: Inteligencia de Negocios en Excel | El futuro de Excel

  • Puede ser en tiempo real. En muchos casos, se le trata de analizar los flujos de datos en tiempo real.

el gobierno de datos grande va a ser una parte importante de la ecuación de análisis. Debajo de análisis de negocios, necesitarán mejoras que deben introducirse en soluciones de gobierno para garantizar la veracidad procedente de las nuevas fuentes de datos, especialmente a medida que se combina con los datos existentes almacenados en un almacén de confianza. Las soluciones de seguridad de datos y privacidad también necesitan ser mejorado para soportar la gestión / rector grandes volúmenes de datos almacenados dentro de las nuevas tecnologías.

Analíticos grandes algoritmos de datos

Cuando usted está considerando análisis de grandes volúmenes de datos, es necesario tener en cuenta que cuando se expande más allá del escritorio, los algoritmos que utiliza con frecuencia necesitan estar refactorizado, cambiar el código interno sin afectar su funcionamiento externo. La belleza de una infraestructura de datos grande es que puede ejecutar un modelo que utiliza para tomar horas o días en minutos.

Esto le permite iterar sobre el modelo cientos de veces. Sin embargo, si se está ejecutando una regresión en mil millones de filas de datos a través de un entorno distribuido, debe tener en cuenta las necesidades de recursos relacionados con el volumen de datos y su ubicación en el clúster. Sus algoritmos tienen que ser conscientes de datos.

Además, los fabricantes están comenzando a ofrecer nuevos análisis diseñados para ser colocados cerca de las grandes fuentes de datos para analizar los datos en su lugar. Este enfoque de análisis de correr más cerca de las fuentes de datos minimiza la cantidad de datos almacenados por reteniendo sólo los datos de alto valor. Es también le permite analizar los datos antes, lo que es fundamental para la toma de decisiones en tiempo real.

Por supuesto, la analítica seguirán evolucionando. Por ejemplo, es posible que tenga capacidades de visualización en tiempo real para mostrar los datos en tiempo real que está cambiando continuamente. ¿Cómo se puede trazar prácticamente mil millones de puntos en una parcela gráfica? O, ¿Cómo se trabaja con los algoritmos predictivos para que realicen lo suficientemente rápido y análisis suficientemente profundo como para utilizar una, complejo conjunto de datos cada vez mayor? Esta es un área de investigación activa.

apoyo grande infraestructura de datos

Baste decir que si usted está buscando una plataforma, que necesita para lograr lo siguiente:

  • Integrar las tecnologías: La infraestructura requiere la integración de las nuevas tecnologías de datos grandes con las tecnologías tradicionales para poder procesar todo tipo de datos grandes y que sea consumible por los análisis tradicionales.

  • Almacenar grandes cantidades de datos dispares: Un sistema de Hadoop empresa endurecido puede ser necesaria que puede procesar / tienda / gestionar grandes cantidades de datos en reposo, si se está estructurada, semiestructurada, o no estructurada.

  • Los datos de proceso en movimiento: Una capacidad de flujo de computación puede ser necesaria para procesar los datos en movimiento que se genera de forma continua por medio de sensores, dispositivos inteligentes, video, audio, y los registros para apoyar la toma de decisiones en tiempo real.

  • almacén de datos: Es posible que necesite una solución optimizada para cargas de trabajo analíticas operativas o profundos para almacenar y gestionar las crecientes cantidades de datos de confianza.

Y, por supuesto, necesita la capacidad de integrar los datos que ya tiene en su lugar, junto con los resultados del análisis de datos grandes.

Artículos Relacionados