Arquitectura empresarial para grandes volúmenes de datos

En perspectiva, el objetivo de diseñar una arquitectura para el análisis de datos se reduce a la construcción de un marco para la captura, clasificación y análisis de grandes volúmenes de datos con el fin de descubrir los resultados de acciones concretas.

predictivos-analytics-2e-empresa-arquitectura
Pensando en la arquitectura que va a transformar los datos en grandes resultados procesables.

No hay una forma correcta de diseñar el entorno arquitectónico para el análisis de grandes volúmenes de datos. Sin embargo, la mayoría de los diseños tienen que cumplir con los siguientes requisitos para soportar los desafíos de datos grandes pueden aportar. Estos criterios pueden ser distribuidos principalmente más de seis capas y se pueden resumir como sigue:

Video: ¿Qué es Arquitectura Empresarial?

  • Su arquitectura debe incluir una gran plataforma de datos para el almacenamiento y la computación, tales como Hadoop o chispa, que es capaz de escalar a cabo.
  • Su arquitectura debe incluir software a gran escala y herramientas de datos grandes capaces de analizar, almacenar y recuperar datos grandes. Estos pueden consistir en los componentes de Spark, o los componentes del ecosistema Hadoop (tales como Mahout y Apache Storm). Usted también puede adoptar una herramienta de gran escala de grandes datos que será utilizada por los científicos de datos en su negocio. Estos incluyen Radoop de RapidMiner, IBM Watson, y muchos otros.
  • Su arquitectura debe soportar la virtualización. La virtualización es un elemento esencial de la computación en la nube, ya que permite que múltiples sistemas operativos y las aplicaciones se ejecuten al mismo tiempo en el mismo servidor. Debido a esta capacidad, la virtualización y la computación en la nube a menudo van de la mano. Usted también puede adoptar una nube privada en su arquitectura. Una nube privada ofrece la misma arquitectura que una nube pública, excepto los servicios de una nube privada se limitan a un cierto número de usuarios a través de un cortafuegos. Amazon Elastic Computer Cloud es uno de los principales proveedores de soluciones de nube privada y espacio de almacenamiento para las empresas, y se puede escalar a medida que crecen.
  • Su arquitectura podría tener que ofrecer análisis en tiempo real si su empresa está trabajando con datos rápidos (datos que fluyen en corrientes a un ritmo rápido). En un escenario en el que, se tendría que considerar una infraestructura que puede apoyar la derivación de puntos de vista de los datos en tiempo casi real, sin esperar a que los datos se escriben en el disco. Por ejemplo, la biblioteca de streaming de Apache Spark se pueden pegar con otros componentes para apoyar análisis sobre los flujos de datos rápidas.
  • Su arquitectura debe tener en cuenta la seguridad de datos grandes mediante la creación de un sistema de gobierno en torno a la provisión de acceso a los datos y los resultados. La arquitectura de gran seguridad de los datos debe estar en consonancia con las prácticas estándar de seguridad y políticas de la organización que rigen el acceso a fuentes de datos.
predictivos-analytics-2E-arquitectura-capas
Las capas de la arquitectura de datos empresariales.

Si estás buscando una herramienta robusta para ayudarle a empezar a trabajar en el análisis de datos sin la necesidad de conocimientos en los algoritmos y las complejidades detrás de la construcción de modelos de predicción, entonces usted debe tratar KNIME, RapidMiner, o IBM Watson, entre otros.

La mayoría de las herramientas anteriores ofrecen una caja de herramientas completa, lista para usar que consta de capacidades que pueden ayudarle a empezar. Por ejemplo, RapidMiner tiene un gran número de algoritmos de diferentes estados de la analítica del ciclo de vida predictivo, por lo que proporciona una ruta directa para la combinación y la implementación de modelos de análisis rápidamente.

Con RapidMiner, puede cargar de forma rápida y preparar los datos, crear y evaluar modelos de predicción, utilizar procesos de datos en sus aplicaciones y compartirlas con los usuarios de su empresa. Con muy pocos clics, usted puede construir fácilmente un modelo simple de análisis predictivo.

predictivos-analytics-2e-RapidMiner
análisis de arrastrar y soltar con RapidMiner.

Video: TOGAF: ¿Qué es ADM?

RapidMiner puede ser utilizado por los principiantes y los expertos. RapidMiner Studio es un software de análisis predictivo de código abierto que cuenta con una interfaz gráfica fácil de usar donde se puede arrastrar y soltar algoritmos para la carga de datos, procesamiento previo de datos, análisis de algoritmos predictivos, y las evaluaciones modelo para construir su proceso de análisis de datos.

RapidMiner fue construido para proporcionar a los científicos de datos con una caja de herramientas completa que consta de más de un millar de diferentes operaciones y algoritmos. Los datos se pueden cargar rápidamente, independientemente de si el origen de datos está en Excel, Access, MS SQL, MySQL, SPSS, Salesforce, o cualquier otro formato que sea compatible con RapidMiner. Además de la carga de datos, construcción de modelos de predicción y evaluación del modelo, esta herramienta también proporciona herramientas de visualización de datos que incluyen mapas de auto-organización ajustables y gráficos 3-D.

RapidMiner ofrece una interfaz de programación de aplicaciones de extensión abierta (API) que permite integrar sus propios algoritmos en cualquier tubería construida en RapidMiner. También es compatible con muchas plataformas y puede ejecutarse en sistemas operativos más importantes. Hay una comunidad en línea emergente de científicos de datos que utilizan RapidMiner donde pueden compartir sus procesos, y formular y responder preguntas.

Otra herramienta fácil de usar que se utiliza ampliamente en el mundo de análisis es KNIME. KNIME representa la información Konstanz Miner. Es un proceso abierto de análisis de datos de origen que pueden ayudar a construir modelos de predicción a través de un concepto de segmentación de datos. La herramienta ofrece componentes de arrastrar y soltar para ETL (extracción, transformación y carga) y componentes para el modelado predictivo, así como la visualización de datos.

KNIME y RapidMiner son herramientas que puede armar su equipo de ciencia de datos a conseguir fácilmente comenzado la construcción de modelos predictivos. Para un excelente caso de uso en KNIME, echa un vistazo a la ponencia “Las siete técnicas para la reducción de dimensionalidad.”

RapidMiner Radoop es un producto por RapidMiner que se extiende el análisis predictivo caja de herramientas en RapidMiner Estudio para funcionar en entornos Hadoop y chispa. Radoop encapsula MapReduce, cerdo, mahout, y Spark. Después de definir los flujos de trabajo en Radoop, a continuación, las instrucciones se ejecutan en Hadoop o Spark medio ambiente, por lo que no tiene que programar modelos predictivos pero se centran en la evaluación del modelo y el desarrollo de nuevos modelos.

Para mayor seguridad, Radoop admite la autenticación Kerberos y se integra con Apache Ranger y Apache Sentry.

Artículos Relacionados