Del acceso a sus datos en Hadoop

Como Hadoop entra en la corriente principal de TI y comienza a ser utilizado de una manera importante en entornos de producción, los mismos problemas de seguridad que se aplican a los sistemas de TI, tales como bases de datos serán aplicables a Hadoop también. En sus primeros años, era famoso Hadoop no diseñado pensando en la seguridad, pero la adición de capacidades de seguridad de la empresa resistencia es una parte importante de la mayoría de edad de Hadoop. Es una parte necesaria, así: Para muchas aplicaciones (tales como finanzas), si no puede ofrecer garantías de seguridad, es posible que violar la ley.

Este artículo se centra en tres aspectos principales de asegurar la información - Aspectos que se aplican a Hadoop como lo harían con cualquier otro sistema de TI:

gestión perímetro
Control de acceso
encriptación

Video: SAS y Hadoop : Cambian las reglas del juego

gestión perímetro

El primer principio de la seguridad de TI es controlar estrictamente los límites entre el sistema y el mundo exterior. Debido a Hadoop es un sistema distribuido que abarca muchas computadoras, esto es en gran medida un problema de red. Como plataforma de computación distribuida, un cluster Hadoop tiene muchos ordenadores individuales, con cada equipo que tiene varios puertos y servicios abiertos.

Video: Como subir una Base de Datos SQL en Hadoop

Como era de esperar, este es un problema de seguridad, que la mayoría de los administradores manejan manteniendo el clúster en una red aislada. El desafío se presenta cuando los usuarios necesitan para ejecutar aplicaciones contra sí Hadoop. Considerar el despliegue de nodos de borde, con funciones de red compartida, para actuar como pasarelas entre Hadoop y el mundo exterior. Esta estrategia presenta desafíos de seguridad, sin embargo. Para hacer frente a este reto, el equipo Hortonworks ha comenzado el desarrollo del proyecto Apache Knox, que permite el acceso seguro a los servicios del cluster Hadoop.

Control de acceso

Una gran parte de la discusión de seguridad es el control de acceso. Donde el control del perímetro se trata de reducir al mínimo los puntos de acceso, control de acceso es asegurar que cualquier acceso que no suceda es seguro.

Autenticación

En la primera línea de control de acceso es autenticación, el cual, en definitiva, es la validación de que los usuarios son quienes dicen que son. La comunidad de código abierto ha puesto una enorme cantidad de trabajo en esta área, permitiendo a los diversos componentes del ecosistema de Hadoop de Apache para trabajar con Kerberos, el protocolo de seguridad informática bien considerado. A partir de la primavera de 2014, ambos Hadoop Hadoop 1 y 2 de prensa son totalmente habilitado para Kerberos. (No todas las tiendas de TI utiliza Kerberos, pero otros protocolos, como LDAP, se han aplicado a Hadoop por algunos vendedores de distribución de Hadoop en sus ofertas propietarias.)

Autorización

Después de que sus servicios de autenticación han validado la identidad de un usuario, la siguiente pregunta es determinar qué información y comportamientos de este usuario tiene derecho a - autorización, en otras palabras.

Actualmente, la autorización de Hadoop es bastante primitivo, y se limita a la lectura de estilo POSIX, escritura y ejecución privilegios a nivel de sistema de archivos. Sin embargo, los esfuerzos significativos están en marcha para definir las clases de usuarios (por ejemplo, funciones de usuario) y la administración de listas de control de acceso (ACL).

El proyecto de la colmena, por ejemplo, pronto tendrá concesión / revocar comandos para permitir a los administradores definir qué usuarios pueden acceder a tablas o vistas específicas. Con este fin, el equipo de Cloudera ha estado encabezando el proyecto Apache Knox para gestionar la definición de roles de usuarios y sus privilegios para acceder a datos en el Impala y Colmena.

Revisión de cuentas

La pieza final del rompecabezas de control de acceso es el seguimiento de eventos de acceso a los datos, lo cual es un requisito básico para una serie de normas reguladoras de gestión de la información, tales como la Ley de Portabilidad del Seguro Médico (HIPAA) y el PCI DSS (PCI DSS). Hadoop hace un buen trabajo de almacenar la información de auditoría para registrar los eventos de acceso a datos, por lo que un requisito básico ya está en marcha. Para proteger y gestionar que los datos de auditoría, herramientas de terceros están disponibles, tales como Navegador de Cloudera o IBM Guardium.

encriptación

Después de asegurarse de que las defensas de sus datos están en su lugar mediante la gestión del perímetro y que regula el acceso, se puede hacer aún más en el caso de una violación ocurre. El cifrado puede ser que la última línea de defensa. Para los datos en el disco, el trabajo activo se lleva a cabo en la comunidad de Hadoop para incorporar cifrado como una opción para los datos almacenados en HDFS. la distribución de Intel tiene un salto desde el principio este cifrado, ya que ha permitido a los datos en HDFS mediante el aprovechamiento de las instrucciones de cifrado especializados en las CPU de Intel se utilizan en nodos esclavos Hadoop. Herramientas de terceros también están disponibles para cifrar los datos en HDFS.

Debido a Hadoop es un sistema distribuido depender fuertemente de comunicación de la red, la encriptación de datos a medida que se mueve a través de la red es una parte crítica de esta historia. De vuelta en Hadoop 1, el sistema (RPC) Hadoop llamada a procedimiento remoto se ha mejorado para admitir el cifrado. Esto cubre la comunicación participan en el procesamiento de datos, como MapReduce, pero para el movimiento de datos y las interfaces web, Hadoop también utiliza TCP / IP y HTTP. Ambos también han sido asegurados: servidor HTTP de Hadoop ahora soporta HTTPS, y operaciones de transferencia de HDFS puede ser configurado para ser cifrados.