El aprendizaje automático: el uso de chispa para hacer frente a los datos masiva

El mundo real de la máquina de aprendizaje se basa principalmente en grandes conjuntos de datos. Imagínese tratando de encaminarse a su manera a través de los enormes datos generados solo por las ventas realizadas por Amazon.com todos los días. El punto es que usted necesita productos que ayudan a administrar estos enormes conjuntos de datos de una manera que hace que sean más fáciles de trabajar y más rápido de procesar. Aquí es donde Chispa entra en acción. Se basa en una técnica de agrupación.

El énfasis de la chispa es la velocidad. Cuando visita el sitio, estás recibidos por las estadísticas, tales como la capacidad de chispa para procesar los datos de un centenar de veces más rápido que otros productos, tales como Hadoop MapReduce (véase el tutorial) en memoria. Sin embargo, la chispa también ofrece flexibilidad en el que funciona con Java, Scala, Python, y R, y funciona en cualquier plataforma que soporte Apache. Usted puede incluso funcionar Spark en la nube si lo desea.

Spark trabaja con grandes conjuntos de datos, lo que significa que lo que necesita saber los lenguajes de programación, gestión de bases de datos y otras técnicas de desarrollo para utilizarlo. Esto significa que la curva de aprendizaje de chispa puede ser bastante alta, y hay que dar tiempo a los desarrolladores en su equipo para aprenderlo. Los ejemplos sencillos en la página web de la chispa se dan algunas ideas de lo que se trata simplemente. Nótese que todos los ejemplos incluyen un cierto nivel de codificación, por lo que realmente no necesita tener conocimientos de programación para utilizar esta opción.