Las técnicas utilizadas en los trabajos de codificación para analizar grandes volúmenes de datos

Video: Citizenfour (multi-lang!)

Si usted está esperando para conseguir un trabajo en la codificación, se le puede pedir para analizar grandes volúmenes de datos. Cuando piensan en el análisis de datos, muchos imaginan modelos matemáticos complejos. Esas ecuaciones sin duda tienen su lugar, pero hay otras técnicas de análisis de datos. Esto describe algunos de los que se usan para analizar grandes conjuntos de datos.

Resumiendo tendencias de los datos y el examen de los valores atípicos

Una sencilla técnica de análisis de datos es representar gráficamente los datos, y ver si hay valores extremos o tendencias interesantes. El desafío de esta tarea es encontrar todos los datos relevantes, y saber lo suficiente sobre los datos subyacentes establecidos para detectar anomalías.

Por ejemplo, el Departamento de Salud de la Ciudad de Nueva York asigna a cada uno de sus 24.000 restaurantes una calificación de A (13 puntos o menos), B (14 a 27), o C (28 o más, lo que puede cerrar un restaurante hasta que la violaciónes se corrigen) en función del cumplimiento del código de salud. Ben Wellington, un analista de datos y blogger, trazó todos los grados de carta de restaurante y se dio cuenta de que tres veces el número de restaurantes anotaron 13 puntos, la puntuación más baja que todavía recibe una A, de 14 puntos, un grado B.

En otras palabras, los inspectores de salud se pueden inflar las calificaciones de esos restaurantes en el borde de una A o una puntuación B. El hallazgo generó cobertura de los periódicos y las respuestas del Departamento de Salud de Nueva York.

Tres veces el número de restaurantes de Nueva York anotaron 13 puntos de 14 puntos

La segmentación y la agregación de datos

Otra de las técnicas de análisis de datos es filtrar los datos para ciertos criterios, y luego agregar los datos para ver si hay una historia interesante.

Google, por ejemplo, creó un mapa de la gripe llamada Flu Trends filtrando todas sus consultas de búsqueda de términos de búsqueda relacionadas con la gripe. Se agregan las consultas por localización y destacaron los aumentos anormales. Tradicionalmente, los Centros estadounidenses para el Control de Enfermedades monitorea los brotes de gripe por informar sobre las visitas al médico. En 2009, Flu Trends predijo que el brote de gripe en los EE.UU. en tiempo real, dos semanas antes de los informes de los CDC oficial.

Video: Funcionalidades de NVivo 10, software para análisis cualitativo

Google Flu Trends predijo un brote de gripe antes que los informes oficiales.

La combinación de dos o más conjuntos de datos

El puré de dos conjuntos de datos diferentes pueden crear resultados inesperados e interesantes. Siempre que se combinan conjuntos de datos, los retos son la limpieza de los datos y la comprensión de cómo combinarlo.

Video: Frameworks para Big Data

Por ejemplo, más de la mitad de los drenajes de la ciudad de Nueva York se obstruye, y la ciudad quería encontrar restaurantes que vertían ilegalmente grasa en las alcantarillas de la ciudad. Por lo general, la ciudad sería capaz de inspeccionar sólo una fracción de sus 20.000 restaurantes. En lugar de ello, los analistas de datos mapeados ciudad la ubicación de los desagües tapados y ubicaciones de los restaurantes que no contaban con servicios de gestión de residuos.

Aunque el levantamiento de mapas puede sonar simple, agencias en Nueva York localizar el informe de diferentes maneras, como por GPS, bloquear o parcela. La lista resultante era lo suficientemente pequeño como para inspectores de la ciudad para hacer frente, y la iniciativa de resolver el 95 por ciento de los vertidos ilegales.

Modelado

Gran parte de los trabajos avanzados de datos grande, y el trabajo que probablemente va a hacer si se convierte en un analista de datos, implica algún tipo de modelado. UN modelo es un nombre dado a una fórmula matemática utilizada para representar los datos del mundo real, y muchos tipos diferentes de modelos y fórmulas de existir.

En general, los modelos predicen normalmente ya sea algún valor futuro o clasificar los datos en categorías. Por ejemplo, los modelos pueden predecir cómo el Tribunal Supremo de Estados Unidos va a pronunciarse sobre un caso particular, o qué películas ver ahora dadas las películas que ya hemos visto. Además, los modelos se clasifican si el correo electrónico que acaba de recibir un mensaje es spam o un mensaje legítimo, y donde las caras están en fotografías de personas.

Kaggle.com recibe competiciones que involucran el análisis de datos real en el que cualquiera puede practicar sus habilidades de datos. Algunas personas usan modelos y técnicas muy complejas, pero la gente que consistentemente ganan competiciones Kaggle comentan que los modelos simples por lo general hacen mejor.

La mejora de los modelos utilizados para predecir las opiniones judiciales y clasificar correo electrónico requerir la intervención humana. METROunaprendizaje del lomo es el término que describe un conjunto de modelos que aprender y mejorar el rendimiento de forma automática. Hay dos categorías de aprendizaje:

Aprendizaje supervisado: Los datos con una estructura y una relación conocida se examina.
Por ejemplo, el libro Moneyball crónicas como el gerente general de los Atléticos de Oakland, Billy Bean, utiliza porcentaje en base de un jugador y camina como predictores de cuántos corre el jugador podría anotar en un juego.
aprendizaje no supervisado: Los datos sin una estructura o relación conocida se analiza para tratar de encontrar algún tipo de relación.
Video: Minería de texto y análisis de contenido con apoyo de QDA Miner y Worstat
Por ejemplo, supongamos que se ejecuta un sitio web de citas y desea dividir a los usuarios en grupos de tres a seis para que pueda coincidir con las personas en cada grupo con intereses similares. Antes de analizar los perfiles de las personas, que no se sabe cuántos grupos que tendrá en el extremo o lo van a ser. Después de comenzar dividiendo sus usuarios, usted encuentra que usted tiene un grupo de personas que trabajan en los inicios, un grupo de personas de mediana edad interesados en el arte y el teatro, y un grupo al que le gusta correr y el esquí.