La agregación de datos en cualquier nivel con el pitón

Puede utilizar Python para la agregación de datos. La agregación es útil en la ciencia de datos. Agregación es el proceso de combinar o agrupar datos en conjunto en un conjunto, bolsa, o lista. Los datos pueden o no pueden ser iguales. Sin embargo, en la mayoría de los casos, una función de agregación combina varias filas juntos estadísticamente usando algoritmos tales como promedio, contar, máximo, mediana, mínimo, modo, o la suma. Hay varias razones para agregar datos:

Video: Lagash Webinars - Elastic Search

  • Que sea más fácil de analizar

  • Reducir la capacidad de cualquier persona para deducir los datos de un individuo a partir del conjunto de datos de privacidad u otros motivos

  • Crear un elemento de datos combinados de una fuente de datos que coincide con un elemento de datos combinado en otra fuente

El uso más importante de la agregación de datos es promover el anonimato con el fin de satisfacer las exigencias legales o de otro tipo. A veces, incluso los datos que deben ser anónimo resulta para proporcionar la identificación de un individuo usando las técnicas de análisis adecuadas. Por ejemplo, los investigadores han encontrado que es posible identificar a las personas sobre la base de sólo tres compras con tarjeta de crédito. Aquí hay un ejemplo que muestra cómo realizar tareas de agregación:

Video: 01.- Curso Python 3.X ¿Qué será lo que tiene Python?

pandas de importación como Pddf = pd.DataFrame ({ `Mapa`: [0,0,0,1,1,2,2], `valores`: [1,2,3,5,4,2,5]} ) df [ `S`] = df.groupby ( `Mapa`) [ `Valores`]. transformar (np.sum) df [ `M`] = df.groupby ( `Mapa`) [ `Valores`]. transformar (np.mean) df [ `V`] = df.groupby ( `Mapa`) [ `Valores`]. transformar (np.var) df de impresión

En este caso, tiene dos características iniciales de este Marco de datos. Los valores de Mapa definir qué elementos de Valores pertenecer juntos. Por ejemplo, cuando se calcula una suma de Mapa el índice 0, se utiliza el Valores 1, 2, y 3.

Para llevar a cabo la agregación, primero debe llamar agrupar por() agrupar la Mapa valores. A continuación, índice en Valores y se basan en transformar() para crear los datos agregados usando uno de varios algoritmos que se encuentran en NumPy, tales como np.sum. Estos son los resultados de este cálculo:

 Asignar los valores de S M V0 0 1 6 2,0 1,01 0 2 6 2,0 1,02 0 3 6 2,0 1,03 1 5 9 4,5 0,54 1 4 9 4,5 0,55 2 2 7 3,5 4,56 2 5 7 3,5 4,5
Artículos Relacionados