La ciencia de datos: datos de filtrar y seleccionar con python

Python es una herramienta útil para la ciencia de datos. Puede que no necesite para trabajar con todos los datos en un conjunto de datos. De hecho, mirando a una sola columna en particular podría ser beneficioso, tales como la edad, o un conjunto de filas con una cantidad significativa de información. De llevar a cabo dos pasos para obtener sólo los datos que necesita para realizar una tarea en particular:

  • filas de filtro para crear un tema de los datos que cumplen el criterio de seleccionar (como todas las personas entre las edades de 5 y 10).

  • Selecciona las columnas de datos que contienen los datos que tienen que analizar. Por ejemplo, es probable que no necesita nombres de las personas, a menos que desee realizar un análisis basado en el nombre.

El acto de cortar y rebanar los datos, le da un subconjunto de los datos adecuados para el análisis. Aquí hay varias maneras de obtener piezas específicas de datos para satisfacer necesidades particulares.

filas de loncheado

Rebanar puede ocurrir de varias maneras cuando se trabaja con datos, pero la técnica de interés aquí es para cortar datos de una fila de datos en 2D o 3D. Una matriz 2D puede contener temperaturas (eje x) sobre un marco de tiempo específico (eje y). Rebanar una fila significaría ver las temperaturas en un momento específico. En algunos casos, es posible asociar las filas de los casos en un conjunto de datos.

Una matriz 3D podría incluir un eje para el lugar (eje x), producto (eje y) y el tiempo (eje z), de modo que pueda ver las ventas para los artículos de más tiempo. Tal vez usted desea realizar un seguimiento de si las ventas de un artículo están aumentando, y en concreto en el que están aumentando. Rebanar una fila significaría ver todas las ventas de un producto específico para todas las ubicaciones en cualquier momento. El siguiente ejemplo muestra cómo realizar esta tarea:

x = np.array ([[[1, 2, 3], [4, 5, 6], [7, 8, 9],], [[11,12,13], [14,15,16] , [17,18,19],], [[21,22,23], [24,25,26], [27,28,29]]]) x [1]

En este caso, el ejemplo construye una matriz 3D. A continuación, rebana fila 1 de dicha matriz para producir el resultado siguiente:

array ([[11, 12, 13], [14, 15, 16], [17, 18, 19]])

columnas de loncheado

Utilizando los ejemplos de arriba, columnas slicing obtendrían datos en un ángulo de 90 grados con respecto a las filas. En otras palabras, cuando se trabaja con la matriz 2D, que le gustaría ver a los tiempos en los que se produjeron temperaturas específicas. Del mismo modo, es posible que desee ver las ventas de todos los productos para un lugar específico en cualquier momento cuando se trabaja con la matriz 3D. En algunos casos, es posible asociar columnas con las características de un conjunto de datos. El siguiente ejemplo muestra cómo realizar esta tarea utilizando la misma matriz:

x = np.array ([[[1, 2, 3], [4, 5, 6], [7, 8, 9],], [[11,12,13], [14,15,16] , [17,18,19],], [[21,22,23], [24,25,26], [27,28,29]]]) x [:, 1]

Observe que la indexación se produce ahora en dos niveles. El primer índice se refiere a la fila. El uso de los dos puntos (:) para la fila significa utilizar todas las filas. El segundo índice hace referencia a una columna. En este caso, la salida contendrá la columna 1. Aquí está la salida que ve:

array ([[4, 5, 6], [14, 15, 16], [24, 25, 26]])

Esta es una matriz 3D. Por lo tanto, cada una de las columnas contiene todos los elementos z ejes. Lo que se ve es cada fila - 0 a 2 para la columna 1 con cada elemento de eje z 0 a 2 para esa columna.

dicing

El acto de cortar en cubitos significa un conjunto de datos para llevar a cabo tanto fila y columna de rebanado de tal manera que usted termina con una cuña de datos. Por ejemplo, cuando se trabaja con la matriz 3D, es posible que desee ver las ventas de un producto específico en un lugar específico en cualquier momento. El siguiente ejemplo demuestra cómo realizar esta tarea utilizando la misma matriz que el anterior:

x = np.array ([[[1, 2, 3], [4, 5, 6], [7, 8, 9],], [[11,12,13], [14,15,16] , [17,18,19],], [[21,22,23], [24,25,26], [27,28,29]]]) de impresión x [1,1] impresión x :, [ 1,1] impresión x [1,:, 1] printprint x [1: 2, 1: 2]

En este ejemplo se corta en la matriz de cuatro maneras diferentes. En primer lugar, se obtiene la fila 1, columna 1. Por supuesto, lo que realmente es posible que desee la columna 1, z eje 1. Si eso no es del todo bien, siempre se puede solicitar la fila 1, z del eje 1 en su lugar. Por otra parte, es posible que desee filas 1 y 2 de las columnas 1 y 2. Aquí está la salida de los cuatro peticiones:

[14 15 16] [5 15 25] [12 15 18] [[[14 15 16] [17 18 19]] [[24 25 26] [27 28 29]]]
Artículos Relacionados