la ciencia de datos: cómo enviar datos en forma de archivos no estructurados con Python

Puede utilizar Python para enviar datos en forma de archivos no estructurados. archivos de datos no estructurados consisten en una serie de bits. El archivo no se separa de los bits entre sí de alguna manera. No se puede simplemente mirar en el archivo y ver cualquier estructura, porque no hay ninguna para ver. formatos de archivos no estructurados se basan en el usuario de archivos para saber cómo interpretar los datos.

Por ejemplo, cada píxel de un archivo de imagen podría consistir en tres campos de 32 bits. Sabiendo que cada campo es de 32-bits depende de usted. Una cabecera al principio del archivo puede proporcionar pistas sobre cómo interpretar el archivo, pero aún así, le toca a usted para saber cómo interactuar con el archivo.

El ejemplo muestra cómo trabajar con un dibujo en un fichero estructurado. La imagen de ejemplo es una oferta de dominio público. Para trabajar con imágenes, es necesario para acceder a la Scikit biblioteca de imágenes, que es una colección libre de cargo de los algoritmos utilizados para el procesamiento de imágenes. UN tutorial para esta biblioteca está disponible si necesita ayuda.

La primera tarea es ser capaz de mostrar la imagen en pantalla usando el siguiente código. (Este código se requiere un poco de tiempo para funcionar. La imagen está listo cuando el indicador de actividad desaparece de la pestaña Notebook IPython).

de imreadfrom importación skimage.io pyplot importación resizefrom importación skimage.transform matplotlib como matplotlib.cm pltimport como cmexample_file = ( “http://upload.wikimedia.org/” + “Wikipedia / comunes / 7 / 7d / Dog_face.jpg”) image = imread (example_file, as_grey = True) plt.imshow (imagen, CMAP = cm.gray) plt.show ()

El código comienza con la importación de una serie de bibliotecas. A continuación, crea una cadena que apunta al archivo de ejemplo en línea y lo coloca en example_file. Esta cadena es parte de la Estoy leído() llamada de método, junto con as_grey, que se fija para Cierto. los as_grey argumento le dice a Python para convertir cualquier imagen en color en escala de grises. Las imágenes que ya están en escala de grises siguen siendo de esa manera.

Ahora que ha cargado una imagen, es el momento para hacerlo (que quede listo para mostrar en pantalla. La imshow () función realiza la prestación y utiliza un mapa de color en escala de grises. los espectáculo() realmente funcionan las pantallas imagen para ti.

La imagen aparece en la pantalla después de procesar y mostrar la misma.

Cerrar la imagen cuando haya terminado de verlo. (El asterisco en la A

: entrada que dice que el código todavía está en marcha y no se puede pasar al siguiente paso.) El acto de cierre de la imagen termina el segmento de código. Ahora tiene una imagen en la memoria y es posible que desee saber más acerca de él. Cuando se ejecuta el código siguiente, se descubre el tipo y el tamaño de la imagen:

Video: Programacion Python 21 : Archivos CSV

print ( “tipo de datos:% s, forma:% s”% (tipo (imagen), imagen.Forma))

La salida de esta llamada le indica que el tipo de imagen es una numpy.ndarray y que el tamaño de la imagen es de 90 píxeles por 90 píxeles. La imagen es en realidad una matriz de píxeles que se pueden manipular de varias maneras. Por ejemplo, si desea recortar la imagen, puede utilizar el siguiente código para manipular la matriz de imagen:

imagen2 = imagen [5: 70,0: 70] plt.imshow (image2, CMAP = cm.gray) plt.show ()

los numpy.ndarray en imagen2 es más pequeño que el de imagen, lo que la salida es menor también. El propósito de recortar la imagen es para que sea un tamaño específico. Ambas imágenes deben ser del mismo tamaño para que usted pueda analizarlos. El recorte es una manera de asegurar que las imágenes son del tamaño correcto para el análisis.

Recorte de la imagen hace que sea más pequeño.

Video: Tipos de Datos Complejos Tuplas , Listas y Diccionarios | Curso Python #6

Otro método que se puede utilizar para cambiar el tamaño de la imagen es para cambiar su tamaño. El código siguiente cambia el tamaño de la imagen a un tamaño específico para el análisis:

image3 = cambio de tamaño (image2, (30, 30), modo = `más cercana`) plt.imshow (image3, CMAP = cm.gray) print ( “datos de tipo:% s, forma:% s”% (tipo (image3) , image3.shape))

La salida de la impresión() función le dice que la imagen es ahora de 30 píxeles por 30 píxeles de tamaño. Se puede comparar a cualquier imagen con las mismas dimensiones.

Una vez que tenga todas las imágenes del tamaño adecuado, es necesario aplanar ellos. Una fila conjunto de datos es siempre una única dimensión, no en dos dimensiones. La imagen está un conjunto de 30 píxeles por 30 píxeles, por lo que no puede hacer que sea parte de un conjunto de datos. El siguiente código se aplana imagen3 de modo que se convierte en una serie de 900 elementos que se almacena en image_row.

image_row = image3.flatten () print ( “tipo de datos:% s, forma:% s”% (tipo (image_row), image_row.shape))

Observe que el tipo sigue siendo una numpy.ndarray. Puede agregar esta matriz a un conjunto de datos y luego utilizar el conjunto de datos para fines de análisis. El tamaño es de 900 elementos, como se esperaba.