Raspado, la recolección y el manejo de herramientas de las ciencias de datos

Ya sea que necesite datos para apoyar un análisis de negocios o una próxima pieza de periodismo, web raspado puede ayudar a localizar las fuentes de datos interesantes y únicos. En Web raspado configura programas automatizados y luego dejar que ellos recorren la web para los datos que necesita. Aquí hay herramientas gratuitas szome que se pueden utilizar para raspar los datos o imágenes, incluyendo import.io, ImageQuilts y DataWrangler.

Raspado de datos con import.io

¿Alguna vez ha tratado de copiar y pegar una tabla de la web en un documento de Microsoft Office y después de no haber sido capaz de obtener las columnas se alineen correctamente? Frustrante, ¿verdad? Este es exactamente el punto de dolor que import.io fue diseñado para hacer frente.

import.io - se pronuncia “ojo de importación-oh” - es una aplicación gratuita de escritorio que se puede utilizar para copiar sin dolor, pasta, limpio, y formatear cualquier parte de una página web con sólo unos pocos clics del ratón. Incluso puede utilizar import.io a gatear y extraer datos de listas de múltiples páginas de forma automática.

Usando import.io, se puede raspar datos de una serie simple o complicada de páginas web:

  • Sencillo: Acceder a las páginas web a través de hipervínculos simples que aparecen en la página 1, página 2, página 3.

  • Complicado: Rellenar un formulario o elegir de una lista desplegable, a continuación, enviar su solicitud a la herramienta de raspado.

característica más impresionante de import.io es su capacidad para observar los clics del ratón para aprender lo que desea, y luego le ofrecen formas en que puede completar automáticamente sus tareas para usted. Aunque import.io aprende y sugiere tareas, que no toma una decisión sobre esas tareas hasta después de haber marcado la sugerencia correcta. En consecuencia, estas interacciones humanas aumentada reducen el riesgo de que la máquina va a sacar una conclusión incorrecta debido a un exceso de adivinar.

La recopilación de imágenes con ImageQuilts

ImageQuilts es una extensión de Chrome desarrollado en parte por el legendario Edward Tufte, uno de los primeros grandes pioneros en la visualización de datos - se popularizó el uso de la relación de datos a la tinta para juzgar la eficacia de las cartas.

La tarea ImageQuilts realiza es engañosamente simple de describir pero muy complejo de implementar. ImageQuilts hace collages de decenas de imágenes y piezas todas juntas en una “colcha” que se compone de varias filas de igual altura. Esta tarea puede ser complejo debido a que las imágenes de origen casi nunca son la misma altura. ImageQuilts rasguños y cambia el tamaño de las imágenes antes de coserlos juntos en una imagen de salida.

El edredón imagen mostrada se deriva de una “etiquetadas para reutilización” búsqueda de Google Imágenes del término datos ciencia.

Video: Herramienta de datos estructurados

ImageQuilts incluso le permite elegir el orden de las imágenes o selecciona aleatoriamente a ellos. Puede utilizar la herramienta para arrastrar y soltar cualquier imagen a cualquier lugar, eliminar una imagen, hacer zoom todas las imágenes al mismo tiempo, o enfocar cada imagen individual.

Incluso puede utilizar la herramienta para convertir entre los colores de la imagen - de color a escala de grises o en color invertida (lo cual es útil para la fabricación de hojas de contacto de negativos, si usted es una de esas raras personas que sigue procesando la fotografía analógica).

Disputas de datos con DataWrangler

DataWrangler es una herramienta en línea que está apoyada por la Universidad de Washington Interactive Data Lab (en el momento DataWrangler se desarrolló, este grupo fue llamado el Grupo de Visualización de Stanford). Este mismo grupo desarrolló Lyra, un entorno de visualización de datos interactiva que se puede utilizar para crear visualizaciones complejas sin experiencia en programación.

Si su objetivo es esculpir el conjunto de datos - o cosas limpias hasta moviendo cosas alrededor como un escultor (dividir esta parte en dos, rebanar ese bit y moverlo de allí, empujan este abajo de modo que el contenido de abajo se desplaza a la derecha, y así sucesivamente) - DataWrangler es la herramienta para usted.

Usted puede hacer manipulaciones con DataWrangler similar a lo que puede hacer en Excel utilizando Visual Basic. Por ejemplo, puede utilizar DataWrangler o Excel con Visual Basic para copiar, pegar y la información del formato de las listas en Internet.

DataWrangler incluso sugiere acciones en base a su conjunto de datos y se puede repetir acciones complejos a lo largo conjuntos de datos - Las acciones tales como la eliminación de filas omitidos, dividir los datos de una columna en dos, o convertir un encabezado en datos de columna. DataWrangler también se puede mostrar en el conjunto de datos no se encuentra datos.

Los datos que faltan pueden indicar un error de formato que necesita ser limpiado.

Artículos Relacionados