Usando el ecosistema pitón para la ciencia de datos

Es necesario para cargar las bibliotecas con el fin de realizar tareas de ciencias de datos en Python. He aquí un resumen de las bibliotecas que se pueden utilizar para la ciencia de datos. Estas bibliotecas pueden realizar múltiples funciones para el científico de datos.

Acceso a las herramientas científicas que utilizan SciPy

los pila SciPy contiene una serie de otras bibliotecas que también se puede descargar por separado. Estas bibliotecas proporcionan apoyo para las matemáticas, la ciencia y la ingeniería. Al obtener SciPy, se obtiene un conjunto de librerías diseñadas para trabajar juntos para crear aplicaciones de diversos tipos. Estas bibliotecas son

NumPy
SciPy
matplotlib
IPython
sympy
pandas

La biblioteca SciPy en sí se centra en las rutinas numéricas, tales como rutinas de integración numérica y optimización. SciPy es una biblioteca de propósito general que proporciona la funcionalidad para múltiples dominios de problemas. También proporciona apoyo a las bibliotecas de dominio específico, como scikit-learn, Scikit-imagen, y statsmodels.

Realización de la computación científica fundamental usando NumPy

los biblioteca NumPy proporciona los medios para realizar la manipulación de matrices n-dimensional, que es crítica para el trabajo de la ciencia de datos. No se podía acceder fácilmente a n-dimensional arrays sin funciones NumPy que incluyen soporte para álgebra lineal, transformada de Fourier, y la generación de números aleatorios.

Realización de análisis de datos utilizando pandas

los biblioteca de pandas proporciona soporte para las estructuras de datos y herramientas de análisis de datos. La biblioteca está optimizado para realizar tareas de ciencias de datos especialmente rápido y eficiente. El principio básico detrás de los pandas es proporcionar análisis de datos y el modelado de soporte para Python que es similar a otros idiomas, como el R.

La implementación de la máquina de aprendizaje utilizando scikit-learn

los Scikit-learn biblioteca es uno de una serie de bibliotecas Scikit que se basan en las capacidades proporcionadas por NumPy y SciPy para permitir a los desarrolladores de Python para realizar tareas específicas de dominio. En este caso, la biblioteca se centra en la minería de datos y análisis de datos. Proporciona acceso a los siguientes tipos de funcionalidad:

Clasificación
Regresión
La agrupación
Reducción de dimensionalidad
La selección del modelo
preprocesamiento

Trazado de los datos utilizando matplotlib

los biblioteca matplotlib le proporciona una interfaz similar a Matlab para crear presentaciones de datos de los análisis que se realiza. La biblioteca se limita actualmente a la salida 2D, pero todavía le proporciona los medios para expresar gráficamente los patrones de datos que se ven en los datos a analizar. Sin esta biblioteca, no se podía crear una salida que la gente fuera de la comunidad científica datos podrían entender fácilmente.

Procesadores de documentos HTML usando sopa Hermosa

los biblioteca hermosa sopa descarga se encuentra realmente en el sitio web de Python. Esta biblioteca proporciona los medios para analizar los datos HTML o XML de manera que Python entiende. Se le permite trabajar con los datos basados en los árboles.

Además de proporcionar un medio para trabajar con datos basados en los árboles, hermoso sopa lleva mucho el trabajo de trabajar con documentos HTML. Por ejemplo, se convierte automáticamente la codificación (La manera en que los caracteres son almacenados en un documento) de los documentos HTML de UTF-8 a Unicode. Un desarrollador de Python normalmente tienen que preocuparse por cosas como la codificación, pero con sopa de Hermosa, puede centrarse en su código en su lugar.