Scikit-learn Resumen de métodos

Scikit-learn es un punto focal para el trabajo de la ciencia de datos con Python, por lo que vale la pena saber qué métodos que más lo necesita. A continuación se ofrece una breve visión general de los métodos más importantes que se utilizan para el análisis de datos.

feature_extraction.FeatureHasher

Uso: Preparación de los datos

Descripción: El truco de hash, lo que le permite adaptarse a un gran número de características en el conjunto de datos

preprocessing.Binarizer

Uso: Preparación de los datos

Descripción: Crear variables binarias (valores de características a 0 o 1)

preprocessing.Imputer

Uso: Preparación de los datos

Descripción: Los valores perdidos imputación

preprocessing.MinMaxScaler

Uso: Preparación de los datos

Descripción: Crear variables ligadas por un valor mínimo y máximo

preprocessing.OneHotEncoder

Uso: Preparación de los datos

Descripción: Transformar características enteros categóricas en unos binarios

preprocessing.StandardScaler

Uso: Preparación de los datos

Descripción: tipificación de las variables mediante la eliminación de la media y la varianza unitaria a escala

feature_extraction.text.CountVectorizer

Uso: Preparación de los datos

Descripción: Convertir documentos de texto en una matriz de datos de recuento

feature_extraction.text.HashingVectorizer

Uso: Preparación de los datos

Descripción: Directamente convertir el texto con el truco de hash

feature_extraction.text.TfidfVectorizer

Uso: Preparación de los datos

Descripción: Crea un conjunto de datos de características TF-IDF.

Video: Machine learning in Python with scikit-learn

feature_selection.RFECV

Uso: Selección de características

Descripción: la función de selección automática

decomposition.PCA

Uso: Reducción de dimensionalidad

Descripción: Análisis de componentes principales (PCA)

decomposition.RandomizedPCA

Uso: Reducción de dimensionalidad

Descripción: Análisis de componentes principales (PCA) usando SVD aleatorio

cross_validation.cross_val_score

Uso: fase de validación cruzada

Descripción: Calcular la puntuación de validación cruzada

cross_validation.KFold

Uso: fase de validación cruzada

Descripción: Dividir el conjunto de datos en k pliegues para la validación cruzada

cross_validation.StratifiedKFold

Uso: fase de validación cruzada

Descripción: validación estratificado que tenga en cuenta la distribución de las clases que predicen

cross_validation.train_test_split

Uso: fase de validación cruzada

Descripción: Dividir los datos en conjuntos de entrenamiento y prueba

grid_search.GridSearchCV

Uso: Mejoramiento

Descripción: búsqueda exhaustiva con el fin de maximizar una algoritmo de aprendizaje automático

linear_model.LinearRegression

Uso: Predicción

Descripción: Regresión lineal

Video: Machine Learning with Text in scikit-learn (PyCon 2016)

linear_model.LogisticRegression

Uso: Predicción

Descripción: Lineal de regresión logística

neighbors.KNeighborsClassifier

Uso: Predicción

Descripción: clasificación K-Vecinos

naive_bayes.MultinomialNB

Video: Getting started in scikit-learn with the famous iris dataset

Uso: Predicción

Descripción: Bayes Ingenuo

metrics.accuracy_score

Uso: evaluación de soluciones

Descripción: Precisión puntuación de clasificación.

metrics.f1_score

Uso: evaluación de soluciones

Descripción: Calcular la puntuación de F1, el equilibrio de la precisión y el recuerdo

metrics.mean_absolute_error

Uso: evaluación de soluciones

Descripción: La media de error de regresión error absoluto

metrics.mean_squared_error

Uso: evaluación de soluciones

Descripción: La media de error de regresión error al cuadrado

metrics.roc_auc_score

Uso: evaluación de soluciones

Descripción: Calcular área bajo la curva (AUC) de predicción de resultados