Scikit-learn resumen de métodos
Scikit-learn es un punto focal para el trabajo de la ciencia de datos con Python, por lo que vale la pena saber qué métodos que más lo necesita. A continuación se ofrece una breve visión general de los métodos más importantes que se utilizan para el análisis de datos.
feature_extraction.FeatureHasher
Uso: Preparación de los datos
Descripción: El truco de hash, lo que le permite adaptarse a un gran número de características en el conjunto de datos
preprocessing.Binarizer
Uso: Preparación de los datos
Descripción: Crear variables binarias (valores de características a 0 o 1)
preprocessing.Imputer
Uso: Preparación de los datos
Descripción: Los valores perdidos imputación
preprocessing.MinMaxScaler
Uso: Preparación de los datos
Descripción: Crear variables ligadas por un valor mínimo y máximo
preprocessing.OneHotEncoder
Uso: Preparación de los datos
Descripción: Transformar características enteros categóricas en unos binarios
preprocessing.StandardScaler
Uso: Preparación de los datos
Descripción: tipificación de las variables mediante la eliminación de la media y la varianza unitaria a escala
feature_extraction.text.CountVectorizer
Uso: Preparación de los datos
Descripción: Convertir documentos de texto en una matriz de datos de recuento
feature_extraction.text.HashingVectorizer
Uso: Preparación de los datos
Descripción: Directamente convertir el texto con el truco de hash
feature_extraction.text.TfidfVectorizer
Uso: Preparación de los datos
Descripción: Crea un conjunto de datos de características TF-IDF.
Video: Machine learning in Python with scikit-learn
feature_selection.RFECV
Uso: Selección de características
Descripción: la función de selección automática
decomposition.PCA
Uso: Reducción de dimensionalidad
Descripción: Análisis de componentes principales (PCA)
decomposition.RandomizedPCA
Uso: Reducción de dimensionalidad
Descripción: Análisis de componentes principales (PCA) usando SVD aleatorio
cross_validation.cross_val_score
Uso: fase de validación cruzada
Descripción: Calcular la puntuación de validación cruzada
cross_validation.KFold
Uso: fase de validación cruzada
Descripción: Dividir el conjunto de datos en k pliegues para la validación cruzada
cross_validation.StratifiedKFold
Uso: fase de validación cruzada
Descripción: validación estratificado que tenga en cuenta la distribución de las clases que predicen
cross_validation.train_test_split
Uso: fase de validación cruzada
Descripción: Dividir los datos en conjuntos de entrenamiento y prueba
grid_search.GridSearchCV
Uso: Mejoramiento
Descripción: búsqueda exhaustiva con el fin de maximizar una algoritmo de aprendizaje automático
linear_model.LinearRegression
Uso: Predicción
Descripción: Regresión lineal
Video: Machine Learning with Text in scikit-learn (PyCon 2016)
linear_model.LogisticRegression
Uso: Predicción
Descripción: Lineal de regresión logística
neighbors.KNeighborsClassifier
Uso: Predicción
Descripción: clasificación K-Vecinos
naive_bayes.MultinomialNB
Video: Getting started in scikit-learn with the famous iris dataset
Uso: Predicción
Descripción: Bayes Ingenuo
metrics.accuracy_score
Uso: evaluación de soluciones
Descripción: Precisión puntuación de clasificación.
metrics.f1_score
Uso: evaluación de soluciones
Descripción: Calcular la puntuación de F1, el equilibrio de la precisión y el recuerdo
metrics.mean_absolute_error
Uso: evaluación de soluciones
Descripción: La media de error de regresión error absoluto
metrics.mean_squared_error
Uso: evaluación de soluciones
Descripción: La media de error de regresión error al cuadrado
metrics.roc_auc_score
Uso: evaluación de soluciones
Descripción: Calcular área bajo la curva (AUC) de predicción de resultados