En cuanto a los conceptos básicos de estadística, aprendizaje automático, y los métodos matemáticos en la ciencia de datos

Video: Población, muestra y variable

Si las estadísticas se ha descrito como la ciencia de obtener ideas a partir de datos, entonces ¿cuál es la diferencia entre un estadístico y un científico de datos? ¡Buena pregunta! Si bien muchas tareas en la ciencia de datos requieren un poco de conocimiento de cómo estadística, el alcance y la amplitud de la base de conocimientos y la habilidad de un científico de datos es distinta de las de un estadístico. Las distinciones básicas se describen a continuación.

Video: USM - Modelación Matemática

  • Experiencia en el tema: Una de las características principales de científicos de datos es que ofrecen un grado sofisticado de experiencia en el área a la que se aplican los métodos analíticos. científicos de datos necesitan esto para que sean capaces de entender realmente las implicaciones y aplicaciones de los puntos de vista de datos que generan. Un científico de datos debe tener suficiente experiencia en el tema para poder identificar la importancia de sus hallazgos e independientemente decidir cómo proceder en el análisis.

    Por el contrario, los estadísticos suelen tener un conocimiento muy profundo de las estadísticas, pero muy poca experiencia en las materias a las que se aplican métodos estadísticos. La mayoría de las veces, se requieren los estadísticos para consultar con expertos en la materia externos para obtener un control firme sobre la importancia de sus hallazgos en verdad, y para poder decidir la mejor manera de avanzar en un análisis.

  • enfoques matemáticos y de aprendizaje automático: Los estadísticos se basan principalmente en métodos y procesos estadísticos al derivar puntos de vista de los datos. En contraste, se requieren científicos de datos para tirar de una amplia variedad de técnicas para derivar penetraciones de datos. Estos incluyen métodos estadísticos, sino que también incluyen enfoques que no se basan en las estadísticas - como las que se encuentran en las matemáticas, la agrupación, clasificación y métodos de aprendizaje automático no estadísticos.

Al ver la importancia de los conocimientos técnicos estadísticos

Usted no tiene que salir y conseguir un grado en las estadísticas de practicar la ciencia de datos, pero al menos debe familiarizarse con algunos de los métodos más fundamentales que se utilizan en el análisis de datos estadísticos. Éstas incluyen:

  • Regresión lineal: La regresión lineal es útil para modelar las relaciones entre una variable dependiente y una o varias variables independientes. El propósito de la regresión lineal es descubrir (y cuantificar la fuerza de) correlaciones importantes entre las variables dependientes e independientes.

  • Análisis de series temporales: análisis de series temporales implica analizar una colección de datos sobre los valores de los atributos en el tiempo, con el fin de predecir futuras instancias de la medida basada en los datos de las observaciones anteriores.

    Video: Tipos de variables y niveles de medición estadística

  • simulaciones de Monte Carlo: El método de Monte Carlo es una técnica de simulación que puede utilizar para probar hipótesis, para generar estimaciones de los parámetros, para predecir los resultados de escenarios, y para validar los modelos. El método es de gran alcance, ya que puede ser utilizado para simular muy rápidamente en cualquier lugar de 1 a 10.000 (o más) muestras de simulación para todos los procesos que están tratando de evaluar.

  • Las estadísticas para los datos espaciales: Una propiedad fundamental e importante de datos espaciales es que no es al azar. Es espacialmente dependiente y autocorrelated. Al modelar los datos espaciales, evitar los métodos estadísticos que asumen sus datos es al azar. Kriging y Krige dos métodos estadísticos que se pueden utilizar para modelar los datos espaciales. Estos métodos le permiten producir superficies predictivos para zonas enteras de estudio basados ​​en conjuntos de puntos conocidos en el espacio geográfico.

El trabajo con la agrupación, clasificación y métodos de aprendizaje automático

El aprendizaje automático es la aplicación de algoritmos computacionales para aprender de (o deducir patrones de) los conjuntos de datos en bruto. La agrupación es un tipo particular de aprendizaje de la máquina -sin supervisión aprendizaje automático, para ser más precisos, lo que significa que los algoritmos deben aprender de los datos no etiquetados, y como tal, deben utilizar métodos de inferencia para descubrir correlaciones.

Clasificación, por el contrario, se llama la máquina de aprendizaje supervisado, lo que significa que los algoritmos aprenden de datos etiquetados. Las siguientes descripciones introducen algunas de las agrupamiento y clasificación de los enfoques más básicos:

  • k-means clustering: Por lo general, implementar algoritmos K-medias para subdividir los puntos de datos de un conjunto de datos en grupos basados ​​en valores medios más próximos. Para determinar la división óptima de los puntos de datos en grupos, de tal manera que la distancia entre los puntos de cada grupo se minimiza, puede utilizar k-significa la agrupación.

  • Más cercanos algoritmos vecino: El propósito de un análisis del vecino más cercano está a la búsqueda y localización, ya sea un punto más cercano en el espacio o un valor numérico más cercano, dependiendo del atributo se utiliza para la base de comparación.

  • la estimación de la densidad del núcleo: Una forma alternativa para identificar grupos en sus datos es utilizar una función de suavizado densidad. la estimación de la densidad del núcleo (KDE) funciona mediante la colocación de una núcleo una función de ponderación que es útil para la cuantificación de la densidad - en cada punto de datos en el conjunto de datos, y luego sumando los granos para generar una estimación de densidad kernel para la región en general.

Mantener los métodos matemáticos en la mezcla

Un montón consigue dicho sobre el valor de la estadística en la práctica de la ciencia de datos, pero aplican métodos matemáticos rara vez se mencionan. Para ser franco, la matemática es la base de todos los análisis cuantitativos. Su importancia no debe ser subestimada. Los dos siguientes métodos matemáticos son particularmente útiles en la ciencia de datos.

  • Multicriterio la toma de decisiones (MCDM): MCDM es enfoque de modelado de decisiones amathematical que se puede utilizar cuando se tiene varios criterios o alternativas que debe evaluar de forma simultánea al tomar una decisión.

  • Las cadenas de Markov: Una cadena de Markov es un método matemático que las cadenas juntos una serie de variables generadas de forma aleatoria que representan el estado actual con el fin de modelar cómo los cambios en las variables de estado presentes afectan estados futuros.

Artículos Relacionados