En cuanto a la mecánica involucrados en hacer ciencia de datos

Si está realmente interesado en la ciencia de datos, que realmente debería hacer el esfuerzo de dominar Python, sin duda el lenguaje de programación más fácil para la ciencia de datos. Python es un lenguaje de programación orientado a objetos que es perfecto para un fácil procesamiento de datos, análisis y visualización.

Python es uno de los lenguajes de programación más populares. Esto se debe a que es relativamente fácil de dominar y porque permite a los usuarios realizar varias tareas con sólo unas pocas líneas de código. La siguiente es una lista de las tres bibliotecas de Python que son más útiles y relevantes en la práctica de la ciencia de datos.

NumPy: los numpY el paquete está en la raíz de casi todos los cálculos numéricos en Python. Eso es porque NumPy ofrece a los usuarios una manera de crear objetos de matriz multi-dimensionales en Python.
SciPy:SciPy se construye en la parte superior de, y extiende las capacidades de la NumPy paquete. SciPy es un conjunto de algoritmos matemáticos y funciones sofisticadas que se pueden utilizar para la cuantificación de vectores, funciones estadísticas, n-dimensional Operaciones de imágenes, las rutinas de integración, herramientas de interpolación, álgebra lineal dispersa, solucionadores lineales, herramientas de optimización, herramientas de procesamiento de señales, matrices dispersas, y muchas otras utilidades que no son atendidos por otras bibliotecas de Python.
matplotlib: matplotlib se construye en la parte superior de NumPy y SciPy. Utilizar el matplotlib biblioteca cuando se desea crear representaciones visuales de sus hallazgos conjunto de datos o de análisis de datos.

Trabajando con R

Para aquellos que no lo conocen, R es un código abierto, sistema de software estadístico libre, ampliamente adoptado en todo el sector de las ciencias de datos. Sí, no es tan fácil de aprender como Python, pero puede ser mucho más potente para ciertos tipos de análisis estadísticos avanzados. También tiene capacidades de visualización de datos particularmente avanzada. La siguiente es una lista de los tres paquetes de R que son particularmente útiles en la práctica de la ciencia de datos.

Pronóstico: los pronóstico paquete contiene varias funciones de previsión que se puede adaptar a utilizar para ARIMA, o para otros tipos de pronósticos de series temporales univariantes.
Mlogit: Un modelo logit multinomial es aquella en la que las observaciones de una clase conocida se utilizan para “entrenar” el software para que pueda identificar las clases de otras observaciones cuyas clases son desconocidos. Si desea llevar a cabo una regresión logística en R, se puede utilizar el paquete de logit multinomial.
ggplot2: los ggplot2 paquete es el paquete de visualización de datos fundamental en R. Se le ofrece una manera de crear todos los diferentes tipos de gráficos de datos, incluyendo histogramas, diagramas de dispersión, gráficos de barras, gráficos de caja y gráficos de densidad. Ofrece una amplia variedad de opciones de diseño - incluyendo opciones en colores, el diseño, la transparencia, y la densidad de líneas.

Uso de SQL en un contexto de ciencia de datos

Structured Query Language (SQL) es un conjunto de reglas que se pueden utilizar de forma rápida y eficiente consultar, actualizar, modificar, añadir o eliminar datos de las bases de datos grandes y complejos. Es útil en la ciencia de datos cuando lo que necesita hacer alguna manipulación de consulta y datos rápida.

Consulta de registros de datos y filtrado: En SQL, se utiliza el SELECCIONAR funcionar para consultar una base de datos. Si a continuación, utiliza el DÓNDE argumento, se puede limitar la salida de la consulta a sólo los registros que cumplan los criterios que ha especificado. Esta es una forma de usar SQL para consultar y filtrar datos.
La agregación de los datos: Si desea agregar sus datos utilizando SQL, puede utilizar el AGRUPAR POR comunicado al grupo el conjunto de datos de acuerdo a los valores de atributos compartidos.
Video: Ciencia De Datos Y Big data: La Nueva Ventaja Competitiva - Oldemar Rodríguez Rojas

Mantener la codificación al mínimo

Si no está listo para la codificación de las cosas por sí mismo, se puede tratar de completar un proyecto utilizando aplicaciones de software off-the-shelf lugar. Se pueden utilizar los siguientes dos aplicaciones de escritorio para realizar tareas avanzadas de ciencias de datos sin tener que aprender a código.

Microsoft Excel: Aunque se trata de una aplicación de software algo simple, Microsoft Excel puede ser bastante útil en la práctica de la ciencia de datos. Si quieres hacer una inspección al azar rápida de las tendencias y los valores atípicos en el conjunto de datos, puede utilizar filtros de Excel, el formato condicional, y las opciones de gráficos para hacer el trabajo rápido. tablas dinámicas de Excel son otra gran opción si necesita volver a formatear y resumir las tablas de datos de forma rápida. Por último, si desea automatizar las tareas de manipulación o de análisis de datos en Excel, puede utilizar las macros de Excel para hacer el trabajo.
KNIME: KNIME es un software de minería de datos que se puede utilizar para el análisis predictivo de código libre. El software es bastante simple que los principiantes de ciencias de datos incluso pueden usarlo, pero ofrece plug-ins para extender las capacidades de las necesidades de los usuarios más avanzados. KNIME análisis son útiles para hacer las cosas como aumentar las ventas y la venta cruzada, la reducción de la pérdida de clientes, análisis de sentimientos, y análisis de redes sociales.

Trabajando con R

Uso de SQL en un contexto de ciencia de datos

Video: Ciencia De Datos Y Big data: La Nueva Ventaja Competitiva - Oldemar Rodríguez Rojas

Mantener la codificación al mínimo