La ciencia de datos: la contextualización de los problemas y los datos en python

Poner a su problema en el contexto correcto es una parte esencial del desarrollo de una solución de la ciencia de datos con Python para cualquier problema dado y los datos asociados. la ciencia de datos se aplica la ciencia definitivamente, y los enfoques Manual de resumen puede no funcionar tan bien en su situación específica.

Video: La ciencia de los datos

El funcionamiento de un clúster Hadoop o la construcción de una red neuronal profunda puede sonar fresco en frente de colegas y que se sienta que está haciendo grandes proyectos de ciencia de datos, pero no pueden proporcionar lo que necesita para resolver su problema.

Poner el problema en el contexto correcto no es sólo una cuestión de deliberar si se debe utilizar un determinado algoritmo o que hay que transformar los datos de una determinada manera - es el arte de examinar críticamente el problema y los recursos disponibles y la creación de un ambiente en el que para resolver el problema y obtener una solución deseada.

El punto clave aquí es la deseado solución, en la que se podría llegar a soluciones que no son deseables debido a que no le dicen lo que necesita saber - o, incluso cuando te dicen lo que necesita saber, desperdician demasiado tiempo y recursos.

La evaluación de un problema de la ciencia de datos

Cuando se trabaja a través de un problema de la ciencia de datos, es necesario empezar por considerar su objetivo y los recursos que tiene disponible para el logro de ese objetivo. Los recursos son los datos, recursos computacionales tales como la memoria disponible, CPU y espacio en disco.

La mayoría de las veces, usted tiene que hacer frente a problemas completamente nuevos, y usted tiene que construir su solución desde cero. Durante su primera evaluación de un problema de la ciencia de datos, debe tener en cuenta lo siguiente:

  • Los datos disponibles en términos de accesibilidad, cantidad y calidad. También debe considerar los datos en términos de posibles sesgos que podrían influir o incluso distorsionar sus características y contenido. Los datos no contiene verdades absolutas, sólo verdades relativas que le ofrecen una visión más o menos útil de un problema. Que sea siempre consciente de la veracidad de los datos y aplicar el razonamiento crítico como parte de su análisis de la misma.

  • Los métodos que se pueden utilizar factible analizar el conjunto de datos. Considera si los métodos son simples o complejos. También debe decidir qué tan bien conoce una metodología particular. Comience usando métodos sencillos, y nunca caer en el amor con cualquier técnica particular. No hay ni comida gratis ni santos griales de la ciencia de datos.

  • Las preguntas que quieren responder al realizar su análisis y cómo se puede medir cuantitativamente si has logrado una respuesta satisfactoria a ellos. “Si no se puede medir, no se puede mejorar”, como se ha dicho Lord Kelvin. Si se puede medir el rendimiento, se puede determinar el impacto de su trabajo e incluso hacer una estimación monetaria. Los interesados ​​estarán encantados de saber que has descubierto qué hacer.

Video: Análisis de datos con python - Introducción

la búsqueda de soluciones

la ciencia de datos es un sistema complejo de conocimientos en la intersección de la informática, matemáticas, estadísticas, y los negocios. Si alguien ya ha enfrentado el mismo problema o dilemas, según se mira, reinventar la rueda tiene poco sentido. Ahora que ha contextualizado su proyecto, usted sabe lo que está buscando y se pueden buscar de diferentes maneras.

  • Consulte la documentación de Python. Usted puede ser capaz de encontrar ejemplos que sugieren una posible solución. NumPy, SciPy, pandas, y especialmente Scikit-learn han detallado en línea y documentación en línea con un montón de ejemplos relacionados con las ciencias de datos.

  • Buscar artículos y blogs en línea que hacen alusión a cómo otros profesionales han resuelto problemas similares. Q&A los sitios web como Quora, Desbordamiento de pila, y validación cruzada le puede proporcionar un montón de respuestas a problemas similares.

  • Consulte los documentos académicos. Por ejemplo, se puede consultar su problema de Google Académico o Microsoft Academic Search. Se puede encontrar una serie de trabajos científicos que se puede decir acerca de recortar los datos o detalles del tipo de algoritmos que funcionan mejor para un problema particular.

Puede parecer trivial, pero las soluciones que cree que reflejar el problema que estamos tratando de resolver. A medida que la investigación de soluciones, es posible que algunos de ellos parecen prometedoras al principio, pero luego no se puede aplicar con éxito a su caso porque algo en su contexto es diferente.

Video: 15.- Aprender programación para niños con Python. Conversión entre tipos de datos

Por ejemplo, el conjunto de datos puede ser incompleta o no puede proporcionar suficiente entrada para resolver el problema. Además, el modelo de análisis selecciona en realidad no puede proporcionar la respuesta que necesita o la respuesta podría resultar inexacta. A medida que trabaja a través del problema, no tenga miedo de llevar a cabo su investigación varias veces a medida que descubre, probar y evaluar las posibles soluciones que se pueden aplicar los dados los recursos disponibles y sus limitaciones reales.

La formulación de una hipótesis

En algún momento, usted tiene todo lo que cree que necesita para resolver el problema. Por supuesto, es un error suponer ahora que las soluciones que se crean en realidad puede resolver el problema. Usted tiene una hipótesis, en lugar de una solución, porque hay que demostrar la eficacia de la solución potencial de una manera científica. Con el fin de formar y poner a prueba una hipótesis, debe entrenar un modelo utilizando un conjunto de datos de entrenamiento y luego probarla utilizando un conjunto de datos completamente diferente.

Video: Python: Tipos de datos numéricos | TechKrowd

Recortar sus datos

Después de tener una idea del problema y su solución, usted sabe los insumos necesarios para hacer que el algoritmo. Por desgracia, los datos probablemente aparece en múltiples formas, se obtiene a partir de múltiples fuentes, y algunos datos no se encuentra en su totalidad. Por otra parte, los desarrolladores de las características que las fuentes de datos existentes proporcionan confiar su ideado para fines distintos a los suyos y hay que transformarlas para que pueda utilizar su algoritmo en su poder máximo.

Para que el algoritmo, debe recortar los datos. Esto significa que la comprobación de los datos que faltan, la creación de nuevas características, según sea necesario, y posiblemente manipular el conjunto de datos para llegar a una forma de que su algoritmo en realidad puede utilizar para hacer una dicción.

Artículos Relacionados