Los flujos de trabajo de datos grandes

Para entender los grandes flujos de trabajo de datos, usted tiene que entender lo que es un proceso y cómo se relaciona con el flujo de trabajo en entornos de uso intensivo de datos. Procesos tienden a ser diseñados como estructuras de alto nivel, de extremo a extremo útiles para la toma de decisiones y la normalización de cómo se hacen las cosas en una empresa u organización.

Por el contrario, los flujos de trabajo son orientado a tareas y con frecuencia requieren datos más específicos que los procesos. Los procesos se componen de uno o más flujos de trabajo relevantes para el objetivo general del proceso.

En muchas maneras, grandes flujos de trabajo de datos son similares a los flujos de trabajo estándar. De hecho, en cualquier flujo de trabajo, los datos es necesario en las diversas fases para realizar las tareas. Considere el flujo de trabajo en una situación de cuidado de la salud.

Un flujo de trabajo primaria es el proceso de “extracción de sangre.” La extracción de sangre es una tarea necesaria requerida para completar el proceso de diagnóstico en general. Si algo sucede y la sangre no se ha establecido o si los datos de la prueba de sangre que se ha perdido, que será un impacto directo sobre la veracidad o veracidad de la actividad global.

¿Qué ocurre cuando se introduce un flujo de trabajo que depende de una fuente de datos grande? A pesar de que podría ser capaz de utilizar los flujos de trabajo existentes, no se puede asumir que un proceso o flujo de trabajo funcionarán correctamente con sólo la sustitución de una fuente de datos grande para una fuente estándar. Esto puede no funcionar debido a los métodos de procesamiento de datos estándar no tienen los enfoques de procesamiento o rendimiento para manejar la complejidad de los grandes volúmenes de datos.

El ejemplo de la salud se centra en la necesidad de realizar un análisis después se extrae la sangre del paciente. En el flujo de trabajo de datos estándar, la sangre se escribe y luego ciertas pruebas químicas se llevan a cabo sobre la base de los requisitos de la profesional de la salud.

Es poco probable que este flujo de trabajo comprende los ensayos necesarios para la identificación de biomarcadores específicos o mutaciones genéticas. Si ha facilitado fuentes de datos grandes de biomarcadores y mutaciones, el flujo de trabajo sería un fracaso. No es consciente de grandes volúmenes de datos y tendrá que ser modificado o reescrito para soportar grandes volúmenes de datos.

La mejor práctica para la comprensión de los flujos de trabajo y el efecto de grandes volúmenes de datos es hacer lo siguiente:

  • Identificar las grandes fuentes de datos que necesita para su uso.

  • En el mapa los grandes tipos de datos a los tipos de datos de flujo de trabajo.

  • Asegúrese de que tiene la velocidad de procesamiento y almacenamiento de acceso para apoyar el flujo de trabajo.

  • Seleccione el almacén de datos que mejor se adapte a los tipos de datos.

  • Modificar el flujo de trabajo existente para dar cabida a grandes volúmenes de datos o crear nuevo flujo de trabajo de datos grande.

Una vez que tenga sus grandes flujos de trabajo de datos, será necesario ajustar estos para que no abrumar o contaminar su análisis. Por ejemplo, muchos grandes fuentes de datos no incluyen las definiciones de datos bien definidos y metadatos sobre los elementos de esas fuentes. A veces, estas fuentes de datos no se han limpiado. Usted necesita asegurarse de que tiene el nivel adecuado de conocimientos acerca de las fuentes que se van a utilizar.

Artículos Relacionados