Organización de los datos para la minería

La minería de datos tiene requisitos muy estrictos para la organización de los datos. Ellos no son exóticas, complejas o difíciles requisitos para cumplir, sino que son estrictas. La figura muestra un ejemplo de datos vistos como una tabla en software de minería de datos.

Cada fila representa una parcela de bienes raíces. Información sobre las parcelas de bienes raíces está organizada en columnas. La primera columna contiene el número de identificación fiscal (TAXKEY), la segunda columna contiene el valor estimado de la tierra de una evaluación previa (P_A_LAND), y así sucesivamente.

Video: Mineria de Datos usando R - Aplicacion a un caso real

Cada entrada en cualquier fila corresponde a una parcela de tierra específica. Cada entrada en cualquier columna es el mismo tipo de información. No hay filas o columnas se dejan en blanco por razones de estilo y facilidad de lectura. Estos datos se organizan adecuadamente para investigar las diferencias entre las parcelas de bienes raíces.

Si, en lugar de bienes raíces, se investigan las personas, cada persona estaría representada por una fila en los datos, y todos los detalles acerca de la gente se organiza en columnas. Si usted investiga las radiografías de tórax, cada una radiografía de tórax estaría representada por una fila en los datos, y todos los detalles acerca de las radiografías de tórax se organiza en columnas.

En la terminología de análisis de datos, las cosas que estamos estudiando - las cosas en las filas - se llaman casos o archivos. Y los detalles acerca de ellos, que están en las columnas, se denominan las variables. También escuchará las columnas llamadas campos, especialmente en el contexto de las bases de datos.

Por lo tanto, la minería de datos requiere datos organizados con una sola fila para cada caso y una sola columna para cada variable. Muchas fuentes de datos ya están organizados de esta manera. Los estadísticos organizar los datos de esta manera por el hábito. profesionales de bases de datos no pueden utilizar este enfoque para gran parte de su trabajo, pero por lo general van a entender lo que quieres si lo llamas mesa plana.

Encontrará variaciones sutiles en la estructura de datos. Algunos tipos de software utilizan la información descriptiva en una cabecera antes de los datos, tales como ciertos formatos especiales asociados con las aplicaciones de minería de datos de Orange y Weka. Algunos procedimientos analíticos complejos tienen requisitos adicionales o ligeramente variadas (estos son bastante inusual). Pero el núcleo de los datos todavía tiene los casos en filas y columnas en las variables.

Artículos Relacionados