La recopilación de datos y la limpieza de la máquina de aprendizaje

Video: Wahl detailer-limpieza y lubricacion

Aunque las máquinas de aprender de los datos, no existe una receta mágica en el mundo de los algoritmos (como los “no hay almuerzo gratis” teorema) cuando se trata de datos. Incluso las funciones de aprendizaje sofisticadas y avanzadas golpean la pared y su desempeño cuando no les apoya con lo siguiente:

Video: Limpieza y Mantenimiento de Maquinas lavaplatos

cantidades suficientemente grandes de datos que son adecuados para el algoritmo utiliza
, datos bien preparados limpia y apropiada para su uso en el aprendizaje automático

la cantidad de datos es beneficioso en el aprendizaje cuando se explica sesgo y la varianza compensaciones. Como recordatorio, las grandes cantidades de datos pueden resultar beneficiosos para los propósitos de aprendizaje cuando la variabilidad de las estimaciones es un problema, ya que los datos específicos que se utilizan para el aprendizaje influye en gran medida las predicciones (el problema sobreajuste). Más datos realmente puede ayudar debido a que un mayor número de algoritmos de aprendizaje automático ejemplos ayudas para eliminar la ambigüedad del papel de cada señal captada a partir de datos y se tiene en el modelado de la predicción.

Video: Limpieza y mantenimiento de tu máquina de coser. Curso online Aprende a coser a máquina

Además de la cantidad de datos, la necesidad de la limpieza de datos es comprensible - es igual que la calidad de la enseñanza que podemos encontrar en la escuela. Si los maestros que enseñan solamente sin sentido, hacer ejemplos erróneos, pasar tiempo en broma, y de otras maneras no toman en serio la enseñanza, no se va a hacer bien en sus exámenes no importa lo inteligente que eres. Lo mismo es cierto para los algoritmos simples y complejas - si alimentarlos datos de la basura, que sólo producen predicciones sin sentido.

De acuerdo con el principio de la basura, sale basura (Gigo para abreviar), datos erróneos pueden dañar realmente el aprendizaje automático. malos datos consiste en datos que faltan, valores atípicos, distribuciones sesgadas de valor, la redundancia de la información, y funciones que no bien explicada.

Video: AJUSTE DENTRO, y LIMPIEZA CUCHILLAS MÁQUINA BARBERO

malos datos pueden no ser malo en el sentido de que es un error. Muy a menudo, mal de datos es sólo de datos que no cumpla con las normas establecidas para los datos: una etiqueta escrita en muchos diferentes valores erráticos formas- se extendió a otros campos humedos de datos escritos en fechas formatos- inválido y el texto no estructurado que debería haber estructurado en una variable categórica.

Hacer cumplir las reglas de validez de los datos en sus bases de datos y trabajando en el diseño de mejores tablas de datos, así como la exactitud del proceso que almacena los datos pueden resultar de ayuda inestimable para el aprendizaje automático y le permiten concentrarse en resolver los problemas más difíciles de datos.