El aprendizaje profundo en las máquinas

Video: Aprendizaje automático y aprendizaje profundo

Después de propagación hacia atrás, la siguiente mejora en las redes neuronales dio lugar a un aprendizaje profundo en las máquinas. La investigación continuó a pesar del invierno AI y redes neuronales comenzó a tomar ventaja de la evolución de CPU y GPU (unidades de procesamiento de gráficos los más conocidos para su aplicación en el juego, pero que en realidad son unidades de cálculo de gran alcance para los cálculos matriciales y vectoriales). Estas tecnologías hacen que las redes neuronales de entrenamiento es una tarea realizable en un tiempo más corto y accesibles a más personas.

La investigación también ha abierto un mundo de nuevas aplicaciones. Las redes neuronales pueden aprender de grandes cantidades de datos, y porque son más propensos a la alta varianza que al sesgo, pueden tomar ventaja de grandes volúmenes de datos, la creación de modelos que funcionan mejor forma continua, en función de las cantidades de datos que los alimentan. Sin embargo, necesita redes grandes y complejas para ciertas aplicaciones (para aprender las características complejas, tales como las características de una serie de imágenes) y por lo tanto incurrir en problemas como el gradiente de fuga.

De hecho, cuando la formación de una red grande, el error redistribuye entre las neuronas que favorecen las capas más cercana a la capa de salida. Las capas que están más lejos reciben errores más pequeños, a veces demasiado pequeño, por lo que la formación lenta si no imposible. Gracias a los estudios de los investigadores como Geoffrey Hinton, los nuevos plazos de entrega ayudar a evitar el problema de la pendiente de fuga. El resultado sin duda ayuda a una red más grande, pero el aprendizaje profundo, no se trata sólo de las redes neuronales con más capas y unidades.

Además, algo inherentemente cambió cualitativo en el aprendizaje profundo en comparación con las redes neuronales de poca profundidad, el cambio de paradigma en el aprendizaje de la máquina de creación de funciones (características que hacen que el aprendizaje más fácil) para ofrecer el aprendizaje (rasgos complejos creados de forma automática sobre la base de las características reales).

Los grandes jugadores como Google, Facebook, Microsoft, IBM y vieron a la nueva tendencia y desde 2012 han comenzado la adquisición de empresas y la contratación de expertos (Hinton ahora trabaja con Google- LeCun conduce la investigación Facebook AI) en los nuevos campos de aprendizaje profundo. El proyecto Google cerebro, dirigido por Andrew Ng y Jeff Dean, armó 16.000 computadoras para calcular una red de aprendizaje profundo, con más de mil millones de pesos, lo que permite que el aprendizaje no supervisado de los vídeos de YouTube.

Video: 2016 CULagos - deep learning ¿Cómo aprenden las máquinas? - Mtro. Eduardo Carabez Andrade

Hay una razón ¿Por qué la calidad del aprendizaje profundo es diferente. Por supuesto, parte de la diferencia es el aumento del uso de las GPU. Junto con el paralelismo (más computadoras puestas en racimos y que funcionan en paralelo), las GPU permiten aplicar con éxito pre-entrenamiento, nuevas funciones de activación, las redes de convolución, y, un tipo especial de regularización diferente de L1 y L2 de salida cae. De hecho, se ha estimado que una GPU puede realizar ciertas operaciones 70 veces más rápido que cualquier CPU, lo que permite una reducción de los tiempos de formación de redes neuronales de semanas a días o incluso horas.

Tanto el pre-entrenamiento y las nuevas funciones de activación ayudan a resolver el problema de la pendiente de fuga. Nuevas funciones de activación ofrecen mejores funciones derivadas, y pre-entrenamiento ayuda a iniciar una red neuronal con mejores pesos iniciales que requieren sólo unos pocos ajustes en las últimas partes de la red.

técnicas avanzadas tales como capacitación preliminar Máquinas Boltzanman restringidas, Autoencoders, y Las redes de creencias profundas elaborar los datos de una manera no supervisada mediante el establecimiento de pesos iniciales que no cambian mucho durante la fase de formación de una red de aprendizaje profundo. Además, pueden producir mejores características que representan los datos y así lograr mejores predicciones.

Dada la alta dependencia de las redes neuronales para tareas de reconocimiento de imágenes, el aprendizaje profundo ha logrado un gran impulso gracias a un cierto tipo de red neuronal, las redes neuronales convolucionales. Descubierto en la década de 1980, tales redes ahora producir resultados sorprendentes, debido a las muchas adiciones de aprendizaje profundas.

Para entender la idea detrás de las redes neuronales convolucionales, pensar en las circunvoluciones como filtros que, cuando se aplica a una matriz, transformación de ciertas partes de la matriz, hacen otras partes desaparecen, y crea otras partes destacan. Puede utilizar filtros de convolución de fronteras o de formas específicas. Estos filtros también son útiles para encontrar los detalles en las imágenes que determinan lo que la imagen muestra.

Los seres humanos saben que un coche es un coche, ya que tiene unas determinadas características de forma y ciertos, no porque han visto previamente todos los tipos de vehículos posibles. Una red neural estándar está ligada a su entrada, y si la entrada es una matriz de píxeles, reconoce las formas y las características basadas en su posición en la matriz. redes neuronales convolución pueden elaborar imágenes mejor que una red neuronal estándar porque

Video: Aprendizaje Profundo

  • La red se especializa neuronas particulares para reconocer ciertas formas (gracias a circunvoluciones), de modo que misma capacidad de reconocer una forma no tiene que aparecer en diferentes partes de la red.
  • Mediante el muestreo de partes de una imagen en un solo valor (una tarea llamada puesta en común), Que no es necesario para atar estrictamente formas a una determinada posición (lo que haría imposible para rotarlas). La red neural puede reconocer la forma en cada rotación o distorsión, asegurando así una alta capacidad de generalización de la red de convolución.

Finalmente, abandonar es un nuevo tipo de regularización que es particularmente eficaz con las redes convolucionales profundas, pero también funciona con todas las arquitecturas de aprendizaje profundo, que actúa eliminando temporalmente y de forma aleatoria las conexiones entre las neuronas. Este enfoque elimina las conexiones que recogen único ruido a partir de datos durante el entrenamiento. Además, este enfoque ayuda a la red aprenda a confiar en la información crítica procedente de diferentes unidades, lo que aumenta la intensidad de las señales correctas pasaron a lo largo de las capas.

Artículos Relacionados