Entrenamiento de modelos de aprendizaje profundo mediante autosupervisión
Date
2017-08Author
Torti López, Rubén Ezequiel
Advisor
Sánchez, Jorge Adrián, dir.
Metadata
Show full item recordAbstract
Dentro del campo del aprendizaje automático, una clase de técnicas conocidas como Deep Learning (DL) han cobrado particular relevancia, ya que mediante su utilización se han conseguido mejoras muy significativas respecto de métodos tradicionales. Una desventaja de los modelos basados en DL es que usualmente cuentan con más parámetros que cantidad de elementos en los conjuntos de datos de entrenamiento. En el caso particular de la clasificación de imágenes por contenido, si bien existen grandes conjuntos de datos anotados disponibles, su generación para problemas en otros dominios es muy costosa. Se propone en este trabajo una manera alternativa al entrenamiento de esta clase de modelos inspirada en cómo los organismos vivientes desarrollan habilidades de percepción visual: moviéndose e interactuando con el mundo que los rodea. Partiendo de la hipótesis de que un agente puede usar la información del movimiento propio (rotación y traslación en los ejes X,Y,Z) como método de supervisión,
Agrawal et al. ya han demostrado que es posible obtener buenos resultados entrenando con menos imágenes anotadas que lo usual.
Se validan experimentalmente los resultados de este método de entrenamiento con respecto a los del estado del arte en tareas de clasificación en distintos dominios.
Within the field of machine learning, a class of techniques known as Deep Learning (DL) have become particularly relevant since their use have achieved significant improvements compared to traditional methods. A disadvantage of DL-based models is that they usually have much more parameters than elements in the training datasets. Despite the fact that there exist large annotated datasets for the task of image classification by content, the generation of new datasets for problems in other domains is very costly. There is an alternative way to train this kind of models inspired by how the living organisms develop visual perception skills: by moving and interacting with the world that surrounds them. By hypothesizing that an agent can use its own movement information (rotation and translation in the X, Y, Z axes) as a method of supervision, Agrawal et al. have already shown that it is possible to obtain good results when training with fewer annotated images than usual.
In this work, the results of this method are validated with respect to the state of the art algorithms in tasks of classification in different domains.
The following license files are associated with this item: