Entrenamiento de modelos de aprendizaje profundo mediante autosupervisión

Torti López, Rubén Ezequiel

View/Open

Trabajo final Licenciatura en Ciencias de la Computación (2.576Mb)

Date

2017-08

Author

Torti López, Rubén Ezequiel

Advisor

Sánchez, Jorge Adrián, dir.

Metadata

Show full item record

Abstract

Dentro del campo del aprendizaje automático, una clase de técnicas conocidas como Deep Learning (DL) han cobrado particular relevancia, ya que mediante su utilización se han conseguido mejoras muy significativas respecto de métodos tradicionales. Una desventaja de los modelos basados en DL es que usualmente cuentan con más parámetros que cantidad de elementos en los conjuntos de datos de entrenamiento. En el caso particular de la clasificación de imágenes por contenido, si bien existen grandes conjuntos de datos anotados disponibles, su generación para problemas en otros dominios es muy costosa. Se propone en este trabajo una manera alternativa al entrenamiento de esta clase de modelos inspirada en cómo los organismos vivientes desarrollan habilidades de percepción visual: moviéndose e interactuando con el mundo que los rodea. Partiendo de la hipótesis de que un agente puede usar la información del movimiento propio (rotación y traslación en los ejes X,Y,Z) como método de supervisión, Agrawal et al. ya han demostrado que es posible obtener buenos resultados entrenando con menos imágenes anotadas que lo usual. Se validan experimentalmente los resultados de este método de entrenamiento con respecto a los del estado del arte en tareas de clasificación en distintos dominios.

Within the field of machine learning, a class of techniques known as Deep Learning (DL) have become particularly relevant since their use have achieved significant improvements compared to traditional methods. A disadvantage of DL-based models is that they usually have much more parameters than elements in the training datasets. Despite the fact that there exist large annotated datasets for the task of image classification by content, the generation of new datasets for problems in other domains is very costly. There is an alternative way to train this kind of models inspired by how the living organisms develop visual perception skills: by moving and interacting with the world that surrounds them. By hypothesizing that an agent can use its own movement information (rotation and translation in the X, Y, Z axes) as a method of supervision, Agrawal et al. have already shown that it is possible to obtain good results when training with fewer annotated images than usual. In this work, the results of this method are validated with respect to the state of the art algorithms in tasks of classification in different domains.

URI

http://hdl.handle.net/11086/6082

Collections

Trabajos Especiales de Licenciatura en Ciencias de la Computación

The following license files are associated with this item:

Creative Commons

Except where otherwise noted, this item's license is described as Atribución-NoComercial-CompartirIgual 4.0 Internacional