Abstract
Presentamos y aplicamos una técnica de extracción no-supervisada de features de imágenes (Redes Neuronales Convolucionales) al problema de comprensión de escenas. Abarcamos las sutilezas tanto para el diseño como para el entrenamiento de estos modelos. Mostramos el modelo, el entrenamiento y los resultados obtenidos para un problema específico (determinar posición discreta de jugadores de tenis), proveyendo también posibles estrategias para generalizar a otros problemas.