Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB

Osimani, César

View/Open

Tesis - Osimani.pdf (21.54Mb)

Date

2023-12-05

Author

Osimani, César

ORCID

https://orcid.org/0000-0003-0579-6231

Advisor

Araguás, Roberto Gastón

Metadata

Show full item record

Abstract

El constante desarrollo y mejoras realizadas sobre los algoritmos de aprendizaje profundo ha motivado a realizar grandes inversiones de tiempo y dinero para la implementación de soluciones basadas en esta tecnología. Casos de éxito de nuevas empresas son cada vez más frecuentes en este campo, ya sea en el procesamiento del lenguaje natural, visión artificial o distintas áreas de la inteligencia artificial. La visión artificial, definida en pocas palabras, es la automatización de la vista humana. Actualmente podemos encontrar visión artificial en aplicaciones de diversos sectores, como agricultura, seguridad y vigilancia, automatización y control de calidad en las industrias, servicios de salud, logística, ciudades inteligentes, entre otros. También hay momentos en que la visión artificial queda en un segundo plano y se limita a ser una herramienta de asistencia en las tareas que el humano realiza, por ejemplo, actuando como un medio para la interacción entre los humanos y las computadoras. En este sentido, el uso de la visión artificial para identificar los gestos de las manos ofrece una alternativa para el control de computadoras sin necesidad de tocar los periféricos o sistemas de mando, tal como el teclado, mouse o pantalla táctil. Este trabajo presenta una solución que reconoce los gestos de la mano mediante el análisis de puntos de referencia tridimensionales ubicados en las articulaciones de la misma, los cuales definen su esqueleto. Estos puntos de referencia se extraen utilizando un modelo creado con técnicas de aprendizaje automático con el uso de una cámara web que permiten obtener 21 puntos de referencia distribuidos: uno en la muñeca y cuatro más en cada dedo. Cada punto de referencia es una estimación de una coordenada tridimensional ( x , y, z ) que corresponde a la ubicación ( x , y ) dentro de la imagen y la dimensión z es una estimación de la distancia hacia la cámara. Estos 21 puntos tridimensionales de cada mano detectada en las imágenes son los datos de entrada para una red neuronal profunda que permite identificar 9 gestos. Además del diseño de una arquitectura de red apropiada para esto, la creación de un dataset propio y el entrenamiento de la red, otra de las principales aportaciones de este trabajo es la implementación de un procesamiento de los datos previo a ingresar a la red. Este procesamiento es una normalización de los datos y una transformación de los puntos de referencia, lo que mejora considerablemente el rendimiento del modelo. La evaluación del modelo propuesto entrega una tasa de aciertos del 99,87% en las predicciones realizadas en el reconocimiento de los 9 gestos de la mano. Finalmente, se realiza la implementación del modelo en una aplicación que se le da el nombre Hand Controller, la cual es una interfaz natural de usuario que permite tomar el control del teclado y mouse de una computadora a través de gestos (o secuencias de gestos) y desplazamientos de la mano.

URI

http://hdl.handle.net/11086/550095

Collections

Tesis Doctorado en Ciencias de la Ingeniería

The following license files are associated with this item:

Creative Commons

Except where otherwise noted, this item's license is described as Attribution-NonCommercial-NoDerivatives 4.0 International