Reconocimiento de posturas de las manos para la Interacción Natural Humano-Computadora en Ambientes Inteligentes a través de cámara RGB
View/ Open
Date
2023-12-05Author
Osimani, César
Advisor
Araguás, Roberto Gastón
Metadata
Show full item recordAbstract
El constante desarrollo y mejoras realizadas sobre los algoritmos de aprendizaje profundo ha motivado a realizar grandes inversiones de tiempo y dinero para la implementación de soluciones basadas en esta tecnología. Casos de éxito de nuevas empresas son cada vez más frecuentes en este campo, ya sea en el procesamiento del lenguaje natural, visión artificial o distintas áreas de la inteligencia artificial. La visión artificial, definida en pocas palabras, es la automatización de la vista humana. Actualmente podemos
encontrar visión artificial en aplicaciones de diversos sectores, como agricultura, seguridad y vigilancia, automatización y control de calidad en las industrias, servicios de salud, logística, ciudades inteligentes, entre otros. También hay momentos en que la visión artificial queda en un segundo plano y se limita a ser una herramienta de asistencia en las tareas que el humano realiza, por ejemplo, actuando como un medio para la interacción entre los humanos y las computadoras.
En este sentido, el uso de la visión artificial para identificar los gestos de las manos ofrece una alternativa para el control de computadoras sin necesidad de tocar los periféricos o sistemas de mando, tal como el teclado, mouse o pantalla táctil.
Este trabajo presenta una solución que reconoce los gestos de la mano mediante el análisis de puntos de referencia tridimensionales ubicados en las articulaciones de la misma, los cuales definen su esqueleto. Estos puntos de referencia se extraen utilizando un modelo creado con técnicas de aprendizaje automático con el uso de una cámara web que permiten obtener 21 puntos de referencia distribuidos: uno en la muñeca y cuatro más en cada dedo. Cada punto de referencia es una estimación de una coordenada tridimensional ( x , y, z ) que corresponde a la ubicación ( x , y ) dentro de la imagen y la dimensión z es una estimación de la distancia hacia la cámara. Estos 21 puntos tridimensionales de
cada mano detectada en las imágenes son los datos de entrada para una red neuronal profunda que permite identificar 9 gestos. Además del diseño de una arquitectura de red apropiada para esto, la creación de un dataset propio y el entrenamiento de la red, otra de las principales aportaciones de este trabajo es la implementación de un procesamiento de los datos previo a ingresar a la red. Este procesamiento es una normalización de los datos y una transformación de los puntos de referencia, lo que mejora considerablemente el rendimiento del modelo. La evaluación del modelo propuesto entrega una tasa de aciertos del 99,87% en las predicciones realizadas en el reconocimiento de los 9 gestos de la mano.
Finalmente, se realiza la implementación del modelo en una aplicación que se le da el nombre Hand Controller, la cual es una interfaz natural de usuario que permite tomar el control del teclado y mouse de una computadora a través de gestos (o secuencias de gestos) y desplazamientos de la mano.
Collections
The following license files are associated with this item: