Aprendizaje automático para clasificación de actos de habla ilocutivos en mensajes de foros para educación a distancia
Abstract
En este trabajo se investiga una tarea propuesta por la empresa Ikumi, desarrolladora del sistema Mumuki: un sistema online para aprender a programar. Mumuki cuenta con un foro donde los estudiantes consultan dudas sobre ejercicios de programación. Ikumi planteó la necesidad de ayudar al docente a clasificar los mensajes del foro. El objetivo de este trabajo es comparar modelos de aprendizaje automático que predicen si un mensaje escrito por un estudiante en el foro es un forward looking act o un backward looking act de acuerdo a la teoría lingüística de actos de habla. Para lograr el objetivo del trabajo, se realizó un análisis y anotación del conjunto de datos, luego se propusieron y entrenaron diversos modelos de aprendizaje automático midiendo el desempeño de la tarea propuesta, incluyendo una red neuronal recurrente en esta misma tarea. Como resultado de esta tesis se obtienen modelos construidos en base a datos generados por Mumuki con valores F1 por encima de 0.9 que son capaces de clasificar cada mensaje en tiempos de respuesta bajos, lo que permitirá que la integración al sistema Mumuki sea posible en tiempo real.
This work investigates a task proposed by the Ikumi company, which develops the Mumuki system: an online system to learn how to program. Mumuki has a forum where students ask questions about programming exercises. Ikumi raised the need to help teachers classify forum messages. The objective of this work is to compare machine learning models that predict if a message written in the forum by a student is a forward looking act or backward looking act according to speech acts in linguistic theory. To achieve the objective of this work, a dataset analysis and annotation was done, then different machine learning models were proposed and trained, measuring the performance of the proposed task. The result of this thesis are models built based on data generated in the Mumuki system with F1 values over 0.9 that can classify each message in low response time, which will allow the integration with the Mumuki system in real time.
The following license files are associated with this item: