Normalización de texto en español de Argentina

Bracco, Alan Gabriel

dc.contributor.advisor	Luque, Franco Martín, dir.
dc.contributor.author	Bracco, Alan Gabriel
dc.date.accessioned	2019-07-23T14:16:35Z
dc.date.available	2019-07-23T14:16:35Z
dc.date.issued	2018
dc.identifier.uri	http://hdl.handle.net/11086/11707
dc.description	Tesis (Lic. en Cs. de la Computación)--Universidad Nacional de Córdoba, Facultad de Matemática, Astronomía, Física y Computación, 2018.	es
dc.description.abstract	En la actualidad la cantidad de datos que consume y genera una sola persona es gigantesca. Los datos cada vez son más, ya que cualquiera puede generarlos. Esto trae consigo un aumento en el ruido que hay en esos datos. Es por eso que el texto de las redes sociales se caracteriza por ser ruidoso, lo que es un problema cuando se quiere trabajar sobre ellos. En este trabajo construimos un corpus de tweets en español de Argentina. Recolectamos un conjunto grande de tweets y luego los seleccionamos manualmente para obtener una muestra representativa de los errores típicos de normalización. Luego, definimos criterios claros y explícitos de corrección y los utilizamos para proceder a la anotación manual del corpus. Además, presentamos un sistema de normalización de texto que trabaja sobre tweets. Dado un conjunto de tweets como entrada, el sistema detecta y corrige las palabras que deben ser estandarizadas. Para ello, utiliza una serie de componentes como recursos léxicos, sistemas de reglas y modelos de lenguaje. Finalmente, realizamos experimentos con diferentes corpus, entre ellos el nuestro, y diferentes configuraciones del sistema para entender las ventajas y desventajas de cada uno.	es
dc.description.abstract	Nowadays, the amount of data consumed and generated by only one person is enormous. Data amount keeps growing because anyone can generate it. This brings along an increment of noisy data. That is why social network text is noisy, which is a problem when it is needed to work on it. Here, we built a corpus of tweets in argentinian spanish. We collected a big set of tweets and we selected them manually to obtain a representative sample of common normalization errors. Then, we defined explicit and clear correction criteria and we used it to continue with the manual corpus annotation. Besides, we present a text normalization system that works on tweets. Given a set of tweets as input, the system detects and corrects words that need to be standardized. To do that, it uses a group of components as lexical resources, rule-based systems and language models. Finally, we made some experiments with different corpus, among them, the one we built, and different system configurations to understand each one’s advantages and disadvantages.	en
dc.language.iso	spa	es
dc.rights	Atribución-NoComercial-CompartirIgual 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	*
dc.subject	Procesamiento de lenguaje natural	es
dc.subject	Inteligencia artificial	es
dc.subject	Natural language processing	es
dc.subject	Artificial intelligence	es
dc.subject	Machine translation	es
dc.subject.other	Normalización de texto	es
dc.subject.other	Recursos lingüísticos	es
dc.subject.other	Redes sociales	es
dc.subject.other	Texto ruidoso	es
dc.subject.other	Twitter	en
dc.subject.other	Text normalization	en
dc.subject.other	Linguistic resources	en
dc.subject.other	Argentine spanish	en
dc.subject.other	Noisy text	en
dc.subject.other	Social networks	en
dc.title	Normalización de texto en español de Argentina	es
dc.type	bachelorThesis	es

Files in this item

Name:: Bracco.pdf
Size:: 1.240Mb
Format:: PDF
Description:: Trabajo final Licenciatura en ...

View/Open

Name:: license_rdf
Size:: 1.491Kb
Format:: application/rdf+xml

View/Open

This item appears in the following Collection(s)

Trabajos Especiales de Licenciatura en Ciencias de la Computación

Show simple item record

Except where otherwise noted, this item's license is described as Atribución-NoComercial-CompartirIgual 4.0 Internacional