Modelados de Tópicos. Clasificación no supervisada con LDA

Gogni, Valeria; Bianco, María José

dc.contributor.author	Gogni, Valeria
dc.contributor.author	Bianco, María José
dc.date.accessioned	2020-11-20T21:35:55Z
dc.date.available	2020-11-20T21:35:55Z
dc.date.issued	2020-10
dc.identifier.uri	http://hdl.handle.net/11086/16847
dc.description.abstract	El modelado de tópicos es una técnica avanzada de recuperación de información que automáticamente encuentra los temas generales en un conjunto de documentos de texto. Intenta encontrar temáticas implícitas en un conjunto de textos, permitiendo así organizar, comprender, buscar y resumir automáticamente gran cantidad de archivos electrónicos. Busca reducir la matriz de termino-documento, difícil de procesar debido a su tamaño, a un subespacio de menor dimensión que capture la mayor parte de la varianza en un set de textos y en consecuencia poder agruparlos. Existen diversos algoritmos para implementar esta técnica, siendo los más referenciados: LDA (Latent Dirichlet Allocation), LSI (Latent Semantic Indexing) HDP (Hierarchical Dirichlet Process). LDA es una herramienta potente a la hora de determinar variables ocultas en grandes volúmenes de texto, siendo uno de los métodos más relevantes en clasificación no supervisada. Pertenece a la familia de modelos generativos probabilísticos donde mediante un proceso generativo se define una distribución conjunta de probabilidad sobre las variables latentes y observables y se pretende calcular la probabilidad condicional de las variables latentes dadas las variables observables, es decir, la distribución a posteriori. Para calcular la probabilidad a posteriori se aplica el algoritmo Gibbs Sampling que aproxima una distribución muestreando subconjuntos de variables con baja dimensionalidad, donde cada subconjunto está condicionado por los valores de los otros. Se itera secuencialmente hasta que la aproximación converge a un valor próximo a la distribución original. Su mayor ventaja reside en que las variables latentes representan la estructura temática de dichos documentos permitiendo así, realizar una clasificación en forma automática. El objetivo de este trabajo es aplicar el algoritmo LDA a un conjunto de documentos periodísticos nacionales de actualidad relacionados a la temática de COVID-19 identificando tópicos implícitos que nos permitan comprender y resumir automáticamente la información.	es
dc.language.iso	spa	es
dc.rights	Atribución-NoComercial-CompartirIgual 4.0 Internacional	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc/4.0/	*
dc.subject	Tópicos	es
dc.subject	Modelado	es
dc.subject	Algoritmo	es
dc.subject	Variables latentes	es
dc.subject	Covid 19
dc.title	Modelados de Tópicos. Clasificación no supervisada con LDA	es
dc.type	video	es
dc.description.fil	Fil: Gogni, Valeria. Universidad de Buenos Aires. Facultad de Ciencias Económicas; Argentina.	es
dc.description.fil	Fil: Bianco, María José. Universidad de Buenos Aires. Facultad de Ciencias Económicas; Argentina.	es

Files in this item

Name:: license_rdf
Size:: 1.491Kb
Format:: application/rdf+xml

View/Open

Name:: Gogni, V. (2020). Modelados de ...
Size:: 20.13Mb
Format:: MPEG-4 video

View/Open

This item appears in the following Collection(s)

Show simple item record

Except where otherwise noted, this item's license is described as Atribución-NoComercial-CompartirIgual 4.0 Internacional