Mostrar el registro sencillo del ítem

dc.contributorPaniego, Norma
dc.contributor.advisorDi Rienzo, Julio Alejandro
dc.contributor.authorMerino, Gabriela Alejandra
dc.date.accessioned2018-09-17T16:03:23Z
dc.date.available2018-09-17T16:03:23Z
dc.date.issued2018
dc.identifier.urihttp://hdl.handle.net/11086/6569
dc.descriptionTesis (Maestría en Estadística Aplicada) -- Universidad Nacional de Córdoba. Facultad de Ciencias Económicas. Escuela de Graduados; Argentina, 2018.es
dc.description.abstractLas estrategias de genotipi cación masiva de poblaciones de mejoramiento mediante secuenciación de alto rendimiento son cada vez más utilizadas en el ámbito de las ciencias agrarias. Tales estrategias favorecen la exploración de la diversidad genética propia de una población, aunque, generan matrices de genotipado con un alto porcentaje de datos faltantes. Para resolver esta limitante se recurre a la predicción de los genotipos faltantes mediante la implementación de técnicas estadísticas. No obstante, la mayoría de éstas han sido desarrolladas para trabajar con especies como maíz o soja que disponen de genomas de referencia de alta calidad y matrices de genotipado completo, lo que aporta información valiosa para la imputación. Sin embargo, la mayoría de los cultivos no se encuentra en esta situación en términos de información útil disponible. Esta tesis tiene como objetivo aportar soluciones al problema de imputación en matrices de genotipado obtenidas mediante secuenciación de especies poco estudiadas. Aquí se propuso diseñar una estrategia de imputación basada en la combinación de técnicas estadísticas y evidencias genéticas. Dado que la matriz de trabajo contiene muchos más genotipos incompletos que individuos genotipados, se seleccionó la metodología Random Forest para la predicción y posterior imputación de los genotipos faltantes. Adicionalmente, se conoce que las variantes genotípicas, en este caso polimorfi smos de nucleótido único (SNPs), están correlacionadas desde el punto de vista genético (grupos de ligamiento) y/o genómico (pseudo-moléculas de ADN), por lo que se incorporó tal información con el n de obtener resultados más precisos. En base a estos principios, se diseñaron seis alternativas de imputación y se establecieron cuatro métricas de desempeño (exactitud, F-score, sensibilidad y precisión) para su evaluación y comparación. Los algoritmos propuestos inicialmente se ensayaron usando datos simulados y los resultados obtenidos fueron contrastados con los conseguidos al utilizar estrategias de imputación de uso frecuente, según la literatura, sobre las mismas matrices simuladas. De los seis métodos desarrollados, se encontró que el algoritmo RFCorOOBLD que considera la correlación entre un SNP incompleto y los SNPs completos del mismo grupo de ligamiento, y un umbral de error de predicción (OOB), fue la que logró el mejor desempeño. Si bien las estrategias que no consideran el error OOB permitieron recuperar más SNPs incompletos, RFCorOOBLD fue superior a todas las alternativas propuestas en términos de sensibilidad y precisión. Se analizó además el impacto de la modi ficación del umbral del error OOB sobre el desempeño de las estrategias evaluadas, observándose que un umbral de 0,2 permite obtener un óptimo entre el porcentaje de SNPs imputados y el máximo error de estimación admitido. Se encontró además que la metodología RFCorOOBLD fue la más robusta ante las variaciones en el porcentaje de genotipos faltantes en la matriz inicial, observándose también que es la que mejor desempeño ofrece en matrices con valores superiores al 20% de datos faltantes. En cuanto al desempeño como función del porcentaje de SNPs completos, esta metodología fue una de las que más incrementó sus medidas como consecuencia del aumento de datos completos. Se demostró además que la metodología desarrollada resultó superior en desempeño respecto de otras metodologías disponibles y comúnmente utilizadas para la imputación de genotipos faltantes, como son la imputación por la moda, Beagle y LinkImputeR. Adicionalmente, las medidas de desempeño de las estrategias aquí propuestas fueron más robustas con respecto al porcentaje de datos faltantes que las correspondientes a las tres metodologías alternativas contrastadas. Los algoritmos desarrollados que tuvieron los mejores desempeños se aplicaron además a un estudio real basado en una matriz de datos incompletos generada mediante genotipi ficación por secuenciación de una población de asociación de girasol, llevada a cabo por el Instituto Nacional de Tecnología Agropecuaria. En este caso, la estrategia RFCorOOBLD permitió recuperar miles de SNPs incompletos, logrando conservar más del 75% de todos los SNPs de la matriz de genotipado luego de la imputación. Por lo expuesto, se concluye que la metodología aquí presentada representa un aporte importante al problema de imputación de genotipos faltantes en matrices de genotipificación por secuenciación de individuos no relacionados o poco relacionados genéticamente.es
dc.language.isospaes
dc.rightsAtribución-NoComercial 4.0 Internacional*
dc.rights.urihttp://creativecommons.org/licenses/by-nc/4.0/*
dc.subjectGenómica estadísticaes
dc.subjectGenotipado por secuenciaciónes
dc.subjectImputaciónes
dc.subjectSNPes
dc.titleImputación de genotipos faltantes en datos de secuenciación masivaes
dc.typemasterThesises


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Atribución-NoComercial 4.0 Internacional
Excepto si se señala otra cosa, la licencia del ítem se describe como Atribución-NoComercial 4.0 Internacional

DSpace software copyright © 2002-2015  DuraSpace