Selección de atributos en clasificación supervisada. Uso de la entropía condicional.
Date
2013Author
Romero, María del Carmen
Di Rienzo, Julio Alejandro
Clausse, Alejandro
Metadata
Show full item recordAbstract
Las bases de datos de alta dimensionalidad pueden encontrarse en diferentes áreas de conocimiento. Los datos provenientes de microarreglos de ADN son buenos representantes de estos contextos y tienen, además, la particularidad de poseer mayor cantidad de atributos que de observaciones. Si bien, la clasificación supervisada suele ser una de las técnicas más usadas en estos casos, el “ruido” debido a las particularidades expuestas provocan que los clasificadores convencionales tengan resultados inestables. En este trabajo se propone el uso de la entropía condicional como medida para realizar la selección del subconjunto de atributos que distingan entre tratamientos en contextos de microarreglos de ADN. La entropía mide la cantidad media de información que es necesaria proveer para no tener incertidumbre sobre una variable determinada y tiene la ventaja de poder aplicarse a contextos con variables pertenecientes a cualquier escala de medición. Se desarrolló un algoritmo en R y se simularon diferentes escenarios de microarreglos de ADN. Las conclusiones se obtuvieron considerando el tamaño promedio del subconjunto seleccionado y el porcentaje de atributos seleccionados que efectivamente son diferenciales. Entre los resultados preliminares puede mencionarse que: en la mayoría de los casos, la entropía condicional con el subconjunto de atributos seleccionados es 0; a mayor cantidad de réplicas, mayor es el tamaño del subconjunto y mayor el porcentaje de atributos efectivamente diferenciales; y que, a mayor porcentaje de atributos diferenciales, menor es el tamaño del subconjunto de atributos seleccionados y mayor es el porcentaje de atributos efectivamente diferenciales.