Estimación robusta multivariada en presencia de datos faltantes Martín Marfia, Nadia L. Kudraszow Poster: Esta obra está bajo una Licencia Creative Commons Atribución-NoComercial 4.0 Internacional ESTIMACIÓN ROBUSTAMULTIVARIADA EN PRESENCIA DE DATOS FALTANTES MARTÍN MARFIA† & NADIA L. KUDRASZOW‡†Depto. de Cs. Básicas - Facultad de Ingeniería - UNLP , ‡CMaLP - UNLP - CONICET 1. RESUMEN Nuestro objetivo es proponer una generalización del estimador de tipo MM [1] para el modelo de posición y escala multivariado que sea capaz de enfrentar los dos problemas más comunes en la calidad de un conjunto de datos: los datos atípi- cos y la presencia de datos faltantes. Para ello, nuestro enfoque es considerar como estimador de escala inicial la escala de las distancias de Ma- halanobis parciales del S-estimador generalizado [2], y usarlo como punto de partida para calcu- lar un M-estimador cuya función rho tiene un parámetro para controlar la eficiencia. Palabras clave: datos faltantes, estimación ro- busta. 2. INTRODUCCÍON Para 1 ≤ i ≤ n, sean xi = (xi1, . . . , xip)>, vectores aleatorios de dimensión p (iid) y ui = (ui1, . . . , uip) > , vectores (iid) e independientes de los xi compuestos por unos y ceros: xij fue obser- vada cuando uij = 1. Sea x(u) la parte de x que fué observada y sea p(u) = ∑p j=1 uj . Llamamos Σ(u) a la submatriz de Σ correspondi- ente a las entradas no nulas de u y m(u) ∈ Rp(u) al correspondiente subvector de m ∈ Rp. Además, sea Σ∗(u) = Σ(u)/|Σ(u)|1/p(u) y d(x,m,Σ) = (x− m)>Σ−1(x − m) la distancia de Mahalanobis al cuadrado entre x y m. Finalmente, ρ1 = ρ(t/c) donde ρ es una ρ−función y c es una constante elegida para controlar la eficiencia. 5. RESULTADOS DE LA SIMULACIÓN A la izquierda se muestran las distancias LRT promedio en función del k, de los siguientes esti- madores : 1. EM, el estimador gaussiano. 2. EMVE, el S estimador extendido para datos faltantes. 3. GSE, el S estimador generalizado con EMVE como estimador inicial. 4. GMM, nuestro estimador propuesto, usando una ρ función bicuadrada. Notamos un buen desempeño de nuestra pro- puesta tanto en los distintos escenarios bajo con- taminación como en la eficiencia relativa al EM sin contaminación (ver Tabla 1). Tabla 1: REFERENCIAS [1] D. E. Tatsuoka, K. S. y Tyler. The uniqueness of s and m-functionals under non-elliptical distribu- tions. The Annals of Statistics, 28, 1219-1243., 2000. [2] Yohai V. y Zamar R. Danilov M. Robust estimation of multivariate location and scatter in the presence of misssing data. Journal of the American Statistical Association,107:499, 1178-1186., 2014. 7. BUSQUEDAS A FUTURO Queremos estudiar las propiedades asintóticas (consistencia y normalidad asintótica) del esti- mador propuesto. Este método puede utilizarse para el caso en que la contaminación no es por observaciones sino por celda (cell-wise) eliminando las celdas contami- nadas identificadas mediante un método de de- tección y luego aplicando el MM-estimador para datos faltantes. CONTACTO Mail: martin.marfia@ing.unlp.edu.ar 6. EJEMPLO CON DATOS REALES Se eliminaron al azar, con probabilidad 0.2, en- tradas del data set wine (del paquete RobStatTM de R) que contiene para 59 vinos cultivados en la misma región de Italia, las cantidades de 13 com- ponentes. En el gráfico se comparan las distancias de Mahalanobis ajustadas d∗ = (χ213)−1(χ2q(d)) donde d es la distancia parcial de una fila con q entradas observadas de 13, obtenidas con el esti- mador gaussiano EM (arriba) y nuestro estimador propuesto (abajo), y χ2p es la función de distribu- ción χ2 con p grados de libertad. Observamos que el estimador gaussiano no detecta datos atípicos, mientras que nuestra propuesta detecta 8. Se con- sideraron como datos atípicos las observaciones con distancia ajustada mayor a (χ213)−1(0.999). 3. ESTIMADOR MM Proponemos usar como estimador inicial los esti- madores de posición y escala GSE, ( mˆGS, ΣˆGS ) , de [2] y luego consideramos la solución de( mˆR, ΓˆR ) = arg min m,|Σ|=1 TR (m,Σ) , ΣˆR = σˆGSΓˆR, donde σˆGS = ∣∣∣ΣˆGS∣∣∣1/p y TR (m,Σ) = 1 n∑ j=1 cp(ui) n∑ i=1 cp(ui)ρ1 d ( x (ui) i ,m (ui),Σ∗(ui) ) σˆuicp(ui)  donde σˆui = ∣∣∣Σˆ(ui)GS ∣∣∣1/p(ui) para i = 1, . . . , n. 4. ESTUDIO DE SIMULACIÓN Generamos muestras de tamaño n = 100 de una Np(0,Σ). Como el estimador es escala equivari- ante pero no afín equivariante asumimos Σii = 1 y Σij = r para i 6= j y tomamos r = 0.6, 0.7, 0.8, 0.9. Introdujimos 10% de contami- nación puntual a k distancias de Mahalanobis del 0 (k = 1, . . . , 12) en la dirección del autovector de Σ con autovalor más chico. Se ha observado em- píricamente que esta es la posición menos favor- able para ubicar datos atípicos . El porcentaje de datos faltantes se fijó en 10% (otras proporciones dieron patrones similares). El número de répli- cas fué N = 1000. La performance de cada Σˆn se midió usando el promedio sobre las réplicas del LRT (Σ,Σ0) = tr(ΣΣ −1 0 ) − log det(ΣΣ−10 ) − p. Se calcularon además las eficiencias relativas mues- trales con respecto al estimador EM basado en el promedio de las distancias LRT cuando hay 10% de datos faltantes y no hay datos atípicos.