SciELO - Scientific Electronic Library Online

 
vol.46 número134Impact of the Uruguayan conditional cash transfer program índice de autoresíndice de materiabúsqueda de artículos
Home Pagelista alfabética de revistas  

Servicios Personalizados

Revista

Articulo

Indicadores

Links relacionados

Compartir


Cuadernos de economía

versión On-line ISSN 0717-6821

Cuad. econ. v.46 n.134 Santiago nov. 2009

http://dx.doi.org/10.4067/S0717-68212009000200007 

Cuadernos de Economía, Vol. 46 (Noviembre), pp. 273-288, 2009

NOTA TÉCNICA

 

Imputación Multiple en Encuestas Microeconómicas*

 

Rodrigo Alfaro1, Marcelo Fuenzalida2

1 Banco Central de Chile. Email: ralfaro@bcentral.cl
2 Columbia University


In the survey analysis, the missing data problem can be managed by using Multiple Imputation (MI) methods. In this paper we show the empirical application MI methods to the financial variables included in Chile 's Social Protection Survey 2004. Based on a brief review MI methods we conclude that Multivariate Normal one is more appropiate for our case. In addition, we consider two empirical adjustments: (1) use the variables in their logistic versions, and (2) implementation the method by groups individuals. Our results show that both adjustments improves the performance the MI method.

JEL.Cn, C15


En el análisis de encuestas el problema de información fallante puede ser manejado a través del uso de métodos de Imputaciones Múltiples (MI). En este artículo mostramos una aplicación de MI a las variables financieras incluidas en la Encuesta de Protección Social 2004. Basados en una revisión breve de los métodos de MI concluimos que el método normal multivariado es el más apropiado para nuestro caso. Adicionalmente, consideramos dos ajustes empíricos: (1) uso de las variables en sus versiones logísticas y (2) implementación del método por grupo de individuos. Nuestros resultados muestran que ambos ajustes mejoran el desempeño del método de MI.

Keywords: Información Faltante, Imputación Multiple, Algoritmo EM/DA


1. INTRODUCCIÓN

Las encuestas con datos microeconómicos han sido ampliamente utilizadas para generar y evaluar políticas públicas en Chile. Programas para la superación de la pobreza se han evaluado con la Encuesta de Caracterización Socioeconómica (CASEN) y el sistema de ahorro previsional con la Encuesta de Protección Social (EPS), por ejemplo. Sin embargo, en el ultimo tiempo, esta fuente de información ha sido utilizada en el análisis macroeconómico como complemento a los datos agregados. Por ejemplo, Cox, Parrado y Ruiz-Tagle (2006) caracterizan el ciclo de vida y la estructura de endeudamiento de los hogares utilizando información de la EPS 2004, mientras que Fuenzalida y Ruiz-Tagle (2009) analizan la vulnerabilidad de los hogares utilizando la Encuesta Financiera de Hogares 2007.

El uso de este tipo de encuestas involucra un desafío estadístico importante que corresponde al manejo de la información faltante. La complejidad del problema depende de la cantidad de variables no reportadas por el encuestado y del proceso estocástico que genera la omisión de dicha información. Encuestas incompletas son el resultado de una serie de eventos como, por ejemplo, son la comprensión de las preguntas y la disposición a revelar información sensible por parte del entrevistado. Es posible cuantiñcar este efecto a través de la aplicación de encuestas pilotos, lo que conlleva a mejoras tanto en el cuestionario como en las capacitaciones de los encuestadores. Desafortunadamente, esta solución no elimina totalmente el problema de la información faltante, por lo que el investigador termina con encuestas incompletas. Dada las tasas de no respuesta en algunas preguntas aisladas, no es conveniente trabajar solo con los casos para los cuales se dispone de información. Esto ultimo supondría que los casos incompletos son una sub-muestra aleatoria de la muestra original, lo que puede no ser válido y el análisis podría generar resultados sesgados. Del mismo modo, en análisis multivariados, trabajar solo con las observaciones para las cuales todas las variables de interés tengan información completa, puede disminuir excesivamente el tamaño muestral. Alternativamente, algunos investigadores optan por reemplazar la información faltante con valores arbitrarios, como son cero, el promedio muestral o el valor proyectado de una regresión lineal (Allison, 2001). El problema de estas técnicas es que ignoran el hecho de que dichos valores no son efectivos, generándose una reducción artificial de la varianza muestral de dicha variable.

Rubin (1987) propone que los datos omitidos sean reemplazados por multiples realizaciones aleatorias. Este proceso se conoce como Imputación Multiple (MI por Multiple Imputation) y su sustento teórico se encuentra en la estadística bayesiana, la cual utiliza la información de la muestra para realizar inferencia respecto de los parámetros. En términos simples, nuestro análisis bajo MI estará basado sobre un conjunto de bases con información completa (bases imputadas), en cada una de las cuales se ha sustituido la información faltante por realizaciones aleatorias que consideran la incertidumbre asociada al hecho que los valores imputados fueron simulados. En cada una de las bases imputadas, el investigador debe realizar sus estimaciones y combinar los resultados a través de las distintas bases de datos para obtener la inferencia deseada. Para lograr este objetivo, Rubin propone reglas simples que permiten combinar los resultados obtenidos en las distintas bases imputadas, de modo de ajustar los errores estándares de los estimadores para considerar la incertidumbre generada de las imputaciones. Por otra parte, Rubin muestra que un pequeño número de bases imputadas, por ejemplo tres o cinco, son suficientes para aproximar apropiadamente la incertidumbre asociada a la información faltante.

En este trabajo presentamos la aplicación empírica de MI a la EPS 2004, pero focalizamos nuestro interés en el ingreso laboral, los activos financieros y las deudas de los individuos entrevistados. Basados en las características de las variables financieras consideradas, utilizamos la transformación logística, mientras que para controlar por la heterogeneidad de los hogares, proponemos realizar una imputación por grupos. Nuestros resultados establecen que ambos ajustes mejoran la estimación de los parámetros de la distribución subyacente.

2. IMPUTACIÓN MULTIPLE

Rubín (1987) recoge el tema de la incertidumbre de los valores imputados proponiendo el método de MI, por el que, a través de un proceso estocástico se seleccionan posibles valores para la información faltante y la utilización de dichos valores recoge el componente aleatorio del dato imputado. Usualmente, estas realizaciones se obtienen a través de la caracterización de la distribución conjunta de los datos, que por lo general se asume normal. También es posible obtenerlas a través de las formas funcionales de las distribuciones condicionales. En todos los casos la validez del proceso de imputación se basa en el supuesto de que la información faltante ha sido omitida en forma completamente aleatoria, es decir que la probabilidad de no reportar la información no depende del valor de la variable.

Es importante notar que el método de MI no soluciona el problema de la información faltante, sino que lo acomoda desde una perspectiva estadística. Así, el investigador podrá contar con información completa, pero deberá manejar multiples bases de datos donde cada una de ellas tiene un valor posible para la observación faltante. El investigador entonces deberá desarrollar su análisis en cada una de las m bases de datos completas y luego combinar los resultados a fin de obtener las conclusiones finales de su investigación. La combinación de los resultados sigue las reglas propuestas por Rubín (1987), que en caso escalar se resumen en el estimador promedio (H) y su error estándar (V), siendo:

donde Qt y Vt corresponden, respectivamente, al estimador y error estándar en la base t. Notamos que la primera expresión en V es el promedio de los errores estándares al cuadrado, mientras que la expresión en corchetes es un estimador de la dispersión de los estimadores obtenidos.

El número óptimo de bases de datos (m) depende del porcentaje de información faltante. Schafer (1997) discute sobre la eficiencia que se obtiene al incrementar m, la que puede analizarse empíricamente a través del grado de información faltante. Por ejemplo, bajo un 20% de información faltante el uso de tres bases imputadas incrementa el error estándar en 3.3% relativo al caso en que se consideren infinitas bases imputadas. En la práctica, una elección comúnmente utilizada es m=5 (Allison, 2001), sin embargo Royston (2004) propone una regla en donde se minimice empíricamente el rango de incertidumbre de la estimación del intervalo de confianza. Sus resultados son coherentes con la sugerencia de StataCorp (2009) en donde se establece que m=20 es un número razonable de imputaciones.

Por otra parte, distintos métodos de imputación han sido propuestos en la literatura: Hot-Deck, Condicional Univariado, Condicional Encadenado y Normal Multivariado1. Todos ellos son apropiados, en el sentido que establece Rubin (1987), pues consideran la incertidumbre en la estimación de los parámetros. A continuación describimos brevemente cada uno de ellos, enfatizando cuales son los problemas empíricos con que se enfrenta en el investigador al aplicarlos. Una discusión detallada de los métodos en términos teóricos puede encontrarse en Allison (2001).

2.1       Método Hot-Deck

Este método asigna valores a los datos faltantes con la información existente en la muestra de acuerdo a la celda en la que se encuentra la observación con información fallante. El procedimiento consiste en completar en cada celda las observaciones faltantes utilizando datos de la misma celda, los cuales son seleccionados de forma aleatoria. Luego de hacer el procedimiento para cada celda, se logra una base de datos completa. El proceso se repite para construir las m bases de datos completas. Debido a que los valores imputados son efectivos, las características estadísticas de la celda se preservan. Esto resulta útil cuando la variable a imputar tiene características particulares como es el caso de las variables discretas.

Investigadores del área dudan que el método sea capaz de recoger en la varianza combinada toda la incertidumbre asociada a la información fallante2. En la práctica, el método no es válido si las celdas en las cuales se realiza el proceso de imputación contienen pocos datos. Por ejemplo, Alfaro y Fuenzalida (2008) muestran que para la EPS 2004 el cruce: género, nivel de escolaridad y tramos de edad puede generar celdas con menos de 20 observaciones, lo que es relativamente pequeño si se considera por ejemplo m=10.

2.2      Método Condicional Univariado

Este método está basado en un modelo de regresión. Las imputaciones se obtienen de ajustar los valores predichos a fin de que estos contengan la incertidumbre asociada a la estimación de los parámetros. Por ejemplo en el caso de la estimación de una regresión lineal con información faltante, los parámetros estimados a considerar son el vector de regresores y la varianza del error de la ecuación. En este caso, Rubin (1987) establece un procedimiento para generar los valores imputados, el cual puede resumirse en los siguientes pasos: (1) simular la varianza estimada del error a través del uso de la distribución asintótica de este estimador, que en este caso corresponde a una chi-cuadrado, (2) simular el vector de regresores considerando tanto la incertidumbre de dichos parámetros, a través de la distribución asintótica -que es este caso es la normal multivariada- como la asociada a la estimación de la varianza del error obtenida en el paso anterior y (3) generar el valor imputado considerando los valores simulados de los puntos anteriores.

Es importante notar que este método se basa en la existencia del valor condicional de la variable a imputar con respecto a las variables exógenas que se utilizan en el proceso de imputación. Por este motivo, es posible ajustar la forma funcional adecuadamente para reflejar la naturaleza de la variable a imputar. Por ejemplo, en el caso de una variable dicotómica se pueden utilizar los modelos de variable dependiente limitada.

2.3       Método Condicional Encadenado

Este método es una extensión del método anterior cuando hay multiples variables con información faltante. En dicho caso Van Buuren (2006) propone que se realice el método anterior de forma secuencial encadenada, esto es, imputando primero una variable específica y luego utilizando dichos valores como verdaderos para imputar el resto de las variables. Realizando este algoritmo reiteradas veces se obtienen las distintas bases imputadas.

Este método ha sido exitoso en el área empírica (Royston, 2004) debido a que permite ajustar variadas formas funcionales para las relaciones condicionales, además la implementación computacional es relativamente económica debido a que se basa en ciclos. Dos elementos que hay que considerar de este método son: (1) un criterio que permita establecer la estabilidad del proceso secuencial y (2) que las distribuciones condicionales mantengan coherencia con el modelo de análisis. Para el primer caso es posible hacer un registro de la estabilidad de los parámetros de todas las distribuciones condicionales, mientras que el segundo punto recoge la discusión de Schafer (1997) quien establece que el modelo de imputación tiene que ser coherente con el que será ocupado por el investigador en sus análisis.

2.4      Método Normal Multivariado

Este método supone que todas las variables en el análisis tienen una distribución normal multivariada. A través de la maximización de la verosimilitud es posible recuperar los parámetros que caracterizan la distribución multivariada. Lo anterior se implementa con el algoritmo EM (Expectation Maximization) el cual realiza el proceso de maximización previo cálculo del valor esperado de la condición de primer orden. Esto permite que la estimación de los parámetros sea consistente bajo información faltante. Sobre dicha estimación se realiza una simulación suponiendo que las distribuciones asintóticas de cada uno de ellos son válidas (esto es Normal para el caso del vector de medias y Wishart para la matriz de varianzas y covarianzas). Con estos parámetros simulados se generan imputaciones para las observaciones que presentan información faltante. Este algoritmo se conoce como DA (Data Augmentation), para el cual los valores imputados contienen explícitamente la incertidumbre asociada a la estimación del modelo de imputación.

Los fundamentos teóricos de DA están basados en el paso EM. Esto quiere decir que la apropiada convergencia de EM permite que DA sea consistente. Por este motivo EM/DA resulta ser una combinación atractiva. Sin embargo, la principal debilidad es el supuesto de normalidad conjunta, el cual es poco realista para las aplicaciones empíricas. Esto ultimo ha sido abordado por los investigadores considerando transformaciones acordes con la naturaleza de las variable que permitan que las variables en análisis presenten un perfil más cercano a la distribución normal. De este modo, algunas variables son remplazadas por sus logaritmos o su transformación logística, mientras que en el caso de variables discretas lo habitual es redondear las cifras al entero más cercano (Allison, 2001). Para las variables dicotómicas estos procedimientos podrían no ser válidos (Allison, 2009).

3. IMPLEMENTACIÓN EN LA EPS 2004

En esta sección utilizamos la Encuesta de Protección Social 2004, para ejemplificar la implementación de MI. A fin de simplificar el problema consideraremos sólo a los jefes de hogar que reportan estar trabajando, lo que reduce la muestra a poco menos de diez mil individuos. Del mismo modo, consideraremos para nuestro análisis cuatro variables financieras: ingreso laboral, activos financieros, deuda con bancos o financieras y deuda con casas comerciales y tres variables que caracterizan al entrevistado: género, edad y años de educación. En lo que sigue presentamos la estadística descriptiva de estas variables y cuantiñ-camos el problema de información faltante. Posteriormente discutimos sobre el método de imputación utilizado, el cual está basado en EM/DA, pero considera dos variaciones que resultan ser importantes en el trabajo empírico.

3.1. Descripción de los datos

La base de datos utilizada en este estudio corresponde a 9.648 jefes de hogar que reportan estar trabajando en la EPS 2004. Las variables a imputar son: (1) los ingresos laborales obtenidos de la ocupación principal, (2) los activos financieros, los que incluyen ahorro bancario para la compra de viviendas, ahorro en administradora de fondos para la vivienda, ahorro provisional voluntario, ahorro en cuenta 2, cuenta de ahorro bancaria, depósitos a plazo, inversiones en fondos mutuos, acciones o bonos de empresas, préstamos a terceros y otros ahorros, (3) la deuda en casas comerciales que corresponde a la deuda contraída mediante tarjetas de crédito propias y (4) la deuda bancaria, deuda de consumo contraída con el sistema bancario, excluyendo tarjetas de crédito y líneas de crédito (Ver el Cuadro 1).

A partir de la estadística descriptiva, es posible observar que el ingreso promedio de la muestra supera los 240 mil pesos y el valor promedio de los activos financieros es de 1,84 millones de pesos. Por el lado de las deudas, el promedio de la deuda bancaria supera a la de casas comerciales y alcanzan a 2,4 millones y 290 mil pesos respectivamente.

En términos de información faltante, notamos que en este caso el problema es pequeño debido a que se reportan el 95,7% de los ingresos, el 97% de los activos financieros, el 98,2% de la deuda en casas comerciales y el 99,6% de la deuda bancaria. Sin embargo, las observaciones que presentan información completa en todas las variables representan el 91,7% de la muestra. Es decir que, de utilizarse en el análisis todas las variables perdemos un 8,3% de la muestra debido a la falta de información en alguna de ellas.

La distribución de la información faltante a través de las variables permite la generación de patrones (Cuadro 2). Observamos que sólo un 0,01% de la muestra presenta falta de información en estas cuatro variables, un 0,17% en tres de ellas, mientras que un 1.01 % de la muestra presenta falta de información en dos variables. Por ultimo, un 7,1% posee falta de información en sólo una variable.


Notamos que el problema de información faltante en esta encuesta, es decir el 8,3% de la muestra, puede dividirse en dos grandes casos: pérdida de información en una variable, que involucra el 7,1% de los casos y pérdida de información en más de una variable, cuya importancia es relativamente pequeña pues se refiere al 1.2% de la muestra3.

3.2. Método de Imputación

Notamos que todas las variables financieras consideradas en este ejercicio son montos en unidades monetarias, por lo que podremos asumir que ellas o sus formas funcionales tienen distribuciones continuas. Esto nos permite utilizar tanto el Método Condicional Encadenado como el Normal Multivariado. Utilizaremos este ultimo debido a que posee un sustento teórico basado en la convergencia del algoritmo EM.

Dentro de los ajustes empíricos consideramos: (1) el uso de la transformación logística para corregir el tema de asimetrías en la distribución de las variables y generar perfiles más cercanos a la distribución normal y (2) la generación de grupos de individuos lo que permite una mejor identificación de la heterogeneidad de la muestra.

En el caso de la transformación logística, primero se normalizaron los valores entre cero y el máximo valor de cada variable en la muestra para luego aplicar la función logística. De este modo, las variables transformadas fueron usadas tanto en el paso EM como en el DA. Posterior a la imputación, estas variables se vuelven a transformar para recuperar sus valores en nivel. Las distribuciones de las variables transformadas tienen perfiles similares a la normal (Gráfico 1), lo que permite que el algoritmo EM basado en esta distribución, sea más adecuado después de utilizar esta transformación que considerando los valores originales de las variables.


Por otra parte, los grupos se construyeron utilizando la información interna de la encuestas, es decir sobre el reporte de tenencia que declararon los individuos. Debido a que la muestra se compone de individuos que reportan estar trabajando y al hecho de que la tenencia de deuda con casas comerciales es similar para todos los individuos, la construcción de los grupos se realizó a partir de la información de posesión de activos financieros y deuda banca-ria. Esto permite la generación de 4 grupos mutuamente excluyentes que se reportan en el Cuadro 3.


De esta forma, el primer grupo está compuesto por todos aquellos individuos que no tienen activos financieros ni deuda bancada, con un total de 6.820 observaciones donde hay información completa. Notamos que los grupos donde el individuo declara tener activos financieros son los que presentan mayores grados de información faltante (Grupos 2 y 4). En particular, el segundo grupo alcanza un 20% de información faltante.

La estadística descriptiva de los grupos muestra la heterogeneidad de ellos como puede verse en el Cuadro 4. En particular, observamos que los individuos que no tienen activos financieros ni deuda con bancos (Grupo 1), tienen un menor ingreso promedio en comparación al resto de los grupos. De hecho su valor es estadísticamente menor que el que se obtiene para el Grupo 2. Sin embargo, en términos de deuda con casas comerciales ambos grupos no presentan diferencia significativa en sus promedios.

3.3 Resultados de la Imputación

Los resultados del algoritmo EM convergen en menos de 12 iteraciones, tanto para la base agregada como para cada uno de los grupos. Esto confirma empíricamente que el uso de la función logística colabora con el supuesto de normalidad impuesto en el modelo. En el Cuadro 5 presentamos los resultados de las matrices de varianzas y covarianzas que se obtienen de este algoritmo para cada uno de los grupos y el agregado.

En primer lugar notamos que, los resultados obtenidos para la varianza se encuentran fuertemente influenciados según se incluyan o no los individuos que reportan no poseer cada variable financiera. Por ejemplo, la varianza de la deuda con bancos se multiplica por cuatro al incluir estos individuos en el cálculo. Esta diferencia desaparece si: (1) se consideran imputaciones por variables en cuyo caso los individuos que no poseen dicha variable financiera desaparecen de la estimación o (2) si se realiza una imputación condicionada. Un segundo punto relevante de los resultados corresponde a los resultados obtenidos para las covarianzas entre dichas variables. Notamos que la correlación entre ingreso y deuda con casas comerciales es positiva en el agregado pero negativa para el Grupo 4. Por construcción este grupo accede a deuda bancaria, en cuyo caso podría existir sustitución entre este tipo de deudas, como lo sugiere la correlación entre estas ultimas variables.

Utilizando el algoritmo DA generamos 50 imputaciones para cada grupo y para la base agregada. En el Cuadro 6 se reportan los resultados para el promedio y su error estándar en los casos que se utilicen 3, 5, 10, 20 y 50 bases imputadas. Utilizamos el Coeficiente de Variación (CV) para comparar los resultados obtenidos por la imputación con grupos y aquella que se hace de forma agregada4.

Observamos que para el caso del ingreso no hay diferencias significativas entre ambos procedimiento, obteniéndose en ambos casos un ingreso promedio cercano a los 240 mil pesos. En el caso de los activos financieros los resultados indican que la estimación por grupos es levemente más precisa que la estimación agregada, incrementándose el promedio a aproximadamente 200 mil pesos. Al revisar las cifras de deudas notamos que en el caso de las casas comerciales la estimación por grupos rece una importante mejora cuando se considera m=20, lo cual es coherente con los resultados de Royston (2004). Es importante notar que en el caso de la imputación agregada el CV se incrementa conforme se aumenta el número de bases imputadas a considerar. En el caso de la deuda bancaria los resultados muestran una pequeña mejora del método de imputaciones por grupos.

Siguiendo lo sugerido por Royston (2004) en el caso analizado correspondería utilizar al menos 20 bases imputadas para considerar la incertidumbre de la información faltante y mantener intervalos de confianza que sean confiables.

4. CONCLUSIONES

En este trabajo, discutimos distintas técnicas que permiten enfrentar el problema de la información faltante en encuestas microeconómicas. En particular, revisamos de manera descriptiva los distintos métodos de imputación multiple (MI), los cuales consideran la incertidumbre asociada a la estimación del modelo que genera los datos.

Utilizando la Encuesta de Protección Social 2004, mostramos la aplicación del método normal multivariado a través del algoritmo EM/DA. Se consideraron 2 modificaciones empíricas al algoritmo que son la transformación de las variables utilizando la función logística y la implementación de la imputación por grupos de individuos. Mostramos que estas dos modificaciones permiten al usuario mejorar los resultados de MI debido a que: (1) las variables transformadas presentan un perfil más cercano a la normalidad, que es el supuesto del modelo y (2) la estimación por grupos permite un mejor control sobre la heterogeneidad de la muestra. En particular, observamos que hay una mejora en la precisión de la estimación (reducción del CV) cuando la estimación se realiza por grupos de individuos que cuando se consideran todos de forma homogénea.

 

NOTAS

*       Agradecemos los comentarios de Patrick Royston, Jaime Ruiz-Tagle y un arbitro anónimo. Investigadores interesados en obtener acceso a los datos para fines exclusivamente académicos deben comunicarse directamente con los autores del estudio.

1       Los tres métodos están implementados en Stata por diversos investigadores. Hot-Deck fue implementado por Adrián Mander y David Clayton (MRC Biostatistics Unit, Cambridge, UK). Patrick Royston (MRC Clinical Trials Unit, London, UK) implemento tanto el método Condicional Univariado como el método Condicional Encadenado, mientras que John Galati y John Carlin (Clinical Epidemiology and Biostatistics Unit, Murdoch Children's Research Institute, and University Melbourne Department Paediatrics) implementaron el método normal multivariado. La versión 11 de Stata incorpora varios mecanismos de imputación univariada que son válidos para una variable, así como también el método normal multivariado.

2       Por ejemplo, en una discusión con el pr esor Gary King (Harvard University) a mediados del 2008, él comparte su experiencia empírica en MI, destacando que los resultados obtenidos con Hot-Deck presentan fuertes reducciones de los errores estándares de las variables. Similar comentario se expone en Allison (2009).

3       Dada esta condición de la base de datos es posible considerar las imputaciones sólo para los casos en que hay una variable con información faltante a través de métodos univariados de imputación, realizando de este modo un proceso parcial de imputación. En este caso no tomaremos esta ruta pero podría ser un camino válido en problemas más complejos.

4       En este caso el CV corresponde al ratio entre H y V obtenidos según las reglas de Rubín (1987) que fueron presentadas en la Sección 2. Por otra parte, los cambios no monotónicos en CV se deben al uso de factores de expansión para la obtención de los estadísticos.

 

REFERENCIAS

Alfaro, R. y M. Fuenzalida (2008), "Análisis de Información Faltante en Encuestas Microeconómicas" Estudios Económicos Estadísticos N° 67, Banco Central de Chile.         [ Links ]

Allison, P. (2001), Missing Data, Quantitative Applications in the Social Sciences, A Sage University Papers Series.         [ Links ]

Allison, P. (2009), Apuntes del Curso: Missing Data; Los Angeles, California, Mayo 8 y 9.

Barceló, C. (2006), "Imputation the 2002 wave the Spanish survey household finances (EFF)" Documentos Ocasionales N° 0603, Banco de España.        [ Links ]

Cox, R, E. Parrado y J. Ruiz-Tagle (2006), "The Distribution Assets, Debt and Income among Chilean Households" Documento de Trabajo N° 388, Banco Central de Chile.         [ Links ]

Fuenzalida M. y J. Ruiz-Tagle (2009), "Household's Financial Vulmerability", Journal Economía Chilena (The Chilean Economy), 12(2):35-53.         [ Links ]

Little, R. y D. Rubin (2002), Statistical Analysis with Missing Data, Second Edition J. Wiley & Sons, New York.         [ Links ]

Royston, P (2004), "Multiple imputation Missing Values" Stata Journal 4(3):227-241.         [ Links ]

Rubin, D. (1987), Multiple Imputation for Nonresponse in Surveys, J. Wiley & Sons, New York.         [ Links ]

Schafer, J. (1997), Analysis lncomplete Multivariate Data, Chapman & Hall/CRC.         [ Links ]

StataCorp (2009) Multiple-Imputation Reference Manual, Stata Press.         [ Links ]

Van Buuren, S., J. Brand, C. Groothuis-Oudshoorn y D. Rubin (2006) "Fully Conditional Specification in Multivariate Imputation", Journal Statistical Computation and Simulations 76(12):1049-1064.        [ Links ]

Creative Commons License Todo el contenido de esta revista, excepto dónde está identificado, está bajo una Licencia Creative Commons