You are on page 1of 39

Recomendaciones tcnicas para la generacin de

la Metadata de la Encuesta Longitudinal de


Proteccin Social*
Agosto, 2016

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de


Proteccin Social - ELPS1
Octubre, 2015
Resumen: Este documento presenta recomendaciones para el manejo de metadatos de las Encuestas
Longitudinales de Proteccin Social en base a la experiencia de la 1era. Ronda de Paraguay. El
documento se divide en tres captulos: i) Conceptos principales referidos a la metadata; ii)
Propuesta de protocolo de produccin de base de datos ELPS, iii) Recomendaciones para el manejo
de metadatos de base de datos ELPS. El documento fue elaborado en base a Recomendaciones
Metodolgicas para las rondas de seguimiento de la Encuesta Longitudinal de Proteccin Social
(ELPS) (Prieto, Madrigal, Gallegos y Bravo; 2015), a la documentacin de los resultados del
trabajo de campo de la 1era. Ronda ELPS Paraguay y literatura especializada en la materia.

* Autor: Francisca Gallegos Jara, Sociloga, correo electrnico: af.gaja@gmail.com


1 Se agradecen los comentarios y revisin de la Coordinadora General de la 1era. Ronda ELPS Paraguay
Mg. Nimia Torres Directora General de Informacin Social y la Lic. Sonia Garrido, Directora Tcnica de
Anlisis y Procesamiento de Datos de la Direccin General de Informacin Social, ambas, de la Secretara
Tcnica de Planificacin del Gobierno del Paraguay.

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Contenido
I.
INTRODUCCIN ................................................................................................................................ 4
II.
CONCEPTOS Y DEFINICIONES REFERIDOS A LA METADATA EN ENCUESTAS
LONGITUDINALES ......................................................................................................................................... 6
III.
RECOMENDACIONES PARA EL PROTOCOLO DE GENERACIN DE BASES DE DATOS Y
METADATA ELPS ........................................................................................................................................... 9
3.1

Recomendacin 1: Resguardo de la Base de Datos .......................................................................... 9

3.2

Recomendacin 2: Formato electrnico de la Base de Datos ......................................................... 10

3.3

Recomendacin 3: Denominacin de las bases de datos ................................................................ 11

3.4

Recomendacin 4: Definicin de las bases de datos segn el proceso de trabajo........................... 12

3.5

Recomendacin 5: Contenidos de las bases de datos ...................................................................... 16

3.6

Recomendacin 6: Definicin del folio Persona Hogar ............................................................... 21

3.7

Recomendacin 7: Archivos ejecutables do file o sintaxis ............................................................. 23

3.8

Recomendacin 8: Documentos para el investigador ..................................................................... 25

IV.
RECOMENDACIONES PARA EVALUAR LA CALIDAD DE DATOS USANDO LA
INFORMACIN DE METADATA ELPS ...................................................................................................... 30
Etapa Crtica 1: Aplicacin de la Tabla de Kish para seleccionar a la persona ....................................... 30
Etapa Crtica 2: Saltos incorrectos en flujo de las preguntas ................................................................... 32
Etapa Crtica 3: Missing y outliers en los datos ....................................................................................... 32
Etapa Crtica 4: Incosistencias de respuestas entre variables al interior del cuestionario ........................ 34
Etapa Crtica 5: Respuestas No sabe y No responde con alta frecuencia en mltiples variables ............. 36
Etapa Crtica 6: Digitacin de las hojas de rutas y de las encuestas ....................................................... 37
V.

REFERENCIAS .................................................................................................................................. 39

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

I.

INTRODUCCIN

Los datos generados por las encuestas longitudinales permiten analizar y describir
fenmenos que cambian en el tiempo, permitiendo una mejor comprensin de los procesos
socioeconmicos y comportamientos de las personas y, de esta manera, disponer de una mejor
informacin para el diseo de instrumentos de poltica social (Jenkins; 2011; Prieto; 2015).
Como seala la Gua prctica para usar los datos de la ELPS 2015 (Prieto; 2015), las encuestas
longitudinales tienen, al menos, cuatro ventajas sobre las de corte transversal: i) al seguir a las
mismas unidades en el tiempo, es posible medir los cambios de los individuos, y as estudiar las
transiciones entre estados; ii) permite analizar el efecto de determinadas intervenciones de polticas
sociales; iii) implementar modelos de comportamientos a travs de tcnicas de historias de vida, y
iv) controlar el efecto de las variables no observadas a travs del tiempo y entre las propias
unidades (Rose, 2000).
La Encuesta Longitudinal de Proteccin Social (ELPS) est diseada para monitorear y evaluar los
sistemas de proteccin social, y su interrelacin con el mercado del trabajo (BID, 2015)2 entregando
informacin para medir el impacto de los programas de previsin y seguridad social. En tanto una
encuesta longitudinal, permite construir una base de datos que recoge a lo largo del tiempo, y en
un mismo instrumento, la historia laboral y previsional de los encuestados profundizando en reas
como educacin, salud, seguridad social, capacitacin laboral, patrimonio y activos, historia
familiar e informacin del hogar (Prieto; 2015). Y en cuanto esfuerzo regional, permite comparar
los distintos sistemas latinoamericanos y sus cambios en el tiempo, permitiendo al conjunto de
pases aprender de las lecciones de las polticas implementadas en la Regin.
Como seala la literatura (Prieto, Madrigal, Bravo, Gallegos; 2015), las caractersticas del diseo
del trabajo de campo van de la mano de condiciones de aseguramiento de la calidad de la
produccin de informacin y, por cierto, de sus metadatos.
Qu es la Metadata? Se entender por tal a la produccin de toda aquella informacin asociada a la
Encuesta Longitudinal de Proteccin Social, adems de aquella recogida en los cuestionarios. Se
considera como Metadata: (1) la muestra, seleccin, ubicacin y datos de contacto (2)
caracterizacin del trabajo de campo y el personal que lo implement, (3) los procesos de
supervisin, control y seguimiento de los casos, (4) procesamiento, digitacin, validacin y chequeo
de consistencia, (5) documentos para el analista e investigador que acompaan la base de datos,
entre otro tipo de informacin.
Una vez culminado el trabajo de campo de las rondas de ELPS se presenta el desafo de documentar
y entregar la informacin necesaria y suficiente para que los usuarios de la base de datos conozcan
las condiciones de produccin y uso de la misma. Este documento entrega un conjunto de
recomendaciones orientadas a la definicin de los productos y actividades asociados a la metadata
del estudio, considerando adems una propuesta de protocolo de generacin de bases de datos.

2 Presentacin del Proyecto Encuesta Longitudinal de Proteccin Social disponible en: {HYPERLINK:
http://www.observatorioregional.net/download/bid-presentacion-proyecto-regional-elps/} Ultima visita: 30 de
mayo 2015.

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

El documento fue elaborado en base a tres fuentes principales: Recomendaciones Metodolgicas


para las rondas de seguimiento de la Encuesta Longitudinal de Proteccin Social (ELPS) (Prieto,
Madrigal, Gallegos y Bravo; 2015); la documentacin de la Primera Ronda ELPS Paraguay
desarrollada por el equipo de trabajo de la Secretara Tcnica de Planificacin del Gobierno de
Paraguay y los informes anteriores desarrollados en el marco de la consultora denominada Apoyo a
la Implementacin ELPS Paraguay y en la cual se enmarca la produccin de este documento.
El documento se ha organizado en tres grandes temas. En el primer captulo se hace una referencia
conceptual a la metadata y al tipo de informacin que sta contiene. La propuesta se basa en la
perspectiva de error total de la encuesta y las orientaciones para el desarrollo de anlisis que
generen informacin sobre las decisiones metodolgicas del levantamiento y procesamiento de
datos. El segundo captulo se focaliza en entregar sugerencias para el protocolo de generacin de las
bases de datos ELPS, considerando la experiencia de la 1era. Ronda en Paraguay. Se incluye
ejemplos de actividades realizadas que le han permitido al equipo de investigacin documentar el
proceso de trabajo e iniciar la edicin de datos y generacin de ajustes estadsticos. El tercer
captulo refiere a la identificacin de etapas crticas referidas a las diferentes fuentes de error de una
encuesta. Ac en el nfasis est en presentar actividades que se desarrollaron en la experiencia de
Paraguay.
En cada captulo se repite el mismo formato. En primer lugar se entregan antecedentes generales y
se exponen conceptos, adems de la relevancia de los contenidos en el desarrollo de encuestas
sociales complejas de carcter longitudinal. Despus se listan recomendaciones especficas y se
presentan ejemplos para implementar dichas sugerencias.
La relevancia de este documento radica en introducir la importancia de la metadata en la produccin
de informacin recolectada mediante encuestas, con el fin de avanzar en la inclusin de estndares
de calidad internacionales en el desarrollo de encuestas latinoamericanas. Asimismo, entrega una
gua para la documentacin y uso de las bases de datos desde la planificacin del trabajo de campo.
Y, por ltimo, documenta la experiencia paraguaya destacando aprendizajes que pueden ser tiles
para los otros pases de la Regin.

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

II.

CONCEPTOS Y DEFINICIONES REFERIDOS A LA METADATA


EN ENCUESTAS LONGITUDINALES

El desarrollo de una encuesta longitudinal conlleva a la planeacin de un proceso de trabajo


que se debe extender a lo largo del tiempo. En este sentido, requiere asegurar las condiciones de
calidad como toda encuesta social compleja y, junto con ello, contar con un conjunto de actividades
y productos que permiten la realizacin de las rondas de seguimiento. Asimismo, cualquier agencia
que desarrolle una encuesta social debe asegurar un acceso eficiente a la base de datos y
documentacin que la acompaa. A partir de ello se orienta el desarrollo de investigacin con el uso
de los datos y potencia la explotacin de la valiosa informacin recolectada, que en el caso de la
ELPS se refiere principalmente a seguridad y proteccin social de cada pas3.
De este modo, se requiere que estn correctamente documentadas las condiciones de obtencin de
la informacin. Asegurar esto permite entregar los datos recolectados y asegurar un uso adecuado
de ellos, pero tambin documentar las dificultades que se presentaron durante el proceso de trabajo
y, por cierto, transparentar las decisiones metodolgicas frente ellas, promoviendo una
investigacin social de calidad.
La Encuesta Longitudinal de Proteccin Social, en cuanto es un estudio panel de alcance regional,
tiene el gran desafo de implementarse con una orientacin clara al uso interno en cada pas y, en la
misma medida, comparado entre ellos.
Se debe considerar como parte sustantiva del desarrollo de cada ronda de la Encuesta Longitudinal
de Proteccin Social la generacin de la metadata. sta incluye la informacin misma de la
encuesta y aquella que documenta las decisiones metodolgicas emprendidas en cada medicin y
los resultados obtenidos de dichas decisiones.
La principal motivacin para el desarrollo de la metadata guarda relacin con, al menos, dos
aspectos. Por un lado, corresponde a la informacin que permite desarrollar el anlisis de la calidad
total de la encuesta. A este respecto la literatura indica que toda encuesta debe ser sometida a una
evaluacin de su calidad en trminos de contar con informacin del cmulo de errores de los datos,
que informen sobre la confiabilidad en el uso de las bases de datos y la posible distorsin de los
parmetros estimados de la poblacin en estudio. As, debe dar cuenta de cada una de las fuentes de
error: la no respuesta, la cobertura del marco muestral, el diseo del cuestionario, el encuestador, el
modo de recoleccin de los datos, el entrevistado, y el procesamiento de datos, entre otros aspectos
(Biemer & Lyberg, 2003).

3 Cabe sealar que la ELPS entrega informacin valiosa sobre otras materias de relevancia para las polticas
pblicas. Sin embargo, se destaca su aporte sustantivo en el reporte sobre informacin referida a la seguridad
social en trminos de acceso, calidad, cobertura, oportunidad y otras dimensiones del sistema. Dada la
extensiva batera de preguntas se instala como un instrumento de gran valor para la evaluacin de los sistemas
de proteccin y seguridad social que, por un lado, puede ser monitoreado en el tiempo y, por otro, puede ser
analizado comparando informacin de los registros administrativos de cada pas. Se destaca, por ejemplo, el
rol fundamental que tuvo la informacin de la ELPS en Chile, la cual entreg informacin sobre los niveles de
desproteccin de la poblacin jubilada y conllev a una reforma en el sistema de Previsin Social en el ao
2007.

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Y, por otro lado, la metadata permite contar con toda la informacin y documentacin posible para
el desarrollo de las rondas de seguimiento de una encuesta panel en cuanto entrega los datos de los
datos. La literatura en estos aspectos indica que el gran desafo de las encuestas longitudinales es
asegurar el levantamiento de informacin en el tiempo que asegure minimizar la atricin y posibilite
la comparabilidad entre rondas (Jenkins; 2011). En la medida en que la informacin del proceso de
trabajo sea completa, detallada y rigurosamente procesada ser posible que los equipos de
investigacin cuenten con la mayor cantidad de informacin posible al enfrentarse a los desafos
que este estudio impone.
De este modo, permite (1) describir en detalle los procesos de diseo e implementacin de la
muestra, (2) las condiciones desarrollo del trabajo de campo en trminos de la calidad del trabajo
realizado por personal que particip en ello y (3) un anlisis de los resultados de las actividades de
supervisin, control y seguimiento de los casos. Por tanto, la metadata ELPS corresponde a la
informacin digital contenida en el conjunto de bases de datos ELPS y la documentacin que
acompaa el procesamiento de dicha informacin que informa sobre las caractersticas de los datos
levantados (Kreuter, 2013).

A partir de esta breve aclaracin conceptual, se sugiere que el equipo de investigacin que
desarrolle la generacin de la metadata considere entregar datos de los datos en lo referido a:
Informacin respecto de los errores de estimacin del diseo muestral utilizando las
variables ms relevantes en poblaciones de inters de la ELPS.
Informacin sobre el error de seleccin a partir del anlisis de la calidad de seleccin de la
muestra de entrevistados en la vivienda4. Ejemplo de ellos es el reporte de un chequeo de
validacin de la seleccin aleatoria usando la composicin del hogar para la seleccin con
la tabla kish.
Informacin sobre los errores de medicin referidos al anlisis de informacin recolectada
en los procesos de supervisin y control de las encuestas, adems de aquella informacin
cualitativa que puede entregar el personal del trabajo de campo5.
Informacin sobre los errores de procesamiento a partir del anlisis de la calidad mediante
la construccin de una rplica a la malla de captura de datos en el mtodo CAPI o
digitacin en el mtodo PAPI y que analice estadsticas descriptivas sobre la cantidad de
preguntas no contestadas, los errores de dominio, los errores de consistencia o los errores de
4 Considrese que esta es la ltima etapa de seleccin muestral, siendo antecedida por la seleccin de sectores
censales y viviendas. Sin embargo, podra considerarse tambin como parte del proceso de anlisis del error
de seleccin la eleccin de una muestra aleatoria de manzanas en las cuales se seleccion viviendas que
formaran parte de la muestra y realizar un anlisis comparado con la seleccin original.
5La informacin recopilada en el acompaamiento de la aplicacin de las encuestas realizadas en los procesos
de supervisin resulta sustantiva para la realizacin de estos tipos de anlisis, entendiendo que un error de
medicin puede referir a los problemas de comprensin por parte del entrevistado, al hecho que stos no
quieran entregar una respuesta verdadera o a errores de registro por parte del encuestador.

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

ruta (skip pattern errors). Asimismo, se puede considerar los procesos de doble digitacin
de muestras aleatorias que permitan comparar la cantidad de errores generados en el
procesamiento.
Informacin sobre el error de falta de cobertura referidos a la caracterizacin y descripcin
de los marcos muestrales utilizados, considerando sealar la fecha de actualizacin de las
fuentes utilizadas, las debilidades y fortalezas en trminos de cobertura y, por cierto,
referencias a los posibles crecimientos urbanos que hayan sido considerados en el marco
utilizado6.
Informacin sobre el error de la no respuesta a partir del anlisis de las tasas de
rendimiento de la muestra7 y una descripcin del perfil de las viviendas que no participaron
del estudio a partir del anlisis de las hojas de ruta e historia de contacto8 y de los
entrevistados seleccionados que, habiendo contestado la hoja de composicin del hogar
para la seleccin con la tabla de kish, no participaron de la encuesta9.
Por ltimo, cabe sealar que se conoce como edicin de datos a la deteccin y correccin de los
errores de medicin y procesamiento, adems de algunos errores de seleccin. No obstante, la
evaluacin y correccin de los errores de cobertura y no respuesta refieren al diseo y uso de pesos
ajustados en el clculo de las estimaciones. Tanto la informacin sobre la edicin de los datos como
la descripcin de la construccin de los pesos forman parte de la metadata de un estudio.

6 Existen factores externos a las agencias encargadas de los levantamientos de informacin que impiden el
uso del mejor marco muestral para la seleccin de la muestra. Ejemplo de ello es la situacin de Chile, pas en
el que el CENSO de poblacin y vivienda disponible es del ao 2002, producto de la evaluacin tcnica que
descarta el uso de la versin levantada durante el ao 2012.
7 Corresponden a las tasas de respuesta establecidas por la AAPOR y referidas a las Tasas de respuesta,
contacto, rechazo, cooperacin y no elegibilidad.
8 Por ejemplo, refiere al anlisis de ubicacin territorial y concentracin por cada una de las unidades de
seleccin muestral como barrios o manzanas. Asimismo considera un anlisis detallado los motivos de no
respuesta describiendo correctamente las razones de no contacto o rechazo y el esfuerzo realizado para su
concrecin.
9 Por ejemplo, refiere al anlisis de variables sociodemogrficas del entrevistado que finalmente no particip
de la encuesta (sexo, edad, nivel educativo, situacin ocupacional, tamao del hogar, entre otras variables
disponibles).

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

III.

RECOMENDACIONES
PARA
EL
PROTOCOLO
GENERACIN DE BASES DE DATOS Y METADATA ELPS

DE

El producto final de todo levantamiento de informacin cuantitativo mediante encuestas son


las bases de datos con la informacin recogida. El diseo de la estructura de las bases de datos debe
ir de la mano con la implementacin del cuestionario en un sistema de digitacin y control de su
contenido. El supuesto para abordar la calidad desde el anlisis de las bases de datos de un estudio
es que (1) mientras ms temprano sea el diseo de la estructura de la informacin mejor ser el
sistema de captura o recoleccin de datos, y (2) mientras ms temprana sea la generacin de bases
de datos es posible identificar y mitigar errores sistemticos que afectan los resultados obtenidos.
Especficamente, se entender como un indicador de xito del aseguramiento de la calidad que se
inicie el trabajo de campo slo una vez que el sistema de captura o digitacin de datos haya estado
terminado, testeado y aprobado y se asegure de contar con bases de datos desde la primera semana
de trabajo de campo. En ese sentido, el ideal es probar el sistema de captura de datos durante el
pretest de la encuesta.
La generacin de las bases de datos requiere establecer patrones estandarizados y homogneos, de
tal forma de asegurar el mismo nivel de calidad en cada uno de sus registros y, junto con ello, una
fcil comprensin en sus contenidos.
Dado el gran volumen de informacin asociado a la ELPS, la generacin de bases de datos se ve
fuertemente mejorada si se ejecuta en forma automatizada estableciendo un protocolo asociado a
etapas de trabajo del proyecto. Esta automatizacin permite en todo instante recrear o regenerar
diferentes anlisis con sus respectivos reportes, tomando como insumos las bases originales que se
mantendrn siempre intactas (segn versin de exportacin) y los correspondientes programas de
anlisis que a ellas les sean aplicados en forma pre-definida.
Por otro lado, la generacin de bases de datos tiene la particularidad de contener informacin que
no debe ser accedida ni intervenida por personal no autorizado, por tanto su manejo deber cautelar
las condiciones de confidencialidad y seguridad de los datos establecidas en el proyecto.
En este apartado se propone un protocolo de produccin de las bases de datos de la ELPS que
considera desde el formato de produccin hasta el formato de difusin de la misma, asegurando en
todo momento el resguardo de las condiciones de confidencialidad ofrecidas a los participantes del
estudio. Para su elaboracin se consideran aspectos de la experiencia de la 1era. Ronda ELPS
Paraguay.

3.1 Recomendacin 1: Resguardo de la Base de Datos


El resguardo de los contenidos de la base de datos es un aspecto sensible en cualquier experiencia
de levantamiento de informacin. En el caso de la 1era. Ronda ELPS Paraguay la Secretara
Tcnica de Planificacin del Gobierno de Paraguay es quien resguarda la proteccin de la

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

informacin de contacto de las personas participantes y ser la institucin que custodiar los datos
de contacto de la muestra para las rondas sucesivas.
Se sugiere que la comunidad investigativa acceda a la base de datos del cuestionario de la ELPS con
toda la informacin innominada sea a travs de los protocolos establecidos para estos efectos o
mediante la descarga de la web oficiales, siempre que esta segunda opcin est disponible.
Asimismo, se considera como recomendacin tcnica que los profesionales o asesores que no
pertenezcan a las instituciones custodios de las bases de datos y que hayan participado del proceso
de revisin de la base de datos firmen un acta en que aseguren la no difusin ni divulgacin de la
base de datos, resguardando el uso exclusivamente dentro del marco del estudio y bajo la
autorizacin de la institucin encargada.
En el caso de la experiencia paraguaya se consider tambin la inclusin del consentimiento
informado, documento que era firmado por el encuestador y el entrevistado estableciendo los
contenidos de la encuesta y las condiciones de aseguramiento de la informacin. Esta experiencia
fue indita en Paraguay y result positiva, destacndose que ms del 90% de los entrevistados
aceptaron firmar dicho documento10.

3.2 Recomendacin 2: Formato electrnico de la Base de Datos


La base de datos de la 1era. Ronda ELPS Paraguay fue procesada en CsPRO. De este modo fue
posible tener un programa de digitacin que produzca los datos en forma segura, que puede
enriquecerse con encriptacin de datos; transmisin en protocolos seguros (ftps); acopio
centralizado de datos con respaldo peridico (backup); y accesos regulados y administrados con
registro histrico de accesos a la base, entre otras acciones. Este formato es recomendable para el
proceso de captura de datos sea en experiencia cono uso de dispositivos electrnicos (CAPI) o
mediante la digitacin de encuestas en papel (PAPI).
Para la generacin de las bases de datos se sugiere que sean generadas en las extensiones .dta y .sav
para su uso en STATA y SPSS, respectivamente.
Particularmente, se propone considerar el uso del paquete estadstico de anlisis STATA, ste
software estadstico provee de las herramientas suficientes para el manejo de estas bases de datos
generadas a travs de sendos do files que regulen el acceso a las bases de datos, su revisin
sistemtica; generacin de reportes de anlisis de las distintas sub bases modulares; generacin de
nuevas bases, etc.
En el caso de la 1era. Ronda ELPS Paraguay se est procesando la base de datos en las
extensiones .dta y .sav. El equipo de la STP est conformado por estadsticos especializados en el
manejo avanzado de bases de datos en SPSS y se encuentra en un proceso de transicin al STATA.
En este caso ha sido un acierto utilizar ambos formatos y generar los archivos ejecutables en ambos
paquetes estadsticos.
10 Cabe sealar que en la aplicacin del consentimiento informado se realiz una flexibilidad en el protocolo.
Originalmente, se consideraba que las personas lo firmaran antes de iniciarse la encuesta. Sin embargo,
mucho de los entrevistados desearon hacerlo al culminarla en miras de asegurarse de conocer el contenido de
la informacin entregada.

10

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

3.3 Recomendacin 3: Denominacin de las bases de datos


Dado que para resguardar la calidad de la bases de datos se ha de considerar la generacin de
sucesivas bases de datos, como parte del protocolo se sugiere homologar la denominacin de ellas
en funcin de la fase de trabajo en que se encuentre. De esta forma, todas las personas que accedan
tendrn conocimiento de sus contenidos. Se propone indicar la identificacin del proyecto, el tipo
de base y la fecha de la versin de la base de datos.
[Nombre del proyecto]_[Contenido de la base de datos] [Tipo de base]_[fecha de versin].extensin
EJEMPLO:
ELSP-PY_Entrevistados_Bruta_v20150721.dta
En el ejemplo se considera la base de datos de informacin del cuestionario de entrevistados con
encuestas completas y validadas para la Encuesta de Proteccin Social de Paraguay del 21 de Julio
del ao 2015 entregada desde el equipo informtico sin el proceso de evaluacin de consistencias ni
generacin de indicadores agregados.
Por ltimo, cabe sealar que se sugiere que las bases de datos cuiden una estructura que optimice su
tratamiento de validacin y contenga todas las variables del estudio incluyendo las variables con
respuestas codificadas.
Las bases de datos deben ser identificadas con versiones que aseguren un trnsito de fcil
seguimiento de ellas durante el proceso de validacin. Esto resulta importante de destacar ya que las
bases van creciendo en registros conforme se levantan los datos. Y es importante identificar en un
instante determinado si se est trabajando con bases actualizadas y cules son sus fechas de
exportacin o generacin inicial.
Cada base de datos exportada deber ser sometida a un anlisis descriptivo acompaado en paralelo
con un seguimiento en el cuestionario impreso para detectar prdida de respuestas o variables de
salida y que obedezcan a un manejo interno en la programacin computacional que opera en la
generacin, transmisin, almacenamiento, seleccin y exportacin de datos que configuran las bases
de datos de salida.
Las estructuras de las bases de datos deben estar finalmente orientadas al usuario o investigador que
hace uso de la informacin para representar los resultados muestrales.

11

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

3.4 Recomendacin 4: Definicin de las bases de datos segn el proceso de


trabajo
La base de datos usadas para estimar los resultados de todo estudio dista de la primera versin que
se procesa por el equipo informtico, entremedio ocurren una gran cantidad de fases de trabajo que
requieren ser identificadas y formalizadas.
En este apartado se especificaran la serie de bases de datos de cada proceso de trabajo que permiten
obtener la Base de datos de anlisis que ser liberada al pblico en general.
Siguiendo la Figura N1, se proponen cuatro tipos de bases de datos asociadas a los procesos de
trabajo:
A. Base de datos nominada: esta base de datos tiene la informacin de contacto e
identificacin de la muestra lograda y no lograda. Incluye tanto la informacin del
entrevistado como de los familiares o cercanos a contactar en caso de cambio de domicilio,
adems todas aquellas variables que permitan una ubicacin individualizada del
entrevistado. Esta base de datos ser generada por el equipo informtico y ser entregada
exclusivamente a la Coordinacin General del proyecto. Esta base de datos ser almacenada
para rondas posteriores. Sin perjuicio de ello, la Coordinacin General del Proyecto podr
evaluar establecer procesos de evaluacin de calidad de la informacin o chequeo de la
completitud de los datos.
B. Base de datos bruta: esta base de datos tiene la informacin innominada, es decir, no
incluye alguna variable que permita la individualizacin o ubicacin de alguna de las
personas que compone la muestra o sus familiares o cercanos. S considera la informacin
del cuestionario, de la tabla de Kish y de la hoja de ruta. Esta base de datos ser generada
por el equipo informtico y ser entregada al equipo de analistas indicado por la
Coordinacin General del proyecto para la posterior evaluacin de consistencia. De esta
base de datos se generar un archivo ejecutable que identifique inconsistencias o errores
que se requieran corregir. Asimismo se considera que exista una conversacin con el equipo
de digitacin y validacin para establecer correcciones que deben ser incorporadas en la
generacin de la base bruta. Adems en este proceso se debe evaluar la existencia de todas
las variables de los instrumentos y la completitud de los casos. As, se culmina el trabajo de
esta base de datos con la cuadratura y disposicin final de casos generando como resultado
la base de datos de anlisis.
C. Base de datos de validacin: esta base de datos tiene la informacin innominada, es decir,
no incluye alguna variable que permita la individualizacin o ubicacin de alguna de las
personas que compone la muestra o sus familiares o cercanos. Incluye la informacin del
cuestionario y la informacin de la disposicin final de casos. Esta base de datos ser
generada por el equipo de analistas indicado por la Coordinacin General del proyecto. De
esta base de datos se generar un archivo ejecutable que identifique inconsistencias y
genere indicadores agregados (ejemplo: variables pobreza, ingresos, imputaciones).
Asimismo se considera que exista una conversacin con el equipo de analistas para
12

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

establecer correcciones que deben ser incorporadas en la generacin de la base de anlisis.


Adems en este proceso se debe generar los factores de expansin y ponderadores,
variables que se incluyen en esta base de datos.
D. Base de datos del investigador: esta base de datos tiene la informacin innominada, es
decir, no incluye alguna variable que permita la individualizacin o ubicacin de alguna de
las personas que compone la muestra o sus familiares o cercanos. Incluye la informacin
del cuestionario y los factores de expansin transversales. Esta base de datos ser generada
por el equipo de expertos y ser aquella que se difunda a la comunidad investigadora.

Figura n1: Definicin de fase de bases de datos segn flujo de trabajo y usuario para la 1era.
Ronda ELPS Paraguay

Fuente: Elaboracin Propia

En consideracin a lo anteriormente planteado, es posible establecer un conjunto de ejemplos sobre


la generacin de esta serie de bases de datos a partir de la experiencia de la 1era. Ronda de ELPS
Paraguay.
Cabe sealar que al momento de elaborar este informe el equipo de la Secretara Tcnica de
Planificacin se encuentra en el cierre de cuadratura y depuracin de la base. Dada la aplicacin en
PAPI el proceso de cuadratura, entendido como la consistencia del 100% de la muestra en su folio
individualizador, su documentacin y digitacin de la totalidad de los instrumentos, ha tenido una
duracin de 6 semanas.

13

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

El xito de esta etapa en el caso de Paraguay fue posible a travs de la revisin sucesiva de la
documentacin de la muestra, la informacin auxiliar del trabajo de campo y un anlisis descriptivo
de variables territoriales de los casos logrados y no logrados (ver anexo). Como resultado de esto se
cuenta con la informacin del estado final del trabajo de campo con cuadratura para los 21.600
casos que conforman la muestra de esta primera ronda.
Como se observa en la figura existe un proceso de iteracin en la revisin de los datos en que se
busca documentar y conocer en profundidad la magnitud y decisiones de correccin de los
problemas de procesamiento y evitar errores sistemticos que disminuyan la calidad de la encuesta.
A continuacin se presentan tres ejemplos de acciones que se implementaron para el desarrollo de
este proceso en Parguay y que resultaron de la implementacin de los diferentes tipos de bases de
datos.
Ejemplo 1: Do file de variables que aseguran que la base est innominada en la 1era Ronda de
ELPS Paraguay. En el caso de Paraguay se considera la eliminacin de la informacin de la
cartula del cuestionario, los datos de contacto e identificacin de la hoja de ruta y la informacin
de otros contactos en caso de cambiar de domicilio.

14

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Ejemplo 2: Do file de revisin de anlisis de datos brutos devuelto a digitacin. En el caso de


Paraguay se consider la revisin una a una de las posibles inconsistencias de casos que habiendo
debido contestar no lo hicieron, que no debiendo contestar lo hicieron y las fallas de rangos. Estos
tres grupos de validaciones preliminares fueron alarmas para devolver a digitacin para la
revisin original de datos.

Ejemplo 3: Consistencia Resultado trabajo de campo y variables territoriales. En el caso de


Paraguay se consider la revisin una a una de las posibles inconsistencias territoriales entre casos e
instrumentos. Esto es que la identificacin de FOLIO RESULTADO DE TRABAJO DE CAMPO
Y VARIABLES TERRITORIALES coincida. Como todo trabajo de campo, y ms an en PAPI,
esta revisin no necesariamente asegura cerrar una adecuada cuadratura. Sin embargo, en esta
experiencia despus de la revisin de sucesivas versiones de bases de datos se logr identificar
correctamente el 100% de los casos con su estado final de visita y la correcta informacin
territorial. Para ello, se definieron un conjunto de validaciones entre bases de datos (ver tabla a
continuacin) las cuales se fueron chequeando folio a folio.
Variables de
consistencia
FOLIOS ELPS PY
Observacion 1.1
Observacion 1.3

N base versin 1
21600
389
129

N base versin final


21600
0
0

Observacin 1.2

Glosa
Lista de folios de la muestra
Muestra que no est en la base de Hoja de ruta
Folios duplicados en base de encuestados logrados o no
Folios logrados que estn en la base de HR como logrados y
no en cuestionario, o viceversa.

87

Observacin 1.10

Inconsistencia entre UPM base HR - Cuestionario

211

Categoras
FOLIO
1=no est en la base de datos de hoja de ruta
"Folio"=est duplicado en la base de datos
1=Tiene estado inconsistente de logrado entre
bases de datos de hoja de ruta y cuestionario
1=UPM de base HR es diferente de Base
Cuestionario

15

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

3.5 Recomendacin 5: Contenidos de las bases de datos


Junto con la definicin de la serie de bases de datos asociadas a los procesos de trabajo tambin se
requiere su arquitectura y contenidos. Por ejemplo, en el caso de la Encuesta de Proteccin Social
de Chile se establecen nueve bases de datos, cada una de las cuales contiene informacin especfica
del entrevistado. Por ejemplo: la base de datos de historias laborales de EPS Chile contiene en
cada una de sus filas una historia laboral, la base de datos de capacitacin del mismo estudio est
compuesta por cada capacitacin, etc.
Por otro lado, en las bases de datos de las encuestas de hogares cada fila representa a un integrante
de la unidad de anlisis hogar (ejemplo de ello es la Encuesta Permanente de Hogares de Paraguay
EPH o la Encuesta de Caracterizacin Socioeconmica de Chile CASEN -).
Para resolver esta situacin en la 1era. Ronda ELPS Paraguay se ha considerado tres criterios para
establecer la cantidad y el formato de las bases de datos, que se sugieren para otras experiencias
regionales:
(1) Comprensin en sus contenidos: es decir la denominacin de la base de datos debe indicar
inmediatamente a qu refiere y qu puede esperar el usuario de ella.
(2) Tradicin del diseo en el pas: considerar la experiencia y formato en que se generan las
bases de datos sociales complejos en Paraguay.
(3) Facilidad de concatenacin entre rondas: es decir estar diseada para ser vinculada con las
futuras rondas posteriores de la ELPS Paraguay.
En consideracin a estos criterios se propone que cada en cada fase de trabajo (sea bruta, de
validacin o del investigador) se genere las siguientes bases de datos:
a) Muestra ELPS: la unidad de anlisis es cada vivienda de la muestra con las
direcciones. En el caso de los entrevistados logrados se debe identificar su nombre,
direcciones, datos de identificacin como cdula de identidad y pasaporte. Adems la
informacin de contacto de l y sus familiares o cercanos de contacto en caso de
cambio de domicilio. En el caso de Paraguay los 21.600 folios con la informacin de
direcciones, la informacin individualizada de los 15.178 entrevistados y la
informacin de contacto de sus familiares o cercanos. Esta base de datos debe estar
encriptada con un cdigo de seguridad y debe ser de uso exclusivo de la Coordinacin
General del Proyecto. Esta base de datos es importante pues contiene los casos ELPS y
la informacin para contactarlos en las prximas rondas de seguimiento.
b) Historia de contacto: la unidad de anlisis es cada vivienda de la muestra. En el caso
de Paraguay los 21.600 folios con la informacin de hoja de ruta, el estado de cada uno
de los folios, las visitas, el horario de las visitas, encuestador, equipo, supervisor. Esta
base de datos es importante pues permite realizar un control del cumplimiento del
protocolo de visita e informacin para el clculo de las tasas de rendimiento de la
muestra.
16

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

c) Tabla de Kish: la unidad de anlisis es cada integrante del hogar del entrevistado
seleccionado, independiente si contest o no contesto la encuesta. En el caso de la 1era.
Ronda de la ELPS Paraguay estar conformada por cada uno de los integrantes de los
18.312 hogares cuya informacin fue pesquisada al momento de aplicar la tabla de
composicin del hogar para realizar el sorteo Kish. Esta base de datos es relevante pues
entrega la composicin del hogar y cantidad de integrantes, informacin necesaria para
el clculo de los ajustes estadsticos y, adems, permite caracterizar la no respuesta.
d) Entrevistados ELPS: la unidad de anlisis es el entrevistado que contest la encuesta.
En el caso de la 1era. Ronda de la ELPS Paraguay estar conformada por los 15.178
entrevistados con el cuestionario completo y validado. Se considera la informacin del
mdulo A: Caracterizacin Sociodemogrfica del entrevistado; mdulo B: Educacin;
mdulo C: Mercado del trabajo e Historia Laboral; mdulo D: Sistema de Pensiones y
Proteccin Social Conocimiento Financiero; mdulo E: Salud; mdulo F: Ingresos y
mdulo G: Patrimonio. Esta base de datos es el producto principal del proyecto con la
cual se podrn realizar todos los anlisis del proyecto a nivel de entrevistados.
e) Integrantes del hogar Entrevistados ELPS: la unidad de anlisis es cada uno de los
integrantes del hogar de los entrevistados que contestaron de encuesta de manera
completa y vlida. En el caso de la 1era. Ronda de la ELPS Paraguay estar
conformada por 60.712 integrantes del hogar. Esta base de datos es el producto
principal del proyecto con la cual se podrn realizar todos los anlisis del proyecto a
nivel de hogar.
f) Reentrevistas ELPS: se sugiere tener los casos logrados y no logrados que fueron
asignados para la aplicacin del cuestionario abreviado de control. Esta base de datos
contiene la informacin de las entrevistas aplicadas para controlar la calidad del
levantamiento. Su anlisis permite identificar la magnitud de errores en la aplicacin o
digitacin.
g) Equipo de trabajo de campo ELPS: se sugiere contener el listado de cada uno de los
integrantes del equipo de trabajo de campo, incluyendo (1) cdigo que sirve de llave
para la unin con las otras bases; (2) sexo; (3) edad; (4) nivel educativo; (5)
experiencia. Esta base de datos contiene informacin del personal del trabajo de campo
informacin relevante para las rondas de seguimiento y para la evaluacin de las
condiciones de aplicacin de las encuestas.

17

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Ejemplo 1: Descripcin del caso paraguayo


Como se puede observar el conjunto de bases de datos permite realizar un seguimiento a cada una
de las fuentes de error indicadas en el primer captulo de este documento y, por tanto, son la
informacin asociada a la metadata, con lo cual es posible el anlisis de la calidad de la encuesta
implementada.
En la 1era. Ronda ELPS Paraguay para la elaboracin de la metadata se ha fusionado los nuevos
aprendizajes y capacidades que se han instalado en el equipo nacional a partir del desarrollo de este
proyecto y la extensa experiencia en el levantamiento de encuestas de hogares de tipo transversal11.
De este modo, est asociada a cada una de las fases de trabajo de campo y est conformada por 20
bases de datos, las cuales se especifican en la Figura n2, indicando su extensin y contenido.
Figura n2: Tipo de bases de datos y archivos de la 1era. Ronda ELPS Paraguay segn fase
de trabajo de campo

Fuente: Elaboracin Propia

11 Entre esos estudios se destaca la aplicacin de la Ficha Social instrumento de uso oficial para la
identificacin y caracterizacin de pobreza en Paraguay, la cual se aplica anualmente.

18

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Tabla n1: Tipo de bases y archivos de datos segn instrumento utilizado en cada fase de
trabajo de campo de la 1era. Ronda ELPS Paraguay
Fase del trabajo de campo

Tipo de bases de datos y archivos

Instrumentos asociados

I. Preparacin del trabajo de


campo

Bases de datos con muestra seleccionada (xls)

Marco muestral

Archivos de datos con mapas georreferenciados


(JPG)

Cartografa muestral

Archivos de datos con validaciones para


digitacin y validacin (CsPRO PDF)

Cuestionario - Hoja de ruta

Bases de datos con informacin de personal de


trabajo de campo (Excel)

Ficha de inscripcin
evaluaciones

Base de datos con informacin de problemas por


folio (.xls)

Cuestionarios - Hoja de
ruta

Bases de datos parciales de hoja de ruta (.dta .sav)

Hoja de ruta

Bases de datos parciales de entrevistados (.dta


.sav)

Cuestionarios

Bases de datos parciales de supervisin personal


de trabajo de (.xls)

Pautas de supervisin

Bases de datos de produccin semanal de


supervisores (.xls)

Informe semanal del


supervisor

Bases de datos de asignacin de combustible y


kms. Tcnico en vehculo(.xls)

Resumen de kilometraje

Base de datos de registro diario de visitas (.xls)

Planillas de supervisin de
visitas
Registro de digitacin

II. Implementacin del


trabajo de campo

Base de datos de avance de digitacin (.xls)


Base de datos de recepcin de cuestionarios (.xls)

III. Procesamiento del


trabajo de campo

Base de datos hoja de ruta n=21.600 (.dta .sav)

Planilla de UPMs a
supervisores antes de salir
a campo
Hoja de ruta

Base de datos con informacin de contacto de la


muestra visitada n=21.600 (.dta .sav)

Hoja de ruta

Base de datos con informacin de tablas de KISH


de entrevistados seleccionados n=18.082 (.dta
.sav)

Tabla de kish composicin del hogar

Base de datos ELPS de cuestionario con


informacin de los entrevistados n=15.178 (.dta
.sav)

Cuestionarios

Base de datos ELPS de cuestionario con


informacin de los integrantes del hogar (.dta .sav)

Cuestionarios - mdulo I

Base de datos con encuestas de re-entrevistas (.dta


.sav)

Cuestionarios de
reentrevistas

Base de datos con planilla de actualizacin


cartogrfica (.xls)

Planilla de actualizacin de
viviendas

Fuente: Elaboracin Propia

19

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Como se puede observar en la tabla n1, la experiencia en Paraguay permite documentar en


profundidad todo el proceso de trabajo considerando instrumentos que vigilan la implementacin de
los protocolos de trabajo de campo y los indicadores de calidad establecidos para estos efectos.
Ahora, siguiendo el protocolo establecido en este documento las bases de datos principales son:

Base de datos ELPS de cuestionario con informacin de los entrevistados la cual incluye
toda la informacin de las encuestas logradas y validadas para cada uno de los mdulos.

Base de datos ELPS de cuestionario con informacin de los integrantes del hogar la cual
incluye toda la informacin de las encuestas logradas y validadas para el mdulo de
composicin del hogar.

Base de datos con informacin de contacto de la muestra visitada la cual incluye


informacin de direcciones, telfonos, otros contactos para futuras rondas.

Base de datos hoja de ruta la cual incluye la informacin de la disposicin final de casos12
para la totalidad de la muestra.

Sin embargo, el procesamiento de dichas bases puedo ser complementado con la valiosa
informacin disponible en las bases auxiliares de implementacin del trabajo de campo. En este
sentido, la experiencia de la forma de trabajar en las encuestas transversales de Paraguay permiti
generar insumos adicionales para (1) un mayor control del trabajo de campo, (2) una mayor
completitud de las bases de datos principales, (3) una mayor exactitud en la construccin de
indicadores de calidad del proceso de trabajo.
Ejemplos de esta situacin fueron los siguientes:
-

casos de inconsistencia en la duracin de la aplicacin de la encuesta pudo ser corregida


con las planillas de registro diario de visita.

casos en que los encuestadores no completaron la hoja de ruta, la informacin pudo ser
nutrida de las planillas de registro diario de visita.

cuadratura de encuestas logradas entre trabajo de campo y digitacin pudo ser realizada
durante el trabajo de campo a partir del anlisis de la Bases de datos de produccin semanal
de supervisores (.xls) con Base de datos de avance de digitacin (.xls).

chequeo de recepcin del 100% de la muestra y su documentacin respectiva fue


comprobado con la base de datos de recepcin de cuestionarios (.xls).

12 Se entiende como disposicin final de casos a los resultados de las visitas de cada uno de los folios de la
muestra. Con esa informacin es posible construir las tasas de respuesta para el caso paraguayo y construir
indicadores de logro y rendimiento de la muestra.

20

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

3.6 Recomendacin 6: Definicin del folio Persona Hogar


El folio corresponde al identificador de cada uno de los casos de la base de datos, individualizando
las unidades de anlisis. En las encuestas longitudinales, la definicin de los folios de identificacin
debe ser planificada preliminarmente pues debe asegurar que un entrevistado pueda ser
correctamente identificado a lo largo del tiempo.
La forma de realizar esto puede variar, en algunos casos puede construirse a partir de una
concatenacin de informacin territorial, como el caso de la PANEL CASEN Chile. Tambin
podra consistir en un nmero correlativo ms un digito verificador que asegure que no existan
errores en su identificacin, como el caso de la Encuesta Nacional de Salud de Chile 2010.
Sin embargo, en el caso de la ELPS el desafo es lograr (1) la identificacin correcta del
entrevistado en el tiempo y (2) la identificacin correcta de cada uno de los integrantes del hogar
del entrevistado. Para el primer caso se podra considerar un nmero correlativo que se utilice
imperecederamente, pero los hogares son dinmicos, crecen, se modifican en su constitucin y se
movilizan en su ubicacin. Por ello, se han se establecieron algunas condiciones para definir el folio
en la 1era. Ronda ELPS Paraguay que se presentan como recomendaciones al respecto.
Condiciones de la construccin del folio:
(1) Que todos tengan el mismo largo, es decir, que tengan la misma cantidad de dgitos.
(2) Que se identifique con claridad qu significa cada digito
(3) Que el nombre de la variable de folio sea la misma en todas las bases de datos.
Considerando estas condiciones el folio propuesto para la ELPS es:

FOLIO ELPS PERSONA ELPS:

EJEMPLO 1:

21

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

FOLIO ELPS INTEGRANTE DEL HOGAR NO ENTREVISTADO:


Se mantiene la misma estructura que el folio entrevistado pero variara los ltimos dos dgitos.

EJEMPLO 2:
Corresponde a la persona de la encuesta 12300 que ingres a la ELPS en la 1era. Ronda 2015 y est
en el orden 2 del mdulo I de composicin del hogar del cuestionario.

EJEMPLO 3:
Corresponde a la persona de la encuesta 12300 que ingres a la ELPS en la 3era. Ronda 2019 y est
en el orden 6 del mdulo I de composicin del hogar del cuestionario.

Por qu se tom esta decisin en 1era. Ronda ELPS Paraguay y es una decisin acertada?
1. No considera la ubicacin de la tabla de kish porque sta solo incluye los mayores de 15
aos y no tiene fija la ubicacin del entrevistado.
2. Considera la extensin de 5 dgitos del folio asignado a la muestra por los 21600 casos que
la componen, as permite asegurar la individualizacin de todos los casos ELPS - Paraguay.
3. No considera informacin territorial porque sera muy extensa y sera fuente de errores.
4. Incluye la informacin de la ronda de ingreso de la persona, por tanto, puede considerar la
inclusin de muestra de refrescos en el futuro.
5. Es de fcil socializacin entre los equipos de trabajo de campo.
Sin perjuicio de lo anterior, se han generado variables auxiliares de (1) nmero de historia laboral
como 4to tipo de digito del folio, (2) nmero de capacitacin 5to tipo de digito del folio y (3)
22

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

nmero de carreras 6to tipo de digito del folio que le permitir a cualquier investigador poder
separar las bases de datos y generar identificadores nicos en esta y futuras rondas de este tipo de
informacin del entrevistado. Por ejemplo, cada historia laboral est identificada con un nmero
correlativo desde la ms antigua (Enero del 2013 hasta la fecha de aplicacin de la encuesta).
EJEMPLO 4:
Corresponde a la historia laboral 2 del entrevistado 12300 que ingres a la ELPS en la 1era. Ronda
2015 y es el orden 1.

3.7 Recomendacin 7: Archivos ejecutables do file o sintaxis


Los archivos ejecutables (do file o sintaxis) correspondern a herramientas que acompaan las
bases de datos y que permiten ir registrando los procedimientos de chequeo, anlisis y correccin de
la informacin metadata de la ELPS.
Para identificarlos, todos los archivos ejecutables llevaran el sufijo _aammddvx donde aa mm dd y
representan, respectivamente, el ao, mes y da en que fue modificado por ltima vez. El
complemento vx representa la versin diaria de creacin. Ej. de generarse tres do file con
modificaciones diferentes durante una misma fecha _aammdd, el primer do file generado tendr la
identificacin de sufijo _aammdd v1; el segundo _aammddv2 y el ltimo _aammdd v3.
Cada archivo ejecutable deber llevar como nombre una descripcin compacta de su contenido, a
su vez en su interior en el encabezado o inicio deber llevar informacin resumida de su contenido,
responsables de su autora y de los cambios realizados. As, pensando en una construccin para
STATA, se tendr comentados al inicio de la programacin detalles de lo siguiente:
Ttulo: Aqu se da el nombre formal del do file y que ser el referido en otros informes o
documentos del proyecto.
Nivel de do file: NZ Corresponde al nivel de do file
23

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Objetivos: Se sintetiza una descripcin de las operaciones del do file orientadas en un formato de
entradas y salidas.
Bases de insumo y path de ubicacin: Aqu se indica el nombre de las bases de insumo con el
respectivo formato y path de ubicacin desde donde son llamadas al interior del do file
Bases y archivos de salida con path de ubicacin. Aqu se indica el nombre de las bases y archivos
de salida con el respectivo formato y path de ubicacin hacia donde son dirigidos luego de ser
creados o modificados al interior del do file.
Autores: Aqu se indica el nombre del equipo o personas autoras del do file.
Fecha de autora o creacin: Aqu se indica la la fecha AAMMDD de trmino de creacin o autora
del do file.
En relacin a los cambios o modificaciones de un do file ya ejecutado al menos una vez en el
proyecto, es importante indicar lo siguiente:
a) Toda modificacin o ajuste implican un cambio en el sufijo _aammdd v1 de nombre del do
file.
El cumplimiento de este punto se logra cambiando el sufijo del nombre inicial del do file
antes del cambio y reemplazarlo por el ajustado a la fecha del cambio.
b)

Es imprescindible dejar constancia escrita de los ajustes realizados y sus responsables o


autores al interior del do file.

Esto cobra relevancia cuando se observan ajustes durante el proceso que requieren posteriormente
una explicacin detallada de su justificacin para informar o fundamentar cambios en resultados de
anlisis.
b1) Resumido en encabezado o inicio del do file.
Al inicio del do file y a continuacin de la fecha de autora inicial se irn agregando en filas
separadas todas las modificaciones resumidas indicando bajo el ttulo de Modificaciones:

Fecha de autora o creacin:


Modificaciones:
1.- AAMMDD (Fecha de 1ra Modificacin)/ Autor de la modificacin 1/ descripcin resumida del
primer cambio realizado.
2.- AAMMDD (Fecha de 2da Modificacin)/ Autor de la modificacin 2/ descripcin resumida del
segundo cambio realizado.
.

24

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

N.- AAMMDD (Fecha de Nma Modificacin)/ Autor de la modificacin N/ descripcin resumida


del N-simo cambio realizado

Lo anterior tiene por objetivo tener al inicio del do file un resumen de su contenido y de los
cambios o ajustes que le han afectado.

b2) Detalle en la seccin del do file donde se realiz el cambio o ajuste.


El cumplimiento del segundo punto se logra dejando, no borrando la programacin a modificar sino
inhibindola de tal forma de tener un registro de la instruccin antes y despus de su modificacin.
Adems deber registrarse junto al nuevo texto (sintaxis) en la programacin, la identificacin de la
persona responsable de llevar a cabo ese cambio al interior del do file y la fecha del cambio. (dem
a detalle en b1 de encabezado).

3.8 Recomendacin 8: Documentos para el investigador


Los documentos para el investigador correspondern a la informacin analizada que acompaan las
bases de datos y las condiciones de calidad de la encuesta. As pasan a constituir los productos que
presentar la metadata de la ELPS. Se sugiere los siguientes documentos:
3.8.1 Documento de uso de bases de datos y definicin de indicadores agregados: este
documento busca apoyar a los investigadores usuarios de las base de datos de la ELPS como un
manual de uso de la base de datos y los contenidos de cada uno de sus mdulos. Especficamente,
para cada tema se propone las definiciones de conceptos y las frmulas y cdigos STATA y SPSS
para la construccin de los indicadores ms utilizados para el anlisis de esa dimensin de tema.
Ejemplo 1:
Promedio de personas por hogar: Este indicador del mdulo A busca presentar informacin sobre
el tamao promedio de los hogares de los entrevistados ELPS. La metodologa usada es conocida
internacionalmente, por lo que estas estadsticas son comparables13.
En la base de datos la variable n_per contabiliza el nmero de personas por hogar, excluyendo el
servicio domstico puertas adentro y sus familiares. Por tanto, el promedio de personas del hogar
ser la media de n_per denominado como
La frmula para calcular este indicador es:

13 Cabe sealar que se debe cuidar que las diferencias radican en la forma de definir hogar que para el caso
de la ELPS es la persona o conjunto de personas, sean o no parientes que residen habitualmente en una misma
vivienda particular, ocupndola total o parcialmente y que atienden en comn sus necesidades alimenticias
(comparten los gastos para la olla) o de otra ndole.

25

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Donde es: Nmero de Personas promedio por hogar


STATA
sum pn_per if orden1==1 [w=factor de expansin]
SPSS
WEIGHT
BY factor de expansin.
USE ALL.
COMPUTE filter_$=(orden1 = 1).
VARIABLE LABEL filter_$ 'orden1 = 1 (FILTER)'.
VALUE LABELS filter_$ 0 'No seleccionado' 1 'Seleccionado'.
FORMAT filter_$ (f1.0). FILTER BY filter_$. EXECUTE .
* Basic Tables.
TABLES
/FORMAT BLANK MISSING('.')
/OBSERVATION pn_per
/TABLES pn_per
BY (STATISTICS)
/STATISTICS mean( )
/TITLE 'Promedio de personas en el hogar'.
3.8.2 Documento del diseo muestral y resultados del trabajo de campo: este documento busca
apoyar a los investigadores usuarios de las base de datos de la ELPS a partir de la descripcin del
diseo muestral y los resultados de su implementacin del trabajo de campo. Especficamente, se
espera que este documento presente, al menos, los siguientes contenidos:
Presentacin del estudio: descripcin del estudio, poblacin de inters, caractersticas del
estudio.
Descripcin del marco muestral: fecha de actualizacin, identificacin de problemas de
cobertura, justificacin de su uso, tablas que caractericen a la poblacin en estudio.
Descripcin del diseo muestral: tipo de muestreo, unidades muestrales, errores para
variables de inters, tablas de la muestra esperada y la muestra obtenida.
26

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Descripcin del trabajo de campo: fecha de inicio y trmino, informacin sobre la


organizacin del trabajo de campo y el equipo que lo conform, descripcin del proceso de
levantamiento y procesamiento de los datos.

3.8.3 Documento de Libro de cdigos: Este documento es una herramienta de apoyo a los
investigadores para facilitar el uso de Base de datos ELPS entregando de forma detallada los
resultados de las preguntas formato Excel. Especficamente, se espera que presente cada una de las
bases de datos y sus contenidos, el diccionario de variables y cdigos de respuesta, la presentacin
de las variables de identificacin y factores de expansin (incluyendo una referencia a su uso) y el
libro de cdigos (tabla de frecuencia para cada una de las variables e indicadores de la base de
datos).
Ejemplo 1:
Base Entrevistado
Esta base de datos contiene la mayora de las preguntas presentes en el cuestionario de la ELPS.
Esta base de datos incluye preguntas de caracterizacin del entrevistado en trminos demogrficos y
socioeconmicos, de conocimiento y uso de las polticas de proteccin social, historia de la
previsin social, ingreso y patrimonio, entre otras.
Detalle de la base de datos de entrevistado:

Nombre de base de datos


Fecha de elaboracin
Cantidad de Variables
Cantidad de Observaciones
Formato de Base de datos
Tamao de la Base de datos

entrevistado
1207
15.567
STATA y SPSS
20,23 Megabytes

27

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Ejemplo 2: El ejemplo presenta la identificacin del ndice de cada uno de los mdulos para los
cuales se presenta todas sus variables.
ndice del Libro de cdigos ELPS

Ejemplo 3
El ejemplo presenta la identificacin de la variable denominada en la base de datos como a5 con
su descripcin y categoras. Asimismo se presenta la cantidad de observaciones para cada categora.

3.8.4 Documento de anlisis de los niveles de error de no respuesta: este documento busca
apoyar a los investigadores usuarios en el conocimiento de la no respuesta de la ELPS.
Especficamente, se espera que este documento presente, al menos, los siguientes contenidos:
Presentacin del estudio: descripcin del estudio, poblacin de inters, caractersticas del
estudio.
Tasas de rendimiento de la muestra: respuesta, rechazo, contacto, cooperacin y
elegibilidad.

28

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Descripcin de la no respuesta: tablas de la distribucin de la no respuesta en base a


ubicacin territorial, variables sociodemogrficas de los hogares y los entrevistados que no
participaron del estudio.
Recomendaciones para las prximas rondas: listado de aprendizajes, sugerencias y
orientaciones para implementar durante las rondas de seguimiento que permitira mejorar la
tasa de contacto y revertir la no respuesta.
3.8.5 Documento de anlisis de los niveles de error de medicin: este documento busca apoyar a
los investigadores usuarios entregando informacin referida a aspectos cualitativos de la
recoleccin y procesamiento de la informacin. Especficamente, se espera que este documento
presente, al menos, los siguientes contenidos:
Presentacin de las actividades de supervisin y procesamiento: descripcin del conjunto
de acciones implementadas para la supervisin y control de la calidad de la encuesta.
Descripcin de los problemas de medicin: identificacin de fortalezas y debilidades de la
comprensin de las preguntas del instrumento, dificultades en la implementacin de algn
mdulo. Recomendaciones de mejoras para los instrumentos.
Descripcin de los problemas de procesamiento: anlisis comparado de casos con doble
digitacin o con control comparativo de respuestas. Identificacin de cantidad de problemas
de procesamiento segn ubicacin territorial, caractersticas del hogar y del entrevistado y
del personal de trabajo de campo que lo implement. Recomendaciones de mejoras del
levantamiento.

Recomendaciones para las prximas rondas: listado de aprendizajes, sugerencias y


orientaciones para implementar durante las rondas de seguimiento que mitigar los errores
de medicin y procesamiento.

29

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

IV.

RECOMENDACIONES PARA EVALUAR LA CALIDAD DE


DATOS USANDO LA INFORMACIN DE METADATA ELPS14

Las etapas crticas del trabajo de campo de la ELPS pueden agruparse segn el tipo de error que
pueden provocar en la produccin de los diferentes estimadores estadsticos. Segn menciona
Grooves (2004) los errores convergen en el deterioro de la informacin a travs de la medicin de
los datos y su representatividad.
Lo importante de esta sistematizacin es que permite identificar de una manera comprensible las
etapas crticas de una encuesta compleja cuyos datos fueron recolectados en modo PAPI como la
1era. Ronda ELPS - Paraguay. En ese sentido al relacionar los errores de una encuesta con las
etapas crticas o situaciones que tienen la probabilidad de agregar algn error al Error Total de la
Encuesta permiten levantar recomendaciones para el trabajo de campo y generacin de metadata a
partir de la experiencia paraguaya.
A continuacin se describen 6 etapas crticas para minimizar los errores que vincularan el trabajo de
campo y generacin de metadata, relevando recomendaciones para futuras experiencias ELPS15.
Cada una de ellas est asociada a un tipo de error y describe detalladamente algunas actividades
implementadas en la experiencia de la 1era. Ronda ELPS Paraguay para abordarlas.

Etapa Crtica 1: Aplicacin de la Tabla de Kish para seleccionar a la persona


La aplicacin de la Tabla Kish constituy una etapa crucial en la 1era. Ronda ELPS - Paraguay ya
que un error en su aplicacin invalid un cuestionario completado aunque est perfectamente
respondido, pues no asegur la aleatoriedad en la seleccin al interior del hogar.
La experiencia paraguaya demostr que existen mltiples factores que inciden en un error en la
aplicacin de una Tabla Kish, a continuacin se enuncian los principales que debieran considerarse
en cualquier procesamiento de metadata.

Mal registro del total de personas del hogar mayores de 15 aos: Esto ocurre en muchos
casos por una mala informacin hacia el entrevistado para que informe sobre la totalidad
de personas mayores de 15 aos que efectivamente forman parte del hogar y en
consecuencia entrega un nmero mayor (incluye personas que no corresponden) o uno
menor (omite personas). Este punto es importante de resaltar ya que es muy probable que si
la persona que sobra o falta no es la sorteada el entrevistador slo se dara cuenta
(probablemente) de ello cuando est en el mdulo Composicin del hogar.

14 Las recomendaciones contenidas en este apartado se basan en el captulo 3 del documento Prieto, J.J;
Madrigal L.; Gallegos F.; Bravo E. (2015) Recomendaciones Metodolgicas para las Rondas de Seguimiento
de la Encuesta Longitudinal de Proteccin Social (ELPS) con la aplicacin al caso paraguayo.
15 Cabe sealar que en el documento Prieto, J.J; et al. (2015) Recomendaciones Metodolgicas para las
Rondas de Seguimiento de la Encuesta Longitudinal de Proteccin Social (ELPS) se mencionan 13 etapas
crticas, asociadas a cada una de las fuentes de error. Ac se identificaron aquellas ms sensibles a partir de la
experiencia paraguaya, destacando recomendaciones puntuales para su implementacin.

30

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Aqu la experiencia tambin indica que en algunos casos el entrevistador hace caso omiso
de este error, y contina completando la entrevista considerando el costo que tiene para l
reformular el cuestionario a otra persona, de la cual probablemente reciba un rechazo dado
lo extenso del cuestionario que ya fue aplicado parcialmente a la persona incorrecta del
hogar.

Registro errado de la edad de los integrantes del hogar: Ocurre cuando el registro de
edades no corresponde al real y el mal registro puede provenir de un informante no
calificado para haber dado la informacin de los componentes del hogar como tambin de
un manejo fraudulento de parte del entrevistador para entrevistar a una determinada persona
(generalmente presente) y no a otra (generalmente ausente). En el caso de Paraguay ocurri
que al llegar a la pregunta A7a.Cuntos aos tiene? [el entrevistado] la respuesta no
coincida con la reportada en la tabla de kish y, por tanto, era necesario suspender la
encuesta y realizar el sorteo de nuevo. Esto se pesquis tanto durante el trabajo de campo
como durante la fase de crtica de las encuestas.

Registro errado del sexo de la persona: Este error tambin se presenta con cierta
frecuencia y que generalmente viene dado por descuido en el registro de la persona ya sea
en la captura del nombre que al entrevistador lo hace registrar el sexo de la persona sin
preguntar e inferirlo del nombre; o bien al descuido en registrar el cdigo de sexo. Este
efecto se ve minimizado al ordenar primero el grupo de hombres y luego el grupo de
mujeres. Se sugiere en este estudio no aplicar el ordenamiento por sexo, registrando
hombres y luego mujeres del hogar.

Mala interpretacin de la Tabla de Kish: Esto ocurre cuando el entrevistador teniendo


bien registrados los integrantes del hogar y los dgitos del folio realiza un cruce incorrecto
de las variables (Ej. Permuta la aplicacin entre filas y columnas de la Tabla de Kish). Este
error tambin puede provocarse por una mala lectura del dgito de cruce de variables. Otro
error puede estar en el mal registro de las sumas acumuladas de personas seleccionables que
inducen a elegir una persona incorrecta. En el caso de Paraguay este error fue pesquisado
con el chequeo del sistema de validacin de la letra de seleccin para cada folio de la
encuesta, cerca de 250 casos presentaron dicho problema y fueron identificados durante la
etapa de trabajo de campo, lo que permiti su correccin.

Mala transcripcin del seleccionado desde la Tabla de Kish hacia la Hoja


Composicin de Personas en la Vivienda: Este error se manifiesta en ciertos casos
cuando el entrevistador en forma descuidada cambia el dgito correcto desde la Tabla al
registrarlo en la Hoja Composicin de Personas en la Vivienda. Al igual que en el caso
anterior en la produccin de la base de datos de hoja de ruta este error fue pesquisado con el
chequeo del sistema de validacin de la letra de seleccin para cada folio de la encuesta.

Mal uso de la calificacin de elegibilidad de la persona: En algunas ocasiones algunos


entrevistadores no tienen clara las razones o causas que eximen a una persona de ser
elegible, estas razones o causas deben ser claramente expuestas en las capacitaciones y
31

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

quedar registradas en el Manual del entrevistador. Tambin cabe la posibilidad de un mal


uso la clasificacin de elegibilidad por parte de malos entrevistadores, que mediante una
clasificacin incorrecta provocan un cambio de la persona seleccionada obteniendo una que
s se encuentra presente y dispuesta a responderle la entrevista. En el caso de la 1era. Ronda
ELPS Paraguay ocurri que haban problemas de clasificacin de hogares unipersonales
con personas no elegibles por problemas de discapacidad o inhabilidad para contestar la
encuesta. Esto fue pesquisado como fase de los chequeos en la etapa de validacin y
generacin de validaciones del rendimiento de la muestra, presentndose cerca de 145 casos
con este problema.

Etapa Crtica 2: Saltos incorrectos en flujo de las preguntas


El diseo del Cuestionario (y toda la documentacin asociada) debe ser de una tipografa y
diagramacin formal que permita leer cada parte de su contenido sin inconvenientes, siguiendo el
sentido lgico del desarrollo de las respuestas esperadas, en condiciones de luz natural (diaria).
El Cuestionario ELPS debe ser sometido a variadas pruebas preliminares que eliminen cualquier
error en la edicin impresa del mismo ya sea en enunciados; saltos; universos; nombres de
variables; alternativas de respuesta; falta de espacios predefinidos de respuesta, etc.
El incurrir en un salto incorrecto puede llevar al rechazo de la entrevista por parte del entrevistado
al observar desorden y falta de lgica en la formulacin de las preguntas. Adicionalmente el incurrir
en estos errores provoca en forma ineludible una prdida de tiempo importante que va en desmedro
del tiempo previsto para las preguntas siguientes, y causando adems en el entrevistado un cierto
nivel de fatiga y falta de concentracin para emitir sus respuestas con informacin realmente
vlidas y significativas para el proyecto (evita profundizar para dar una respuesta ms real y as
poder terminar pronto con la entrevista). En el caso de Paraguay el control de saltos incorrectos
estuvo generado en cuatro momentos (1) la revisin del supervisor al culminarse la encuesta, quien
firma el visto bueno de la encuesta, (2) la revisin del crtico digitador, (3) los chequeos de la
digitacin y (4) la evaluacin de consistencias con un archivo ejecutable de depuracin para la
construccin de la base de datos final. Se sugiere contar con un archivo que enliste y enumere los
chequeos que deben revisarse para hacer un check list de cada uno de ellos.

Etapa Crtica 3: Missing y outliers en los datos


La primera responsabilidad de revisin del cuestionario reside en el mismo entrevistador. Se deber
dejar constancia de su revisin escrita por parte de l en un recuadro dispuesto para ello (puede ser
al final del cuestionario). Es comn que los entrevistadores omitan registrar informacin para
disminuir la duracin de la entrevista. Ej. No marcar las respuestas No Sabe; No responde; sexo
(que lo infieren del nombre), etc. Y dejan esta labor para realizarla una vez terminada la entrevista y
en otro lugar. Esta estrategia es abiertamente deficiente para el proyecto ya que pueden registrarse u
omitirse respuestas que no corresponden. Esta mala estrategia debe ser mostrada como tal en las
capacitaciones ya que adems obliga al entrevistador a recrear en su mente el hogar visitado y
32

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

recorrer todo el cuestionario en la bsqueda de respuestas que no registr debidamente y claramente


le demandar un tiempo no menor.
En el ejercicio de la metadata ELPS, se sugiere construir un listado de todas las variables que deben
traer respuesta a todo evento, como tambin realizar una tabulacin de seguimiento a los niveles de
missing que traen las entrevistas de tal forma de instruir y/o recapacitar a los entrevistadores para
evitar sus ocurrencias. La presencia de valores missing siempre est latente de presentarse en el
cuestionario, ms an cuando las variables que los contienen no forman partes de condiciones de
universo o saltos que el entrevistador debe observar a continuacin en el desarrollo del
cuestionario.
Es primordial evitar la aprobacin de entrevistas con missing en etapas previas a la digitacin, por
cuanto el programa de digitacin puede exigir como requisito un valor vlido en la variable con
respuesta missing.
Para todas las variables que requieren informacin de ingresos monetarios o tenencia de activos o
bienes de valor del entrevistado deben existir alternativas de respuesta que permitan una expresin
clara de negativa a responder esas preguntas y bajo ninguna circunstancia deben quedar sin
respuesta si correspondiera aplicarlas segn el flujo de la entrevista.
Los valores outliers requieren ser detectados ya que representan, de no ser verdaderos, un claro
sesgo en el estadstico que participe esa variable. Un rea importante donde pueden generarse estos
valores outliers es en el registro de ingreso donde existe la tendencia a anotar solo nmeros
significativos de la cifra monetaria Ej. El entrevistado dice 832.000 y el entrevistador registra
832 para ahorrar tiempo o encapsular la respuesta en un cuadro de registro diseado en forma
deficiente para esa respuesta de 832.000. Otros casos los constituyen las amplificaciones de los
valores reales al escribir con ms dgitos que los que corresponde, generalmente por mala audicin
de la cifra (en cuyo caso el entrevistador debe estar atento una pronunciacin incorrecta del
entrevistado y repreguntar para precisar). Estas amplificaciones son tambin por descuido de los
entrevistadores al realizar el registro (Ej. Le informan 100.000 y anota 1.000.000.
En este estudio ELPS en particular, deber prestarse un cuidado muy especial en los vnculos
periodicidad-monto que se deben mantener en la captura de respuestas en las variables de ingreso16.
La correccin de un error de esta naturaleza tiene la opcin de ser obtenida con el Entrevistado que
sin duda es la mejor solucin (que implica costo) una vez producido y detectado el error, o bien en
un proceso posterior que minimiza este error mediante imputaciones.
Para el control de esta situacin en el caso de la 1era. Ronda ELPS Paraguay se realiz un archivo
ejecutable para la totalidad de variables que deben traer respuesta a todo evento, es decir, deben ser
contestadas por todos los entrevistados. Resultaron 233 preguntas entre el mdulo A al G que deben
que cumplen con esta condicin. Una vez identificadas se procedi a generar una variable que
identifique si tiene valores perdidos o fuera del rango. Los cuestionarios que tenan ms de un 5%
de problemas en esas variables se enviaron a una revisin completa por parte de los
subcoordinadores (n=322 con valores missing y n=211 con valores fuera de rango). Asimismo, se
16 Ejemplo de ellos las preguntas F6 F7 y F8 del cuestionario de Paraguay. F6; F7 y F8 ya que un error en
este vnculo periodicidad con monto puede provocarse un valor outliers que no es real sino que corresponde a
un mal registro ya sea en cuadro de respuesta a la periodicidad y/o al monto.

33

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

cruz esta informacin con la identificacin de los supervisores para observar si existan
concentraciones de esta situacin en el personal de trabajo de campo. Efectivamente se constat que
5 equipos concentraron el 25% de problemas y se revisaron el 100% de sus encuestas.

Etapa Crtica 4: Incosistencias de respuestas entre variables al interior del


cuestionario
Esta etapa crtica no debe restringirse slo a ser abordada en las seccin correspondiente al Crtico
validador-codificador o peor an, postergarla para que las inconsistencias sean detectadas por la
Malla de validacin y consistencia final que contendra la completitud de todas las revisiones
posibles, sino por el contario deben distribuirse y aplicarse en todo el proceso previo a la formacin
de la base de datos
Las razones para anticipar la deteccin de los errores de inconsistencia en cada etapa de revisin;
desde el Entrevistador que revisa su trabajo antes de finalizar su entrevista, y luego antes de
entregarlo al Supervisor; y este ltimo nuevamente revisa el cuestionario para que el Crtico
validador-codificador realice una tarea de revisin ms exhaustiva ; obedecen a una mejora
sustantiva en la calidad de los datos, con correcciones efectivas y oportunas, evitando costos muy
superiores si se postergan para ser tratados luego de obtener la base de datos.
En las inconsistencias deben estar consideradas las fallas de aplicacin correcta de los universos
pertinentes a cada pregunta, como asimismo las exigencias previas que deben cumplirse para
registrar ciertas categoras de respuestas.
La deteccin de inconsistencias requiere un grado mayor concentracin en la revisin que los
errores de flujos; rangos y universos, ya que tiene implcita la observacin de varias respuestas para
diferentes variables en forma simultnea, y que generalmente estn distribuidas en diferentes
mdulos del cuestionario.
Debe capacitarse a los entrevistadores en algunos tipos clsicos de inconsistencia como lo son la
relacin curso y nivel educacional vinculados con la edad de la persona (Ej. Adulto asistiendo a
educacin Inicial; nivel de competencias adquirido en la educacin formal y capacitaciones
vinculadas con el oficio que desempea la persona (Ej. Paramdico con slo educacin inferior a al
nivel superior). De esta forma se estarn evitando respuestas deficientes desde los informantes y
que pueden obedecer por ejemplo a que son emitidas por un informante proxy como es el caso del
llenado del mdulo I Composicin y Caractersticas del hogar en que una persona Entrevistado (con
Jefe de hogar) responde informacin de otros integrantes del hogar.
Para el control de esta situacin en el caso de la 1era. Ronda ELPS Paraguay se realiz un archivo
ejecutable para 100 variables de cada mdulo. Las variables relevantes se defines cmo aquellas
que permiten estructurar los indicadores claves de cada dimensin del cuestionario. Por ejemplo en
el mdulo C incluye:

34

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Tabla n2: Variables relevantes del mdulo C: Mercado del trabajo e historia Laboral
Mdulo
Variable BBDD
C.
C1MI_01
MERCADO
C1AI_01
DEL
TRABAJO
C1MT_01
E
HISTORIA
C1AT_01
LABORAL
C2_01
C5_01
C8_01
C9_01
C10_01
C12_01
C20_01
C24_01
C24A_01
C26B_01
C26D_01
C27_01
C27B_01
C38A
C44A
C46
C48

Nombre de la etiqueta
Describa, cronolgicamente, las act. que ha realizado de Enero de 2012 a la fecha
Describa, cronolgicamente, todos las actividades que usted ha realizado desde
Enero de 2012 a la fecha
Describa, cronolgicamente (empezar de la ms antigua), todos las actividades que
usted ha realizado desde Enero de 2012 a la fecha
Describa, cronolgicamente (empezar de la ms antigua), todos las actividades que
usted ha realizado desde Enero de 2012 a la fecha
En ese perodo, en cul de las siguientes situaciones se encontraba?
Cul era su ocupacin u oficio?
En esta ocupacin, usted trabajaba como:
En este trabajo, firm contrato de trabajo?
Qu tipo de horario tena en este trabajo?
Cul era el ingreso bruto mensual promedio en este trabajo?
Se encontraba aportando en el IPS?
Cul es el motivo por el que dej este trabajo?
Ha trabajado alguna vez en su vida?
Cmo busc (est buscando) trabajo?
Cmo se mantuvo durante este tiempo?
Cul fue la razn de su inactividad?
Se encontraba aportando en el IPS?
Su primer trabajo remunerado ocurri antes de Enero de 2013?
Desde su primer trabajo y hasta la fecha, cuntos meses ha trabajado de manera
remunerada?
Desde su primer trabajo y hasta la fecha aport al IPS (Salud y/o jubilacin)?
En los aos en que estuvo trabajando, por qu nunca aport al IPS?

En total esas 100 preguntas se tradujeron en 970 variables de la base de datos entre la cartula al
mdulo I. Una vez identificadas se procedi a generar una variable que identifique si tiene valores
perdidos o fuera del rango y consistencias entre mdulos. Los cuestionarios que tenan ms de un
5% de problemas en esas variables se enviaron a una revisin completa por parte de los
subcoordinadores (ejemplo n=491 con inconsistencias de historia de ocupacin con oficio e
ingresos). Al igual que en el caso anterior, se cruz esta informacin con la identificacin de los
supervisores para observar si existan concentraciones de esta situacin en el personal de trabajo de
campo. Efectivamente se constat que 3 equipos concentraron el 50% de problemas y se revisaron
el 100% de sus encuestas.
Esta es una revisin que permite ir controlando la calidad del trabajo de campo y la digitacin, por
lo que de ninguna forma reemplaza procesos de validacin de consistencia o depuracin de bases de
datos.

35

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Etapa Crtica 5: Respuestas No sabe y No responde con alta frecuencia en mltiples variables

Esta etapa debe estar regulada en forma precisa antes de las capacitaciones de los entrevistadores de
tal forma de prevenir su uso desmedido y procurar obtener de parte del entrevistado una respuesta
con valor significativo para los estimadores estadsticos que se desean concluir.
Debe existir una tabulacin permanente de las tasas de uso de estas alternativas de respuesta que
son utilizadas como verdaderas puertas escape para terminar prontamente la entrevista y que son
recursos utilizados tanto por algunos entrevistados como por algunos entrevistadores incorrectos o
capacitados en forma deficiente.
En este grupo de tabulaciones tambin deben estar contenidas y en forma separada las respuestas
No responde.
Los resultados de estas tabulaciones deben ser analizadas con prontitud realizando en ellas una
comparacin entre entrevistadores, con el objetivo de recapacitar o reforzar instrucciones que
disminuyan la frecuencia de estas alternativas de respuesta.
El entrevistador debe tener presente en todo instante que una respuesta No sabe o No responde
puede obedecer a que el informante puede ser proxy en relacin a la pregunta, y no es calificado
para responderla en forma adecuada y debe en consecuencia procurar que el informante sea la
persona referida en la pregunta, si estuviera presente en el hogar mientras realiza la entrevista.
Las preguntas consultantes de ingresos monetarios generalmente tienen una mayor tasa de
respuestas del tipo No sabe/ No responde que deben ser disminuidas a partir de una capacitacin
adecuada de los entrevistadores para evitar recibir este tipo de respuestas. Igualmente estas tasas
deben ser monitoreadas para detectar aquellas malas prcticas de algunos entrevistadores que
ofrecen la alternativa No sabe/No responde antes de obtener las respuestas espontneas de ingresos
por parte de los entrevistados con el objetivo de atenuar un posible rechazo en la continuidad de la
entrevista.

36

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

Etapa Crtica 6: Digitacin de las hojas de rutas y de las encuestas

La digitacin es una etapa que en muchos estudios de modalidad PAPI suele postergarse ms
tiempo del programado inicialmente. Estos retrasos de su puesta en marcha producen una detencin
masiva del conjunto de datos que requiere prontamente ser analizados va aplicacin de una malla
de validacin inicial que acuse las fallas de revisin bsicas en las etapas previas. Una de los
objetivos de una digitacin temprana es decrecer al mnimo la puesta en marcha de esta etapa de
digitacin y obtener pronto una base de datos que sea analizada luego con la mxima rigurosidad.
La digitacin de los cuestionarios y hojas de ruta debe ser realizada en un ambiente protegido, con
condiciones de luminosidad y espacios adecuados para mantener el orden imprescindible en el
movimiento fsico de la documentacin que est siendo digitalizada.
El equipamiento computacional y programa de digitacin deben ser aptos para estar configurados
en la plataforma general que se exigir a este proyecto para mantener en todo instante un alto nivel
de seguridad en el manejo de datos.
Todo el proceso de digitacin estar normado en documentacin de respaldo, que entregue
informacin de la ubicacin exacta de cada cuestionario y la persona que est siendo responsable de
ste en esa etapa de ubicacin.
Esta etapa es delicada porque en ella se realiza una transcripcin de la informacin desde la fuente
manuscrita hacia una digitalizada en una operacin realizada por personas que deben saber
interpretar correctamente las respuestas.
La interpretacin correcta exige en primera instancia que la fuente tenga una descripcin clara y
legible de la informacin. Es por tanto necesario mantener la exigencia de una escritura de buena
caligrafa y ortografa a los entrevistadores, como tambin el registro de las respuestas en los
lugares establecidos para ello. Tambin en este punto incide nuevamente el diagramado y diseo del
cuestionario en disponer de aquellos espacios adecuados para registrar las respuestas.
Los digitadores deben formar parte de una capacitacin mnima acerca de los contenidos del
Cuestionario ELPS, Hojas de ruta y Consentimientos informados antes de la digitalizacin de la
informacin. Esto permitir obtener solucin por parte de ellos a problemas de interpretacin de
datos que vienen defectuosos en su registro.
Sin duda la interpretacin en la lectura es una fuente de potencial error del digitador pero a ello se
suma la correcta escritura de lo que interpret o debiera interpretar, es decir lo que finalmente
digita. En esta escritura pueden incorporarse errores involuntarios al digitar mal en el teclado del
dispositivo de entrada de datos.
Visto lo anterior es imprescindible someter esta etapa a una estrategia de control de la digitacin
que reduzca los errores en esta etapa a una mnima, idealmente nula existencia.
La estrategia de control debe establecer rpidas correcciones en el proceso de digitacin para
eliminar la ocurrencia repetitiva de esos errores de digitacin detectados.

37

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

La labor de control debe estar aplicada a todo el trabajo de digitacin, en este aspecto la doble
digitacin al 100% de las entrevistas es sin duda una de los mtodos ms seguros para obtener un
alto estndar de confiabilidad y calidad en una transcripcin correcta. Sin embargo, sus costos
limitan su aplicacin en forma completa optndose muchas veces por disminuir ese porcentaje con
seleccin aleatoria de porcentajes inferiores al 100%, bajo criterios de cotas mnimas de diferencia
aceptables entre digitaciones de un mismo instrumento realizada entre dos digitadores.
La importancia adicional de tener confirmada una correcta digitacin radica en la posibilidad que
sean digitados valores vlidos para las mallas de validacin pero que no representan la respuesta
escrita dada por el entrevistado. Estos errores si no se detectan en esta etapa pasan inadvertidos y
pueden provocar sesgos no cuantificados en los estadsticos que se generen con esos datos errneos.
Es importante establecer frmulas adecuadas de cancelacin de honorarios a los digitadores que no
slo incorporen la cantidad de trabajo realizado (digitado) sino tambin la calidad de dicho trabajo y
que sea ponderado por sus resultados segn los controles calidad.

38

Recomendaciones Tcnicas para la generacin de la Metadata de la Encuesta Longitudinal de Proteccin Social - ELPS

V.

REFERENCIAS

Gobierno de Chile (2014). Manual para el usuario investigador de la encuesta CASEN


2013.
Santiago
de
Chile.
Disponible
en:
http://observatorio.ministeriodesarrollosocial.gob.cl/layout/doc/casen/Manual%20del%20In
vestigador_revision_27sep12_final.pdf

Jenkins, S. P. (2011). Changing fortunes: income mobility and poverty dynamics in Britain:
OUP Oxford.

Kreuter, F. (2013). Improving surveys with paradata: Analytic uses of process information.
John Wiley & Sons, Inc., Hoboken, New Jersey. Disponible en
http://www.wiley.com/WileyCDA/WileyTitle/productCd-0470905417.html

Kreuter, F., & Casas-Cordero, C. (2010). Paradata. Working paper series of the German
Council for Social and Economic Data 136, German Council for Social and Economic Data
(RatSWD). Disponible en
http://www.ratswd.de/download/RatSWD_WP_2010/RatSWD_WP_136.pdf

Kreuter, F., Couper, M., & Lyberg, L. (2010). The use of paradata to monitor and manage
survey data collection. Paper presented at the Proceedings of the Joint Statistical Meetings,
American Statistical Association. Disponible en
http://www.amstat.org/Sections/Srms/Proceedings/y2010/Files/306107_55863.pdf

Kreuter, F., & Kohler, U. (2009). Analyzing contact sequences in call record data. Potential
and limitations of sequence indicators for nonresponse adjustments in the European social
survey. Journal of Official Statistics, 25(2), 203. Disponible en
http://www.jos.nu/Articles/abstract.asp?article=252203

Prieto, J.J. (2015). Gua prctica para usar datos de la Encuesta Longitudinal de Proteccin
Social (ELPS). Observatorio de Seguridad Social de Amrica Latina y el Caribe.

Prieto, J.J; Madrigal L.; Gallegos F.; Bravo E. (2015) Recomendaciones Metodolgicas
para las Rondas de Seguimiento de la Encuesta Longitudinal de Proteccin Social (ELPS)

Rose, D. (2000). Household panel studies In D. Rose (Ed.), Researching Social and
Economic Change: the uses of household panel studies (pp. 3-35). London and New York:
Routledge.

SPS Gobierno de Chile (2012). Libro de cdigos de EPS 2009. Santiago de Chile.
Disponible en: http://www.previsionsocial.gob.cl/subprev/?page_id=7518

39

You might also like