You are on page 1of 10

ESTADISTICA ESPAOLA

Vot. 37, Nm. 138, 1995, pgs. 5 a 13


Estimadores de regresin
y razn para proporciones
por
J. SANTIAGO MURGUI y CRISTINA AYBAR
epartamento de Economfa Aplicada
Universidad de valencia
RESUMEN
La estimacin de proporcior^es con informacin auxilia^r de una
variable dicotmica es resuelta en el contexto d dos moc^elos de
superpoblacin. Se proponen dos estimadores, uno de
tipo regre-
sin y otro de tipo razn. Los resultados
presentan analogas
con los asociados a otros planteamientos que se apoyan
en el dise-
o muestral.
Palabras clave: modelo de superpoblacin, estimadores de regre-
sin y razn, diseo aleatorio estratificado.
C/asificaci6n A MS: 62 D 05 .
1. INTRODUCCION
La estimacin de una proporcin en el ^mbito de una poblacin finita es un
problema frecuente en la prctica estadstica de encuestas e investigaciones
por muestreo. Los estimadores tradicionalmente utilizados estn vinculados a
los diferentes diseos muestrales, principalmente estratificados y polietp^cos.
(^ E:,STADISTICA ESPAOLA
Sin embargo, en la literatura sobre muestreo estadstico no se encuentran esti-
madores para proporciones capaces de incorporar informacin de una variable
auxiliar.
Los estirnadores de <^ regresin yrazn son habitualmente propuestos
cuando se pretende estimar caractersticas poblacionales asaciadas a una va-
riable de tipo contnuo Y, y para el mismo universo se dispone de informacin
referente a una variable auxiiiar X, tambin continua.
EI anlisis estadstico de tales poblaciones puede plantearse sobre los mode-
los estocsticos que subyacen en la seleccin aleatoria de las muestras, o bien
en el contexto de un modelo de superpoblacin. Una referencia obligada para el
primero de los planteamientos es el texto de Cochran (1981). EI segundo plan-
teamiento ha sido desarrollado, entre otros, por Ericson (1969), Royall (1971) y
asulto y Murgui (1987).
En este trabajo se comprueba que las misrnas expresiones que definen los
estimadores de regresin yrazn tambin son apropiadas cuando las va-
riables principal y auxiliar son discretas y la caracterstica poblacional a estimar
es una proporcin.
Los resultados obtenidos se desarrollan en tres apartados. Tras la introduc-
cin, en el segundo apartado se define un modelo de superpoblacin y se cons-
truye un estimador para la proporcin poblacional basado en los estimadores
mximo-verosmiles de los parmetros. En el ltimo apartado, se modifica el
modelo para adecuarlo a otras situaciones reales, proponindose un estimador
alternativo.
2. ESTIMADOR DE REGRESION PARA UNA PROPORCIN
Considrese un universo U=(u1, u2, ..., uN) integrado por N unidades. Sea
X una variable auxiliar que toma los valores 0 y 1, para la que se suponen cono-
cidas sus observaciones (x^, x2, ..., xN) sobre las unidades del colectivo U. Sea
Y la variable de inters, que tambin toma los valores 0 y 1, para la que no se
conoce el vector de observaciones
(y^, y2, ..., yN).
Se pretende estimar la proporcin poblacional de unidades sobre las que Y
N
toma el valor 1, definida por ^ y; / N. Para ello se va a utilizar la informacin
r _,
que se obtiene al observar dicha variable sobre las n unidades de una muestra
s=(u^, u2, ..., u ) seleccionada en el colectivo U.
Si se considera que la poblacin de observaciones ( x^, x2, ..., xN) aporta in-
formacin relevante acerca de la poblacin desconocida (y^, y2, ..., yN), es con-
ESTlMAU()R^S I)E REC;RESI()NYRAZONPARAPROPORC'IUNES 7
veniente definir el proceso inferencial introduciendo un mecanismo capaz de in-
corporar la informacin disponible.
Para describir la reiacin existente entre las observaciones de las variables
1' y X
puede recurrirse a un modelo estocstico. En este apartado se supone
que el modeio adecuado es el que especifican las siguientes hiptesis:
H^: P(Y; = 1 ^x; --0)=a con 0<a<1 i=1 ,2,...,N
H2: P(Y; =1 ^x; =1)=ac' Con 0<a'<1 i=1 ,2,...,N
H3: C[Y;, Y^ ^ x^ , ..., xN] =0 i^j
Donde P ( Y , ^ x^ ) expresa una probabilidad condicionada y G la covarianza.
Las dos primeras hiptesis pueden expresarse mediante una nica relacin
P( Y ^ _ 1/x;)=cx(1 -x^)+c^c'x^ parai=12.. N.
, , ,
AI objeto de facilitar la interpretacin del modelo, como ejemplo puede consi-
derarse una situacin en la que X e Y expresan una misma variable medida en
dos ocasiones distintas de tiempo. En la primera ocasin se suponen conocidos
los resultados de una nvestigacin exhaustiva, plantendose la revisin del
censo en una segunda ocasin mediante una investigacin por muestreo. Las
dos primeras hiptesis del modelo expresan que la intencin de mantenerse en
la opcin adoptada (0 1) en la primera ocasin es la misma para todas las uni-
dades. Igualmente, se admite constante la intencin de modificar la opcin
adoptada en un primer momento. Expresndolo en otros trminos, las hiptesis
H1 y H2 indican
que la prababilidad de que en la segunda ocasin una unidad
adopte una opcin determinada viene explicada exclusivamente por ia opcin
que tal unidad adopt en la ocasin precedente.
En la prctica, el modelo es menos restrictivo de lo que pudiera parecer ini-
cialmente. En el supuesto de que no se considerara vlido para todo el universo
en su conjunto, siempre ser posible proceder a su segrnentacin, incrementando
de esta forma la adecuacin de un modelo especfico para cada grupo definido.
Identifquese por II ^ =P( X; = 1) con i=1, 2, ..., N a la proporcin poblacional
1
conocida de observaciones x; con valor 1, determinada por ^ x; . Anloga-
N ^
mente, puede identif icarse por i^I 2= P( Y ; = 1) con i=1, 2, ..., N a la proporcin
poblacianal de unidades con valor unitario de Y. La verosimilitud de los parmetros
del modelo proporcionada por la informacin muestral es, en estas condiciones
L (^, a') = ca' ^, ) ^ x^ y^ (a (1 - n, )) ^ y^ - ^ X^ y^ (( ^
-- a') n, ) ^ X, - ^ X, y,
((1 - a} (1 - n^ )) n - ^ X^ - ^ y^ + ^ x^ y^
FSTADiSTICA ESPAOLA
Es fcil comprobar que los estimadores m^ximo-verosmiles de cx y cx' son,
respectivamente
1
a= ^(1-x,)y,
n (1 --p^) S
1
a ' _ ^x; y;
n p^ s
1
Donde p^_ ^ x^ es la proporcn muestral de observaciones con valor 1
n s
para la variable X. Siendo ambos estimadores insesgados.
Teniendo en cuenta la relacin TI2 = a(1 - II^ )+ a' II^ se deduce que el esti-
mador mximo-verosmil de la proporcin buscada es
^-a1-II +a'I1= +51 2 TI-
2 ( ,) , p2 2 ( , P,)
s,
1
siendo p2 = ^ y;la proporcin muestral de observaciones con valor 1para
n 8
la variable Y y
1
s?=p^(1-p^)= ^(x^-
n S
s =t ^x - _^ - -.
^2 ^ y^
p^ p2 i ^(X; p,)(y; p2 )
n s n S
la varianza y covarianza muestrales, respectivamente.
La insesgadez de los estimadores a y a' garantiza que ^2 tambin ser un
estimador insesgado con respecto a II2. Asimismo, se comprueba que su va-
rianza est determinada por
_ 2 (1 - ^1)2 ' , ^?
V (2J - (a - a ) E + (a - a 2) E
n (1 -p1 ) n p^
A partir de las hiptesis que especifican el modelo se demuestraque un es-
a2n (1-p1)-a a'2n p^-a'
timador insesgado paraa2 es
y anlogamente
n(1 -p^) - 1 n p^ - 1
ESTIMADORES UE REGRESIONYRAZONPARAPROPORCIC)NFS C^
es un estimador insesgado con respecto a a'2. De estos resultados se deduce
que el estadstico muestral
n ( ^
-^,)2 ^;
e ^I2)-(a - a 2) _ _ + (a ' - a '2) - 1
n(1 p1) 1 n p^
^
es un estimador insesgado de la varianZa V[II2).
EI carcter dicotmico de las variables X e Y y las hiptesis H 1 y H2, permi-
ten escribir fa siguiente reiacibn para la media condicionada de cada Y; :
E[Y;/x;]=P(Y; -1 /x;)-a(1 --x;)+a'x;
Denotando por ^ a la diferencia ( a' - a) las relaciones anteriores para i=1, 2, ..., N
adoptan la forma E[ Y; l x; ]=a+^ x; .
EI modelo propuesto para variables dicotmicas supone, por lo tanto, una re-
lacin lineal entre x; y la media de cada Y ; . Ello ha conducido a proponer un
^
estimador I^I2 con una estructura idntica a los denominados estimadores de
regresin que surgen en la literatura estadstica asociados con los modelos li-
neales definidos sobre variabtes continuas.
En general, los modelos lineales no son adecuados cuando las variables
son, como en este caso, de tipo dicotmico. Sin embargo, se ha comprobado
que el modelo propuesto presenta unas relaciones lineales para las medias
idnticas a las que se derivan de un modelo lineal de la forma Y; =cx +^ x; +u;
con E[u; ]= 0. Esto ha inducido a ex presiones idnticas para los estimadores
de II2 = P( Y; =1) =E[ Y; ^en ambos casos. Es necesario destacar que, por su
construccin, el estimador II2 est acotado entre 0 y 1, tal como corresponde a
una proparcin.
Todos los resultados se han establecido sin necesidad de especificar el^ pro-
cedimiento utilizado en la seleccibn de la muestra. Esta caracterstica se pre-
senta siempre que se propone un modelo de superpoblacin. La determinacin
del diseo muestral ha sido abordada por Royall y Herson ( 1973) y Murgui
( 1983), entre otros. En la prctica del muestreo, aunque no es estrictamente ne-
cesario, suele utilizarse un diseo aleatorio para que acte de proteccin frente
a las posibles errores que se cometan en la especificacin del modelo.
^
EI estimador iI2 , as como el estimador de su varianta, no requieren conocer
totalmente la poblacibn (x^, x2, ..., xN ). Unicamente es necesario disponer de fa
proporcin poblacional II^ . Esto permite ampliar el campo de aplicacin a aque-
Ilas situaciones reales en las que se dispone de los resultados censales globa-
les pero el acceso al censo completo es limitado. En el caso en que se disponga
l U FSTADISTI('A ESPANC)L.A
de este ltimo, puede plantearse una cuestin adicional. Si se denota por Uo al
colectivo de unidades en las que X= 0 y por U, al colectivo de unidades para
las que X= 1, puede plantearse la determinacin de una distribucin ptima de
la rnuestra entre ambos colectivos.
Sea n^ el nmero de unidades mues^trales a seleccionar en el colectivo U^,
se comprueba que la expresin de V[n2] alcanza su valor minimo cuando se
verifica la siguiente relacin:
r 1 1
j 1 ^ Ct ^ - U t ^ 2 N1^ a, ^ -. , c x ^ 2
n-n^ `(1 -TI^ )^ %a-a2 r(/V-Ni)c :x -
Donde N^ expresa el nmero de unidades en el colectivo U^. Despreciando los
trminos paramtricos, se deduce que una aproximacin a la solucin ptima se
consigue distribuyendo la muestra de manera proporcional al tamao de los co-
lectivos citados.
La clasificacin de las unidades ater^diendo al valor de la variable X sugiere
la posibilidad de plantear la estimacin en un contexto totalmente diferente al
que se ha expuesto. Un diseo aleatorio estratificado consistiria en seleccionar
una muestra aleatoria so en el colectivo Uo y otra muestra aleatoria s^ en el U^ .
EI problema inferencial podra entonces resolverse recurriendo a la aleatoriza-
cin que introduce el diseo, prescindiendo del modelo de superpoblacin pro-
puesto.
En el contexto de un diseo aleatorio estratificado, la expresin
n^ p2 ^ + (^ - ^ >> p2
donde
P21 =^Y;^n^ Y P20=^Y;^^^-n,)
S , $ o
es un estirnador insesgado para la proporcin poblacional II2 .
^
Se comprueba que la expresin que define el estimador de regresin n2,
propuesto en base al modelo de superpoblacin, coincide con la que define el
estimador insesgado con referencia al diseo aleatorio estratificado. No obstan-
te, las caractersticas y propiedades de los procesos inferenciales requieren in-
terpretaciones distintas.
ESTIMADORES DE REGRESlONYRAZONPARAPROPORClONES 1 l
3. ESTIMADOR DE RAZON PARA UNA PROPORClON
Considrese ahora que el modelo ms adecuado para describir Ja relacin
existente entre las observaciones de la variable Y y las de la variable X es el
que resulta al sustituir la hiptesis H1 del apartado anterior par
H'j: P{Y; =1 ^x; =0)=0 i=1 ,2,...,N
En este caso, se considera que la probabilidad de que una unidad que ha
adoptado la opcin X=0, adopte la opcin Y=1 es nula. Ei modelo contempla
la posibilidad de cambio de opcin para cada unidad, pero nicamente en el
sentido de pasar de X=1 a Y=0, nunca en el de pasar de X=0a Y=1.
Una situacin real en la que sera de aplicacin el modelo es la que se pre-
senta en un proceso de contro! de calidad en dos etapas. Supngase que en la
primera se investiga X y se decide catalogar como unidades defectuosas a las
que presentan el valor X= 0. En la segunda etapa se investiga Y en los siguien-
tes trminos: si una unidad Ileva etiqueta de defectuosa, se considera definitiva-
mente defectuosa y se le hace corresponder Y= 0; en caso contrario se contra-
la una nueva caracterstica que puede conducir a cfasificar 1a unidad camo de-
fectuosa ( Y=0) o como vlida ( Y=1).
De las hiptesis H'1 y H2 se deduce que, en este caso, P( Y; = 1 j x; )_
= E[ Y; l x; ]- a' x; para i=1, 2, ..., N, siendo V[ Y; < x; ]_ (a' -^c'2 ) x; .
La funcin de verosimilitud de1 parmetr0 a' adopta la expresin
^(a^)_{a^1)^r; {{1 _a^}^^}^^X'^r'){^ _^^}^-^x'
Maximizando la funcin de verosimilitud se obtiene el siguiente estimador de
a':a"=p2.
P,
Teniendo en cuenta la relacin TI2 = a' ri^, correspondiente al modelo ahora
propuesto, se deduce que el estimador mximo-verosmil de la proporcin de
inters es rI* = a" IT = p 2 II .
^ , ,
P,
Las caractersticas del modelo ahora considerado permiten comprobar que
II 2 es un estimador insesgad0 con respect0 a I^I2 , y la expresin de su varianza
V[ II 2], as como la de un estimador insesgado de esta ltima e(iI 2), se obtie-
nen anulando el valor de a en las respectivas expresianes de V [2 ] y e( 2 )
obtenidas en el apartado anterior.
ESTAU1STlCAFSPA(:)LA
Observar que el modelo actual supone una relacin lineal sin trmino inde-
pendiente entre x; y la media de cada variable Y ; . La coincidencia entre esta
relacin y la que se deriva de un modelo lineal de la forma Y ; = cx' x^ + u; , con
E[u; )= 0, conduce a un estimador i12 con una expresin idntica a los denomi-
nados estimadores de razn habitualmente utilizados sobre modelos lineales
y variables continuas.
La posibi{idad de efectuar el proceso inferencial recurriendo a un diseo
ateatorio estratificado sigue siendo vlida tambin en el modelo que define la hi-
ptesis H', . En este caso, el esti mador de razn propuesto no coincide en
general con el estimador insesgado del muestreo estratificado. No obstante, si
se acepta la validez de la hiptesis H', del modelo, es lgico pensar que el co-
lectivo de unidades para las que X=0 e Y= 1 ser vaco y, en consecuencia, la
proporcin p 20 definida en el apartado anterior sera nula. En estas circunstan-
cias, los estimadores utilizados en ios dos procedimientos coinciden.
REFERENCIAS
BASULTO, J., y MuRGUi, J. S. (1987): Diseo, inferencia y robustez en poblacio-
nes finitas. Libro Homenaje al Profesor Arnaiz, INE, Madrid.
COCHRAN, W. G. (1981): Tcnicas de Muestreo, Wiley, New York.
ERicsoN, W. A. (1969): Subjetive bayesian rnodels in sampling finite popula-
tions, Journal Royal Statistical Society, B, 31.
MuROUi, J. S. (1983): Estimadores de razn y regresin en poblaciones finitas:
modelos de superpoblacin, Estadstica Espao/a, 99, 61-72.
-(1993): Estimacin con encuestas repetidas, Estadstica Espaola, 35,
617-627.
ROYALL, R. M. (1971): Linear Regression Models in Finite Population Sampling
Theory, Foundations of Statistical Inference, V. P. Godambe y D. A. Sprott
(eds.), Holt, Rinehart & Winston, Toronto, Canada, 259-279.
ROYALL, R. M., y CUMBERLAND, W. G. (1981): The Finite Population Regression
Estimator and Estimators of its variance-an empirical Study, Journal of the
American Statistical Association, 76.
ROYALL, R. M., y HERSON, J. (1973): Robust estimation in finite populations,
Journa/ of the Arnerican Statistical Association, 68.
ESTIMADORES DE RE(,RESIONYRAZONPARAPRC?PC)RCIONES 1^
REGRESSION AND RATIO ESTIMATORS FOR PROPORTIONS
SUMMARY
The proportions estimate with auxiliary information of a dichoto-
mic variable, is solved in the context of two overpopulation models.
Two estimators are proposed, one of the regression type and one
of the ratio type. The results are analogous to those connected
with other ones which are based on the sample design.
Key Words: overpopulation rnodel, regression and ratio estimators,
stratified random design.
AMS Classification: 62D05.

You might also like