Regresiones - Berry & Sanders

ENTENDIENDO LA INVESTIGACIÓN MULTIVARIADA
Un primer acercamiento para científicos sociales

(Understanding multivariate research: a primer for beginning social scientists)
William D. Berry & Mitchell S. Sanders

Capítulos 1 y 2
Publicado en 2000| Florida StateUniversity| Traducción de Soledad Camardo
1. Introducción Tomemos una mirada más aproximada a lo que

significa aseverar que una variable influya a otra. El
El concepto de causalidad concepto más común de causalidad hace foco en la
Mucho de la investigación en Ciencias Sociales es sensibilidad de una variable para cambiar el valor
diseñado para testear hipótesis (o proposiciones) de otra. Cuando aseveramos que la ingesta de
sobre causalidad. Tales hipótesis toman la forma alimentos influye sobre el peso corporal, estamos
de una afirmación en la cual si algo (por ejemplo implícitamente argumentando que si fuéramos
algún evento) ocurre, entonces otra cosa sucederá capaces de incrementar el consumo de comida de
como resultado. Entre naciones, podríamos una persona, mientras todo lo demás se mantiene
aseverar que el crecimiento poblacional causa (o constante, el peso del individuo variará. La cláusula
influencia) el crecimiento económico. Entre “mientras todo lo demás se mantiene constante”
individuos, podríamos creer que el peso corporal es importante, porque si otras variables cambiaran
es influenciado por el consumo de comida. al mismo tiempo que el consumo de comida, la
modificación del peso del individuo podría ser una
En una hipótesis causal, el fenómeno que es respuesta a un cambio en otro u otros factores,
explicado es llamado variable dependiente. Es más que en el incremento del consumo de comida.
llamado variable porque estamos concibiendo que
algo puedo “variar” a través de un conjunto de Generalmente, cuando aseveramos que una
casos (ejemplo: personas o naciones); es llamada variable X influye a otra variable Y, queremos
dependiente por el concepto de causalidad: su significar que si todas las demás variables pudieran
valor está hipotetizado para ser dependiente del se mantenidas constantes, entonces un cambio en
valor de alguna otra variable. En nuestros ejemplos el valor de X resultaría en un cambio en el valor de
la variable dependiente son el crecimiento Y. También podemos desarrollar una medida de
económico de las naciones y el peso de los magnitud (o fuerza) del impacto de X sobre Y
individuos. enfocándonos en el tamaño del cambio en el valor
de Y ocurrido en respuesta a un incremento fijo de
La otra variable en la hipótesis -la que se espera X. Si un incremento dado en X conduce a una
que influya sobre la variable dependiente- es disminución de 10 unidades en Y en un ambiente,
llamada variable independiente (o variable pero a una disminución de 5 unidades en otro
explicativa). Crecimiento poblacional es pensado contexto, el anterior impacto puede considerarse
para ser una variable independiente afectando el doblemente fuerte que el último. (Varias
crecimiento económico de una nación; el consumo expresiones son usadas con el mismo sentido por
de comida de una persona es concebido como los científicos sociales para transmitir una
variable independiente influenciando su peso. Hay afirmación de causalidad; “x causa y”, “x influye
numerosos sinónimos para los términos variable sobre y”, “x afecta a y”, y “x tiene un impacto en y”
independiente y variable dependiente en las son sinónimos. La costumbre de usar el símbolo Y
ciencias sociales. La tabla 1.1 lista los términos más para denotara una variable dependiente y la X para
comunes. indicar una variable independiente está
Tabla 1.1 Sinónimos para Variable Independiente y profundamente arraigado en la literatura de las
Dependiente ciencias sociales, y seguiremos esta costumbre a lo
VI VD largo del libro.)
Variable explicativa Variable explicada
Variable exógena Variable endógena
Variable predictiva Variable de destino
Fuente: Elaboración de los autores sobre la base de Maddala
(1992, 61).
La investigación experimental Por ejemplo, los dos grupos de niños deberían ser
casi igualmente probables de ser genéticamente
Supongamos que deseamos contrastar la hipótesis
predispuestos a enfermar de viruela. Los dos
de que una variable independiente X influye sobre
grupos también serán cercanamente probables de
una variable dependiente Y usando análisis
ser expuestos a la viruela a través del contacto con
empíricos.
otros niños.
El análisis empírico refiere al análisis basado en la
En el siguiente paso del experimento, a los niños
observación. La manera ideal de hacerlo sería
del grupo experimental se les suministrará Mirapill,
llevar a cabo un experimento. Su familiaridad con
mientras que aquellos del grupo de control
los experimentos probablemente date de tiempo
recibirán un placebo. (Un buen placebo sería una
atrás a sus primeras clases de ciencia en la escuela.
pastilla que luzca igual a Mirapill pero que no
Sin embargo, es importante refrescar nuestras
contenga medicina.) Luego de que las pastillas
memorias sobre las características específicas de
sean administradas, los dos grupos deberían ser
un experimento. Para ilustrarlo, digamos que
observados por un período, y deberíamos
diseñamos un experimento para probar la
determinar cuántos niños en cada grupo
afirmación de que una nueva droga ficticia -una
contrajeron viruela. Si menos niños en el grupo
pastilla llamada Mirapill- ayuda a prevenir que los
experimental contrajeron la enfermedad que en el
niños se afecten de una enfermedad ficticia
grupo de control, esto sería evidencia para
(viruela). La población en cuestión -esto es, los
sostener la hipótesis de que Mirapill ayuda a
casos sobre los cuales la hipótesis aplica- son niños
prevenir la viruela. Además, la diferencia entre los
que no hayan tenido viruela. La variable
dos grupos en el número de niños contrayendo la
independiente es si un niño toma Mirapill (o no), y
enfermedad serviría como medida de la fuerza del
la variable dependiente es la probabilidad de que
impacto de Mirapill como un preventivo. Si muchos
el niño se enferme de viruela.
menos niños en el grupo experimental se
En un experimento diseñado para probar si Mirapill enfermaron, esto sugeriría que Mirapill tiene un
reduce la probabilidad de enfermar de viruela, fuerte efecto. Si solo unos pocos niños menos del
podríamos comenzar tomando como muestra grupo experimental contrajeron viruela, esto
aleatoria -tal vez 1.000 sujetos- de la población de significaría que el efecto es probablemente débil.
niños que nunca han tenido viruela. (Para que la
Supongamos que conducimos este experimento y
muestra sea aleatoria, cada miembro de la
encontramos que la incidencia de viruela es
población debe tener la misma chance de ser
sustancialmente más baja en el grupo
incluido en la muestra.) Estos 1.000 niños entonces
experimental. ¿Por qué esto sería evidencia
serán asignados en dos grupos aleatoriamente. Un
convincente de que Mirapill previene la viruela?
grupo de 500 será llamado grupo experimental, y el
Para ver por qué, recordemos lo que quisimos
otro, grupo de control.
decir cuando dijimos que X causa Y: si todas las
La aleatoriedad -las dos selecciones, la de sujetos otras variables fueran mantenidas constantes,
de la población y la de los sujetos asignados al entonces el cambio en el valor X nos conduciría a
grupo experimental y al de control- es crítica para un cambio en el valor de Y.
validar un experimento. Los estadísticos han
Nuestro experimento nos da solo la información
descubierto que si una muestra es seleccionada
que necesitamos para evaluar la causalidad.
aleatoriamente y es lo suficientemente grande
Descubrimos lo que le sucede a la variable
(1.000 es ciertamente suficiente), es probable que
dependiente (la probabilidad de contraer viruela)
sea representativa, en todos los aspectos, de la
cuando cambiamos el valor de la variable
población más amplia de la cual se extrae. Esto
independiente (recibir o no Mirapill) cuando todas
significa que podemos aprender casi tanto
las otras variables son mantenidas constantes.
observando la muestra como observando la
población completa, sin embargo lo primero es por La lógica subyacente al Análisis de Regresión
lejos menos costoso y menos pérdida de tiempo.
Para muchas hipótesis en Ciencias Sociales,
En un experimento, observamos la muestra
manipular la variable independiente de manera
aleatoria y, sobre la base de lo que aprendimos,
experimental es inviable. Por ejemplo, si estamos
extraemos una inferencia sobre si la hipótesis es
estudiando el lobby (esto es, el intento de
probable que sea cierta en la población general.
individuos de influir en los gobernantes) y
Similarmente, la asignación aleatoria de los niños
queremos contrastar la hipótesis de que los
de la muestra en dos grupos hace probable que los
miembros del congreso en posiciones de liderazgo
grupos serán cercanamente equivalentes en
son más afectados por el lobby que los miembros
cualquier manera.
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 2
que no lo están, no estaríamos posibilitados de en la investigación experimental, esta teoría no es
intervenir e imponer nuestras propias elecciones esencial. Por ejemplo, algunos científicos
de liderazgos en el congreso. En su lugar, podemos confirman que una nueva droga es efectiva usando
observar el congreso tal cual existe y determinar si el diseño experimental, aun cuando ellos saben por
hay diferentes patrones de lobby para líderes y qué esta droga funciona. Pero llevar adelante un
para no líderes. Similarmente, para probar la diseño no experimental sin una teoría puede
hipótesis de que el crecimiento poblacional afecta conducir a conclusiones altamente engañosas. Para
el desarrollo económico, sería obviamente el caso, si estamos por examinar incendios,
imposible ejecutar un experimento en el cual probablemente encontremos que el daño del
aleatoriamente asignemos diferentes niveles de incendio es más severo cuando el número de
crecimiento poblacional a las naciones. Sin camiones de bomberos en la escena sea grande,
embargo, podemos observar las naciones del teniendo en cuenta que tanto el daño del incendio
mundo y determinar si esos países cuyas como el número de camiones de bomberos
poblaciones están creciendo más rápidamente son deberían crecer según el tamaño del incendio
también aquellos cuyas economías se están (Weisberg, Krosnick, and Bowen; 1989). Si esto es
expandiendo más rápidamente. El análisis de así, el análisis de regresión bivariado con el daño
regresión es una técnica no experimental para del incendio como variable dependiente y el
extraer este tipo de información de una muestra número de camiones de bomberos como variables
de datos. En este capítulo y en el siguiente, independiente generaría un aparente apoyo a la
examinamos la forma de regresión más simple, la (absurda) hipótesis de que los camiones de
regresión bivariada (o de dos variables), que bomberos causan el daño del incendio. Lo que
implica una única variable independiente debería prevenirnos de arribar a esta errónea
hipotetizada para influir sobre una variable conclusión es la ausencia de una teoría plausible
dependiente. En capítulos siguientes consideramos que sugiera por qué los camiones de bomberos
la regresión multivariada (o múltiple), que implica deberían causar daño. En efecto, sin tal teoría,
dos o más variables independientes presuntas de deberíamos ser reacios a llevar a cabo un análisis
influir en la misma variable dependiente. de regresión para contrastar esta hipótesis en
primer lugar.
Aunque el análisis de regresión a menudo es más
viable que la investigación experimental, no puede Algunos antecedentes matemáticos necesarios
proveer una evidencia convincente (determinante)
Representando datos en un gráfico
de causalidad como un experimento. Como hemos
visto, en un experimento, la asignación aleatoria Supongamos que tenemos que medir valores (o
del valor de la variable independiente a los sujetos puntuaciones) de un conjunto de casos (por
permite al investigador evaluar la respuesta de la ejemplo, personas, organizaciones o naciones) en
variable dependiente al cambio en la variable dos variables, X e Y.
independiente cuando todas las otras variables
Volviendo a uno de los ejemplos anteriores,
que influyen en la variable dependiente son
digamos que observamos el consumo de comida y
mantenidas constantes. En investigaciones no
el peso corporal en cuatro personas. Medimos el
experimentales que recaen en la regresión,
peso en libras y lo denotamos con la etiqueta
renunciamos a la asignación aleatoria de valores de
PESO. Nuestra medida de consumo de comida es el
la variable independiente y, en su lugar, aceptamos
consumo diario promedio de comida en calorías
los valores que tienen los casos que están siendo
durante un año previo a la observación del peso, y
analizados. El resultado es que cuando usamos
lo denotamos con la etiqueta COMIDA. Nuestras
regresión, estimamos el cambio en la variable
observaciones son presentadas en la tabla 1.2.
dependiente asociado con un cambio dado en la
variable independiente cuando las otras variables Tabla 1.2 Observaciones para consumo de comida y
independientes en el análisis de regresión se peso corporal
mantienen constantes. Esto está muy por debajo X = COMIDA Y = PESO
de la capacidad del diseño experimental de Bob 3.000 190
mantener constantes todas las variables que Carol 1.100 120
influencian a la variable dependiente. Ted 2.300 155
Consecuentemente, los investigadores deberían Alice 1.400 140
usar el análisis de regresión para contrastar una
hipótesis donde X influye sobre Y solo cuando
tienen una teoría que explique por qué tiene
sentido esperar esta relación causal. Nótese que
200 800
700
150 600
500
Y=peso
400
Y
100 300
200
50 100
0
0 0 2 4 6 8
0 1,000 2,000 3,000 4,000 Casos con baja p X Casos con baja
untuación en X puntuación en Y
x=comida
Figura 1.2 Dos variables que están completamente no
relacionadas
Figura 1.1 Datos sobre consumo de comida y peso corporal para

Decimos que dos variables, X e Y, están
cuatro individuos completamente no relacionadas si el conocimiento
de un valor de X para un caso determinado no
Podemos retratar estos datos en un gráfico -como proveería de ayuda alguna en predecir el valor de Y
el anterior- designando consumo de comida al eje para dicho caso. Para los datos diagramados en la
horizontal (o lo que los matemáticos llaman eje x) y figura 1.2, si nos dicen que ese caso tiene un valor
peso corporal al eje vertical (eje y) y parcelar alto en X, no resulta de ayuda para predecir la
cuatro puntos en el gráfico, uno para cada
puntuación del caso en Y, ya que los casos con
persona. (La costumbre casi uniforme en las altos valores en X tienen puntajes en Y distribuidos
ciencias sociales es usar el eje horizontal para la indistintamente en valores altos y bajos. Lo mismo
variable independiente y el eje vertical para la es verdad para casos que tienen bajo valor en X. En
variable dependiente) la posición para cada punto
contraste, para los datos en la figura 1.1, el
es determinada por los valores de PESO y COMIDA conocimiento de que un caso tiene un alto valor en
para la persona asociada. Por ejemplo, en el X predecirá que ese caso también tiene un alto
gráfico de la figura 1.1, el punto inferior izquierdo
valor en Y de manera mucho más razonable que
que representa a Carol se posiciona 1.000 unidades
una predicción que dé una baja puntuación en Y.
hacia afuera en el eje horizontal (denotando
COMIDA) y 120 unidades hacia arriba en el eje Los científicos sociales usan el término correlación
vertical (denotando PESO). como una forma de describir la fuerza de la
relación entre dos variables.
Este tipo de gráfico es llamado diagrama de
dispersión porque señala la desviación de los Tal vez hayan oído este término utilizado en el
valores X e Y. La gran ventaja de la presentación discurso diario para expresar la cercanía de una
gráfica de estos datos sobre el formato de tablas es relación. La medida formal de correlación es
que el gráfico nos permite observar de manera llamada el coeficiente de correlación, y esto es casi
más fácil la relación entre el consumo de comida y siempre denotado por una r minúscula. El
el peso corporal. coeficiente de correlación va del rango -1 al rango
+1. Un coeficiente de correlación igual a cero
Esto es particularmente verdadero cuando hay un significa que no hay relación entre X e Y; la relación
abultado número de casos, lo cual hace difícil o en la figura 1.2, por ejemplo, tiene un r = 0. A
imposible observar patrones con los datos medida que r aumenta o disminuye desde cero, la
presentados en columnas. Para los cuatro
relación se hace más fuerte. Un coeficiente de
individuos cuyo consumo de comida y peso relación positivo -un coeficiente mayor a cero-
corporal están marcados en la figura 1.1, parece implica una relación en la cual, a medida que el
que altos valores de PESO tienden a estar valor de X aumenta sobre los casos, el valor de Y
asociados con altos valores de COMIDA. En
tiende a incrementarse (como en la figura 1.1). En
contraste, el gráfico en la figura 1.2 muestra una contraste, un coeficiente de correlación negativo
situación en la cual no hay relación entre dos -menor que cero- significa que el valor de Y tiende
variables para un grupo de veinte casos. a disminuir a medida que el valor de X aumenta.
Los valores extremos para r de +1 y -1, indican una
relación lineal perfecta, esto es, aquella en la cual
todos los puntos del diagrama de dispersión caen
exactamente en una línea. Aunque el coeficiente
de correlación provee información útil sobre cuán
bien podemos predecir valores de Y si conocemos intersección para denotar el valor de Y cuando X
X, no nos dice nada sobre cuán sensible es Y a un equivale a 0; o, de manera equivalente, el punto en
cambio en X; esto es, cuánto cambia Y para un el cual la línea intercepta el eje vertical. (Los
cambio dado en X. En efecto, el coeficiente de matemáticos llaman a esta intersección la
correlación no nos ayuda a evaluar la fuerza del intersección Y, pero los científicos sociales se
impacto de X sobre Y. Por ejemplo, consideremos refieren a ella simplemente como la intersección,
los dos diagramas de dispersión en la figura 1.3. ya que rara vez tienen algún motivo para calcular la
Las relaciones representadas son iguales en fuerza intersección X.)
en términos del coeficiente de correlación; en
¡! Ejercitación: Traten de determinar la
ambos r = +0.75.
intersección para cada línea en la figura 1.4
Aun así, en un sentido diferente, podríamos
Así, la intersección de la línea de puntos en la
cosiderar la relación mostrada en el diagrama de
figura 1.4 es 1 y aquella para la línea sólida es 3.
dispersión A como más fuerte que aquella
mostrada en el diagrama de dispersión B. Nótese La pendiente de una línea es definida como el
cómo la dispersión de puntos crece más cambio en Y asociado con el incremento de una
rápidamente de izquierda a derecha en A que en B. unidad en X. Debido a que una línea es recta, la
Así, a medida que el valor X incrementa, el valor de pendiente de una línea es la misma,
Y incrementa por una mayor cantidad en el independientemente del nivel de X en el cual es
diagrama de dispersión A que en el diagrama de calculada.
dispersión B. Esto pone en claro, que Y es más
¡! Ejercitación: Determinen la pendiente para cada
sensible a un cambio de X en A que en B.
línea en la figura 1.4
El análisis de regresión mide la fuerza de la relación
En el caso de la línea punteada en la figura 1.4, un
entre X e Y en este sentido de sensibilidad. Por esta
incremento de una unidad en X es asociado con un
razón, el análisis de regresión es más útil para
incremento de dos unidades en Y, entonces la
calcular causalidad, que para calcular un
pendiente es 2. En contraste, para la línea sólida, el
coeficiente de correlación.
incremento de una unidad en X produce una
disminución de un cuarto de unidad en Y (por
ejemplo, un cambio de menos un cuarto en Y),
entonces la pendiente de la línea es -0.25. (Otra
manera de decir esto es que un incremento de 4
unidades en X es asociado con un descenso de una
unidad en Y).
Paralelamente a la distinción entre correlaciones
positivas y negativas, las líneas cuya pendiente va
hacia arriba de izquierda a derecha (como la línea
punteada en la figura 1.4), y por lo tanto, tienen
una pendiente positiva, son descriptas como
reflejando relaciones positivas, mientras que las
líneas con pendiente hacia abajo (como la línea
sólida en la figura 1.4) se dice que indican
relaciones negativas.
La ecuación matemática para una línea toma una
forma simple:
Figura 1.3 Dos diagramas de dispersión con coeficientes de Yi=b0+b1X1
correlación de +0.75
Esta ecuación tal vez sea familiar de los cursos de
álgebra de la escuela, donde probablemente hayas
Las líneas y sus ecuaciones aprendido que la ecuación para una línea recta
toma la forma de:
Los diagramas de dispersión -tales como aquellos
graficados en las figuras 1.1, 1.2, y 1.3- muestran Y=m+b
los valores de casos específicos en las variables X e
Donde m denota la pendiente y b es la intersección
Y. También podemos graficar líneas expresando la
Y.
relación entre X e Y, tales como las líneas en la
figura 1.4. Los científicos sociales usan el término
efecto en el peso corporal, y que la relación entre
consumo de comida y el peso de un individuo
(cuando todas las otras influencias sobre el peso
son mantenidas constantes en valores específicos)
es descripta por la línea:
PESOi=75+0.036(COMIDAi)
Recordando que PESO es medido en libras y
COMIDA en calorías, la ecuación implica que el
impacto del consumo de comida en el peso
corporal puede ser descripto como uno en el cual
el incremento de 1 caloría en el consumo diario
promedio de comida resulta en un incremento de
0.036 libras en el peso de un individuo. De manera
equivalente, un incremento de 100 calorías resulta
en un aumento esperado de 3.6 libras
(=100*0.036)1.
Figura 1.4 Dos líneas

2. El modelo de regresión bivariado
Sin embargo, los científicos sociales usualmente
La ecuación
usan algún símbolo involucrando la “b” (o el
equivalente griego, β) para denotar la pendiente, y Supongamos que creemos que X es la causa de Y
usan subíndices para distinguir la pendiente de la en una población. La ecuación de regresión
intersección. bivariada expresa el valor de Y para cualquier caso i
en términos de la intersección b subíndice 0 (b0), el
Incluimos el subíndice i en las variables X e Y para
valor de X para el caso i, el coeficiente de la
denotar el caso en observación. Así Xi-pronunciado
pendiente b subíndice 1 (b1), y el valor para un
“X subíndice i”- denota el valor de la variable X
término de error (o error de perturbación), e para
para el caso i. Como la intersección de la línea
el caso i:
punteada en la figura 1.4 es 1 y su pendiente es 2,
su ecuación puede ser escrita: 2.1: Yi=b0+b1Xi+ei
Yi=1+2Xi Nótese que X, Y ye tienen un caso suscripto
(subindicado), i, mientras que la intersección b0 y el
O a veces, más simplemente (sin el caso del
coeficiente de la pendiente b 1 no lo tienen. Esto es
subíndice) como:
porque X, Y y e son variables, el valor que variará
Y=1+2X de caso en caso, pero la intersección y la pendiente
son constantes.
La ecuación para la línea sólida es expresada como:
La primera parte de la ecuación 2.1 (Yi=b0+b1Xi)la
Yi=3-0.25Xi(ó Y=3-0.25X)
reconocemos por una línea; esta línea es
reconocida como la línea de regresión. El último
La pendiente como magnitud del impacto de X en Y
término, el término de error e, es incluido porque
Si tenemos una teoría plausible de cómo X en el mundo real, aun si X tiene un muy fuerte
influencia Y, y tenemos un gráfico de una línea efecto en Y, no esperaríamos casos que tengan
mostrando la relación entre X e Y cuando otras valores para X e Y, que caigan exactamente sobre
variables que influyen en Y son mantenidas la línea de regresión.
constantes, entonces la pendiente de la línea nos
En su lugar, otros factores probablemente afecten
dice la magnitud del impacto de X en Y, tal que
a Y de modo que el valor de Y para un caso
muestra cuánto Y cambia en respuesta a un
particular probablemente caiga por arriba o por
cambio en X.
debajo de la línea. Estos otros factores son
Por esta razón, la pendiente es considerada la abarcados en el término de error e. Otra manera
medida fundamental del tamaño del impacto de de pensar en esto es que para cualquier caso i, la
una variable en otra. línea de regresión Yi=b0+b1Xiasocia el valor más
Para regresar a nuestro ejemplo anterior, 1
En las Ciencias Sociales, el asterisco (*) o punto (.) es usado
asumimos que el consumo de comida tiene un para indicar multiplicación
probable (también llamado el valor esperado) para
la variable dependiente Y con el valor de X para
dicho caso. Entonces, el término de error e
irepresenta la desviación del valor actual de la
variable dependiente para el caso de su valor
esperado.
De nuevo, consideremos la relación entre consumo
de comida y peso corporal. Mientras que el
consumo de comida definitivamente influye en el
peso de una persona, no determina exactamente
el peso. Hay otras variables que afectan el peso;
estas incluyen edad, estatura, sexo y cantidad de
ejercicio. El efecto combinado de estas variables y
Figura 2.1. Representación gráfica de la ecuación de regresión
todos los otros factores que determinan el peso, bivariada 2.4
está representado por el término de error e.
Consecuentemente, expresaríamos la relación La intersección
entre el consumo de comida de un individuo y su La intersección, b0, de una ecuación de regresión
peso con la siguiente fórmula: puede ser interpretada como el valor esperado de
2.2:PESOi=b0+b1(COMIDAi) + ei Y para casos que tienen un puntaje de cero en X.
La meta de la investigación empírica sobre el En un gráfico, este es el valor al cual la línea de
impacto de consumo de comida en el peso usando regresión intercepta el eje vertical. En algunas
el análisis de regresión sería medir la intersección aplicaciones de la regresión, una intersección
b0 y el coeficiente de la pendiente b1 de la ecuación transmite información útil sustantiva. Por ejemplo,
2.2. Pero solo de manera ilustrativa, supongamos imagina un estudio de candidatos para el congreso.
estos valores en una población, b0=75 y b1=0.036 En una regresión con el porcentaje de voto
(como en el ejemplo anterior). La ecuación 2.2 recibido como variable dependiente y gasto de
puede escribirse: campaña como variable independiente, la
intersección es el porcentaje esperado del voto
2.3:PESOi= 75 +0.036 (COMIDAi) + ei para el candidato con un gasto cero en la campaña.
La figura 2.1 representa la relación expresada en la Así, nos dice cuánto un candidato que gasta nada
ecuación 2.3 en un gráfico. La línea representa la de dinero podría esperarse que le vaya en la
ecuación jornada electoral.
2.4: PESOi= 75 + 0.036 (COMIDAi) En otras situaciones, la intersección es menos
Y muestra el peso esperado (o probable) para cada significativa, y en algunos casos recae en
valor de consumo de comida. Los puntos interpretaciones sin sentido.
representan los valores de COMIDA y PESO para ¡! Interpreten el significado de la intersección en la
una muestra de 22 casos de una población mayor. figura 2.1
Nótese que los puntos no caen exactamente en En el gráfico en la figura 2.1 la intersección es 75,
esta línea debido a la intervención del término de implicando que el peso esperado de un individuo
error ei para cada caso. En la figura 2.1 podemos con un consumo de comida de cero calorías
observar los tres elementos de una ecuación de (ejemplo: una persona que nunca come) es 75
regresión: la intersección, el coeficiente de la libras. Por supuesto, esta interpretación es ridícula,
pendiente, y el término de error. tanto que alguien que nunca come, moriría. Pero
esto no significa que el modelo de regresión es
erróneo; más bien, al interpretar la intersección
como lo hemos hecho, hemos cometido el error de
aplicar el modelo de regresión para determinar el
peso esperado de un individuo por fuera del rango
de valores plausibles para consumo de comida.
Ciertamente, en una población de individuos bajo
consideración, con un consumo diario promedio de
entre 800 y 5000 calorías, la intersección no
tendría ningún significado sustantivo. Sin embargo,
nótese que la intersección no es nada más que un o incluso con un conjunto numeroso de variables
valor esperado de la variable dependiente en un independientes; una parte del comportamiento es
valor particular de la variable independiente (cero), esencialmente azaroso y, entonces, inexplicable.)
y la ecuación de regresión puede ser usada para Esta interpretación del término de error implica lo
determinar el peso esperado de individuos con siguiente. Para un caso dado, cuando el impacto
otros niveles de consumo de comida. combinado de todas las variables influenciando Y
(además de X) y la aleatoriedad hace que el valor
Por ejemplo, en un determinado momento, una
de Y para un caso sea mayor que el valor esperado
persona comiendo una cantidad de comida
de X, entonces el término de error para el caso es
extremadamente baja -digamos, 800 calorías por
positivo. Si en su lugar, el impacto combinado de
día-, tiene un peso esperado de 75 + (0.036 * 800)
estos factores hace que el valor de Y para el caso
= 75 + 28.8 = 103.8 libras.
sea menor que el valor esperado para Y en dicho
El coeficiente de la pendiente caso, entonces el valor del término de error es
negativo.
Mientras la intersección podría tener un significado
sustantivo en una regresión dada, el coeficiente de En nuestra ecuación de regresión del peso (2.3), el
la pendiente siempre es relevante. término de error refleja el impacto combinado de
todas las variables que influencian el peso de una
El coeficiente de la pendiente, b1, para un modelo
persona en adición al consumo de comida más
de regresión (a veces llamado el coeficiente de
cualquier aleatoriedad inherente en el proceso por
regresión o el parámetro de regresión, o
el cual el peso de un individuo es determinado. Ya
simplemente la pendiente) puede ser visto como
hemos especulado que las variables reflejadas en
una medida del efecto de X en Y; nos dice el
el término de perturbación incluyen altura, sexo,
cambio en el valor (esperado) (o promedio) de Y
edad y cantidad de ejercicio e, indudablemente,
resultante del incremento de una unidad en X.
otras variables que se podrían sumar a la lista. En
¡! Interpreten el significado del coeficiente de la la figura 2.1, consideren el caso denotado por A
pendiente, 0.036, en la figura 2.1 con un valor para comida de 2.232.
En la figura 2.1, ya que el consumo de comida es Usando la ecuación 2.4, podemos calcular que el
medido en calorías y peso es medido en libras, la valor esperado de peso para el caso es 75 + 0.036
pendiente de 0.036 indica que el incremento de (COMIDAi) = 75 + (0.036*2.232) = 155.4. El término
una caloría en el consumo de comida promedio de error para este caso es muy bajo en -1.2, y
por día resulta en un incremento en el peso entonces el punto para A es justo debajo de la
esperado de 0.036 libras. Sin embargo, ya que una línea de regresión.
caloría representa tan poca suma de comida, sería
Por ende, la ecuación 2.3 nos dice que el actual
más útil para describir la respuesta del peso
valor Y para este caso es 154.2 (el valor esperado
corporal a un cambio más sustancial en el
para Y, 155.4 menos 1.2). Presten atención ahora
consumo.
al punto B, con un valor de COMIDA de 3,400. El
Por ejemplo, podríamos establecer que si un término de error para este caso, por contraste, es
individuo incrementó su consumo diario en 500 grande y negativo (-32.9), entonces el valor de
calorías, esperaríamos que su peso incrementara PESO para el caso (164.5) cae bien debajo de su
en 18 (ejemplo: 500 * 0.036 libras). nivel esperado de 75 + (0.036 * 3,400) = 194.4, y
así el punto para B es sustantivamente más bajo
El error o término de perturbación
que la línea de regresión. C, finalmente, denota un
El error o término de perturbación, e, representa el caso para el cual el término de perturbación es
efecto combinado de todas las otras variables grande y positivo en +30.2.
(excluyendo X) que tienen un impacto en la
Algunos supuestos necesarios
variable dependiente, más cualquier “aleatoriedad
inherente” en la determinación de valor en la Al construir la figura 2.1, asumimos que sabíamos
variable dependiente. (La racionalidad para el la intersección y el coeficiente de la pendiente para
componente de “aleatoriedad” es que el la línea de regresión que caracterizaba el efecto del
comportamiento de las unidades típicamente consumo de comida sobre el peso en la población
estudiadas por cientistas sociales -sean estos de estudio. Por supuesto, en el mundo real de la
individuos, organizaciones, provincias, naciones u investigación, no conocemos los valores reales
otras unidades- es suficientemente complejo que para estos coeficientes en la población.
nunca podríamos contar completamente para ese Típicamente tenemos información para una
comportamiento con una variable independiente, muestra de casos azarosamente seleccionados de
la población y tenemos que estimar los Insatisfecho, 3 = Satisfecho, 4 = Poco satisfecho.
coeficientes de la ecuación sobre los datos de la Esta variable tiene más de dos categorías, y por lo
muestra. Es importante entender que varios tanto, no es dicotómica. Tampoco es una variable
supuestos deben ser conocidos para la información de nivel intervalar, porque no hay una buena razón
para dar buenas estimaciones de los coeficientes para creer que la diferencia de una unidad en la
de la población y que si alguno de esos supuestos escala siempre refleja la misma diferencia en la
son violados, no podemos estar confiados en que satisfacción con el trabajo como cualquier otra
las estimaciones de la intersección y la pendiente diferencia de una unidad. Por ejemplo, la
son estimaciones razonables de los valores diferencia en satisfacción entre dos con puntajes
verdaderos de los coeficientes en una población. de 2 (“Insatisfecho”) y 3 (“satisfecho”). Aunque los
Algunos de estos supuestos están más allá del cuatro valores de satisfacción son expresados en
ánimo de este libro, tanto que entender su números, los números son meramente símbolos
significado preciso requiere un conocimiento en convenientes para los cuatro niveles de
estadística, pero algunos de los supuestos críticos, satisfacción y no son información suficiente para
pueden ser entendidos rápidamente sin ningún dar cuenta de las diferencias entre las cuatro
conocimiento previo en estadística. escalas de valores.
Supuesto 1: La variable independiente es medida Esto no siempre detiene a los investigadores de
en el nivel intervalar, o es dicotómica. Una variable incluir una variable (como por ejemplo
dicotómica (a veces llamada variable binaria, o de “satisfacción con el trabajo”) como variable
una variable [dummy]) es una que puede tomar independiente en un análisis de regresión. Todavía,
dos valores posibles. Un ejemplo es el sexo de un los investigadores deberían entender que cuando
individuo, el que puede ser femenino o masculino. hacen eso, están implícitamente asumiendo que
Una variable medida en el nivel intervalar es cada un incremento de un punto en la escala (de 1
aquella para la cual la diferencia de una unidad en a 2, de 2 a 3, y de 3 a 4) refleja el mismo
los puntajes numéricos (ejemplo: aquel entre 2 y 3, incremento en la satisfacción.
o entre 456 y 457) refleja la misma diferencia en la
Supuesto 2: La variable dependiente es continua.
cantidad de la propiedad que está siendo medida.
Las variables continuas son variables intervalares
Las variables con niveles intervalares pueden ser que son libres de tomar cualquier valor numérico.
restringidas a un pequeño número de valores (tan Así, el número de niños en una familia no sería una
poco como tres) o pueden tener valores muy variable continua, porque está restringido a un
diferentes. pequeño número de valores enteros (0, 1, 2, 3,…);
no puede ser 2.46, por ejemplo.
El ingreso anual de una familia en dólares es una
variable de nivel intervalar, pues una diferencia de Las limitaciones de la medición sirven para
una unidad (ejemplo: un dólar) refleja una prevenir cualquier variable de ser verdaderamente
diferencia constante en la propiedad que es continua, tanto que incluso en una variable
medida (ingreso). (La diferencia de ingreso entre teóricamente continua debe ser redondeado
$35000 y $ 35001 es la misma diferencia entre cuando es medido, pero algunas variables están
$45000 y $45001). El número de niños en una tan cercanas a ser continuas, que pueden
familia es también medido en el nivel intervalar, fácilmente ser tratadas como tales.
aunque está constreñido a un número mucho
Por ejemplo, el ingreso anual medido a los más
menor de valores que ingreso.
cercanos miles de dólares (o incluso al dólar más
Las variables con nivel intervalar toman la forma cercano) no puede asumir cualquier valor, pero la
de una <<cuenta>> así, Ingreso es medido en U$S, mayoría de los analistas de regresión se sentirían
población en personas, o edad en años -o la cómodos tratando el ingreso medido en esta
proporción [ratio] de dos cuentas (como en el unidad como una variable continua.
ingreso per cápita de una nación, medido por el
Supuesto 3: Las variables en el modelo son
ingreso total en dólares dividido el total de
medidas perfectamente (Ejemplo: Sin medida de
personas).
error). En la ilustración del peso corporal, si el peso
Algunas variables no son dicotómicas ni de nivel fuera medido con una balanza de baño, tenemos
intervalar y por lo tanto, no deberían ser usadas que asumir que la escala es siempre exacta; si
como variable independiente en un modelo de fuera medido a través de respuestas en una
regresión. Por ejemplo, considera la satisfacción de encuesta, tenemos que asumir que las personas
un empleado con su trabajo medido usando cuatro saben su propio peso y lo reportan verazmente en
valores ordenados: 1 = Muy satisfecho, 2 = la encuesta.
Supuesto 4: El efecto de la variable independiente, artículos basados en regresión, es probable que se
X, en la variable dependiente, Y, es lineal. crucen con términos tales como
Sustantivamente, esto significa que la fuerza del heteroscedasticidad y autocorrelación, dos
efecto de X en Y es la misma independientemente características de un modelo de término de error
del nivel de X. Si este supuesto no se mantuviera, que violan los supuestos de la regresión. Por ahora,
sería inapropiado caracterizar el efecto de X en Y lo que necesitan saber solamente es que aunque la
en un gráfico por una línea recta (ejemplo, una heteroscedasticidad y la autocorrelación tienen
curva con una pendiente constante). (Si el efecto consecuencias negativas para el análisis de
de una variable independientemente del nivel de regresión (que aprenderán en los cursos futuros),
X. Si este supuesto no se mantuviera, sería cuando uno -o los dos- están presentes, el
inapropiado caracterizar el efecto de X e Y en un coeficiente de la pendiente y la intersección para el
gráfico por una línea recta, por ejemplo, una curva modelo de regresión todavía pueden ser
con una pendiente constante.) (Si el efecto de una interpretados como si todos los supuestos de la
variable independiente sobre una dependiente regresión fueran cumplidos. (En cursos más
varía con el valor de la variable independiente, el avanzados aprenderán maneras para detectar la
efecto es denominado no lineal. Aunque la heteroscedasticidad y la autocorrelación, y
regresión básica del modelo es lineal, algunos tipos técnicas para superar sus consecuencias.)
de efectos no lineales pueden ser especificados en
Debido a que los supuestos de regresión son tan
una regresión usando transformaciones
demandantes, y porque muchos supuestos no
matemáticas de las variables de la ecuación.)
pueden ser testeados directamente -podemos solo
Supuesto 5: El error o término de perturbación especular sobre si son conocidos en una
está completamente no correlacionado con la determinada aplicación del análisis de regresión-
variable independiente. Mencionemos que el en la práctica, un investigador nunca puede
término de error representa el efecto sobre la exclamar confiadamente que todos los supuestos
variable dependiente de todas las otras variables de la regresión han sido satisfechos
que la variable independiente X, más cualquier completamente.
aleatoriedad inherente en el proceso por el cual Y
En otras palabras, si un supuesto ha sido cumplido
es determinada. Por lo tanto, la única manera en
es realmente una cuestión de grado. Cuando
que podemos estar confiados que el término de
declaramos que los supuestos de la regresión han
error no esté correlacionado con la variable
sido satisfechos para un modelo específico,
independiente es creer que cualquier variable
estamos aseverando que hay una buena razón
(aparte de la variable independiente) que tiene
para creer que los supuestos han sido
una influencia sustancial sobre la variable
aproximadamente conocidos. Aprender cuán
dependiente no está correlacionado con la variable
cercana una aproximación es necesaria para
independiente. Como se puede ver, este supuesto
justificar el análisis de regresión es un tópico para
es extremadamente demandante. Por otra parte,
cursos avanzados en regresión, y un buen
la asertividad respecto de si el supuesto es
entendimiento de esto viene solo con la
verdadero es difícil, porque incluye una
experiencia en análisis cuantitativos.
especulación sobre variables numerosas con
impacto potencial en la variable dependiente. En la Estimando coeficientes con información de una
ilustración sobre el peso corporal, si las personas muestra
que comen menos tienden a ser más conscientes
Si los varios supuestos del modelo bivariado de
de su salud entonces tienden a ejercitarse más
regresión han sido satisfechos, es apropiado
frecuentemente, habría una relación entre
estimar el coeficiente de la pendiente y la
consumo de comida y nivel de ejercicio, y puesto
intersección en la población: 1) seleccionando una
que la cantidad de ejercicio indudablemente
muestra al azar de casos de la población a la cual la
influencia el peso, el supuesto 5 sería violado.
ecuación de regresión aplica, 2) midiendo X e Y
Pero el supuesto sería también violado si otras para cada caso en la muestra, y luego 3) usando el
variables que no hemos pensado influyeran en el análisis de regresión (técnicamente regresión OLS
peso y estuvieran correlacionadas con el consumo -Ordinary Least Squares-) para determinar la
de comida. pendiente y la intersección de la línea de regresión
para la muestra. En esencia, este cálculo implica un
En general, el quinto es uno de varios supuestos
procedimiento matemático que es el equivalente
del análisis de regresión, los que juntos implican
funcional de graficar los valores de X e Y en un
que el término de error es “azaroso” en su efecto
diagrama de dispersión y dibujar en la línea que
sobre la variable dependiente. Cuando lean
mejor ajusta la distribución de puntos en el gráfico.
El análisis de regresión, sin embargo, identifica la coeficiente de la pendiente y de la intersección en
línea que mejor encaja mucho más efectivamente la muestra pueden ser vistos como estimaciones
que lo que nosotros alguna vez podríamos medir razonables de esos valores en la población
meramente con una inspección visual de un completa. (Esto es casi lo mismo que en un
diagrama de dispersión. Por ejemplo, consideren la experimento, cuando usamos una muestra
figura 2.2, que reproduce el diagrama de aleatoria para hacer inferencias sobre una
dispersión de la figura 2.1. Es obvio desde una población mayor de la cual la muestra fue
rápida mirada que las líneas 2 y 3 capturan la dibujada.) Entonces, los coeficientes de la muestra
locación de los puntos mejor que las líneas 1 y 4. frecuentemente están referidos a la intersección
Pero escogiendo entre las líneas 2 y 3 sobre la base estimada y el coeficiente estimado de la pendiente.
de la inspección visual sola es difícil.
Aunque la intersección y el coeficiente de la
En contraste, el análisis de regresión OLS involucra pendiente estimados pueden ser vistos como
un procedimiento matemático, generalmente estimaciones razonables de los valores reales de
hecho por una computadora, que siempre provee los coeficientes en la población (si los supuestos
una única línea que mejor ajusta. Esta línea es la del análisis de regresión han sido conocidos), no
“mejor” de acuerdo a una definición específica hay nunca una buena razón para creer que las
dentro de este procedimiento. Como su nombre estimaciones para la muestra coinciden sus valores
formal sugiere (Ordinary Least Squares), el en la población exactamente.
procedimiento hace las matemáticas equivalentes
Consideren la figura 2.4, la cual de nuevo
de tratar todas las líneas posibles e identificar
reproduce el diagrama de dispersión de la figura
aquella que minimiza la suma de los cuadrados de
2.1. La línea sólida en la figura 2.4 es la
las distancias verticales entre los puntos en el
“verdadera” línea de regresión para la población,
diagrama y la línea.2 La figura 2.3 reproduce las
líneas 2 y 4 de la figura 2.2. Pueden ver de los
gráficos que las distancias verticales entre los
puntos y la línea son generalmente menores para
la “mejor línea” 2. [Better fitting line 2]
Figura 2.2
Cuando estudien análisis de regresión en cursos

posteriores, aprenderán sobre varias propiedades
estadísticas del procedimiento OLS que justifican
su uso. Por ahora, lo que es importante es que si
los supuestos de la regresión son conocidos y los
datos para X e Y para una muestra aleatoria de una
población están disponibles, los valores del
Figura 2.3
2
El cuadrado de un número significa el número multiplicado por
sí mismo.
Figura 2.4
y la línea de puntos es la línea de regresión de la

muestra; es decir, es la línea estimada para la
población al aplicar el procedimiento de regresión
OLS a una muestra de 22 casos3.
Aunque la línea estimada es la que mejor ajusta
para el diagrama de puntos y es cercano a la línea
verdadera, la intersección y la pendiente de la línea
verdadera y la estimada no se corresponden
exactamente.
Sin embargo, los estadísticos han probado que
cuando los supuestos de la regresión son
cumplidos, la intersección y el coeficiente de la
pendiente estimados son insesgados; por esto
queremos decir que si repetimos el procedimiento
OLS en un número largo de muestras aleatorias de
la población, las estimaciones de los coeficientes
que obtuvimos serían, en promedio, igual a sus
verdaderos valores en la población. En algunas
muestras, un estimativo será muy alto, y en otras,
muy bajo; pero en promedio, las estimaciones
darían en el blanco. Desafortunadamente, nunca
sabemos si la muestra específica que estamos
usando es una en la cual la estimación es muy alta
o muy baja. Esto es una limitación inherente de no
poder observar todos los casos en la población de
interés.
No obstante, la pieza de información más crítica
producida por una regresión bivariada es la
estimación del coeficiente de la pendiente, ya que
es el mejor indicador disponible del impacto de X
sobre Y en la población4.
3 En la práctica, nunca podemos saber la verdadera línea de

regresión en la población. De hecho, si conociéramos la línea,
no necesitaríamos estimar su intersección y el coeficiente de la entera de interés (por ejemplo, los 50 estados de EEUU). Si los
pendiente usando la regresión OLS y datos de una muestra. investigadores tienen datos de la población entera o solo de
4
una muestra aleatoria, el coeficiente de la pendiente estimativo
En algunos casos, incluyendo algunos de nuestros anteriores se mantiene como el mejor indicador del impacto de X en Y.
ejemplos, los investigadores tienen datos sobre la población

Regresiones - Berry & Sanders

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresiones - Berry & Sanders

Uploaded by

Copyright:

Available Formats

ENTENDIENDO LA INVESTIGACIÓN MULTIVARIADA

Un primer acercamiento para científicos sociales

William D. Berry & Mitchell S. Sanders

1. Introducción Tomemos una mirada más aproximada a lo que

Figura 1.1 Datos sobre consumo de comida y peso corporal para

Figura 1.4 Dos líneas

Cuando estudien análisis de regresión en cursos

y la línea de puntos es la línea de regresión de la

3 En la práctica, nunca podemos saber la verdadera línea de

You might also like

Regresiones - Berry &amp; Sanders

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Regresiones - Berry &amp; Sanders

Uploaded by

Copyright:

Available Formats

ENTENDIENDO LA INVESTIGACIÓN MULTIVARIADA

Un primer acercamiento para científicos sociales

William D. Berry & Mitchell S. Sanders

1. Introducción Tomemos una mirada más aproximada a lo que

Figura 1.1 Datos sobre consumo de comida y peso corporal para

Figura 1.4 Dos líneas

Cuando estudien análisis de regresión en cursos

y la línea de puntos es la línea de regresión de la

3 En la práctica, nunca podemos saber la verdadera línea de

You might also like

Regresiones - Berry & Sanders

Regresiones - Berry & Sanders