Professional Documents
Culture Documents
400
Y
100 300
200
50 100
0
0 0 2 4 6 8
0 1,000 2,000 3,000 4,000 Casos con baja p X Casos con baja
untuación en X puntuación en Y
x=comida
Figura 1.2 Dos variables que están completamente no
relacionadas
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 4
bien podemos predecir valores de Y si conocemos intersección para denotar el valor de Y cuando X
X, no nos dice nada sobre cuán sensible es Y a un equivale a 0; o, de manera equivalente, el punto en
cambio en X; esto es, cuánto cambia Y para un el cual la línea intercepta el eje vertical. (Los
cambio dado en X. En efecto, el coeficiente de matemáticos llaman a esta intersección la
correlación no nos ayuda a evaluar la fuerza del intersección Y, pero los científicos sociales se
impacto de X sobre Y. Por ejemplo, consideremos refieren a ella simplemente como la intersección,
los dos diagramas de dispersión en la figura 1.3. ya que rara vez tienen algún motivo para calcular la
Las relaciones representadas son iguales en fuerza intersección X.)
en términos del coeficiente de correlación; en
¡! Ejercitación: Traten de determinar la
ambos r = +0.75.
intersección para cada línea en la figura 1.4
Aun así, en un sentido diferente, podríamos
Así, la intersección de la línea de puntos en la
cosiderar la relación mostrada en el diagrama de
figura 1.4 es 1 y aquella para la línea sólida es 3.
dispersión A como más fuerte que aquella
mostrada en el diagrama de dispersión B. Nótese La pendiente de una línea es definida como el
cómo la dispersión de puntos crece más cambio en Y asociado con el incremento de una
rápidamente de izquierda a derecha en A que en B. unidad en X. Debido a que una línea es recta, la
Así, a medida que el valor X incrementa, el valor de pendiente de una línea es la misma,
Y incrementa por una mayor cantidad en el independientemente del nivel de X en el cual es
diagrama de dispersión A que en el diagrama de calculada.
dispersión B. Esto pone en claro, que Y es más
¡! Ejercitación: Determinen la pendiente para cada
sensible a un cambio de X en A que en B.
línea en la figura 1.4
El análisis de regresión mide la fuerza de la relación
En el caso de la línea punteada en la figura 1.4, un
entre X e Y en este sentido de sensibilidad. Por esta
incremento de una unidad en X es asociado con un
razón, el análisis de regresión es más útil para
incremento de dos unidades en Y, entonces la
calcular causalidad, que para calcular un
pendiente es 2. En contraste, para la línea sólida, el
coeficiente de correlación.
incremento de una unidad en X produce una
disminución de un cuarto de unidad en Y (por
ejemplo, un cambio de menos un cuarto en Y),
entonces la pendiente de la línea es -0.25. (Otra
manera de decir esto es que un incremento de 4
unidades en X es asociado con un descenso de una
unidad en Y).
Paralelamente a la distinción entre correlaciones
positivas y negativas, las líneas cuya pendiente va
hacia arriba de izquierda a derecha (como la línea
punteada en la figura 1.4), y por lo tanto, tienen
una pendiente positiva, son descriptas como
reflejando relaciones positivas, mientras que las
líneas con pendiente hacia abajo (como la línea
sólida en la figura 1.4) se dice que indican
relaciones negativas.
La ecuación matemática para una línea toma una
forma simple:
Figura 1.3 Dos diagramas de dispersión con coeficientes de Yi=b0+b1X1
correlación de +0.75
Esta ecuación tal vez sea familiar de los cursos de
álgebra de la escuela, donde probablemente hayas
Las líneas y sus ecuaciones aprendido que la ecuación para una línea recta
toma la forma de:
Los diagramas de dispersión -tales como aquellos
graficados en las figuras 1.1, 1.2, y 1.3- muestran Y=m+b
los valores de casos específicos en las variables X e
Donde m denota la pendiente y b es la intersección
Y. También podemos graficar líneas expresando la
Y.
relación entre X e Y, tales como las líneas en la
figura 1.4. Los científicos sociales usan el término
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 5
efecto en el peso corporal, y que la relación entre
consumo de comida y el peso de un individuo
(cuando todas las otras influencias sobre el peso
son mantenidas constantes en valores específicos)
es descripta por la línea:
PESOi=75+0.036(COMIDAi)
Recordando que PESO es medido en libras y
COMIDA en calorías, la ecuación implica que el
impacto del consumo de comida en el peso
corporal puede ser descripto como uno en el cual
el incremento de 1 caloría en el consumo diario
promedio de comida resulta en un incremento de
0.036 libras en el peso de un individuo. De manera
equivalente, un incremento de 100 calorías resulta
en un aumento esperado de 3.6 libras
(=100*0.036)1.
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 6
probable (también llamado el valor esperado) para
la variable dependiente Y con el valor de X para
dicho caso. Entonces, el término de error e
irepresenta la desviación del valor actual de la
variable dependiente para el caso de su valor
esperado.
De nuevo, consideremos la relación entre consumo
de comida y peso corporal. Mientras que el
consumo de comida definitivamente influye en el
peso de una persona, no determina exactamente
el peso. Hay otras variables que afectan el peso;
estas incluyen edad, estatura, sexo y cantidad de
ejercicio. El efecto combinado de estas variables y
Figura 2.1. Representación gráfica de la ecuación de regresión
todos los otros factores que determinan el peso, bivariada 2.4
está representado por el término de error e.
Consecuentemente, expresaríamos la relación La intersección
entre el consumo de comida de un individuo y su La intersección, b0, de una ecuación de regresión
peso con la siguiente fórmula: puede ser interpretada como el valor esperado de
2.2:PESOi=b0+b1(COMIDAi) + ei Y para casos que tienen un puntaje de cero en X.
La meta de la investigación empírica sobre el En un gráfico, este es el valor al cual la línea de
impacto de consumo de comida en el peso usando regresión intercepta el eje vertical. En algunas
el análisis de regresión sería medir la intersección aplicaciones de la regresión, una intersección
b0 y el coeficiente de la pendiente b1 de la ecuación transmite información útil sustantiva. Por ejemplo,
2.2. Pero solo de manera ilustrativa, supongamos imagina un estudio de candidatos para el congreso.
estos valores en una población, b0=75 y b1=0.036 En una regresión con el porcentaje de voto
(como en el ejemplo anterior). La ecuación 2.2 recibido como variable dependiente y gasto de
puede escribirse: campaña como variable independiente, la
intersección es el porcentaje esperado del voto
2.3:PESOi= 75 +0.036 (COMIDAi) + ei para el candidato con un gasto cero en la campaña.
La figura 2.1 representa la relación expresada en la Así, nos dice cuánto un candidato que gasta nada
ecuación 2.3 en un gráfico. La línea representa la de dinero podría esperarse que le vaya en la
ecuación jornada electoral.
2.4: PESOi= 75 + 0.036 (COMIDAi) En otras situaciones, la intersección es menos
Y muestra el peso esperado (o probable) para cada significativa, y en algunos casos recae en
valor de consumo de comida. Los puntos interpretaciones sin sentido.
representan los valores de COMIDA y PESO para ¡! Interpreten el significado de la intersección en la
una muestra de 22 casos de una población mayor. figura 2.1
Nótese que los puntos no caen exactamente en En el gráfico en la figura 2.1 la intersección es 75,
esta línea debido a la intervención del término de implicando que el peso esperado de un individuo
error ei para cada caso. En la figura 2.1 podemos con un consumo de comida de cero calorías
observar los tres elementos de una ecuación de (ejemplo: una persona que nunca come) es 75
regresión: la intersección, el coeficiente de la libras. Por supuesto, esta interpretación es ridícula,
pendiente, y el término de error. tanto que alguien que nunca come, moriría. Pero
esto no significa que el modelo de regresión es
erróneo; más bien, al interpretar la intersección
como lo hemos hecho, hemos cometido el error de
aplicar el modelo de regresión para determinar el
peso esperado de un individuo por fuera del rango
de valores plausibles para consumo de comida.
Ciertamente, en una población de individuos bajo
consideración, con un consumo diario promedio de
entre 800 y 5000 calorías, la intersección no
tendría ningún significado sustantivo. Sin embargo,
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 7
nótese que la intersección no es nada más que un o incluso con un conjunto numeroso de variables
valor esperado de la variable dependiente en un independientes; una parte del comportamiento es
valor particular de la variable independiente (cero), esencialmente azaroso y, entonces, inexplicable.)
y la ecuación de regresión puede ser usada para Esta interpretación del término de error implica lo
determinar el peso esperado de individuos con siguiente. Para un caso dado, cuando el impacto
otros niveles de consumo de comida. combinado de todas las variables influenciando Y
(además de X) y la aleatoriedad hace que el valor
Por ejemplo, en un determinado momento, una
de Y para un caso sea mayor que el valor esperado
persona comiendo una cantidad de comida
de X, entonces el término de error para el caso es
extremadamente baja -digamos, 800 calorías por
positivo. Si en su lugar, el impacto combinado de
día-, tiene un peso esperado de 75 + (0.036 * 800)
estos factores hace que el valor de Y para el caso
= 75 + 28.8 = 103.8 libras.
sea menor que el valor esperado para Y en dicho
El coeficiente de la pendiente caso, entonces el valor del término de error es
negativo.
Mientras la intersección podría tener un significado
sustantivo en una regresión dada, el coeficiente de En nuestra ecuación de regresión del peso (2.3), el
la pendiente siempre es relevante. término de error refleja el impacto combinado de
todas las variables que influencian el peso de una
El coeficiente de la pendiente, b1, para un modelo
persona en adición al consumo de comida más
de regresión (a veces llamado el coeficiente de
cualquier aleatoriedad inherente en el proceso por
regresión o el parámetro de regresión, o
el cual el peso de un individuo es determinado. Ya
simplemente la pendiente) puede ser visto como
hemos especulado que las variables reflejadas en
una medida del efecto de X en Y; nos dice el
el término de perturbación incluyen altura, sexo,
cambio en el valor (esperado) (o promedio) de Y
edad y cantidad de ejercicio e, indudablemente,
resultante del incremento de una unidad en X.
otras variables que se podrían sumar a la lista. En
¡! Interpreten el significado del coeficiente de la la figura 2.1, consideren el caso denotado por A
pendiente, 0.036, en la figura 2.1 con un valor para comida de 2.232.
En la figura 2.1, ya que el consumo de comida es Usando la ecuación 2.4, podemos calcular que el
medido en calorías y peso es medido en libras, la valor esperado de peso para el caso es 75 + 0.036
pendiente de 0.036 indica que el incremento de (COMIDAi) = 75 + (0.036*2.232) = 155.4. El término
una caloría en el consumo de comida promedio de error para este caso es muy bajo en -1.2, y
por día resulta en un incremento en el peso entonces el punto para A es justo debajo de la
esperado de 0.036 libras. Sin embargo, ya que una línea de regresión.
caloría representa tan poca suma de comida, sería
Por ende, la ecuación 2.3 nos dice que el actual
más útil para describir la respuesta del peso
valor Y para este caso es 154.2 (el valor esperado
corporal a un cambio más sustancial en el
para Y, 155.4 menos 1.2). Presten atención ahora
consumo.
al punto B, con un valor de COMIDA de 3,400. El
Por ejemplo, podríamos establecer que si un término de error para este caso, por contraste, es
individuo incrementó su consumo diario en 500 grande y negativo (-32.9), entonces el valor de
calorías, esperaríamos que su peso incrementara PESO para el caso (164.5) cae bien debajo de su
en 18 (ejemplo: 500 * 0.036 libras). nivel esperado de 75 + (0.036 * 3,400) = 194.4, y
así el punto para B es sustantivamente más bajo
El error o término de perturbación
que la línea de regresión. C, finalmente, denota un
El error o término de perturbación, e, representa el caso para el cual el término de perturbación es
efecto combinado de todas las otras variables grande y positivo en +30.2.
(excluyendo X) que tienen un impacto en la
Algunos supuestos necesarios
variable dependiente, más cualquier “aleatoriedad
inherente” en la determinación de valor en la Al construir la figura 2.1, asumimos que sabíamos
variable dependiente. (La racionalidad para el la intersección y el coeficiente de la pendiente para
componente de “aleatoriedad” es que el la línea de regresión que caracterizaba el efecto del
comportamiento de las unidades típicamente consumo de comida sobre el peso en la población
estudiadas por cientistas sociales -sean estos de estudio. Por supuesto, en el mundo real de la
individuos, organizaciones, provincias, naciones u investigación, no conocemos los valores reales
otras unidades- es suficientemente complejo que para estos coeficientes en la población.
nunca podríamos contar completamente para ese Típicamente tenemos información para una
comportamiento con una variable independiente, muestra de casos azarosamente seleccionados de
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 8
la población y tenemos que estimar los Insatisfecho, 3 = Satisfecho, 4 = Poco satisfecho.
coeficientes de la ecuación sobre los datos de la Esta variable tiene más de dos categorías, y por lo
muestra. Es importante entender que varios tanto, no es dicotómica. Tampoco es una variable
supuestos deben ser conocidos para la información de nivel intervalar, porque no hay una buena razón
para dar buenas estimaciones de los coeficientes para creer que la diferencia de una unidad en la
de la población y que si alguno de esos supuestos escala siempre refleja la misma diferencia en la
son violados, no podemos estar confiados en que satisfacción con el trabajo como cualquier otra
las estimaciones de la intersección y la pendiente diferencia de una unidad. Por ejemplo, la
son estimaciones razonables de los valores diferencia en satisfacción entre dos con puntajes
verdaderos de los coeficientes en una población. de 2 (“Insatisfecho”) y 3 (“satisfecho”). Aunque los
Algunos de estos supuestos están más allá del cuatro valores de satisfacción son expresados en
ánimo de este libro, tanto que entender su números, los números son meramente símbolos
significado preciso requiere un conocimiento en convenientes para los cuatro niveles de
estadística, pero algunos de los supuestos críticos, satisfacción y no son información suficiente para
pueden ser entendidos rápidamente sin ningún dar cuenta de las diferencias entre las cuatro
conocimiento previo en estadística. escalas de valores.
Supuesto 1: La variable independiente es medida Esto no siempre detiene a los investigadores de
en el nivel intervalar, o es dicotómica. Una variable incluir una variable (como por ejemplo
dicotómica (a veces llamada variable binaria, o de “satisfacción con el trabajo”) como variable
una variable [dummy]) es una que puede tomar independiente en un análisis de regresión. Todavía,
dos valores posibles. Un ejemplo es el sexo de un los investigadores deberían entender que cuando
individuo, el que puede ser femenino o masculino. hacen eso, están implícitamente asumiendo que
Una variable medida en el nivel intervalar es cada un incremento de un punto en la escala (de 1
aquella para la cual la diferencia de una unidad en a 2, de 2 a 3, y de 3 a 4) refleja el mismo
los puntajes numéricos (ejemplo: aquel entre 2 y 3, incremento en la satisfacción.
o entre 456 y 457) refleja la misma diferencia en la
Supuesto 2: La variable dependiente es continua.
cantidad de la propiedad que está siendo medida.
Las variables continuas son variables intervalares
Las variables con niveles intervalares pueden ser que son libres de tomar cualquier valor numérico.
restringidas a un pequeño número de valores (tan Así, el número de niños en una familia no sería una
poco como tres) o pueden tener valores muy variable continua, porque está restringido a un
diferentes. pequeño número de valores enteros (0, 1, 2, 3,…);
no puede ser 2.46, por ejemplo.
El ingreso anual de una familia en dólares es una
variable de nivel intervalar, pues una diferencia de Las limitaciones de la medición sirven para
una unidad (ejemplo: un dólar) refleja una prevenir cualquier variable de ser verdaderamente
diferencia constante en la propiedad que es continua, tanto que incluso en una variable
medida (ingreso). (La diferencia de ingreso entre teóricamente continua debe ser redondeado
$35000 y $ 35001 es la misma diferencia entre cuando es medido, pero algunas variables están
$45000 y $45001). El número de niños en una tan cercanas a ser continuas, que pueden
familia es también medido en el nivel intervalar, fácilmente ser tratadas como tales.
aunque está constreñido a un número mucho
Por ejemplo, el ingreso anual medido a los más
menor de valores que ingreso.
cercanos miles de dólares (o incluso al dólar más
Las variables con nivel intervalar toman la forma cercano) no puede asumir cualquier valor, pero la
de una <<cuenta>> así, Ingreso es medido en U$S, mayoría de los analistas de regresión se sentirían
población en personas, o edad en años -o la cómodos tratando el ingreso medido en esta
proporción [ratio] de dos cuentas (como en el unidad como una variable continua.
ingreso per cápita de una nación, medido por el
Supuesto 3: Las variables en el modelo son
ingreso total en dólares dividido el total de
medidas perfectamente (Ejemplo: Sin medida de
personas).
error). En la ilustración del peso corporal, si el peso
Algunas variables no son dicotómicas ni de nivel fuera medido con una balanza de baño, tenemos
intervalar y por lo tanto, no deberían ser usadas que asumir que la escala es siempre exacta; si
como variable independiente en un modelo de fuera medido a través de respuestas en una
regresión. Por ejemplo, considera la satisfacción de encuesta, tenemos que asumir que las personas
un empleado con su trabajo medido usando cuatro saben su propio peso y lo reportan verazmente en
valores ordenados: 1 = Muy satisfecho, 2 = la encuesta.
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 9
Supuesto 4: El efecto de la variable independiente, artículos basados en regresión, es probable que se
X, en la variable dependiente, Y, es lineal. crucen con términos tales como
Sustantivamente, esto significa que la fuerza del heteroscedasticidad y autocorrelación, dos
efecto de X en Y es la misma independientemente características de un modelo de término de error
del nivel de X. Si este supuesto no se mantuviera, que violan los supuestos de la regresión. Por ahora,
sería inapropiado caracterizar el efecto de X en Y lo que necesitan saber solamente es que aunque la
en un gráfico por una línea recta (ejemplo, una heteroscedasticidad y la autocorrelación tienen
curva con una pendiente constante). (Si el efecto consecuencias negativas para el análisis de
de una variable independientemente del nivel de regresión (que aprenderán en los cursos futuros),
X. Si este supuesto no se mantuviera, sería cuando uno -o los dos- están presentes, el
inapropiado caracterizar el efecto de X e Y en un coeficiente de la pendiente y la intersección para el
gráfico por una línea recta, por ejemplo, una curva modelo de regresión todavía pueden ser
con una pendiente constante.) (Si el efecto de una interpretados como si todos los supuestos de la
variable independiente sobre una dependiente regresión fueran cumplidos. (En cursos más
varía con el valor de la variable independiente, el avanzados aprenderán maneras para detectar la
efecto es denominado no lineal. Aunque la heteroscedasticidad y la autocorrelación, y
regresión básica del modelo es lineal, algunos tipos técnicas para superar sus consecuencias.)
de efectos no lineales pueden ser especificados en
Debido a que los supuestos de regresión son tan
una regresión usando transformaciones
demandantes, y porque muchos supuestos no
matemáticas de las variables de la ecuación.)
pueden ser testeados directamente -podemos solo
Supuesto 5: El error o término de perturbación especular sobre si son conocidos en una
está completamente no correlacionado con la determinada aplicación del análisis de regresión-
variable independiente. Mencionemos que el en la práctica, un investigador nunca puede
término de error representa el efecto sobre la exclamar confiadamente que todos los supuestos
variable dependiente de todas las otras variables de la regresión han sido satisfechos
que la variable independiente X, más cualquier completamente.
aleatoriedad inherente en el proceso por el cual Y
En otras palabras, si un supuesto ha sido cumplido
es determinada. Por lo tanto, la única manera en
es realmente una cuestión de grado. Cuando
que podemos estar confiados que el término de
declaramos que los supuestos de la regresión han
error no esté correlacionado con la variable
sido satisfechos para un modelo específico,
independiente es creer que cualquier variable
estamos aseverando que hay una buena razón
(aparte de la variable independiente) que tiene
para creer que los supuestos han sido
una influencia sustancial sobre la variable
aproximadamente conocidos. Aprender cuán
dependiente no está correlacionado con la variable
cercana una aproximación es necesaria para
independiente. Como se puede ver, este supuesto
justificar el análisis de regresión es un tópico para
es extremadamente demandante. Por otra parte,
cursos avanzados en regresión, y un buen
la asertividad respecto de si el supuesto es
entendimiento de esto viene solo con la
verdadero es difícil, porque incluye una
experiencia en análisis cuantitativos.
especulación sobre variables numerosas con
impacto potencial en la variable dependiente. En la Estimando coeficientes con información de una
ilustración sobre el peso corporal, si las personas muestra
que comen menos tienden a ser más conscientes
Si los varios supuestos del modelo bivariado de
de su salud entonces tienden a ejercitarse más
regresión han sido satisfechos, es apropiado
frecuentemente, habría una relación entre
estimar el coeficiente de la pendiente y la
consumo de comida y nivel de ejercicio, y puesto
intersección en la población: 1) seleccionando una
que la cantidad de ejercicio indudablemente
muestra al azar de casos de la población a la cual la
influencia el peso, el supuesto 5 sería violado.
ecuación de regresión aplica, 2) midiendo X e Y
Pero el supuesto sería también violado si otras para cada caso en la muestra, y luego 3) usando el
variables que no hemos pensado influyeran en el análisis de regresión (técnicamente regresión OLS
peso y estuvieran correlacionadas con el consumo -Ordinary Least Squares-) para determinar la
de comida. pendiente y la intersección de la línea de regresión
para la muestra. En esencia, este cálculo implica un
En general, el quinto es uno de varios supuestos
procedimiento matemático que es el equivalente
del análisis de regresión, los que juntos implican
funcional de graficar los valores de X e Y en un
que el término de error es “azaroso” en su efecto
diagrama de dispersión y dibujar en la línea que
sobre la variable dependiente. Cuando lean
mejor ajusta la distribución de puntos en el gráfico.
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 10
El análisis de regresión, sin embargo, identifica la coeficiente de la pendiente y de la intersección en
línea que mejor encaja mucho más efectivamente la muestra pueden ser vistos como estimaciones
que lo que nosotros alguna vez podríamos medir razonables de esos valores en la población
meramente con una inspección visual de un completa. (Esto es casi lo mismo que en un
diagrama de dispersión. Por ejemplo, consideren la experimento, cuando usamos una muestra
figura 2.2, que reproduce el diagrama de aleatoria para hacer inferencias sobre una
dispersión de la figura 2.1. Es obvio desde una población mayor de la cual la muestra fue
rápida mirada que las líneas 2 y 3 capturan la dibujada.) Entonces, los coeficientes de la muestra
locación de los puntos mejor que las líneas 1 y 4. frecuentemente están referidos a la intersección
Pero escogiendo entre las líneas 2 y 3 sobre la base estimada y el coeficiente estimado de la pendiente.
de la inspección visual sola es difícil.
Aunque la intersección y el coeficiente de la
En contraste, el análisis de regresión OLS involucra pendiente estimados pueden ser vistos como
un procedimiento matemático, generalmente estimaciones razonables de los valores reales de
hecho por una computadora, que siempre provee los coeficientes en la población (si los supuestos
una única línea que mejor ajusta. Esta línea es la del análisis de regresión han sido conocidos), no
“mejor” de acuerdo a una definición específica hay nunca una buena razón para creer que las
dentro de este procedimiento. Como su nombre estimaciones para la muestra coinciden sus valores
formal sugiere (Ordinary Least Squares), el en la población exactamente.
procedimiento hace las matemáticas equivalentes
Consideren la figura 2.4, la cual de nuevo
de tratar todas las líneas posibles e identificar
reproduce el diagrama de dispersión de la figura
aquella que minimiza la suma de los cuadrados de
2.1. La línea sólida en la figura 2.4 es la
las distancias verticales entre los puntos en el
“verdadera” línea de regresión para la población,
diagrama y la línea.2 La figura 2.3 reproduce las
líneas 2 y 4 de la figura 2.2. Pueden ver de los
gráficos que las distancias verticales entre los
puntos y la línea son generalmente menores para
la “mejor línea” 2. [Better fitting line 2]
Figura 2.2
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 11
Figura 2.4
BERRY & SANDERS| TÉCNICAS DE INVESTIGACIÓN EN CIENCIAS SOCIALES| CÁTEDRA ARCHENTI| FACULTAD DE CIENCIAS SOCIALES (UBA) PÁGINA 12