Professional Documents
Culture Documents
g,mpRActIc.: ALLIANCE DATA SYSTEMS pn MoDELo r4.r ncRssrN LINEALSIMPLE Modelo deregresin y ecuacin deregresin
Ecuacin de regresin estimada
reesrAnfsrtce
Estimacin puntual Estimacin por intervalo Intervalo de confianza para el valor medio de y Intervalo de prediccin para un solo valor de v I4.7 SOLUCTNPOR COMPLTTADORAS
r4.2 rvrroooosMMos
r4T
t.i,,
DERESIDUALES:
ACrONESnrfplcas
ACIONES
...: :*
,,
. , . ,
',',, : ,
iirl
:., ,'
SnI,
llf{
l4.l
545
Sir Francis Galton ( I 82219I I ) fue el primero en emplear los mtodos para cstudiar estadlsticos la rclacin entrcdos variables. Galton estabaintercsadoen estudiarla relacin entrela estaluradepae e (1857hijo. Karl Pearson 1936)awliz estarehcin pares depadrcen 1078 hijo.
las decisiones suelen basarse en la relacinentredoso msvariables. Por En la administracin, y las ventas puede permitira un gerpnobservar la relacinentreel gastoen publicidad ejemplo, a un determinado gastoen putratar de predecirlas ventascorrespondientes te de mercadotecnia de serviciospblicospuedeemplearla relacinentrela temperatura blicidad.O, una empresa las diaria y la demandade electricidadpara predecir la demandade electricidadconsiderando Algunasveces los directivosse apoyan diariasque seesperan el messiguiente. temperaturas en la relacinentredosvariables. Sin embargo, cuando esposibletenerdala intuicinpaxajuzgar un procedimientoestadsticollamado anlisis de regresinpara obtener tos, puedeemplearse queindiquecul es la relacinentrelas vaiables. una ecuacin que seemplea a la variableque seva a predecirsele llama En la terminologa en regresin, variable dependiente. queseusanparapredecir A la variableo variables el valor de la vaiable Por ejemplo, selesllamavariablesindependientes. al analizar el efectode los gasdependiente comolo quebusca el gerente de mercadotecnia espredecir las tos en publicidadsobrelas ventas, sern la variabledependiente. ventas, estoindicaquelas ventas En estecapltulose estudia el tipo mssencillode anlisisde regresin en el que interviene y una variabledependiente y en el que la relacinentreestas variauna variableindependiente bles es aproximada mediante una lnea recta.A estetipo de anlisisde regresin se le conoce lineal simple.Al anlisis de regresin en el queintervienen doso msvariables comoregresn mltiple; el anlisisde regresin mltiple y los se le llama anlisisde regresin independientes en los captulos15 y 16. casos en los que la relacines curvilneaseestudian
llr.Nl
foy f t se conocen como los parmetrosdel modelo, y e (la letra gnega psiln) es una variable aleatana que s conoce como frmino del error. El trmino del error da cuenta de la variabilidad de y que no puede ser explicada pr la relacin lineal entre x y y.
546
lineol simple 14 Regresin Coptulo de subArmand'spuedeversetambincomounacoleccin de los restaurantes La poblacin estformada poblaciones, unaparacadauno de los valoresde.r. Por ejemplo,una subpoblacin consta de todoslos otra subpoblacin de 8000estudiantes; universitaios por todoslos campus etc. de 9000 estudiantes; universitarios cercade los campus Armand'slocalizados restaurantes y y. As, hay unadistribucin de valores de valores hay unadistribucin Paracadasubpoblacin hay otra de 8000estudiantes; cercade los campus localizados quecorresponde a los restaurantes de cercade los campus ubicados distribucinde valoresy que corespondea los restaurantes y tienesuprode valores distribuciones Cadaunade estas y assucesivamente. 9000estudiantes, de y, que describe la relacinentreel valor esperado A la ecuacin pia mediao valor esperado. de regreesla ecuacin que sedenota E(x),y sele llama ecuacinde regresinLa siguiente lineal simple. sinparala regresin
E(y\= Fo+ fr
lr4.2l
de la lineal simpleesunalnearecta;Boesla interseccin de regresin la ecuacin La grficade y para de o valor esperado pendiente y media E(y) es la es la el eje con de regresin rerta !, flt de . valor dado un Larecia de regresin de regresin. rectas de posibles ejemplos En la figura 14.1sepresentan positivamente con x. La rccta de y relacionado que medio de est valor grrficaA el indica lz de con r, negativamente regresindela grficaB indica que el valor medio de y estrelacionado de la grfide . La rectade regresin a valoresmayores d" E(i corresponden valoresmenores con.r; es decir,el valor el casoen el que el valor mediode y no estrelacionado ca C muestra mediode y esel mismoparatodoslos valoresde x.
Interseccin Lapendiente,
lnterseccbn Po
547
valores de los estadsticosmuestraleso y B,, se obtiene la ecuacin de regresin estimada La ecuacin de regresin estimada de la regresin lineal simple se da a continuacin.
(r4.31
A la grfica de la ecuacin de regresin simple estimada se le llama recta de regresin estimoda; bo es la interseccin con el eje y y b, es la pendiente. En la seccin siguiente se muestra el uso del mtodo de mnimos cuadradospara calcular los valores de boy brparala ecuacin de regresin estimada. En general, ! es el estimador puntual de (y), el valor medio de las y para un valor dado de . Por lo tanto, para estimar la media o el valor esperado de las ventas trimestrales de todos los restaurantes situados cerca de los campus de l0 000 estudiantes, Armad's tendr que sustituir en la ecuacin (14.3) x por 10 000. pero, en algunos casos, a Armand's lo que le interesar ser predecir las ventas de un determinado restaurante. Por ejemplo, supngase que Armand's desee predecir las ventas trimestrales del restaurante que se encuentra cerca de Talbot Collage, una escuelade l0 000 estudiantes.Resulta que la mejor estimacin de la y que conesponde a un determinado valor de x es tambin la proporcionada por !. Por lo tanto, para predecir las ventas trimestralesdel restauranteubicado cerca de Talbot Collage, Armad's tambin sustituir la de la ecuacin(14.3) por 10 000. Como el valor de ! proporciona tanto una estimacin puntual de E(x) para un valor dado de .r como una estimacin puntual de un solo valor de y para un valor dado de , a j se le llamar simplemente valor estimado de y. En la figura 14.2 se presenten forma resumida el proceso de estimacin en la regresin lineal simple.
FIGURAI4.2
b estimacin de flo! ft es un proceso estadstico muy parecido a la estimacin de p que se vio en el capftulo 7. Boy Bt son los parmetros d inters que son descotncidos, y boy b, son los estadfsticos mustrales qu se usan para estitrar los parmetros.
oY**:y*
tt ,t
E(y) x Bo+prx
Parmetro descoqoci&c
'z
Yz
*,rJ'""J,.k,*
I * bo*brx
&ta|frtisos rnsstc
548
l4 Coptulo
lineolsimple Regresin
1. El anlisis de regresin no puede entenderse 2. La ecuacinde regresin en la regresin lineal simple es E(y) : fo* ptx. En libros ms una recomo un procedimientopara establecer avanzadossobre anlisis de regresin se suels y las variables. Esentre efecto lacin de causa escribir la ecuacin de regresin como te procedimiento slo indica cmo o en qu E(ylx): fro+ fl enfatizandoasf que lo que una con medidalas variablesestinrelacionadas proporciona esta ecuacin es el valor medio de acercade una relacincausa otra. Conclusiones las y para un valor dado de . de y efectodebenbasarse en los conocimientos en la aplicacinde que se trate, los especialistas
parahaEl mtodo de mnimos cuadrados esun mtodoen el que seusanlos datosmuestrales supngamtodo de mnimos cuadrados, ilustrar el Para estimada. de regresin llar la ecuacin Armand's Pizza Padorsubicados se que se recolectandatosde una muestrade 10 restaurantes x, es i de la muestra, i o el restaurante Parala observacin universitarios. todoscercade campus (en y y, son las ventas trimestrales el tamaode la poblacinde estudiantes miles) en el campus de l0 los valoresde xty y, en estamuesEa (en miles de dlares). En la tabla 14.1sepresentan : = y yt que cerca de un Cam58, est .rl 2 1, parael Como se ve, el restaurante restaurantes. para que resauranc 2, el sonde $58 000. El y susventastrimestrales pus de 2[ estudiantes y son sus ventas trimestrales xz:6y lz: 105,estcercade un campusde 6000 estudiantes 10, cual est cerventas del resaurante el a de $105000. El valor mayores el que corresponde y susventas sonde $202000. trimestrales de 26 000 estudiantes ca de un campus la de eslos datos de tabla l4.LLa poblacin de de dispersin La figura 14.3esel diagrama diagramas y en el eje vertical. [,os trimestrales seindicaen el eje horizontal las ventas tudiantes la variableindependiente en el setrrzan colocando de regresin de dispersinparael anlisis permie y en el eje vertical. El diagramade dispersin eje horizontal y la variable dependiente los datosy obtenerconclusionesacetcadela relacinentrelas variables. observargrficamente papreliminarse puedgobtener de la figura 14.3?Las ventastrimestrales Quconclusin que poblacin mayor. Adems, en la de estudiantes es en los cercade campus recensermayores y poblacin ventas la de estudiantes las estosdatosseobseryaque la relacinentreel tamaode trimestralesparecepoder aproximarsemedianteuna lnea recta; en efecto, se observaque hay TABTA I4.I POBLACINDE ESTUDIANTESY VENTASTRIMESTRALES ARMAND'S PZZAPARLORS EN 10 RES'TAURANTES
Recauronte
I 1, 3 t 5 6 7 I I lo
eotuAhnf(rrtles)
, 6 I
de Poblscln
YentmHnectrh (mllot)
J 5E t05 88 ltE ll7 l3? 157 l@ 149 2
Armand's
t2 16 N' 2S 22 26
549
EN EL QT.JE SE MI.JESTRALAPOBLACIN I4.3 DIAGRAMA DE DISPERSIN TIGURA DE ARMAND'SPITZA VENTAS TRTMESTRALES Y LAS DE ESTUDIANTES PARLORS
224 2W 6 t8o ) g 10 g l$
n
-g E r20
E .E
a
100
r 8 0
# 6 0
l0t2t4 16r82422
la relacinentrevenas trimeeunarelacinlineal positiva en8er y y. Por tanto,pararepresentar Decidido neal simple. esse elige el modelo de regresin trales y la poblacinde estudiantes, para l4.l los valoree de la tabla detrminar de to, la tareasiguientees usarlos datosmuesales i, la ecuasinde rcgresin boy 4 en la ecuacinde regresinlineal simple. Parael resaurane simple estimadaes 9t= bol brx, donde (en miles de dlares)dol restsuranrc j,, : valor estimadode las ventasSimestrales i de la rectde regresincon el eje y bo= inerseccin br = pendientede la rectade regresin
X
(r4.41
(reales)y !, denotavenas meestimadas i, y, denotaventsobsrvadas Como parael restaurante de la muestrahabrun valor de vendiantela ecuacin(14.4), paracadauno de los restaurantes y, y un valor de ventas esmadas tas observadas !,. Pm que la rcta de regresinestimada y los valores proporcioneun buenajustea los datos,las diferenciasene los valoresobservados debenserpequeas. estimados paraobener los valoresde seusanlos datosmuestrales En el mtodode mfnimoscuadrados (diferencias)enhe los vaboy 4 que minimicenla sumade los cuadradosde las desviaciones y, y los valoresestimados de la variabledependiende la variable dependiente lores observados es el de la expresin(14.5). te. El criterio que se empleaen el mtodode mnimos cuadrados
550
mint(y, donde
!)2
(t4.51
de la variabtedependiente en la observacin i = valor observado = valor de independiente la observacin estimado la variable en i i (vase parademostrar apndice 14.1)que los valores Sepuedeusarclculos diferenciales de o (14.5)sepueden (14.)y (I4,7). y b, qaerrnnrrrnrza usando lasecuaciones la expresin encontrar
ri = valor de la variable independiente en la observacin i y, = velc de lo variable depcndieneon la observacin i -x= nrdiadala variable irdependiento
para obtenerla ecsacinde regresin los clculos necesarios En b tabla 14.2 ge presentan estimadaen el ejemplode Armand's PizzaParlors.Como la muoctraes de 10 restaurantps, tene(14.6'ly (J4.7)se necesitan f y j, geempiemos 10 observacions. Dadoque en las ecuaciones zapor calcular .y j.
r:i=i=14
lv, 13 ' = -n= l _ 0 =130 (14.6)y Oa.1\ y la informacin delztabll 14.2,secalculala pendiente Usandolas ecuacione; y la nterw*in con el ejey de la *uaci6n de regresinde Annand's Pizz,a Parlom.ta pendiene (b) * calculacomo sigue.
2x,
UA
'Oro f6rmlo de cohohr b, er _Ex,y,-(2x,2y)/n , tu 4'(x,f/" poro dukr Eib frrrrmd6 lo ccocin cnndoe qnda rm colculodoro ll4., 3rd6 rcoomcrdorse ar.
cuodrqdos 14.2 Mtodo de mnimos TABTA I4.2 ECUACINDE REGRESIN ESTIMADAPARAARMAND'S PVLA OBTENIDA POREL MTODODE MIMOS CUADRADOS PARLORS
55r
Resturntei
I 2 3 4 5 6 7 I g 10 Totales
}l
2 6 I I t2 t6 ?0 N 22 ?6 14CI Eq
58 105
s8
118
rr7
?frz
t300 ty,
Jr*i *t? *8 *6 *6 -2 7 6 6 I T2
fti-r)(Jr-D
81 200 252 72 26 14 t2 234 152 864 2W
ft,-rf
t4 & 36 36 4 4 36 36
tt4 568
I(r, - if
l(*rXr*i)
bt:
zlx-x)\l-l) >(\_rf
2840
568 - 5 con el eje y (o)secalculacomosigue. La interseccin bo: ! - bri = 130- 5(14) =0 es de regresin estimada Por lo tanto,la ecuacin
!=0+5
graficada sobreel diagrama de dispersin. estaecuacin En la figura 14.4semuestre = (br positiva, pendiente lo queimplice que a es de regtesin estimada 5) La de la ecuacin poblacin ventas. que aumentan las Seconclude estudiantes, el tamao de la medida aumenta poblacin (basndose y de la de estudianes ye en en las ventasdadasen miles de $ en el tamalo conesponde a un aumiles) que un aumentode 1000en el tamaode la poblacinde estudiantes que las ventastrimestales aumenlen mentoesperado de $5000en las ventas;es decir, seespera por cadaaumentode un estudiante. $5 Si se consideraque la ecuacinde regresinestimadaobtenidapor el mtodode mfnimos razonable usarestaecuacin la relacinener y y, parecer cuadrados describeadecuadamente para y para un valor dado de x. Por ejemplo, si se quiestimar el valor de estimada de regresin ubicado cerca de un campus de 16 000 pedecir de un restaurante las ventas trimestrales sieran calculara se estudiantes, i:60 + 5(16): 140
Debe tense muchocuidado al usarh ecwcin de rcgrcsinestinufu pam lwcer prcdiccienesuem del rango de valorcsde la variable indepetdientc,ya quefuero dc csemngo no puedeasegurarse que esta rclacin seavlida.
paraesterestaurante pronosticadas serande $140000. En De maneraquelas ventastrimestrales para evaluar el uso correcto de la ecuacinde regrevern los mtodos seccin siguiente se la y predicciones. sinparahacerestimaciones
552
lineolsimple 14 Regresin Copitulo I4.4 GRAFICADE LAECUACIN DE REGRESINESTTMADADEARMAND'S FIGURA PVZAPARLORS: i:60 t 5x
#
E
E I
& e
I
F 100
80 60 40
)
coa el ejey bo* 60
El mtodo de mfnimos cuadradosproporciona na ecuacin de regresin estimada que minimiza la sumade los cuadradosde las desviacionesentre los valores observadosde la variable dependientey, y los valores estimadosde la variable dependiente!,. El criterio de mfnimos cuadradospermite obtenerla
otrocriteecvacin demejorajuse. Si seempleara lasdesviaciones rio, comominimizarla sumade absoluas enteyi y i, rc obtendrfauna ecuacin Enla pr&ttcael mtodo demfnimos cuadiferente, msusado. drados esel mtodo
Mrodo
outo@
?.
b.
datos. Trace el diagrama de dispersin correspondientea esos respecto del inciso a) a la relacin entre las dos vade dispersin indica el diagrama Qu riables?
553
Trate de aproximar la relacin entre r y y trazando una lfnea recta que pase a travs de los puntos de los datos. (1a.6) y (14.7) calcule boy brpara obtenerla ecuacinde regfesinesCon las ecuaciones timada. Use la ecuacin de regresin estimadapara predecir el valor de y cuandor = 4.
a. b. c. d. e.
Trace, con estos datos, el diagrama de dispersin. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin enfe las dos variables? Trate de aproximr la relacin entre.r y y trazando una llnea recta a travs de los puntos de los datos. (1a.0 y (14.7) calculeboy by,paraobtenerla ecuacinde regresinesCon las ecuaciones timada. Use la ecuacin de regresin estimadapara predecir el valor de y cuando r = 4.
a. Con estosdatos trace el diagrama de dispersin. b. Obtenga la ecuacin de regresin estimadacorrespondientea estos datos. c . Use la ecuacin de regresin estimadapara predecir el valor de y cuando r = 4.
Aplicociones
Orto@
a. b. c. d. e.
Trace el diagrama de dispenin de estos datos usando la estatura como variable independiente. Qu indica el diagrama de dispersin del inciso a) rcspecto a la rclacin ene las dos variables? Trate de aproximar la relacin enEe estaturay peso trazando una lfnea recta s travs de los puntos de los datos. Obtenga la ecuacin de regresin estimadacalculando bol bt Si la estaturade una nadadoraes 63 pulgadas, cul ser su peso estimado?
5. Los adelantostecnolgicos han hechoposible fabricar botes inflables. Estos botes de goma inflables, que puedenenrollarse forman& un paqueteno nayor que una bolsa de golf' tienen tamalo suficiente para dos pasajeroscon su equipo de excursionismo. La rcvista Canoe & Kayac ptob6 dfas. Uno de los los botes de nueve fabricantespara ver su funcionamiento en un rccorrido de trres criterios de evaluacin fue su capacidadpar4 equipaje que se evalu utilizando una escalade 4 puntos, siendo I la puntuacin ms baja y 4la punhracin ms alta. Los datos siguientesmues. tran la evaluacin que obtuvieron rcspccto a capacidadpara equipaje y los precios de los botes (Canoe Kayak, marzo 2003).
554
Bots st4
W'o
Orinoco Outside Pro Explorer 380X RiverXK2 Sea Tiger Maverik tr 100 Strlite Ff,tPack Cst
Trace el diagrama de dispersin de estosdatos empleandola capacidadpara equipaje como variable independiente. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin entre capacidad para equipajey precio? c. A havs de los puntos de los datos trace una llnea recta para aproximar la relacin lineal entre capacidadpara equipaje y precio. d. Utilice el mtodo de mnimos cuadradospara obtener la ecuacin de regresin estimada. e. D una interpretacin de la pendiente de la ecuacin de regresin estimada. paraequif. Diga cul serel precio de un bote que tenga3 en la evaluacinde su capacidad paje. 6. Wageweb realiza estudios sobre datos salarialesy presentaresrlmenesde stos en su sitio de la Red. Basndoseen datos salarialesdesdeel I de octubre de 2002 Wagewebpublic que el salario anual promedio de los vicepresidentes de ventasera $142 lll con una gratificacin anual proque los datossiguientes 13 de mazode 2003). Suponga medio de $15 432 (Wageweb.com, sean una muestrade salariosy bonos anualesde 10 vicepresidentesde ventas.Los datos se dan en miles de dlares.
Viceprccldente 2 3
6 I I
VPSlary
,3
$alrrlo 135 115 146 16? 165 116 98 136 163 1t9
Grtffiseln
l2 t4 16 t9 22
I T7 18 ll
de dispersin con estos datosiomando comovariableindependiente lor a. Traceun diagrama salarios. del incisoa) acerca b. Qu indicael diagrama dedispersin de la relacinentresalarioy gratificacin? paraobtcner la ecuacin de regresin estimada. c. Useel mtodode mfnimoscuadrados de la ecuacin deregresin estimada. d. D unainterpretacin quetengaun salarioanualde $120000? e. Culserla gratificacin de un vicepresidente quelos automviles msconfiables 7, Esperarfa fteranlos mscarcs? Consumcr Reports evalu seevaluconunaescala 15delos mejores automviles sedn. La confiabilidad de5 puntos: ma(4) y excelente (5).Lor preciory la evaluacin (2),buena (3),muybuena la (1),regular sobre la (Consumer deestos15automviles sepresents enl tbla sigaiente Reports, febreconfiabilidad ro de2004).
555
Crra
Mnrrry modolo AcuraTL BMW330i IS3) Lexus kxus 85330 C320 Mercedes-Benz LincolntS Pemium(V6) AudiA43.0Qgatno CTS Cadillac Mnxims3.5SE Nisss Infini I35 Sarb9-3Aero Infini G35 IagsrX-Typc3.0 9-i Arc Saab t/olvo5602,57
Conabllldad
4 3 5 5 1 3 2 1 4 5 3 4 1 3 3
3sr74
4223il. 38225 3?@5 3?695 34390 t3 &45 36910
uw5
t7 95 36955 33890
Trace un diagrama de dispersin con estos datos tomando como variable independientelas evaluacionesde confiabilidad. b. D la ecuacin de regresin obtenida por el mtodo de mlnimos cuadrados. c. De acuerdo con este anlisis, cree usted que los automviles ms confiables sean ms caos? d. Estime el precio de un automvil sedncuya evaluacin de confiabilidad sea4. Las bicicletas de montaa que actualmentecuestanmenos de $10) tienen muchos de los com' ponentesde alt calidad que hastahacepoco slo tenfan los modelos de alta calidad. Ho incluso modelos de menosde $1000 suelenofipcer suspensinflexible, pedalesclipless y cuadro muy bien diseado.Una cuestin interesantees si precios ms altos correspondena mayor facidad de manejo, medida a travs del agane lateral de la bicicleta. Para medir el agarrelateral, Outside Magazine emple una escala de evaluacin del I al 5, en la que el I correspondfaa mala y 5 a promedio. A continuacin se presentael agarre lateral y los precios de l0 bicicletas de montaa probadas por Outside Magazine (Outside Magazine Buyer's Guide' 200l) a,
Fabricnte y modelo
funntlrterrl
I I
io*lrL"O" sout*
SchwinnMoab 2 GiantXTICNRS3 Ccnesisrcrs FisherParagon JsmisEfokotlrc TrekFrdgO 5p*i"li* Sn*pumper M4
2 I 3 4 4 3 5 4
rgn
1550 l6?5
el comovariableindependiente Traceun diagr*made dispenincon estosdatostomando aganelareral. Expmtlscarosseande msfcil manejo? indicrestosdatosque los modelos Pareoen que. por el mtodode mfnimoscuadrados. obtenida estimada de rcgresin c. D la ecuacin cuyoaganelateraltengaunaevade de unabicicleta montaa d. Culesel precioestimado luacinde 4?
55
14 Regresin lineolsimple Copltulo y aosdeexperiencia. sobreventas anuales recolect los datossiguientes de ventas 9. Un gerente
Yendedor I
Acdc erper{cndr I 4 6 I
S 9 1 t
Yentsmnrlcs (nlhsdcS) 80
2 3
3 4
fail.r
4 5 r 6
i 1 t i
v2 tu2
103 ltl l19 t23 tt7 136
r0
l 0 0 l
13
a. b. c.
Elabore un diagrama de dispersin con estosdatos, en el que la variable independientesean los aos de experiencia. D la ecuacin de regresin estimadaque puede emplearsepara predecir las ventas anuales cuando se conocen los aos de experiencia. Use la ecuacin de regresin estimada para pronostica las ventas anualesde un vendedor de 9 aos de experiencia.
10. Bergansof Norway ha estadofabricando equipo para excursionismo desde1908.En los datosque se presentanen la tabla siguiente se da la temperatura("F) y el precio ($) de I I modelos de sacos Gear Guide) de dormir fabricados por Bergans (Backpacker 2OO6
Drod+o
Rmger3-Seaeonn R.mer Sfing R,mg*Wintcr Roodane 3-Scasons Rodane$ummcr RmdanWfurfsr $cqialce $now $onjn SenJr Zoro $upcrLight Tght&Light
ftmnorrtnr:a 12 u 3
l3 38 4 5 l5
SL.plngBa.
25 45
datos, en el quela variableindependiente seala con estos de dispersin a. Traceun diagrama (oF). temperatura a la relacinentretemperatura de dispenindel incisoa) respecto b. Qu indicael diagrama y precio? paraobtener la ecuacin de regrecin estimada. c. Useel mtodode mfnimoscuadrados ("F) e 20. cul serel preciode un sacode dormir si el fndicede temperatura d. Prediga grandes ftecuentet, los reasos sonmenos estll sabr en los aeropuertos 11. Aunqueactualmente quele eciren Ademds, sl suwelo a perdera uno susplanes. esmtispmbable en quaeropuertos en el quetienequehacerun Easbordo, esla a un determinado aeropuerto llegaconretraso cul hacerasfel tasbordo?En la tabl siguiente probabilidad la saliday quepueda de queseretrase y salidas rehasadas durante el mesdeagosto en 13aeropuerdellegadas el porcentaje semuestra 2.4 febrerc202). tos (Ensiness
557
Aeropnerto Atlanta Charlotte Chicago Cincinnati Dallas Denver Detnoit Houston Minnerpolis Phoenix Pitsbrgh saltLakc ciry St. Louis
W'o
Xrport
24 20 30 20 20 23 IE 2A 1E 2l 25 IE
l
22 ?n 29 l9 22 23 l9 l6 l8 22 22 t7 16
a. b. c. d. e.
Trace un diagrama de dispersin con estos datos, en el que la variable independientesean las llegadas retrasadas. Qu indica el diagrama de dispersin del inciso a) respecto a la relacin entre llegadas rehasadasy salidas retrasadas? Use el mtodo de mfnimos cuadradospara obtener la ecuacin de regresin estimada. Cmo se debe interpretar la pendiente de la ecuacin de regresin estimada? Suponga que en el aeropuerto de Filadelfia hubo 22% de llegadas retrasadas.Cul es el porcentaje estimado de salidas retrasadas?
12. Una moto acutica personal (personal watercraft, PWC) es una embarcacin a motor dentro de borda diseadapara ser conducida por una persona sentada,de pie o arrodillada. Al principio de los aos 80, Kawasaki Motors Corp. USA introdujo la moto acutica JET SKI@,h primera moto acutica comercial. Hoy jet s/cise usa como trmino genrico para motos acuticaspersonales. En la tabla siguiente se dan pesos (redondeadosa la decenade libra ms cercana)y precios (redondeados a los 50 dlaresms cercanos)de 10 motos acuticaspersonalesde tres plazas (wwwjetskinews.com,2006).
f = f)
JId
YamslnFxHighontputWaverunner Yamsh Fr( Wsvenrnner YamahYXll0Dcluxolf,rverunner Yamrhs VXllO Sport Wavenrnner YmhXUfl200$fqvennner
a. b. c. d. e.
Trace el diagrama de dispenin correspondientea estosdatos, empleandoel peso como variable independiente. Qu indica el diagrama de dispersin del inciso a) respectoa la relacin entre peso y precio? Use el mtodo de mlnimos cuadradospara obtener la ecuacin de regresin estimada. Indique cul ser el precio de una moto acutica de tres plazas cuyo peso sea750 libras. I Honda Aqua Trax F-12 pesa 750 libras y su precio es $95). No deberfa ser el precio pronosticado en ql inciso d) tambin de $950?
558
lineolsimple 14 Regresin Coptulo LaJetski Kawasaki SX-R 800 tiene asientopara una personay pesa 35Olibras. Creeusfed que la ecuacin de regresin estimada obtenida en eI inciso c) deba emplearsepara predecir su precio? 13. Parala Direccin generalde impuestosinternos de EstadosUnidos el que las deduccionesgezcan razonablesdependedel ingreso bruto ajustado del contribuyente. Dedrccion$ grandc qu comprendendeduccionespor donacionesde caridad o por atencin mdica son ms probablesen contribuyentes que tengan un ingreso bruto ajustado grande. Si las deduccionesd un contribu. yente son mayores que las correspondientesa un determinado nivel de ingresos, aurnentanlas posibilidades de que se le realice una auditora. f.
?7
a. b. c.
Trace un diagrama de dispersin con estosdatos empleandocomo vuiable independienteel ingreso bruto ajustado. Use el mtodo de mnimos cuadradospara obtener la wurcin & rcgre*;ittestimada Si el ingreso bruto ajustado de un contribuyente es $52 5, estirne el rnonto razonable de una audeducciones.Si el contribuyente tiene deduccionespt $?I 4, er;tn1uixfrcada ditorla? Explique.
14. Los salariosiniciales de contadoresy auditoresen Rochester,Nueva Yuk, corrsporden a los de muchos ciudadanosde Estados Unidos. En la tabla siguienre s presntansatrios iniciales (en miles de dlares) y el lndice del costo de vida en Rochestery en otrfi$eve zonasmetropolitanas(Democrat and Chronicle, I de septiembre de2OU2).
8al!rlca
-{ca mctropomtm OklahomaCity Tunpa/St. Peterstrurg/Clcarw*er Indianapolis Buffalo/NiagaraFalh Atlnta Rochester Sacrarneirto nakigh/Durhmt/Chopet Hitl $an Diego llonolslu
fuc
82.# 79.W
gffr0lIr|$
n9
MS
n4 tt.7 n.l
15.6
n.7
?.7 t7.t
x.t
Elabore un diagrama de dispersin or stos daos emplemdo como variable independiente el ndice del costo de vida. Obtenga la ecuacin de regresin paatelacionr elfndcc del costo de vida con el laio inicial. Estime el salario inicial en vmt zcmarrcnqalitrina en la que el lndice del costo de vida es 50.
559
SCE*X(y*,)2
(t4.81
paraestide regresin estimada El valor de SCEes una medidadel error al utilizar la ecuacin en los elementos de la muestra. mar los valoresde la variabledependiente paracalcularla sumade cuadralos clculosque serequieren En la tabla 14.3semuestran Por ejemplo,los valoresde las vadosdebidaal erroren el ejemplodeArmand'sPizzaParlors. paraldel y dependiente restaurante I sonr, = 2 y lt = 58. El valor estimado riablesindependiente paralas ventas del restaurante 1 obtenidocon la ecuacin de regresin estimada trimestrales es l, el error al usar ir para estimary, i, : 60 + 5(2) : 70. Por lo tanto, para el restaurante (-12)' - 144,aparece al cuadrado, en la ltima es},r - !, : 58 - 70 : -l2.El enor elevado de calculary elevaral cuadrado los residuales de cadauno de columna de la tabla 14.3.Despus y seobtiene queSCE : 1530.Porlo tanto,SCE : 1530 sesuman los restaurantes de la muestra, de regresin estimada mide el effor que existeal utilizar la ecuapin i : 60 * 5r parapredecir las ventas. que se pide una estimacin de las ventastrimestrales sin sabercul es el Ahora supngase poblacin de estudiantes. Sin tenerconocimiento de ningunaotra variablerelaciotamaode la seempleara la mediamuestral comounaestimacin de lasvennadaconlas ventas trimestales, TABIAI4.3 ARMAND'S PIZZA PARLORS CLCULO DE SCEEN EL EJEMPLO
Vnr*s
*1f-o 'li
h*h
*12 l$ *ls t ;t *3 *3
Frtor
Erof lsudmdo
(}r-rfr
2u
ll*
1,|4
t0
ii
iii ,#
,ffi l$
140 160
itr
*2t t?
sCE*ffi
s0
l4 Coptulo
IABIA 14.4 CLCULO DE LA SUMA TOTAL DE CUADRADOSEN EL EIEMPLO DE ARMAND' S PIZZA PARLORS , ir poblm|n
Rcftllrnnt
I 3 4 f
1
dccndlrntes (rtrtc)
! 6 I
. Dcvhddn
Dctdn lcurdndo
** !
-72 *15 *42 -t2 -t3 7
lrt* lf
5 ls4 625 r764 l4
l9 49 729 | 521 t6l J IE4 $TC * 15730
,t r7
l6
E I 10
10 ?0 !"2
n7 t17 r57
I6p 149
w2
39 t9 72
En la tabla 14.2se mostr que de acuerdo tas trimestralesdelen cualquierade los restaurantes. en la )y,: 1300.Por lo tanto,la mediade las ventastrimestrales con los datosde las ventas, : 130.En la tabla 14.4septe' Amand's esi :2y/n = 1300/10 de los 10restaurantes muestra al cuadradoque se obtienecuandose usa la media muestral sentala sumade las desviaciones de la : ventastrimestralesde cadauno de los restaurantes de las valor para el estimar 130 proporciona medida una la diferencial i de la muestra, Parael i-simorestaurante muestra. llasumade cuadrados, del error que hay al usar! para estimarlas ventas.La correspondiente madasumalotal de cuadrados,sedenotaSTC.
$TC* fr ( y,- lf
{r+el
que ratneay:j.
en el ejemLa sumadebajode la ltima columnade la tabla 14.4es la sumatotal de cuadrados = estasumaes STC l5 730' Parlors; plo de Armand'sPizza En la figura 14.5se muestrala llnea de regresinestimada i = 60 * 5x y la llnea colresen torio a la recms agrupados que los puntosseencuentran pondientes a j : l3O. Obsrvese = l3O. Por ejemplo, s ve que para el 10o. ia de regresinestimadaque en tomo a la llnea j de la muestra,el e''of eSmuchomsgfandecuandoSeUsai = 130paaestimaryl' fe$laurante src como una medidade qu que cuandose usa!,0 = 60 + 5(26) = 190.Se puedeentender en tomo a larccla y SCE como una medidade qu tanto se tanto se agrupanlas observaciones en torno de larccta j. agrupanlas observaciones se calculaotra de ! los valores!, dela rectade regresin, Paramedir qu tanto se desvan debidaa la regresiny seden{} A estasumasele llama sumade cuadrados sumade cuadrados. ta SCR.
lf!ol
14.3 Coeficiente dedeierminocin FIGURA I4.5 DESVIACIONES RESPECTO A LA LNEE NE REGRESIN ESTIMADA Y A LA LNEAy : t EN EL EIEMPLO DE ARMAp'5 ptzzA PARLORS
5l
2m
?00
^ rl
e lgo c
E
I 10 g 1$ E f, 120
}ro-I
y,=f e 130
Et* u
$ 6 0
f0
s s 0
quehubieraalguna Porlo antes dicho,seesperara relacinentreSTC,SCRy SCE.En efecto, y la relacinentreestas tressumas de cuadrados constituye uno de los resultados msimportantes de la estadfstica.
RLACTNHNTRMSTC,S$BYSCF
puedeentenderse It SCR comola parte explicadade la STC,y la SCEpuedeenlendrse comol Wrte no explicfu dc la STC,
i .
.. ,.I:
$TE*SCR+$CE dsnds
{l f.t r l
$TC s srmstofsl decusdrsdos SCR- urns & curdrodosdebidaa liaregrecin SCE = surm dc cuadrados debidaal eiror
(14.11)muestra que la sumatotal de cuadrados l-a e*uurcin puedeserdividida en dos componentes,la sumade los cuadrados debidaa la regresiny la sumade cuadrados debidaal error. si seconocendos cualesquiera Por lo tano, de estssumasde cuadrados, es fcil calcular la tereerasumade cuadradoe . Por ejemplo, en el ejemplode Armand's PlzzaParlors,seconocenSCE = l5l) y STC 15 73O;por lo tan0o, despejando de la ewacin(14.11)SCR,seencuenfaque la sumade los cuadrados debidosa la regresines =14200 SCR=STC+SCE= 1 5 7 3 0 -1 5 3 0
562
't4 Coptulo
lineolsimple Regresin
Ahora se ver cmo se usan estastres sumasde cuadrados,STC, SCR y SCE, para obtener una medida de la bondad de ajuste de la ecuacin de regresin estimada. La ecuacin de regresin estimada se ajustara perfectamente a los datos si cada uno de los valores de la variable independiente y, se encontraran sobre la recta de regresin. En este caso para todas las observaciones se tendra eue ) - !, sea igual a cero, con lo que SCE : 0. Como STC : SCR + SCE se ve que para que haya un ajuste perfecto SCR debe ser igual a STC, y el cociente (SCR/STC) debe ser igual a uno. Cuando los ajustes son malos, se tendrin valores altos para SCE. Si en la ecuacin (14.11) se despejaSCE, se tiene que SCE : STC - SCR. Por lo tanto, los valores ms grandes de SCE (y por lo tanto un peor ajuste) se presentancuando SCR : 0 y SCE : STC. El cociente SCR/STC, que toma valores entre cero y uno, se usa para evaluar la bondad de ajuste de la ecuacin de regresin estimada.A este cociente se le llama coeficiente de determinacin y se denota l.
COEFICIENTE DE DETERMINACIN
tt4.l2l
"" :
SCR
;;' T;;;;:
|4?rlr'I
oeo27
I se puedeinterpretar en forma de porcentaje, de determinacin el coeciente Si se expresa que seexplicamediante el usode la ecuacin de la sumatotal de cuadrados comoel porcentaje seconcluyequre 9O.27Vo de la En el ejemplode Armand'sPizzaParlors, estimada. de regresin de la poblaseexplicapor la relacinlineal queexisteentreel tamao variabilidad en las ventas de regresin tuvieraun ajustetan y las ventas.Serabuenoque la ecuacin cin de estudiantes bueno.
Coeficiente de correlocn
de la inde correlacincomounamedidadescriptiva el coeficiente En el captulo3 sepresent del coeficiente de correlacin r y y. Los valores tensidad de la relacinlineal entredosvariables sonvaloresquevandesde-lhasta+l.Elvalor*lindicaquelasdosvariablesxyyestnp en unarelacinlinealpositiva.Es decir,los puntosde todoslos datosse relacionadas fectamente perpositiva.El valor - I indicaquer y y estn en unalnearectaquetienependiente encuentran en unaltodoslos datosseencuentran en unarelacinlinealnegativa, relacionadas, fectamente cercanos a cero de correlacin del coeficiente negativa. Los valores nearectaquetienependiente linealmente. relacionadas indicanque.r y y no estn paracalcularel coeficiente muestral. de correlacin la ecuacin 3.5 sepresent En la seccin y seha calculado el coeficiente de determinacin de regresin un anilisis seha realizado Cuando sepuedecalcularcomoseindicaa continuacin. muestral de correlacin l, el coeficiente
n4.r3l
53
donde
, = pendientede la ecuaeinde regroeinestimada! = b, * brx El signo del coecientede regresinmuestrales positivo si la ecuacinde regresintiene pendientepositiva (4 ) 0) y es negativosi la ecuacinde regresinestimada tiene pendientenegativa (b, < 0). En el ejemplo de Armand's Pizza Parlol el valor del coeficientede determinacincorrespondientea la ecuacinde regresinestimada! : 60 + 5 es O.q)27.Como la pendientede la (14.13)indicaque el coeficiente ecuacin de regresin esplqada es positiva,la ecuacin de correlacinmuestral es *V0.9027 : *0.9501 Con estecoeficiente de correlacin muestral, ro = +0.9501,seconcluyeque existeuna relacin lineal fuerte entrex y y. En el casode una relacin lineal entre dos variables,tanto el coeficientede determinacin medidas comoel coeficientede correlacinmues8alproporcionan de la intensidadde la relacin. El coeficientede determinacinproporcionauna medida cuyo valor va desdecero hastauno, mientrasque el coeficientede correlacinmuestralproporcionauna medidacuyo valor va desde -l hasta+1. El coeficientede correlacinlineal estrestringidoa la relacin lineal entredos variables,pero el coeficientede determinacinpuedeemplearse para relacionesno lineales y para relacionesen las que hay dos o ms variablesindependientes. Por tanto, el coeficientede determinacin tiene un rango ms amplio de aplicaciones.
l. Al obtener la ecuacin de regresinestimada mediante el mtodo de mnimos cuadrados y calcular el coeficiente de determinacin, no se hizo ninguna suposicinprobabilfstica acerca del trmino del error e ni ampocouna prueba de significanciaparala relacinentrer y y. Los valores grandesde I implican que la recta de mlnimos cuadrados se ajustamejor a los datos; se encuentranms es decir, las observaciones cerca de la recta de mnimos cuadrados. Sin embargo,usandonicamenteI no se pueden sacarconclusionesacercade si la relacin entre significativa.Tal conx y y es estadfsticamente clusin debe basarse en consideraciones que
implican el tamao de la muestra y las propiedadesde la distribucin muestral adecuada de los estimadoresde mnimos cuadrados. 2. Para fines prcticos, cuando se trata de datos que seencuentran en las cienciassociales, valores de I tan pequeoscomo 0.25 suelen considerarse tiles. En datosde la fsica o de las cienciasde la vida, suelenencontrarse valores de I e O.0O o rnayores;en algunoscasos pueden enconftarse valores mayores de 0.90. En las aplicacionesa los negocios,los valores de I varlanenormementedependiendo de las caracterlsticasparticulares de cada aplicacin.
Mrodo
o"o@
Ia *uacin de regresinestimadapaa esos daos es I : 0.2O+ 2.60x. (14.8), Qa9) y (14.10) calcule SCE, STC y SCR. a. Empleandolas ecuaciones b. Calcule el coeficienede determinacin f . Haga un compntario sobre la bondad del ajuste. c. Calcule el coeficientede correlacinmuestral.
564
lineolsimple Coptulo14 Regresin 16. Los datosa continuacinson los datosdel ejercicio 2.
< a A
La ecuacinde regresinestimadapara estosdatoses i = 68 3x' a. Calcule SCE, STC Y SCR. b. Calcule el coeficiente de determinacin f . Haga un comentario sobre la bondad del ajuste. c. Calcule el coeficientede conelacin muesal. 17. Los datosa continuacinson los datosdel ejercicio 3.
: 7.6 + 0.9. Qu porcentaje de la La ecuacin de regresin estimada para estos datos es I de regresin estimada?Cul es la ecuacin mediante puede explicarse cuadrados suma total de muestral? de correlacin del coeficiente valor el
Aplicociones
a. Calcule SCE, STC y SCR. b. Calcule el coeficiente de determinacin 12.Haga un comentario sobre la bondad del ajuste. c. Calcule el coeficiente de correlacin muestral. 19. Los datosa continuacinson los datosdel ejercicio 7.
Cara
Fabrhante y modelo AcuraTL BMW330i Ixus IS300 Lexus ES330 C320 Mercedes-Benz Lincoln LS Preuium(V6) Audi A4 3,0 Quattro Cadillac CTS NissanMaxirna 3.5 SE Infiniti I35 Saab9-3 Aero Infiniti G35 JaguarX-Type 3.0 Saab9-5 Arc Volvo 560 2.57
= conflHdd 4 3 5 5 I 3 2 I 4 5 3 4 I 3 3
y = prcdo (t) 33l5() lm570 35 105 35 r74 42230 3822s 3705 3?05 34390 33845 36910 34605 37995 36955 33890
55
La ecuacinde regresinestimadapara estosdatoses i : 40 639 - 1301.2x. Quporcentaje de la suma total de cuadradospuede explicarsemediantela ecuacinde regresinestimada? Haga un comentariosobrela bondaddel ajusteCules el valor del coeficientede correlacin muestral? de alta denicin.Paracada sobretelevisores Reporff publica pruebasy evaluaciones 20. Consumer principalmente en la calidadde la imagen.Una modelo seelaboruna evaluacingeneralbasada evaluacinms alta indica un mejor funcionamiento.En los datos siguientesse dan evaluacin de plasmade 45 pulgadas(ConsumerReports,marzo 2006). generaly precio de televisores
Mar DeU Hieense Hitachi JVC LG Maxent Pagasonic Phillipo Proview Samoung
Ptecio 2800 2800 3500 3300 2000 4000 3000 2500 3000
hrntuacin en la valucin
27ca
Plasmaw
62 53 44 50 54 39 66 55 34 39
a.
b. c.
Use estos datos para obtener una ecuacin de regresin estimadaque pueda emplearse paraestimarla puntuacinen la evaluacingeneralde una televisin de 42 pulgadasdado el precio. un buen ajustela ecuacinde regresinestimada? Calcule l. Proporcion general cuyo precioes $3200. de un televisor en la evaluacin Estimela puntuacin
21. Una aplicacinimportantedel anlisisde regresina la contaduraes la estimacinde costos. el mtodode mnimos cuadrados Con datossobrevolumen de producciny costosy empleando para obtenerla ecuacinde regresinestimadaque relacionevolumen de producciny costos, volumende produca un determinado puedenestimarlos costoscorrespondientes los contadores produccin y costostotalesde sobre volumen de de datos muestra cin. Considerela siguiente fabricacin. operacin de una
(unrdde)
a. b. c. d.
Con estosdatosobtengala ecuacinde regresinestimadaparapronosticarlos costostotales dado un volumen de produccin. Cules el costo por unidad producida? Calcule el coeficientede determinacin. Quporcentajede la variacinen los costostotales puedeser explicadapor el volumen de produccin? el mes prximo se debernproDe acuerdocon el programade produccinde la empresa, ducir 500 unidades. Cules el costo to,talestimadode estaoperacin?
de las cinco mejoresimpresoraslser de oficina y de las cinco 22. PC World public evaluaciones La impresorade oficina mejor lsercorporativas(PC World, febrero 20O3). mejoresimpresoras que rLtuvo una puntuaen la 1250W PagePro la Minolta-QMS fue evaluada ryelueefongenglg! 44)A'{,que fue la Xerox Phase lsercorporativamejor evalada cin de 9l puntos.La impresora
l4 Coptulo
Regresin lineolsimple
en la evaluacingeneralobtuvo una puntuacinde 83 puntos.En la tabla siguientese da rapidez,en pginaspor minuto (ppm), en la impresin de texto y precio de cada impresora.
Nombre I 250W Minolta-Q_MS fagePro Brother HL- 1850 LexmarkE320 1250E Minolta-QMS PagePro IIPLaserjet 1200 44(X)/f,l Xerox Phaser Broer HL-240N IBM Infoprintl l20n W8l2 Lexmark Oki Data88300n a. b. c.
fipo Oficina 0ficina Oficina Ocina Oficina Coqporativa Corporativa Corporativa Coqporativa Corporativa
(Fpm) Veloctdad
'tz
l0 t2,.2 10,3
n.7
Prlnters
($) Pnecto 199 499 299 299 399 1850 1000 1387 2089 22W
D la ecuacinde regresinestimadaempleandovelocidadcomo variableindependiente. Calcule l. Quporcentajede la variacin del precio puedeser explicadopor la velocidad de la impresora? Cules el coeficientede correlacinmuestralentre velocidady precio?Reflejaestecoeficiente una relacin fuerte o dbil entre la velocidadde la impresoray el costo?
E ( y ) : F o +f l F
(r4.r4l
(cantina)
567
de regresin. (14.14)sele conoce comoecuacin como ya seindic,a la ecuacin o2, eslamismapafatodoslos valoresde . 2. Lavarianzadee, que sedenota o2 y es la Implicacin: La varianzade y respectoa la rectade regesin es igual a mismaparatodoslos valoresde r. 3. Los valoresde e ssn independientes. valor de no estrea un determinado Impticacin: El valor de i correspondiente a ningrln otro valor de -r; por lo tanto' lacionadocon el valor de e conospondiente relacionadocon a undeterminadovalor de x no esL4 el valor de y correspondiente el valor de y de ningnotro valor de.r' 4, El trmino del error es una variablealeatoriadistribuidanormalmente. aleatoriadisImplicacin: comoy esfuncin lineal de e, tambiny es una variable tribuidanormalmente. que obsrvese del modeloy susimplicaciones; las suposiciones En la figura 14.6semuestran con el valor de x que seconsivalor le E6t)cambiade acuerdo n gtfrca,el en estainterpretaci de e' y pof tantola probabilidad de distribucin la de x, seael valor sea-cual dere.Sin embargo, la mismavatodas' que tienen' normales' y, distribuciones ad de son de probabilid distribucin de y esmareal valor si el de depende punto cualquier del errore en nanza.Elvalor especffico yor o menorqueE(Y)' o setienenunahi quetambinsehaceunasuposicin hay quetenerpresente En estepuno, que la basede la relase supone y y, decir, Es r entre ptesis*"iude h flrma de la ielacin p{'No perderde vista el se debe + por es una rectarepresentada Fo cin entrelas variables DELMODELO DE REGRESIN 14. SUPOSICIONBS FIGURA
Distribuciu de ysn=30
Distribucinde
y on.r= 20
Distribucin de y en.r= 10 E(y) cuando =10
E(y)cuando =0 \r*
x=20 =30
E(y) cuando x=2O
58
simple lineol 14 Regresin Copitulo haberalgnotro modelo,por ejemploI : Fo + flrf * e' queresulteserun hechode quepuede mejormodeloparala relacinen estudio.
lr.s)Pruebade significancia
de y esunafuncinlineal lineal simple,la mediao valor esperado de regresin En unaecuacin Bresceto,E(y):Bo+(0)x:o'Enestecaso'elvadex:E(y): fo+ Brx'Perosielvalorde del valor de .r y por lo tanto se puedeconcluir que I y y no estnrelor medio de y no depende Pero si el valor de B, es distinto de cero, se concluirque las dos linealmente. lacionadas signifiunarelacinde regresin Por lo tanto,paraprobarsi exise relacionadas. estn variables de es distinto valor de Bt cante,se deberealizaruna pruebade hiptesispara determinarsi el la o2, de estimacin una se requiere qo" ,on las msusaas.n ambas, cero.Hay dos pruebas vaianzade e en el modelode regresin.
Estimocinde o2
sepuedeconcluirqueo2, la vay con sussuposiciones' con el modelode regresin De acuerdo tambinla vaianza de los valoresde y respectoa la recta de regresin' nanzade , representa se les estimada de los valoresde y de la rectade regresin qui a las desviaciones Recurdese es una residuales, de los Por lo tanto,SCE,la sumade los cuadrados conocecomo residuales. estimada. a la lfnea de regresin respecto reales de las observaciones medidade la variabilidad (ECM)proporcionaunaestimacindeoz;estaestimacinesSCEdi Elerrorcuadradomedio de libertad' vidida entresusgrados como expresar Como!, : bo * rx,,SCEsepuede SCE: l(y, - j,)' :2(y, - bo- bp)z de libertad'Seha deun nmerollamadosusgrados le corresponde A cadasumade cuadrados estima SCE es necesario de libertad porqueparacalcular mostradoque SCE tienen 2 grados n - 2. entre SCE mediosecalculadividiendo os @oy flt).por lo tanto,el cuadrado dosparmetr estiproporciona un de o2. Como el valor del ECM insesgado un estimador ECM proporciona s'. tambinla notacin madode o2, se emplea ERRORCUADRADOMEDIO (ESTIMACINDE O2)
?=ECM* n-Z
scE
f tl.t5l
t..q
;
= .f.r .2s
de o2' insesgado esun estimador para estimaro se sacala raz cuadrada de 2. Al valor que se obtiene,, se le conooecomo elenor estndarde estimacin' ERRORESTANDARDE ESTIMACIN
,=ffi=\m
(tt tl
59
de El errorestndar s = VECM : yl9l.25 = 13.829. En et ejemplodeArmand'sPizzaParlors, la relade de significancia de las pruebas acerca siguiente en la discusin emplea estima;irrse cinentrexyy.
Pruebt r
Elmodeloderegresinlinealsimplees!:0oIBrx*e.Sixyyestnrelacionadaslinealmente, entoncesp , * O.nlobjetivo de la prueba t es determinar si se puede concluir que Br * 0. Para probar la hipiesis siguiente acercadel parmetroB, se emplearnlos datos muestrales. Ho:Bt:0 Hu:Bt*O Si se rechaza f16, se concluir que fl, * 0 y que entre las dos variables existe una relacin estadsticamentesignificante. La base para esta prueba de hiptesis la proporcionan las propiedades de la distribucin muestral de br, el estimador de Br, obtenido mediante el mtodo de mnimos cuadrados. primero, considreseque es lo que ocunira si para el mismo estudio de regresin se usIra offa muestfa aleatoria simple. Supngase,por ejemplo, que Armand's Pizza Parlors usa una El anlisis de regresin de esta otra muestra dar muesfa de las ventas de otros 10 restaurantes. como resultado una ecuacin de regresin parecida a la ecuacin de regresin anterior exactamentela misma ecuacin 9 : 60 * 5. Sin embargo, no puede esperarseque se obtenga 60 y la pendiente sea exacy sea exactamente eje con el iuna ecuacin en la que la interseccin cuadrados,son estamnimos de por el mtodo br, obtenidos lamente 5). Los estimadoresboy se presentanlas A continuacin muestral. propia distribucin dsticos muestralesque tienen su b,. de muestral propiedadesde la distribucin
DISTRIBUCIN TTUCSTNET NE A,
{thl4
que el valor esperadode b, es 0t, Pof lo que r es un estimador insesgadode Bt' ' Obsrvese Como no ," "ono"" el valor de o, se obtiene una estimacin de oo,, que se denota s6,,estimando o mediante s en la ecuacin (14.17). De esta manera se obtiene el estimador siguiente
de Obt.
A la deniacin estndar de br, se le conoce tambin como error cstndar de br. Pol lo tan o, sbt pr'aPolcio' no rna stimacin del enor estndar de b,.
DESVIACINESTANDARFSTIN{ADADE :I tu,=;m
{t/t-NNl
570
14 Regresin lineol simple Coptulo Por lo tanto,dadoque )(4 - ;2 : 563 En el ejemplode Armand'sPizzaParlors,s : 13.829. en la tabla 14.2,setieneque comosemuestra
, r ,:
13.829
\6os:0.5803
es la desviacin estndarestimadade br. La prueba t para determinar si la relacin es significativa se basa en el hecho de que el estadfstico de prueba
bt-Ft
J,
sigue una distribucin t conn - 2 grados de libertad. Si la hiptesis nula es verdadera,entonces Ft=0Y t: brls6r' Ahora se realizarestaprueba de significancia con los datos de Armand's Pizza Parlors, empleando como nivel de significancia a = 0.01. El estadlstico de prueba es b r 5 ': ,t,: or*
: 8'62
n - 2: l0 - 2:8 gradosdelibertad, EntosapndicesI4.3y Enlastablas deladistribucinrseencuentraquepara 14.4 semuestra el uso de t : 3,355 da un rea de 0.005 en la cola superior. Por lo tanto, el reaen la cola superior de la para Mintab v deExcel distribucin t correspondienteal valor del estadsticode prueba t : 8.62 debe ser menor a 0.005. el valor-p calcular Como esta prueba ", unu prueba de dos colas, este valor se dupca y se concluye que el valor-p para t : 8.62 debe ser menor a 2(0.005) : 0.01. Empleando Excel o Minitab se encuentravalor-p - 0.000. Dado que el valor-p es menor a a : 0.01 se rechazaflo y se concluye que B, no es igual a cero. Esto es suficiente evidencia para concluir que existe una relacin significativa entre la poblacin de estudiantesy las ventas trimestrales.A continuacin se presentaun resumen de la prueba r de significancia para la regresin lineal simple.
Ho:Bt=o Hu:Br*o
ESTADSTICO DE PRTJBBA b,
L _
t,
(r4.rel
REGI-ADERECHAZO Rechazarilo si valor-p = a Mtodo del valor-p: I/o si I s 'tatzo si t > t*, Mtododel valor crftico: Rechazar de libertad. dondero, se toma de la disribucin I con n - 2 grados
57r
El coeficiente de confianza para este El estimador puntual es , y el margen de error es toDsb,. intervalo es I - a y tutzes el valor / que proporciona un rea qlZ en la cola superior de la distribucin t con n - 2 grados de libertad. Supngase,por ejemplo, que en el caso de Armand's Pizza Parlors se deseaobtener una estimacin de B, mediante un intervalo de 99Vode confianza. Enlatabla2delapndiceBseencuentraqueelvalor/correspondienteaG:0.0lyn-2: : 3.355. Por lo tanto, la estimacinmedianteun interval0 - 2 : 8 gradosde libertad es /0.005 Io de 99Vode confianza es b , - + t o , r s u ' : 5 - r 3 ' 3 5 5 ( 0 ' 5 8 0 3:) 5 a l ' 9 5 o el intervaloque va de 3.05 a6.95. Al emplear la prueba r de significancia la hiptesis probada fue H oB : r: 0 Hu:Br*0 Empleando a : 0.01 como nivel de significancia, se puede usar el intervalo de 99Vode confianza como alternativa para llegar a la conclusin de la prueba de hiptesis que se obtiene con los datos de Armand's. Como 0, que es el valor hipottico de B,, no est comprendido en el intervalo de confianza(3.05 a 6.95), se rechazaHo y se concluye que entre el tamao de la poblacin de estudiantesy las ventas trimestrales s existe una relacin estadsticamentesignificativa. En general, se puede usar un intervalo de confianza para probar cualquier hiptesis de dos colas acercade B,. Si el valor hipottico de B, est contenido en el intervalo de confianza, no se rechaza Ho. De lo contrario, se rechazaHr.
Pruebo F
Una prueba F, basadaen la distribucin de probabilidad F puede emplearsetambin para probar la significancia en la regresin. Cuando slo se tiene una variable independiente,la prueba F lleva a la misma conclusin que la prueba /; es decir, si la prueba r indica que Bt * 0 y por lo tanto que existe una relacin significante, la prueba F tambin indicar que existe una relacin significante. Pero cuando hay ms de una variable independiente,slo la prueba F puede usarse para probar que existe una relacin significante general. Lalgicadetrs del uso de la prueba F para determinar si la relacin de regresin es estadsticamente significativa se basaen la obtencin de dos estimacionesindependientede o2. Se explic cmo ECM proporciona una estimacin de o2. Si la hiptesis nula llo: F, : 0 es verdadera,la suma de cuadradosdebida a la regresin, SCR, dividida entre sus grados de libertad proporciona otra estimacin independientede o2. A estaestimacin se le llama el cuadrado medio debido a la regresin o simplementeel cuadrado medio de la regresin. Y se denota CMR. En general, CMR : SCR Gradosde libertadde la resresin
En los modelos que se consideranen este texto, el nmero de grados de libertad de la regresin es siempre igual al nmero de variables independientesen el modelo: CMR: SCR Nmero de variables independientes
(r4.2O)
Como en este captulo slo se consideran modglos de regresin con una sola variable independiente, se tiene CMR : SCR/I : SCR. Por 1o tanto, en el ejemplo de Armand's Pizza Parlors, CMR : SCR: 142Oo. indepenSi la hiptesisnula es verdadera(Hoi F t: 0), CMR y ECM son dos estimaciones que F en la el nsigue una distribucin dientes de o2 y la distribucin muestral de CMR/ECM
572
l4 Coptulo
lineolsimple Regresin
mero de grados de libertad en el numerador es igual a uno y el nmero de grados de libertad en el denominador es igual a n - 2. Por lo tanto, si r : 0 el valor de CMR/ECM deberser un valor cercano a uno. Pero, si la hiptesis nula es falsa, (8, + 0), CMR sobreestimaro2 y el valor de CMR/ECM se inflar; de esta manera valores grandes de CMR/ECM conducirn al rechasignificante. zo de Ho y a la conclusin de que la relacin entre x y y es estadsticamente prueba F Armand's Pizza realizar la en el ejemplo de Parlors. El estadsA continuacin se prueba es tico de
Hr:Br-o H8,*o
ESTAD STICO DE PRI.IEBA
r=ffi
REGLADERECTIAZO Rechaza llo si valor-p s a Mtodo del valor crtico: Rechaza Hosi F > Fo Mtodo del valor-p:
{tt"2tl
donde d es un valor de Ia distribucin F con I grado de libertad en el numeradot y n - 2 grados de libertad en el denominador.
En el captulo 13 se vio el anlisis de varianza (ANOVA) y el uso de la tabla de ANOVA para proporcionar una visin resumida de los clculos que se emplean en el anlisis de varianza. Para resumir los clculos de la prueba F de significancia para la regresin se emplea una tabla ANOVA similar. En la tabla 14.5 se presentala forma general de una tabla ANOVA para la regresin lineal simple. En la tabla 14.6 se presentala tabla ANOVA con los clculos para la prueba F del ejemplo de Armand's PizzaParlors. Regresin, error y total son los rtulos de las tres que aparecen fuentes de variacin, y SCR, SCE y STC las sumasde cuadrdoscorrespondientes los g'rados de libertad I para SCR, n - 2paraSCE en la columna2.En la columna 3 aparecen y n - 1para STC. Los valores de CMR y ECM aparecenen la columna 4. En la columna 5 aparece el valor de F : CMR/ECM, y en la columna 6 apareceel valor-p que conesponde al valor de F de la columna 5. Casi todos los resultadosproporcionados por computadoraspara el anlisis de regresin presentanuna tabla ANOVA de la prueba F de significancia.
14.5 Pruebo designificoncio TABTA I4.5 FORMA GENERALDE LA TABLA ANOVA PARALA REGRESIN LINEAL SIMPLE Suma de cuadrados SCR
SCE
573
En toda tabla para el anlisis de varianm, la suma total de cuadrados es la suma de la suma de cuadrados de la regresin ms la suma de cuadrados del error; ademds, el total de los grados de libertad es ls suma de los grados de libertad de la regresin ms los grados de libertad del error.
Grados delibertad I
n- 2 n - l
Cuadrado mdio
f
FCMR CME
Yabrp
CMR: Y
CME::SCE n - Z
src
El aruilisis de regresin, que se usa para identijlcar la relacin entre las variables, no puede emplearse como evidencia de una relacin de causa ! efecto.
Grsdof dellbertd I E
Cusdrrdo mtdlo
Valor.p
574
lineol simple Regresin EJEMPLODE UNAAPROXIMACIN LINEAL PARAUNA RELACIN QUE NO ES LINEAL
i-bo+b{
Valormenor de
Rangode los valoree de obserYados
por I : bo+ brx es buena en el rango de los valores observadosde x en la muestra, se vuelve deficiente fuera de ese rango. Dada una relacin significante, la ecuacin de regresin estimadase puede usar con confianzapara predicciones correspondientesa valores de x dentro del rango de los valores de observados en la muestra. En el ejemplo de Armand's Pizza Parlors, este rango corresponde a los valores de entre 2 y 26. A menos que haya otras razonesque indiquen que el modelo es vlido ms all de este rengo, las predicciones fuera del rango de la variable independientedeben hacerse con cuidado. En el ejemplo de Armand'sPizza Parlors, como se ha encontradoque la relacin de regresin es significante al nivel de significancia de 0.01, se puede tener confianzapura usar esta relacin para predecir las ventas de restaurantesen los que la poblacin de estudiantes correspondienteest en el intervalo de 2000 a26 OOO.
hechasacercadel trmino del Las suposiciones error (seccin 14.4) son las que permiten las pruebasde significanciaestadstica de estasecde la distribucin muescin. Las propiedades pruebas r y F tral de b, y las subsiguientes de estassuposiciones. siguendirectamente 2. No se debeconfundir la significanciaestadstica con la significancia prctica. Con tamaos de muestramuy grandes,se puedenobtenerrepara vasignificantes sultadosestadsticamente lores pequeosde 1; en tales casoshay que tener cuidado al concluir que la relacin tiene signifi cancia pr ctica. 3. Una pruebade significanciaparala relacin lineal entre y y tanin se puederealizar usando el coeficiente de correlacin muestral r-.
Empleando rxy pnra denotar el coeficiente de correlacinpoblacional,las hiptesisson las siguientes. Ho"P,, : 0 Hu: P,, * 0 Si se rechaza Ho, se puedeconcluirque existe una relacin significante.En el apndice14.2 se proporcionanlos detallesde estaprueba.Sin embargo,las pruebasr y F presentadas en esta seccindan el mismo resultadoque la prueba de significanciausandoel coeficientede correlacin. Por lo tanto, si ya se ha realizadouna pruebaf o una pruebaF no es necesario realizar una prueba de significancia usando el coeficiente de correlacin.
575
Mtodos
o"o@
a. Usandola ecuacin(14.15) calcule el error cuadradomedio. b. Usandola ecuacin(14.16) calcule el error estndar de estimacin. c. Usandola ecuacin(14.18) calcule la desviacinestndar estimadade ,. (c : 0.05) d. Use la pruebat paraprobar las hiptesissiguientes Ho:Pr=0 Hu:Br#0 e. Use la pruebaF paraprobarlas hiptesisdel inciso d) empleando como nivel de significancia 0.05. hesente los resultados en el formato de tabla de anlisisde varianza.
a. Usandola ecuacin(14.15) calcule el error cuadradomedio. b. Usandola ecuacin(14.16) calcule el error estndar de estimacin. c. Usandola ecuacin(14.18) calcule la desviacinestndar estimadade 0,. d. Use la prueba/ para probar las hiptesissiguientes(a : 0.05). Ho:Br=0 Hu:Br#0 e. Use la pruebaF paraprobarlas hiptesisdel inciso d) empleando como nivel de significancia 0.05. Presente los resultados en el formato de tabla de anflisis de varianza.
a. Cules el valor del error estndar de estimacin? b. Pruebesi existeuna relacin significanteusandola pruebaf. Use c = 0.05. Emplee la pruebaF para ver si existe una relacin significante.Use c : 0.05. Cules la conclusin?
Aplicqciones
o"o@
576
l4 Coptulo a. b.
lineolsimple Regresin
significanteentrepromedioy salariomensual? IndicaIa pruebar que haya una relacin la prueba F. cul es la conclusin?use usando Pruebe si Ia relacin es significante : 0 . 0 5 . a c. D la tabla ANOVA' En la para excursionismo' y 27. La revista outside Magazineprob l0 modelosde mochilas botas susoporte El modelo. cada y precio de tabla siguient" ," p."r*tun los datosde soportesuperior soy excelente denota 5 aceptable que I significa la perior se midi con una escaladel I al 5 en 2001)' Guide porte superior(OutsideMagazineBuyer's
Boots
Fabrlcante Y modelo Raid Super Salomon Prme Merrell Chameleon TevaChallenger Fuon GTX Vasque Boreal Maigrno Guide GTX SuPer L.L. Bear Lowa Kibo AsoloAFX 520 GTX RaichleMl Trail GTX Delta SL M3 Scarpa
$oportetuperlor 3 3
J
3 5 5 4 4 5
Pr?do(18) t20 125 130 t35 150 189 190 t95 20 229
paraestimarel precio de las a. Use estosdatosparaobtenerla ecuacinde regresinestimada superior. soporte el en base con mochilasy las botaspara excursionismo y precio. superior soporte entre relacin hay = si a 0.05.determine b. Empleand-o a) paraestimarel el inciso en obtenida estimada regresin de ecuacin la c. Confiaraen usar supeprecio de las mochilasy botas para excursincon baseen la evaluacindel soporte rior. del soportesuperior d. Estime el precio de una mochila que tiene un 4 como evaluacin de dormir de Bergans ('F) y precio ($) de ll sacos 28. En el ejercio 10,con los datosde temperatura - 5.277b' Empleando = j 359.2508 estimada de Norway se obruvo la ecuacinde regresin D la ta' y precio estnrelacionados' 0.05 com nivel de significancia,dterminesi temperatura conclusin? la es bla de ANOVA. Cul producciny costospara 29. Vuelva al ejercicio 2I,enelque se usaronlos datossobrevolumen de de producciny los cosvolumen el que relacionaba obteneruna ecuacinde regresinestimada = si el volumende para determinar 0.05 cr Use de produccin. ope-racin tos de una determinada D la tablaANOVA' totals' costos los con significativa produccinestrelacionadode maneia Cules la conclusin? paradeterminarsi el preciode 30. Vuelva al ejercicio 22,en elque seemplearonlos datossiguientes texto (PC World' febrero una impresoraestabarelacionadocon su velocidadpara imprimir un 2003).
Nornbrt 1250W Minolta-QMSPagePro HL-l850 Brother Irmark E320 1250E Minolta-QMSPagePro HPLaserjet12fi) 4400/l'{ Xerox Phaser BrotherHL-2460N
Pdo(l) 199
'w tw
4ry
Prlntcru
t00tt vilfu!
rtr
r99
577
que hayauna relacin significanteentrevelocidadde impresiny precio? Indicanlas evidencias y d su conclusin.Use a : 0.05. Realicela pruebaestadstica apropiada 31. En el ejercicio20 con los datossobre : precio($) y y : evaluacin general de l0 televisores de plasma,de 42 pulgadasprobadaspor ConsumerReportsse obtuvo la ecuacinde regresin estimada! : 12.0169 +0.0127x.Con estos datosseobtuvieron y STC : 982.q. SCE : 540.04 Use la pruebaF paradeterminarsi el preciode los televisores de plasma,de 42 pulgadas y la evaluacin generalestin relacionados. Use s = 0.05.
Esiimocin puntuol
En el ejemplo de Armand'sPizza Parlors, la ecuacin de regresin estimada.l : 60 * 5x proporciona una estimacin de la relacin enfte x el tamao de la poblacin de estudiantesy y las ventas trimestrales.Con la ecuacin de regresin estimada se puede obtener una estimacin puntual del valor medio de y correspondientea un determinado valor de x o se puede predecir el valor de y que coresponde a un valor de r. Por ejemplo, supngaseque los gerentesde Armand's deseanuna estimacin puntual de la media de las ventas trimestrales de todos los restaurantes que se encuentren cercade campusde 10 000 estudiantes. Usandola ecuacinde regresinestimada!:60+5x,con.r=10(o10000estudiantes)seobtienei:60+5(10)=ll0.Porro tanto, una estimacin puntual de la media de las ventastrimestrales de todos los restaurantes ubicadoscercade campusde l0 000 estudiantes es $110 000. Ahora supngaseque los administradoresde Armand's deseanpredecir las ventas de un deerminadorestauranteubicado cerca de Talbot College, una escuela de l0 000 estudiantes.En est caso lo que interesa no es la media correspondientea todos los restaurantesque estn cerca de campus de 10 000 estudiantes,sino nicamente predecir las ventas trimestrales de un determinado restaurante.Enrealidad,la estimacin puntual de un solo valor de y es igual a la estimacin puntual de la media de los valores de y. Por lo tanto, la prediccin de las ventas trimestrales de esterestaurante sern! : 60 + 5(10) : ll0 o $110 000.
Las estimaciones puntuales no proporcionan informacin alguna acercade la precisin de una estimacin. Para eso es necesarioobtener estimacionespor intervalo que son muy parecidasa las de los captulos 8, 10 y 11. El primer tipo de estimacin por inervalo,el intervalo de confianza es una estimacin por intervalo del valor medio de las y que correspondena un valor dado de x. El segundotipo de estimacin por intervalo, el intervalo de prediccin, se usa cuando se necesita una estimacin por intervalo de un solo valor de y para un valor dado de x. La estimacin puntual del valor medio de y es igual a la estimacin puntual de un solo valor de y. Pero las estimaciones por inervaloque se obtienen para estos dos casos son diferentes. En un intervalo de prediccin el margen de error es nryor.
578
l4 Copitulo
lineolsimple Regresin
,:rl:.#*l
(r4.22).
lr4.22l
Una estimacin de la desviacin estndarde !o est dada por la raz cuadrada de la ecuacin
, ra-tf
)(x,-.i)2
(r4.23)
en la seccin14.5parael ejemplode Armand'sPizzaParlorsse obtenidos En los resultados 10,f : 14y X- i)2:56S,usandolaecuacin(14.23)seobtienes: l3.8zg.Comoto= tiene
DE CONFIANZAPARA8(yn) INTETALO
El margen de error en esta estilnac in po r inte malo (este intemalo de estimacin) es torsgr.
9p t
totzsgn
(r4.241
Paa obtener, con la frmula (14.24), un intervalo de confianza de 95Vo para la media de las ventas trimesftales de los restaurantesArmand's que se encuenan cerca de campus de l0 000 estudiantes,senecesitaelvalorderparao,l2:O.025yn-2=10-2=8gadosdelibertad.En la tabla 2 del apndice B, se encuentra to.o2s: 2.306. Por lo tanto, como !o : I l0 y el margen de error es tonsgo: 2.3M(4.95) : 11.415,la estimacinpor intervalo de 957ode confianza es 110 -'- 11.415
579
FIGURA I4.8
INTERVALOSDE CONFIANZA PARALA MEDIA DE LAS VENIAS y CORRESPONDIENTES AVALORES DADOS DELTAMAO DE LAPOBLACIN DE ESTUDIANTESx
Llmite superior
:"&9
6
'Et* e E 8 0
- -
rhiteinferior
En dlares,el intervalo de 95Vo de conftanzaparalamediade las ventastrimestrales de todoslos queseencuentran restaurantes cercade un campus de l0 000 estudianes es ll0 000 + $11415. Por lo tanto,si el tamao de la poblacinde estudiantes es l0 000, el intervalode 95Vo de confranza para la media de las ventas trimestralesen los restaurantes cercanosa un campusde l0 000 estudiantes esel intervaloque va de $98 585a$L2l 4L5. quela desviacin Obsrvese es&ndar estimada de !0, dadapor la ecuacin (14.23), esmenor cuandoxp: y la cantilad xp - : 0. En estecaso,la desviacin estrindar estimada de !o se convierteen
tin:"
G-flz
2(x, - i)2
: " !F ;
Esto significa que cuando xp: i se obtiene la mejor estimacin o la estimacin rnrs precisa del valor medio de y. Entre ms aleiada estxn de i, mayor rcrl xn - . El resultado es que los intervalos de conftanza para el valor medio de y son mrsamplios a medida que rn se aleja de i. En la figura 14.8 se muestra esto grtftcanente.
580
l4 Copitulo
lineolsimple Regresin
de 10 000 estudiantes.Como ya se indic, la estimacin puntual de yo, el valor de ) que cones: * btxo.ln el caso ponde a un valor dado xo, se obtiene mediante la ecuacin de regresin!, ?o : pronosticadassetrimestrales ventas las 10, como.rp College, talUot cercae restaurante el rn i- : 60 + 5(10) : 110o $110 000. Obsrveieque estevalor es el mismo que el obtenidocomo L'stimacin puntual de la media de las ventas en los restaurantesque se encuentrancerca de campus de l0 000 estudiantes. para obtener un intervalo de prediccin, es necesariodeterminar primero la varianza cores: xp' Esta varianpondiente al uso de !o como estimacin de un valor individual de y cuando a x za estformada por la suma de los dos componentessiguientes' 1. La varianzade los valores individuales de y respectoa la media E( yo), para la cual una estimacin estdadaPor s2 2. Lavaianzacorrespondiente al uso de !o para estimar E(yr), para la cual una estimacin est dada Por s', La frmula para estimar la vaianza de un valor individual de yo que se denota sfio' es
Ji"d:s2+sl (,rn- x): I .+r2 "tl I :s2 l:+--P Ln ztx- fl2) ( x o- ; ) 2 I | ,[-
: t-Lt*
(r4.2s)
por lo tanto, una estimacin de la desviacin estndarde un solo valor de )o es la dada por
sind :
-, ; \-
(r4.2)
En el ejemplo de Armand'sPizza Parlors, la desviacin estndarestimada que corresponde a la prediccin de las ventas de un determinado restaurante que est cerca de un campus de se calcula como sigue. 10 000 estudiantes
rro-l4f
568
in t forrs"o
(tL2rl
- tanes un velor ds la distribucin r para n dsnde el eosficients de confianza s I ! ? grados de libqtad \_ del restaurantesituado cerca de Talbot CollaEl intervalo de prediccin de las ventastrimestgales : : Por lo tanto, como-in--:- ll0 y-el margen 14.69. y s,no 2.306 /o.ozs ge se encuentraempleando : : de prediccin de 957o de confianza es intervalo el 33.875, 2.306(14.69) " ".o. es /o/2rind
1 1 0+ 3 3 . 8 7 5
58r
PARALAS VENTAS y QUE CORRES. FIGUMI4.g INTERVALOSDE CONFIANZAY DE PREDICCIN PONDENA VALoRES DADOS .TDEL TAMAO NT LA POBLACINDE ESTUDIANTES
240 220
Lnites del inervalo de confianza Los iniervalosde prediccinson ms anchos Lfihites de los intprvalos ds prpdiecin
a2 W
f rro
roo
I E r40 I
.t tzo
t* * 8 0
60 2A Is dosintervalos la monor tienen amptitu!
cllS=
i-
L4
En general,tanto las lneas de los lmitespara los in' temalosde confianzncomo las de los lmitespara los intemalos dep rediccin ticten cierta curvatura.
es$110000 + $33 875o el intervaloqueva de $76 125a el intervalode prediccin En dlares, queseencuentre cerparaun solorestaurante queel intervalode prediccin $143875.Obsrvese la media que de confianzapara el intervalo esmsamplio ca de un campode 10 000 estudiantes de 10000 estudiantes. que seencuentran cercade campus de todoslos restaurantes de las ventas precisin la mediade y queun ms puede con estimar reflejael hechode que se Estadiferencia y. solo valor individualde mediante comolas estimaciones un intervalode confianza mediante Tantolas estimaciones es independiente variable de la valor precisas el cuando un intervalo de prediccinson ms y los inde : de confianza general de los intervalos la forma xp . En la figura 14.9semuestra que sonmsanchos' tervalosde prediccin
Mrodos
Orto@
a. b.
de j'o cuandox : 4. Use la ecuacin(14.23) para estimarla desviacinestndar parael valor espeUse la expresin(14.24) para obtenerun intervalo de confianzade 95Vo : radodey cuandox 4.
582
l4 Coptulo
lineolsimple Regresin
c. d.
Use la ecuacin(14.26) paraestimarla desviacinestindarde un valor de y cuando.r : 4. un intervalo de prediccin de 95Vopara y cuando Use la expresin(14.27) para obener x:4
a. b. c. d.
de j,o cuandor = 8. Estime la desviacinestndar el valor esperado de y cuandox : 8. Obtengaun intervalo de 95Vode conftanzapara de un valor individual de y cuandor : 8. Estime la desviacinestndar Obtengaun intervalo de prediccinde 95Voparay cuandor = 8.
Obtengalos intervalosde confianzay de prediccin del 95Vopara x : 12. Explique por qu son diferentes estos dos intervalos.
Aplicociones
orto@
y de calificaciones y los salariosmensuales 3sEn el ejercicio 18,con los datosde los promedios j :
SloplngBagg
1790.5+ 581.1. se obtuvo la ecuacinde regresinestimada D un intervalo de 95Vode conftanzapara el salario medio inicial de todos los estudiantes a. cuyo promediofue 3.0. b. D un intervalo de 95Vode predicci para el salariomedio inicial de Joe Heller cuyo promediofue 3.0, (oF) : x y precio ($) = y de 12 sacosde En 36. el ejercicio 10, a partir de los datosde temperatura dormir, fabricadospor Bergansof Noway, se obtuvo la ecuacinde regresinI : 359.2668 - 5 .2772x. Paraestos datoss = 37.9372. sea30. a. D una estimacinpuntual del precio de un sacode dormir cuya temperatura de dormir cuya b. D un intervalode95Vode confianza parael precio medio de lodos los sacos sea30. temperatura es 30. D un intervalo de c. Supongaque Berganselaboraun nuevo modelo cuya temperatura prediccinde95Vopara el precio de estenuevo modelo. a los incisos b) y c). d. Explique la diferenciaentre susrespuestas
En el ejercicio 13 se proporcionarondatossobreel ingresobruto ajustadoy el monto de las dede impuestos.Los datos se dieron en miles de dlaes.Como la duccionesen las declaraciones para es! : 4.68 * O.lx,elmontarazanablede las deducciones, ecuacinde regresinestimada un contribuyentecuyo ingresobruto ajustadosea$52 500, es $13 080. a. D un intervalo de 95Vode conftaru,apara el monto medio de las deduccionesde todos los cuyo ingresobruto ajustadosea$52 500. contribuyentes b. D un intervalo de prediccin de 95Vopara el monototal de deduccionesde un contribuyente cuyo ingresobruto ajustadosea$52 500. de $20 400, sejustificara que se le c. Si el contribuyentedel inciso b) solicita deducciones quiera haceruna auditorla? d. Emplee su respuestaal inciso b) para indicar el monto de las deduccionesque puede solicitar un contribuyentecuyo ingresobruto ajustadosea$52 5) sin gue se le hagauna auditoa. Retome el ejercicio 21, en el que la ecuacinde regresinestimadai :1U6.67 + 7.6x se obtu38. y de una dtrminadaopevo empleando los datos de volumen de produccin r y costos otales racin de fabricacin. a. En el plan de produccin de la empresase ve que el mes prximo debern producirse 5) unidades.D la estimacin puntual de los costos totales.
JI.
583
parael costototal de produccinde las 500 unidades, D un intervalo de prediccinde99Vo el mes prximo. Si al final del mes prximo, el informe de costosde un contadorindica que en esemes los preocupara los gerentes costosrealesde produccinfueron $6000,debera el haberincurrido esemes en costostotalestan altos?Analice.
39. En EstadosUnidos casi todo el sistemade tranvasusa vagoneselctricosque corrensobrevas a nivel de la calle. La Administracinde Trrnsito Federalafirma que el tranvaes uno de los meya que la tasade accidentes ms seguros, por milln de midios de transporte es 0.99 accidentes llas-pasajero en comparacincon2.29 en los autobuses. En los datossiguientes sedan las millas de va y la cantidadde pasajeros transportados en los daslaborables, en miles,de seissistemas de tranvas(USAToday,T de enero2003).
Millas de vlas
15 t7 38 2l 47 31 34
Use estosdatospara obtenerla ecuacinde regresinestimadaque podra emplearse para predecirla cantidadde pasajeros dadaslas millas de vas. b. Proporciona la ecuacinde regresinestimadaun buen ajuste?Explique. c. Obtengaun intervalo de 95Vode confianzapara la media de la cantidadde pasajeros transportadosen los daslaborables en los sistemas de tranvasque tienen 30 millas de vas. que Charlotteestconsiderando d. Suponga la construccin de un sistemade tranvade 30 millas de vas.D un intervalo de prediccinde95Voparala cantidadde pasajeros transportada en un da laborablepor el sistemaCharlotte.Creeustedque el intervalo de prediccin que desarrollpuedaser til a los que estnplaneandoCharlottepara anticiparla cantidad de pasajeros en un da laborableen su sistemade tranva?Explique a.
5M FIGURA I4.IO
lineol simple 14 Regresin Coptulo DADOS PORMINTTABPARAEL PROBLEMADEARMAND'S RESUUTADOS PIZZAPARLORS Estimatdregf,essionequation I I f 6.50 8.62 P 0.000 0,000
S = 13.83
R-eg - 90.3*
R-Eq(dJ) 89.1*
sorrBcE
ItegreFeion Regiduat Error Ifotal Predictd t{ew obe I
pr 1 I 9
F 14,2*
o.oog I J
rfr
110.00
sE Fir 4.95
que"R-sq = 90.3Vo" de determinacin expreesel coeficiente Observe bondad de ajuste, El valor "R-sq (adj) : 89.IVo"severen el capftulo15. sadocomoporcentaje. Minitab usael rAnalysis of Varance. bajo el encafuzado 4. La tablaANOVA sepresenta que DF es la abreviatulo ResidualEnor parala fuentede variacindel error' Obsrvese of freedom( = gradosde libertad) y que CMR est dadocomo 14 200 y cin de degrees de estosdosvaloresda el valor F guees 74.25y el corresECM como l9l. El cociene pondientevalor-p 0.000. como el valor-p es cero (a fies lugaresdecimales),la relrcin' significante. estadfsticamente entre ventas(Sales)y poblacin(Pop) se consider un intervalode anfianndeg% y |ne6' mediante esperadas de lasvenas 5 . La estimacin sercanoa un campusdo t0 (Xn timacin de las ventasde un determinadoresaurante de 954ose dan abajo& l tabla ANOde estimacin medianteun nervalo estudiantes de prediccines (76.12, es (98.58, LZL.42,y el inervalo VA. El inervalode conftanza 14.6. 143.88) comoseindicen la seccin
Aplicociones
o"o@
N.
La divisin comercial de una empresainmolaria realizl_unanlisis dc rcgresin de l relacin entre rentasbrutas anuales(en miles dc dlares) y y, prpcio de venta (en miles de dlares) de Se obnvieron datos sobre varias propiedadesvendidas ltimamenedificios de departamenos. te y con la computadora se obtuvieron los resultadossiguientes.
585
It'hc rogreselor equatLon ie f - 20.0 + 7.21 x' Predistor contrnt tf coef, 20.000 ?.2L0 SE coef 3.a13 X.3636 T 6.2I 5.29
a. b. c. d. e.
Cuntosedificios de departamentoshaba en la muestra? Dlaecurc,i de regresinestimada Cules el valor de .rr,? Use el estadlstico F pa probar la significancia de la relacin empleando 0.05 como nivel de significancia. Estime el precio de venta de un edificio de departamentoscuyas rentas anualesbrutas son
s50000.
41. A continuacin se presentauna parte de los resultadospor computadorade un anlisis de regresin en el que se relaciona y = gastosde mantenimiento (dlares por mes) con r uso (horas por rmana) para una marca determinadade terminal de computadora.
lltre regrreseion equation is Y - 6 . 1 0 9 2+ . 8 9 5 1 x Predictor Conetarit x Anqlysis Coef 6.1092 0.8951 of Varfans* SE Coef 0.9361 0.1490
sc[tRcs
Regreeeion neidual Error ?Dotal
Dr
1 I 9
ss
1575.?6 349.14 1924.90
t{s
15?5-?6 {3.64
a. b. c.
D la ecuacinde regresinestimada. Use una prueba t para determinar si los gastos mensualesde mantenimiento estn relacionados con el uso, empleando0.05 como nivel de significancia. Utilice la ecuacin de regresin estimada para predecir los gastos mensualesde mantenimiento de una terminal que se usa 25 liora por semana'
42. Un modelo de regresinque relaciona, el nrimero de vendedorcsen una sucursal,con las ventas anualesen esa sucursal (en miles de dlares), proporcion el siguiente rcsultado de computadora empleandoanlisis de regresin de los datos.
58
is
x
Analysis
SE Coef
3.22L3 L.3626
6.2L 5.29
souRcE
Regression Residual Error TotaI
ss
41587.3 519841 .
a. b. c. d.
D la ecuacinde regresinestimada. participaronen el estudio? sucursales Cuntas Calcule el estadstico F y pruebela significanciade la relacin empleando 0.05 como nivel de significancia. Pronostique las ventasanualesde la sucursalMenphis.En estasucursalhay 12 vendedores.
que los corredores 43. Los expertosen saludrecomiendan beban4 onzasde aguapor cada 15 minutos que corran.Aunque las botellasde plstico son una buenaalternativapara la mayorade los corredores, cuandosecofTe todo un da a campotraviesaserequierensistemas de hidratacinque sellevan sobrela cintura o sobrela espalda. Estossistemas de hidratacinadems de permitir llevar ms aguapermitenllevar tambinalimento o ropas.Por supuesto, a medidaque aumentala capacidad de estossistemas, aumenta tambinsu pesoy su precio.En la lista siguienteseda peso y precio de 26 de estossistemas de hidratacin(Trail Runner Gear Guide, 2N3).
Modelo Fastdraw FastdrawPlus Fitness Access Access Plus Solo Serenade Solitaire Gemini Shadow SipStream Express Lightning Elite Extender Stinger GelFlaskBelt GeIDraw GelFlaskClip-on Holster GelFlaskHolster SS Strider (W)
Peso (onzas)
J
4
J
W'o
Hydratloni
7 8 9 9 ll 2l l5 l8 9 t2 t4 l6
r6 3
I ,,
I 8
25 35 35 45 4 60 30 40 60 65 65 20 7 l0 l0 30
587
Peso (onzas) t4 9 t9 14 13
Prccio ($) 40 35 55 50 60
a. b. c. d.
e.
Con estosdatos obtengauna ecuacinde regresinestimadaque puedaser empleadapara predecirel precio de un sistemade hidratacinen funcin de su peso. Pruebela significanciade la relacin empleando 0.05 como nivel de significancia. un buen ajustela ecuacinde regresinestimada? Proporciona Supongaque la ecuacinde regresinestimadaobtenidaen el inciso a) tambinpuedausarsepara sistemas de hidratacinelaborados por otrasempresas. Obtengaun intervalo de conftanzade95Vo para estimar el precio de todos los sistemasde hidratacin que pesan l0 onzas. Supongaque la ecuacinde regresinestimadaobtenidaen el inciso a) tambinpuedausarse para sistemas de hidratacinelaborados por otrasempresas. Obtengaun intervalo de prediccin de 95Vo para estimar el precio del sistema Back Draft elaborado por Eastern Mountain Sports;estesistemade hidratacinpesa 10 onzas.
44. CushmanWakefield,Inc. recogedatos sobrela tasade desocupacin en edificios de oficinas y las tasasde las rentasen mercados de EstadosUnidos. Los datossiguientes dan la tasade desocupacin(Vo)y las tasasde rentaspromedio (por pie cuadrado)en las zonascomerciales centrales de l8 mercados.
Mercado Atlanta Bostoil Hrdord Baltimore $rashingon Philadolphia Miami T*pu Chicago SanFrmcisco Phoenix SanJos WestPatmBeach Deoit Frooldyn Downtown,NY Midtown, NY Midtown South,NY
OltRrt..
Thsa de (%) dcsocupacin 2t.9 6.0 22,8 18.1 12.7 14.5 20.0 t9.2 16.0 6.6 15.9 9.2 19.7 20.0 8.3 17.l 10.8 1 1l.
21.0r
35.09 19.41 25.28 t7.02 24.04 31.42 t8.74 26.76 27.72 18.20 25.00 29.78 37.03 28.&
a. b. c. d.
Con estosdatostraceun diagramade dispersin;en el eje horizontal grafiquela tasade desocupacin. haberalgunarelacin entre las tasasde desocupacin y las tasasde rentas? Parece D la ecuacinde regresinpara predecirla tasapromediode renta en funcin de una tasa de desocupacin dada. Empleandocomo nivel de significancia0.05 pruebela significanciade estarelacin.
588
l4 Copiulo
Regresin lineolsimple
un buen ajuste?Explique. la ecuacinde regresinestimada, e. Proporciona, en los mercados en los que la tasade desocupacin en la tasade rentaesperada f. Pronostique centraleses 25Vo. zonascomerciales generalen la zona comercial central de Ft. Lauderdalees ll.3%. E. La tasa de desocupacin en Ft. Lauderdale. Pronostiquela tasade renta esperada
entreel valor observado de la I esla diferencia Comoya seindic,el residualde la observacin (!,) (y)y el valor estimado de la variabledependiente variabledependiente
RES1DAL DE LA OB$ERTACIN'
/,*i
donde y, esel valor observado de la voriabls dependiente fi er el valaresmadode la variabledependiente
(r4.281
En otras palabras, el residual i es el error que resulta de usar la ecuacin de regresin estimada para predecir el valor de la variable dependiente.En la tabla 14.7 se calculan estosresidualescorrespondientesa los datos del ejemplo de Armand's Pizza Parlors. En la segundacolumna de la tabla se presentanlos valores observadosde la variable dependientey en la tercera columna, los valores estimadosde la variable dependienteobtenidos usando la ecuacin de regresin estimada ! : 60 * 5. Un anlisis de los residuales correspondientes,que se encuentran en la cuarta columna de la tabla, ayuda a determinar si las suposicioneshechas acecadel modelo de regresin son adecuadas. A continuacin se revisan las supopicionesde regresin en el ejemplo de Armand's Pizza Parlors. Se supusoun modelo de regresin lineal simple
(r4.2el
'
"Tr
58 105 88 ilE tt7 137 ls? 160 149
Vemtassttmds .9*6ll*$r
70 90 100 100 120 l& 10 160 l?0 t90
2 6 I 8 l? 16 20 2 72 26
w2
589
(y) son funcinlineal del tamao que las ventastrimestrales Estemodeloindicaque se supone (), de estudiantes msun trminodel error e. En la seccin14.4,parael trmide la poblacin suposiciones no del error e sehicieronlas siguientes 1. E ( e ): 0 .
La varianza de e, que se denota o2, es la misma para todos los valores de . 3. Los valores de e son independientes. 4. El trmino del error e tiene distribucin normal. Estas suposicionesson la baseterica para las pruebas r y F que se usan para determinar si la relacin entre r y ) es significativa y para las estimaciones,mediante intervalos de confianza y de prediccin, presentadas en la seccin 14.6. Si las suposicionesacercadel trmino del error e son dudosas,puede ser que las pruebasde hiptesis acercade la significancia de la relacin de regresin y los resultadosde la estimacin por intervalo no seancorrectos. Los residualesproporcionan la mejor informacin acercade e; por lo tanto, el anlisis de los residualeses muy importante para determinar si las suposicioneshechasacercade e son apropiadas. Gran parte del anlisis residual se basa en examinar grficas. En esta seccin se estudiariin las siguientes grificas de residuales.
7
1. ) 3. 4.
La La La La
grfrcade residualescontra los valores de la variable independientex grfica de residualescontra los valores pronosticadospara la variable dependiente! grfrca de residualesestandarizados grfrcade probabilidad normal.
590
lineol simple Regresin GRFICADE RESIDUALESCONTRALAVARIABLE INDEPENDIENTE OBTENIDA CON LOS DATOSDE ARMAND' S PIZZAPARLORS
t'v
+20
+10
5 (9
16 l8
?r
22 24
Para la adecuadainterpretacin de las grficas de residualesexperiencia y criterio son muy importantes. Es raro que una grrficaderesidualestenga exactamentela forma de una de las grficas presentadasen la figura 14.12. Sin embargo, los analistasque realizan frecuentementeesde residualesse vuelven expertos en reconocer las diferencias entre tudios de regresin y grrficas que indican que se pude dudar de las suposicionesdel modelo. Una las formas razonablesy las grficade residualesproporciona una tcnica para evaluar lavalidez de las suposicionesen un modelo de regresin.
Residuoles eslondorizodos
Muchas de las grficas de residualesque se obtienen con los paquetesde software utilizan una versin estandarizadade los residuales.Como se demostr en el captulo anterior, una variable aleatoria se estandarizasustrayndolesu media y dividiendo el resultado entre su desviacin es-
14.8 Anlisis residuol: confirmocin de lossuposiciones delmodelo FIGURA I4.I2 GRFICASDE LOS RESIDUALESCORRESPONDTENTES ATRES ESTUDIOSDE REGRESTONES
591
GrficaA
592
Coptulo 14 Regresin lineolsimple FIGURA 14.I 3 GRAFICA DE RESTDUALES CONTRAEL VALOR PRONOSTICADO i OBTENIDA CON LOS DATOSDE ARMAND'S PIZZA PARLORS
v*,
+2O
+I0 I
I
t o
tndar. Cuandose emplea el mtodode mlnimoscuadrados, la mediade los residuales es cero. Por lo tanto,paraobtener sl residual estandarizado slo es necesario dividir cadaresidualentre su desviacin estndar. Sepuededemostrar que la desviacin estndar del residuali depende del error estndar de estimacin s y del valor correspondiente de la variableindependiente *,.
DESVIACINESTANDARDEL RESIDUALi*
rr,*f * ttlTl*n,
donde sr,-j, - desviacinestrdafdel residuali J = errof estndardccstimscin
ltl.3ot
{tt.3tl
quela ecuaci6n Obsrvese (14.30)indicaquela desviacin estndar del residual r'depende de4, debidoa la presencia de h, en la frmula.** Una vez calculada la desviacin esttndar de cada uno de los residuales, sepueden calculmlos residuales estandarizados dividiendocadaresidual entresusdesviaciones estndar correspondientes
'En rcolidod, eslu ecuocin proporciono uno climocin d lq dcviocin ndo dcl rrdduol I yo quc lo ur r Gl lugor dc o. " A /r, se le conocc como el influenciol d lo obcvocin i. El influcnciol a vcr co lo cccin l4.g cuondo r onridral ftl # srrruciones influyentes.
residuol: de lossuposiciones 14.8 Anlisis conftrmocin delmodelo TABIAI4.8 CALCULO DE LOS RESIDUALESESTANDARZADOS DEL EJEMPLO DE ARMAND'S PIZZA PARLORS
593
RcS*unnt*e
t I )
t
r*r
*12 *8 *6 *6 *2 2 6 I t?
Total
3 4 5 6 ',
r2
l6 20 26
2 6 I I
( * r)2 t4
64 3 36 4 4 36 36 & IM 58
itur - $r
0.2535 0.il2? 0.034 0.0634 0.0m0 0.0070 0.03t 0.0634 0.1t2? 0.2535
(r, - t)2
s
9 10
n,
srri, J -S *t2 lt.lt$3 r2.??09 l5 12.4CI3 - l ? 12.#93 1S *3 0.Im 13.06s? 0.10?s r3.06s2,: -3 $.163[ I1.6493 i s.lt34 12.193 r 9 0.2t77 n"nw l *2t 0"3535 rt:lt9$ ft, 0.3535 0"2127 0.163,{ 0.134
Rccidulee otandriradoe
*t.w92 L2241 *0.943? 1.4230 -0.219 *0.2296 *0.237? s.?115 -1.7114 t.7v2
{leml
Desviacioncs pequesde la rcrmalidad no tienenun efectograndeen las pruebas estadls adas tcas emple en el anlissdc regresin,
los clculosde los residuales estandarizados utilizandoel ejemplo En la tabla 14.8sepresentan que ya en clculos previosseobtuvos : 13 829.La fiRecurdese de Armand'sPizzaParlors. gura 14.14es la grficade los residuales estandarizados contrala variableindependiente x. permitever si la suposicin estandarizados de queel trminodel La gfrcade los residuales que la normales correcta. Si estasuposicin se satisface debeparecer eror tienedistribucin provienede una distribucin estandarizados, de probabilidad distribucinde los residuales norla grfrca de los residuales mal estnda.* Por lo tanto,al observar estandarizados, seespera en95Vo de los residuales estandarizados estnenfre-2 y 1.2.En la contrarque aproximadamente ftgwa 14.L4seve queen el ejemplodeArmand'stodoslos residuales estandarizados seencuencon los residuales estandarizados, estagrficano tran entre -2 y +2, Por lo tanto,de acuerdo paradudarde la suposicin de quee tieneunadistribucin normal. da razones estimados de !, los residuales y los resiDebidoal trabajoque significacalcularlos valores proporcionan, la mayorade los paquetes de softwarepara estadstica dualesestandarizados, de opcional,estosdatoscomo partede los resultados de la regresin. rnanera
594
l4 Coptulo
CONTRA ESTANDARIZADOS 14.14 cRFICADE RESIDUALES FTGURA X, OBTENIDA CON LOS DATOS LA VARIABLE INDEPENDIENTE DE ARMAND' S PIZZA PARLORS.
8 +l
N
a (u e tt
E o
o e)
1
14.9 TAB|
PUNTOSNORMALES PARA n : l0
Estadstico de orden I 2 4
J
6 7 8 9 l0
Punto normal - 1.55 - 1.00 -0.65 -0.37 -o.12 0.12 0.37 0.65 r.00 1.55
I4.IO TABTA
PUNTOSNORMALES Y RESIDUALESORDENADOSDEARMAND'S PTZZAPARLORS
Residuales estandarizados Puntos ordenados normales - 1.7ll4 - 1.55 -r.0792 - l.00 -0.9487 -0.65 -0.2372 -0.3'7 -0.2296 -0.12 -0.2296 0.12 0.7115 0.37 1.0792 0.65 r.2224 1.00 1.4230 1.55
ria que representael valor menor de estos varios muestreosse le conoce como el estadsticode primer orden. En la ciencia de la estadsticase ha demostrado que en muestrasde tamao 10 tomadas de una distribucin de probabilidad normal estndar,el valor esperadodel estadsticode primer orden es - 1.55. A este valor esperadose le conoce como punto normal. En el caso de una muestra de tamao n : lO, hay l0 estadsticosde orden y l0 puntos normales (ver tabla 14.9). En general, un conjunto de datos que conste de n observacionestendr n estadsticosde orden y por lo tanto ,?puntos normales. A continuacin se ve el uso de estos l0 puntos normalespara determinar si pareceser que los de Armand'sYrzza Parlors provengande una distribucin de probabiliresidualesestandarizados de la tabla 14.8 se ordenan.En la tabla dad normal. Para empezarlos 10 residualesestandarizados normales.Si se satisfay residuales estandarizados los puntos normales 14.10 se presentanlos 10 un valor parecido al tener deber residual estandarizado menor el normalidad, ce la suposicin de parecido al del valor un deber tener residual estandarizado punto el siguiente normal, del menor se enque estandarizados los residuales de En el caso y as sucesivamente. punto normal, siguiente puntos que gfica los en la una normal, en aproximadamente manera de una distribuidos cuentren normales correspondan al eje horizontal y los correspondientesresidualesestandarizadosal eje vertical, los puntos de la grfica estarinsituadoscercanosa una lnea recta a 45 gradosque pasepor el origen. A estagrfrca es a lo que se le conoce como gnifica de probabilidnd normal. La figura 14.15 es la grfica de probabilidad normal del ejemplo de Armand's Pizza Parlors. Para determinar si el patrn observado se desva lo suficiente de la recta como para concluir que los residuales estandarizadosno provienen de una distribucin de probabilidad normal habr que emplear el propio criterio. En la figura 14.15,todos los puntos se encuentrancerca de esta recta. Se concluye, por lo tanto, que la suposicin de que los trminos del enor tienen una distribucin de probabilidad normal es razonable. En general, entre ms cerca de la recta a 45 grados se encuentren los puntos, ms fuefe es la evidencia a favor de la suposicinde normalidad. Cualquier curvatura sustancial en la grfica de probabilidad normal es evidencia de que los residuales no provienen de una distribucin de probabilidad normal. Tanto los puntos normales como la correspondientegrfica de probabilidad normal pueden obtenersefcilmente empleando paquetescomo Minitab.
595
!t c! t{ t!
8 I
g 5
I x
1. Las grficas de residualesy de probabilidad normal se usanpara confirmar las suposiciones de un modelo de regresin.Si en estarevisin que una o ms de las suposiciones se encuentra son dudosas, habrque considerarotro modelo o una transformacinde los datos. Cuando se violan las suposiciones, las medidasa tomar deben basarseen un criterio adecuadotlas recomendaciones de una personacon experiencia puedenser tiles. en estadstica 2. El anlisisde residuales es el principal mtodo para verificar si las suposiciones estadstico del
modelo de regresinson vlidas. Aun cuando no se encuentreninguna violacin, esono necesariamente implica que el modelovaya a proporcionarbuenaspredicciones. Pero,si adems existen otras pruebasestadsticas que favorezcan la conclusinde significanciay si el coeficiente de determinacines grande,deber ser posible obtenerbuenasestimaciones y prediccionesempleando la ecuacinde regresinestimada.
Mtodos
45. Dadoslos datosde las dos variables v v.
a. b. c.
A partir de estosdatosobtengaunu ""uu"in de regresinestimada. Calcule los residuales. Traceuna grfrcade residuales contrala variableindependiente x. Parecen satisfacerse las suposiciones acercade los trminosdel error?
59
l4 Coptulo
Regresin lineolsimple
d. Calcule los residuales estandarizados. e. Elaboreuna grfica de residuales estandarizados contrai. Quconclusinpuedesacarde estagrfica? 46. En un estudiode regresinse emplearonlos datossiguientes.
Observacin xi 1 2
1 a
lt 4
q
Observacln
xt
lt
3 4 5
4 5 7
& 4
6 7 8 9
7 7 8 9 1
6 9 5 1
a. b.
A partir de estosdatosobtengauna ecuacinde regresinestimada. Traceuna grficade residuales. satisfacerse las suposiciones del trminodel error? Parecen
Aplicociones
o,'o@47.il::il:i::l?l"::^:.:"'Jn:*::sobre.losgaStoSenpublicidadylosingresos(enmilesded
"-*;*
&Urs$o 19 32 4 N 52 53 54
a. b. c. d.
Seax igual gastosen publicidad y y igual a ingresos.Utilice el mtodode mnimos cuadrados para obteneruna lnea recta que aproximela relacin entre las dos variables. Empleandocomo nivel de significancia0.05, pruebesi los ingresosy los gastosen publicidad estnrelacionados. Elaboreuna grfica de residuales de y - i contra !. Use el resultadodel inciso a) paraobtener los valoresde !. se puedensacardel anlisisde residuales? Quconclusiones Sepuedeusar estemodelo o se debebuscaruno mejor?
48. En el ejercicio 9 se obtuvo una ecuacinde regresinestimadaque relacionalos aosde experiencia con las ventasanuales. y traceuna grfica de residuales a. Calcule los residuales paraesteproblema. b. A la luz de la grfica de residuales, razonables las suposiciones acercade los trparecen minos del error? 49. American DepositoryReceipts(ADR) son,certificados que cotizan en la bolsa de NuevaYork y que representanaccionesde empresasextranjerasque mantienenun depsito en un banco de su propio pas.En la tabla siguientesepresenta (P/G) y el porcentaje la relacinprecio/ganancia de rendimientode la inversin (ROE, por sussiglasen ingls), de l0 empresas hindesque es probable que seannuevos(BloombergPersonalFinance,abril 2000).
I .9
597
Bhti ?d.?erc! &js4t Atql ccI!t IoLo !4qcte8 IqCI Mrsr T.l?boo. Nig.n tT Pta.dir GDbi Syan CopE Srrvic't SfYrrlirc lbdnolotiD!' Vd.d S6ci Nii6
28.m
n.u
P/G 3.88 27,O3 1033 5.15 13.35 .9 L&t 189.21 75. t3,17
paraobtener querclaunaecuacin de grsin cstinada Enplee un paquet de software ciony=P/Gy:ROE. contrala variableindepediente. b. Construya nagfiade residuales razoables las suposicion$4.erc3de los rA la luz de la gficade r$iduales, paecen mios del eror y de la foma del nodelo?
Deteccinde observocionesoiipicos
qucontiene dedispersi de un conju o dedatos u oltser' La figuraI 4.| 6 esun diagrama vacionalptca,un dsto(unaobservacn) queno sigue la tendencia dd rrsto dr lo3dot$. L3 quesonsospechosas y quc$quicranuanluii8 cuidaobservaciones alpicassonobservaciones l,l.l IGURA ATtrtCA UN CONruNTODB DATOS CONIJNAOBSERVACIN
598
Coptulo14
Regresin lineolsimple
TABIA 14.I I
CONITJNTO DEDATOS PARA ILUSIRAREL ETtsCTODETJNA OBSERVACINTFIC
I I 2 3 3 3 4 4 5 6
It 45 55 50 75 & 45 30 35 25 l5
doso.PuedeEatarsede daoserrneos;si es asf, esosdatosdebeser coregidos, Itrede tratarse de una violacin a las suposiciones del modelo; si es asf, habrque consideraroo modelo,Por que sepresenten ltimo, puedetratarse, simplemente, por casualidad. de valoresinusuales En ese caso,esosvalores debern conservafse. Paamostrarcmo se detectanlas observaciones atfpicas,considrens los daos de la tabla I4.lI;laftgwa 14.L7muesfta el diagrama de dispersin de esos datos. Con exc*,pindela obparecenseguir un patrn que indicar una relacin liservacin4 (x4: 3, !+ = 75), estosdaos neal negativa.En efecto,dadoel pan que pareceseguirel restode los dafos,seesperarfa que yofuera mucho mspequeo, por lo gue a estaobservacinse le consideraconrc un da|oa{pico. En el casode la regresinlineal simple,las observaciones atfpicaspuedendetectarse mediante un simple examendel diagramade dispersin. Paradetectarobservaciones atfpicastambinsepuedenusarlos residualee estandarizados. Si observacin se una alejamuchodel patrndel reso de los datos(porejemplo, laobservacinatfpica de la figura 14.16),el valor absolutodel correspondiente residual estadazah *r grande. Muchoe paque$es de software identifican de tnanera auurtomtica las observaciones cuyos residuales tienen un valor absoluto grande. En la figura 14.18e presentan los resultados dados por Minitab parael anlisis de regresin de los datos&latabla l4.Ll.Enel penrfltimo rengln de los resultados dadospor Minitab se lee gue el resdual estandarizah do la observacin 4 es 2.67, Minrtab identifica como una observacin inusual toda obscrvacincuyo residualestandaz,adowa menora -2 o mayor a *2; en talescasosla ofuwactn aparece en un renglnapartc con unaR al lado del residualestandarzado, como seobervaen lafigwa 14.18.Si los erorcs . estndisribuidos normalmenfc fuera& , slo5% de los residualesestandiz,aM seenconEarn estoslfmitps, Paradecidr qvhacercon una observacinatlpica"primoro hay que verificar si es una observacincorrecta.Puede scr gue $etratede un enor al anotarlor datoso al ingresarlos a la computadora.Supngase, por ejemplo, que al verificar la obervacn ulpica de l^ tabl, 14.17,* encuenaque hubo un ern)r; el valor conecto dc la observacin 4 etaxo : 3, !+ = 30. En la figura 14.19sepresena el resultadoque proporcionaMinitab rnavezcorregido el valor de ya.Se observaque el dato incorreco afectasustancialmene la bondaddc ajuste.Con el dafo conpco, el valor de R-sqaumenta de 49.7%a83.8% y el valor de bodisminuye& 64.958a 59.237.L2 pendientede la rectacambiade *7.33 a -6.949. t a identificacinde los dafosalpicoe permib corregir errorsen los datosy mejora los rcsultadosde la regresin.
599
14.18 RESUUTADOS FIGURA 1SIS DERE6RESIN eUEDAMINITABpARAELANA CONUNA OBSERVACIN ATPICA DELCONruNTODE DATOS
quation 1l'he regreeeion y = 65.0 - 7.33 x Predictor Congtant x S L2.67 Coef 64.958 -7.331 R-aq is
R-eq(adi)
enalysie
Olsewations
rit ;-: sE Bit neaLdual st Rssid il;-l-32.03 2.67R 4 3.00 75.00 42.97 4.0{
R denotee an obeeration with a large standrdlzed resldual.
FIGURA 14.19 RESUL:ADOS eUE DAMINITAB pARAELCONJUNTO DE DATOS CON UNA OBSERVACINATFICA YA CORREGIDA
AriaIyBlB of Varianec sorrRcE Regreceion RBBiduaI Error Toral p F DF ss t{s 1 1139.7 f139.7 11.38 0.000 220.3 27.5 8 9 1360.0
00
lineolsimple 14 Regresin Copltulo 14.20 CONJUNT6 DE DAOS coN UNA 9BSERVACININFLUYENTE FIGURA
observacintiene mucha ms influencia sobre la regtade regresinestimadaque cualquiera soel efecto que tiene la eliminacin de cualquierade las otras observaciones o6a observacin; pequeo. muy estimada es de regresin bre la ecuacin influyentespuedenidenlas observaciones Cuandoslo setiene una variableindependiente, puedeser una obserobservacin influyente de Una un diagrama dispersn, tificarse mediante de la endencia y (una se desvfa susancialmente valor de cuyo observacin vacin alpica (por ejemplo, ver la frgtua L4.20)o general),puedeser un valor de I muy aleiadode la mediia puedetratarsede la combinacinde estasdos cosas(un valor de y algo fuera de la tendenciay un valor de un pocoextremo). quetiedadoel granefeco cuidadosamente influyentesdebenexaminarse Las ob$ervaciones gue no que que verificar primero hacer es hay [.o regresin estimada. de nen sobrela ecuacin y se corrige seobenor, se comet algrln daos. Si los recolectar algrtn error al ro hayacometido puede uno consies correca, la observapin S estimada. de regresin tiene una nuevaecuacin contribuyea una mejor comprensin cuandoes coffeco, derarseafortunadode tenerlo,Tal dao, regresin etimada.Enlafrgtral4.?n, ecuacinde y mejor a conduce una del modelo adecuado atr tar dp obtenerdafoscon vacorrecta,llevarl si es influyente, presencia la obpcrvacin dp la x y y, la telrcin entre que permtan mejor comprender loree intermcdioo, valore extremossedenominan quo oma independiente las lavariable en obeervacione Lae de gran influencia. s6servacin datos(puntos,observaciones) influyentc&lafigwa 14.?fi es un punode graninflveneia. La influencia dp una obgetttrctndryfu' de qntan lejoc eot de su meda.En el casode una sola variableindependienel valor & la vuiable indaperirlnra(leverage') i, qW rc d?,ta htrc calot mcdiantcla *srcim dala obrewrci&r te, la influencit (14.33).
J DtsLAOBT}B.RVAC6N INFI-UENCIA
ftl
lEc *
rlt
ftf.ft!
De acuerdocon estafrmula es claro que cnhe,ms aletase cocucnEex, de su mediai ma. yor rcrla influencia (leverage)de la obeervacin oomo partede los repam estadfstic idnfifican automticamene, Muchos de los paquee$ de regresin,los puntosde gran influencia Parailustrar cmo identifrcaMinisultadosestndar de dato6&latabla 14.L2. el conjuno tab los puntosde gran influencia, seconside,rar
0r
t|Gt RAt4.2t
,,'
OUo*t*fOo. raninftPnair
I4.I2 TABTA
c{tur()
I'EDtrOS CONI.JNA GSEIVACINDE GNANNFLT.'ENCIA
t,
del conjuntode datospresende dispersin la figura 14.21,que es el diagrama Observando en la que 7 (r = 70,y = 100)esunaobservacin tadoen la tabla l4-r2, seve quela observacin que seaidentificadocomoun punel valor de esun valor extremo.Por lo tanto,esde esperarse (14.33). la ecuacin secalculausando to de gtan influencia.La influenciade estaobservacin (*, - )' I = - { 2(x, )2 7 (70 - 24.28q2 - 0,94
to
l5
ro m m
m
25
hr=L+
n
2621..43
sofrwarc Iosgunsdc gnc*lrio|,s Nmlncer lu cInlasry pcrmiten &cnmlas obsemaciones fuflryawl Aqu se discuc b nglade selacitt qE crnpldMilttu-
de gran influen' En el casode la regresinlineal simple,Minitab identifica como observaciones = que menof. En el conjuntode da) lo sea que h, 0.99, para 6lno las h, cia las observaciones = = > = Minitab identificala 0.86. 0,94 Como 0.86. 6f7 tos de la tabla 14.12,6ln h En la frgva 14.22 influencia. tiene una valot cuyo una observacin 7 como observacin Bsn de datos.A la este conjunto regresin de de que del anlisis da Minitab el resultado se pesenta = = gran influencia; estaobde una observacin (x como 100) la identifica 7O,y 7 observacin X en el pte resultdos con una de lo la inferior en aparte presenta un rengln en servacinla margenderccho. de gran influeninfluyentesdebidasa la interaccinde un observacin [s observaciones procedimientos de diagnsExisten de detectar. grandes, ser dif[ciles suelen cia y de residuales En el ambas cosas. en cuenta influyente tomari es obsenracin tico que para determinarsi una procedimientos, D de Cook. el estadlstico estos uno de caphrlo 15 seesnrdiard
una observrcincomo po' Un rezidencada influyene, dbi& e que tien un tencielnrente ' opmserde groninfluerci,su im' reskhulgralrde de' prcto sobrcl ecurcinde rcgrtsinestimad se be ser evluado.En extcs ms evanzudos fsntrn los nr&ods de dilgnstico apropiedos.
conel mateno e etfamiliarizado Pem,cuando una manerasencillade hacer rial ms av&nzado, de rcgrcsin estediagnrticoesrealizarel anlisis Este mtodopermite con y sin era observacin. poaprcciarla influenciaquc tienela obsenacin sobre el resultado. influyente tencialmente
602
Coptulo 14 Regresin lineolsimple FtcURA14.22 RESULTADODE MINITAB EMPLEANDO EL CONJUNTODE DATOS CON TJNAOBSERVACIN DE GRAN INFLUENCIA lilre regreseio equation ia y 2 L27 * 0.rt?5 x Pradictor Constant x Coef SE Coef p T I27.466 2.96L 43.04 0.000 -0.{2507 0.09537 -4.46 0.007 R-sq(adj) = 75.9t
S - 11.883 R-sq = ?9.9t Analysis of Variance SO{IRCE Regr.ession Residual Error sotal
Unusual Obserations y x Obs Ftt SE Fit Residual St Resid ? 70,0 100.00 97.7L 4.73 2.29 1.91 X X denotee an obaersetlon whose X value givas it Large influence.
Mtodos
50. Considrense para las variablesx y y. los datos siguientes
160 120
1 0 1 2 1 2 2 2
t 2 t 4 1 6 1 5 1 8 2 0 z . 1 9
Calcule los residuales estandarizadosde estos datos. Hay entre los datos alguna observacin atpica? Explique. Calcule las observacionesde influencia que haya en estos datos. Entre estos datos, parece haber alguna observacin influyente? Explique. Con estos datos elabore un diagrama de dispersin. Se observa en el diagrama de dispersin la presenciade alguna observacin atpica?Explique.
c.
l4.g
03
Aplicociones
en bbls. (millones) de 52. Los datos siguientes muestran los gastos (en millones Oe$) Y los envlos de cerveza. l0 inrportantes rnrcrs
Mcg Budweisr Bud Light MinerLit CousLight Busch Naturel Light MitlorCmuinc Draft Miner Higb Life BuscbLigbt Mih*-mkee's Bcst
W'o
w
a. b.
6toc mcdloc (mlllonerde$) 120.0 68.1 100.1 76,6 8.7 0.1 2l.s 1.4 5.3 L.l
r3.2
Con estosdatosobtengauna ecuacinde regresinestimada' Emplee el anlisis resldual para hallar observacionesatfpicas u observacionesinfluyentes. Resumasushallazgosy conclusiones' unos 200 rrll de agua 53. Los especialistasen salud recomiendanque las personasque corren tomen a ocho horas, requietres cada 15 minutos mientras estncorriendo. Las personasque colren de En los datos a contiespalda. la o sobre ren sistemasde hidratacin que se llevan sobre la cintura precio 26 sistemasde = y de el aprox') ml 30 oz. flu nuacin se da el volumen (en onzasfluidas, I Guide,2OO3). (Trail Gear Runner la espalda o sobre hidratacinque sellevan sobrela cintura
Modelo Fastdraw FastdrawPlus Fitness Access AcccssPlus Solo Selenade Sotire Gemini Shdow SipStream Exprcss Lighming ElitE Er,tender Stinger GelFlaekBelt OelDraw c"mo[ crip.n Holster CelFtaskHolster SS Srider(W) Walkabout(V/) SolitudcI.C.E. GetawayLC-E. i.c.e. PnoRle I.C.E. Thaverse
Yalumtn (rft)
Pr{io
(s)
10 12 t2 20
z0
20 20
ffi'"
?r
20 N 20 [0 & 96 20 28
m ,m
!2 4 4 4 t 20 230 ?0 4.0 64 64
25 35. 35 45 10 60 30 40 60 65 65 2g 7 10 10 30 40 35 55 50 60
04
Coptulo14 a. b.
lineolsimple Regresin
Obtenga la ecuacin de regresin estimada que sirva para predecir el precio de un sistema de hidratacin, dado su volumen. influUse el anlisis residual para determinar si hay observacionesatlpicas u observaciones yentes.Resumasushallazgosy conclusiones.
54, En la tabla siguientesepresentala capitalizacin de mercadoy los salariosdel presidentedel consejo de administracin (CEO, por sus siglas en ingls) de 20 empresas(The WaIl StreetJournal, 24 de febrero de 2000 y 6 de abril de 2000).
tsM
& Jsiton Johns f{tnbetly{ta* Morrill Lynch Maorola PHlipMorrls Prcowr&Gamble ftr4comm $choring-Ptough $unMicrosystoms tbxaco WWest lValtDiney
Caplullzaclndemcrtado (mtll'once de $) 32977.4 162 365.r 31363.8 56849.0 8848.0 507216.8 44 180.1 191455.9 131.0 143 35 377.5 31062.1 92923.7 54421.2 r4r'.152.9 lt6 840.8 62259.4 r209ffi.5 30040.7 36450.8 61288.1
Slrl'DddCEO (n& lileS) 1130 1100 800 t3f0 1000 ?t25 9?8 20m l35 9S0 700
rn5 r6?s
r318.3 n3 r200 n6
950
sgt
?50
Obtenga la ecuacin de regresin estimadapara predecir el salario del CEO dada la capitalizacin de mercado. Use el anlisis de residualespara determinar si hay observacionesatpicas u observaciones influyentes.Resumasus hallazgosy conclusiones.
En estecapftulo se mostr el uso del anlisisde regresinpara determinarcmo es la relacin x. En la regresinlineal simple,el y y una variableindependiente entreuna variabledependiente lineal simpleE(y)= de regresin es y: flo+ flrx * e. La ecuacin modelo de regresin y obtenerla ecuacin de con x.Para o valor esperado la media de la relacin + describe Fo F{ : y mtodo de mlnimos cuamuestrales el * datos se emplearon bo b,.r de regresinestimada I muesalesque se usanpara estirnarlos parmetros drados.En efecto, bo y bt son estadsticos del modelo,Fol Fy desconocidos El coeficientede determinacinse presentcomo una medidade la bondadde ajustede la ecuacin de regresin estimada;el coeficiente de determinacinse puede interp,retarcomo que puedeserexplicadapor la ecuacin la proporcinde la variacinen la variabledependiente Se volvi a ver la correlacincomo una medidadescriptivade la intenside regresinestimada. dad de la relacinnealentrelas dosvariables. trmiacercadel modelo de regresiny del co'rrespondienrc Se discutieronlas suposiciones como un mediopaen esassuposiciones, t y F, basadas las pruebas no del error,y sepresentaron significativa. Se mostr ra determinarsi la relacin entre las dos variableses estadfsticamente
Glosorio
05
por mediode intervalos paraobtener estimaciones de regresin estimada cmousarla ecuacin papor mediode intervalosde prediccin parael valor mediode y y estimaciones de confianza ra valoresindividualesde y. por computadora de los problemas de El captuloconcluycon una seccinsobresoluciones paraverificarlassuposiciones residual del moy dossecciones el usodel anlisis sobre regresin atfpicase influyentes. delo e identificar las observaciones
Variable dependiente La variable que se predice o explicada. Se denota y. Variable independienls Variable que predice o explica. Se denota . Regrcsin lineal simple Anlisis de regresin en el que participan una variable independientey una variable dependiente,y en el que la relacin entre estasvariables se aproxima mediante una lfnea recta. Modelo de regresin Ecuacin que describe cmo estn relacionadas) y ms un trmino del error; en la regresin lineal simple, el modelo de regresin es y : Bo * Btx * e. Ecuacin de regresin Ecuacin que describe cmo est relacionada la media o valor esperado de la variable dependiente con la variable independiente; en la regresin lineal simple,
E(y):fotArx. de regresin obtenida a parth de dade la ecuacin Ecuacinde regresinss1rnEstimacin En la regresin neal simple,la empleando el mtodode mfnimoscuadrados. tos muestrales, estimada esi : bo I btx. de regresin ecuacin paraobtener la ecuacin de regresin empleado Mtodo de mnimos cuadradosProcedimiento El objetivoes minimizarXy, estimada. l)t. va en en la que la variableindependiente Diagrama de dispersi Grficade datosbivariados va en el eje vertical. el eje horizontaly la variabledependiente de regresin estiCoeficientede determins6 Medidade la bondadde ajustede la ecuacin y mada.Se puedeinterpretarcomo la proporcin de la variabilidad de la variable dependiente por la ecuacin estimada. que esexplicada de regregin y el valor de la variabledependiente Residual; Diferenciaque existeentreel valor observado para estimada; la observacin i, el residuali es pronosticado la ecuacin de regresin empleando li- 9r (ya de la relacinlineal entredosvariables Coeficientede correlaci Medidade la intensidad visto en el capltulo3). insesgada de la varianza del trminodel error d. Sedenota Error cuadrado medio Estimacin ECM o s2. medio,sedenota s. Es unaesdel errorcuadrado Error estndarde estimacinRalz cuadrada del error. estndar timacinde o. la desviacin tablaque seusapararesumirlos clculosnecesarios Tabla ANOVA En el anlisisde varianza, en la pruebaF de significancia. por intervalodel valor mediode y paraun valor dadode . Intervalo de confianzaEstimacin por intervalode un solovalor de y paraun valor dadode. Estimacin Intervalo de predicci1 que seusaparadeterminar si parecen servlidaslas Antisis residualAnlisisde los residuales tambinseusapara El anrlisis deresiduales acerca del modeloderegresin. hechas suposiciones y observaciones influyentes. atfpicas identificaobservaciones grficade los residuales, seusaparadeterminar si pareRepresentacin Grfica de residuale5 hechas acerca del modelode regresin. cen sef vlidaslas suposiciones estndar. ResidualestandarizsdsValor obtenidoal dividir un residualentresu desviacin
Coptulo14
lineolsimple Regresin
grafican Grfica de probabilidad normal Grfica en la que los residuales estandarizados se parece vlida la suposicin de grfica si ser a determinar puhtos Esta ayuda normales. los contra que los trminos del error tienen una distribucin de probabilidad normal. Observacin atpica Dato u observacin que no sigue la tendencia del resto de los datos. Observacin influyente Observacin en la que la variable independiente tiene un valor extremo. puntos de gran influencia Observaciones en las que la variable independiente tiene valores extremos.
(r4.r)
E(y): fo + f{
Ecuacin de regresin lineal simple estimada j: bo* btx Criterio de mnimos cuadrados mn}(y, - j,)2 Interseccin con el ejey y pendiente de la ecuacin de regresin lineal simple
SCE-2(y,-9,)'
Suma de cuadrados total
SCR: >(i, - if
Relacin entre STC, SCR y SCE
STC=SCR+SCE
Coeficiente de determinacin
t'-:-
(r4.r l lr4.r2l
"
scR sTc
(r4.r3)
Frmulqs clove
607
s2 : ECM:
SCEa n - z
(r4.rs)
(r4.t)
"'
o
-
VX. - )2
lr4.r7l
V>(r,- tF
b,
JD,
(t4.t8)
(r4.re)
CMR =
SCR
Nmerode variablesindependientes
(r4.2O)
CMR CME
(r4.2r)
(r4.23)
Intervalo de confianza para E$o) lp ! tatzsjo Desviacin estndar estimada para un solo valor
(r4.24)
sin:rVI+-+>@-E
Intervalo de prediccin para Je
l. r
6"-F
(r4.261
9, ! t*rs^o
(r4.271 (t4.28)
Residual de la observacin i
t-9
08
Jy,-i,= s'll-h,
(r4.3Ol
(r4.321
1 -.
n
>1r-
(r4.331
55. Si el valor & f es elevado, implica eso que entre las dos vaiables hay rma lrfrcin de causa
y efecto^?
56. Explique con suspropias palabrasla diferencia entre estimacin por intervalo del valu medio de
las y para un valor dado de r y estimacin por intervalo de un valor de y para una dada.
57. Quobjeto tiene probar si Pr=Q2 Si sc rechazajve Ft= 0, significaesoun btenajuste? 58. En la tabla siguiente se da el nmero de accionesvendidas (en millones) y elprecio csperdo (cl
promedio del precio mnimo y del procio mximo) de l0 acciones& oferrr.pblica inicial.
Acdonq Enprura Amcrican Phyrician ,dpcx Silvcr lr{irrca DarRiva Frarrchisc Mqtgago Gerrel-ogfc Intrnatidal Hmlo Foods PmCrotp Raywoc ReqlNetworks SoftwmeAGSystems
ftrd
W'o
FO
mmlftl 5.0 p.0 6.? 8.?S 3.0 13.6 4.6 6.1 3.0 1.?
cryirro($ 15 l4 tf 11 tt l9 t1 14 TO ll
a. b. c. d.
Obtenga la ecuacin de regresin estimada en la que la cantidad de accioncs vendids rca la variable independientey el precio la variable dcpendiente. Empleando0.05 como nivel de significancia,eristeuna relacin rignificativa encla do variables? la ecuacinde regresinestimadaun buen ajuste?Explique. Proporciona Empleando la ecuacinde regresinestimada,estime el precio esperadoen una emprci guc considera una oferta ptiblica inicial de 6 millones de acciones.
59. Los programasde recompra de accionescorporativas, suelenpromoversecomo un bercficio para los accionistas.Pero Robert 6abele, director de investigacin interna de First Call/Ihomrcn Fi. nancial, hizo notar que muchos de estosprogram&sserealizn nicamentecon el objevo dc olr tener acciones que se emplean como opciirnes como incenvo para los altor dircctivo dc l en 199Erepescrtaban el 6.2 las opcionesde acciones existentes En todaslas emprcsas, empresa. por ciento de todas las accionescomuflesen circulacin. En los datos siguientesse da l cantidad (BloombcrgPery la cantidadde acciones en circulacinde 13 emp,resat de opcionesotorgadas | f ebrcro, 2000) sonal F inance, enerc
Eiercic'ros omplemenbrios
09
Opdon
Adobo Syetems ApphComgncr Appliodl'{*mials Aumdcnk Beet Buy Fnitof theLoom ITTlrdusties MorrillLynch Novell Parareuic Technology Reebok Inteffintional Silioon Srghian Toys'R'Ut
20.] 52.t
Acdm*csmuc endrcd#n {cn dnoncs) 61.8 tdCI"g 3?5.4 5E.9 203.8 6.9 87"9 365.5 335.0 ?6S.t
a. b. c.
Obtenga una ecuacin de regresin estimada que sirva para estimar la cantidad en ciculacin de opc'ionesotorgadasdada la cantidad de accionescomunesen ciculacin. Emplee la ecuacin de regresin estimadapara estimar la cantidad en circulacin de opciones otorgadaspor una emprsaque tiene 150 millones de accionescomunesen ciculacin. Creeque la ecuacin de regresin estimadaproporcione una buena prediccin de la cantidad en ciculacin de opciones otorgadas?Emplee I parajustifrcar su respuesta.
60. El promedio industrial Dow Jones(DJIA) y el Estndar& Poor's 5) (S & P) son ndices que se emplean como una medida del movimiento general del mercado de valores. El DJIA se basaen los movimientos de los precios de 30 empresasgrandes;el S&P 500 es un ndice compuestode 5(X)acciones.Algunos dicen gue el S&P 500 es una mejor medida de la actividad del mercado de valores porgue tiene una basems amplia. A continuacin se presentael precio de cierre del a partir del 9 de septiembre del 2005 (Borrcn's,30 de DJIA y del S&P 5fi) durante20 semanas enero de 2fi)),
FGct
NTA
s&P50r) rul
l2r5 !?29
rzss
DX/r3P!0
W'o
2l dCI,opfln? ?S doocn!
l0 s7
rqsss
to 718 ro9$9 lCI$0 1067
rr48 l28s
t?r
1288
l?t57 1269
r0
Copitulo14 a. b. c. d. e. f.
lineolsimple Regresin
D el diagrama de dispersin de estosdatos empleandoDJIA como variable independiente. Obtenga la ecuacin de regresin estimada' huebe la significanciade la relacin.Use a = 0.05' Explique. hoporciona un buen ajustela ecuacinde regresinestimada? Supongaque el precio de cierre del DJIA es I I 000. Estime el precio de cierre del S&P 500. Debepreocupar que el valor de I I 000 del DJIA empleado en el inciso e) para predecir el del S&P 5(X) se encuentre fuera del intervalo de los datos empleado para obtener la ecuacin de regresin estimada? 61. JensenTire & Auto estpor decidi si firma un contrato de mantenimiento para su nueva mquina de alineamiento y balanceo de neumticos.Los gerentespiensan que los gastosde mantenimiento debernestarrelacionadoscon el uso y recolectanlos datos siguientessobre uso semanal (horas) y gastosanualesde mantenimiento (en cientos de dlares).
Jorn
32.s
Obtenga la ecuacin de regresin estimada que relaciona gastos anualesde mantenimiento con el uso semanal. b. Pruebela significancia de la relacin del inciso a) con 0.05 como nivel de significancia. c. Jensenpiensa que usar la nueva miiquina 30 horas a la semana.Obtenga un intervalo de prediccin de 95Vopara los gastosanualesde mantenimiento de la empresa. firmar el cond. Si el precio del conftato de mantenimiento es $3000 anuales,recomendara qu por no? fiato de mantenimiento? Por qu sl o 62. En un determinado procesode fabricacin se cree que la velocidad (pies por minuto) de la lnea halladasen el procesode inspeccin.Pade ensambladoafectabaal nmero de partesdefectuosas ra probar esto, los administradoresidearon un procedimiento en el que la misma cantidad de partes por lote se examinaba visualmente a diferentes velocidades de la lnea. Se recolectaron los datossiguientes. a.
Obtenga la ecuacin de regresin estimada que relaciona velocidad de la lnea de produccin con el nmero de partes defectuosasencontradas.
Eiercicios complemenforios b.
tl
Empleandoel nivel de significancia0.05, determinesi la velocidadde la lnea y el nmero de partes defectuosashalladas estn relacionadas. c. Seajustabien a los datosla ecuacinde regresinestimada? d. D un intervalo de confianza de 95Vopara predecir el nmero medio de partes defectuosas si la velocidadde la lnea es 50 pies por minuto. 3' Un hospital grande de una ciudad contrat a un socilogo prira que investigara la relacin entre el nmero de daspor ao de ausenciacon autorizacin, y la distancia (en millas) entre la casa y el trabajo del empleado. Se tom una muestra de l0 empleadosy se obtuvieron los datos siguientes.
Ab.ont
Dfutrncieet trsbClo I 3 4 6 I 10 t? 14 t4 t8
a. Elabore, con estos datos, un diagrama de dispersin. b. Obtenga la ecuacin de regresin de mnimos cuadrados. c. Existeuna relacin significativa entre las dos variables?Explique. d. Proporcionala ecuacin de regresin estimadaun buen ajustefExplique e. Emplee la ecuacin de regresin estimadaobtenida en el inciso b) para calcular un intervalo de confianzade9SVopara el nmero esperado (das)de los empleados de ausencias que vivan a 5 millas de la empresa. &. La autoridad de trnsito de una zona metropolitana importante deseadeterminar si hay relacin entre la antigedadde un autobs y los gastosde mantenimiento del mismo. En una muestra de l0 autobuses se obtuvieronlos datossiguientes.
Agpco.r
I 7" 2 2 2 3 4 4 5 5
Cooto de mnhnnlento (S) . 350 370 480 5N 590 550 750 800 790 95()
a. Empleando el mtodo de mnimos cuadradosobtenga la ecuacin de regresin estimada. b. Haga una prueba para determinar si las dos variables estn relaconadasde manera significativacon a = 0.05. Proporcionala recta de mnimos cuadradosuna buena aproximacin a los datos observados?Explique. Calcule un intervalo de prediccin de95Vopara los gastosde mantenimiento de un determinado autobs cuya antigiiedad es de 4 aos.
612
l4 Coptulo
lineolsimple Regresin
de una universidaddeseasabercul es la relacinentrelas horas 65. Un profesorde mercadotecnia los datosobtenidos de l0 esde estudioy la calificacinen un curso.A continuacinsepresentan tudiantesque tomaronel curso el trimestrepasado.
Ilons dt s$dlo
10s
HourPt
45 30 90 60
65 90 EO 55 15
Cattfi*aatn otsl S0 35 75 5 90 50 90 80 45 65
a. b. c. d.
Obtengala ecuacinde regresinestimadaque indica la relacin entre calificacin y horas de estudio. Empleandoa = 0.05 pruebela significanciadel modelo. l estudi95 horas' la calificacin que obtendrMark Sweeney. Pronostique para prediccin la calificacin de Mark Sweeney' de 95Vo Calcule un intervalo de
BloombergPersonalFinance (ulio/agosto 2001) public que la beta del mercadode TexasInstrumentera l.46.Labetadel mercadode cadaaccinsedeterminamedianteregresinlineal simple. En cadacaso,la variable dependientees la rentabilidad porcentual trimestral (revalorizacin ms dividendos) menosel rendimiento porcentual que se hubiera obtenido en una inversin libre de riesgos(como tasalibre de riesgo se emplela tasaTreasuryBill). La variableindependiente es la rentabilidad porcentual trimestral (revalorizacin de capital ms dividendos) para el mercado de valores (S&P 500) menosla rentabilidadporcentualde una inversin libre de riesgos.A partir de los datos trimestrales se desarrolla la ecuacinde regresin estimada;la beta del mercado de la accinen cuestines la pendientede la ecuacinde regresinestimada(r). La betadel mercado suele interpretarsecomo una medida de lo riesgoso de la accin. Si la beta del mercado es mayor a 1, la volatilidad de la accines mayor al promedioen el mercado;si la betadel mercado es menor a l, la volatilidad de la accin es menor al promedio en el mercado.Supngase que las cifras siguientesson diferencias entre rentabilidad porcentual y rentabilidad libre de riesgos a lo largo de l0 trimestresde S&P 500 y Horizon Technology.
llklBct
o5 n,5
Hotm *0.? -?.0 -5.5 4.7 1.8 4.1 2.6 2.0 * 1.3 5.5
Eiercicios complementorios a.
13
que sirve paradeterminarla betadel mercadode Obtengala ecuacinde regresinestimada Horizon Technology.Cules la beta del mercadode Horizon Technology? pruebela significancia b. Empleando 0.05 como nivel de significancia, de la relacin. la ecuacin c. Proporciona de regresin estimada un buenajuste? Explique. d. Utilice las betasdel mercadode Horizon Techologyy de TexasInstrumentpara comparr los riesgos de estas dos acciones. RecordAccessClearinghouse 67. La Transactional de Ia Universidadde Syracuse publica datosque muestranlas posibilidadesde una auditoradel Departamento de Tesorea de los EstadosUnidos.En la tablasiguientese muestrala mediadel ingresobruto ajustadoy el porcentaje de declaracionesque fueron auditadas en 20 municipios
Municipio Los ngeles Sacramento Atlanta Boise Dallas Providence San Jos Cheyenne Fargo Nueva Orleans Oklahoma City Houston Portland Phoenix Augusta Albuquerque Greensboro Columbia Nashville Buffalo
Porcentaje auditado
1.3 l.l l.l l.l
3 2s t z 3453r
35 995 37 799 33 876 3 05 r 3 30 t74 30 060 37 t53 3 49 1 8 33 291 31 504 29 199 33 072 30 859 32 566 34 296
lRSAudlt
1.0 1.0 0.9 0.9 0.9 0.9 0.8 0.8 0.7 0.7 0.7 0.6 0.6 0.5 0.5 0.5
Obtengala ecuacinde regresinestimadaque sirve parapronosticarel porcentaje de auditoras dado un ingresobruto ajustado. b. Empleando como nivel de significancia 0.05,determine si hay relacinentreel ingreso bruto ajustadoy el porcentajede auditoras. c. Proporciona la ecuacin de regresin estimada un buenajuste? Explique. d. Empleela ecuacin de regresin estimada del incisoa) paracalcularun intervalode 95Vo de parael porcentaje confianza de auditoras en un municipioen el que el promediodel ingreso bruto ajustado es $35 000. paspublicevaluaciones 68. Una institucin de un determinado sobrela satisfaccin con el trabajo. Unade lascosas quesepedan en la encuesta eraelegir(deunalistade factores) los cincofactores principales para la satisfaccinen el trabajo. Despusse peda a los encuestados que indicaransu nivel de satisfaccincon cada no de esoscinco factores.En la tabla siguientese presentan paralos que el factor indicado fue uno de los cinco factolos porcentajes de personas junto con una evaluacinobtenidaempleando res principales, el porcentaje que conde personas "muy satisfechos" "satisfechos" sideraronal factor como uno de los principalesy que estaban o con esefactor.(www.apse.gov.au/stateoftheservice).
a.
614
Coptulo14
Regresin lineolsimple
Factor
Evaluacin (vo) 49
@
Jobsat
Cargade trabajoadecuada Posibilidadde sercreativoo de hacerinnovaciones de hacercontribuciones Posibilidad lesa la sociedad planteadas Obligacionesy expectativas claramente Condicionesflexibles de trabajo Buenarelacinde trabajo Trabajointeresante Oportunidadde hacercarrera Oportunidadde desarrollarsushabilidades Oportunidadde utilizar sushabilidades y reconocimiento al esfuerzorealizado Retroalimentacin Salario Poderver resultados tangiblesdel trabajo
67 69 86 85 74 43 6 70 53 62 69
c.
Elaboreun diagramade dispersincolocandoen el eje horizontallos porcentajes de los factoresprincipalesy en el eje vertical la evaluacincorrespondiente. Quindica, respectoa la relacin entre las dos variables,el diagramade dispenin elaborado en el inciso a)? Obtengala ecuacinde regresinestimadaque sirva para pronosticarla evaluacin(Vo) dado el porcentajedelfactor (Vo). Empleandocomo nivel de significancia0.05 realice una pruebapara determinarla significanciade la relacin. la ecuacinde regresinestimadaun buen ajuste? Proporciona D el valor del coeficientede correlacinmuestral.
CD
Cosoproblemo2
r5
W.o
Safoty
Accidentes fatales por 10fi) licencias 2.962 0.708 0.885 1.652 2.O9r 2.627 3.830 0.368 1.t42 0.45 1.028 2.801 1.405 t.433 0.039 0.338 1.849 2.246 2.855 2.352 1.294
2.r n
3.623 2.623 0.835 0.820 2.8W t.267 3.2U 1.014 0.493 1.43 3.6t4 r.926 t.&3 2.943 1.913 2.814 2.634 o.926 3.256
Informe qdministrotivo
l. Presente resmenes numricos y graR.. de los datos. 2. Empleeel anlisisde regresin parainvestigar la relacinentreel nmerode accidentes fatalesy el porcentaje de conductores menores de 21 aos. Analicesushallazgos. 3. Quconclusin y qurecomendaciones puedededucirde su anlisis?
l4 Copitulo
lineolsimple Regresin
Reporte qdministrqtivo
1. Presenteresmenesnumricos y grficos de los datos. ) Emplee el anlisis de regresin para obtener una ecuacin de regresin estimada que sirva para pronosticar el porcentajede los estudiantesque hacen donacionesdado el porcentaje de grupos con menos de 20 estudiantes. 3. Use el anlisis de regresin para obtener una ecuacin de regresin estimada que sirva para pronosticar el porcentaje de los alumnos que hacen donaciones dada la proporcin de estudiantespor facultad. 4. Cul de las dos ecuacionesde regresinestimadamuestra un mejor ajuste?Con esa y discutasushallazgosy ecuacinde regresinestimadarealiceun anlisisde residuales conclusiones. puedeobtenerde esteanlisis? y recomendaciones 5 . Quconclusiones
Informe odministrqtivo
numricosy grficos de los datos. resmenes 1. Presente 2. Use el anlisisde regresinpara investigarla relacin entre valor e ingreso.Discuta sus hallazgos. Discuta 3. Use el anlisisde regresinpara investigarla relacin entre valor y ganancias. sus hallazgos. puedesacarde esteanlisis? y recomendaciones 4. Quconclusiones
Cosoproblemo 4 TABIAI4.I3
617
Alumnl
BostonCollege Brandeis University Brown University CaliforniaInstituteof Technology Carnegie Mellon University Western Reserve Univ. Case Collegeof William andMary ColumbiaUniversity Comell University DartmouthCollege Duke University EmoryUniversity University Georgetown HarvardUniversity JohnsHopkinsUniversity LehighUniversity Massachusetts Inst.of Technology New York University Northwestern University Pennsylvania StateUniv. Princeton University RiceUniversity Stanford University Tufts University TulaneUniversity U. of California-Berkeley U. of Califomia-Davis U. of California-Irvine U. of California-LosAngeles U. of California-San Diego Barbara U. of California-Santa U. of Chicago U. of Florida U. of lllinois-UrbanaChampaign U. of Michigan-AnnArbor U. of North Carolina-Chapel Hill U. of NotreDame U. of Pennsylvania U. of Rochester U. of Southern California U. of Texas-Austin U. of Virginia U. of Washington U. of Wisconsin-Madison Vanderbilt University WakeForestUniversity Washington University-St.Louis YaleUniversity
39 68 60 5 67 52 45 69 72
10 8 t2 l3 10 8 l0 8 9 ll 6 l3 8 t9 ) 8 9 t2 t7 t9 20 18 l9 20 4 23 l5 l5 l6 l3 10 l3 2l l3 t2 l3 9 11
6r
68 65 54
IJ
&
55 65 63 66
JZ
68 62 69 67 56 58
t
42 4l 48 45 65 3l 29 5l 40 53 65 63 53 39 44
5t JI
68 59
r8
lineolsimple Coptulo14 Regresin TABLAt4.r4 DATOS DE LOS EQUIPOS DE LALIGAMAYOR DE BASQUETBOL Ingreso 18.7 14.3 -29.6 -11.4 9.5 t4.l -3.6 -6.5 16.8 6.7 4.1 3.2 7.9 -3.9 -5.1 t2.3 9.5 18.8 2.6 -3.8 5.7 4.3 5.7 -20.6 .8 2.2 -.1 1.4 3.6 -3.4
Equipo
New York Yankees New York Mets Los AngelesDodgers BostonRed Sox Atlanta Braves SeattleMariners Clevelandlndians TexasRangers SanFranciscoGiants ColoradoRockies HoustonAsFos Baltimore Orioles ChicagoCubs Arizona Diamondbacks St. Louis Cardinals Dtroit Tigers PittsburghPirates Milwaukee Brewers PhiladelphiaPhillies ChicagoWhite Sox SanDiego Padres Cincinnati Reds AnaheimAngels TorontoBlue Jays OaklandAthletics KansasCiB Royals TampaBay Devil Rays Florida Malins MinnesotaTlvins Montreal Expos
ilLB
Vlor 730 482 435 426 44 373 360 356 355 347 337 319 287 280 271 262 242 238 231 223 207 204 195 r82 157 r52 142 137 t27 108
r52
160
r66
150 134 t42 129 t25 t33 131 127
r23
lt4 108 108 94 l0l 92 87 103 9l 90 85 92 8l 75 63
14.1 Apndice
como expresinque hay que minimizar. parciales respecto a boy bt, se (14.14),se sacan las derivadas Paraminimizarla expresin estoseobtiene Haciendo igualana ceroy despeja.
r9
(14.35) (r4.3)
(14.35)entredosy haciendo Dividiendola ecuacin las sumas por separado, seobtiene -)y*)o*),x,:0 Llevandoly, al otro lado del signoigual y observando que)o : nbo,seobtiene nbo* (2x,)br : )y Simplificaciones algebraicas similares (14.36)producen aplicadas a la ecuacin
(r4.371
(t4.38)
(14.37)y (1a.38)se les conocecomoecuaciones A las ecuaciones normales. Despejando oen (14.37)seobtiene la ecuacin b^:2t - b,h, (14.39) Usando la ecuacin parasustituir (14.38) aboen la ecuacin da )r,)y, 1)x)2, q + (>xlbt: *),i
(r4.3e)
(r4.4O)
(r4.4r)
(r4.421
(14.41) Las ecuaciones y Oa.aD sonlas frmulas (1a.6)y (14.7)usadas en estecaptulo para calcularlos coeficientes de la ecuacin de regresin estimada.
Hu: P', * 0
620
l4 Copitulo
Regresin lineolsimple
Si tlo es rechazada,se concluye que el coeficiente de correlacin no es igual a cero y que la relacin entre las dos variables no es significativa. A continuacin se presentaesta prueba de significancia. PRUEBA DE SIGNIFICANCIA USANDO CORRELACIN Ho: P', : O Hu: P,, * 0
ESTADISTICO DE PRUEBA
(r4.43)
donde to,rpertenece a la distribucin / con n - 2 gradosde libertad. En la seccin 14.4 con una muestra n : lO se encontr que el coeficiente de correlacin muestral para la poblacin de estudiantesy las ventas trimestrales era rxy : 0.9501. El estadstico de prueba es t:r.. ^t )i \ t
ln-z
- r. i: ,0 . 9 5 0 1 lr ' - , o n t o l z : 8 ' 6 1
rc-z
En la tabla de la distribucin r se encuentraque para n - 2: lO - 2: 8 gradosde libertad, t -- 3.355 proporciona un irea de 0.005 en la cola superior. Por lo tanto, al trea en la cola superior que correspondeal estadsticode prueba t = 8.61 debe ser menor a 0.005. Como esta prueba es una prueba de dos colas, se duplica este valor y se concluye que el valor r que corresponde a t:8.62 debe ser menor a 2(0.005) = 0.01. Con Excel o con Minitab se obtiene valor-p : 0.000. Como el valor-p es menor a a : 0.01, se rechazat/o y se concluye que rrryno es igual a cero. Esta evidencia es suficiente para concluir que entre la poblacin de estudiantesy las ventas trimestrales existe una relacin lineal significativa. Obsrveseque el valor del estadsticode prueba t y la conclusin sobre la significancia de la relacin son idnticos con los resultadosobtenidos en la prueba r de la seccin 14.5, en donde se us la ecuacin de regresin estimada ! : 60 * 5. El anlisis de regresin permite obtener una conclusin sobre la relacin entre las variables x y y; adems,permite obtener la ecuacin que indica cul es la relacin entre las variables. Por consiguiente, la mayora de los analistas emplean paquetesmodernos de software para realizar el anlisis de regresin y encuentranque el empleo de la correlacin como prueba de significancia es innecesario.
En la seccin 14.7 mostrando los resultadosque da Minitab para el problema de Armand's Pizza Parlors se estudi la solucin de los problemas de regresin mediante el empleo de paquetes de software. En este apndice se describen los pasosnecesariosal emplear Minitab para generar esos resultados. Primero, en una hoja de clcul de Minitab se ingresan los datos. Los datos de las poblaciones de estudiantesse ingresan en la columna C1 y los datos de las ventas trimestrales se ingresan en la columna C2. Los nombres de las variables Pop y Sales (Ventas) se ingresan como encabezados de esascolumnas. En la descripcin de los pasosa seguir, para referirse a los datos se emplearin los nombres de las variables o los indicadores de las columnas Cl y C2. Los
62r
describencmo usar Minitab para obtenerlos resultadosdel anlisisde l'egrepasossiguientes sin que se muestranen la figura 14.10. Paso l. Paso 2. Paso 3. Paso 4. el men Stat Seleccionar el men Regression Seleccionar Elegir Regression el cuadro de dilogo Regresin: Cuando aparezca IngresarSalesen el cuadro Response Ingresar Pop en el cuadro Predictors Clic en el botn Options el cuadro de dilogo Regression-Options: Cuando aparezca lngresar 10 en el cuadro Prediction intervals for new observations Clic en OK Cuando aparezcael cuadro de dilogo Regression: Clic en OK
seEl cuadro de dilogo de Minitab tiene otrasposibilidadesms que se puedenaprovechar en la que Por ejemplo,paraobteneruna grfica de residuales, leccionandolas opcionesdeseadas. estanen el eje horizontal y los valoresde los residuales los valores pronosticados ! aparezcan darizadosen el eje vertical, el paso4 deberser colno sigue: cuadrode dilogo Regression: Paso 4 Cuando apanezcael IngresarSalesen el cuadro Response IngresarPop en el cuadro Predictors Clic en el botn GraPhs el cuadro de dilogtl Regression-Graphs: Cuando aparezca Standardized en Residualslbr Plots Seleccionar Residuals versus fits en ResidualPlots Seleccionar Clic en OK el cuadro de dilogo Regression: Cuando aparezc' CIic en OK
de Excel pararcalizarl<lsclculosdel anlise ilustrael uso de la herramicnta En esteapndice la ligura 14.23, Clonsltcse el problemade Annand's PizzttParlors. empleando sis de regresin lo se ingresanlos la htr.ia de clcu | I clc para seguir la descripcilnde los pasos.En las ccldasA :C se indc las l0obscrvaciones, una y Ventas. Paraidentillcarcada Poblacin rtulosRestaurante, las celse ingrcsan en mucslralcs A2:A I l. Los datos del I al l0 en las celdas gresan los nmeros anlisis de rcgresin. dcl indicancmo obtencrlos resultados das 82:Cll. Los pasossiguientes Paso 1. Paso 2. Paso 3. Paso 4. Paso 5. el men Herranlientas Seleccionar Elegir el men Anlisis de datos Elegir Regresin en el men de Funcionespara anlisis Clic en OK el cuadrode dilogo Regresitin: Cuando aparezca Cl:Cl I en el cuadroRango Y de entrada Ingresar IngresarBl:Bl I en el cuadro Rango X de entrada Rtulos Seleccionar SeleccionarNivel de confianza Ingresar 99 en el cuadro Nivel de confianza Rango de salida Seleccionar lngresarA13 en el cuadro Rango de salida (Tambin se puede ingresarcualquier celda, de la esquinasupcrior izttricrda, para indicar dnde debernempezarlos resultados.) Clic en OK
622 FIGURA14.23
[dffiSfrJ'fuid:r', i.l'i
Restaurant
Population Sales
s
4
tl'
5t 10: 8t
I 7
t,
!fr
I
2l
2l 2i
5i
6t
4t
2(
202
;T,JMMARYOI,-TTPUT
Regression Statistics
df Resression Residual
Total Cofficients lntercept Population
ss
I
MS
Significance F
2.55E-05
Standard Errot
Inwer 95Vo
6t
38,7U7 3.6619
8r.2153
29.4$t
90.959
6.3381
3.0s30
6.9470
La primera seccin de los resultados,titulada Estadsticas de regresin, contiene resmenesestadsticos como el coeficiente de determinacin (R*2). La segundaseccin de los resultados,titulada Anlisis de varianza, contiene la tabla del anlisis de varianza. La ltima seccin de los resultados, que no tiene ningn ttulo, contiene los coeficientes de regresin estimados e informacin relacionada con ellos. A continuacin se da la interpretacin de los resultados de la regresin empezandocon la informacin contenida en las celdas A28:I30
623
El valor en la celda E30 es el valor -p que correspondea la prueba t de significancia. El valor-p que da Excel en la celda E30, esten notacin cientfica. Paraobtenerestevalor en notacin decimal, se recorre el punto decimal 5 lugares a la izquierda, con lo que se obtiene 0.0000255. - 0.01, se rechaza/oy se concltrye que entre la poblacin Dado que valor-p : 0.0000255 < u de estudiantesy las ventas trimestrales existe una relacin significativa. La informacin de las celdas F28:I30 se emplea para obtener estimacionespor lntervalos de confianza para la interseccin con el eje y y la pendiente de la ecuacin de regresin estimada. Excel siempre da los lmites inferior y superior de un intervalo de 95Vode confianza. Como en el paso 4 se seleccionIntervalo de confianza y se ingres 99 en el cuadro de Nivel de Confianza,lahenamienta de Excel para regresin da tambin los lmites inferior y superior de un intervalo de 997o de confianza. El valor en la celda H30 es el lmite inferior de la estimacin por intervalo del99%ode confianza de b, y el valor en la celda I30 es el lmite superior. Por lo tanto, una vez redondeada,el intervalo de 997o de confianza para estimar b, va de 3.05 a 6.95. Los valores en las celdas F30 a G30 proporcionan los lmites inferior y superior del intervalo de 95Vo de confianza.El intervalo de 95Vade confianzava de 3'66 a 6.34.
El rtulo Valor crtico de F se entende mejor si se con' sidera el valor en la ceda F24 como el nivel de significancia observado en la prueba E