You are on page 1of 33

UNIVERSIDAD DE MURCIA

DEPARTAMENTO DE ESTADSTICA I E INVESTIGACI ON OPERATIVA

Estadstica. I.T.I. Sistemas. Curso 2008-09 Practicas con Minitab 15 Profesora: Dra. Josefa Marn Fernandez

Pr ctica 1: Introducci n a Minitab 15 para Windows a o 1. Elementos de Minitab 15 para Windows


Al ejecutar Minitab 15 aparece la pantalla de la Figura 1.

Figura 1: Pantalla inicial de Minitab 15

Como en cualquier otra aplicaci n Windows, esta pantalla inicial puede modicarse en cuanto al tama o y a la o n disposici n de sus elementos. Se trata de una ventana tpica de una aplicaci n Windows que, de arriba a abajo, consta o o de los siguientes elementos: En la primera lnea aparece la barra de ttulo con el nombre de la ventana y los botones de minimizar, maximizar y cerrar. En la segunda lnea est la barra de menus con los 10 men s que luego comentaremos. a u Las lneas tercera y cuarta conforman la barra de herramientas donde, mediante botones con iconos, se representan algunas de las operaciones m s habituales. Si pasamos el puntero del rat n por cualquiera de ellos, aparecer en a o a la pantalla un texto indicando la funci n que se activa. o
Despu s aparece la ventana de sesion (Session). Es la parte donde aparecen los resultados de los an lisis realizados. e a Tambi n sirve para escribir instrucciones, como forma alternativa al uso de los men s. e u

A continuaci n tenemos la hoja de datos (Worksheet). Tiene el aspecto de una hoja de c lculo, con las y columo a nas. Las columnas se denominan C1, C2, . . ., tal como est escrito, pero tambi n se les puede dar un nombre, a e escribi ndolo debajo de C1, C2, . . . Cada columna es una variable y cada la corresponde a una observaci n o e o caso. En la parte inferior aparece (minimizada) la ventana de proyecto (Proyect Manager). En Minitab un proyecto incluye la hoja de datos, el contenido de la ventana de sesi n, los gr cos que se hayan realizado, los valores de las o a constantes y de las matrices que se hayan creado, etc. Para activar la ventana de sesi n (Session) podemos hacer clic sobre ella, podemos pulsar Ctrl o podemos hacer o +m clic sobre su icono en la barra de herramientas(primer icono de la Figura 2). Para activar la hoja de datos (Worksheet) podemos hacer clic sobre ella, podemos pulsar Ctrl o podemos hacer clic sobre su icono en la barra de herramientas +d (segundo icono de la Figura 2). Para activar la ventana de proyecto (Proyect Manager) podemos maximizarla, podemos pulsar Ctrl o podemos hacer clic sobre su icono en la barra de herramientas (tercer icono de la Figura 2). +i

Estadstica I.T.I. Sistemas Pr ctica 1 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Figura 2: Iconos para activar las ventanas de sesi n, de datos o de proyecto o

2.

Entrada de datos

Antes de realizar ning n an lisis estadstico es necesario tener un conjunto de datos en uso, para lo cual podemos u a proceder de cuatro formas: Escribirlos a trav s del teclado. e Obtenerlos desde un archivo. Pegarlos. Generarlos por patr n o de forma aleatoria. o Para introducir datos a trav s del teclado, activamos, en primer lugar, la ventana de datos. En la parte superior e aparece C1, C2, C3, . . . y debajo un espacio en blanco para poner el nombre de cada variable. La echita del extremo superior izquierdo de la hoja de datos se ala hacia d nde se mueve el cursor al pulsar la tecla Intro Por defecto apunta n o . hacia abajo, ; si se hace clic sobre ella, apuntar hacia la derecha, Para escribir datos por columna no hay m s a . a que situarse en la casilla del caso 1, teclear el dato y pulsar la tecla Intro La casilla activa se mover hacia abajo. . a Por ejemplo, podemos introducir los datos de la Figura 3, correspondientes a las calicaciones de una muestra de 8 alumnos en un determinado examen y el tiempo empleado en realizar dicho examen.

Figura 3: Ejemplo para introducir datos a trav s del teclado e

3.

Grabaci n de datos o

Una vez introducidos los datos, estos pueden guardarse en un chero para poder ser utilizados en cualquier otro momento. Para guardar unicamente la ventana de datos hay que seleccionar FileSave Current Worksheet o FileSave Current Worksheet As. Por ejemplo, podemos guardar los datos de la Figura 3 en un archivo que denominaremos Notas Tiempo.mtw. Si queremos guardar toda la informaci n actual del programa (la hoja de datos, el contenido de la ventana de sesi n, o o los gr cos que se hayan realizado, los valores de las constantes y de las matrices que se hayan creado, etc.) usaremos la a opci n FileSave Project o FileSave Project As. Es muy importante diferenciar entre cheros de datos (.mtw) y cheros o de proyectos (.mpj). Tambi n se puede guardar solamente la ventana de sesi n. Para ello, la activamos y seleccionamos la opci n e o o FileSave Session Windows As.

4.

Lectura de datos

Un archivo s lo puede ser recuperado de la forma en que fue grabado. Si se ha grabado como hoja de datos (.mtw) o se recupera con la opci n FileOpen Worksheet. Si se ha grabado como proyecto de Minitab (.mpj) se recupera con la o opci n FileOpen Proyect. o

Estadstica I.T.I. Sistemas Pr ctica 1 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

() Par ntesis e Exponenciaci n o Multiplicaci n o / Divisi n o + Suma Resta (a) Operadores aritm ticos e

< Menor que > Mayor que <= Menor o igual que >= Mayor o igual que = Igual que <> No igual que (b) Operadores relacionales

AND Operador Y OR Operador O NOT Operador NO (c) Operadores l gicos o

Cuadro 1: Operaciones aritm ticas, relacionales y l gicas e o

Normalmente los cheros de datos de Minitab 15 se encuentran en C:\Archivos de programa\Minitab 15\English\Sample


Data y, como ya sabemos, llevan la extensi n .mtw. o

Por ejemplo, podemos abrir el chero de datos Pulse.mtw. Su contenido fue recogido en una clase de 92 alumnos. De cada estudiante se observ su pulso antes de correr, Pulse1; su pulso despu s de correr, Pulse2; si corri o o e o no, Ran (1=S corri , 2=No corri ); si es fumador o no, Smokes (1=S fuma, 2=No fuma); el sexo, Sex (1=Hombre, o o 2=Mujer); su altura en pulgadas, Height; su peso en libras, Weight; y su nivel de actividad fsica, Activity (0=Ninguna actividad fsica, 1=Baja, 2=Media, 3=Alta). Se puede encontrar m s informaci n de este chero de datos con la opci n a o o HelpHelpIndice. Bajo la frase Escriba la palabra clave a buscar se teclea Pulse.mtw y despu s se hace clic en Mostrar o se e hace doble clic sobre el nombre de dicho chero. Con la opci n FileOpen Worksheet se pueden leer otros tipos de archivos de datos como hojas de c lculo de Excel, o a Lotus 1-2-3, dBase, etc. Para tener informaci n m s detallada sobre el tipo de cheros que se pueden leer, se puede o a seleccionar FileOpen Workshhet y, en el cuadro de di logo resultante, se hace clic sobre Ayuda. a

5.

Opciones principales del menu Calc

Si queremos que en la ventana de sesi n (Session) aparezcan los comandos que va a utilizar Minitab en las opciones o que vamos a explicar en los siguientes apartados, activamos la ventana de sesi n y luego seleccionamos EditorEnable o Commands.

5.1.

Operaciones por las mediante la opci n CalcCalculator o

En este apartado vamos a ver el modo de generar nuevas variables mediante transformaciones efectuadas sobre los valores de las variables ya denidas. Para practicar esta opci n tendremos abierto el chero de datos Pulse.mtw. o En el Cuadro 1 se encuentran recogidos los operadores aritm ticos, relacionales y l gicos que est n permitidos. e o a Tanto las expresiones aritm ticas como las l gicas se eval an de izquierda a derecha. Todas las expresiones entre e o u par ntesis se eval an antes que las que est n fuera de los par ntesis y ante varios operadores en el mismo nivel, el e u a e orden de preferencia (de mayor a menor) es el que gura en el Cuadro 1 (de arriba a abajo). Para construir una nueva variable mediante transformaciones de otras ya existentes, se tiene que elegir la opci n o Calc Calculator con lo que se abre una ventana que tiene cinco partes fundamentales: arriba a la derecha est el a lugar para escribir el nombre de la nueva variable (Store result in variable), a la izquierda aparece la lista de variables y constantes existentes, a la derecha est el lugar destinado a la denici n de la nueva variable (Expression), debajo hay a o una calculadora y la lista de funciones que se pueden utilizar (Functions). En primer lugar se asigna un nombre a la variable que queremos generar, escribiendo el mismo en el cuadro Store result in variable. Normalmente se va a tratar de una variable nueva, pero tambi n cabe la posibilidad de especicar una e de las ya existentes. En tal caso la modicaci n consistir en sustituir los valores antiguos de la variable con los nuevos o a resultantes de la transformaci n num rica que se efect e. o e u Una vez que se ha asignado el nombre a la variable, el siguiente paso es denir la expresi n que va a permitir o calcular los valores de la misma. Tal expresi n se escribe en el cuadro Expression y puede constar de los siguientes o elementos: nombres de variables del chero original, constantes, operadores y funciones. Para escribir dicha expresi n, o se puede teclear directamente pero es recomendable emplear la calculadora, la lista de variables y constantes y la lista de funciones (activando el cuadro Expression y haciendo doble clic sobre la variable, sobre la constante o sobre la funci n). Una vez que hemos terminado de escribir la expresi n, pulsamos en OK. o o Por ejemplo, del chero de datos Pulse.mtw vamos a calcular la media geom trica de las variables Pulse1 y Pulse2 e (raz cuadrada del producto de ambas variables). Para ello, seleccionamos la opci n CalcCalculator; en Store result in o variable tenemos que teclear la posici n de la columna que contendr los resultados (una columna, CJ, que est vaca) o a e o el nombre que queremos darle a dicha columna. Si el nombre contiene espacios en blanco, hay que escribirlo entre comillas simples; por ejemplo, vamos a denominar a la nueva variable media geom trica Pulse1 Pulse2. En Expression e tenemos que colocar (utilizando, como hemos dicho, la calculadora y la lista de variables) la operaci n que se realiza o para determinar la media geom trica indicada: (Pulse1 * Pulse2)**(1 / 2). Por ultimo, pulsamos en OK. e

Estadstica I.T.I. Sistemas Pr ctica 1 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

5.2.

Operaciones por columnas mediante la opci n CalcColumn Statistics o


n

La opci n CalcColumn Statistics calcula, para una columna (o variable), uno de los estadsticos siguientes: o Sum Mean suma
i=1 n

xi x=
i=1 n

media aritm tica e

xi

/n (xi x)
2

Standard deviation cuasi-desviaci n tpica S = o


i=1

/ (n 1)

Minimum Maximum Range Median Sum of squares N total N nonmissing N missing


Store result in.

mnimo dato xmin m ximo dato a xmax recorrido total R = xmax xmin mediana=valor que deja por debajo de el el 50 % de los datos
n

suma de cuadrados
i=1

x2 i

n mero total de casos=N nonmissing+N missing u n mero de casos para los cuales sabemos el resultado de la variable = n u n mero de casos para los cuales no sabemos el resultado de la variable u

El resultado del estadstico calculado se puede almacenar (opcionalmente) en una constante, si lo indicamos en Por ejemplo, del chero de datos Pulse.mtw vamos a determinar la mediana de los datos de la columna Height y vamos a guardar el resultado en una constante que vamos a denominar Mediana de altura. Para ello, seleccionamos CalcColumn Statistics; activamos la opci n Median; hacemos clic en el recuadro que hay a la derecha de Input variable y seleccionamos o (haciendo doble clic sobre su nombre) la columna Height; en Store result in tecleamos Mediana de altura y pulsamos en OK. Minitab guarda esta constante tambi n como K1. Esta constante se puede consultar, en cualquier momento, en la e ventana Proyect Manager (concretamente en Worksheets\Pulse.mtw\Constants) y puede ser utilizada en c lculos posteriores. a

5.3.

Operaciones por las mediante la opci n CalcRow Statistics o

La opci n CalcRow Statistics calcula los mismos estadsticos del apartado anterior, pero por las, en vez de por o columnas. En este caso, a diferencia del anterior, es totalmente necesario rellenar el recuadro Store result in ya que los resultados forman una nueva variable o columna. Por ejemplo, del chero de datos Pulse.mtw vamos a hallar la media aritm tica (por las) de la variables Pulse1 y e Pulse2 y guardar los resultados en una nueva columna (variable) denominada Media aritm tica Pulse1 Pulse2. Para ello, e seleccionamos CalcRow Statistics; activamos la opci n Mean; hacemos clic en el recuadro que hay debajo de Input variao bles y seleccionamos (haciendo doble clic sobre sus nombres) las columnas Pulse1 y Pulse2; en Store result in tecleamos Media aritm tica Pulse1 Pulse2 y pulsamos en OK. e Las operaciones realizadas con esta opci n tambi n pueden realizarse mediante CalcCalculator. o e

5.4.

Tipicaci n de datos o

Con la opci n CalcStandardize se calcula, en una nueva columna o variable, los datos tipicados o estandarizados o de una de las columnas de nuestra hoja de datos. Hay varias formas de tipicar los datos pero la m s usual es la a siguiente: Si xi son los datos de la muestra, x es la media y S es la cuasi-desviaci n tpica o desviaci n tpica insesgada, o o o los datos tipicados o estandarizados son yi = (xi x)/S. Esto se logra dejando activada la opci n subtract mean and divide by standard deviation. Por ejemplo, vamos a crear una nueva variable (columna), designada por Pulse1 Tipicada, que contenga los datos de Pulse1 tipicados o estandarizados. Para ello, seleccionamos CalcStandardize; en Input columns seleccionamos (haciendo doble clic sobre su nombre) la columna Pulse1; en Store results in tecleamos Pulse1 Tipicada; dejamos activada la opci n Substract mean and divide by standard deviation y pulsamos en OK. o Las operaciones realizadas con esta opci n tambi n pueden realizarse mediante CalcCalculator. o e

5.5.

Creaci n de datos por patr n o o

Con la opci n CalcMake Patterned Data se generan datos siguiendo un determinado patr n. o o

Estadstica I.T.I. Sistemas Pr ctica 1 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Por ejemplo, si queremos generar una lista de los siguientes 100 n meros: 0 01, 0 02, 0 03, . . ., 1, seguiremos los u siguientes pasos: Como estos datos no tienen nada que ver con los datos del chero Pulse.mtw, abrimos una nueva hoja de datos con la opci n FileNew. En el cuadro de di logo que aparece seleccionamos Minitab Woorksheet. A esta nueva hoja de datos o a Minitab le asignar el nombre Worksheet J, siendo J un n mero natural. Luego podemos cambiarle el nombre con la a u opci n FileSave Current Worksheet As. Seleccionamos, a continuaci n, la opci n CalcMake Patterned DataSimple Set o o o of Numbers. En Store patterned data in podemos teclear C1 o un nombre, por ejemplo Patron entre 0 y 1. En From rst value tecleamos 0,01, en To last value escribimos 1 y en In steps of ponemos 0,01. Tanto en List each value como en List the whole sequence dejamos lo que est puesto por defecto, que es 1. Una vez obtenida la nueva columna vamos a denominar a o Ejemplo Practica 1.mtw a la nueva hoja de datos utilizando la opci n FileSave Current Worksheet As.

5.6.

Creaci n de resultados aleatorios de una distribuci n conocida o o

En Minitab podemos generar datos de distribuciones usuales utilizando la opci n CalcRandom Data. o o Por ejemplo, en el chero de datos Ejemplo Practica 1.mtw vamos a generar 100 datos de una distribuci n Uniforme en el intervalo (0, 1) (100 n meros aleatorios comprendidos entre 0 y 1). Para ello, seleccionamos la opci n CalcRandom u o DataUniform; en Number of rows of data to generate ponemos 100; en Store in column escribimos el nombre de la nueva columna: 100 datos de U(0,1); en Lower endpoint tecleamos 0 y en Upper endpoint escribimos 1. Esta opci n ser utilizada en posteriores pr cticas. o a a

6.

Opciones principales del menu Data

S lo se explicar n algunas de las opciones m s utilizadas del men Data. En el cuadro de di logo de cada opci n o a a u a o existe un bot n Help que la explica bastante bien. o

6.1.

Apilamiento de columnas

Con la opci n DataStackColumns se pueden apilar varias columnas en una sola. Opcionalmente se puede indicar o de qu columna procede cada valor mediante una nueva variable (subndices). Si no se hace esta indicaci n no se e o podr identicar la procedencia de cada dato. a Para practicar esta opci n vamos a apilar los datos de la columna Patron entre 0 y 1 y de la columna 100 datos de o o U(0,1) del chero de datos Ejemplo Practica 1.mtw. Para ello, seleccionamos la opci n DataStackColumns; activamos el recuadro Stack the following columns y seleccionamos (haciendo doble clic sobre sus nombres) las dos columnas que queremos apilar: Patron entre 0 y 1 100 datos de U(0,1); en Store stacked data in activamos la opci n Column of current o worksheet y tecleamos la posici n de una columna que est vaca, por ejemplo, C3. En Store subscripts in tecleamos la o e posici n de la columna en la que queremos guardar la procedencia de cada dato, por ejemplo, C4. Es conveniente dejar o activada la opci n Use variable names in subscript column. o

6.2.

Desapilamiento de columnas

La opci n DataUnstack columns permite separar una columna en varias seg n los valores de la columna de alguna o u variable (que contiene los subndices). Esta opci n es la contraria de la explicada en el apartado anterior. o Por ejemplo, de la hoja de datos Pulse.mtw vamos a desapilar los resultados de la variable Pulse2 (pulso despu s e de correr) seg n los resultados de la variable Ran (corri o no?). Para ello, seleccionamos DataUnstack Columns; en u o Unstack the data in seleccionamos (haciendo doble clic sobre su nombre) la variable o columna Pulse2; en Using subscripts in seleccionamos (haciendo doble clic sobre su nombre) la columna que contiene la procedencia de cada dato, que es Ran; en Store unstacked data in activamos la opci n After last column in use y dejamos activado Name the columns containing o the unstaked data.

6.3.

Ordenaci n de los datos o

La opci n DataSort ordena los datos de una columna seg n los resultados de una o varias columnas. Lo normal o u es ordenar una columna seg n los resultados de dicha columna. Esto es lo que vamos a explicar. u Por ejemplo, en la hoja de datos Pulse.mtw vamos a crear una nueva variable (columna), designada por Pulse1 ordenado, que contenga los resultados de la variable Pulse1 ordenados de menor a mayor. Para ello, seleccionamos DataSort; en Sort column seleccionamos (haciendo doble clic sobre su nombre) la variable Pulse1; en By column volvemos a seleccionar la misma columna. Si dejamos desactivada la opci n Descending la ordenaci n se har de menor a mayor o o a resultado, que es lo que queremos. En Store sorted data in activamos Column of current worksheet y tecleamos el nombre que queremos ponerle a dicha columna: Pulse1 ordenado.

Estadstica I.T.I. Sistemas Pr ctica 1 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Tenemos que tener cuidado con la ordenaci n de columnas debido a que los resultados de esta nueva variable no o guardan correspondencia con los casos originales. Por ejemplo, la primera persona observada tiene un pulso antes de correr (resultado de Pulse1) igual a 64 pulsaciones por minuto, no 48 pulsaciones por minuto, como nos ha salido en el primer lugar de la columna Pulse1 ordenado. Como podemos observar, el menor valor de Pulse1 es 48 y el mayor valor es 100.

6.4.

Ordenaci n por rangos o

La opci n DataRank crea una nueva columna que indica la posici n que ocupara cada dato si los orden ramos o o a de menor a mayor. Cuando dos o m s valores de la columna son iguales (empates) se asigna a cada uno de ellos el a rango medio de los rangos que tendran si fueran distintos. Por ejemplo, si los dos resultados m s peque os estuviesen a n empatados, en principio ocuparan los n meros de orden 1 y 2; pero al estar empatados, los rangos de los dos valores u coinciden entre s y coinciden con (1 + 2)/2 = 1 5. Con la hoja de datos Pulse.mtw podemos practicar esta opci n creando una nueva columna, que denominaremos o Rangos de Pulse1, en la cual aparecer la posici n que ocupara cada resultado de la variable Pulse1 si los orden semos a o a de menor a mayor (con la correcci n mencionada por empates). Para ello, seleccionamos DataRank; en Rank data in o elegimos (haciendo doble clic sobre su nombre) la columna Pulse1 y en Store ranks in escribimos Rangos de Pulse1. El primer resultado de Rangos de Pulse1 es igual a 22 5 porque el valor 64 (observaci n primera de la variable Pulse1) o ha aparecido 4 veces (casos numerados con el 1, 5, 49 y 71 de la variable Pulse1) y estos valores ocuparan los n meros u de orden 21, 22, 23 y 24; pero como est n empatados se les asigna el mismo rango: la media aritm tica de estos cuatro a e rangos; es decir, (21 + 22 + 23 + 24)/4 = 22 5.

6.5.

Codicaci n o clasicaci n de datos o o

La opci n DataCode permite la clasicaci n o codicaci n de los datos de una columna. Se puede codicar o o o transformando datos num ricos en datos num ricos, datos num ricos en datos de texto, datos de texto en datos de e e e texto, datos de texto en datos num ricos, etc. e Por ejemplo, con la hoja de datos Pulse.mtw podemos codicar la variable Pulse1 de la forma siguiente:
intervalo de Pulse1 nueva categora

[48,65] (65,83] (83,100]

Pulso bajo Pulso medio Pulso alto

Para ello, seleccionamos DataCodeNumeric to Text. En Code data from columns seleccionamos (haciendo doble clic sobre su nombre) la variable Pulse1. En Store coded data in column escribimos el nombre la nueva variable, por ejemplo, Codicacion de Pulse1. En la primera lnea de Original values escribimos 48:65 (todos los resultados comprendidos entre 48, incluido, y 65, incluido) y en la primera lnea de New escribimos Pulso bajo. En la segunda lnea de Original values escribimos 65:83 (todos los resultados comprendidos entre 65, sin incluir, y 83, incluido) y en la segunda lnea de New escribimos Pulso medio. En la tercera lnea de Original values escribimos 83:100 (todos los resultados comprendidos entre 83, sin incluir, y 100, incluido) y en la tercera lnea de New escribimos Pulso alto.

7.

Algo m s sobre la ventana Session a

Ya hemos visto que una de las utilidades de la ventana de sesi n es la de servir para la presentaci n de los comandos o o aplicados en cada opci n de las que hemos realizado. Adem s, podemos repasar resultados obtenidos con anterioridad o a movi ndonos hacia arriba en dicha ventana. Los resultados incluidos en la ventana de sesi n pueden grabarse como un e o chero de texto (txt) activando dicha ventana y seleccionando FileSave Session Window As. Tambi n podemos usar las e opciones de marcar, copiar y pegar para pasar los resultados obtenidos a editores de texto. Adem s, es posible imprimir a todos sus contenidos activando dicha ventana y seleccionando FilePrint Session Window. Una vez seleccionada la ventana de sesi n, la activaci n de la opci n EditorEnable Commands permite ejecutar los o o o comandos de Minitab. Por ejemplo, si tecleamos en la ventana de sesi n (tras MTB >) Mean C1 y pulsamos el bot n o o Intro el programa calcula media aritm tica de los datos de la columna C1 de la hoja de datos activa. Si escribimos Let , e K2=1/3 y pulsamos el bot n Intro el programa guarda el valor 1/3 en la correspondiente constante. Si tecleamos ahora o , Print K2, el programa nos da el valor de dicha constante. L gicamente, es m s sencillo el manejo de Minitab utilizando los men s, pero los comandos pueden incorporarse o a u posteriormente a los programas (macros) que construyamos. Adem s, una vez habilitado el lenguaje de comandos, a cuando ejecutemos una opci n del men , esta se escribir en la ventana de sesi n, con lo que podremos ver cu l es la o u a o a sintaxis concreta del comando que queremos utilizar.

Estadstica I.T.I. Sistemas Pr ctica 1 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Para que el contenido de la ventana de sesi n pueda modicarse, debemos activar dicha ventana y seleccionar o
EditorOutput Editable, con lo que podemos recticar f cilmente cualquier error, modicar comandos ejecutados antea

riormente o simplemente preparar los resultados para ser imprimidos. Una vez activada la opci n EditorOutput Editable, la ventana de sesi n es el lugar en el que se ejecutan los macros o o o programas, tanto los que construyamos nosotros como los que incluye Minitab o los realizadas por otros usuarios. Los macros llevan la extensi n .mac y normalmente est n incluidos en el directorio C:\Archivos de programa\Minitab o a 15\English\Macros. En la versi n 15 de Minitab solamente se incluyen cuatro macros, pues los resultados del resto de o los macros de la versi n anterior pueden conseguirse con distintas opciones de los men s. o u

8.

Algo m s sobre la ventana Proyect Manager a

+i Ya sabemos que para activar la ventana de proyecto (Proyect Manager) podemos maximizarla, podemos pulsar Ctrl o podemos hacer clic sobre su icono en la barra de herramientas. Esta ventana presenta toda la informaci n disponible en forma de directorios. Resulta ser especialmente util cuando o se maneja una gran cantidad de datos. El directorio Session nos muestra, de forma resumida y organizada, la informaci n o correspondiente a dicha ventana. El directorio History presenta (en lenguaje de comandos) todas las operaciones que hemos realizado. A diferencia de lo que ocurra con la ventana de sesi n, no sirve para ejecutar comandos ni macros, y o en el no se muestran los resultados de la ejecuci n de los comandos. En este directorio aparece solamente el programa o de las operaciones que hemos realizado, y su contenido puede consultarse o copiarse directamente para la realizaci n o de macros. Los directorios de datos, Worksheets, contienen informaci n sobre las columnas (variables), constantes y o matrices manejadas en cada ventana de datos que se est utilizando. Adem s, indican el n mero de datos incluidos en e a u una columna, as como los datos ausentes de la misma (Missing).

9.

Ejercicios propuestos
1. Con la hoja de datos Pulse.mtw haz lo siguiente: a) Crea una nueva variable, designada por Sexo, que contenga los datos de la variable Sex pero cuyos resultados aparezcan con las palabras Hombre (en vez de 1) y Mujer (en vez de 2). b) Desapila los resultados de la variable Pulse1 seg n los resultados de la variable Sexo. Calcula la media u aritm tica de estas dos nuevas columnas. Interpreta los resultados. e 2. Con la hoja de datos Yield.mtw haz lo siguiente: a) Calcula los resultados de la variable media geom trica de las columnas Time, Temp, Yield y Cost (raz cuarta e del producto de las cuatro variables). Denomina a la nueva variable Media geom trica. e b) Codica los datos de la variable Media geom trica de la forma indicada en la siguiente tabla: e intervalo (40,50] (50,60] (60,70] categora A B C

c) Calcula una nueva columna en la que aparezcan los rangos de la variable Media geom trica. e 3. Una determinada universidad ha plantado 6 variedades distintas de alfalfa en 4 campos experimentales diferentes a n de estudiar si hay diferencias signicativas en la producci n. Los datos se encuentran en el chero Alfalfa.mtw, o donde C1 es la producci n, C2 es la variedad y C3 es el campo experimental. o a) Ordena los datos de la producci n (Yield) en orden creciente. Cu l es el dato que ocupa el d cimo lugar? o a e b) Desapila los datos de la producci n (Yield) seg n los distintos campos experimentales (Field). Calcula la o u media aritm tica (por las) de las cuatro columnas resultantes (media de la producci n en los cuatro campos e o experimentales). Denomina a la nueva variable Media produccion 4 campos y determina su mediana.

UNIVERSIDAD DE MURCIA
DEPARTAMENTO DE ESTADSTICA I E INVESTIGACI ON OPERATIVA

Estadstica. I.T.I. Sistemas. Curso 2008-09 Practicas con Minitab 15 Profesora: Dra. Josefa Marn Fernandez

Pr ctica 2: Estadstica descriptiva. Representaciones gr cas a a 1. Distribuci n de frecuencias o


Para hacer la distribuci n de frecuencias de una o m s variables, podemos utilizar la opci n StatTablesTally o a o
Individual Variables.

Para practicar esta opci n, podemos abrir el chero de datos (Worksheet) Pulse.mtw. Recordemos que su contenido o fue recogido en una clase de 92 alumnos. De cada estudiante se observ su pulso antes de correr, Pulse1; su pulso o despu s de correr, Pulse2; si corri o no, Ran (1=S corri , 2=No corri ); si es fumador o no, Smokes (1=S fuma, 2=No e o o o fuma); el sexo, Sex (1=Hombre, 2=Mujer); su altura en pulgadas, Height; su peso en libras, Weight; y su nivel de actividad fsica, Activity (0=Ninguna actividad, 1=Baja, 2=Media, 3=Alta). Si queremos saber el n mero de casos (frecuencia u absoluta) y el porcentaje de cada una de las categoras de la variable Activity, utilizamos la opci n StatTablesTally o Individual Variables; en el recuadro Variables seleccionamos, de la lista de variables de la izquierda, la columna Activity y en Display activamos Counts y Percents. Podemos ver, en la ventana de sesi n (Session), que hay 21 alumnos con nivel o alto de actividad fsica, y que un 663 % de ellos tiene un nivel medio de actividad fsica.

2.

Estadstica descriptiva con la opci n StatBasic StatisticsDisplay Des o criptive Statistics

En la pr ctica anterior vimos que la opci n CalcColumn Statistics calcula, para una columna (o variable), uno de a o los estadsticos siguientes: Sum (suma), Mean (media arim tica), Standard deviation (cuasi-desviaci n tpica), Minimum e o (mnimo resultado), Maximum (m ximo resultado), Range (recorrido o amplitud total), Median (mediana), Sum of squares a (suma de cuadrados), N total (n mero total de casos o tama o muestral), N nonmissing (n mero de casos para los cuales u n u sabemos el resultado de la variable) y N mising (n mero de casos para los cuales no sabemos el resultado de la variable). u A continuaci n vamos a trabajar con una opci n mucho m s amplia, que nos permite, entre otras cosas, calcular m s o o a a un estadstico y trabajar con m s de una variable (columna) a la vez. a La opci n StatBasic StatisticsDisplay Descriptive Statistics permite obtener los estadsticos descriptivos m s usuao a les de las columnas (variables) de la hoja de datos. Tambi n permite calcularlos separando los valores de una columna e seg n el valor de otra. Adem s puede realizar una serie de gr cas que nos permiten resumir la informaci n contenida u a a o en los datos. Para practicar esta nueva opci n, podemos calcular los estadsticos descriptivos m s importantes de las variables o a Pulse1, Height y Weight de la hoja de datos (Worksheet) Pulse.mtw. Para ello, seleccionamos StatBasic StatisticsDisplay Descriptive Statistics y en el recuadro Variables del cuadro de di logo resultante seleccionamos, de la lista de columnas a que tenemos a la izquierda, las tres variables Pulse1, Height y Weight. En la ventana de sesi n nos salen los resultados, o para cada una de las tres variables, de los siguientes estadsticos descriptivos: N N* Mean n mero de casos para los cuales sabemos el resultado de la variable u n mero de casos para los cuales no sabemos el resultado de la variable u
N

x= xi i=1 SE Mean error est ndar de la media S/ N a media aritm tica e


N

/N

StDev Minimum Q1 Median Q3 Maximum

cuasi-desviaci n tpica o

S=
i=1

(xi x)

/ (N 1)

mnimo dato primer cuartil=valor que deja por debajo de el el 25 % de los datos mediana=segundo cuartil=valor que deja por debajo de el el 50 % de los datos tercer cuartil=valor que deja por debajo de el el 75 % de los datos m ximo dato a

Con la misma hoja de datos, podemos calcular los estadsticos de la variable Pulse2 (Pulso despu s de correr) e separando sus resultados seg n los valores de la variable Ran (corri o no corri ?). Para ello, seleccionamos StatBasic u o o

Estadstica I.T.I. Sistemas Pr ctica 2 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

StatisticsDisplay Descriptive Statistics; en el recuadro Variables del cuadro de di logo resultante seleccionamos la variable a Pulse2; y en By variables (Optional) seleccionamos la variable Ran. En consecuencia, en la ventana de sesi n aparecen los o resultados de los mencionados estadsticos de la variable Pulse2 separados para cada grupo de resultados de la variable Ran. Por ejemplo, podemos comprobar que para el grupo de personas que s corri (Ran=1) la media del pulso es 92 51 o y la mediana es 88, mientras que para el grupo de personas que no corri (Ran=2) la media del pulso es 72 32 y la o

mediana es 70. El bot n Statistics del cuadro de di logo que aparece con la opci n StatBasic StatisticsDisplay Descriptive Statistics o a o conduce a una nueva ventana en la cual se pueden elegir los estadsticos que queremos determinar de las variables que hemos seleccionado en el recuadro Variables. Haciendo clic sobre el bot n Help se obtiene informaci n sobre el o o signicado de cada uno de estos estadsticos. Algunos de ellos ya han sido explicados anteriormente. Los estadsticos descriptivos que podemos seleccionar (cuando pulsamos el bot n Statistics) son los siguientes: o
n

Mean SE of mean Standard deviation Variance

media aritm tica e error est ndar de la media a cuasi-desviaci n tpica o cuasi-varianza

x= xi i=1 S/ n
n

/n

S=
i=1

(xi x)

/ (n 1)

S2 S |x|

Coefcient of variation coeciente de variaci n insesgado CV = 100 o First quartile Median Third quartile Interquartile range Trimmed mean Sum Minimum Maximum Range N nonmissing N missing N total Cumulative N Percent Cumulative percent Sum of squares Skewness Kurtosis MSSD primer cuartil mediana tercer cuartil recorrido intercuartlico suma
i=1

q1 Me = q 2 q3 RI = q 3 q 1
n

media de los datos eliminando el 5 % de los valores m s peque os y el 5 % de los valores m s grandes a n a

xi

mnimo dato xmin m ximo dato a xmax recorrido total R = xmax xmin n mero de casos para los cuales sabemos el resultado de la variable = n u n mero de casos para los cuales no sabemos el resultado de la variable u n mero total de casos=N nonmissing+N missing u
n mero acumulado de casos (esto tiene sentido cuando se ha rellenado el recuadro By variables) u porcentaje de casos (esto tiene sentido cuando se ha rellenado el recuadro By variables) porcentaje acumulado de casos (esto tiene sentido cuando se ha rellenado el recuadro By variables)
n

suma de cuadrados
i=1

x2 i
n

coeciente de asimetra coeciente de apuntamiento

g1 = m3 /S 3 , con m3 =
i=1

(xi x)
n

/ (n 1)
4

g2 = (m4 /S 4 ) 3, con m4 =
i=1

(xi x)

/ (n 1)

media de los cuadrados de las sucesivas diferencias

Para practicar, podemos comprobar que el coeciente de variaci n de la variable Height de la hoja de datos (Workso heet) Pulse.mtw es igual a 5 33.

3.

Representaciones gr cas con la opci n StatBasic StatisticsDisplay a o Descriptive Statistics

El bot n Graphs del cuadro de di logo que aparece con la opci n StatBasic StatisticsDisplay Descriptive Statiso a o tics permite elegir alguno de los siguientes gr cos (por defecto no se realiza ninguno) de las variables que hemos a seleccionado en el recuadro Variables:

Estadstica I.T.I. Sistemas Pr ctica 2 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Histogram of data o histograma, que agrupa los datos en intervalos, representando sobre ellos rect ngulos de area a proporcional a la frecuencia absoluta de cada intervalo; Histogram of data, with normal curve o histograma al que se le superpone la curva de la distribuci n normal de o media igual a media muestral de la variable seleccionada y desviaci n tpica igual a la cuasi-desviaci n tpica o o muestral de dicha variable; Individual value plot o gr co de valores individuales, que representa los datos en forma de puntos, y a Boxplot of data o diagrama caja-bigote, que representa los valores mnimo y m ximo (extremos de los bigotes), los a cuartiles Q1 y Q3 (extremos de la caja) y la mediana. Dentro de la caja tendremos el 50 % de los datos de la muestra y en cada bigote tendremos el 25 % de los datos m s extremos. Este ultimo tipo de gr co nos permite a a visualizar tanto el valor central como la dispersi n de los datos, y es muy util a la hora de comparar datos de o distintas muestras o grupos. Por ejemplo, de la hoja de datos (Worksheet) Pulse.mtw, podemos realizar el histograma (con la curva normal superpuesta) de la variable Height, el gr co de valores individuales de la variable Activity y el diagrama caja-bigote de a la variable Pulse1.

4.

Representaciones gr cas con la opci n Graph a o

Adem s de los gr cos que se obtienen con la StatBasic StatisticsDisplay Descriptive Statistics, podemos crear a a representaciones gr cas con el men Graph. a u Una opci n importante de todos los gr cos creados a trav s del men Graph es que haciendo clic sobre ellos o a e u con el bot n derecho del rat n y activando la opci n Update Graph Automatically del men contextual que aparece, el o o o u gr co cambia autom ticamente al modicar los datos con que se han construido (ya sea a adiendo, modicando o a a n eliminando).

4.1.

Histograma

Se puede obtener el histograma de una variable con la opci n GraphHistogram. Esta opci n ofrece 4 tipos: Simple, o o
With Fit, With Outline and Groups y With Fit and Groups.

Por ejemplo, podemos hacer el histograma simple de la variable Weight de la hoja de datos Pulse.mtw. Para ello, seleccionamos la opci n GraphHistogram. De las cuatro opciones que aparecen seleccionamos Simple. En el cuadro o de di logo resultante seleccionamos la variable Weight para ponerla en el recuadro Graph variables. Podemos cambiar el a aspecto que tendra el gr co por defecto, pulsando en los botones que aparecen en este cuadro de di logo: Scale, Labels, a a Data View, Multiple Graphs y Data Options. Para m s informaci n sobre las acciones de estos botones, pulsar el bot n Help a o o del mismo cuadro de di logo. En principio, podramos dejar todas las opciones por defecto a la hora de realizar este a primer histograma. El histograma resultante podemos copiarlo en el portapapeles, haciendo clic sobre el gr co con el bot n derecho a o del rat n y seleccionado, del men contextual que resulta, la opci n Copy Graph. De esta manera, podramos pegarlo o u o en otro programa bajo Windows, por ejemplo, uno de edici n de gr cos como Paint Shop Pro. Tambi n podemos o a e almacenarlo en la ventana de proyecto, Proyect Manager (concretamente en el directorio ReportPad) haciendo clic sobre el gr co con el bot n derecho del rat n y seleccionando, del men contextual que resulta, la opci n Append Graph to a o o u o Report. Tambi n tenemos la posibilidad de grabarlo, en varios formatos (gr co propio de Minitab, mgf, jpg, png, bmp, e a etc.). Para ello solo tenemos que cerrar el gr co (bot n ) y pulsar en S cuando Minitab nos pregunte si queremos a o guardar el gr co en un chero aparte. a Una vez obtenido el histograma es posible cambiar su aspecto. Para ello, hacemos clic sobre el gr co, clic sobre a la parte del gr co que queremos cambiar y doble clic sobre esa parte. Aparece, entonces, una nueva ventana que nos a permite hacer dicha transformaci n. Los cambios m s usuales son: cambio en la escala del eje horizontal, cambio en o a el eje vertical, aspecto de las barras, intervalos sobre los que se sit an las barras, aspecto de la ventana del gr co y u a cambio en las proporciones del gr co. Para practicar con estas opciones vamos a cambiar el histograma simple de la a variable Weight de la hoja de datos Pulse.mtw de la siguiente manera: Que el ttulo sea Histograma de la variable Peso. Que las barras sean de color azul claro con una trama de relleno oblicua y con los bordes de color azul oscuro. Que haya 7 intervalos de la misma amplitud y que en el eje horizontal aparezcan los lmites de los intervalos (no los puntos medios). Que el texto del eje horizontal sea Peso de los alumnos, en libras. Que en el eje vertical se muestren 13 marcas (ticks). Que el texto del eje vertical sea Frecuencia absoluta.

Estadstica I.T.I. Sistemas Pr ctica 2 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

4.2.

Diagrama de sectores o de pastel

Este gr co resume los datos de una columna contando el n mero de datos iguales y represent ndolos mediante a u a sectores proporcionales al n mero de datos de cada clase. Se utiliza con datos cualitativos o de tipo discreto con pocos u resultados distintos. Se obtiene con la opci n GraphPie Chart. o Por ejemplo, podramos hacer el diagrama de pastel de los datos de la columna Activity de la hoja de datos Pulse.mtw. Para ello, en el cuadro de di logo que resulta al seleccionar GraphPie Chart, dejamos activada la opci n Chart counts a o of unique values y seleccionamos la columna Activity en el recuadro Categorical variables. Podemos cambiar el aspecto que tendra el gr co por defecto, pulsando en los botones que aparecen en este cuadro de di logo: Pie Options, Labels, a a Multiple Graphs y Data Options. En principio, podramos dejar todas las opciones por defecto a la hora de realizar este primer diagrama de sectores. Igual que ocurra con el histograma, una vez obtenido el diagrama de pastel podemos copiarlo en el portapapeles, o almacenarlo en el directorio ReportPad de la ventana Proyect Manager, o grabarlo en un chero aparte. Tambi n es posible e cambiar su aspecto una vez obtenido, haciendo clic sobre el gr co, clic sobre la parte del gr co que queremos cambiar a a y doble clic sobre esa parte. Para practicar vamos a cambiar el gr co de sectores anterior de la siguiente manera: a Que el ttulo sea Gr co de sectores de la variable Actividad Fsica. a Que junto a los sectores circulares aparezca la frecuencia absoluta y el porcentaje de cada categora (clic sobre uno de los sectores circulares con el bot n derecho del rat n, opci n Add, Slice Labels). o o o

4.3.

Diagrama de barras

Este tipo de gr co se utiliza con datos cualitativos o de tipo discreto con pocos resultados distintos. El diagrama a de barras se construye colocando en el eje horizontal los resultados (o categoras) de la variable y subiendo, sobre ellos, unas barras (rect ngulos o lneas) de altura igual a la frecuencia absoluta (o la frecuencia relativa o el porcentaje) de a cada resultado (o categora). Se obtiene con la opci n GraphBar Chart. o Por ejemplo, podramos hacer el diagrama de barras de los datos de la columna Activity de la hoja de datos Pulse.mtw. Para ello, en el cuadro de di logo que resulta al seleccionar GraphBar Chart, dejamos activada la opci n Counts of unique a o values del recuadro Bars represent y dejamos tambi n activado el modelo Simple del diagrama de barras. En el cuadro e de di logo resultante, seleccionamos la columna Activity en el recuadro Categorical Variables. Como las categoras son a n meros concretos (0, 1, 2 y 3) es m s riguroso que, en vez de barras, aparezcan solamente lneas verticales; por tanto, u a activamos el bot n Data View y en el cuadro de di logo resultante activamos solo la opci n Proyect lines. o a o Igual que ocurra con los gr cos anteriores, una vez obtenido el diagrama de barras podemos copiarlo en el a portapapeles, o almacenarlo en el apartado ReportPad de la ventana Proyect Manager, o grabarlo en un chero aparte. Tambi n es posible cambiar su aspecto una vez obtenido, haciendo clic sobre el gr co, clic sobre la parte del gr co e a a que queremos cambiar y doble clic sobre esa parte. Tambi n podemos observar que si hacemos clic sobre el gr co y e a luego pasamos el rat n por encima de las barras, se nos indica la frecuencia absoluta de cada categora. Para practicar o vamos a cambiar el diagrama de barras anterior de la siguiente manera: Que el ttulo sea Diagrama de barras de la variable Actividad Fsica. Que las barras (lneas) sean de color rojo y de un tama o (grosor) de 3 puntos. n Que en el eje vertical se muestren 13 marcas (ticks). Que el texto del eje vertical sea Frecuencia absoluta. Que el texto del eje horizontal sea Actividad Fsica (0=Ninguna, 1=Baja, 2=Media, 3=Alta). Que en la parte superior de cada barra aparezca la frecuencia absoluta de cada categora (clic sobre una de las barras con el bot n derecho del rat n, opci n Add, Data Labels, dejar activado Use y-values labels). o o o Con la opci n GraphBar Chart existe la posibilidad de seleccionar una nueva variable para determinar las barras o dentro de cada grupo; esto se realiza seleccionando Cluster (para un diagrama de barras agrupado seg n los resultados u de otra variable) o Stack (para un diagrama de barras apilado seg n los resultados de otra variable). Por ejemplo, con u el chero de datos Pulse.mtw vamos a hacer el diagrama de barras de la variable Activity en grupos denidos por la variable Sex. Para ello, en el cuadro de di logo que resulta al seleccionar GraphBar Chart, dejamos activada la opci n a o Counts of unique values del recuadro Bars represent y activamos el modelo Cluster del diagrama de barras. En el siguiente cuadro de di logo seleccionamos, de la lista de variables de la izquierda, las columnas Activity y Sex para ponerlas en el a recuadro Categorical variables. Una vez obtenido dicho diagrama de barras es conveniente modicarlo para que sea m s a explicativo, por ejemplo vamos a hacer lo siguiente: Que el ttulo sea Diagrama de barras de la variable Actividad Fsica en grupos denidos por la variable Sexo, escrito con letra Arial y con un tama o de 10 puntos. n

Estadstica I.T.I. Sistemas Pr ctica 2 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Que las barras tengan distinto color seg n los resultados de la variable Sex y que aparezca una leyenda explicativa u (doble clic sobre una de las barras, en el cuadro de di logo resultante seleccionar la carpeta Groups, en el recuadro a Assign attributes by categorical variables seleccionar la variable Sex.) Que en el eje vertical se muestren 10 marcas (ticks). Que el texto del eje vertical sea Frecuencia absoluta. Que en el eje horizontal todo est escrito con la fuente Verdana, en negrita y con un tama o de 8 puntos. Que en e n dicho eje aparezcan los nombres de las variables en espa ol: Actividad Fsica en vez de Activity, y Sexo en vez n de Sex. Que en el mismo eje los resultados de la variable Sex no sean 1 y 2 sino Hombre y Mujer. Y los resultados de la variable Activity no sean 0, 1, 2 y 3 sino Ninguna, Poca, Media y Alta.

4.4.

Diagramas bivariantes

La opci n GraphScatterplot realiza una gr ca con los datos (bivariantes) de dos columnas de la misma longitud. o a Por ejemplo, de la hoja de datos Pulse.mtw podemos representar la altura en pulgadas, Height, frente al peso en libras, Weight. Para ello, seleccionamos la opci n GraphScatterplot, en el cuadro de di logo que aparece seleccionamos Simple, o a en el siguiente cuadro de di logo, en el recuadro Y Variables seleccionamos (de la lista de variables de la izquierda) a Height, en el recuadro X Variables seleccionamos Weight. Podemos cambiar el aspecto que tendra el gr co por defecto, a pulsando en los botones que aparecen en este cuadro de di logo: Scale, Labels, Data View, Multiple Graphs y Data Options. a En principio, podramos dejar todas las opciones por defecto a la hora de realizar este primer diagrama de dispersi n. o Se puede comprobar que la nube de puntos resultante se agrupa cerca de una lnea recta, lo que signica que hay una clara relaci n lineal entre las dos variables. o Igual que ocurra con los gr cos anteriores, una vez obtenido el diagrama de dispersi n se puede copiar en el a o portapapeles, o almacenar en el apartado ReportPad de la ventana Proyect Manager, o grabar en un chero aparte. Tambi n e es posible cambiar su aspecto una vez obtenido haciendo doble clic sobre la parte del gr co que queremos modicar. a Para practicar vamos a diagrama de dispersi n anterior de la siguiente manera: o Que el ttulo sea Diagrama de dispersi n de la Altura frente al Peso. o Que los smbolos sean rombos verdes de tama o 1. n Que en el eje horizontal se muestren 14 marcas (ticks). Que el texto del eje horizontal sea Peso de los alumnos, en libras. Que en el eje vertical se muestren 10 marcas (ticks). Que el texto del eje vertical sea Altura de los alumnos, en pulgadas. La opci n GraphScatterplot es la que se utiliza para hacer la representaci n gr ca de una determinada funci n o o a o f (x). Para ello es necesario tener en una columna los valores de x (generalmente creados por patr n) y en otra columna o los resultados de y = f (x) (generalmente calculados a partir de la opci n CalcCalculator). Por ejemplo, vamos a o hacer la representaci n gr ca de la funci n f (x) = (1 + x)(1 x2 ) en el intervalo [3, 3]. Para ello se procede de la o a o siguiente manera: 1) Se abre una hoja de datos nueva (File, New, Minitab Worksheet). 2) Mediante la opci n CalcMake Patterned DataSimple Set of Numbers se crea una nueva columna que denominao remos x y que contendr todos los n meros comprendidos entre el -3 y el 3 con un incremento de 0, 01. En la a u columna x habr un total de 601 n meros. a u 3) En otra columna se calculan los resultados de la funci n funci n f (x) = (1 + x)(1 x2 ) para cada valor de o o la columna x. Para hacerlo, se selecciona CalcCalculator; en Store result in variable tecleamos f(x); en Expression tenemos que colocar, utilizando la calculadora y la lista de variables que aparecen en este cuadro de di logo, la a siguiente expresi n: (1+x)*(1-x**2) o 4) Para representar gr camente la funci n se elige la opci n GraphScatterplot, despu s se elige With connect line. a o o e En el siguiente cuadro de di logo, en Y variables se selecciona, de la lista de variables de la izquierda, la columna a f(x) y en X variables se selecciona la columna x. Sera conveniente quitar los puntos del gr co, dejando s lo la a o lnea de conexi n, para lo cual se hace doble clic sobre la curva, en AttributesSymbols se marca la opci n Custom o o y en Type se selecciona None (buscando hacia arriba). Luego se hace un clic dentro del gr co, pero no sobre la a curva. Tambi n se puede lograr lo mismo de la siguiente manera: se elige la opci n GraphScatterplot; se selecciona e o Simple; en el siguiente cuadro de di logo, en Y variables se selecciona la columna f(x) y en X variables se selecciona a la columna x; se activa el bot n Data View y en el cuadro de di logo resultante se deja activada solamente la o a opci n Connect line. o

UNIVERSIDAD DE MURCIA
DEPARTAMENTO DE ESTADSTICA I E INVESTIGACI ON OPERATIVA

Estadstica. I.T.I. Sistemas. Curso 2008-09 Practicas con Minitab 15 Profesora: Dra. Josefa Marn Fernandez

Pr ctica 3: Probabilidad. Variables aleatorias a 1. Muestras aleatorias de las distribuciones usuales

Como ya se ha visto anteriormente, en Minitab podemos generar datos de distribuciones usuales utilizando la opci n CalcRandom Data. Esta opci n permite generar una muestra de datos de cualquier columna de la hoja de datos o o actualmente abierta o de una de las distribuciones de probabilidad que aparecen listadas. En primer lugar, vamos a crear una nueva hoja de datos que llevar por nombre Probabilidad.mtw. A continuaci n, a o vamos a crear una columna, en dicha hoja de datos, que lleve por nombre 100 datos de N(5,2) y que contenga 100 datos aleatorios procedentes de una distribuci n N (5, 2) (Normal de media 5 y desviaci n tpica 2). Para ello, seleccionamos o o CalcRandom DataNormal; en Number of rows of data to generate tecleamos 100; en Store in column tecleamos el nombre 100 datos de N(5,2); en Mean tecleamos 5 y en Standard deviation ponemos un 2. A continuaci n vamos a hacer el histograma de la muestra aleatoria obtenida en la columna 100 datos de N(5,2). o Para ello, recordemos que hay que seleccionar la opci n GraphHistogram. En el cuadro de di logo resultante elegimos o a With Fit. En el siguiente cuadro de di logo, en Graph variables seleccionamos, de la lista de variables que tenemos a a la izquierda, la columna 100 datos de N(5,2) y pulsamos OK. En la representaci n gr ca podemos apreciar que el o a histograma est cerca de la curva Normal superpuesta, lo cual es l gico puesto que hemos creado una muestra de una a o distribuci n Normal. Tambi n podemos ver, en la leyenda que aparece en la parte superior derecha del gr co, que la o e a media de la muestra obtenida se aproxima a 5 y la desviaci n tpica se aproxima a 2. o Genera ahora una muestra de la misma distribuci n, N (5, 2), pero de tama o 10000 y haz el histograma correso n pondiente a los datos de la nueva muestra. Qu aprecias respecto al ajuste de la gr ca a la curva Normal? Piensas e a que tiene que ver con el tama o de la muestra? n La opci n CalcRandom Data tambi n nos puede servir para calcular el valor aproximado de cualquier medida o o e momento de cualquier distribuci n. Por ejemplo, para calcular la mediana de una distribuci n Exponencial de media o o 15 podemos crear 5000 datos aleatorios de dicha distribuci n y despu s determinar la mediana de la columna creada. o e Para ello, seleccionamos CalcRandom DataExponential; en Number of rows of data to generate tecleamos 5000; en Store in column tecleamos el nombre 5000 datos de E(15); en Scale tecleamos el valor de la media, que es 15, y en Threshold dejamos lo que aparece por defecto, que es cero. Recordemos que para determinar la mediana de una columna tenemos varias posibilidades, una es la opci n CalcColumn Statistics y otra es la opci n StatBasic StatisticsDisplay Descriptive o o Statistics. Para determinar la mediana de la muestra de la distribuci n Exponencial de media 15, nosotros vamos a utilizar o la opci n CalcColumn Statistics; en Statistic activamos Median; en Input variable seleccionamos (de la lista de variables de o la izquierda) la columna 5000 datos de E(15) y no escribimos nada en el recuadro Store result in. En la ventana de sesi n o nos aparece el resultado de la mediana deseada, que podemos comprobar que se aproxima al valor real de la mediana de una distribuci n Exponencial de media 15, que es Me = 15 ln 0 5 = 10 3972077 . Cuanto m s grande sea el o a tama o muestral, tanto m s se aproximar el valor de la mediana de la muestra al valor te rico de dicha mediana. n a a o La distribuci n Discrete que aparece en el men de la opci n CalcRandom Data no es un modelo concreto, sino o u o que sirve para cualquier modelo discreto previamente introducido en dos columnas; una para los valores que toma x y otra para los resultados de sus probabilidades p(x). Por ejemplo, podemos generar una muestra aleatoria de tama o n 1000 de la distribuci n discreta que tiene por funci n de probabilidad p(x) = x/55 para x = 1, 2, . . . , 10 y podemos o o comprobar gr camente que aproximadamente se cumplen las probabilidades te ricas. Para ello, se procede de la a o siguiente manera: a) Mediante la opci n CalcMake Patterned DataSimple Set of Numbers se crea una nueva columna, que podemos o denominar x, con los valores 1, 2, 3, . . . , 10. Esta columna contiene los posibles resultados de la variable aleatoria discreta. b) Mediante la opci n CalcCalculator, se calculan los resultados de la funci n de probabilidad para todos y cada o o uno de los valores de la columna x. A la nueva columna la podemos denominar p(x). Recordemos que es mejor emplear la lista de variables y la calculadora de dicho cuadro de di logo que teclear las operaciones y los nombres a de las variables. c) Se selecciona CalcRandom DataDiscrete; en Number of rows of data to generate tecleamos 1000; en Store in column tecleamos muestra modelo discreto; en Values in seleccionamos, de la lista de variables de la izquierda, la columna x; en Probabilities in seleccionamos, de la lista de variables de la izquierda, la columna p(x). La nueva columna

Estadstica I.T.I. Sistemas Pr ctica 3 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

muestra modelo discreto contiene la muestra deseada. Con una probabilidad muy alta, el dato que m s habr apaa a

recido ser el 10 puesto que es el valor m s probable, con probabilidad p(10) = 0 18 y el dato que menos a a habr aparecido ser el 1 puesto que es el valor menos probable, con una probabilidad p(1) = 0 0 18. a a d) Hacemos un diagrama de barras de la columna muestra modelo discreto para comprobar que aproximadamente se cumplen las probabilidades te ricas. Para ello, se selecciona GraphBar Chart, dejamos activada la opci n Simple o o y hacemos clic en OK. En el siguiente cuadro de di logo, en Categorical variables seleccionamos, de la lista de a variables de la izquierda, la columna muestra modelo discreto. Si pasamos el cursor sobre cada una de las barras del gr co resultante podemos ver la frecuencia absoluta de cada uno de los 10 valores de x. Como tenemos a una muestra de tama o 1000, para averiguar la frecuencia relativa (que es lo que se aproxima a la probabilidad), n tenemos que dividir la frecuencia absoluta entre 1000. Comprobemos que la frecuencia absoluta del resultado 10 se aproxima a 0 18 1000 = 181 81. Como ya sabemos, la distribuci n Uniforme genera n meros aleatorios de tipo continuo comprendidos entre dos o u n meros cualesquiera. La distribuci n Integer es su equivalente en el caso discreto; es decir, genera n meros aleatorios u o u de tipo discreto (n meros enteros) comprendidos entre dos n meros enteros cualesquiera. Por ejemplo, vamos a utilizar u u esta distribuci n para simular los resultados de 1000 lanzamientos de un dado. Para ello, seleccionamos CalcRandom o DataInteger; en Number of rows of data to generate tecleamos 1000; en Store in column tecleamos el nombre 1000 lanzamientos dado; en Minimum value tecleamos 1 y en Maximum value ponemos un 6. Ahora podemos comprobar gr camente que a aproximadamente se cumplen las probabilidades te ricas. Para ello, vamos a hacer un diagrama de barras de los datos o obtenidos: Se selecciona GraphBar ChartSimple y en Categorical variables se elige la columna 1000 lanzamientos dado. Si pasamos el cursor sobre cada una de las barras del gr co resultante podemos ver la frecuencia absoluta de cada uno a de los 6 resultados posibles. Como tenemos una muestra de tama o 1000, para averiguar la frecuencia relativa (que n es lo que se aproxima a la probabilidad), tenemos que dividir la frecuencia absoluta entre 1000. Comprobemos que la 1 frecuencia absoluta de cada resultado se aproxima a 6 1000 = 166 6. Si un determinado suceso A tiene por probabilidad p; es decir, P (A) = p, podemos aproximarnos al verdadero valor de la probabilidad p generando una columna con una muestra aleatoria de gran tama o de la distribuci n de n o Bernoulli de par metro p y luego calculando la media de dicha columna (pues la media te rica de la distribuci n de a o o Bernoulli de par metro p es igual a p). Vamos a utilizar lo anterior para averiguar, aproximadamente, el valor de la a probabilidad de que el valor mnimo de 5 observaciones de una distribuci n N (12, 4) sea menor que 10. Este suceso lo o vamos a denotar por A; es decir, A=el valor mnimo de 5 observaciones de una distribuci n N (12, 4) es menor que 10, o y a su probabilidad la vamos a denotar por p; es decir, P (A) = p. Para averiguar el valor aproximado de la probabilidad p hacemos lo siguiente: a) Generamos 5 muestras de tama o grande (por ejemplo, 10000) procedentes de una distribuci n N (12, 4), cada n o una de ellas en una columna de Minitab. A estas columnas las podemos denominar Y 1, Y 2, Y 3, Y 4 e Y 5. Cada la se puede considerar como una muestra de tama o 5 procedente de una distribuci n N (12, 4). Por tanto, n o hemos obtenido 10000 muestras de tama o 5 de dicha distribuci n Normal. n o b) Utilizamos la opci n CalcRow Statistics para calcular el mnimo de cada muestra de tama o 5; es decir, determio n namos la funci n mnimo (por las) de las columnas Y 1, Y 2, Y 3, Y 4 e Y 5. Denominamos a la nueva columna o Mnimo Y1 a Y5. c) Utilizamos la opci n Calc Calculator para determinar el resultado de la expresi n l gica Mnimo Y1 a Y5<10. A o o o la nueva columna la denominamos Mnimo<10. Esta nueva columna es una muestra aleatoria de una distribuci n o de Bernoulli de par metro igual a la probabilidad del suceso A, pues la operaci n anterior ha asignado el valor 1 a o si el suceso A ocurre, y ha asignado el valor cero si A no ocurre. d) Con la opci n CalcColumn Statistics calculamos la media (Mean) de la columna Mnimo<10. Dicha media es una o estimaci n o aproximaci n al par metro p de la distribuci n de Bernoulli de par metro igual a la probabilidad o o a o a del suceso A y por tanto es una estimaci n o aproximaci n de la probabilidad del suceso A. o o Como ya sabemos, el Teorema Central del Lmite nos dice que si tenemos n variables aleatorias independientes id nticamente distribuidas, X1 ,. . ., Xn , con media y varianza 2 , entonces: e
I) II )

Cuando n es sucientemente grande, la variable Suma Muestral (Sn = X1 + + Xn ) tiene, aproximadamente, una distribuci n Normal de media n y varianza n 2 . o Cuando n es sucientemente grande, la variable Media Muestral (X = Sn /n) tiene, aproximadamente, una distribuci n Normal de media y varianza 2 /n. o

Para practicar con lo anterior, se propone el siguiente ejercicio: Genera 5 muestras de tama o grande (por ejemplo, n 10000) de cualquier distribuci n, por ejemplo, de una variable Uniforme en el intervalo (0, 1). Denomina X1, X2, X3, o X4 y X5 a esas 5 columnas. Mediante la opci n CalcRow Statistics (utilizada dos veces) crea dos columnas nuevas: o la primera columna (Suma) la calculas mediante la suma (por las) de las cinco columnas X1, X2, X3, X4, X5; y

Estadstica I.T.I. Sistemas Pr ctica 3 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

la segunda columna (Media) la calculas mediante la media aritm tica (por las) de las cinco columnas X1, X2, X3, e X4, X5. Haz el histograma (con la curva Normal superpuesta) de estas dos nuevas columnas, Suma y Media. Qu se e puede observar en estas gr cas? Determina las medias y las varianzas de las dos columnas nuevas, Suma y Media, y a compara los resultados con los te ricos. Recordemos que la media de una distribuci n Uniforme en el intervalo (a, b) o o es igual a (a + b)/2 y la varianza es (b a)2 /12. Por tanto, para cada Xi la media te rica es 1/2 = 0 5 y la varianza o te rica es 1/12 = 0 08 3. En consecuencia, para la variable aleatoria Sn la media sera 5 0 5 = 2 5 y la varianza sera o 5 0 08 3 = 0 41 6. Y para la variable aleatoria X la media sera 0 5 y la varianza sera 0 08 3/5 = 0 01 6.

2.

Funci n de densidad y funci n de probabilidad o o

Minitab puede calcular el resultado de la funci n de densidad (o de la funci n de probabilidad) para un valor cono o creto o para una lista de valores. Para ello hay que elegir la opci n CalcProbability Distributions y a continuaci n el o o nombre de la variable aleatoria: Chi-square (Chi-cuadrado de Pearson), Normal, F (de Snedecor), t (de Student), Uniform (Uniforme), Binomial, Hypergeometric (Hipergeom trica), Discrete, Integer, Poisson, Beta, Cauchy, Exponential, e Gamma, Laplace, etc. Dentro del cuadro de di logo que aparecer hay que seleccionar Probability Density (para las distribuciones continuas) a a o Probability (para las distribuciones discretas). Para entender mejor el inter s de esta opci n, vamos a determinar los resultados de la funci n de densidad de una e o o distribuci n N (0, 1) (Normal Est ndar) para una lista de valores que vamos a crear (todos los n meros comprendidos o a u entre -4 y 4, con un incremento de 0, 01). Luego haremos la representaci n gr ca de esta funci n de densidad. Para o a o ello se procede de la siguiente manera: a) Mediante la opci n CalcMake Patterned DataSimple Set of Numbers crearemos una nueva columna que denomio naremos x de -4 a 4 y que contendr todos los n meros comprendidos entre el -4 y el 4 con un incremento de a u 0, 01. En la columna x de -4 a 4 habr un total de 801 n meros . a u b) En otra columna se calculan los resultados de la funci n de densidad de la variable aleatoria Normal Est ndar para o a cada valor de la columna x de -4 a 4. Para hacerlo, se selecciona CalcProbability DistributionsNormal; se activa Probability density; en Mean y en Standard deviation se deja lo que aparece por defecto (cero y uno, respectivamente); en Input column se selecciona, de la lista de variables de la izquierda, la columna x de -4 a 4 y en Optional storage se teclea el nombre de la columna que contendr los resultados de la funci n de densidad; por ejemplo, f(x) N(0,1). a o c) Finalmente, para representar gr camente la funci n de densidad de la variable aleatoria Normal Est ndar se a o a elige la opci n GraphScatterplot, despu s se elige With connect line. En el siguiente cuadro de di logo, en Y o e a variables se selecciona, de la lista de variables de la izquierda, la columna f(x) N(0,1) y en X variables se selecciona la columna x de -4 a 4. Sera conveniente quitar los puntos del gr co, dejando s lo la lnea de conexi n, para lo a o o cual se hace doble clic sobre la curva, en AttributesSymbols se marca la opci n Custom y en Type se selecciona o None (buscando hacia arriba). Luego se hace un clic dentro del gr co, pero no sobre la curva. a Para completar el ejemplo anterior, podramos superponer en un mismo gr co las curvas de densidad de las dis a tribuciones N (0, 1) (Normal Est ndar), t2 (t de Student con 2 grados de libertad), t5 (t de Student con 5 grados de a libertad) y t30 (t de Student con 30 grados de libertad) con el n de comprobar que la distribuci n tn se va aproxio mando a la distribuci n N (0, 1) cuando va aumentando el valor del par metro n. Para ello, se procede de la siguiente o a manera: a) Se selecciona CalcProbability Distributionst; se activa Probability density; en Degrees of freedom se teclea 2; en Input column se selecciona, de la lista de variables de la izquierda, la columna x de -4 a 4 y en Optional storage se teclea el nombre de la columna que contendr los resultados de la funci n de densidad de t2 ; por ejemplo, f(x) a o t2. b) Se selecciona CalcProbability Distributionst; se activa Probability density; en Degrees of freedom se teclea 5; en Input column se selecciona, de la lista de variables de la izquierda, la columna x de -4 a 4 y en Optional storage se teclea el nombre de la columna que contendr los resultados de la funci n de densidad de t5 ; por ejemplo, f(x) a o t5. c) Se selecciona CalcProbability Distributionst; se activa Probability density; en Degrees of freedom se teclea 30; en Input column se selecciona, de la lista de variables de la izquierda, la columna x de -4 a 4 y en Optional storage se teclea el nombre de la columna que contendr los resultados de la funci n de densidad de t30 ; por ejemplo, f(x) a o t30. d) Se selecciona la opci n GraphScatterplotWith connect line. En el cuadro de di logo que aparece, junto al 1 en Y o a variables seleccionamos la columna f(x) N(0,1) y en X variables seleccionamos la columna x de -4 a 4; junto al 2 en Y variables seleccionamos la columna f(x) t2 y en X variables seleccionamos otra vez la columna x de -4 a 4; junto al 3 en Y variables seleccionamos f(x) t5 y en X variables seleccionamos otra vez x de -4 a 4; y junto al 4 en Y variables

Estadstica I.T.I. Sistemas Pr ctica 3 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

seleccionamos la columna f(x) t30 y en X variables seleccionamos otra vez la columna x de -4 a 4. Luego pulsamos Multiple graphs y en el cuadro de di logo resultante activamos la opci n Overlay on the same graph. Como ya hemos a o dicho anteriormente, sera conveniente quitar los puntos del gr co, dejando s lo la lnea de conexi n. a o o Ahora vamos a calcular los resultados de la funci n de probabilidad de la distribuci n discreta B(200, 0 4) (Binoo o mial de par metros n = 200 y p = 0 4), vamos a hacer su representaci n graca y vamos a averiguar el valor de la a o media de dicha variable aleatoria discreta. Para ello procedemos de la siguiente manera: a) Mediante la opci n CalcMake Patterned DataSimple Set of Numbers crearemos una nueva columna que denoo minaremos x de 0 a 200 y que contendr todos los resultados posibles de la distribuci n B(200, 0 4), que, como a o sabemos, son: 0, 1, 2, , 200. b) Calculamos los resultados de la funci n de probabilidad de B(200, 0 4) para todos y cada uno de los valores de o la columna x de 0 a 200. Para ello, seleccionamos la opci n CalcProbability DistributionsBinomial; activamos o Probability; en Numbers of trials tecleamos 200; en Event probability tecleamos 0,4; en Input column elegimos, de la lista de variables de la izquierda, la columna x de 0 a 200 y en Optional storage tecleamos el nombre de la columna que contendr los resultados de la funci n de probabilidad; por ejemplo, p(x) B(200,0,4). a o c) Ahora vamos a hacer la representaci n gr ca bidimensional que tiene en el eje horizontal los resultados de la o a columna x de 0 a 200 y en el eje vertical los resultados de la columna p(x) B(200,0,4). Para ello, se selecciona la opci n GraphScatterplot, despu s se elige With connect line. En el siguiente cuadro de di logo, en Y variables o e a se selecciona, de la lista de variables de la izquierda, la columna p(x) B(200,0,4) y en X variables se selecciona la columna x de 0 a 200. Como ya hemos dicho anteriormente, sera conveniente quitar los puntos del gr co, a dejando s lo la lnea de conexi n. Se puede comprobar que esta representaci n gr ca se aproxima mucho a la o o o a curva de densidad de una distribuci n Normal, lo cual se debe a lo siguiente: cuando n es grande y p no se acerca o a 0 ni a 1, entonces B(n, p) se aproxima a N (np, npq), siendo q = 1 p. d) Tambi n vamos a calcular la media te rica de la distribuci n B(200, 0 4). Recordemos que la media de una e o o distribuci n discreta es E(X) = o xi p(xi ). Por tanto, usamos la opci n Calc Calculator. En Store result in o variable tecleamos el nombre de la columna que contendr los resultados de los productos xi p(xi ); por ejemplo, a x p(x); en Expression ponemos (empleando la lista de variables y la calculadora de dicho cuadro de di logo) x de a 0 a 200*p(x) B(200,0,4). Ahora tenemos que calcular la suma de todos los resultados de la columna x p(x), para lo cual elegimos la opci n CalcColumn Statistic; activamos Sum; en Input variable seleccionamos, de la o lista de variables de la izquierda, la columna x p(x) y dejamos desactivada la opci n Store result in. En la ventana o de sesi n podemos ver el resultado de la media, que es igual a E(X) = n p = 200 0 4 = 80. De forma similar o podramos determinar cualquier otro momento de dicha distribuci n discreta. o

3.

Funci n de distribuci n (probabilidad acumulada) o o

Para calcular el resultado de la funci n de distribuci n de una variable aleatoria, F (t) = P (X t), hay que elegir o o la opci n CalcProbability Distributions y a continuaci n el nombre de la variable aleatoria. Dentro del cuadro de di logo o o a que aparece hay que seleccionar Cumulative Probability. Por ejemplo, vamos a calcular la probabilidad P (X 1 36), siendo X una variable aleatoria Normal Est ndar. a Como P (X 1 36) = F (1 36), para calcular su resultado seleccionamos la opci n CalcProbability DistributionsNormal; o activamos Cumulative Probability; en Mean y en Standard deviation dejamos lo que aparece por defecto (cero y uno, respectivamente). No activamos la opci n Input column sino la opci n Input constant, en donde colocamos el valor -1,36. Podemos o o almacenar el resultado en una constante tecleando en el recuadro Optional storage una K seguida de un n mero o pou niendo un nombre a dicho resultado. Si no rellenamos el recuadro Optional storage, el resultado aparece en la ventana de sesi n. Se puede comprobar que la probabilidad pedida es P (X 1 36) = F (1 36) = 0 086915. o Si queremos calcular probabilidades de los tipos P (X > a), P (a < X < b), P (|X| < |a|), P (|X| > |a|), tenemos que utilizar l piz y papel, y aplicar las propiedades de la probabilidad para llegar a expresiones en las que s lo a o aparezcan probabilidades del tipo P (X x) (funci n de distribuci n), pues estas son las que calcula Minitab. No o o tenemos que olvidar, por ejemplo, que si X es una variable aleatoria continua, entonces P (X = a) = 0 para todo a, por lo que se cumplen las siguientes igualdades: P (X x) = P (X < x), P (X x) = P (X > x), . Pero si X es una variable aleatoria discreta, las probabilidades P (X x) y P (X < x) no son (en general) iguales. Vamos a hacer algunos ejemplos: Si X B(85, 0 55), entonces P (50 X < 60) = P [(X < 60) (X < 50)] = P (X < 60) P (X < 50) = P (X 59) P (X 49) = F (59) F (49) = 0 997638 0 724689 = 0 272949. Si X N (0, 1), entonces P (|X| 1 75) = P [(X 1 75) (X 1 75)] = P (X 1 75) + P (X 1 75) = 2 P (X 1 75) = 2 F (1 75) = 2 0 0400592 = 0 080118.

Estadstica I.T.I. Sistemas Pr ctica 3 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Si X N (6 5, 1 85), entonces P (5 X < 7) = P [(X < 7) (X < 5)] = P (X < 7) P (X < 5) = P (X 7) P (X 5) = F (7) F (5) = 0, 606524 0, 208737 = 0 397787. Como ya hemos dicho, cuando n es grande y p no se acerca a 0 ni a 1, entonces B(n, p) se aproxima a N (np, npq), siendo q = 1 p. Vamos a poder observarlo con el siguiente ejemplo: Sea X una variable aleatoria B(200, 0 4) y sea Y una variable aleatoria Normal de media 80 y desviaci n tpica o 6928203. Vamos a comprobar (mediante una representaci n gr ca conjunta) que las funciones de distribuci n de o a o ambas variables son muy parecidas. La soluci n es la siguiente: o a) Calculamos los resultados de la funci n de distribuci n de B(200, 0 4) para todos y cada uno de los valores de o o dicha columna x de 0 a 200. Para ello, seleccionamos la opci n CalcProbability DistributionsBinomial; activamos o Cumulative probability; en Numbers of trials tecleamos 200; en Event probability tecleamos 0,4; en Input column elegimos, de la lista de variables de la izquierda, la columna x de 0 a 200 y en Optional storage tecleamos el nombre de la columna que contendr los resultados de la funci n de distribuci n de la Binomial; por ejemplo, F(x) B(200,0,4). a o o b) Calculamos los resultados de la funci n de distribuci n de N (80, 6 928203) para los mismos valores de x, es o o decir, para los valores de la columna x de 0 a 200. Para ello, se elige CalcProbability DistributionsNormal; se activa Cumulative probability; en Mean se teclea 80; en Standard deviation se pone 6,928203; en Input column elegimos, de la lista de variables de la izquierda, la columna x de 0 a 200 y en Optional storage tecleamos el nombre de la columna que contendr los resultados de la funci n de distribuci n de la Normal; por ejemplo, F(x) N(80,6,9). a o o c) Ahora vamos a superponer, en un mismo gr co, las dos funciones de distribuci n. Para ello, se selecciona a o la opci n GraphScatterplotWith connect line. En el cuadro de di logo que aparece, junto al 1 en Y variables o a seleccionamos la columna F(x) B(200,0,4) y en X variables seleccionamos la columna x de 0 a 200, y junto al 2 en Y variables seleccionamos la columna F(x) N(80,6,9) y en X variables seleccionamos otra vez la columna x de 0 a 200. Luego pulsamos Multiple graphs y en el cuadro de di logo resultante activamos Overlay on the same graph. Como ya a hemos dicho anteriormente, sera conveniente quitar los puntos del gr co, dejando s lo la lnea de conexi n. a o o

4.

Inversa de la funci n de distribuci n (percentiles) o o

En ocasiones, en lugar de querer calcular probabilidades de sucesos, se desea justamente lo contrario, conocer el valor x que hace que la probabilidad del suceso (X x) sea igual a un valor determinado p; es decir, hallar x para que se cumpla P (X x) = p; esto no es m s que calcular percentiles de variables aleatorias. Para calcular el resultado de a los percentiles de una variable aleatoria hay que elegir la opci n CalcProbability Distributions y a continuaci n el nombre o o de la variable aleatoria. Dentro del cuadro de di logo que aparece hay que seleccionar Inverse cumulative probability. a Por ejemplo, vamos a calcular el valor x que verica P (X x) = 0 98, cuando X 2 (Chi-cuadrado de 20 Pearson con 20 grados de libertad). Para ello seleccionamos la opci n CalcProbability DistributionsChi-Square. En o el cuadro de di logo activamos Inverse cumulative probability. Dejamos lo que aparece por defecto (cero) en Noncentrality a parameter. En Degrees of freedom tecleamos 20. No activamos la opci n Input column sino la opci n Input constant, en donde o o colocamos el valor 0,98. Podemos almacenar el resultado en una constante tecleando en el recuadro Optional storage una K seguida de un n mero o poniendo un nombre a dicho resultado. Si no rellenamos el recuadro Optional storage, u el resultado aparece en la ventana de sesi n. Se puede comprobar que el valor x que verica P (X x) = 0 98 es o 35 0196; es decir, P (X 35 0196) = 0 98, siendo X 2 . 20 Si queremos calcular los valores a y b tales que las probabilidades de los tipos P (X > a), P (a < X < b), P (|X| < |a|), P (|X| > |a|) sean iguales a un cierto resultado, tenemos que utilizar l piz y papel, y aplicar las a propiedades de la probabilidad para llegar a expresiones en las que s lo aparezcan ecuaciones del tipo P (X x) = p o (percentiles), pues estas son las que calcula Minitab. Vamos a hacer algunos ejemplos: Sea X una variable aleatoria que sigue una distribuci n t de Student con 30 grados de libertad (X t30 ). Halla o el valor de a que cumple P (|X| > a) = 0 2. Soluci n: o P (|X| > a) = 0 2 P [(X < a) (X > a)] = 0 2 P (X < a) + (X > a) = 0 2 2P (X > a) = 0 2 (por ser sim trica) P (X > a) = 0 1 e P (X a) = 0 9 F (a) = 0 9 a = 1 310415 Sea X una variable aleatoria que sigue una distribuci n F de Snedecor con 10 grados de libertad en el numerador o y 20 grados de libertad en el denominador (X F10,20 ). Halla el valor de a que verica la siguiente igualdad: P (|X| a) = 0 9.

Estadstica I.T.I. Sistemas Pr ctica 3 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Soluci n: o P (|X| a) = 0 9 P [a X a] = 0 9 P [(X a) (X < a)] = 0 9 P (X a) P (X < a) = 0 9 P (X a) = 0 9 ya que P (X < a) = 0 F (a) = 0 9 a = 1 936738 Para distribuciones discretas, en general, jado un p, no necesariamente existe un valor x que verique F (x) = p, por lo que el programa dar los dos valores de x para los cuales F (x) est m s cerca de p. Por ejemplo, para la a a a distribuci n Binomial B(3, 0 5) con p = 0 7 se obtienen los valores x = 1 y x = 2. Si almacenamos el resultado en o una constante, Minitab opta por el mayor (en este caso, x = 2).

5.

Ejercicios propuestos
1. Utilizando procedimientos similares a los explicados en la secci n 1 haz los siguientes ejercicios: o a) Determina, de manera aproximada, la probabilidad de superar 310 kilos en un viaje en ascensor el que suben 4 personas cuyos pesos proceden de una distribuci n Normal de media 75 kilos y desviaci n tpica o o 7 kilos. b) Determina, de manera aproximada, la probabilidad de que un sistema, que consta de 3 componentes conectados en serie, siga funcionando despu s de 800 horas si cada componente tiene tiempo de funcionamiento e exponencial de media 1000 horas e independiente de las dem s. a c) Aproxima las probabilidades de la suma de dos dados. Representa gr camente los resultados mediante un a diagrama de barras. Cu l es el valor m s probable de la suma de dos dados? a a d) Calcula el valor aproximado de la probabilidad de que al lanzar 100 monedas al aire se obtengan entre 45 y 55 caras. Basta con que generes una muestra (de tama o grande, por ejemplo, 10000) de la correspondiente n distribuci n Binomial y despu s crees una muestra de Bernoulli a partir de la expresi n l gica 45 X o e o o 55, donde X es la columna que contiene la muestra de la distribuci n Binomial. o e) Si seleccionamos al azar dos n meros comprendidos entre 0 y 1, calcula el valor aproximado de las probau bilidades siguientes:
I) II )

La suma de ambos sea menor que 1 (la probabilidad exacta es 0, 5). El producto de ambos sea menor que 0, 25 (la probabilidad exacta es 0, 25(1 + ln 4)

0, 5965).

2. Utilizando procedimientos similares a los explicados en la secci n 2 haz los siguientes ejercicios: o a) Representa, en una misma gr ca, distintas funciones de densidad de distribuciones chi-cuadrado de Peara son con n grados de libertad; por ejemplo, para n = 5, n = 10, n = 30 y n = 50. Los valores del eje horizontal pueden ser: 1, 2, , 120. Comprueba que cuanto m s aumenta n, m s se aproxima dicha curva a a de densidad a la del modelo Normal. b) Sea X una variable aleatoria Binomial de par metros n = 100 y p = 0 01 y sea Y una variable aleatoria a de Poisson de media = 1. Comprueba (mediante una representaci n gr ca conjunta) que las funciones o a de probabilidad de ambas variables son casi iguales. 3. Utilizando procedimientos similares a los explicados en la secci n 3 haz los siguientes ejercicios: o a) Sea X una variable aleatoria que sigue una distribuci n de Poisson de par metro 8, X P( = 8). o a Calcula:
I) II ) III ) IV ) V) VI ) VII )

P (X = 8). P (X < 6). P (X > 7). P (X 5). P (X 9). P (5 < X < 15). P (5 X 15).

b) Sea X una variable aleatoria que sigue una distribuci n Chi-cuadrado con n grados de libertad, X 2 . o n Calcula:
I) II )

Para n = 12, P (X < 4 8). Para n = 20, P (X > 4 8).

Estadstica I.T.I. Sistemas Pr ctica 3 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

III ) IV )

Para n = 4, P (3 3 < X < 9 4). Para n = 25, P (|X| > 1 5). V ) Para n = 14, P (|X| < 4 5).

c) Sea X una variable aleatoria Chi-cuadrado de Pearson con 200 grados de libertad y sea Y una variable aleatoria Normal de media 200 y desviaci n tpica 20. Comprueba (mediante una representaci n gr ca o o a conjunta) que las funciones de distribuci n de ambas variables son muy parecidas. o d) Sea X una variable aleatoria t de Student con 120 grados de libertad y sea Y una variable aleatoria Normal de media 0 y desviaci n tpica 1 008439. Comprueba (mediante una representaci n gr ca conjunta) que o o a las funciones de distribuci n de ambas variables son muy similares. o 4. Utilizando procedimientos similares a los explicados en la secci n 4 determina el valor de k que verica las o siguientes igualdades: a) b) c) d) P (X < k) = 0 9. P (X > k) = 0 05. P (|X| < k) = 0 98. P (|X| k) = 0 1.

para cada uno de tres casos siguientes: Si X es una variable aleatoria que sigue una distribuci n Normal Est ndar. o a II ) Si X es una variable aleatoria que sigue una distribuci n Chi-cuadrado de Pearson con 50 grados de libero tad. III ) Si X es una variable aleatoria que sigue una distribuci n Exponencial de media igual a 2. o
I)

UNIVERSIDAD DE MURCIA
DEPARTAMENTO DE ESTADSTICA I E INVESTIGACI ON OPERATIVA

Estadstica. I.T.I. Sistemas. Curso 2008-09 Practicas con Minitab 15 Profesora: Dra. Josefa Marn Fernandez

Pr ctica 4: Introducci n a la inferencia estadstica a o 1. Generaci n de muestras aleatorias o

Podemos generar datos de distribuciones usuales utilizando la opci n CalcRandom Data, como ya se ha visto o en anteriores pr cticas. Esta opci n permite generar una muestra aleatoria de cualquier columna de la hoja de datos a o actualmente abierta o de una de las distribuciones de probabilidad que aparecen listadas. Por ejemplo, vamos a crear una nueva hoja de datos que llevar por nombre Muestras.mtw y, a continuaci n, vamos a crear una columna, en dicha hoja a o de datos, que lleve por nombre 1000 datos de chi50 y que contenga 1000 datos aleatorios de una distribuci n chi-cuadrado o de Pearson con 50 grados de libertad (2 ). 50 Para generar una muestra aleatoria de una columna de la hoja de datos actualmente abierta utilizamos la opci n o CalcRandom DataSample from Columns. En esta opci n se supone que todos los datos de la columna tienen la misma o probabilidad de ocurrir. Podemos elegir entre el muestreo con reemplazamiento o el muestreo sin reemplazamiento. Por ejemplo, vamos a generar una muestra aleatoria de tama o 30, sin reemplazamiento, de los datos de la columna n 1000 datos de chi50. Para ello, seleccionamos la opci n CalcRandom DataSample from Columns. En Number of rows to o sample tecleamos 30; en el recuadro siguiente (From columns) seleccionamos, de la lista de variables que tenemos a la izquierda, la columna 1000 datos de chi50; en Store samples in tecleamos el nombre de la columna que contendr la a muestra solicitada, por ejemplo, submuestra de chi50 y, por ultimo, dejamos desactivada la opci n Sample with replacement. o Hay que tener en cuenta que si el muestreo es sin reemplazamiento, el tama o muestral no puede superar al n mero de n u datos de la columna de la cual procede la muestra. Para generar muestras aleatorias de modelos discretos no incluidos en la lista de distribuciones utilizamos la opci n o CalcRandom DataDiscrete, como ya hemos visto en la pr ctica anterior. Recordemos que previamente a la utilizaci n a o de esta opci n tenemos que introducir en una columna los valores que toma la variable, xi , y en otra columna los o resultados de sus probabilidades, p(xi ) = P (X = xi ). Para generar muestras aleatorias de modelos continuos no incluidos en la lista de distribuciones tenemos dos alternativas, que se explican en los dos sub-apartados siguientes.

1.1.

M todo de la transformada inversa e

Para utilizar este m todo debemos conocer la expresi n explcita de la funci n de distribuci n, F (t), de la variable e o o o aleatoria continua. El procedimiento es el siguiente:
I)

En una columna, que podemos denominar u, se genera una muestra aleatoria, del tama o deseado (n), procedente n de una distribuci n uniforme en el intervalo (0, 1); es decir, se generan n n meros aleatorios comprendidos entre o u 0 y 1: u1 , . . . , un . Estos ser n resultados aleatorios de la funci n de distribuci n de la variable aleatoria continua. a o o Se determina la expresi n explcita de la inversa de la funci n distribuci n, F 1 (u). o o o Mediante la opci n CalcCalculator, se calculan los resultados de la inversa de la funci n de distribuci n para o o o todos y cada uno de los valores de la columna u; es decir, se calculan F 1 (u1 ), . . . , F 1 (un ). A la nueva columna la podemos denominar F-1(u) y es la que contiene la muestra del modelo continuo deseado.

II ) III )

Como ejemplo, vamos a generar una muestra aleatoria de tama o 100 de la variable aleatoria continua cuya funci n n o de distribuci n es F (x) = x3 para 0 < x < 1, F (x) = 0 si x 0 y F (x) = 1 si x 1. Recordemos que la o o e o funci n inversa de F (x) = x3 es F 1 (u) = 3 u = u1/3 que, en el recuadro de la expresi n num rica de la opci n o CalcCalculator se escribe (empleando la lista de variables y la calculadora de dicho cuadro de di logo) de la siguiente a manera: u**(1/3).

1.2.

M todo del rechazo e

Para utilizar este m todo debemos conocer la expresi n explcita de la funci n de densidad, f (x), de la variable e o o aleatoria continua. El procedimiento es el siguiente: 1) Debemos disponer de un intervalo (a, b) tal que f (x) = 0 para todo x (a, b). Y debemos calcular una cota superior de f (x); es decir, un valor k que verique f (x) k para todo x (a, b). 2) En una columna, que podemos denominar x, se genera una muestra aleatoria de tama o grande (al menos del n doble del tama o nal deseado), procedente de una distribuci n uniforme en el intervalo (a, b). n o

Estadstica I.T.I. Sistemas Pr ctica 4 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

3) En otra columna, que podemos denominar y, se genera una muestra aleatoria, del mismo tama o que en el paso n anterior, procedente de una distribuci n uniforme en el intervalo (0, k). o 4) Mediante la opci n CalcCalculator, se calculan los resultados de la funci n de densidad para todos los valores o o de la columna x. A la nueva columna la podemos denominar f(x). 5) Mediante la opci n CalcCalculator, obtenemos una columna que nos indique si y < f (x). La nueva columna o (de ceros y unos) la denominaremos y<f(x). Recordemos que un uno signica que s se cumple la condici n y un o cero signica que no se cumple la condici n. o 6) Mediante la opci n DataUnstack Columns separamos los valores de la columna x para los cuales se verique la o condici n y < f (x). La columna que contenga estos valores constituir la muestra deseada. o a Este m todo presenta la desventaja de que no puede elegirse el tama o muestral resultante. e n Como ejemplo, vamos a generar una muestra aleatoria de tama o grande (no muy lejano de 100) de una variable n 6 aleatoria continua cuya funci n de densidad es f (x) = 5 (x + x2 ) si 0 < x < 1 y cero en el resto. Podemos tener en o cuenta las siguientes indicaciones: Podemos partir de un tama o muestral inicial de 250. n El valor de a es 0 y el valor de b es 1. La cota superior de la anterior funci n de densidad se alcanza en x = 1 pues dicha funci n es creciente. Por o o tanto: 6 12 6 = 2, 4 k = cota superior = f (1) = (1 + 12 ) = 2 = 5 5 5 En el recuadro Expression de la opci n CalcCalculator la funci n f (x) = 6 (x + x2 ) se escribe (empleando la o o 5 lista de variables y la calculadora de dicho cuadro de di logo) de la siguiente manera: (6/5)*(x+x**2). a La opci n DataUnstack Columns se utiliza, en este ejemplo de la siguiente forma: En Unstack the data in seleccioo namos, de la lista de variables de la izquierda, la variable x. En Using subscripts in seleccionamos la columna que contiene la procedencia de cada dato, que es y<f(x). En Store unstacked data activamos la opci n After last column o in use y dejamos activado Name the columns containing the unstaked data.

2.

Funci n de distribuci n emprica o o

La distribuci n emprica asociada a una muestra X1 , . . . , Xn de tama o n es la distribuci n de tipo discreto que o n o 1 toma dichos valores con probabilidad igual a n para cada uno de ellos. Su correspondiente funci n de distribuci n es o o un estadstico que se aproxima a la verdadera funci n de distribuci n de la que proceden los datos de la muestra y o o se llama funci n de distribuci n emprica. Para obtener la funci n de distribuci n emprica se procede de la siguiente o o o o manera:
I) II )

Se ordenan los valores de la muestra de forma creciente con la opci n DataSort, almacenando los nuevos o resultados en una columna que podemos denominar muestra ordenada. Mediante la opci n CalcMake Patterned DataSimple Set of Numbers se crea una nueva columna, que podemos o 1 2 3 o denominar F emprica, con los valores n , n , n , . . . , 1. Esta columna contiene los resultados de la funci n de distribuci n emprica. o

Para comprobar que, efectivamente, la funci n de distribuci n emprica se aproxima a la funci n de distribuci n de o o o o la que proceden los datos de la muestra, se puede hacer lo siguiente: 1) Mediante la opci n CalcProbability Distributions se calculan los resultados de la funci n de distribuci n real para o o o todos y cada uno de los valores de la columna muestra ordenada. A esta nueva columna la podemos denominar F real. 2) Se hace una representaci n gr ca conjunta de las dos funciones de distribuci n. Para ello, se selecciona la o a o opci n GraphScatterplotWith connect line. En el cuadro de di logo que aparece, junto al 1 en Y variables seo a leccionamos la columna F emprica y en X variables seleccionamos la columna muestra ordenada; junto al 2 en Y variables seleccionamos la columna F real y en X variables seleccionamos otra vez la columna muestra ordenada. Luego pulsamos Multiple graphs y en el cuadro de di logo resultante activamos la opci n Overlay on the same graph. a o Recordemos que es conveniente quitar los puntos dejando s lo la lnea de conexi n: para ello, se hace doble clic o o sobre la curva; en AttributesSymbols se marca la opci n Custom, y en Type se selecciona None (buscando hacia o arriba).

Estadstica I.T.I. Sistemas Pr ctica 4 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Como ejemplo, podemos determinar la funci n de distribuci n emprica de la muestra contenida en la columna 1000 o o datos de chi50 (1000 datos aleatorios de una distribuci n chi-cuadrado de Pearson con 50 grados de libertad), comproo bando despu s que, efectivamente, la funci n de distribuci n emprica se aproxima a la funci n de distribuci n de la e o o o o que proceden los datos de la muestra (mediante la representaci n gr ca conjunta de las dos funciones de distribuci n). o a o Para ello, seguiremos los pasos anteriores y tendremos en cuenta las siguientes indicaciones: La opci n DataSort se utiliza de la siguiente manera: En Sort column seleccionamos, de la lista de variables de o la izquierda, la variable 1000 datos de chi50. En By column volvemos a seleccionar la misma columna, 1000 datos de chi50. Dejamos desactivada la opci n Descending para que la ordenaci n se haga de menor a mayor. En Store o o sorted data in activamos Column of current worksheet y lo rellenamos con el nombre que queremos ponerle a dicha columna: muestra ordenada. Para generar una lista con los siguientes 1000 n meros: 1/1000 = 0 001, 2/1000 = 0 002, 3/1000 = 0 003, . . ., u 1, seguiremos los siguientes pasos: Seleccionamos la opci n CalcMake Patterned DataSimple Set of Numbers. En o Store patterned data in tecleamos F emprica. En From rst value tecleamos 0,001, en To last value escribimos 1 y en In steps of ponemos 0,001. Para calcular los resultados de la funci n de distribuci n real para todos y cada uno de los valores de la columna o o muestra ordenada hacemos lo siguiente: Se selecciona la opci n CalcProbability DistributionsChi-Square. En el o cuadro de di logo resultante activamos Cumulative Probability. Dejamos lo que sale por defecto en Noncentrality a parameter. En Degrees of freedom ponemos 50. En Input column seleccionamos la columna muestra ordenada y en Optional storage tecleamos el nombre de la nueva columna, F real.

3.

Aproximaci n a la distribuci n en el muestreo o o

En general, dado un estadstico T basado en una muestra X1 , . . . , Xn de alg n modelo de probabilidad, no es u sencillo encontrar la distribuci n exacta de T (distribuci n en el muestreo). Por esta raz n, conviene disponer de o o o m todos aproximados para calcularla. Para ello, se puede obtener una muestra de valores de T , T1 , . . . , Tm , generando e m muestras de tama o n del modelo elegido y calculando T para cada una de ellas. La distribuci n emprica de la n o muestra T1 , . . . , Tm es una aproximaci n de la distribuci n de T . Este procedimiento se conoce con el nombre de o o M todo de Montecarlo. Esta aproximaci n ser mejor cuanto mayor sea m. e o a Por ejemplo, vamos a aproximar la distribuci n en el muestreo del estadstico media muestral, X = X1 +X2 para el o 2 modelo normal est ndar. Antes de hacer este ejemplo, es conveniente que en la ventana de sesi n (Session) aparezcan los a o comandos que va a usar Minitab en las opciones que vamos a utilizar, para lo cual activamos la ventana de sesi n y luego o seleccionamos EditorEnable Commands. Como Minitab calcula estadsticos por las, para aproximar la distribuci n o en el muestreo del estadstico T = X1 +X2 en el modelo normal est ndar vamos a proceder de la siguiente manera: a 2 1) Mediante la opci n CalcRandom DataNormal generamos, en una columna que denominaremos X1, una muestra o aleatoria de tama o 1000 procedente de una distribuci n normal est ndar. n o a 2) Generamos, en una columna que denominaremos X2, otra muestra aleatoria de tama o 1000 procedente de una n distribuci n normal est ndar, otra vez mediante la opci n CalcRandom DataNormal. o a o 3) Mediante la opci n CalcRow Statistics calculamos la media (Mean) por las de X1 y X2; es decir, determinamos o la expresi n X1 +X2 , y guardamos los resultados en una nueva columna que denominaremos media. Esta columna o 2 contiene una muestra de tama o 1000 del estadstico media muestral, X. n 4) Con la opci n DataSort ordenamos los valores de la muestra contenida en la columna media de forma creciente, o almacenando los nuevos resultados en una columna que denominaremos media ordenada. 5) Mediante la opci n CalcMake Patterned DataSimple Set of Numbers creamos una nueva columna, que denominao remos F empirica media, con los valores 1/1000 = 0 001, 2/1000 = 0 002, 3/1000 = 0 003, . . . , 1. Esta columna contiene los resultados de la funci n de distribuci n emprica del estadstico X. o o 6) Mediante la opci n CalcProbability Distributions calculamos los resultados de la funci n de distribuci n real o o o de la media muestral X para todos y cada uno de los valores de la columna media ordenada. Recordemos que, en este caso, el estadstico media muestral, X, sigue una distribuci n normal de media 0 y desviaci n tpica o o 1 = 0, 70710678. A la nueva columna la denominaremos F media real. 2 7) Hacemos una representaci n gr ca conjunta de las dos funciones de distribuci n. o a o Podemos ver, en la ventana de sesi n, que los comandos de Minitab necesarios para hacer este proceso han sido los o siguientes:

Estadstica I.T.I. Sistemas Pr ctica 4 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

MTB > MTB > SUBC> MTB > MTB > SUBC> MTB > MTB > MTB > MTB > SUBC> MTB > MTB > DATA> DATA> MTB > MTB > SUBC> MTB > SUBC> SUBC> SUBC>

Name c12 "x1" Random 100 x1; Normal 0,0 1,0. Name c13 "x2" Random 100 x2; Normal 0,0 1,0. Name c14 "media" RMean x1 x2 media. Name c15 "media ordenada" Sort media media ordenada; By media. Name c16 "F empirica media" Set F empirica media 1( 0,01 : 1 / 0,01 )1 End. Name c17 "F media real" CDF media ordenada F media real; Normal 0,0 0,70710678. Plot F empirica media*media ordenada F media real*media ordenada; Symbol; Connect; Overlay.

3.1.

Utilizaci n de macros para la aproximaci n a la distribuci n en el muestreo o o o

Minitab contiene un lenguaje de programaci n sencillo pero potente, que permite elaborar una gran variedad de o programas hechos a la medida del usuario, como ya se indic en la primera pr ctica. Estos programas se llaman o a macros. Las instrucciones de las macros pueden contener los tpicos controladores de ujo que se usan en los lenguajes de programaci n; por ejemplo: o
IF/ELSEIF/ELSE/ENDIF permite ejecutar diferentes bloques de comandos dependiendo de una condici n l gica. o o DO/ENDDO permite repetir un bloque de comandos una serie de veces. WHILE/ENDWHILE repite un bloque de comandos mientras la expresi n l gica es cierta. o o NEXT transere el control del ujo a la condici n l gica en las sentencias DO y WHILE. o o BREAK sale forzosamente de los bucles DO y WHILE. GOTO/MLABEL permite saltar desde la lnea GOTO p hasta la lnea MLABEL p saliendo de cualquier bucle, condici n, etc. El o n mero p no puede ser una variable, debe ser un dgito. u EXIT termina la macro y devuelve el control a la ventana de sesi n de Minitab. o

Existen macros globales y macros locales. Las macros locales tienen m s posibilidades que las globales. La estruca tura de una macro local es la siguiente: MACRO [Identificador] # Comentarios [Declaracin de variables] o [Cuerpo de la macro] ENDMACRO
X1 ++Xn , n

Es obligatorio ponerlo Nombre + variables de entrada y salida Minitab no lee las lneas que empiezan por # Lneas distintas para las constantes, vectores y matrices Es obligatorio ponerlo

Veamos c mo automatizar la aproximaci n a la distribuci n en el muestreo del estadstico media muestral, T = o o o para el modelo normal est ndar, aprovechando las lneas de comandos de Minitab que aparecan en la a ventana de sesi n. Hay que tener en cuenta que antes calcul bamos 2 (n = 2) muestras de tama o m (porque era m s o a n a r pido as) pero ahora lo vamos a hacer tal y como lo hemos explicado en el M todo de Montecarlo; es decir, vamos a a e generar m muestras de tama o n del modelo normal est ndar. Los pasos ser n los siguientes: n a a 1) Activamos la ventana de sesi n y en el men Editor activamos Output Editable y desactivamos Enable Commands. o u Borramos todo el contenido de la ventana de sesi n, incluso la fecha. o 2) Tecleamos lo siguiente:
MACRO SimulaMedia m n y z # # Simula la funcin de distribucin de la media muestral de una variable normal estndar o o a # # m: constante que indica el nmero de muestras u

Estadstica I.T.I. Sistemas Pr ctica 4 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

# n: constante que indica el tama~o de las muestras n # y: columna donde se van almacenando las medias y donde luego se ordenan de menor a mayor # z: columna que almacena la funcin de distribucin emprica de la media muestral o o # MCONSTANT m n i t k # Declaracin de las constantes o MCOLUMN x y z # Declaracin de las variables (vectores) o # # i: constante que indica el nmero de iteracin u o # t: constante auxiliar que va almacenando cada componente del vector y # k: constante auxiliar que va almacenando cada componente del vector z # x: columna donde se almacenan las muestras aleatorias # DO i=1:m Random n x; Normal 0 1. Mean x t Let y(i)=t ENDDO Sort y y; By y. Let k=1/m Set z k:1/k End Plot z*y; Connect. ENDMACRO

3) Ahora tenemos que grabar el texto del macro en la carpeta C:\Archivos de programa\Minitab 15\English\Macros, pero como la versi n 15 de Minitab prohbe que se grabe una ventana de sesi n en una carpeta de archivos de Minitab o o entonces vamos a grabar el macro en el escritorio (por ejemplo) y luego lo copiaremos en la carpeta mencionada. Para ello, seleccionamos la opci n FileSave Session Windows As y grabamos en el escritorio el texto de la ventana o de sesi n y le ponemos el nombre SimulaMedia.mac. Luego copiamos dicho archivo en la carpeta C:\Archivos de o programa\Minitab 15\English\Macros. Para aproximar la distribuci n en el muestreo del estadstico X = X1 +X2 del modelo normal est ndar podeo a 2 mos hacer lo siguiente. Con la ventana de sesi n activada, en el men Editor activamos Enable Commands y tecleao u mos %SimulaMedia 100 2 c1 c2. Esto genera 100 muestras aleatorias de tama o 2 del modelo normal est ndar, guarda n a los resultados de las 100 medias muestrales (ordenadas de menor a mayor) en la columna c1; guarda los resultados de la funci n de distribuci n emprica de la media muestral en la columna c2, y representa gr camente dicha funci n o o a o de distribuci n emprica, que ser la aproximaci n a la funci n de distribuci n en el muestreo del estadstico X1 +X2 . o a o o o 2 Aumentando el valor de m (en es caso m = 100) se obtiene una mejor aproximaci n. o

4.

Ejercicios propuestos
1. Abrir el chero de datos (Worksheet) Acid.mtw que se encuentra, como ya sabemos, en el directorio C:\Archivos de programa\Minitab 15\English\Sample sData. Extraer una muestra aleatoria de tama o 10 (con reemplazamiento) n de los datos de la columna Acid1. Calcular la media y la cuasi-desviaci n tpica de dicha muestra. o 2. Mediante el m todo de la transformada inversa, generar una muestra aleatoria (de tama o 1000) del modelo cuya e n funci n de distribuci n es F (x) = x (x2 /4) si 0 < x < 2, F (x) = 0 x 0 y F (x) = 1 si x 2. La inversa o o si de la funci n F (x) = x (x2 /4) para 0 < x < 2 es F 1 (y) = 2 2 1 y para 0 < y < 1. o 3. Mediante el m todo del rechazo, generar una muestra aleatoria (de un tama o no lejano de 100) del modelo cuya e n e n funci n de densidad es f (x) = x3 /20 si 1 < x < 3 (y cero en el resto). Qu tama o muestral ha salido? o 4. Obtener una muestra aleatoria de tama o 1000 del modelo F de Snedecor con 20 grados de libertad en el n numerador y 40 grados de libertad en el denominador y comparar (mediante una representaci n gr ca conjunta) o a la funci n de distribuci n emprica con la funci n de distribuci n te rica. o o o o o 5. Aproximar (mediante la creaci n de una macro) la distribuci n en el muestreo del estadstico T = X1 +X2 X3 o o para el modelo normal est ndar. Aproximar el valor de la varianza de dicho estadstico. Comparar (mediante una a representaci n gr ca conjunta) la funci n de distribuci n emprica y la funci n de distribuci n te rica de T . o a o o o o o Recordemos que T sigue un modelo normal de media 0 y varianza 3.

UNIVERSIDAD DE MURCIA
DEPARTAMENTO DE ESTADSTICA I E INVESTIGACI ON OPERATIVA

Estadstica. I.T.I. Sistemas. Curso 2008-09 Practicas con Minitab 15 Profesora: Dra. Josefa Marn Fernandez

Observaci n denotamos el nivel de signicaci n por , en todos los contrastes de hip tesis que realicemos con Minitab, el valor en el o Si o o
que nos tenemos que jar es el nivel crtico o p-valor, ya que: Si p-valor > aceptamos la hip tesis nula, H0 . o Si p-valor < rechazamos la hip tesis nula y, por tanto, aceptamos la hip tesis alternativa, H1 . o o

Pr ctica 5: Inferencia param trica y no param trica a e e

1.

Contraste sobre una media. Intervalo de conanza para la media

El contraste de hip tesis sobre una media sirve para tomar decisiones acerca del verdadero valor poblacional de la o media de una variable aleatoria.

1.1.

Contraste sobre una media cuando la desviaci n tpica poblacional es conocida o

Esta t cnica es v lida solamente si la poblaci n es Normal o el tama o muestral, n, es grande (en la pr ctica, e a o n a n 30). Para hacer este test hay que seleccionar Stat Basic Statistics 1-Sample Z. Esta opci n tambi n nos da el intervalo o e de conanza para la media poblacional, . Para realizar los ejemplos de contrastes param tricos vamos a utilizar el chero de datos (Worksheet) Pulse.mtw, e por lo cual lo abriremos ahora. Recordemos que su contenido fue recogido en una clase de 92 alumnos. De cada estudiante se observ su pulso antes de correr, Pulse1; su pulso despu s de correr, Pulse2; si corri o no, Ran (1=S corri , o e o o 2=No corri ); si es fumador o no, Smokes (1=S fuma, 2=No fuma); el sexo, Sex (1=Hombre, 2=Mujer); su altura en o pulgadas, Height; su peso en libras, Weight; y su nivel de actividad fsica, Activity (1=Baja, 2=Media, 3=Alta). Vamos a suponer que conocemos el valor de la desviaci n tpica poblacional de la variable Pulse1 (pulso antes de o correr), = 10 pulsaciones por minuto. Comprobemos si se puede aceptar, con un nivel de signicaci n de = 0 05, o que el pulso medio poblacional antes de correr es mayor de 70. Si denota la media poblacional de la variable X=Pulso antes de correr, el contraste que tenemos que hacer es H0 : 70 frente a H1 : > 70. Como es un test sobre una media poblacional con desviaci n tpica poblacional conocida y como el tama o muestral o n es grande (n = 92), podemos utilizar la opci n Stat Basic Statistics 1-Sample Z. En Samples in columns se selecciona, o de la lista de variables de la izquierda, la columna o columnas para las cuales se va a realizar este tipo de contraste; en nuestro caso se selecciona Pulse1. Dejamos desactivada la opci n Summarized data pues aqu se pondran los resultados o del tama o muestral y de la media muestral. En Standard deviation se teclea el valor de la desviaci n tpica poblacional, n o , que es 10. Se activa Perform hypothesis test y en Hypothesized mean se especica el valor, 0 , con el que se compara la media poblacional, que es 70. Si pulsamos el bot n Options nos aparece un nuevo cuadro de di logo con las siguientes o a opciones: Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la media poblacional . Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de conanza. En nuestro caso, podemos dejar lo que aparece por defecto, es decir, 95. Alternative: Aqu se especica cu l es la hip tesis alternativa: less than signica que la hip tesis alternativa es H1 : a o o < 0 , not equal signica que la hip tesis alternativa es H1 : = 0 y greater than signica que la hip tesis o o alternativa es H1 : > 0 . Tengamos en cuenta que con la opci n less than el intervalo de conanza para la o media ser del tipo (, b), con la opci n not equal el intervalo de conanza para la media ser del tipo (a, b) y a o a con la opci n greater than el intervalo de conanza para la media ser del tipo (a, +). En nuestro caso, tenemos o a que seleccionar greater than ya que la hip tesis alternativa es H1 : > 70. o Podemos comprobar, en la ventana de sesi n, que el p-valor es 0 003, claramente menor que el nivel de signio caci n, = 0 05. En consecuencia, rechazamos la hip tesis nula y, por tanto, aceptamos la hip tesis alternativa; es o o o decir, aceptamos que la media poblacional de la variable Pulse 1 es mayor de 70 pulsaciones por minuto. El intervalo de conanza al 95 % para la media poblacional, asociado a este contraste de hip tesis, es (71 15, +). o

Estadstica I.T.I. Sistemas Pr ctica 5 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

1.2.

Contraste sobre una media cuando la desviaci n tpica poblacional es desconocida o

Igual que en el apartado anterior, esta t cnica es v lida solamente cuando la poblaci n es Normal o el tama o e a o n muestral, n, es grande (en la pr ctica, n 30). a Para realizar este contraste param trico hay que seleccionar Stat Basic Statistics 1-Sample t. La manera de utilizar e esta nueva opci n es la misma que en el apartado anterior. o Vamos a aplicar este m todo para comprobar si se puede aceptar, con un nivel de signicaci n de = 0 05, que e o el pulso medio poblacional antes de correr es igual a 71 pulsaciones por minuto. Lo que queremos comprobar es si la media poblacional de la variable Pulse1 es igual a 71 pulsaciones por minuto, suponiendo ahora desconocida la desviaci n tpica poblacional (lo cual es cierto). Si denota la media poblacional de la variable Pulse1, el contraste que o tenemos que hacer es H0 : = 71 frente a H1 : = 71. Podemos comprobar, en la ventana de sesi n, que el p-valor es 0 107, claramente mayor que el nivel de signicao ci n, = 0 05, por lo que podemos aceptar la hip tesis nula; es decir, aceptamos que la media poblacional del n mero o o u de pulsaciones por minuto antes de correr es igual a 71. El intervalo de conanza al 95 % para la media poblacional de dicha variable es (70 59, 75 15).

2.

Comparaci n de dos varianzas poblacionales o

En el apartado siguiente vamos a estudiar el problema de la comparaci n de dos medias poblacionales en el caso o en que observemos dos variables aleatorias Normales (una en cada poblaci n), suponiendo que se han extrado dos o muestras aleatorias (una de cada poblaci n) independientes. Veremos en dicho apartado que necesitamos saber si las o varianzas poblacionales (que ser n desconocidas) son iguales o distintas. Por este motivo estudiamos ahora el contraste a de comparaci n de varianzas en el caso en que desconozcamos los valores de las medias poblacionales. o Este procedimiento estadstico solamente es v lido cuando las dos poblaciones son Normales. Para comprobarlo a podemos realizar, previamente, un test no param trico de Normalidad (v ase la secci n 4). e e o Para realizar este test param trico hay que seleccionar Stat Basic Statistics 2 Variances. e Ejemplo 1. Comprobemos si se puede aceptar, con un nivel de signicaci n de = 0 05, que la varianza poblacional o del pulso de los hombres antes de correr es igual a la varianza poblacional del pulso de las mujeres antes de correr. Lo que se quiere es comparar la varianza poblacional de la variable Pulse1 para los grupos en los que la variable 2 2 2 2 Sex vale 1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : 1 = 2 frente a H1 : 1 = 2 , siendo X1 la variable Pulso de los hombres antes de correr y X2 la variable Pulso de las mujeres antes de correr. Como no hay relaci n alguna entre el grupo de hombres y el grupo de mujeres, podemos armar que las muestras o son independientes. Por tanto, nos encontramos ante un contraste de comparaci n de dos varianzas poblacionales, con o muestras independientes y medias poblacionales desconocidas. Para hacer este contraste se selecciona Stat Basic Statistics 2 Variances. Se deja activada la opci n Samples in one o column; en Samples se selecciona, de la lista de variables de la izquierda, la columna Pulse1; en Subscripts se selecciona, de la lista de la izquierda, la columna Sex; dejamos desactivada la opci n Summarized data pues aqu se pondran los o resultados de los tama os muestrales y de las varianzas muestrales. Si pulsamos el bot n Options nos aparece un nuevo n o cuadro de di logo con las siguientes opciones: a Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la diferencia de desviaciones tpicas poblacionales, 1 2 . Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de conanza. En nuestro ejemplo, podemos dejar lo que aparece por defecto, es decir, 95. Title: Aqu se puede escribir un ttulo para el resultado del contraste. En nuestro ejemplo, podemos dejarlo en blanco. Como resultado de este contraste obtenemos una nueva ventana que contiene dos gr cos y los resultados de dos a tests de hip tesis sobre comparaci n de dos varianzas (el test F de Snedecor y el test de Levene). Podemos comprobar o o que el p-valor para el test F de Snedecor es 0 299; claramente mayor que el nivel de signicaci n, = 0 05, por lo o que podemos aceptar la hip tesis nula; es decir, podemos aceptar que la varianza poblacional del pulso de los hombres o antes de correr es igual a la varianza poblacional del pulso de las mujeres antes de correr. Con el test de Levene tambi n e aceptaramos la hip tesis nula pues el p-valor es igual a 0 148. o Ejemplo 2. Comprobemos, ahora, si se puede aceptar, con un nivel de signicaci n de = 0 05, que la varianza o poblacional del pulso de los hombres despu s de correr es igual a la varianza poblacional del pulso de las mujeres e despu s de correr. Lo que se quiere es comparar la varianza poblacional de la variable Pulse2 para los grupos en los que e 2 2 2 2 la variable Sex vale 1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : 1 = 2 frente a H1 : 1 = 2 , siendo X1 la variable Pulso de los hombres despu s de correr y X2 la variable Pulso de las mujeres despu s de correr. e e

Estadstica I.T.I. Sistemas Pr ctica 5 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

Para hacer este contraste se selecciona Stat Basic Statistics 2 Variances. Se deja activada la opci n Samples in one o column; en Samples se selecciona, de la lista de variables de la izquierda, la columna Pulse2; en Subscripts se selecciona, de la lista de la izquierda, la columna Sex; y dejamos desactivada la opci n Summarized data. o Como resultado de este contraste obtenemos una nueva ventana, en la que se puede comprobar que el p-valor para el test F de Snedecor es 0 003, claramente menor que el nivel de signicaci n, = 0 05, por lo que tenemos que o rechazar la hip tesis nula y, por tanto, aceptar que la varianza poblacional del pulso de los hombres despu s de correr o e es distinta de la varianza poblacional del pulso de las mujeres despu s de correr. Con el test de Levene llegamos a la e misma conclusi n pues el p-valor es igual a 0 011. o

3.

Comparaci n de dos medias poblacionales o

En general, un contraste para decidir sobre la hip tesis nula H0 : 1 = 2 frente a la hip tesis alternativa H1 : o o 1 = 2 es bastante frecuente y constituye uno de los primeros objetivos de cualquier investigador que se inicia en estadstica. Los m todos de resoluci n del problema varan seg n las muestras sean independientes o apareadas, y e o u seg n las varianzas poblacionales sean conocidas o desconocidas. Dentro del caso en que las varianzas poblacionales u sean desconocidas, el m todo depende de si son iguales o distintas. El caso de muestras independientes y varianzas e poblacionales conocidas no se puede hacer con Minitab. Trataremos, a continuaci n, el resto de los casos. o

3.1.

Comparaci n de dos medias con muestras independientes y varianzas poblacionales o desconocidas pero iguales

Este procedimiento solamente es v lido cuando las dos poblaciones son Normales o los dos tama os muestrales a n son grandes (en la pr ctica n1 , n2 30). a Para realizar este test param trico hay que seleccionar Stat Basic Statistics 2-Sample t. e Comprobemos si se puede aceptar, con un nivel de signicaci n de = 0 05, que el pulso medio poblacional de o los hombres antes de correr es igual al pulso medio poblacional de las mujeres antes de correr. Lo que se quiere es comparar la media poblacional de la variable Pulse1 para los grupos en los que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : 1 = 2 frente a H1 : 1 = 2 , siendo X1 la variable Pulso de los hombres antes de correr y X2 la variable Pulso de las mujeres antes de correr. En el Ejemplo 1 de la secci n o 2 hemos comprobado que se puede aceptar que la varianza poblacional del pulso de los hombres antes de correr es igual a la varianza poblacional del pulso de las mujeres antes de correr. Por tanto, nos encontramos ante un contraste de comparaci n de dos medias poblacionales, con muestras independientes y varianzas poblacionales desconocidas pero o iguales. Aunque las variables aleatorias X1 y X2 no sean normales, se puede aplicar este contraste debido a que los tama os muestrales son sucientemente grandes: n1 = 57 y n2 = 35. n Para hacer este contraste se selecciona Stat Basic Statistics 2-Sample t. Se deja activada la opci n Samples in one o column; en Samples se selecciona, de la lista de variables de la izquierda, la columna Pulse1; en Subscripts se selecciona, de la lista de la izquierda, la columna Sex; dejamos desactivada la opci n Summarized data pues aqu se pondran los o resultados de los tama os muestrales y de las medias muestrales; y activamos Assume equal variances ya que hemos n comprobado que las varianzas poblacionales son desconocidas pero iguales. Si pulsamos el bot n Options nos aparece o un nuevo cuadro de di logo con las siguientes opciones: a Condence level: Por defecto se muestra un intervalo de conanza al 95 % para la diferencia de medias poblacionales, 1 2 . Se puede introducir un valor entre 1 y 99 para solicitar otro nivel de conanza. En nuestro ejemplo, podemos dejar lo que aparece por defecto, es decir, 95. Test difference: Aqu se pone el valor con el que se compara la diferencia de medias poblacionales, 0 . La hip tesis o nula H0 : 1 = 2 es equivalente a H0 : 1 2 = 0, por lo que el valor con el que se compara la diferencia de medias poblacionales, en este ejemplo, es cero; es decir, 0 = 0. En consecuencia, nosotros dejamos lo que aparece por defecto (cero). Alternative: Aqu se especica cu l es la hip tesis alternativa: less than signica que la hip tesis alternativa es H1 : a o o 1 2 < 0 , not equal signica que la hip tesis alternativa es H1 : 1 2 = 0 y greater than signica o que la hip tesis alternativa es H1 : 1 2 > 0 . Tengamos en cuenta que con la opci n less than el intervalo o o de conanza para 1 2 ser del tipo (, b), con la opci n not equal el intervalo de conanza ser del tipo a o a (a, b) y con la opci n greater than el intervalo de conanza ser del tipo (a, +). En nuestro ejemplo, tenemos o a que dejar lo que aparece por defecto, que es not equal, ya que la hip tesis alternativa es H1 : 1 = 2 , que es o equivalente a H1 : 1 2 = 0. Podemos comprobar, en la ventana de sesi n, que el p-valor es 0 006, claramente menor que el nivel de signicao ci n, = 0 05, por lo que debemos rechazar la hip tesis nula y, por tanto, aceptar la hip tesis alternativa. Aceptamos o o o que el pulso medio poblacional de los hombres antes de correr es distinto del pulso medio poblacional de las mujeres

Estadstica I.T.I. Sistemas Pr ctica 5 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

antes de correr. Como la media muestral del pulso de las mujeres (76 9) es mayor que la media muestral del pulso de los hombres (70 42) podramos, incluso, aceptar que la media poblacional del pulso de las mujeres es mayor que la media poblacional del pulso de los hombres. El intervalo de conanza al 95 % para la diferencia de medias poblacionales, 1 2 , es (10 96, 1 91).

3.2.

Comparaci n de dos medias con muestras independientes y varianzas poblacionales o desconocidas y distintas

Igual que en el apartado anterior, este procedimiento solamente es v lido cuando las dos poblaciones son Normales a o los dos tama os muestrales son grandes (en la pr ctica n1 , n2 30). n a Para realizar este test param trico hay que seleccionar, igual que antes, Stat Basic Statistics 2-Sample t. Hay que e rellenar el cuadro de di logo de manera similar al apartado anterior, con la salvedad de que, en este caso, hay que a desactivar la opci n Assume equal variances. o Comprobemos si se puede aceptar, con un nivel de signicaci n de = 0 05, que el pulso medio poblacional de los o hombres despu s de correr es igual al pulso medio poblacional de las mujeres despu s de correr. Queremos comparar e e la media poblacional de la variable Pulse2 para los grupos en los que la variable Sex vale 1 (Hombre) y 2 (Mujer). El contraste que tenemos que hacer es H0 : 1 = 2 frente a H1 : 1 = 2 , siendo X1 la variable Pulso de los hombres despu s de correr y X2 la variable Pulso de las mujeres despu s de correr. En el Ejemplo 2 de la secci n 2 hemos e e o comprobado que se puede aceptar que la varianza poblacional del pulso de los hombres despu s de correr es distinta e de la varianza poblacional del pulso de las mujeres despu s de correr. Por tanto, nos encontramos ante un contraste e de comparaci n de dos medias poblacionales, con muestras independientes y varianzas poblacionales desconocidas y o distintas. Aunque las variables aleatorias X1 y X2 no sean normales, se puede aplicar este contraste debido a que los tama os muestrales son sucientemente grandes: n1 = 57 y n2 = 35. n Para hacer el contraste se selecciona Stat Basic Statistics 2-Sample t. Se deja activada la opci n Samples in one o column; en Samples se selecciona, de la lista de variables de la izquierda, la columna Pulse2; en Subscripts se selecciona, de la lista de la izquierda, la columna Sex; dejamos desactivadas las opciones Summarized data y Assume equal variances. Si pulsamos el bot n Options nos aparece un cuadro de di logo similar al ejemplo anterior. En este cuadro de di logo o a a dejamos lo que aparece por defecto (Condence level: 95, Test difference: 0, Alternative: not equal). Podemos comprobar, en la ventana de sesi n, que el p-valor es 0 007, claramente menor que el nivel de signicao ci n, = 0 05, por lo que debemos rechazar la hip tesis nula y, por tanto, aceptar la hip tesis alternativa. Aceptamos o o o que el pulso medio poblacional de los hombres despu s de correr es distinto del pulso medio poblacional de las mujeres e despu s de correr. Como la media muestral del pulso de las mujeres despu s de correr (86 7) es mayor que la media e e muestral del pulso de los hombres despu s de correr (75 9) podramos, incluso, aceptar que la media poblacional del e pulso de las mujeres despu s de correr es mayor que la media poblacional del pulso de los hombres despu s de correr. e e El intervalo de conanza al 95 % para la diferencia de medias poblacionales, 1 2 , es (18 65, 3 02).

3.3.

Comparaci n de dos medias con muestras relacionadas (apareadas o asociadas) o

Este procedimiento solamente es v lido cuando la variable aleatoria diferencia, D = X1 X2 , es Normal o el a tama o muestral com n, n, es grande (en la pr ctica, n 30). n u a Para realizar este test param trico hay que seleccionar Stat Basic Statistics Paired t. e Comprobemos si se puede aceptar, con un nivel de signicaci n de = 0 05, que el pulso medio poblacional antes o de correr es igual al pulso medio poblacional despu s de correr. Lo que se quiere es comparar la media poblacional de e la variable Pulse1 con la media poblacional de la variable Pulse2. El contraste que tenemos que hacer es H0 : 1 = 2 frente a H1 : 1 = 2 , siendo X1 la variable Pulso antes de correr y X2 la variable Pulso despu s de correr. Como las e dos variables est n observadas en los mismos individuos, podemos armar que las muestras est n relacionadas; es decir, a a son apareadas o asociadas. Por tanto, nos encontramos ante un contraste de comparaci n de dos medias poblacionales o con muestras apareadas. Aunque las variables aleatorias X1 y X2 no sean normales, se puede aplicar este contraste debido a que los tama os muestrales son sucientemente grandes: n1 = n2 = n = 92. n Para hacer este contraste se selecciona Stat Basic Statistics Paired t. Se deja activada la opci n Samples in columns; o en First sample se selecciona, de la lista de variables de la izquierda, la columna Pulse1; en Second sample se selecciona, de la lista de variables de la izquierda, la columna Pulse2; y dejamos desactivada la opci n Summarized data (differences) o pues aqu se pondran los resultados del tama o muestral y de la media muestral de las diferencias. Si pulsamos el n bot n Options nos aparece un cuadro de di logo similar al de la opci n anterior (2-Sample tOptions). En este cuadro de o a o di logo dejamos lo que aparece por defecto (Condence level: 95, Test difference: 0, Alternative: not equal). a Podemos comprobar, en la ventana de sesi n, que el p-valor es igual a 0 000, claramente menor que el nivel de o signicaci n, = 0 05, por lo que debemos rechazar la hip tesis nula y, por tanto, aceptar la hip tesis alternativa. o o o Aceptamos, por tanto, que el pulso medio poblacional antes de correr es distinto del pulso medio poblacional despu s e de correr. Como la media muestral del pulso despu s de correr (80 00) es mayor que la media muestral del pulso e

Estadstica I.T.I. Sistemas Pr ctica 5 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

antes de correr (72 87) podramos, incluso, aceptar que la media poblacional del pulso despu s de correr es mayor e que la media poblacional del pulso antes de correr. El intervalo de conanza al 95 % para la diferencia de medias poblacionales, en este caso, es (9 92, 4 34).

4.

Contrastes no param tricos de bondad de ajuste e

Los contrastes de hip tesis presentados en las secciones anteriores coinciden en dos caractersticas: permiten cono trastar hip tesis referidas a alg n par metro y requieren del cumplimiento de determinadas condiciones sobre las poo u a blaciones originales de las que se extraen los datos (generalmente normalidad). Estas dos caractersticas combinadas permiten agrupar a este tipo de contrastes en una gran familia de t cnicas denominadas contrastes param tricos. Pero e e en muchas ocasiones no se cumplen las condiciones necesarias para poder hacer un contraste param trico, por lo que e se tienen que aplicar otras t cnicas que llamaremos contrastes no param tricos. e e En los contrastes no param tricos de bondad de ajuste se trata de determinar, a trav s de una muestra, si una variable e e aleatoria se ajusta bien a una cierta distribuci n dada de antemano (Normal, Exponencial, Weibull, etc.). o

4.1.

Gr cos probabilsticos a

Este m todo de bondad de ajuste se basa en el hecho de que si una muestra, X1 , . . . , Xn , proviene de un modelo e con funci n de distribuci n F , entonces F (X1 ), . . . , F (Xn ) es una muestra del modelo Uniforme en el intervalo o o (0, 1), por lo que, una vez ordenada, los valores esperados de dicha muestra ser n: 1/n, 2/n, , 1. De esta forma, a si representamos gr camente los F (Xi ) ordenados frente a los i/n, el gr co debe ser aproximadamente una lnea a a recta. En algunos casos esta linealidad se mantiene aunque se estimen los par metros desconocidos de F . Es decir, el a ajuste ser bueno si la gr ca es aproximadamente una recta. Este tipo de t cnicas dan s lo una aproximaci n gr ca, a a e o o a aunque, en algunos casos, van acompa ados de alg n contraste de bondad de ajuste. Si es as, aceptaremos la hip tesis n u o nula de ajuste a la distribuci n te rica si el p-valor es mayor que el nivel de signicaci n (que usualmente es = 0 05). o o o Para realizar los gr cos probabilsticos se selecciona GraphProbability Plot. a Vamos a utilizar este m todo para comprobar si las variables aleatorias Pulse1 (pulso antes de correr) y Pulse2 (pulso e despu s de correr) pueden considerarse Normales (cuando est n observadas en toda la poblaci n). Para ello, selece a o cionamos GraphProbability PlotSingle. En Graph variables seleccionamos, de la lista de variables de la izquierda, las columnas Pulse1 y Pulse2; pulsamos en Distribution y, en el cuadro de di logo resultante, dejamos lo que est por defeca a to (Normal) y no rellenamos la opci n Historical Parameters ya que no sabemos los resultados de las estimaciones de la o media y de la desviaci n tpica poblacionales. Nos aparecen dos gr cos, uno para cada una de las variables seleccioo a nadas. Adem s, vemos que aparecen, en la parte superior derecha de las representaciones gr cas, los resultados de un a a contraste de normalidad; concretamente, el test de Anderson-Darling. Podemos ver que el gr co probabilstico de la variable Pulse1 no se aproxima mucho a una recta. Adem s, el pa a valor del test de normalidad es igual a 0 013. Si consideramos un nivel de signicaci n de = 0 01 entonces el p-valor o es levemente mayor que , por lo que podramos aceptar la hip tesis nula de que la variable Pulse1 es Normal. Pero si o consideramos un nivel de signicaci n de = 0 05 (que es lo usual) entonces el p-valor es menor que , por lo que no o podemos aceptar la hip tesis nula de que la variable Pulse1 es Normal. o Por otra parte, podemos observar que el gr co probabilstico de la variable Pulse2 tampoco se aproxima mucho a a una recta. Adem s, el p-valor del test de normalidad es, en este caso, menor que 0 005. Ahora, tanto si consideramos un a nivel de signicaci n de = 0 01 como si consideramos un nivel de signicaci n de = 0 05 resulta que el p-valor es o o menor que , por lo que no podemos aceptar la hip tesis nula de que la variable Pulse2 es Normal. Se puede comprobar o que si hacemos el mismo procedimiento para comprobar si Pulse1 sigue un modelo Lognormal, el gr co resultante se a aproxima a una recta y adem s, el p-valor es 0 159, claramente mayor que los habituales niveles de signicaci n (0 05 a o o 0 01), por lo que podramos aceptar que Pulse1 sigue un modelo Lognormal.

4.2.

Contraste de normalidad

Si queremos ajustar a un modelo Normal, en Minitab podemos usar la opci n StatBasic StatisticsNormality Test. o Vamos a utilizar esta opci n para comprobar si se puede aceptar que la variable Height (altura, en pulgadas) puede o considerarse Normal. Para ello usamos StatBasic StatisticsNormality Test; en Variable seleccionamos, de la lista de variables de la izquierda, la columna Height; en Percentile Lines dejamos lo que est activado por defecto, que es None; a en Tests for Normality podemos activar uno de los siguientes tres tests: Anderson-Darling, Ryan-Joiner o Kolmogorov Smirnov. Por ejemplo, vamos a activar el ultimo test, Kolmogorov-Smirnov. El recuadro Title vamos a dejarlo en blanco. El resultado es un gr co probabilstico en el cual tambi n est indicado el p-valor, que es igual a 0 086. Este p-valor a e a es mayor que los habituales niveles de signicaci n (0 05 o 0 01), por lo que podramos aceptar que la variable Height o sigue un modelo Normal.

Estadstica I.T.I. Sistemas Pr ctica 5 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

5.

Contraste chi-cuadrado sobre independencia de dos variables

Hasta ahora se ha considerado una unica variable cuyas observaciones en una poblaci n daban lugar a ciertas o hip tesis convenientes de contrastar mediante un test. Sin embargo, es frecuente el problema de estudiar conjuntamente o dos variables en los mismos individuos y preguntarse si existe o no alg n tipo de relaci n entre ellas, es decir, si los u o valores que tome una de ellas van a condicionar de alg n modo los valores de la otra. El m todo estadstico para u e responder a tal pregunta vara con el tipo de variables implicadas. Cuando ambas son cualitativas, la t cnica oportuna es e el test chi-cuadrado de Pearson; aunque este m todo tambi n se puede emplear cuando las variables son cuantitativas. e e En Minitab hay dos formas de aplicar este contraste, seg n tengamos recogidos los datos: u

5.1.

Datos en una tabla de doble entrada

Si, en la hoja de datos (Worksheet), los datos est n recogidos en una tabla de doble entrada, se utiliza la opci n a o
StatTablesChi-Square Test (Two-Way Table in Worksheet).

Vamos a hacer el siguiente ejemplo: Se desea averiguar si existe asociaci n entre el sexo y el uso de la biblioteca. o A tal efecto, se tom una muestra aleatoria de 30 mujeres y 30 hombres y se les clasic como en la tabla siguiente: o o hombres mujeres usuarios 6 14 no usuarios 24 16

Para realizar este contraste con Minitab, en primer lugar tenemos que introducir la tabla de doble entrada anterior en una nueva hoja de datos (Worksheet) que podemos denominar Contrastes.mtw. Los datos tienen que ser introducidos tal como se muestra a continuaci n: o

Ahora seleccionamos StatTablesChi-Square Test (Two-Way Table in Worksheet); en Columns containing the table elegimos, de la lista de variables de la izquierda, las columnas C1 y C2; es decir, SI y NO, y pulsamos en OK. En la ventana de sesi n podemos ver el resultado del p-valor, que es 0 028. Si consideramos un nivel de signicaci n de = 0 01 o o entonces el p-valor es mayor que , por lo que podramos aceptar la hip tesis nula de independencia. Pero si consi o deramos un nivel de signicaci n de = 0 05 (que es lo usual) entonces el p-valor es menor que , por lo que no o podramos aceptar la hip tesis nula de independencia, aceptando entonces que existe relaci n entre el sexo y el uso de o o la biblioteca.

5.2.

Datos en dos (o tres) columnas

Si en la hoja de datos estos se encuentran recogidos en dos (o tres) columnas, se utiliza StatTablesCross Tabulation and Chi-Square.

Ejemplo 1. Vamos a hacer el mismo ejemplo que en el subapartado anterior, pero con la opci n StatTablesCross o Tabulation and Chi-Square. Para ello, en primer lugar tenemos que introducir los datos (en la Worksheet Contrastes.mtw) tal como se muestra a continuaci n: o

Como se puede observar, hemos creado tres nuevas columnas que contienen todas las combinaciones posibles de resultados de las dos variables y sus frecuencias conjuntas: la columna sexo tiene por resultados H (hombre) y M (mujer); la columna usuario tiene por resultados SI (la persona s es usuaria de la biblioteca) y NO (la persona no es usuaria de la biblioteca); la columna frecuencia contiene las frecuencias conjuntas de todas y cada una de las combinaciones posibles de los resultados de las dos variables mencionadas. Ahora seleccionamos StatTablesCross Tabulation and Chi-Square. En Categorical variables se tienen que especicar las variables para las cuales vamos a hacer el test de independencia; en nuestro ejemplo, en For rows tenemos que seleccionar, de la lista de variables de la izquierda, la columna sexo; en For columns tenemos que seleccionar, de la lista

Estadstica I.T.I. Sistemas Pr ctica 5 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

de variables de la izquierda, la columna usuario. El recuadro For layers (capas) lo dejamos en blanco. En Frequencies are in tenemos que seleccionar, de la lista de variables de la izquierda, la columna frecuencia. Pulsamos el bot n Chi-Square o y, en el cuadro de di logo resultante, dejamos activada la opci n Chi-Square Analysis y pulsamos OK. Dejamos lo que a o aparece por defecto en el cuadro de di logo inicial y pulsamos en OK. En la ventana de sesi n podemos comprobar a o que los resultados del contraste de hip tesis son los mismos que antes (p-valor=0 028) y, por tanto, las conclusiones, o obviamente, son las mismas. Ejemplo 2. Para utilizar la opci n StatTablesCross Tabulation and Chi-Square no es necesario que tengamos una o columna con las frecuencias de cada combinaci n de resultados de dos variables; tambi n se puede utilizar dicha o e opci n si solamente tenemos dos columnas que contienen los resultados de una variable bidimensional, (xi , yi ), pero o es necesario que las dos variables sean de tipo discreto, con pocos resultados distintos; de lo contrario no se puede aplicar este contraste. Para hacer un ejemplo de este caso, vamos a activar la hoja de datos Pulse.mtw. Vamos a comprobar si existe dependencia entre las variables Smokes (la persona es fumadora o no) y Sex (sexo). La hip tesis nula es H0 : no existe o relaci n entre el sexo y ser fumador o no. Como vemos, en la Worksheet los datos est n recogidos en dos columnas o a (no en tres). Para realizar este contraste seleccionamos StatTablesCross Tabulation and Chi-Square; en For rows seleccionamos la columna Smokes; en For columns seleccionamos la columna Sex; no escribimos nada en For layers (capas) y tampoco escribimos nada en Frequencies are in. Pulsamos el bot n Chi-Square y, en el cuadro de di logo resultante, o a activamos Chi-Square Analysis y Expected cell counts, y pulsamos OK. Finalmente, volvemos a pulsar OK en el cuadro de di logo inicial. En la ventana de sesi n nos aparece lo siguiente: a o

Como podemos observar, aparecen las frecuencias observadas y las frecuencias esperadas bajo la hip tesis nula. o Podemos comprobar que estas ultimas frecuencias son todas mayores o iguales que 5, por lo cual se puede aplicar esta t cnica (el test chi-cuadrado de independencia). Recordemos que este contraste solamente puede aplicarse si todas las e frecuencias esperadas bajo la hip tesis nula son mayores o iguales que 1 y, adem s, todas las frecuencias esperadas bajo o a la hip tesis nula son mayores o iguales que 5, salvo para un 20 % como m ximo. Si no ocurriera esto, Minitab nos lo o a especicara en la ventana de sesi n, y por tanto el test quedara invalidado. Como podemos ver, tenemos el resultado o del estadstico 2 y el resultado del p-valor, que es 0 216, claramente mayor que los habituales niveles de signicaci n o (0 05 o 0 01), por lo que podemos aceptar la hip tesis nula de independencia de las dos variables aleatorias; es decir, o podemos aceptar que no existe relaci n entre el sexo y ser fumador o no. o

6.

Contraste chi-cuadrado sobre homogeneidad de dos poblaciones

En dos poblaciones distintas observamos una misma variable aleatoria, y extraemos una muestra aleatoria simple de cada poblaci n para comprobar si un determinado par metro poblacional (, 2 , . . .) toma id ntico valor en ambas o a e poblaciones. Pero como no se cumplen las condiciones necesarias para aplicar un contraste de hip tesis param trico o e con dos muestras, entonces vamos a realizar un contraste de hip tesis no param trico. Sin embargo, ocurre que la o e hip tesis nula no se puede enunciar como la igualdad de los dos par metros poblacionales, sino que ahora debemos o a comprobar si la variable aleatoria tiene la misma distribuci n en las dos poblaciones. Esta hip tesis se resume diciendo o o que las dos poblaciones son homog neas. e El contraste chi-cuadrado de homogeneidad es el mismo que el test chi-cuadrado de independencia de variables explicado en el apartado anterior, aunque la hip tesis nula no sea la misma. o Para realizar este tipo de contraste en Minitab se utilizan las mismas dos opciones explicadas en el apartado anterior; es decir, si los datos est n recogidos en una tabla de doble entrada, se utiliza StatTablesChi-Square Test (Two-Way Table a

Estadstica I.T.I. Sistemas Pr ctica 5 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

in Worksheet), y si los datos se encuentran recogidos en dos (o tres) columnas, se utiliza StatTablesCross Tabulation and Chi-Square.

Vamos a hacer el siguiente ejemplo: Se selecciona una muestra aleatoria simple de estudiantes de inform tica de a universidades privadas y otra de universidades p blicas, y se les somete a una prueba de rendimiento, calicada de u 0 a 500. Los resultados son los expuestos en la tabla siguiente. Deseamos saber si la distribuci n en la prueba de o rendimiento es la misma para universidades privadas que para universidades p blicas. u privadas p blicas u [0,275] 6 30 [276,350] 14 32 [351,425] 17 17 [426,500] 9 3

El objetivo es contrastar la hip tesis H0 : la distribuci n de los resultados de la prueba es la misma en las universidades o o p blicas que en las privadas, frente a la hip tesis H1 : la distribuci n no es la misma. u o o Para realizar este contraste de homogeneidad con Minitab, en primer lugar tenemos que introducir la tabla de doble entrada anterior (en la hoja de datos Contrastes.mtw). Los datos tienen que ser introducidos tal como se muestra a continuaci n: o

Ahora seleccionamos StatTablesChi-Square Test (Two-Way Table in Worksheet); en Columns containing the table elegimos, de la lista de variables de la izquierda, las columnas privadas y publicas; y pulsamos en OK. En la ventana de sesi n o podemos ver lo siguiente:

Recordemos, otra vez, que este contraste solamente puede aplicarse si todas las frecuencias esperadas bajo la hip tesis nula son mayores o iguales que 1 y, adem s, todas las frecuencias esperadas bajo la hip tesis nula son mayores o a o o iguales que 5, salvo para un 20 % como m ximo. El 20 % de las casillas sera el 20 % de 8, que es 1 6. Como a solamente una de las frecuencias esperadas es menor que 5, podemos aplicar esta t cnica. El resultado del p-valor es e 0 001, claramente menor que los habituales niveles de signicaci n (0 05 o 0 01) por lo que rechazamos la hip tesis o o nula y, en consecuencia, aceptamos que la distribuci n de los resultados de la prueba no es la misma en las universidades o p blicas que en las privadas. u

7.

Ejercicios propuestos
1. En una muestra aleatoria simple de 15 individuos que consultan bases de datos, el tiempo (en minutos) que est n a utilizando el ordenador para realizar esta tarea es: 22 13 17 14 15 18 19 14 17 20 21 13 15 18 17 Comprobar, mediante el contraste de Kolmogorov-Smirnov, si la variable aleatoria X=Tiempo empleado en consultar bases de datos por ordenador es Normal. Si es posible, responder a la siguiente pregunta: se puede aceptar que la media poblacional del tiempo empleado en consultar bases de datos por ordenador es mayor que 15 minutos?

Estadstica I.T.I. Sistemas Pr ctica 5 con Minitab 15 Prof.: Josefa Marn Fern ndez a a

2. Los siguientes datos corresponden a las edades de una muestra de 10 personas que visitan un centro de c lculo. a 19 24 83 30 17 23 33 19 68 56

Mediante la realizaci n de un gr co probabilstico, comprobar si la variable aleatoria X=Edad de las personas o a que visitan el centro de c lculo es Normal. Si es posible, responder a la siguiente pregunta: se puede aceptar a que la media poblacional de la edad de las personas que visitan el centro de c lculo es menor que 40 a os? a n 3. En la siguiente tabla aparece el n mero de pr stamos diarios realizados por dos bibliotecas durante 20 das u e elegidos al azar. Biblioteca A Biblioteca B 65 57 74 63 47 38 81 70 71 68 52 46 74 63 81 75 48 39 68 57

Se puede aceptar, con un nivel de signicaci n de 005, que la varianza poblacional del n mero de pr stao u e mos diarios realizados por la biblioteca A es igual a la varianza poblacional del n mero de pr stamos diarios u e realizados por la biblioteca B? Se puede aceptar, con un nivel de signicaci n de 005, que el n mero meo u dio poblacional de pr stamos diarios realizados por la biblioteca A es igual al n mero medio poblacional de e u pr stamos diarios realizados por la biblioteca B? e 4. Se les pregunt a 30 matrimonios, elegidos al azar, el n mero de veces que haban ido a alguna biblioteca en los o u tres ultimos meses, siendo los resultados los siguientes: Hombre 12 30 10 20 15 14 11 9 7 5 Mujer 8 11 12 16 10 9 12 10 7 4 Hombre 8 14 20 13 11 7 6 8 15 42 Mujer 10 15 12 19 6 7 7 6 20 35 Hombre 25 12 8 23 14 8 12 27 32 14 Mujer 14 16 10 20 17 10 23 10 27 18

Podemos armar que hay diferencia signicativa entre los hombres y las mujeres de los matrimonios en cuanto al n mero medio de veces que van a la biblioteca? u 5. Se desea saber la opini n del profesorado en relaci n con un proyecto por el cual todos los libros comprados o o por los departamentos se llevaran a una biblioteca general universitaria ubicada en un edicio independiente de las facultades. Para ello, se selecciona una muestra aleatoria de 370 profesores de distintos rangos acad micos e (A.E.U.= Ayudante de Escuela Universitaria, A.F.= Ayudante de Facultad, T.E.U.=Titular de Escuela Universitaria, T.U.= Titular de Universidad, C.U.= Catedr tico de Universidad). Los resultados se reejan en la siguiente a tabla: en contra indiferente a favor A.E.U. 30 15 10 A.F. 55 20 25 T.E.U. 95 17 38 T.U. 14 8 8 C.U. 12 10 13

Determinar si existe relaci n entre el rango acad mico y la opini n de los profesores respecto del proyecto o e o mencionado. 6. Los siguientes datos corresponden al n mero de libros cientcos y de cci n prestados a adultos residentes en u o dos areas de una determinada ciudad: area A area B cientcos 870 304 de cci n o 745 251

Hay diferencia signicativa entre las dos areas respecto del tipo de libro demandado?

You might also like