You are on page 1of 10

UN ACERCAMIENTO AL PAQUETE ESTADSTICO R

CARLOS ALBERTO RAMOS SOLER


JOVEN INVESTIGADOR - UPTC
GRUPO DE INVESTIGACIN EN ESTADSTICA - GIE
LICENCIADO EN MATEMTICAS Y ESTADSTICA
Cabetors81@yahoo.es
SANDRA PATRICIA CRDENAS OJEDA
TUTORA PROYECTO DE INVESTIGACIN
RESUMEN

En este texto se describe la forma de descargar el paquete estadstico R desde la Web, el uso de
algunos comandos, este texto esta dirigido a estudiantes de la Licenciatura en Matemticas y
Estadstica y a la comunidad en general que necesite de un programa estadstico para resumir,
inferir, estimar y presentar resultados de sus investigaciones. Se origina para tratar de dar
solucin a dificultades relacionadas con el alto costo en la adquisicin de software ya que este
programa es de distribucin libre.

INTRODUCCIN

R es un sistema para anlisis estadsticos y grficos creado por Ross Dhaka y Robert Gentleman.
R tiene una naturaleza doble de programa y lenguaje de programacin y es considerado como un
dialecto del lenguaje S creado por los laboratorios AT&T Bell. R se distribuye gratuitamente
bajo los trminos de la GNU General Public Licence, su desarrollo y distribucin son llevados a
cabo por varios estadsticos conocidos como el Grupo Nuclear de desarrollo de R.

R es un conjunto integrado de programas para la manipulacin de datos, clculo y grficos,


dispone entre otras de las siguientes caractersticas: Almacenamiento y manipulacin efectiva de
datos, operadores para clculo sobre variables indexadas (Arrays), en particular matrices, una
amplia, coherente e integrada coleccin de herramientas para anlisis de datos, posibilidades
grficas para anlisis de datos, que funcionan directamente sobre pantalla o impresora y un
lenguaje de programacin bien desarrollado, simple y efectivo, que incluye condicionales, ciclos,
funciones recursivas y posibilidad de entradas y salidas. (Debe destacarse que muchas de las
funciones suministradas con el sistema estn escritas en el lenguaje R). R es en gran parte un
vehculo para el desarrollo de nuevos mtodos de anlisis interactivo de datos. Como tal es muy
dinmico y las diferentes versiones no siempre son totalmente compatibles con las anteriores. La
ultima versin liberada en la Web es la R- 2.7.1 lanzada el 23 de Junio de 2008 y se encuentra
disponible en la pgina (http://www.cran.r-project.org).

DESCARGA DEL PROGRAMA

La descarga del paquete R se puede realizar desde la pgina (http://www.cran.r-project.org).


Haciendo clic en Windows de la regin denominada Download and Install R.
Desde all se puede seguir la siguiente ruta, al hacer clic en Windows aparece un pantalla titulada
R for Windows, en la cual se selecciona base. Aparece en seguida una pantalla con el nombre
de la ltima versin disponible para descargar, en este caso R-2.7.1 for Windows, el instalador
se puede descargar al pulsar donde aparece R-2.7.1-win32.exe Setup program.

Junto con R se incluyen algunas bibliotecas (llamadas bibliotecas estndar) las cuales son
instaladas automticamente con el programa, pero hay rutinas que requieren de bibliotecas
adicionales, estas estn disponibles a travs de Internet, la descarga de estas bibliotecas se puede
realizar desde el sitio Web (http://www.cran.r-project.org/)como se muestra a continuacin:

En la parte inferior de esta pgina se pueden encontrar bibliotecas avanzadas y segn la necesidad
del interesado, aparece un listado con el nombre de cada uno de los paquetes y un pequea
descripcin de su funcin (en ingls), la descarga se realiza al hacer clic en el nombre de la
biblioteca y luego seleccionando los archivos para Windows.
Los archivos que se descargan son zip y se pueden instalar abriendo una sesin en R, haciendo
click en la barra de herramientas en el icono Paquetes, al hacer click en este icono de despliega
un cuadro de dilogo del cual se selecciona la opcin
Instalar;paquetes(s);a;partir;de;archivos;zip;locales, en la cual se debe especificar la ruta de
acceso al archivo que se desee instalar.

Para cargar un paquete que no este dentro de las bibliotecas estndar de R se hace click en la
barra de herramientas en el icono Paquetes, de la cual se selecciona cargar paquete, est
muestra los paquetes disponibles en el momento, de all se debe seleccionar el que sea necesario.

UTILIZACIN DE R
Cuando R espera la entrada de ordenes, presenta un smbolo para indicarlo. El smbolo
predeterminado es >

Ayuda sobre funciones y capacidades: R contiene una ayuda, para obtener informacin sobre
una funcin concreta, para acceder a esta ayuda escriba help(funcin), funcin se refiere a lo
que se desea averiguar.

Ordenes de R Maysculas y Minsculas: R es un lenguaje de expresiones con una sintaxis muy


simple, distingue entre maysculas y minsculas, de tal modo que A y a son smbolos distintos y
se refieren por tanto a objetos distintos. Las ordenes elementales consisten en expresiones o en
asignaciones.

Comando help(): Permite obtener ayuda sobre funciones especficas, se necesita tener el nombre
de la funcin sobre la cual se desea obtener informacin, para la utilizacin de esta ayuda
procedemos as: help(comando)

Uso de R como calculadora: El programa R utiliza un lenguaje similar al de una calculadora, por
pantalla se puede digitar la operacin que se requiere, as es que se puede realizar desde una
simple suma hasta calcular un logaritmo determinado, en la siguiente tabla se muestran algunas
operaciones con su respectiva instruccin:

Suma, resta,
Raz
Operacin multiplicacin Potenciacin cuadrada
Logaritmo Seno Coseno Tangente
y divisin

Comando +, - ,*, / ^ sqrt() Log(x,base) Sin() Cos() Tan()

Asignacin: Consiste en dar un nombre a un valor o a una determinada funcin, de tal manera
que esta pueda ser utilizada ms adelante en otras operaciones o con otras funciones ms
complicadas. La estructura para realizar la asignacin es la siguiente:
> nombre = valor funcin

Comando c( ): R utiliza diferentes estructuras de datos. La estructura ms simple es el vector,


que es una coleccin ordenada de nmeros. Para crear un vector columna de cualquier
dimensin, coloque los nmeros dentro de los parntesis del comando separados por comas, as:
> Y = c(1,2,3,4,5)
A continuacin se presentan algunos otros comandos que suelen ser muy prcticos, se presenta el
comando y una breve descripcin del mismo, se asume que x representa un vector numrico:

Comando Descripcin
sum(x) Suma de los elementos del vector
prod(x) Multiplica los elementos del vector
max(x) Valor mximo del vector
min(x) Valor mnimo del vector
range(x) Rango del vector
length(x) Nmero de elementos del vector
sort(x) Ordena de menor a mayor los elementos del vector
rev(sort(x)) Ordena de mayor a menor los elementos del vector
round(x,n) Redondea los elementos del vector a n cifras decimales
cumsum(x) Devuelve un vector donde cada elemento es la suma de los elementos
anteriores a l

Matrices: En R una matriz es realmente un vector con un atributo adicional dimensin (dim) el
cual a su vez es un vector numrico de longitud 2, que define el nmero de filas y columnas de la
matriz, adems, el tamao del vector debe ser igual al producto del nmero de filas por el nmero
de columnas. Una matriz se puede crear con la funcin matrix, teniendo los datos dentro de un
vector as:

Donde:
X es el vector que contiene los elementos de la matriz
2 se refiere al nmero de filas
3 se refiere al nmero de columnas

Por defecto R ordena los elementos del vector de datos en trminos de vectores columna, si se
desea realizar el ordenamiento del vector de datos por fila se incorpora dentro del comando
anterior la instruccin byrow=T.

En R existe otra forma para la creacin de una matriz, la creacin de dicha matriz es posible si se
tiene un conjunto de vectores y luego con el comando cbind() se encadenan los vectores en un
arreglo rectangular, en donde, cada columna representa un vector. Si el deseo es que los vectores
representen una fila de la matriz entonces se utiliza el comando rbind(). A continuacin se
muestra un ejemplo de la construccin de la matriz con estos comandos:
Matriz Identidad: Es aquella cuyos elementos en su diagonal principal son unos y los dems
elementos son ceros. Para la creacin de esta matriz en R se utiliza el comando diag(n); donde n
indica el orden de la matriz. Tambin al trabajar con la funcin diag(). Si su argumento es una
matriz, diag(matriz), devuelve un vector formado por los elementos de la diagonal de la misma.
Si por el contrario, su argumento es un vector (de longitud mayor que uno), diag(vector), lo
transforma en una matriz diagonal cuyos elementos en la diagonal principal son los elementos del
vector. Por ultimo, si necesitamos una matriz diagonal pero que sus elementos no sean unos sino
otro nmero cualesquiera, entonces dentro del comando agregamos inicialmente el nmero que
queramos que aparezca en la diagonal principal.

Matriz diagonal de orden 5, con el nmero 4 en


su diagonal principal

Operaciones Aritmticas con matrices: Las matrices pueden utilizarse en expresiones aritmticas
y el resultado es una matriz formada a partir de las operaciones elemento a elemento de las
matrices involucradas. Las dimensiones de los operandos deben ser iguales en general y
coincidirn con la dimensin de la matriz resultado. As tenemos que si A y B son matrices:
A + B Realiza la suma elemento a elemento de las matrices A y B
A B Realiza la resta elemento a elemento de las matrices A y B
A * B Realiza el producto elemento a elemento de las matrices A y B
A / B Realiza la divisin elemento a elemento de las matrices A y B

A continuacin se presentan algunos otros comandos que suelen ser utilizados al trabajar con
matrices:
Comando Descripcin
Multiplicacin de matrices: Ntese que para que el producto este definido,
%* % el nmero de columnas de la primera matriz debe ser igual al nmero de
filas de la segunda matriz. Ejemplo A %* % B.
Traspuesta de una matriz: La traspuesta de una matriz se forma al escribir
t (A) sus columnas como filas. Por ejemplo si A es la matriz de orden mxn,
entonces la traspuesta es la matriz de orden nxm
Inversa de una matriz: Una matriz A nxn es invertible (o no singular) si
solve ( A ) hay una matriz B nxn tal que AB=BA=In, donde In es la matriz identidad
de orden n. La matriz B se denomina inversa multiplicativa de A.
Determinante: Toda matriz cuadrada puede asociarse con un nmero real
det ( A )
denominado su determinante.
Valores y vectores propios: En R el comando que permite calcular los
valores y vectores propios de una matriz es eigen(matriz), si se desea que
solo aparezcan los valores propios dentro del comando anterior luego de la
eigen( A ) matriz se le da la instruccin only.values=TRUE}. R por defecto arroja
con los comandos anteriores los vectores normalizados, si se desea se puede
pedir que estos vectores estn sin normalizar incluyendo dentro del
comando la instruccin EISPACK=TRUE
Comando apply(): Este comando permite aplicar una funcin especfica a las filas o columnas de
una matriz, esta seleccin se puede realizar en el comando, mediante la dimensin (1 = fila, 2 =
columna), ejemplo:

En el ejemplo se muestra que en la


matriz B se realiz la suma de cada
una de sus columnas

Funciones grficas bsicas para el anlisis exploratorio de datos:


Los mtodos grficos proporcionan al investigador un conjunto de formas sencillas tanto para
examinar las variables de manera individualmente, as como las relaciones entre las mismas, los
mtodos grficos se distinguen segn la cantidad de variables que se analizan, a continuacin se
presentan algunos grficos adecuados para el anlisis exploratorio de datos y su correspondiente
algoritmo para ser trabajado en R:

Comando Descripcin del grfico

Diagrama de sectores: Utilizados para variables de tipo


cualitativas, (tambin llamados circular o pastel). Se divide un
Pie(x,labels=N) crculo en tantas porciones como clases existan. En el comando
x se refiere a un vector numrico y N es un vector de caracteres
con los nombres de cada una de las clases.
Diagrama de barras: Se utiliza para representar los caracteres
cualitativos y cuantitativos discretos. En el eje horizontal, o eje
de abcisas, se representan los datos o modalidades; en el eje
Barplot(x,names.arg=N) vertical o de ordenadas, se representan las frecuencias de cada
dato o modalidad. En el comando x se refiere a un vector
numrico y N es un vector de caracteres con los nombres de cada
una de las clases
Diagrama de tallos y hojas: Diagrama utilizado para variables de
tipo numrico, uno de los objetivos es descubrir un patrn de
stem(x) comportamiento de los datos, es decir, que distribucin pueden
seguir los datos. En el comando x se refiere a un vector
numrico
Diagrama de Caja: Diagrama utilizado para variables de tipo
numrico. Es un grfico representativo de las distribuciones de
un conjunto de datos en cuya construccin se usan cinco
boxplot(x) medidas descriptivas de los mismos, a saber: mediana, primer
cuartil, tercer cuartil, valor mximo y valor mnimo, permite
identificar con claridad y de forma individual, observaciones que
se alejan de manera poco usual del resto de los datos.
Un histograma es el grfico estadstico que se utiliza para
representar datos continuos cuando vienen agrupados en
hist(x) intervalos. Sobre cada uno de estos intervalos se levanta una
franja tan ancha como el intervalo y de forma que su rea sea
proporcional a su frecuencia.
Dispersograma: Grfico bidimensional, usado para variables
cuantitativas. Consiste en dos ejes perpendiculares, en cada uno
plot(x,y) de ellos colocaremos los valores de cada una de las variables.
Para representar el dato correspondiente al par (xi , yj),
colocaremos un punto en las mismas coordenadas.

Por supuesto que estas funciones grficas tienen muchas posibilidades ms pero hasta ahora
solamente se ha definido el comando bsico para realizar el grfico con una simple introduccin.
A continuacin se exponen algunas de las opciones con las que se pueden contar, para aadir
estas opciones solo tienen que incluirlas a continuacin del conjunto de datos; funcin_grfica
(datos,opcion=parmetro), se presentan algunas de estas opciones en la siguiente tabla la dems
se pueden encontrar en la ayuda (help(grfica)):

Opcin adicional Descripcin

main=ttulo Ttulo principal de la grfica, debe ser de tipo carcter.


sub=subttulo Subttulo del grfico, debe ser de tipo carcter.
xlab='' '' , ylab='' '' Ttulos en los ejes, debe ser de tipo carcter.
col=''color'' Le da un color especfico a los puntos o a las lneas
especifica el tipo de grfico; ''p'': puntos, ''l'': lneas, ''b''
puntos conectados por lneas, .o'': igual al anterior, pero
type='' ''
las lneas estn sobre los puntos, ''h'': lneas verticales, ''s'':
escaleras,

Distribuciones de frecuencias: Agrupamiento de datos en categoras, que muestran el nmero


de observaciones en cada categora mutuamente excluyente. Cada una de estas categoras es
llamada Intervalo de clase; Los intervalos de clase usados en la distribucin de frecuencias deben
ser iguales. Determine la amplitud de un intervalo de clase sugerido con la frmula: int = (valor
mximo valor mnimo ) / nmero de clases. En R es posible construir la tabla de
distribuciones de frecuencias de la siguiente manera:
Ntese que en el anterior ejemplo se hizo necesario calcular primero la amplitud de clase y de
acuerdo a esta se puede llegar a modificar el inicio de la primera clase y el final de la ltima
clase. Si se desea obtener la tabla de frecuencias acumuladas el anterior comando se coloca
dentro del comando cumsum(), como se muestra a continuacin:

Si el inters esta en ver las tablas de frecuencias relativas y la tabla de frecuencia relativa
acumulada. A la tabla de frecuencias obtenida la dividimos en el tamao del vector que contiene
los datos, obteniendo con esto tabla de frecuencia relativa y con esta ltima obtenemos la tabla de
frecuencias relativas acumuladas al aplicarle el comando cumsum(), a continuacin se muestra
lo mencionado anteriormente:
Medidas de Tendencia central

Al describir grupos de observaciones, con frecuencia se desea describir el grupo con un solo
nmero. Para tal fin, desde luego, no se usar el valor ms elevado ni el valor ms pequeo como
nico representante, ya que solo representan los extremos ms bien que valores tpicos. Entonces
sera ms adecuado buscar un valor central. Las medidas que describen un valor tpico en un
grupo de observaciones suelen llamarse medidas de tendencia central. Es importante tener en
cuenta que estas medidas se aplican a grupos ms bien que a individuos. En la siguiente tabla se
muestra el comando utilizado en R para calcular a un vector (x) estas medidas.

Comando Descripcin
mean(vector) Media: La medida de tendencia central ms obvia que se puede
o elegir, es el valor obtenido sumando las observaciones y
med = sum(x) / length (x) dividiendo esta suma por el nmero de observaciones que hay en
el grupo
Median(x) Mediana: definiremos como mediana al valor de la variable que
deja el mismo nmero de datos antes y despus que l.
Table(x) Moda: Es el dato que ms se repiten en la cuenta. Si existen dos
datos que se repite un numero igual de veces entonces el conjunto
ser bimodal.

Medidas de Dispersin

Se llaman medidas de dispersin a aquellas que permiten retratar la distancia de los valores de la
variable a un cierto valor central, o que permiten identificar la concentracin de los datos en un
cierto sector del recorrido de la variable. Se trata de coeficiente para variables cuantitativas. En
la siguiente tabla se muestra el comando utilizado en R para calcular a un vector (x) estas
medidas.
Comando Descripcin
Var(x) Varianza: Es el valor obtenido de sumar los cuadrados de las
O desviaciones de cada uno de los datos respecto a la media y
dividiendo esta suma por el nmero de observaciones menos uno

Sd(x) Desviacin estndar: La desviacin estndar es la raz cuadrada


O de la varianza
Sqrt(var)
Quantile(x) Cuantiles: Los cuantiles se usan con frecuencia en los datos para
dividir las poblaciones en grupos. Por ejemplo, se puede utilizar
el primer cuantil para determinar cual valor deja un 25 por ciento
de datos por debajo de l
Quantile(x,seq(0.1,0.9,0.1)) Percentiles: Los percentiles se usan para dividir la poblacin en
diez partes.
Range(x) Rango: determina el valor mnimo y el valor mximo de un
conjunto de datos.
El comando summary() permite calcular directamente y a la vez algunas de las medidas de
tendencia central y de dispersin como: media, mediana, primer cuartil, tercer cuartil, valor
mnimo y valor mximo de un conjunto de datos.

Medidas de Asimetra

Comparan la forma que tiene la representacin grfica, bien sea el histograma o el diagrama de
barras de la distribucin, con la distribucin normal. Para calcular algunas de estas medidas en R
se hace necesario que se cargue la librera moments antes de utilizar los comandos.

Comando Descripcin
Sesgo: Diremos que una distribucin es simtrica cuando su mediana, su moda
skewness ( ) y su media aritmtica coinciden. El sesgo mide la simetra de la distribucin de
un conjunto de datos, este puede ser negativo, cero o positivo
Curtosis: Mide la mayor o menor cantidad de datos que se agrupan en torno a
la moda. Se definen 3 tipos de distribuciones segn su grado de curtosis:
Distribucin mesocrtica: presenta un grado de concentracin medio
alrededor de los valores centrales de la variable (el mismo que presenta una
kurtosis ( )
distribucin normal). Distribucin leptocrtica: presenta un elevado grado de
concentracin alrededor de los valores centrales de la variable. Distribucin
platicrtica: presenta un reducido grado de concentracin alrededor de los
valores centrales de la variable.

REFERENCIAS BIBLIOGRAFICAS

Ihaka R. & Gentleman R. 1996. R: a language for data analysis and graphics. Journal of
Computational and Graphical Statistics 5: 299314.

Paradis Emmanuel. R para Principiantes. Institut des Sciences de lEvolution. Universit Montpellier
II. F-34095 Montpellier cdex 05 France

Garca, J.E., Bacherro, J. M. Estadstica Descriptiva y nociones de probabilidad, Universidad de


Valencia, Editorial Thomsom editores Spain, 2005

Richard A. Becker, John M. Chambers and Allan R. Wilks (1988), The New S Language.
Chapman & Hall, New York. This book is often called the Blue Book.

W. N. Venables, D. M. Smith. the R Development Core Team Notes on R: A Programming


Environment for Data Analysis and Graphics Version 2.6.1 (2007-11-26)

You might also like