Professional Documents
Culture Documents
Agosto de Austral
2008 18:223-231. Agosto 2008
USO DEL PROGRAMA ESTADSTICO R 223
Debate
Asociacin Argentina de Ecologa
CHRISTIAN SALAS *
RESUMEN. La estadstica es una ciencia aliada a la investigacin cientfica. Los cientficos que trabajan
en ecologa, recursos naturales e ingeniera comnmente emplean programas de computacin para
realizar anlisis estadsticos. En este trabajo se revisan brevemente dos de los programas estadsticos
ms usados en estudios ecolgicos, SPSS y SAS, y se comparan con el software estadstico R. Sobre
la base de este anlisis, se propone el uso de R en ciencias ecolgicas e ingeniera en Latinoamrica
y en pases del tercer mundo en general, porque ofrece el uso gratuito de un software de primer
nivel, as como tambin un mayor control de los anlisis conducidos, extensa documentacin, y
un ambiente de programacin desarrollado para aplicaciones estadsticas y con capacidad para
ser empleado en otras reas cuantitativas de diversas disciplinas.
ABSTRACT. Why purchase commercial statistical software if there is R?: Statistics is used in all
scientific disciplines. Researches on ecology, natural resources, and engineering use statistical
software packages for conducting their statistical analysis. We briefly review two statistical
software packages most often used in ecological and engineering studies, SPSS and SAS, and
compare them with the free statistical software R. We recommend the use of R for problems in
ecology and engineering in Latinoamerica and third world countries, not only because it is a free,
top shelf statistical software, but also because it offers a greater control of how each procedure is
performed, thorough and widely available documentation, and a computing environment both
suitable for statistics as well as for many quantitative areas in several disciplines.
de la estadstica en el desarrollo de las ciencias este tipo de programas son especficos, se pue-
forestales. Mediante la estadstica se evalan den usar en investigacin y ofrecen lo que se
cuantitativamente hiptesis de investigacin, necesita para un trabajo puntual. Sin embargo,
se desarrollan modelos predictivos, se estiman su uso est limitado a un tipo de anlisis y, por
parmetros y se analizan experimentos, entre lo tanto, slo son de inters para un pequeo
otras aplicaciones. El anlisis de regresin es abanico de usuarios. En consecuencia, este
uno de los mtodos estadsticos ms empleados trabajo se centrar en programas estadsticos
en varias disciplinas, mientras que los mtodos genricos que permiten ejecutar una variada
multivariados gozan de popularidad entre gama de procedimientos, y no se abordarn
eclogos. Los investigadores que trabajan los software-tarea-especficos.
en disciplinas aplicadas como las ciencias
agrcolas y forestales, as como tambin en En este artculo se revisan y comparan carac-
disciplinas que requieren de un intensivo tersticas generales de dos programas estads-
trabajo en laboratorio (e.g., microbiologa ticos comerciales de amplio uso en ecologa
y anlisis qumicos) emplean diversos (SPSS y SAS) con el programa estadstico libre
modelos estadsticos para el anlisis de sus R. El objetivo del presente trabajo es aportar
experimentos (ntese que los llamados dise- a la discusin con respecto a los programas
os experimentales son, en realidad, modelos estadsticos empleados en ciencias ecolgicas
estadsticos). y a los recursos econmicos necesarios para su
uso tanto en investigacin como en docencia
El uso de un programa de computacin (i.e., universitaria. Se advierte al lector que el au-
software) estadstico es importante tanto en tor no tiene afiliacin con ninguno de los tres
la ciencia bsica como en la aplicada (e.g., programas estadsticos analizados.
ejercicio profesional). En la prctica, tanto
investigadores como profesionales emplean
algn programa estadstico para realizar PROGRAMAS ESTADSTICOS
pruebas de hiptesis, ajustes de modelos y
anlisis de diseos experimentales complejos. Existen varios programas estadsticos gen-
Muchas veces deben analizar grandes bases ricos. Sin embargo, slo nombrar a los que
de datos y una gran cantidad de variables. se citan generalmente en artculos en revis-
Microsoft Excel es una planilla de clculo tas cientficas latinoamericanas (SPSS, Stata,
ampliamente usada debido a que es parte Systat y SAS), y luego introducir una nueva
de la instalacin tpica de computadores con alternativa, el programa R. Dado que SPSS,
sistema operativo Microsoft Windows, y con Stata y Systat poseen estructuras similares
la ayuda de algunos add-ins puede tambin (aunque con diferencias en sus procedimien-
ejecutar algunos procedimientos estadsticos tos), slo considerar SPPS por su mayor
(Zhu & Kuljaca 2002). Sin embargo, su uso popularidad.
en anlisis estadstico sigue siendo bastante
limitado. Adems, se ha mostrado la baja SPSS (SPSS Inc. 2007) es un software lanzado
calidad de los procedimientos estadsticos de al mercado en 1968. Originalmente se desarro-
M. Excel (McCullough & Wilson 1999, 2002, ll para las ciencias sociales, por lo que ofrece
2005). Algunas investigaciones emplean an- un uso sencillo de las opciones, acceso rpido
lisis bastante especficos que son realizados en a datos y procedimientos, generacin de sali-
programas estadsticos pequeos, diseados das y grficos. SPPS es un programa con una
exclusivamente para tales fines, y a los que interfaz grfica de usuario (trmino denomi-
denominar software-tarea-especficos. Por nado en computacin, GUI) amigable, y slo
ejemplo, el programa SPPA (Spatial Point a travs de sta se accede a sus opciones (e.g.,
Pattern Analysis), que se usa para calcular abrir los datos y ejecutar clculos) mediante el
la funcin de Ripley (Ripley 1977), la cual es uso de los botones de la interfaz grfica.
empleada en estudios de estadstica espacial
como el de Haase et al. (1996) en matorrales SAS (SAS Institute Inc. 2007) ha sido por
y el de Salas et al. (2006) en bosques. Aunque largos aos el software ms utilizado en la
Debate
Agosto de 2008 USO DEL PROGRAMA ESTADSTICO R 225
comunidad estadstica y, por lo tanto, tambin COMPARACIN GENERAL
se ha propagado su uso entre investigadores
de diferentes disciplinas. SAS, a diferencia de
Dado que diferentes programas implemen-
SPSS, es un programa que requiere el ingreso
tan distintos algoritmos para llevar a cabo los
de comandos (i.e., sintaxis) para ejecutar gran mismos tipos de anlisis, los usuarios se bene-
parte de sus rutinas y opciones. Por lo tanto, fician de una comparacin entre los programas
necesita del conocimiento de la sintaxis antes ms usados. Se han realizado comparaciones
de su uso. SAS ha llegado a ser el programa de clculos para los procedimientos (e.g.,
estndar empleado en ensayos clnicos y regresin y experimentos factoriales, entre
por la industria farmacutica en los Estados otros) implementados por algunos programas
Unidos. estadsticos (Okunade et al. 1993; McCullough
1999; Zhu & Kuljaca 2002). Sin embargo, estos
R (Ihaka & Gentleman 1996; R Development son bastante especficos y se circunscriben a
Core Team 2007) es un programa estadstico aspectos puntuales. En este contexto, se pre-
y un lenguaje de programacin de uso libre, senta una comparacin general sobre la base
de distribucin gratuita y de cdigo abierto de una serie de aspectos (Tabla 1).
(i.e., el cdigo fuente del programa esta dis-
ponible para los usuarios), desarrollado como a. Amigabilidad con el usuario. SPSS es
un gran proyecto colaborativo de estadsticos bastante amigable para el usuario, ya que
de diversos pases y disciplinas. R tambin es permite acceder a todas las opciones me-
diante un men de funciones. Por su parte,
un programa basado sobre comandos, en
SAS y R requieren conocer la sintaxis y/o los
el que se puede acceder a todos los proce-
comandos antes de ejecutar un procedimiento,
dimientos y opciones a travs de sintaxis
lo cual los hace poco amigables para aquellos
computacional. Fue oficialmente presentado usuarios no familiarizados con la programa-
en 1997 y es un software libre que se rige por cin computacional o con poco inters por
la licencia general pblica (General Public aprender una cantidad de instrucciones. Para
License o GPL) de la fundacin de software ejecutar R no es necesario utilizar el men
libre (Free Software Foundation o GNU, de funciones y para ejecutar SAS, adems
http://www.gnu.org/). R es muy similar de requerir sintaxis es necesario utilizar los
al programa estadstico S-plus (el cual no botones de la interfaz grfica (e.g., se escribe
es gratuito y es distribuido por Insightful la sintaxis para ajustar un modelo mediante
Corporation), ya que la implementacin base el procedimiento de regresin, PROC REG,
y semntica de ambos son derivados de un y luego se debe accionar el botn run para
lenguaje estadstico llamado S y de un lenguaje ajustar el modelo).
llamado Scheme (Ihaka & Gentleman 1996).
Las diferencias entre R y S-plus radican en el No obstante, tanto en SAS como en R existen
nuevas aplicaciones desarrolladas para faci-
lxico empleado, en el cdigo para modelar
litar el uso de los programas. En las ltimas
y en otros aspectos tcnicos computacionales
versiones de SAS se han implementado las
que escapan al alcance de este artculo, pero
utilidades Insight y Analyst que permiten
que pueden ser revisados en Hornik (2008). De realizar algunos tipos de anlisis accionando
todas maneras, la mayora de los comandos de botones sin necesidad de conocer la sintaxis.
R funcionan en S-plus, y viceversa. De igual forma, para R existe Rcommander
(Fox 2005), que permite similares funciones.
Es importante hacer notar que tanto SPSS Sin embargo, R y SAS son sistemas basados
como SAS son programas comerciales y, por lo en comandos, por lo que el empleo de las
tanto, tienen una orientacin y administracin utilidades GUI de estos programas puede
diferentes a las de R, y adems se enfocan en resultar complicado para el usuario ya que
aquellos mercados y usuarios que les propor- debe acceder a diferentes menes antes de
cionan los mayores beneficios. ejecutar un procedimiento especfico, difi-
Debate
226 C SALAS Ecologa Austral 18:223-231
Tabla 1: Comparacin de aspectos generales entre los programas estadsticos SPSS, SAS y R.
Table 1. Comparison of general features of the statistical software SPSS, SAS, and R.
Programa estadstico
Aspecto SPSS SAS R
Amigabilidad con el usuario Excelente Baja-Regular Baja-Regular
Manipulacin de datos Baja Buena Buena
Calidad de grficos Regular Buena-Excelente Excelente
Control de procesos Baja Excelente Excelente
Costo U$S 1500 U$S 7200 Gratis
Cdigo fuente disponible No No S
Variedad anlisis estadsticos Buena Buena-Excelente Excelente
Documentacin Excelente Buena Buena-Excelente
Soporte tcnico Bueno Bueno Bajo
Sistema operativo Windows
Windows
Windows
Macintosh Macintosh
Linux Linux
donde la empresa invierte cerca del 20% de nales estn presentes en diferentes paquetes.
sus utilidades en investigacin (SAS 2007). Esto implica que el uso del programa no est
Por lo tanto, la variedad de procedimientos 100% optimizado. Sin embargo, R ha sido y es
implementados es bastante amplia. R ha sido desarrollado gracias a un trabajo colaborativo
desarrollado por estadsticos que trabajan en importante. El veloz avance ocurrido en los
diferentes instituciones a nivel mundial y, por ltimos tres aos hace pensar que se imple-
lo tanto, implementa algoritmos modernos y mentarn mejoras.
robustos. Adems, un nmero importante de
paquetes estn continuamente siendo desa- g. Documentacin y soporte de ayuda. To-
rrollados y puestos a disposicin en Internet dos los programas ofrecen documentacin,
para su instalacin. Esto implica, tambin, la tanto manuales de usuario como libros con
disponibilidad de una gama amplia de pro- aplicaciones. Sin embargo, SPSS ofrece una
cedimientos de primer nivel. Por ejemplo, el documentacin fcil de usar y de entender,
paquete nlme para ajustar modelos lineales y
quizs debido a que fue originalmente disea-
no-lineales de efectos mixtos en R, es explica-
do para las ciencias sociales, en las que la for-
do en detalle en el libro de Pinheiro & Bates
macin cuantitativa no es generalmente muy
(2000), es un referente en el tema. As tambin,
profunda. Siguiendo el estilo colaborativo de
para aquellos usuarios que prefieren software-
tarea-especficos, el desarrollo por expertos de R, la comunidad cientfica usuaria de R ha sido
paquetes en diferentes disciplinas permite la especialmente generosa al producir manuales
existencia de paquetes especficos, como el y diversos documentos gratuitos.
geoR para anlisis geoestadstico en R.
Una ventaja de SPSS y de SAS es el soporte
La renovacin e implementacin de nuevos (e.g., servicio al cliente), a travs del cual es
procedimientos en R es relativamente rpida. posible indicar problemas de ejecucin en cier-
Frecuentemente aparecen nuevos procedi- tos procedimientos y, por lo tanto, obtener el
mientos y/o paquetes en desarrollo y en revi- respaldo tcnico de las respectivas empresas.
sin, los cuales despus pueden ser obtenidos Por otra parte, para R no existe un respaldo
a travs de Internet e instalados directamente. formal de una empresa con respecto a todos
En cambio, SAS y SPSS demorarn aos en sus paquetes, rutinas y funcionamiento ge-
implementar nuevos procedimientos, requi- neral. Es decir, R no tiene ninguna garanta
riendo necesariamente una nueva versin del legal y el usuario asume cualquier potencial
software. Sin embargo, los paquetes de R no problema causado por su uso (esto es definido
estn garantizados, y son mejorados a medi- en detalle en la licencia GPL). La falta de un
da que los usuarios encuentren problemas y responsable legal de R podra ser una desven-
los desarrolladores actualizan los paquetes. taja para empresas que piensan emplearlo. Sin
Por su parte, SPSS y SAS, al ser programas embargo, no debera ofrecer mayores proble-
comerciales, deberan ofrecer paquetes ms mas para usuarios individuales o instituciones
depurados.
de investigacin. De todas maneras, gracias al
trabajo colaborativo mencionado ms arriba,
Existen diferencias entre SAS y R en cuanto
los potenciales problemas en algn paquete
a la variedad de anlisis estadsticos, aunque
slo a escala detallada. Por ejemplo, se podra son tambin mejorados, aunque eso depen-
decir que SAS posee una leve ventaja en mode- de de la voluntad y el esfuerzo del creador
los mixtos vs. R, ya que ofrece la opcin de ele- de dicho paquete. Finalmente, para los tres
gir diferentes distribuciones de probabilidad programas existen foros en Internet donde
para los parmetros aleatorios. R, en cambio, se plantean los problemas relacionados con
actualmente slo ofrece la opcin de emplear los respectivos programas y las tcnicas de
una distribucin normal. Dado que diferentes anlisis estadsticos empleadas, y donde los
personas generan paquetes para R, y a pesar usuarios independientes publican sus solu-
de que existe una cierta estandarizacin al ciones, siendo una excelente alternativa de
respecto, las mismas funciones computacio- ayuda gratuita.
Debate
Agosto de 2008 USO DEL PROGRAMA ESTADSTICO R 229
h. Sistemas operativos. A pesar de que el de software basado sobre sintaxis es ms
sistema operativo (S.O.) Microsoft Windows apropiado. Ntese tambin que dado que R
est ampliamente difundido, existe una gran es un lenguaje de programacin, permite su
cantidad de usuarios que usan otros sistemas uso en una variedad de problemas que no son
operativos. Los tres programas analizados es- necesariamente estadsticos, como por ejem-
tn implementados para Windows. Si bien plo, optimizacin y modelacin matemtica.
tanto SPSS como SAS pueden funcionar en el Otra ventaja de R, tanto en ciencia bsica como
S.O. Linux, su configuracin es compleja. SPPS aplicada, es que puede ser empleado indepen-
tambin puede ejecutarse en Macintosh. R es dientemente de la institucin del usuario. Con
el nico que funciona de manera estable e n- otros programas no gratuitos, el tiempo inver-
tegra en los tres sistemas operativos de mayor tido en aprenderlos no es capitalizado cuando
uso. La versatilidad de plataformas donde R el usuario debe trasladarse a otra institucin
puede ser instalado ofrece una ventaja para los que no posee dicho software. En este contexto,
diferentes usuarios en distintas disciplinas. existe un nmero importante y creciente de
centros acadmicos y de investigacin que
emplean R.
USO DE PROGRAMAS ESTADSTICOS
EN DOCENCIA E INVESTIGACIN La documentacin de un software computa-
cional es muy importante para saber realmente
qu est calculando cada procedimiento pre-
La eleccin de un software estadstico en programado en un software (Searle 1989). En
ecologa y disciplinas afines (e.g., ciencias pases latinoamericanos y del tercer mundo en
forestales, agrcolas y ambientales), y en inge- general, donde el acceso a libros y literatura
niera, normalmente depende de la formacin actualizada es muchas veces complejo, la posi-
de los usuarios, como as tambin de si ser bilidad de contar con acceso a documentacin
empleado en docencia o en investigacin. En gratuita es una fortaleza. En este sentido, el
la docencia en ciencias biolgicas-sociales, la uso de R ofrece una ventaja. De todas mane-
tendencia es emplear programas que permitan ras, es recomendable la compra de literatura
ejecutar los procedimientos en la forma ms (sobre todo para R) dado que la disponible
sencilla posible, evitando que el alumno se gratuitamente por lo general no es la que mejor
confunda con demasiados detalles de pro- satisface las necesidades y requerimientos de
gramacin (como los necesarios para SAS y los usuarios.
R). En este contexto, los usuarios preferiran
el uso de programas con GUI amigables. Por En Latinoamrica, el control de uso de
otra parte, en la docencia de disciplinas con programas legales (i.e., copias permitidas)
preparacin en matemtica y programacin es muy dbil, y la piratera de software es un
computacional, si se fomentara el empleo de problema comnmente aceptado. La tasa de
programas estadsticos basados sobre sintaxis piratera de software en Latinoamrica alcan-
desde los estudios de pre-grado, se ganara za el 66%, una de las ms altas del mundo.
un mejor entendimiento del tema (e.g., para Pases como Venezuela, El Salvador, Bolivia
poder programar el ajuste de algn modelo y Paraguay estn ubicados entre los 20 pases
es necesario primero saber el modelo que con mayores tasas de piratera en el mundo,
se va a ajustar) y la resolucin ms fcil de con porcentajes que se ubican entre 82% y 86%
los problemas del rea. En cualquier caso, y (Business Software Alliance 2006). De acuerdo
aunque no con todas las facilidades de SPSS, al mismo estudio, Chile y Argentina presentan
tanto SAS como R poseen utilidades GUI que tasas menores aunque igualmente altas en tr-
los transforman en programas basados sobre minos globales, con porcentajes de 68% y 75%,
el uso de botones. respectivamente. Incluso a nivel universitario,
dado los elevados costos de algunos de los
En investigacin, los usuarios normalmente programas usados, se ensea empleando soft-
poseen mayor nivel de conocimientos esta- ware sin licencia, que tambin es distribuido a
dsticos. En esta rea pareciera que el empleo los estudiantes para su prctica personal. Con
Debate
230 C SALAS Ecologa Austral 18:223-231
Debate