You are on page 1of 8

Tutorial para el análisis exploratorio

de datos univariados con el programa


informático Statistica v.8

José Alberto Montoya-Márquez

Introducción de las técnicas más sencillas es la propuesta


por Tukey con base a los cuartiles, el intervalo
El primer paso en una investigación cientí-
intercuartílico, y los límites donde no hay
fica es observar, resumir y graficar los datos
puntos aberrantes (superior e inferior).
provenientes ya sea de un muestreo o de un
experimento, con el fin de discernir el com- Estas técnicas han tenido un gran avance
portamiento general de las variables de estu- y mayor uso, principalmente por el desarro-
dio y observar el tipo de distribución de ellas. llo de las computadoras; en este sentido, en
Esto se logra a través del llamado Análisis la actualidad se disponen de un conjunto de
Exploratorio de Datos (del cuál Tukey fue paquetes estadísticos que nos facilitan la tarea
el fundador), se trata de obtener los estadís- de calcular estas herramientas, un programa
ticos descriptivos y gráficos que nos permi- potente y amigable es el Statistica (StatSoft
tan observar el comportamiento de nuestros 2008).
datos incluyendo la identifiación de puntos
Además de auxiliarnos en el análisis
aberrantes.
exploratorio de datos, el programa Statistica
Se pueden separar las técnicas de análisis presenta una gran variaedad de rutinas que
exploratorio en dos grupos: Herramientas incluyen un sinnúmero de gráficos y pruebas
gráficas y herramientas numéricas. Entre las estadísticas inferenciales, bi y multivariadas,
primeras se pueden mencionar, entre otras, a haciendo de este programa una herramienta
los histogramas, ojivas de frecuencia, diagra- muy poderosa en la investigación científica y
mas de dispersión, diagramas de tallo y hoja, en la evaluación de recursos naturales.
diagramas de caja y bigote.
El presente tutorial tiene como objetivo
Entre las herramientas numéricas se presentar, en una serie de pasos, la realiza-
pueden considerar a las tablas de frecuencia, ción y exposición del análisis exploratorio
estimación de las medidas de tendencia cen- de datos, así como la edición y presentación
tral (media, moda, mediana, etc.), medidas de sus resultados en el programa Microsoft
de dispersión (varianza, desviación están- Word. Esto incluye también la exportación de
Ciencia y Mar 2014, XXII (54): 67-74

dar, coeficiente de variación, etc), medidas de una base de datos de Microsoft Excel al pro-
posición (cuartiles, octiles, percentiles, etc.). grama Statistica.
Entre estas herramientas, un análisis impor-
El tutorial se divide en las siguientes
tante es la identificación de datos aberrantes
partes: 1) presentación del problema, 2)
o extremos (outlier en inglés) y que por defi-
importar un archivo de Microsoft Excel al
nición son datos que no siguen la distribución
programa Statistica, 3) cálculo de las medidas
del conjunto de valores; a este respecto una

Universidad del mar Campus Puerto Ángel, Oaxaca, Instituto de Recursos, Carretera a Zipolite, Ciudad Universitaria s/n, Distrito de San
Pedro Pochutla C.P. 70902. México. Correo electrónico amontoya@angel.umar.mx

67
de tendencia central (MTC) de dispersión 2. Cómo importar un archivo de Microsoft Excel al
(MD), de posición (MP), intervalos de con- programa Statistica
fianza (95%) para la media, 4) identificación
El programa Statistica trabaja en hojas de
de puntos aberrantes, 5) creación de un his-
cálculo (Spreadsheet) terminación .sta, hay
tograma, 6) edición de gráficos y tablas, 7)
varias maneras de crear una hoja de cálculo en
exportar tablas y gráficos de Statistica o Excel
el programa, una de ellas es copiar y pegar las
y/o Word.
variables (columnas) y los renglones (casos),
sin embargo en el presente tutorial explicaré
Desarrollo y procedimiento el procedimiento para importar de Excel al
Statistica debido a que, generalmente se tienen
1. Presentación del problema bases de datos muy grandes y éstas son reali-
zadas en Excel por su versatilidad y facilidad
de manejo. Es importante que se incluya, en
En un estudio llevado a cabo en la bahía de
el primer renglón, el nombre de las variables,
Puerto Ángel durante un año (datos ficticios),
ya que Statistica tiene la opción de importar
se registraron los datos que se presentan en la
archivos considerando el nombre de las varia-
Tabla I.
bles e inlcuso el de los renglones.
Una vez listo el archivo de temperatura en
Tabla I.- Datos de temperatura mensual en la bahía de Excel, se debe guardar en la versión 97-2003.
Puerto Ángel (datos ficticios)
Abrir el programa Statistica seleccionar
File, en la barra de comandos, seleccionar
Temperatura Open, aparecerá una ventana de búsqueda de
26.82 archivos; en el campo inferior desplegar las
26.3
opciones de Tipo y seleccionar All files, buscar
26.82
el archivo de Excel (terminación.xls), oprimir
25.6
el botón Abrir (Fig. 1).
26.45 En la siguiente ventana seleccionar Import
27.1 select sheet to a Spreadsheet y escoger Hoja
25.4 1 (donde están los datos en Excel), dar clic
25.4 en OK. En la siguiente ventana se indican
26.9 el número de renglones y de columnas, que
25.7 son leídos automáticamente por el programa.
25.8
Elegir Get variable names from first row (para
25.4
el nombre de la variable) y clic en OK (Fig. 1).
A continuación se despliega la base de
datos con el mismo nombre del archivo origi-
Con los datos de la Tabla I se desea calcular: nal con terminación.sta, el programa lo guarda
medidas de tendencia central (MTC: media, en la misma carpeta del archivo fuente.
Ciencia y Mar 2014, XXII (54):67-74

mediana y moda), medidas de dispersión


(MD: desviación estándar, varianza, recorrido, 3. Procedimiento para obtener las MTC, MD, MP
recorrido intercuartílico y coeficiente de e intervalos de confianza de la media muestral
variación), medidas de posición (MP: primer (95%)
y tercer cuatiles, el sesgo y la curtosis), los
intervalos de confianza de la media muestral Activar en el menú principal el botón
(95%), identificar si hay puntos aberrantes y por Statistics ir a Basic Statistics/Tables y dar
último realizar el histograma de frecuencias clic en Descriptive statistics. A continuación
con cinco intervalos y comenzando con el se muestra la ventana del comando ejecu-
valor menor de los datos. tado, seleccionar la variable Temperatura. Ir

68 Montoya-Márquez
a la carpeta Advanced y elegir los estadísticos Whiskers Plot), considerando los cuartiles, el
requeridos (MTC, MD, MP), oprimir el botón recorrido intercuartílico y los límites donde
summary: statistics (Fig.2). no hay puntos aberrantes. En el programa
Statistica hacer lo siguiente:
El programa guarda los resultados de una
sesión en un libro de trabajo (Workbook) (Fig. Ir al menú principal y seleccionar Graphs,
3), la tabla puede también copiarse y pegarse luego 2D graphs y Box Plots; se selecciona la
en Word o Excel para su edición. variable haciendo clic en el botón de: Variables
dentro de la ventana del módulo 2D Box
4. Identificación de puntos aberrantes
Plots, la ventana de Grouping vairable debe
Éste es un paso importante en el análisis ir vacía (Fig. 4). En la carpeta: Advanced ir a
descriptivo de los datos, pues estos valores Box ecoger: Percentiles y en Coefficient: 25,
sesgan la estimación de muchos estadísticos, en Whiskers: Non-outliers range, en Outliers:
lo cual puede afectar las inferencias que de Out & Extremes y por último en Coefficient:
ellos se obtengan y por ende las conclusiones 1.5 (todo esto lo selecciona el programa por
que se deriven. Una de las formas de identi- default) (Fig. 5) dar clic en OK para obtener el
ficar estos valores es a través de la construc- gráfico (Fig.6).
ción del gráfico de caja y bigotes (Box and

Ciencia y Mar 2014, XXII (54):67-74

Figura 1.- Pasos para importar un archivo (base de datos) al programa Statistica(StatSoft 2008)

Tutorial para el análisis exploratorio de datos... 69


Figura 2.- Selección de estadísticos descriptivos

Figura 3.- Tabla de resultados en el libro de trabajo (Workbook)


Ciencia y Mar 2014, XXII (54):67-74

Figura 4.- Procedimiento para realizar un gráfico de caja y bigotes


(Box &Whiskers Plot)

70 Montoya-Márquez
Figura 5.- Selección de las características del diagrama de caja y bigotes

Ciencia y Mar 2014, XXII (54):67-74

Figura 6.- Identificación de valores aberrantes con el gráfico de caja


y bigotes, en este ejemplo no hay, en caso de que sí los hubiera se
marcan con círculos vacíos y con asteriscos

Tutorial para el análisis exploratorio de datos... 71


5. Crear un histograma programa Statistica. Los pasos para editar un
gráfico son los siguientes:
Para realizar un histograma con cinco
intervalos y el primero inciciando en el Considérese el gráfico de caja y bigotes del
valor mínimo; ir de nuevo al menú de grafi- inciso tres. La edición de títulos y nombre de
cos (Graphs) seleccionar Histograms, entrar los ejes es con doble clic sobre el título o nom-
al módulo de 2D Histograms, ir a la carpeta bres que se deseen cambiar o eliminar (dando
Advanced seleccionar la variable en el botón suprimir) (Fig. 9). Para cambiar el color del
del mismo nombre. En la opción de Fit type gráfico y otras opciones dar doble clic en cual-
(ajuste de la distribución) escoger Off para quier área del gráfico, aparece la ventana All
que no tener ninguna curva ajustada y sólo Options dentro de la cual se pueden hacer los
observar la distribución de la variable de inte- cambios requeridos (Fig. 10).
rés; en Categories seleccionar 5 (Fig. 7), y clic
en OK para obtener el histograma (Fig. 8). Este 7. Exportar tablas y gráficos de Statistica a Excel
histograma se puede copiar a Word. y/o Word
Las tablas se pueden copiar y pegar de
6. Edición de tablas y gráficos
manera sencilla: seleccionar la tabla y escoger
Ya sea en la elaboración de un informe o copy with headers, pegar la tabla en Word o
artículo, las tablas y gráficos se deben editar Excel. En el caso de un gráfico dar clic con el
antes de su publicación. En el caso de las botón derecho del ratón sobre cualquier área
tablas recomiendo que se copien (inciso 7 de del gráfico y seleccionar en copy graph (Fig.
ese tutorial) y pegen en Excel y ahí editarlas 11) abrir el documento de word y seleccionar
antes de incluirlas en el documento de Word; el comando pegar, de esta manera se tendrá el
en el caso de los gráficos se deben editar en el gráfico en word.
Ciencia y Mar 2014, XXII (54):67-74

Figura 7.- Pasos a seguir para realizar un Histograma

72 Montoya-Márquez
Figura 8.- Histograma con cinco intervalos comenzando a partir del
valor mínimo (25.4)

Ciencia y Mar 2014, XXII (54):67-74

Figura 9.- Edición de títulos del gráfico de caja y bigotes

Tutorial para el análisis exploratorio de datos... 73


Figura 10.- Edición de color y otras opciones del gráfico de caja
y bigotes
Ciencia y Mar 2014, XXII (54):67-74

Figura 11.- Copiando un gráfico

Referencias
StatSoft, Inc. 2008. STATISTICA (data analysis software Recibido: 19 de agosto del 2016
system), version 8.0. www.statsoft.com. Aceptado: 25 de agosto del 2016

74 Montoya-Márquez

You might also like