Professional Documents
Culture Documents
Procesamiento de datos:
paquetes estadsticos
3.1. Introduccin
En el presente capitulo nos centraremos fundamentalmente en el proceso de
gestin de datos, tambin conocido como Clinical Data Management. En general se trata de un proceso complejo que engloba un conjunto de fases
secuenciales cuyo principal objetivo es garantizar que las bases de datos provenientes de un estudio sean precisas, vlidas, completas y seguras (Figura 1). Es
importante no caer en el error de algunos investigadores al considerar esta fase
de la investigacin menos importante que las fases de diseo y anlisis, dado que
es la base a partir de la cual se desarrollar todo el proceso analtico y constituye el fundamento para extraer las conclusiones finales. La falta de calidad durante el proceso de gestin de datos puede afectar gravemente la validez interna y
externa de un estudio cuyo diseo haya sido impecable. Si los datos analizados
no se corresponden con la realidad, tampoco servirn de nada las herramientas
estadsticas ms potentes ni los programas informticos de ltima generacin o
el personal ms cualificado. Por tanto, debe tenerse en cuenta que el coste de
adaptar medidas para proteger la calidad de los datos es muy inferior al que
49
3-CAP 3
49
1/12/06, 13:12
representa poner en duda la validez de una investigacin. Es por eso que desde
la dcada de los 80 se ha ido desarrollando una lnea de investigacin entorno al
tratamiento de los datos y al concepto de calidad de stos (data quality). Adems, no debe olvidarse que en este proceso intervienen investigadores y/o
monitores, informticos, grabadores de datos, administradores de bases de datos y estadsticos.
Tambin se introducir el concepto de depuracin, que se define como un
proceso a realizar necesariamente tras haber recogido los datos para detectar y
corregir los errores que, por distintas vas, contiene nuestra base de datos.
Una de las aplicaciones del procesamiento de datos que ms ha evolucionado
ha sido el desarrollo de paquetes estadsticos. Conceptualmente un paquete
estadstico es un programa informtico especficamente diseado para el procesamiento de datos con el objetivo de resolver problemas de estadstica descriptiva o inferencial. El entorno legislativo que marca la normativa de las investigaciones indica que en el protocolo del estudio se debe identificar el sistema
informtico que se va a utilizar y ste debe ser un sistema trazable, seguro y
fiable que asegure la confidencialidad de los datos, que permita identificar los
usuarios que acceden al mismo y las modificaciones que se producen en su
contenido a travs del tiempo.
Con el desarrollo de la microinformtica la utilizacin de los paquetes estadsticos ha pasado de los centros de investigacin, empresas o instituciones
pblicas hasta poder instalarse en cualquier ordenador que en la actualidad se
est comercializando. Hoy por hoy, cualquier ordenador personal puede tener
instalado alguno o varios paquetes estadsticos. Aunque las opciones que nos
ofrecen sean cada vez ms numerosas, esto no supone un obstculo de complejidad para su utilizacin, lo que hace que el nmero de profesionales de enfermera que se interesan por ellos sea cada vez mayor. Conocer brevemente la
utilidad y caractersticas de los diferentes paquetes estadsticos ms utilizados
en la investigacin cientfica nos ayudar a elegir el ms idneo para la realizacin de nuestro trabajo.
50
3-CAP 3
50
1/12/06, 13:12
3-CAP 3
51
1/12/06, 13:12
3-CAP 3
52
1/12/06, 13:12
rigurosidad con la que se haya planificado la recogida de datos. La proporcin de valores desconocidos constituye un indicador ms de la calidad
del proceso de recogida de datos y de la informacin que se analiza, por
lo que consideraremos ms importante el tratamiento que se va a dar a
estos valores en el protocolo, as como durante la recogida de datos.
El tema referente a los missings es muy controvertido puesto que presentan
un problema en los anlisis que debemos realizar. Adems de la falta de informacin que esto supone, como consecuencia hay una prdida de muestra y de
potencia estadstica, ya que muchos de los paquetes estadsticos eliminan
automticamente las observaciones que tienen valores missing para cualquiera
de las variables usadas en el anlisis. Es por eso que deberemos intentar recuperar estos valores, tal como veremos en el apartado 3.2.4. Depuracin de la Base
de Datos.
Para poder diferenciar entre los valores que realmente no podremos recuperar y aquellos que son susceptibles de solucionar, distinguiremos en la base
de datos las anotaciones que pueden encontrarse en el CRD mediante cdigos
asignados a tal efecto. Si la pregunta formulada est especficamente contestada
con una de las respuestas que aparecen en la tabla siguiente (Tabla 1), se le
asignar un cdigo especial. Normalmente, suelen ser cdigos como 9, 99 -1,
siempre y cuando estos valores no se solapen con otros valores de la variable y
no se caiga en el error de que estos valores sean incluidos en el anlisis.
RESPUESTAS / ANOTACIONES
SIGNIFICADO
SOLUCIN
Campo en blanco
No se ha determinado el valor de la
respuesta
Dato no legible
Solucionable
Imposible de
recuperar
3-CAP 3
53
1/12/06, 13:12
As pues, un campo en blanco lo consideramos missing e intentaremos recuperarlo siempre que sea posible. Sin embargo, un campo No disponible o No
determinado se considera un missing con ligeras diferencias: el investigador o
persona encargada de la recogida de datos nos avisa de que ese campo no va a ser
recuperable, por mucho que lo intentemos. Es una forma de asegurarse, especialmente en los ensayos clnicos, de que todas las respuestas posibles estn recogidas
en la BD. Posteriormente, todas estas respuestas sern interpretadas como missing.
De cara al anlisis, existen diversas tcnicas de imputacin de datos en cuanto a los datos faltantes o missing. El mtodo ms utilizado es el de despreciarlos,
de forma que stos no aparecen en el anlisis. Sin embargo, existen otras tcnicas de imputacin de valores que permiten sustituir los valores faltantes por: la
media de la variable; en caso de un estudio longitudinal, la media de las observaciones anterior y posterior en el tiempo o bien la imputacin mediante la tcnica conocida por LOCF (Last Observation Carried Forward) que consiste en
asignar el ltimo valor conocido. Por ejemplo: en un estudio longitudinal de
insuficiencia renal se pretende estudiar la evolucin de los valores de hemoglobina en sangre a los 2 y 4 meses de seguimiento; en caso de no tener la observacin final, podramos arrastrar el ltimo valor conocido (2 meses) y considerar ste como el valor real. Otros mtodos ms complejos para la imputacin
de los valores missing estn relacionados con imputaciones mltiples a travs de
varias variables. Como vemos, es un tema que admite multitud de opciones,
siempre y cuando las decisiones se tomen con cierto criterio.
3-CAP 3
54
1/12/06, 13:12
3-CAP 3
55
1/12/06, 13:12
grabados con los registrados en las fuentes originales. Constituye un procedimiento costoso, slo recomendable en estudios de pocos casos y sin
opcin a la utilizacin de otros procedimientos.
Adems de utilizar uno de estos procesos de control de calidad de la BD,
tambin deben revisarse los valores extremos o anormales de las variables con
la finalidad de detectar errores de introduccin. Por otro lado es conveniente
cruzar las variables de la BD que nos puedan indicar un error.
3-CAP 3
56
1/12/06, 13:12
57
3-CAP 3
57
1/12/06, 13:12
58
3-CAP 3
58
1/12/06, 13:12
59
3-CAP 3
59
1/12/06, 13:12
combinacin de todas ellas, puesto que cada una se adecuar por distintos motivos a nuestras preferencias. A continuacin, se intentar describir los principales paquetes estadsticos y su utilidad.
3-CAP 3
60
1/12/06, 13:12
3-CAP 3
61
1/12/06, 13:12
3-CAP 3
62
1/12/06, 13:12
3-CAP 3
63
1/12/06, 13:12
debe poder responder de forma precisa y oportuna a las preguntas que se puedan plantear en relacin a la calidad de los datos, sobretodo ante el aumento de
la preocupacin por la mala conducta cientfica y el fraude en las ciencias
biomdicas.
Los investigadores o personas responsables del estudio tienen el compromiso de mantener la documentacin del estudio durante varios aos despus de
su publicacin y muchos autores consideran imprescindible un registro de
auditoria, que es el mecanismo esencial para documentar e identificar los cambios que son realizados en los datos a cada paso: quin, dnde, cundo y cmo
han sido realizados.
Consideraremos por tanto que: una buena planificacin del protocolo y objetivos del estudio, donde exista la elaboracin de un CRD claro y simple que
permita la creacin de una BD acorde al mismo con pocos campos abiertos,
adems de una perfecta coordinacin de todos los profesionales implicados en
el proyecto y la utilizacin de una metodologa pulcra en todas sus fases ser
imprescindible para el buen desarrollo de un estudio.
64
3-CAP 3
64
1/12/06, 13:12