Professional Documents
Culture Documents
ENENCUESTAS
MnicaBcueBertaut
UniversitatPolitcnicadeCatalunya
1. EL CUESTIONAMIENTO ABIERTO
Lasfrecuenciaslxicasenrespuestaslibres
MilrespuestasalapreguntaVeUd.latelevisincadada?constituyenuntextoenelcual
lasformassynosonpredominantes,ylasfrecuenciasrelativasdeestasformastienenuna
sencillainterpretacin,muyfamiliaralosespecialistasdelasencuestasporsondeo.
LasrespuestasalapreguntaauxiliarPorqu?formuladainmediatamentedespusdela
precedentetienenunestatutointermedio.Suscitadaspormilestmulosidnticos,puedenser
estereotipadas,perotambincomportarcontenidosyformulacionesoriginalesoinesperadas.
Limitarseasencillosrecuentosesnotoriamenteinsuficiente,inclusoteniendoencuentalas
diferencias entre las formas de las respuestas,. En cambio, reagrupar las respuestas por
categoras(edad,sexooprofesin,porejemplo)permitircontrastarlosperfileslxicosde
dichascategoras.
Textos
(Frecuencia lexicomtrica)
Figura1.1Estatutodelafrecuenciaenelcasodelaspreguntasabiertas
Lasrespuestaslibressegrabanensuformaoriginalsobresoportemagntico,conservandoel
apareamientoconlascaractersticasbsicasylasrespuestasalaspreguntascerradasdelas
personasinterrogadas.Apartirdeah,puedensufrir,sinseralteradas,unasoperacionesde
tratamientotantilescomoelementales:asignacionesoreagrupamientos.
Sepuede,porejemplo,reagruparlasrespuestasporcategorassocioprofesionales.Aslas
respuestasdelosagricultores,delosempresarios,delasamasdecasa,delosobrerosydelos
directivossepuedenexaminaraparte.Puedetratarsedecategorasodecombinacionesde
categoras relacionadas con la pregunta abierta analizada. Al reagrupar las respuestas
correspondientes a cada una de las categoras se obtienen discursos artificiales cuya
significacinestantomsclaracuantomscuidadosahasidolaeleccindelascategoras.
As,lalecturaylainterpretacinquedanconsiderablementefacilitadas;enefectoaparecen,
paracadacategora,repeticionesyasociacionesdepalabrassignificativas.Noobstante,esta
reorganizacindelainformacinbrutasepuedehacerdenumerosasmaneras.
Por tanto, los problemas que quedan son: primero, decidir cmo reagrupar de manera
pertinentelasrespuestasy,segundo,cmofacilitarlainterpretacindelosreagrupamientos
asrealizados.
Cmoreagruparlasrespuestas?
Evidentemente,laimportanciadelmododereagrupamientoesconsiderable.Existendistintas
estrategiasposiblesparaencontrarunaovariasparticionespertinentes.Dichasestrategiasson
complementariasysuutilizacinsimultneaesdegranprovecho.
Primero,sepuedenutilizarloscriteriosconsideradosmsdiscriminantes,enfuncindelos
conocimientos yaestablecidos enrelacin altema estudiado.Sisetrata,porejemplo,de
preguntasqueconciernenalaevolucindelafamilia,ysesospechaqueexisteunefectoedad
o generacional, aumentado por un efecto sociocultural, se podr utilizar una variable
compuestacruzandolaedadyelniveldeeducacindelaspersonasentrevistadas.
Sepuede,buscartambinunaparticinquesealomsuniversalposibleteniendoencuentael
tamao de la muestra: es el principio que rige la elaboracin de las situacionestipo (o
ncleos factualesque veremos ms adelante. Las principales caractersticas consideradas
relevantesfuncindelobjetivo(porejemplo:edad,categorasocioprofesional,sexo,nivelde
instruccin,regin)sesintetizanenunaparticinnicamedianteunatcnicadeclasificacin
automtica;estoequivaleasustituirunoovariosmillaresdeindividuosporunatreintenao
cincuentenadegruposlomshomogneosposiblesencuantoaloscriteriosprecitados.
Sepuedeporelcontrario,obtenerunatipologadirecta,sinreagrupamientoprevio,delas
respuestas a partir de sus perfiles lxicos (lo cual tiene sentido nicamente cuando las
respuestas no se reducen a 2 3 formas), para despus seleccionar las categoras que
presentanunmayorgradodeasociacincondichatipologayutilizarestascategoraspara
reagruparlasrespuestas.Estasdiferentesestrategiassediscutirnenelapartado3.
Losanlisisde respuestasreagrupadas son,dehecho,bastantesimilaresalosanlisisde
textosliterarios,polticosehistricos,mientrasquelosanlisisde respuestasindividuales
presentanunaciertasimilitudconlostratamientosefectuadosenlabsquedadocumental.La
originalidaddelaaproximacinprovienedelgrannmerodereagrupamientosdistintosy,por
tanto,delgrannmerodelecturasposibles.
Laoperacinelementaldeagregacindelasrespuestasfacilitamucholalecturadeltexto
original.Noobstante,lalecturadecentenaresodemillaresderespuestasparacadaparticin
5
de los entrevistados no deja de ser una tarea costosa, sobre todo cuando se trata de un
tratamientousualynodeunainvestigacinenprofundidad.Estilportantodisponerdeuna
ayudaparalacomparacindelostextosobtenidosporreagrupamiento.Elanalistadesea,
muyprobablemente,determinarlaspalabrascaractersticasdetalocualcategoraydesea
sabertambinqugruposseexpresandemanerasimilar.
Paraello,elmaterialtextualsedebeprepararysegmentardemaneraquesepuedandefinir
nuevasunidadessusceptiblesdeserreconocidasytratadasporlosprogramasdeordenador.
Elmtodoestadsticosebasaenmedidasyrecuentosrealizadossobrelosobjetosquesehan
decomparar.Laoperacinqueconsisteenrompereltextoenunidadesmnimas(esdecir,en
unidadesquenopuedensersubdivididasdenuevo)sedenominalasegmentacindeltexto.A
esta fase, suceder una fase de identificacin, es decir, la reagrupacin de las unidades
idnticas.
2.1Lacomplejidaddellxico
Enestadsticatextual,laprimeraetapaeselrecuentodelasunidadeslxicas,loqueentraa
unadificultadligadaalacomplejidaddellxico.Sucomportamientoesmscomplejoqueel
delosotroscomponentesdelhabla:ellxicosecomponedeunconjuntodeunidadesquese
puedeconsiderarabierto.Adems,ellxicovaraentrelocutores,perotambin,enunmismo
locutorvaradeunasituacinaotra.
Loslingistasencuentrangrandesdificultadesparadefinirelelementodebasedellxico.La
unidadlxica(queusualmentedenominamospalabra)sloencuentraunadefinicinrigurosa
en su manifestacin tipogrfica; la palabra es una secuencia de letras, delimitada a la
izquierdayaladerechaporunblancoosignodepuntuacin.Lapalabraasdefinidasesuele
denominarformagrfica.
Desgraciadamente, esta definicin no proporciona una unidad lingstica claramente
determinada.Poreso,esusualidentificarellema(esdecir,laentradadeldiccionario)alcual
correspondecadaformagrfica.Lareagrupacindelasdistintasformasquecorrespondena
unmismolemarequierediferenciarlasformashomgrafasysepararlaspalabrasformadas
medianteprocedimientos aglomerativos.As,antes dereagruparlasformas como,comes,
come, comemos, etc. del verbo comer, se deben diferenciar las formas homgrafas (por
ejemplo, como, forma del verbo comer, y como conjuncin) y separar los pronombres
enclticosylaformaverbal(porejemplo,separarcmeteloencometelo).
Para lematizar el vocabulario de untexto escrito en castellano se deben, principalmente,
convertir:
lasformasverbalesalinfinitivo,
lossustantivosalsingular,
losadjetivosalmasculinosingular
Otroproblemasurgedelaexistenciadeunidadeslxicascomplejas,compuestasdedosoms
unidades:palabrascompuestas,locucionesyexpresionesestereotipadas.
Laautomatizacindelaoperacindelematizacinnecesitaunanalizadormorfosintcticode
altacalidad.Inclusoas,puedensubsistirambigedadesqueslounaoperacinmanualpuede
solventar.
2.2PresentacindelcorpusSalud
Elcorpus Saludnosservirparailustrarlapresentacindelosmtodos.Enelmarcodela
investigacin La salud en las ciudades, se realiz en 1989 una encuesta mediante
cuestionarioaloshabitantesdelaciudaddeElche(Pasvalenciano,Espaa).Unodelos
objetivos era conocer mejor los hbitos y opiniones de los no especialistas sobre temas
asociados conlasalud.Mediante lapreguntaabierta "Quesparaustedlasalud?",se
querasabercmoelconceptode"salud"venapercibidoenlasdistintascategorasdela
poblacinestudiada.
Seescogiunamuestrade513personas,entrelos126000habitantesmayoresde14aosde
dichaciudad.Seentrevistaron dichas personascaraacara; las respuestas abiertas fueron
grabadas y transcritas posteriormente.El corpus as constituido servir de soporte a la
presentacindelosmtodos.Latabla2.1muestraejemplosderespuestasadichapregunta.
Tabla2.1:EjemplosderespuestasenelcorpusSalud
Identif.
-A007
A009
A010
A011
A013
A014
A015
A018
A020
A026
A029
Respuestas
estarbien,quenoteduelanadayestarsana
estarbien
notenerqueiralmdiconinada,yesnofumando,nibeber
estarfsicamentebienynotenerdolordecabeza,nidepiernas,estarenforma
algoconlocualseguimosadelante,algoquenecesitanuestrocuerpo,conel
quepodermantenernosenforma,vivir
bienestarpsquicoyfsico
lomsgrandequetieneunapersona,queestsbuena
llevarunavidasaludableyseguirunadietaequilibradayhacerdeporte
cuandotesientesbien,noteduelenadayestscontento
la salud repercute tanto en la parte fsica como mental de la persona,
encontrarsebien,aceptartucuerpoytumente,sentirtebiencontigomismo.
algoquecuandosetienenoseaprecia,ycuandonosetieneentoncessesabe
loquees:estadofsicoenelcualnosetieneningunaenfermedad.
2.4Segmentacindelcorpusenunidadeslxicas
Segmentacinenformasgrficas
Pararealizarunasegmentacinautomticadeltextoenocurrenciasdeformasgrficasse
debedefinirqucaracterestendrnelestatusde caracteresdelimitadores (todoslosotros
caracteres existentes en la pliza tendrn el estatus de caracteres no delimitadores). Una
sucesin de caracteres no delimitadores acotada por caracteres delimitadores es una
ocurrencia.Dossucesionesidnticasdenodelimitadoresconstituyendosocurrenciasdela
mismaformagrfica(opalabra,trminoqueenadelanteseemplearconestesignificado).
Elconjuntodelaspalabrasdeuntextoconstituyesuvocabulario.Condichasegmentacinse
puede considerar el texto como una sucesin de ocurrencias separadas por uno o varios
caracteresdelimitadores.Elnmerototaldeocurrenciascontenidaseneltextoessutamaoo
longitud.
Segmentacinenlemas
Sisedeseaadoptarunenfoquelexicogrfico, sepuedenlematizar las palabras obtenidas
mediante la segmentacin automtica. Esto implica definir procesos automticos que
permitan aplicar las reglas de identificacin de tal manera que se puedan reagrupar las
distintasformasquecorrespondanaunmismolema.
Seproduceambigedadcuandounamismapalabrapuedecorresponderaflexionesdelemas
distintos(porejemplo: como,delverbo comer,y como conjuncin).Enalgunoscasos,se
tratadederivacionesdeunamismafuenteetimolgicaquehaadquiridodistintasacepciones
(por ejemplo, los diferentes significados del sustantivo estado). En otros casos, se debe
resolver la ambigedad relativa a la funcin sintctica de la palabra, lo que requiere un
anlisisgramaticaldelafrasequelacontiene.Ciertasambigedadesdenaturalezasemntica
sepuedenresolvermedianteelexamendelcontextoprximo,otrasexigenelexamende
varios prrafos, incluso del conjunto del texto. A veces, la ambigedad proviene de los
diferentessignificadosdeunapalabra;dichaambigedadpuedeserintencionadayobligara
hacerunaeleccinarbitraria.
Elrepasodelosproblemasligadosalalematizacinmuestraquenopuedeexistir,alavez,
unmtodoqueseafiableyenteramenteautomatizablequepermitareducirallemacadauna
delasunidadesobtenidasdelasegmentacindeuntextoenpalabras.
Losresultadosproporcionadosporlosanalizadoresmorfosintcticosactualmentedisponibles
requierenunarevisinmanual:enefecto,aunqueelporcentajedeerroressearelativamente
bajo(5%esunporcentajeusualmenteanunciadoporsusconceptores),dichoserroressuelen
sersistemticosy,portanto,introducendistorsionesmuysensiblesenlosresultadosdelos
anlisisestadsticos.
Comparacindelosprincipalesrasgoscuantitativos
Esinteresantecompararlosrecuentosrealizadossobrepalabrasylemasparauncorpusdado.
La comparacin sirve para medir el efecto de la lematizacin sobre los recuentos
lexicomtricos.
Tabla2.2:CorpusSalud:principalesrasgoslxicos
obtenidosapartirdelrecuentodelaspalabrasydeloslemas
formasgrficaslemas
nmero de ocurrencias
nmerodepalabras
9540
1199
9326
879
10
Lasdefinicionesdelsegmentorepetido(Salem,1987)ydelcuasisegmentorepetido(Bcuey
Peir,1993;BcueyHaeusler,1995)buscanunprocedimientofcilmenteautomatizabley
totalmente independiente de la lengua y del investigador. En efecto, dichas definiciones
dependennicamentedecriteriosgrficos.
Todasucesinidnticamenterepetidadepalabrasnoseparadasporunsignodepuntuacin
llamadofuerte(esdecir,delimitadordesecuencia)constituyeunsegmentorepetidoenel
corpus.Latabla2.3muestraalgunosdelossegmentosrepetidosdelcorpusSalud.
Un cuasisegmento est compuesto de varias formas prximas, pero no obligatoriamente
contiguas. La tabla 2.4 muestra todas las secuencias del corpus Salud que contienen el
cuasisegmentohacer(...)deporterepetido11vecesentodoelcorpus.
El objetivo consiste en tener en cuenta las expresiones estereotipadas para las cuales el
criterio deinseparabilidad antes mencionado noes aplicable, aunqueel significadodela
expresinseaglobal.
Tabla2.3:Ejemplosdesegmentosrepetidos
SegmentosdelcorpusSaludqueempiezanporno(umbraldefrecuencia:5)
Frecuencia
5
28
6
14
5
5
19
5
5
23
86
5
11
11
26
20
7
8
18
25
9
Segmentorepetido
no dolerte nada
no estar
no estar enferma
no estar enfermo
no le duela
no padecer de
no se
no se puede
no se tiene
no te
no tener
no tener dolores
no tener enfermedades
no tener nada
no tener ninguna
no tener ninguna enfermedad
no tener ninguna enfermedad y
no tener ningn
no tiene
no tienes
no tienes salud
Tabla2.4:SecuenciasdelcorpusSalud
quecontienenelcuasisegmentohacer(...)deporte
Frecuencia Secuencia del corpus
6
2
2
1
hacerdeporte
haceralgodedeporte
hacerunpocodedeporte
hacerdevezencuandodeporte
Debequedarclaroquelasegmentacindelcorpusenformasolemasylasegmentacinen
segmentosrepetidosocuasisegmentosrepetidosnotienenelmismoestatus.Eltextoinicialse
11
puedevercomolaconcatenacindeocurrenciasdelasformasidentificadas,nosiendoas
cuandosetrabajaconlossegmentos.Enconcreto,lasegmentacindelcorpusensegmentos
repetidosproduceunidadeslxicasquesesolapan(porejemplo,lossegmentosnotener,no
tenerninguna,ynotenerningunaenfermedad).
2.6Elcorpusetiquetado
Lalematizacinautomticadelcorpuscomportaunafasedeetiquetadoautomticodelas
ocurrenciasdelcorpus:estafaseproporcionalacategoragramaticalcorrespondienteacada
unadelasocurrencias,ademsdesulema.Latabla2.5muestraunejemplodecategorizacin
gramaticaldetresrespuestasdelcorpusSalud.
Tabla2.5:EjemploderespuestasdelcorpusSalud
conuncdigodecategoragramaticalparacadaocurrencia
Identif.
Respuestas
- A014
- A015
- A016
Anteriormentehemosvistoeltextocomounasecuenciadeocurrenciasdeformasgrficaso
de lemas. Podemos tambin verlo como una secuencia de ocurrencias de categoras
gramaticales. Los anlisis se pueden efectuar a partir del recuento de dichas categoras;
pondrnderelieveotrosrasgosdelostextosestudiadosylosresultadosenriquecernlos
obtenidosapartirdelasformasodeloslemas.
Lasexperienciasrealizadasapartirdetextosendistintaslenguasmuestranque,lamayorade
lasveces,lascaractersticas morfosintcticas decadalenguanoconstituyenunobstculo
insalvableparaelanlisisdelostextosmediantemtodosdeestadsticatextual.Comosever
acontinuacin,lastipologasrealizadasapartirderecuentostextualesserevelanrobustas
frente a las variaciones en la eleccin de la unidad de segmentacin. La palabra,
recordmoslo,noconstituyeunaunidadnaturalparaanalizarlostextossinoquepresentala
ventajadefacilitarlaautomatizacindelosrecuentos.
12
Enelcasodelasrespuestasabiertas,elenfoquepropuestoenelprrafo3.1presuponequelas
respuestassehanreagrupadoentextosartificiales(segnlaclasedeedad,laprofesin,el
niveldeinstruccinuotrocriteriopertinenteenrelacinconelfenmenoestudiado).
Confrecuencia,loscriteriosdereagrupamientomsadecuadossuelenserdesconocidosa
priori.Portanto,seproponenenlosprrafos3.2y3.3dosestrategiasaconsejablescuandono
seimponedemaneraclaraningncriteriodereagrupamiento:
a)
3.1Anlisisdecorrespondenciasdeunatablalxica
Las tablas lxicas de base
Dostiposdetabla:
Latablalxica,otabladecontingenciaIndividuosPalabras
Latablalxicaagregada,otabladecontingenciaGruposdeindividuosPalabras
13
14
Tabla3.1:VocabulariodelapreguntaSalud(Ordenalfabtico)
PalabraFrecuencia
a
93
ahora
12
al
21
algo
23
alimentacin
24
as
15
beber
13
bien
235
bienestar
21
buen
13
buena
33
bueno
28
cada
11
comer
16
como
50
con
63
cosa
35
cosas
32
creo
21
cualquier
14
cuando
24
cuerpo
49
cuidarse
13
de
298
del
33
deporte
17
dinero
23
dolor
13
dolores
10
duela
21
ejercicio
12
el
116
en
165
encontrar
14
encontrarse
64
enfermedad
47
enfermedades
19
enfermo
26
es
278
eso
52
estado
27
estar
181
estoy
13
est
51
ests
22
est
17
feliz
13
forma
20
fumar
18
PalabraFrecuencia
fsica
28
fsicamente
35
fsico
36
ganas
21
general
13
gusto
13
hace
11
hacer
45
hay
54
he
10
importante
53
ir
17
la
269
las
37
le
17
llevar
176
lo
52
los
11
luego
17
mal
13
malo
28
me
41
mejor
10
menos
16
mental
10
mentalmente
10
mente
10
mismo
15
muchas
11
mucho
16
muy
39
ms
86
m
22
nada
117
ni
82
ninguna
56
ningn
36
no
416
norma
10
o
46
otra
12
para
104
pero
24
persona
78
poco
22
poder
24
por
41
porque
52
principal
29
15
PalabraFrecuencia
problema
16
problemas
21
psquicamente
15
psquico
13
pueda
13
puede
23
puedes
12
pues
35
que
432
salud
190
sana
55
sano
45
se
104
s
14
sea
17
sentirse
19
ser
15
si
78
s
11
siempre
14
siente
11
sin
33
sino
10
su
13
tambin
29
tanto
19
te
64
tenemos
12
tener
168
tenga
17
tengo
12
teniendo
12
tiene
42
tienes
51
tipo
14
todo
88
todos
23
trabajar
28
trabajo
36
tu
29
un
80
una
148
uno
66
vida
52
vivir
36
y
358
ya
20
yo
40
Tabla3.2:Extractodelglosariodesegmentos
(Umbralgeneral:5,paralossegmentosdelongitud2:15,paralossegmentosdelongitud3:5)
Nmero Frecuencia
Longitud Textodelsegmento
la
58
15
2
lapersona
59
97
2
lasalud
60
42
3
lasaludes
61
5
4
lasaludesestar
62
9
4
lasaludeslo
63
7
3
lasaludno
64
18
2
la vida
---------------------------------------------llevar
65
9
3
llevar una vida
---------------------------------------------lo
66
30
2
lomejor
67
13
3
lomejorque
68
8
4
lomejorquehay
69
42
2
loms
70
30
3
lomsimportante
71
26
2
loprincipal
72
33
2
lo que
---------------------------------------------ms
73
31
2
ms importante
---------------------------------------------mejor
74
16
2
mejorque
---------------------------------------------ninguna
75
31
2
ninguna enfermedad
76
8
3
ninguna enfermedad y
---------------------------------------------ningn
77
5
3
ningn tipo de
---------------------------------------------no
78
5
2
nodolertenada
79
28
3
noestar
80
6
3
noestarenferma
81
14
3
noestarenfermo
82
5
3
noleduela
83
5
3
nopadecerde
84
19
2
nose
85
5
3
nosepuede
86
5
3
nosetiene
87
23
2
note
88
86
2
notener
89
5
3
notenerdolores
90
11
3
notenerenfermedades
91
11
3
notenernada
92
8
3
notenerningn
93
26
3
notenerninguna
94
20
4
notenerningunaenfermedad
95
7
5
notenerningunaenfermedady
96
18
2
notiene
97
25
2
notienes
98
9
3
no tienes salud
16
Tabla3.3:Extractodelatablalxicaagregadacruzandolas146palabrasconlas
8categorasdeedadsexo
a
ahora
al
algo
alimentacin
as
beber
bien
bienestar
buen
buena
bueno
cada
comer
como
con
cosa
cosas
creo
cualquier
cuando
cuerpo
cuidarse
de
del
deporte
dinero
dolor
dolores
duela
ejercicio
H20
4
0
3
9
1
2
3
9
0
0
3
1
0
1
4
5
1
3
2
2
4
5
1
9
1
2
0
0
0
1
1
H35
19
0
2
4
3
2
1
28
3
3
4
1
4
2
17
12
7
6
3
3
3
9
4
56
6
7
0
1
0
1
4
H50
11
2
2
1
4
2
1
18
3
1
5
0
1
1
6
1
3
3
0
2
6
1
1
27
0
4
3
0
1
3
0
H+50 M20
8
6
0
1
1
2
0
2
1
3
2
2
3
1
22
37
2
2
1
1
2
4
7
5
3
0
3
0
6
6
3
8
4
3
7
2
0
2
0
0
3
3
4
12
3
2
47
22
8
4
0
0
4
2
0
0
0
0
2
1
3
0
17
ir
uno
malo
Eje 2 pueda
(19 %)
ya
tenemos
menos
sea
cuidarse
mentalmente
general
problema
H+50
principal trabajo
normal
ejercicio
hacer beber
cosas
como
tiene
ser
puede
salud
poder
mejor
est
ni
poco
hay
ninguna
pues
H-35
cuando
todos
forma
tanto
H-20
M-50
mismo
deporte
bueno
fumar
H-50
tener
. Eje1
hace
algo
yo
enfermo
come eso
nada
fsica (30 %)
porqueestar
tengo
mal
r
cuerpo encuentra
M+50
teniendo
estoy
trabaja
buena feliz vidasiente
enfermedad tu
tienes
para
sentirse
r
fsicamente
M-20
enfermedades
te
fsico
buen
sano
me
sana estado
s
duela
M-35
importante
bien
mental
mucha
dinero
cualquier
s muy
llevar
su
psquico
m
tambin
creo
he
pero
dolores
puedes
ganas dolor
alimentacin
encontrarse
psquicamente
ahora
Figura3.1:Anlisisdecorrespondenciasdelatabla34
(noserepresentantodaslaspalabras)
aos),ylaparticinsegnelsexo.LainicialHidentificalascategorasmasculinas,laM,las
categorasfemeninas.Enloreferentealascategorasdeedad,stasvienenindicadaspor20,
35,50y+50quesignifican,respectivamente,de14a20aos,de21a35aos,de36a50
aosymayorde50aos.
Para analizar la informacin contenida en la tabla de contingencia as obtenida, cuyas
primerasfilasvienenpresentadasenlatabla3.3,secalculanlastablasdeperfilesfilayde
perfilescolumna.Apartirdeestastablas,lasdistanciasentrepalabras,porunaparte,ylas
distanciasentrecategoras,porotra,secalculanysevisualizan.Elobjetivodelanlisisde
correspondenciases,justamente,proporcionarestadescripcindual.
Anlisis e interpretacin de una tabla lxica
La figura 3.1 muestra el primer plano factorial, es decir, el plano generado por los dos
primeros ejes factoriales del anlisis decorrespondencia de latabla C.Las 146palabras
activasnoestntodasrepresentadasenelgrfico.
Losdosprimerosvalorespropiosvalen,respectivamente,0.0695y0.0445ycorrespondenal
30%y19%delavarianzatotal(oinerciatotal),cuyovaloresigualalatrazadelamatriz
diagonalizada.
Laconfiguracindelospuntoscolumnaesmuyregular:apartirdeunainformacinlxica
(contenida enlosperfilescolumna,quesonlasdistintas distribuciones delasocurrencias
entre las palabras segn la categora de edad sexo), se vuelve a encontrar el carcter
compuestodelaparticindelosindividuosen8categoras.
Paracadasexo,lascategorasdeedadvienenordenadasalolargodelprimereje,desdelos
msjvenesaladerechadeleje,hastalosmayoresalaizquierda(convienerecordarquela
orientacindelosejesnotieneningnsignificado;encontrarlamismaconfiguracinen
espejoconduciraalamismainterpretacin).
Laconfiguracinobservadasugierelaexistenciadeunaevolucinprogresivadelvocabulario
conlaedad.Existe unimportante desfaseentrelos sexos:lacategora femenina deuna
determinadaclasedeedadseencuentra,sobreelprimereje,aproximadamentealamisma
alturaquelacategoramasculinadelaclasedeedadinmediatamentesuperior.Sepuededecir
quelaevolucindelvocabularioesdistintasegnelsexo;latransicinhaciaelempleode
determinadaspalabrassehaceaedadesdistintas,aunaedadmstempranaparalamujer.
Puedeapreciarse,tambin,quelasdostrayectorias,ladelasmujeresyladeloshombres,de
clasesdeedadsonparalelasperoopuestassobreelsegundoeje:lascategorasmasculinasse
sitanenlapartesuperiordelgrfico,lascategorasfemeninassesitan exceptolaque
correspondealasmujeresentre35y50aosenlaparteinferiordelgrfico.Estefenmeno
refleja la existencia de palabras de uso mayoritariamente masculino y de otras de uso
mayoritariamentefemeninoqueseoponensobreestesegundoeje.
Elestudiodelaspalabrasrepresentadasenelgrficoaportainformacinsobrelanaturaleza
delaevolucinporedadydelaoposicinporsexolimitada,enestemomentodelanlisis,
por la ausencia del contexto en el cual se emplean. Adems, no se debe olvidar que la
representacin simultnea se apoya en las relaciones de transicin, lo que no permite
interpretarlaproximidadentreunapalabrayunacategora,sinosolamentelaposicindeuna
palabraconrelacinatodaslascategoras,olaposicindeunacategoraconrelacinatodas
laspalabras.Porejemplo,algo,general,deporte,fumar,cualquier,problema,fsico,fsica,
fsicamente, forma, encuentra se sitan, claramente, en el extremo del primer eje, que
19
correspondealosjvenes.Laposicindeprincipal,mejor,tengo,estoy,heydolorespermite
verquesonutilizadas,sobretodo,porpersonasmayores.
Interpretacin
Sepuedenhacerahoraalgunoscomentarios:
a) La indexacin automtica de las palabras y los clculos de frecuencia as permitidos
ignoran de manera deliberada numerosas informaciones de tipo semntico o sintctico,
conocidos de cualquier lector. La sinonimia no se tiene en cuenta, al igual que la
homonimia. No obstante, la prctica de este tipo de anlisis aplicado a muestras
importantes ensea que, a pesar de la prdida de este tipo de informacin, el anlisis de
los discursos artificiales construidos mediante la yuxtaposicin de repuestas, permite
poner de relieve repeticiones significativas y rasgos estructurales.
En el contexto estadstico, la segmentacin en palabras puede revelarse tan interesante
como la segmentacin en lemas. Se puede ver que, por ejemplo, sano y sana ocupan
posiciones prximas sobre la figura 18 (en el cuadrante inferior derecho), lo que muestra
que conservar estas dos formas del adjetivo sano como distintas no crea ningn
problema. Por el contrario, estar y estoy se encuentran muy distantes : la primera se
encuentra muy prxima al centro de gravedad, ligeramente por debajo y a la izquierda ;
la segunda en el extremo izquierdo del primer eje, ligeramente por debajo del eje. Esta
oposicin indica que estas dos palabras se utilizan en contextos muy distintos, lo cual es
interesante e informativo : estar tiene un uso poco diferenciado segn la categora de
edad (para poder hacer esta afirmacin, adems de la posicin central de la palabra, tiene
que observarse una buena calidad de representacin, como es el caso), mientras que la
posicin de estoy indica que su uso en las respuestas de las personas mayores. Se puede
constatar, mediante un retorno al texto, que estar es empleado sobre todo en
definiciones de la salud tal como no estar malo, mientras que el uso de estoy
corresponde a comentarios sobre el propio estado de salud (estoy bien malo, yo no estoy
bien, etc.), mucho ms frecuentes en las respuestas de los mayores.
En este ejemplo y en otros, se puede apreciar que las posiciones de varias flexiones de
un mismo verbo y las de los sinnimos pueden ayudar a confirmar la interpretacin de
ciertas zonas del plano factorial. En particular, la proximidad entre palabras distintas,
pero con afinidades semnticas, constituye un criterio de validacin de los resultados
empricos obtenidos.
b) La conservacin de las palabras gramaticales (como de, los, para, que, etc.) no perturba
el anlisis. Su distribucin no suele ser aleatoria entre las diferentes categoras de
entrevistados. Por lo tanto, sus perfiles se pueden apartar del perfil medio (que
corresponde al origen de los ejes), con lo cual se situarn en posiciones significativas en
los grficos factoriales.
c) El orden de las palabras en las respuestas no se tiene en cuenta : cada discurso se ve
como un saco de palabras y, en realidad, slo se explota el perfil de frecuencias. Se
pierde aqu una parte importante de la informacin, aunque un perfil de frecuencias se
revela mucho ms rico en informacin que lo que cabe imaginar a priori : evidentemente,
un perfil lxico, es decir, en este ejemplo, una serie de 146 subfrecuencias, no tiene
mucha significacin por s slo, pero la comparacin de varios perfiles lxicos aporta,
una informacin abundante. Siguiendo la misma ptica frecuencial, la bsqueda de los
segmentos repetidos permite tener en cuenta las ocurrencias de las unidades ms ricas
desde el punto de vista semntico, lo cual no ocurre si consideramos solamente las
palabras aisladas. La seleccin de las respuestas modales, presentada en el prximo
captulo, permite conocer todava mejor el contexto de uso de las palabras lo cual aclara,
frecuentemente, su significado.
20
no hay
lo mejor que
H-35
lo principal
H-20
es lo mejor
M-50
H-50
Eje1
ninguna enfermedad (30 %)
estar sano
el cuerpo
M+50
no estar
no tener nada lo ms importante
no tener enfermedades
bien en
M-20
M-35
yo creo que es
si no tienes
que no te duela
no tener ninguna enfermedad
encontrarse bien
Figura3.2:Algunossegmentoscomoelementosilustrativos
21
Enlosdosanlisis,lasposicionesdelospuntoscategorasobreelprimerejerespetanel
ordenindicadoporlaedad:estefenmenonoconstituyeunaprueba,peroserefuerzaasla
conjeturaqueexisteunaconexinentrelaedadyelvocabularioempleado,quesemanifiesta
medianteunarenovacinprogresivadelvocabularioconlaedad.
padecer
uno
ya
Eje 2
(20 %)
deber
malo
dar
dolencia
comer
principal
H+50
mantener
poco
cuidarse
cuando
ejercicio
si
beber
salud
persona
como algo
H-20 cuidar
fumar
forma
deporte
H-35
poder
mdico
pues hacer
mismo
fsico
problema
ser cosa ningn
estado
tener
normal sentir
Eje1
tu
cuerpo
tanto
(32%)
H-50
M+50
mental
estar
mal
ni trabajar
M-20
saber
M-50 para
sentir
haber
vivir
creer
psquico
enfermedad vida
yo
bienestar
feliz
fsicamente
sano
bien
tambin
cualquier
hijo
enfermo
M-35
su
ver
importante
llevar
doler
encontrar
dinero
muy
mejor
trabajo
mi
gana dolor
psquicamente
ahora pero funcionar
alimentaci
n
mi
Figura3.3:Anlisisdecorrespondenciasdelatabladecontingencia
LemasCategoras
3.2Particinensituacionestipo
Comosehavisto,puedesernecesarioreagruparlasrespuestasantesdeefectuarunanlisis
estadstico.Losperfileslxicosdelosgruposderespuestaspresentanunamayorregularidad
yseinterpretanmsfcilmentequelosperfilesfiladelasrespuestasaisladas.
23
Elejemploanteriormostrcomounreagrupamientoaprioripodarealizarseenfuncinde
unahiptesisinicial.Noobstante,laseleccindelavariabledereagrupamientoimplicaun
slido conocimiento del fenmeno estudiado, lo que no suele verificarse en los estudios
llamadosexploratorios.
La tcnica llamada particin en situacionestipo aportar elementos de solucin a dicho
problema.Dadaunalistadedescriptoresdelosindividuos,seplanteaelproblemaderepartir
dichos individuos en grupos lo ms homogneos posibles respecto a las caractersticas
seleccionadas,sinprivilegiarningunaapriori.Setratadeaproximarsealasituacinceteris
paribusenelinteriordecadagrupo,situacinparticularmentedifcildealcanzarenciencias
sociales.Esjustamenteloqueunalgoritmodeclasificacinpermiteobtener,enlamedidade
loposible.
Unejemplo
Alanalizarlasrespuestasabiertas,unodelosobjetivosesobtenerunavisinglobaldelas
respuestas.Noobstante, ladiversidad de temas abordados enla encuesta, yportanto la
variedad previsibledel contenidodelas respuestas,haceimposible conocerdeantemano
cualessernloscriteriosdereagrupamientomspertinentes.
Apartirdeunabaterade10descriptores,listadosacontinuacin,sereagrupanalos513
individuosentrevistadosen10clases.
La figura 3.4 representa el corte del rbol jerrquico correspondiente a las 10 clases
finalmenteconservadasyproporcionaunadescripcinsumariadelacomposicindecada
unadedichasclases.
Lafigura3.5muestraelplanoprincipalobtenidoalsometeralanlisisdecorrespondenciasla
tabla lxica cruzando las 146 palabras ms frecuentes, en filas, con las 10 clases, en
columnas.Sloseconservaronalgunaspalabrasendichafigura.
Tabla3.3Listadelosdescriptoresutilizadosparaconstruirlaparticintipo
Listadedescriptores(variablesactivasenlaclasificacin)
Nmerodemodalidades
Estadomatrimonial
Posicinenlafamilia
Niveldeestudiosdelentrevistado
Niveldeestudiosdelcabezadefamilia
Situacinlaboraldelentrevistado
Situacinlaboraldelcabezadefamilia
Ingresosdelhogar(enclases)
Titulacinporedad
Sexoporedad
Lugardeorigen
6
4
6
7
10
10
6
10
9
4
24
1
2
Jovenes solteros
4
30-50 Mujer
H&M >50
Hombres 30-50
Casados y viudos
Bac o Universidad
10
Leyenda
H: Hombre
M: Mujer
C: casado
V: Viudo
Figura3.4:Particinen10situacionestipo
Los grandes rasgos de la descripcin proporcionada por este anlisis se habran, quiz,
detectados mediante reagrupamientos sucesivos operados descriptor a descriptor. As, las
personasconunciertoniveldeeducacintienenunconceptomsglobaldelasalud,las
personas mayores tienden a evocar problemas que las conciernen personalmente (sus
problemasdesalud),etc.
Noobstante,algunosmaticesmsdifcilesdecaptarpuedenaparecer.Enparticular,eneste
estudioparecequelaedadjuegaunpapeldistintosegnelniveldetitulacin.Elprimereje
separalosjvenesalaizquierda(grupos1y2)delosmayoresde30aosaladerecha;no
obstante,elgrupo8,compuestodelaspersonasmayoresde30aosconunnivelaltode
estudios(relativamentealconjunto),escapaalatendenciageneralysesitaenlapartedel
ejequecorrespondealosjvenes.Losdosgruposdemujeresde30a50aos,losgrupos3
(conestudioselementales)y4(sinestudios),ocupanposicionesprximasyseapartandelos
grupos6y7quecontienenloshombresdeestamismaedad:paralosentrevistadosdeesta
categora de edad, el sexo parece tener una influencia importante sobre la eleccin del
vocabulario. Adems, se puede notar que el grupo 6, que contiene el mayor nmero de
hombresdeestacategoradeedad,noestbienrepresentado .enesteplano,loqueconfirmala
particularidaddelvocabulariodeloshombresentre30y50aos,yapuestaenevidenciaenel
estudio efectuado en el prrafo 3.1. Los grupos de mayores de 50 aos se encuentran
agrupados,hombresymujeres,sinestudiosoconestudioselementales(los9entrevistados
mayoresde50aosconestudiossuperioresseencuentranrepartidosentrelosgrupos8y
10):paralosmayores,elfactormsimportante,enloreferentealaeleccindelvocabulario
paracontestaralapreguntasobrelasalud,eslaedad.
25
siente
problema algo
vida
alimentacin
llevar
forma
Eje 2 (14%)
normal
deporte
vivir
enfermedad
puedes
importante
2
mentalmente
cuerpo
feliz
sentirse
estado
a gusto
dolor
1
fsico
mismo
como
dolores
dinero
tienes
todo
Eje 1 (26%)
persona
psquico
enfermo
ganas
hacer
salud
pues
yo
mejor
trabajar
comer
Mental
8
10
tengo
malo
bienestar
poder
estoy
principal
Figura3.5:Proximidadesentrelas10situacionestipoyalgunaspalabras
seleccionadas
Estasconstatacionesindicanquelosfactoresqueinfluencianlaeleccindelvocabulariono
sonlosmismosenlasdistintasedades.Adems,losresultadoshacenpensarqueelnivelde
educacin,noestudiadoenelanlisisanterior,merecesindudaunaatencinparticular.
Relativamenteaestamismapreguntaabierta,latcnicadelasrespuestasmodales,presentada
enelsiguienteapartadopermitirresituarensucontextolaspalabrasrepresentadasenesta
figura,yasenriquecerconsiderablementelainterpretacindelasclases.
3.3Anlisisdirectodelasrespuestasodocumentos
Hastaahorasehananalizadolosperfilesdefrecuenciasdelaspartesdeuncorpus,cuando
dichas partes constituyen textos relativamente importantes desde el punto de vista de la
longitud. Para obtener tales textos a partir de un fichero de respuestas libres, se debi
procederareagrupamientosaprioridedichasrespuestas,segnuncriterioescogidotambin
apriori.
Noobstante,elanlisisdecorrespondenciassepuedeaplicaravecesconprovechoalas
respuestasindividuales.Estetratamientodirectodelosdatosindividualesserecomiendaen
losdoscasossiguientes:
26
a)
Cuandolasrespuestassonsuficientementericasdesdeelpuntodevistalxicopara
quesepuedancompararconprovecholosperfiles defrecuencias.Eselcasode
entrevistasenprofundidadenelmbitopsicolgicoomdico,obienenelestudiode
textos sociopolticos como discursos gubernamentales, programas de partido,
artculosextensosdeprensa,etc.
b)
Estclaroqueelprimercasosesitaenelmarcodelosmtodospreconizadosenlosprrafos
precedentes:unadescripcindirectadelasrespuestasesahoraposible.Nocierralapuerta
definitivamente a ulteriores reagrupamientos, si esto puede ayudar a la interpretacin o
permiteponerapruebaciertashiptesis.
Elsegundoessensiblementedistinto:lanocindeperfilnotieneentonceselmismosentido.
En trminos estadsticos, la varianza interindividuos no tiene el mismo estatus que la
varianzaintercategoras.Lasrespuestassedistinguenmsporlapresenciaoausenciade
formasqueporverdaderasvariacionesentreperfilesdefrecuencia.
Cmo interpretar las distancias?
Se empezar por tomar un ejemplo simple de respuestas libres a una pregunta sobre la
seguridadencarretera,cuyoredactadoeselsiguiente:
Despus de la pregunta cerrada preliminar: En vuestra opinin, es posible disminuir
fuertementeelnmerodemuertosyheridosenlosaccidentesdetrfico?(respuestas:s/no),
sepreguntaalosquehancontestados(alrededordel80%delosencuestados):Qusedebe
hacerparaesto?
Sepuedeentoncesencontrarrespuestasdeltipo:
Desarrollarelusodetransportespblicos
obien:
Incitaralagenteautilizarlomsquepuedalostrenes,losautobuses
quesondosrespuestasteniendorespectivamente6y13ocurrencias,sinningunapalabra
comn,ycuyoscontenidossonbastantevecinos.
Alainversa,lasdosrespuestassiguientesalamismapregunta:
respetarloslmitesdevelocidad
hacerrespetarloslmitesdevelocidad
nosedistinguensinoporunasolapalabraytienen,noobstante,contenidossensiblemente
distintos.
Este ejemplo corresponde a una situacin real, pero relativamente excepcional. En el
tratamiento de tablas lxicas agregadas, las respuestas de este tipo son, en general,
sumergidas en clases cuyo perfil lxico medio presenta una cierta regularidad. De todos
modos,estosejemplosmuestranquelasdistanciasentrerespuestasindividualesnopodrnser
interpretadasfcilmente.
Nuestrapreocupacinnoes,sinembargo,procederaunadecodificacinexhaustivadela
informacin,sinoutilizarlasredundanciasyrepeticiones,cuandoexistan,parasimplificarla.
Estclaroqueunanlisisdirecto,endichascondiciones,permitir,almenos,reagruparlas
respuestasidnticasosimilares,dejandoenunprimertiemponoclasificadaslasrespuestas
quesedistinguenporlaoriginalidaddesuforma.
27
De hecho, en el anlisis de una tabla dispersa como la tabla T, los primeros ejes factoriales no
contienen ms que una parte muy pequeadelavarianzaglobal(losvalorespropiosson1=
0.24 y 2=0.23, y los porcentajes correspondientes son 1=3.6% y 2=3.4%). El
decrecimiento de los valores propios es muy dbil, los porcentajes de varianza
correspondientes tambin. Los diez primeros ejes no restituyen sino un 25% de la varianza
total. Estos porcentajes, altamente significativos respecto a la hiptesis de independencia
entrepalabrasyrespuestas,nosedebeninterpretarcomoporcentajesdeinformacin.
Eje
bienestar estado
2
(3.4%)
parte
cuerpo
mente
tipo
sentir
persona
forma en
psquicamente
funcionar
deber
fsicamente
problema
dolencia
feliz
encontrar
ningn
creer
algo
dolor
Eje 1
enfermedad
bien
padecer
sano
cuidar
normal
(3.6 %)
ejercicio alimentacin
tener
vida
estar ni
no
gana
lleva
r
hacer
importante
comer
nada
doler
enferm
o
quere
dinero
r
principal
ni_nada
deporte
mejor
fumar
beber
Figura3.6:Anlisisdirectodelatabla"Respuestas*Formas"
Asociacionesentreformasgrficasenlasrespuestas
palabras prximas aparecen con frecuencia en las mismas respuestas (por ejemplo, ningn
dolor) o, aunque no se empleen en las mismas respuestas, tienen contextos muy parecidos y,
de hecho, mantienen con frecuencia relaciones de sinonimia (por ejemplo, dolor o dolencia
empleadas respectivamente en no tener dolor y no tener dolencia). Por estas razones, se
pueden reconstituir, de manera grosera, ciertos elementos de frases sobre el grfico: no
padecer ningn dolor/ ninguna dolencia/ ninguna enfermedad, y no tener ningn dolor/
ninguna dolencia/ ninguna enfermedad aunque las palabras no y tener ocupen posiciones ms
centrales porque aparecen tambin en otros contextos.
Al otro extremo de este primer eje, se encuentran deporte, fumar, beber, alimentacin, cuidar,
etc. Evidentemente, no son los mismos individuos los que emplean estas palabras y las del
grupo anterior.
No se obtiene, en este caso, una sntesis visual, como ocurre con las tablas lxicas agregadas
(figuras 3.1 y 3.3) sino una extraccin progresiva de la informacin, obtenida pelando trozo
a trozo los resultados ofrecidos por los primeros planos factoriales.
Validacinexterna:variablessuplementariasyvalorestest
Los individuos entrevistados (o los documentos estudiados) no son interesantes de por s. No
obstante, sus caractersticas (es decir, las caractersticas sociodemogrficas en el caso de las
encuestas, los ttulos de los peridicos, los campos de investigacin en caso de la recuperacin
automtica de informacin) son conocidas.
En el ejemplo, las variables categricas correspondientes a estas caractersticas constituyen los
bloques de la matriz T+, descrita anteriormente.
Se pueden valorar las coordenadas de estas variables suplementarias mediante el clculo de
"valores-test" que proporcionan una medida de su significacin estadstica.
Supongamos que una categora suplementaria j contiene nj individuos (personas entrevistadas
o documentos). La hiptesis nula es que los nj individuos son escogidos al azar (sin reposicin)
entre los n individuos estudiados. En estas circunstancias, para un eje dado, la abscisa j
de una categora suplementaria con nj individuos es una variable aleatoria, de media 0 y
varianza v(j,nj). Entonces, t(j)=j /v(j,nj) es una variable aleatoria estandarizada (de media 0,
y varianza 1). Adems, t(j) es asintticamente normal . Por tanto, un valor test t(j) mayor
que 2 menor que -2 (para utilizar una aproximacin usual, y no los valores exactos 1.96 y
-1.96) indica una posicin significativa de la categora j sobre el eje (con un nivel de 0.05).
1
1La varianza es la misma cualquiera que sea el eje considerado (ver L. Lebart y otros : Multivariate
Descriptive...,).Vienedadaporlaformula:v(j,nj) =
n 1 1
.
n nj nj
30
Tabla3.4:Posicionamientodelasmodalidadesilustrativas
sobreelplanodelanlisisdirectodelasrespuestas
(lascategoras"nocontesta"noseindican)
MODALIDADES
sexo
hombre
mujer
Nivel de estudios
ni leer ni escribir
sin pero sabe leer
estudios primarios
EGB, bac elem
bac superior, FP
universidad
edad en 4 clases
menor de 21 aos
de 21 a 35 aos
de 36 a 50 aos
mayor de 50 aos
sexo edad
hombre <21 aos
hombre 21-35 aos
hombre 36-50 aos
hombre >50 aos
mujer <21 aos
mujer 21-35 aos
mujer 36-50 aos
mujer >50 aos
edad titulacin
<30 aos-sin est.
<30 aos-element.
<30 aos-bac y ms
30-50 aos-sin est.
30-50.aos-element.
30-50 aos-bac y ms
>50 aos-sin
>50 aos-elem
>50 aos-bac y ms
EFF.
DISTO
COORDONEDADAS
1
2
VALORES-TEST
1
2
205
308
1.25
.80
.14
-.11
.09
-.07
11.2
-11.2
6.9
-6.9
40
133
150
90
71
29
16.05
2.97
2.44
5.21
4.40
18.10
-.19
-.01
.00
-.09
-.14
-.01
-.55
-.41
-.10
.12
.49
1.06
-4.3
-0.4
0.2
-3.4
5.9
0.2
92
165
108
147
5.32
1.67
4.50
2.53
-.05
.08
-.05
-.04
.41
.15
-.09
-.37
-2.0 15.7
5.2 10.3
-2.2 -3.6
-2.4 -20.4
40
63
41
61
52
102
67
86
15.12
5.13
10.54
6.59
9.38
3.72
9.52
5.60
.11
.27
.00
.09
-.16
-.07
-.10
-.16
.49
.28
.09
-.34
.36
.06
-.25
-.40
2.5 11.1
10.6 10.7
.1
2.4
3.0 -11.5
-4.5 10.3
-3.3
2.6
-3.0 -7.1
-5.9 -14.8
11
118
65
59
86
26
103
35
9
39.40
3.37
5.14
10.13
5.48
17.29
4.10
12.80
49.36
.86
-.03
.17
-.25
-.08
.05
-.06
.06
-.21
-.07
.16
.48
-.43
-.20
1.13
-.49
-.23
.31
12.1
-.9
-1.3
7.8
6.6 18.6
-6.8 -11.9
-3.1 -7.4
1.1 23.9
-2.8 -21.1
1.5 -5.5
-2.6
3.9
-12.1
-20.9
-5.8
4.7
20.4
22.0
31
como se poda ver sobre la figura 3.3 (primer plano factorial del anlisis de correspondencias
de la tabla lxica lematizada agregada por edad y sexo), y como lo confirma la comparacin de
las frecuencias relativas de dicha palabra en las dos partes correspondientes a las dos
categoras de sexo (11 ocurrencias de padecer y una frecuencia relativa igual a 0.26 para los
hombres, 5 ocurrencias y una frecuencia relativa igual a 0.10 para las mujeres). Lo que ocurre
es que dicha palabra est asociada con frecuencia a otras palabras de uso mayoritariamente
femenino (como dolor, palabra muy caracterstica de las mujeres que la emplean en 21 de sus
23 ocurrencias).
30-50 Bac-Univ
UNIVERSIDAD
BACHILLER
Eje 2
Menor de 21 aos
<30 Bac-Univ
Hombre < 21
Mujer < 21
Hombre 21-35
>50 Bac-Univ
<30 Elementales
De 21 a 35 aos
EGB
0.1
Hombre 36-50
HOMBRE
Mujer 21-35
0.1
MUJER
Eje 1
<30 sin estudios
De 36 a 50 aos
PRIMARIOS
30-50 Elementales
Mujer 36-50
>50 Elementales
Mayor de 50 aos
30-50 sin estudios
Mujer > 50
Hombre > 50
Figura3.7:Posicindealgunascategorassociodemgraficas
enelplanofactorialrepresentadoenlafigura3.6
Como puede observarse, las asociaciones entre palabras son complejas. Las frmulas de
transicin (captulo 5) permiten ver que una categora suplementaria se sita, salvo producto
por una constante, en el centro de gravedad de las palabras que los individuos de dicha
categora emplean. Se debe recordar que no se puede interpretar, directamente, la proximidad
entre una categora y una palabra. Los valores-test altos asociados a las modalidades de la
variable sexo sobre el primer eje (y sobre los dos ejes siguientes) indican que existe una fuerte
asociacin entre el vocabulario y el sexo sin que, en este momento, se puedan indicar las
palabras implicadas en esta asociacin.
Se puede apreciar que tanto la edad como la titulacin parecen jugar un papel importante a lo
largo del eje vertical. Las categoras de edad se encuentran ordenadas sobre este eje, y las
modalidades menor de 21 aos, en un extremo del eje, y mayor de 50 aos, en el otro, tienen
valores-test iguales a 15.7 y -20.4. Es interesante notar que la evolucin segn la edad es
32
similar en los dos sexos: las trayectorias de las distintas clases de edad son
aproximadamente paralelas.
Lascategorasdetitulacinseencuentran,tambin,totalmenteordenadassobreesteeje ,ylas
cuatrocategorasextremasmuestranvalorestestmuyelevados.Existe,evidentemente,una
alta correlacin entre el nivel de titulacin y la edad: los jvenes son claramente ms
tituladosquelosmayores.
2
Pero debe advertirse que las modalidades de la variable edad titulacin ocupan posiciones
que rompen con el patrn de las trayectorias de las modalidades de edad (que sea la
trayectoria global o las trayectorias diferenciadas por sexo) y de la trayectoria de las categoras
de titulacin. As la modalidad mayor de 50 aos con titulacin secundaria o universitaria se
proyecta, sobre el segundo eje, en el extremo del eje que corresponde a los entrevistados
jvenes y, tambin, a los titulados superiores: la posicin de esta modalidad parece depender
ms de la titulacin que de la edad (aunque el reducido efectivo de individuos que presentan
esta modalidad limita el alcance de esta constatacin). La modalidad menores de 30 aos sin
titulacin se sita, sobre este mismo eje, en la parte central, es decir, en una posicin
intermedia entre lo que dejaba prever la edad (parte superior del eje) y lo que dejaba prever el
nivel de estudios (parte inferior del eje). Se podran representar las tres trayectorias de las
edades para un nivel de titulacin fijo, y las tres trayectorias de los niveles de titulacin para
una categora de edad fija, pero hemos preferido no cargar ms el grfico, ya suficientemente
complejo (en un estudio real, se suelen utilizar varios grficos). Estos resultados hacen pensar
que la influencia del nivel de estudios sobre las seleccin de palabras es relevante y que la edad
juega un papel distinto segn el nivel de titulacin. Se haban obtenido resultados de este tipo
en el prrafo 3.2, en el anlisis de correspondencias de la tabla situaciones-tipo palabras. No
obstante, para llegar a conclusiones ms slidas, se debera proceder al anlisis de la tabla
lxica agregada edad _nivel de titulacin palabras.
La ventaja del anlisis directo consiste en poner de relieve la influencia que tienen numerosas
caractersticas individuales sobre la eleccin del vocabulario. Dicha influencia mltiple puede
quedar enmascarada cuando se efectan reagrupamientos a priori, que no informan de la
heterogeneidad de los grupos.
El anlisis directo proporciona ndices sobre las asociaciones entre palabras y sobre las
caractersticas que intervienen en la eleccin del vocabulario y que otros anlisis, tal como el
anlisis de tablas lxicas agregadas, permitirn confirmar y estudiar.
grfica:enefecto,lasdimensionesdelagrficaseescogendetalformaqueserepresentendemaneraexacta
lospuntoscuyadistanciaalorigen,reducida,nosupere2.3desviacionestipo(ladesviacintipodetodaslas
distanciasalorigensobreelejebajoconsideracin).Losotrospuntos(outlierssobreesteeje)serepresentanen
loslmitesdelagrfica.
33
4. PALABRAS CARACTERSTICAS
Elanlisisdecorrespondenciasponeenevidenciaoposicionesglobales,enlascualesentran
enjuegoelconjuntodelaspalabrasydelosgrupos.Sequierecompletarlarepresentacin
espacial as obtenida por la seleccin de las palabras "anormalmente" frecuentes en las
respuestasdeungrupodeindividuos,encomparacinconlatotalidad,utilizandountest
clsicoparaemitirestejuiciocomparativo.
subfrecuenciadelapalabraienlapartejdelcorpus;
frecuenciadelapalabraienlatotalidaddelcorpus;
tamao(nmerodeocurrencias)delapartejdelcorpus;
tamao(nmerodeocurrencias)delcorpus(o,simplemente,k).
El modelo probabilista
Seempiezaporimaginaruna poblacin de k.. objetos.Sesuponeque,entretodosellos, ki.
objetos vienen marcados con algn distintivo que los diferencia de los otros: color
particularo,paravolveralcasodelostextos,ocurrenciasdeunamismapalabradefrecuencia
totalki..Losobjetosrestantesseconfundenenunmismosubconjuntoyseconsiderancomo
nomarcados.Elnmerodeobjetosnomarcadoses,portanto,igualakki.
Ahora,medianteunprocedimientodeextraccinaleatoriasinreposicin,seseleccionauna
muestradek.jobjetos.Despus,secomputaelnmerokijdeobjetosmarcadosquecontienela
muestra.
Losnmerosk,ki.,k.jqueseacabandedefinirconstituyenlosparmetrosdelmodelo.Para
poderemitirunjuiciosobreelvalorkij,esnecesariocompararloconlosvaloresobtenidosen
los recuentos similares efectuados sobre el conjunto de todas las muestras posibles,
compuestasdek.jobjetos,quesepuedenextraerdelapoblacindepartida.
Paracadamuestradetamao k.j,elnmero kij deobjetosmarcadospuedetomarunvalor
enteroentre0yki.,nmerototaldeobjetosmarcados.Paracadaenteron,comprendidoentre
0 y ki.,esposibleefectuarelrecuentodelnmero N(n) demuestrasdetamao k.j paralas
cualeskijesexactamenteigualan.
34
PALABRAS
PARTESDELCORPUS
kij
ki.
k.j
k..
k..
ki.
kij
k.j
tamao de la parte
Figura4.1:Loscuatroparmetrosdelclculodeloselementoscaractersticos
SisedividecadanmeroN(n)porelnmerototaldemuestrasdetamaok.j,seobtieneuna
distribucindeprobabilidad(deparmetrosk,ki.,k.j)sobrelosnmeroscomprendidosentre0
y ki.. La ley de probabilidad para una extraccin sin reposicin bajo la hiptesis de
independenciaeslaleyhipergeomtrica.Dichaleyseaproximaalaleybinomialcuandoel
tamaodelamuestraespequeoconrelacinaltamaodelapoblacin(sepuedenentonces
asimilarextraccinconysinreposicin).
Sedenota:Prob(k,ki.,k.j,n)
la probabilidad as calculada de obtener exactamente n objetos marcados al efectuar la
extraccinsinreposicindeunamuestradetamaok.japartirdeunapoblacindeefectivo
totalk,sabiendoquedichapoblacincomportaki.objetosmarcados .
3
Lafigura4.2visualizalaleyhipergeomtricaconparmetros:
k
k.j
ki.
= 160.000
= 20.000
=
36
tamaodelcorpus
tamaodelapartej
frecuenciadelapalabrai
Como se puede observar, la moda de esta distribucin (valor ms probable) vale 4. Las
probabilidadesdecrecenrpidamenteamedidaquelafrecuenciasealejadedichovalor.
3Lafrmulaclsicadelaleyhipergeomtricaes:
(
)(
)
Prob(k , k , k , n)
()
k ki .
k. j n
ki .
n
i.
.j
k
k. j
35
0,2
Probabilidad
0,1
0,0
0
10
20
30
n = Frecuencia absoluta
Figura4.2:Distribucindeprobabilidadhipergeomtrica
conparmetrosk=160.000,k.j=20.000,ki.=36
Podemosahorautilizarladistribucindeprobabilidadasconstruidaparaemitirunjuicio
sobrelafrecuenciaabsolutakijobservadaenunamuestra.Paraesto,seempiezaporsituarkij
conrelacinalamodadeladistribucin.Sielvalorobservadokijseencuentramuyprximo
alamoda,nosepuededecirnadasobreelresultadoobservado.Sidichovaloresclaramente
superior a la moda, nos interesaremos por la probabilidad Psup(kij) de observar, bajo las
anterioreshiptesis,unnmerodeobjetosmarcadosigualosuperiorakij entrelosk.jobjetos
seleccionados al azar. Si, al contrario, dicho valor es claramente inferior a la moda,
calcularemoslaprobabilidad Pinf(kij) deobservarunnmerodeobjetosmarcadosigualo
inferiorakij.
Laprobabilidad Psup(kij) esigualalasumadetodaslasprobabilidadescorrespondientesa
valoresdenigualesosuperioresakij.Portanto,eslasumadelasprobabilidadesProb(k,ki.,
k.j,n)paralosvaloresdencomprendidosentrekij yki..Demaneraanloga,laprobabilidad
Pinf(kij) esigualalasumadelasprobabilidades Prob(k,ki.,k.j,n) paralosvalores de n
comprendidosentre0ykij.
Si,paraunamuestradada,laprobabilidad Psup(kij)esmuypequea,seconcluyequedicha
muestra comporta, con relacin a todas las muestras del mismo tipo, un nmero
anormalmenteelevadodeobjetosmarcados.Inversamente,silaprobabilidad Pinf(kij) es
muy pequea, se dice que dicha muestra comporta un nmero anormalmente bajo de
objetosmarcados.
36
Paraseleccionarlasprobabilidadesconsideradaspequeas,quesealanlaspalabrasdeuso
diferenciadoentrelaspartes,sefijademaneraarbitrariaalprincipiodelaexperienciaun
umbraldeprobabilidad .
4
Porcentaje
interno
Subcorpus"Hombrede20a30aos"
1
sea
1.07
2
poco
.96
3
otra
.64
4
problemas
.86
5
deporte
.75
6
menos
.54
7
mismo
.64
8
o
1.28
9
general
.54
10
como
1.28
Subcorpus"Hombremayorde50aos"
1
salud
4.46
2
uno
1.72
3
no
7.29
4
trabajo
1.01
5
lo
3.34
6
pueda
.51
Subcorpus"Mujerde20a30aos"
1
llevar
.82
2
dolor
.51
Subcorpus"Mujermayorde50aos"
1
mejor
1.39
2
principal
1.13
3
he
.61
4
nada
2.78
5
lo
3.48
6
trabajar
.87
7
su
.52
8
ganas
.70
Frecuencia
Valor
Proba.
global
interna
global
Test
.23
.29
.16
.28
.23
13
.20
.63
.17
.67
10
9
6
8
7
5
6
12
5
12
17
22
12
21
17
10
15
47
13
50
4.334
3.170
2.921
2.798
2.764
2.622
2.468
2.301
2.140
2.108
0.000
0.001
0.002
0.003
0.003
0.004
0.007
0.011
0.016
0.018
2.54
.88
5.63
.48
2.32
.17
44
17
72
10
33
5
190
66
422
36
174
13
3.726
2.630
2.296
2.166
2.093
2.048
0.000
0.004
0.011
0.015
0.018
0.020
.33
.16
8
5
25
12
2.269
2.208
0.012
0.014
.53
.39
.13
1.53
2.32
.37
.17
.28
16
13
7
32
40
10
6
8
40
29
10
115
174
28
13
21
3.633
3.613
3.607
3.348
2.597
2.482
2.391
2.346
0.000
0.000
0.000
0.000
0.005
0.007
0.008
0.009
0.001,etc.
37
Si, porel contrario, Psup (kij) es inferior al umbral, seconcluye que la subfrecuencia kij
observadaesrelativamentealta,esdecir,quelapalabraiestsobrerepresentadaenlapartej.
Sedicequelapalabraiesunapalabracaractersticapositivaoespecificidadpositivaparala
partej.
Cuando ninguna de las dos probabilidades Pinf (kij) y Psup(kij) es inferior al umbral, se
consideraquelapalabraiesbanalparalapartej.Siunapalabranocaracterizaningunaparte
(esdecir,esbanalparatodaslaspartes),dichapalabraperteneceal vocabulariobsico del
corpus.
Parafacilitarlalecturadelosresultadosdeltest,setraducelaprobabilidadasociadaala
comparacin en un valortest estandarizado de tal forma que se pueda leer como una
realizacin de la variable de LaplaceGauss centrada y reducida. Por lo tanto, se puede
considerar como caractersticas las palabras cuyo valortest es superior a 1.96 (palabra
anormalmentefrecuente)oinferiora1.96(palabraanormalmentepocofrecuente).
Latabla4.1muestralaspalabrassobrerrepresentadasenlosdosgruposdehombresydos
gruposdemujeresmsextremos(siseexceptanlosdemenosde20aos,gruposmuypoco
concernidosporeltema,conrespuestasmuycortas).
38
Tabla4.2:Listadelasrespuestasmodalesdelascuatrocategorasextremas
delaparticinedadxsexo
(Criterio1:palabrascaractersticas)
Respuestasmodales(4porcategora)
(valortestmedio)
Criterio1
Categora1
Hombremenorde21aos
1.591 esalgonecesarioentodoslosaspectos
1.482 comosecreequesesiente,comosecreequetieneelcuerpo,todoel
cuerpoengeneral
1.423 sentirtebienentodoslossentidos
1.104 algoquecuandosetienenoseaprecia,ycuandonosetieneentonces
se sabe lo que es, estado fsico en el cual no se tiene ninguna
enfermedad
Categora2
Hombremayorde50aos
1.301 estarbueno,nopadecerdenada
1.282 tenersaludyyonolatengo.estoybienenfermodetodo,ynotengo
salud.
1.283 estarbueno,tenersalud,noestarmalo
1.254 loprincipal,siestoybueno,tengoquedecirqueestoybueno,eslo
principal.
Categora5
Mujermenorde21aos
1.501 sentirsebienfsicamente
1.392 encuantounapersonaestsana,sesientebien
1.323 no padecer ninguna dolencia, encontrarse bien, en buenas
condiciones.
1.084 comoseencuentraunapersona,fsicaeinteriormenteentodoslos
conceptos.nos,enmentalidad,encuerpo,envitalidad,entodo.site
encuentrasbienentodoslossentidos,paramesoesunasaludbuena,
sino,nada.
Categora8
2.731
1.562
1.553
1.544
Mujermayorde50aos
loprincipal,loprincipal,msquenada
estarbien,queesloprincipal
lomejorquehay,estarbienynotenernada
loprincipal,estarelcuerpobuenoytienesganasdetrabajarydevivir
queesloprincipal
Seleccindelasrespuestascaractersticasutilizandoladistanciadechi2
Elsegundocriterioesesquemticamenteelsiguiente:latablalxicaenterarepresentalas
respuestasabiertas;setratadeunatablarectangularTconkfilasrespuestasyVcolumnas,
siendo V elnmerodepalabrasseleccionadasconelumbraldefrecuenciaescogido(enel
ejemplodelcorpusSalud,conunumbraliguala10,seconservanV=146palabrasempleadas
almenos10vecesentodoelcorpus).Unarespuestaesunafiladedichatablao,demanera
39
equivalente,unvectorcon146componentes.Siunarespuestacontiene25palabrasdistintas,
nicamente25componentesserndistintosde0.
Unaparteogrupoderespuestas(undiscursoartificial)esunconjuntodevectoresfila,yel
perfillxicomediodedichogruposeobtienecalculandolamediadelosvectoresfiladeeste
conjunto.Sielreagrupamientoseefectasegnlasmodalidadesdeunapreguntacerrada,
cuyasrespuestasvienencodificadasenunatabla Z,latablalxicaagregada C secalcula
mediantelafrmula:
C=T'Z
Portanto,sepuedencalcularunasdistanciasentrerespuestasogruposderespuestas.Las
respuestas(filasdeT)ylosgruposderespuestas(columnasdeC,ofilasdeC',transpuestade
C)vienenrepresentadosmediantevectoresenelespacioreferenciadoporlaspalabras,de
dimensinV.
Dichasdistanciasexpresanladesviacinentreelperfildeunarespuestayelperfilmediodel
grupoalcualpertenece.Seescogecomodistanciaentreperfilesladistanciadechi2,en
razndesuspropiedadesdistribucionalessubrayadasenelcaptulo35.
LadistanciaentreunpuntofilaideTyunpuntofilamdeC'vienedadaporlafrmula:
V
d (i,m)
2
j 1
t .. t ij c jm
t .j t i. c .m
conlasnotacionesusuales:
t..
designalasumaglobaldeloselementosdelatabla T igualalnmerototalde
ocurrenciasenelcorpus.
t.j
designalasumadeloselementosdelacolumna j de T,esdecir,elnmerode
ocurrenciasdelapalabraj.
t.j
designalasumadeloselementosdelafilaideTolongituddelarespuestai.
c.m designalasumadeloselementosdelafilamdeC'queeslalongituddelsubcorpus
correspondientealgrupom.
Paracadaparte,sepuedeordenarlasdistanciasdemaneracreciente,yasseleccionarlas
respuestas ms representativas enfuncindesusperfiles lxicos,es decir,las respuestas
correspondientesalasdistanciasmspequeas.
40
Tabla4.3Listadelasrespuestasmodalesdelascuatrocategorasextremas
delaparticinedadxsexo
(Criterio2:distanciadechi2())
Criterio2
Respuestasmodales(2porcategora)
(Distanciadechi2)
Categora1
Hombremenorde21aos
.6841
esalgoparaelserhumano,engeneral,paraqueunapersonaseencuentre
bien en todos los sentidos, fsicamente e interiormente. tambin es
importanteparaqueunopuedaseguirviviendo,yyocreoqueesunade
lascosasqueelserhumanolasconsideraprincipalesensuvida.
.7562
algoquecuandosetienenoseaprecia,ycuandonosetieneentoncesse
sabeloquees,estadofsicoenelcualnosetieneningunaenfermedad
Categora4
Hombremayorde50aos
.6861
loesencialparaelfuncionamientodelcuerpo,parapoderdesarrollarel
trabajo y otras actividades. si no tiene salud, no puede rendir como
normalmentedebederendirunapersona.yenqucosascreequeconsiste
lasalud?lasaludespodertrabajar,rendir,hacerotrascosasenque
bueno, lo principal para mantener una buena salud es tener un buen
puesto de trabajo y no tenerlas preocupaciones trasmiten las
enfermedades. y poder desarrollar ese trabajo sin calentamiento de
cabeza,ymantenerunafamilia,porejemplolamasonsietehijos.
.7082
lasaludestdeunaformaunpocoatrsenelsentidoquesivamosa
analizar pues tenemos cuarenta mil complicaciones. sidecimos quela
seguridadsocialmarchabien,esincierto.lasalud,laveoquecadada
est peor en todos los aspectos. de la salud, no se preocupan ni el
gobierno,nilosalcaldes,ninadie.hombre,silasporquerasquehayen
lascallesessuficiente,silossulfatosdelatierrasdelasplantas,queno
comemosningunacosanatural,hoynielpanvale,nilafrutavale,nilas
verduras valen. hastainclusoel aguanosepuedebeber,tenemos que
comprarla.
Categora5
Mujermenorde21aos
.7601
.7992
todolorelacionadoconlapersona,conelcuerpohumanoyanoslolo
queammetoca,sinotambinelexterior,sirespirocosasmalas,mi
cuerpotambinlotienemalo,lasaludesestarbienyencontrarsebien.
41
Tabla4.3:(continuacin)
Categora8
Mujermayorde50aos
.6901
eselmejortesoroquetieneelmundo,eslomejor,msqueeldinero,ms
quetodo.yonuncahebebido,nifumado,nisalgoporahymesiento
muyfelizymuyagusto.deberanellosconsiderarunpoquitosusalud
msquelamiran,porquenolamirannada.luego,lleganatener30aos,
quecreoqueesdemasiado,yyaestnenfermos,yesoschicosyano
tienenfuerzasparatrabajar,niparanada.sumenteesttonta,porqueest
alcoholizada,yestdestruidayestyoparam,notieneninteligencia
ninguna esos muchachos. deberan ser ellos ms formales y ms
responsablesasupersona.creoqueesdemasiadoyyaestnenfermosy
yanoson
.7352
yoconsideroquelasaludprimeroquetodoeslaausenciadedolor.y
despus,tambinmeheencontradoconundesanimocuandoheestado
enferma,elnotenerdoloresparameslomsimportanteylaclave,y
luegonoencontrarmedeprimida,notenerganasdehacernada.
42
En ciertos casos, ser interesante construir tipologas de los individuos, a partir de sus
coordenadassobrelosejesfactoriales,eilustrardichastipologasbuscandoloquetienenen
comnlosindividuosdeunamismaclase,apartedesulenguaje.Lainformacinconocida
mediantelasrespuestascerradasjugarunapapelilustrativomuyimportante.
Delamismamanera,sepuedeobtenertipologasdepalabras.Latabla6ofrecealgunasde
las20clasesobtenidas,mediantelaclasificacindelaspalabrasapartirdesuscoordenadas
sobrelosprimeros25ejes.Elmtododeclasificacinempleadoesunmtodojerrquico
seguido,despusdecortarelrbol,poralgunasiteracionesdecentrosmviles.Unaspalabras
pueden encontrarse prximas por tres razones: aparecer frecuentemente en una misma
expresin,esdecir,porunaconstriccinfijadaporlalengua(Sesiente);corresponderauna
asociacin temtica propia del corpus (por ejemplo: Beber, Comer, Fumar); finalmente
sustituirseunasaotras(porejemplo,DeporteyEjercicio,olasexpresionesEstarsano,No
estarmalo,Noestarenfermocomoloindicalaclase20).
Tabla5.1:Algunasclasesdepalabras
Clase3
CuandoEncuentraLeSeSienteTiene
Clase8
EstoyPrincipalTengo
Clase12
BeberComerDeporteEjercicioFumarHacer
Poco
Clase13
BienestarFsicoPsquico
Clase20
Enfermedades Enfermo Estar Malo No Sano
Tener
43
6.1 Introduction
Unaspectoimportanteeneltratamientodedatosdeencuestaeselanlisissimultneode
variaspreguntas.ElACMAnlisisdeCorrespondenciasMltiplesofreceestaposibilidad
paralaspreguntascerradas.ElAFMAnlisisFactorialMltiple(EscofieryPags,1988)
permite adems tratar grupos de variables, cualitativas o cuantitativas, lo que facilita la
explotacinconjuntadevariostiposdevariables.
ElAFMCTAnlisisFactorialMltipleparaTablasdeContingencia(BcueyPags,2000)
extiendeestetipodeanlisisalastablasdecontingencia.Lasaplicacionessonmltiples:
anlisissimultneodevariaspreguntasabiertasodepreguntasabiertasypreguntascerradas.
Estemtodoaplicadoatablaslxicasreagrupadasfacilitaelestudioderespuestasabiertas
efectuadasenvariospasesendistintaslenguas.
6.2 Ejemplo
Elejemploprovienedeunaencuestasobrelas CondicionesdeVidayAspicacionesdelos
Franceses(Lebart,1987).Encadapasacin,unamuestrade2000francesesmayoresdeedad
esinterrogada.Seutilizaaqularealizacinde1988ytrespreguntasabiertas.
Lasdosprimeraspreguntasseformulabanas:
1. LenombrededivorcesaugmenteactuellementenFrance,votreavispourquoi?
2. Quellessontlasraisonsquipeuventfairehsiteruncoupleouunefemmeaumoment
davoirunenfant?
Latercerapreguntaseguaunapreguntacerradasobreloscambiosque,ensuopinin,podan
afectar sus condiciones de vida en los cincos prximos aos; para dicha pregunta, se
consideraban cinco niveles de respuesta: desde mejorarn mucho hastaempeorarn
mucho,Despusdeestapreguntascerrada,vena
3. Porqu?
Para obtener una explicacin de la eleccin
SedesignanestastrespreguntasmedianteporDivorcio,NiosyPorvenir
5EstecaptulocorrespondeauntrabajoefectuadoencolaboracinconJrmePags(INSA/ENSFA,Rennes)
ypublicadoenActesdesJournesInternationalesdAnalyseStatistiquedeDonnesTextuelles(Rajman,ed.).
EPFL.Lausanne.
44
Tabla Nios
126 palabras
Tabla Porvenir:
154 palabras
9 categoras
<30
Est. Elem 30-50
t.
>50
Est. Sec.
t.
Est. Sup.
t.
<30
30-50
>50
<30
30-50
>50
fij1, frecuencia de la
j-esima palabra en
las respuestas de la iesima categora a la
pregunta Divorcio
Figure6.1.Yuxtaposicindelastrestablaslxicasagregadascorrespondientesa
lastrespreguntas
Laestructurainternadelastablasnosemodifica
Unatabladegrandimensininfluenciamsejesdelanlisisglobalqueunatabladebaja
dimensin
Exceptocasosmuyparticulares,elprimerejedelanlisisglobalnopuedesergenerado
porunanicatabla
45
Elprimervalorpropiodelanlisisglobaltieneunvalorcomprendido1yT:esiguala1si
todoslosparesdevariablespertenecientesadiferentesgrupossonnocorrelacionadas,es
igualTsitodoslosgrupostienenelmismoprimerfactor.
Dichas herramientas, as como las ayudas a la interpretacin que el AFM proporciona, hace de
este mtodo una herramienta pertinenete para comparar varios grupos de variables, analizar
sus relaciones y, tambin, visualizar las diferentes descripciones obtenidas mediante el anlisis
global y mediante los anlisis separados.
margen
Jt
margen
fijt
fi..
f ijt
fi.t
I
margen
f .jt
f .jt
f ..t
Figura6.2.Latabladecontingenciamltipleysusmargenes.Notaciones
Primeraetapa:anlisisseparados.AFCdecadatablaparaobtenerunaprimeravisindelos
datosyexplorarlaexistenciadeestructurascomunesalasdiferentestablas.
Segundaetapa:anlisis pseudoseparadas.Consisten el elAFCdecada tabla, perocon
margenesfilaimpuestos{fi..,i=1,,I}ylosmargenescolumna,{f.jt,j=1,J}.Elprimervalor
propio de cada anlisis, denotado 1t se utiliza en la tercera etapa para reponderar las
columnas.
DichaAFCdelatablatesequivalentealACPdelatabladetrminogeneral:
46
f
f ijt i.t f . jt
f ..t
f i.. f . jt
(1)
6.5 Rsultats
Anlisispseudoseparados
Para efectuar los anlisis pseudoseparados, se artribuey a cada categora el peso medio
calculado sobre el conjunto de las preguntas (proporcional a la longitud del subcorpus
formadoparalasrespuestasdelacategora,juntadolasdiversaspreguntas)
Enesteejemplo,lospoesosdelascatgegorasparacadapreguntaylospesosmeidossonmuy
cercanos.Ladeformacindelaestructuradelasfilasintroducidaporlamodificacindelos
pesosesdedspreciable.
Losvalorespropiosobtenidosparalastrespreguntasson:
11=0.0365;12=0.0429;13=0.0836.
La tercer tabla (pregunta Porvenir) presenta una estructura ms fuerte que las otras; en
ausencia de reponderacin de las columnas, dicha tabla habra tenido una influencia
predominantesobreladeterminacindelosejes.
Losfactoresdelanlisisglobal
EL AFMCT proporciona dos valores propios dominantes: 1= 2.59 y 2=1.69
(respectivamente,28.13%y18.40%delainerciatotal).Latabla6.3.amuestraquecadauno
delostresgruposdepalabrascolumna,correspondientesalastrespreguntas,proporciona
unaaportacinimportanteyequilibradaalainerciadelprimerfactor.
LaspalabrascolumnaDivorcioyNioscontribuyenclaramentemsalainerciadelsegundo
facrorquelaspalabrascolumnaPorvenir.
Lascorrelacionesentreelprimerfactorglobalylasproyeccionesdelastresnubescategora,
definidasporcadapreguntas,sonelevadas(tabla6.3.b).relativamentealsegundofactor,la
47
correlacinesfuerteconlasproyeccionesdelasdosprimerasnubesparciales(Divorcio y
Nios),menorperonoobstanteelevadaconlaterceranubeparcial(Porvenir).
Sepuedeconcluirquelosdosprimerosfactoressoncomunesalastresnubespregunta.
Elprimerfactordelanlisisglobaly,enmenormedida,elsegundo,constituyendirecciones
importantesdeinerciaparacadaunadelaspreguntas,particularmenteparalapreguntaNios,
noobstantenoconfundidaconlasprincipalesdireccionesdedispersindelastresnubes.
LaaportacinmenordelapreguntaPorvenirprovienedelamenordimensionalidaddedicha
tablaquepresentaunsolovalorpropiodominante.
Tabla6.3Losfactoresdelanlisisglobal,direccionesdedispersindelasnubes
parciales
Inertietotale
F1
2.59
F2
1.70
Divorcio
Nios
Porvenir
0.86
0.92
0.81
0.64
0.61
0.45
Tabla6.3.a
Descomposicindelainerciadelosdos
primeros factores del AFM segn las
trespreguntas
F1
F2
Divorcio
0.97
0.95
Nios
0.98
0.97
Porvenir
0.93
0.81
Tabla.6.3.b
Correlacionesentrelaproyeccindela
nubeglobalyladecadaunadelas
nubesparciales,asociadasacadauna
delaspreguntas
Tomadasencuentademanerasimultanea,lastrespreguntasconfierenalascategorasuna
estructura regular (figura 6.3.e), compromiso entre las representaciones de las AFC
separadas.
ElclculodelascorrelacionesentrelostresprimerosfactoresnormalizadosdelostresAFC
pseudoseparadosylosdosprimerosfactoresdelAFMCTpermiteestudiarlasrelaciones
entrelosfactoresdeestoscuatroanlisis.Losplanosgeneradosporlosdosprimerosfactores
delapreguntaDivorcio,parlosdosprimerosfactoresdelapreguntaNiosyporlosprimero
ytercerfactoresdelapreguntaPorvenirsonmuyprximosdelplanogeneradoporlosdos
primerosfactoresdelAFM.SepuedetambinnotarqueelsegundofactordelAFCdela
preguntaPorveniresmuycorrelacionadoconeltercerfactordelanlisisglobal.
Lacalidadderepresentacindelastresnubesdepalabrascolumnasobreelplanoprincipal
delAFMesmuyprximaalacalidadderepresentacindeestasmismasnubessobrelos
planosprincipalesseparados:43.4%ede4lugarde5.4%paraDivorcio,44.9%enlugarde
46.6% para Nios y 53.6% en lugar de 57.6% para Porvenir. En este ltimo caso, es
interesantenotarquelaperdidaencalidadderepresentacinsobreelprimerejeesimportante
(34.6%enlugarde42.7%)peroquedichaperdidavienecompensadaporunagananciassobre
elsecundoeje(19%enlugarde14.86%).
48
D-Sec<30
2=0.0212
16.84% D-Elem<30
2=0.0243
16.75%
Je
D-Elem 30-50
D-Sup 30-50
D-Sup<30
E-Sup<30
E-Sec<30
E-Elem<30
E-Elem 30-50
1=0.0439
30.24%
E-Sec 30-50
1=0.0360
28.69%
E-Elem>50
D-Elem>50
E-Sup 30-50
Jeunes
D-Sec 30-50
E-Sec>50
D-Sup>50
Jeunes
lAFC de
Divorcio
A-Sec 30-50
A-Sup>50
A-Elem>50
A-Elem 30-50
1=0.0833
41.81%
A-Sup 30-50
A-Elem>50
A-Elem<30
A-Sup<30
A-Sec 30-50
A-Sec>50
A-Sup 30-50
A-Sup<30
Elem<30
LEYENDA:
D: Divorcio
E: Nios
A: Porvenir
D-Je
Elem 30-50
Sec<30
Elem>50
1=0.0833
41.81%
Je
Je
E-Jeunes
D-Jeunes
A-Sec<30
A-Sup>50
A-Sec<30
2=1.695
18.40%
Nios
A-Elem<30
3=0.0245
12.31%
A-Elem 30-50
A-Sec>50
Je
E-Sup>50
D-Sec>50
Sec 30-50
1=2.591
28.13%
A-Je
Sup<30
Sup 30-50
Sec>50
E-Je
Sup>50
yuxtapuestas
Figura6.3Anlisisglobalyanlisisseparadosdelastrespreguntas
49
Representacinsuperpuestadelasnubesparciales
Afindecompararlasestructurasdelascategorasobservadassegnlastrespreguntas,se
proyectansucesivamente,comofilassuplementarias,elconjuntodelasfilasdelastablasYt,
completadasporceros.Seobtieneasunarepresentacinquesuperponeladescripcinglobal
delascategorasylasinducidasporcadaYt(sehablaentoncesdecategorasparciales).La
figura6.4reproduceunextractodeestarepresentacin:sepuedenobservarlastrayectoriasde
lascategorasestudioselementalesyestudiossuperiorestalcomoestndescritasatravssus
respuestasalaspreguntasDivorcioyPorvenir.
D Elem <30
Etudes lmentaires
A- Elem <30
Jeunes
D Elem 30-50
A- Elem 30-50
A- Sup <30
D Elem >50
A- Sup 30-50
A- Elem >50
LEYENDA
D: Divorcio
E: Nios
A: Porrvenir
Ags
A- Sup >50
D Sup <30
D Sup 30-50
D Sup >50
Etudes suprieures
Figure6.4.Extractodelarepresentacinsuperpuestadelasnubesparciales
Trayectorias de las categoras de edad correspondientes a los estudios
elementales y superiores segn las preguntas Porvenir (A) y Divorcio (D).
Enestarepresentacin,sevuelvenaencontrarlosgrandesrasgosdelasrepresentaciones
proporcionadasporlosAFCseparados.As:
Enlosmsde50aos,lostituladoselementalesysuperioressediferencianpocosegn
susrespuestasalapreguntaPorvenir;dichodeotramanera,lostituladossuperioresde
msde50aosempleanunvocabulariomenosintelectualquesuniveldeestudiosdeja
presagiarcuandocontestanalapreguntaPorvenir.
Msgeneralmente,estarepresentacinponedemanifiestounmayorefectodelaedad
sobrelasrespuestasalapregunta Porvenir yunmayorefectodelatitulacinparala
preguntaDivorcio.
50
Representacinsuperpuestadelaspalabrasydelascategoras
La representacin de las palabras permite estudiar las proximidades entre las palabras
utilizadas para contestar a una misma preguntas o a pregutnas distintas. Se puede superponer
la representacin de las palabras y las de las categoras : existe en efecto entre estas dos
representaciones reglas de transicin (Bcue y Pags, 1999).
Enparticular,esinteresanteestudiarcmolasmismaspalabrassononoescogidasparlas
mismascategorassegnlapregunta.
As, Jeunes es empleado en las preguntas Divorcio y Nios por las mismas categoras
(mayoresde30aos,deformacinelementalosecundaria)mientrasqueelempleode Je
presenta una utilizacin diferente segn la pregunta: corresponde a las categoras poco
tituladasparacontestaralapreguntaDivorcio(frecuentementeparaindicarunaausenciade
opinincon jenesaispas);esutilizadoporlosentrevistados mayoresde50aosenla
preguntaNios(demaneradominanteparaexpresarjenesaispas);finalmente,esempleado
portodaslascategorasperoligeramentemsporlosentrevistadosmenoresde30aosde
niveldeestudiossecundarioosuperior,paradaruntonomspersonalalarespuestaala
preguntaPorvenir(jenemattendspasvoirmonsalaireaugment,jevaispeuttrequitter
montravail,parcequejesuisambitieux,jesuisvieux,etc.).
51
Lafigura6.5muestraunextractodelarepresentacindelascolumnassobreelprimeroplano
factorial..Elprimereje,alcuallostresgruposcontribuyencon,respectivamente46%,31%
y23%delainerciaesunejedeniveldelectura:alaizquierdasobreelprimereje,las
palabras ms extremas (las palabras subrayadas corresponden a la segunda pregunta)
muestranlaatraccinhacialalecturadiviertes,fantasa,etc.Lascategorasdelaspreguntas
cerradasseencuentranenunasposicionesmscentralesquelaspalabras,porquelosnios
concaractersticasparecidasutilizanunvocabulariodistinto.Elsecundoeje,principalmente
construidoporlasecundapreguntaabierta,oponeunavisinescolardelalecturaalplacerde
lalectura.
Lascorrelacionesentrelosprimerosejesfactorialesdelosanlisisseparadossonpequeas:
dichos anlisiss no son facilmente comparables. Pero la contribucin relativamente
equilibradadecadagrupoalprimerejedelAFMCTmuestraqueesteejecorrespondeauna
direccindedispersincomunaalostresgrupos(yestadireccinnosepodraencontrar
mediantelosanlisisseparados).
entretenido
Visin escolar:
Me gusta, sobre
todo aprendo
2=1.2 F2 importantes
1.7%
aprende
interesante aprendo
divertirme divertido entretenimiento
La lectura es un
rollo
rollo
aburrido
PADRE UNIVERSITARIO
. aprendo
CALIFICACIN GLOBAL EXCELENTE.
sino
F1
1=1.4
2.0%
Figura 6.5 : Primer plano del AFMCT: extracto de la proyeccin de las columnas
El AFM representa tambin cada individuo, o categora de individuos, descrito porcada
grupo.Porejemplo(figura6.6),losestudiantesconunacalificacinexcelentesongrandes
lectoressislolaspreguntascerradassetienenencuenta,mientrasseencuentranenuna
posicinmscentraldesdeelpuntodevistadelasrespuestasabiertas:dichosestudiantesson
heterogneos segn este enfoque: entusiastas o no. La categora Padre universitario se
encuentra en una posicin extrema sobre el secundo eje cuando vienen descritos por la
secundapreguntaabierta(grupo3):lamayorpartedelosniosdeestecategoraestde
acuerdoconlaimportanciadelalecturacomomedioparaaprender.
Enesteejemplo,senotaunatendenciaadeclararunarespuestascorrecta(adeclararsegran
lector),posiblementeacausadelmarcoescolardelestudio.Noobstante,enlasrespuestas
abiertas,esmsdifcilescondersetrasexpresionesconvencionales.
52
Leyenda
PADRE
UNIVERSITARIO
NOTA GLOBAL
EXCELENTE
1= preguntas cerradas
2=para m, leer es...
3=leer es importante
porque...
3
1
Categora global
Categora parcial
ME GUSTA LA ESCUELA
53
REFERENCIAS
54
M.
(1995).
Statistique
Exploratoire
LEBART L., SALEM A., BECUE M. (2000). Anlisis estadstico de textos. Milenio, Lrida,
Espaa, con prlogo de Daniel Pea.
LEBART,L.,SALEM,A.,BERRY,E.(1998).Exploringtextualdata,Kluwer,Dorfrecht.
55