Professional Documents
Culture Documents
FACULTAD DE INFORMTICA
TESIS DOCTORAL
CLASIFICACION AUTOMATICA
BASADA EN ANALISIS ESPECTRAL
CASO DE USO: PROCEDIMIENTOS
CLASIFICATORIOS APLICADOS A
OBSERVABLES DE LOS PROBLEMAS
TAXONMICOS
Autor: Gregorio Perichinsky
Director: ngel Lus Plastino
2007
TESIS DOCTORAL
CLASIFICACION AUTOMATICA
BASADA EN ANALISIS ESPECTRAL
CASO DE USO: PROCEDIMIENTOS
CLASIFICATORIOS APLICADO A
ASTEROIDES
Tesista: Gregorio Perichinsky
Lic. en Ciencias Fsicas.
Director: ngel Lus Plastino
Dr. en Ciencias Fsicas.
2007
TABLA DE CONTENIDOS
PREFACIO
RECONOCIMIENTOS Y MENCIONES
PRLOGO
1.
EXORDIO
2.
2.1.
35
35
2.1.1. Introduccin
35
36
37
2.1.2.2.Clustering en Biologa
39
2.1.2.3.Clustering en Estadstica
41
42
43
44
45
47
50
2.1.3.4.1.Distancia Promedio
50
2.1.3.4.2.Correlacin de Atributos
51
53
2.1.3.4.4.Evaluacin de la Clase
Bayesiana
2.1.4. Algoritmos para Clustering
INDICE
55
56
2.1.4.1.Mtodos Aglomerativos
57
2.1.4.2.Optimizacin Iterativa
59
Gregorio Perichinsky
2.1.4.3.Mtodos Incrementales
2.2.
62
65
67
67
68
2.2.1.2.Conceptos
68
2.2.1.3.Modelizacin
70
2.2.1.4.Dinmica
71
71
72
75
2.2.5. Panorama
72
74
75
2.2.7.1.Marco Terico
2.2.7.1.1.Datos de Entrada
76
76
2.2.7.1.2.Resultados Generados.
Caractersticas de los rboles de Decisin
77
78
78
79
80
2.2.7.2.3.Criterio de Ganancia
81
81
2.2.7.3.ID3
INDICE
79
83
83
2.2.7.3.2.Algoritmo ID3
84
85
85
Gregorio Perichinsky
ii
2.2.7.3.5.Atributos desconocidos
85
86
2.2.7.4.C4.5
87
2.2.7.4.1.Algoritmo C4.5
87
88
89
2.2.7.4.4.Atributos desconocidos
89
2.2.7.4.5.Evaluacin de pruebas
90
91
92
94
95
95
2.3.1. Introduccin
95
99
97
100
101
102
103
103
104
2.3.10.Sistema Natural
105
106
3.
114
4.
SOLUCIN PROPUESTA
117
INDICE
Gregorio Perichinsky
iii
4.1.
119
4.1.1. Conceptos
120
4.1.2. Modelizacin
122
4.1.3. Dinmica
123
4.1.4. Generalizacin
123
4.1.5. Contrastacin
124
126
131
4.1.7.1.Conceptos
131
135
4.1.7.2.1.Metaproducciones
137
4.1.7.2.2.Hiperreglas
138
4.1.7.2.3.Especificacin de datos
139
4.1.7.2.4.Organizacin de datos
140
4.1.7.2.5.Implementacin
142
143
144
4.2.
INDICE
144
147
148
148
149
4.1.7.2.7.3. Bajas
150
4.1.7.2.7.4. Recuperaciones
151
151
153
154
4.2.3. Normalizacin
155
157
160
Gregorio Perichinsky
iv
4.2.6. Caracterizacin
163
4.2.7. Dispersin
165
167
4.2.9. Algoritmo
167
4.3.
Corolario ( Espectros )
168
4.4.
5.
6.
169
169
170
171
171
171
FENOMENOLOGA FSICA
174
5.1.
174
5.2.
Analogas
178
181
6.1.
Conceptos
181
6.2.
Objetivos
182
6.3.
182
182
185
6.4.
186
6.3.2.2.Entropa
187
6.3.2.3.Codificacin y Redundancia
188
189
189
190
v
194
194
196
7.
Distancia de Hamming
199
199
6.6.1.1.Distancia de Hamming
199
200
APLICACIN
7.1.
197
203
203
203
203
7.1.1.3.Actividades genricas
204
209
7.1.2.1.Hirayama
209
7.1.2.2.Arnold
210
7.1.2.3.Carusi y Valsechi
212
7.1.2.4.Williams
213
7.1.2.5.Knzevc y Milani
214
215
Implementacin
218
218
224
224
Gregorio Perichinsky
226
226
vi
7.2.3. Estructuracin
7.2.3.1.Familia Mara
7.2.4. Testeo usando Minera de Datos (Data Mining)
227
228
238
238
7.2.4.2.Datos Numricos
240
7.2.4.3.Resultados y Conclusiones
240
240
240
7.2.4.4.Espacio de Hiptesis
241
8.
ALGORITMIA
243
9.
CONCLUSIONES
255
10.
11.
INDICE
9.1.
Aportes Originales
255
9.2.
256
ANEXO I
258
258
259
ANEXO II
269
269
11.1.1.Introduccin
269
270
271
Gregorio Perichinsky
vii
274
276
277
280
281
281
281
282
283
12.
283
284
285
286
ANEXO III
289
BIBLIOGRAFA
INDICE
290
298
Gregorio Perichinsky
viii
DEDICATORIA
A mi familia
PREFACIO Y RECONOCIMIENTOS
Gregorio Perichinsky
ix
PREFACIO
Esta Tesis Doctoral surge como una necesidad de completar una trayectoria
iniciada cuando en la Universidad Nacional de La Plata las Ciencias Duras
tenan sus aposentos en la Facultad de Ciencias Fsico Matemticas, hasta
que se crean las Facultades de Ingeniera, Ciencias Exactas, etc.
Eran pocas picas tanto en la poltica estudiantil como en lo cientfico, en la
defensa de la Universidad de la Reforma y en contra de cierto oscurantismo
ligado al cientificismo.
En las catacumbas del Departamento de Fsica se entretejan la poltica del
hombre digno del Che Guevara y el aburrimiento dentro de la duda
metdica, el conteo de partculas radiactivas en un espectroscopio de
coincidencias rpido lentas para terminar la tesis de diploma, sin horario y das
feriados, la obsesin cientfica.
Luego el Doctorado en Ciencias Fsicas con la Tesis en Fsica Terica con el
Prof. Dr. ngel Lus Plastino, el amigo con el cual discutamos tambin de
poltica, y ... la noche de los bastones largos y la computacin apareciendo
en la Argentina a travs del clculo...y de nuevo las discusiones sobre
tecnologa, ciencia y la mquina-herramienta.
El honor y la vergenza no son inherentes a ninguna condicin. Hacer lo que
corresponde, en ello consiste el honor: el decoro universitario.
La Computacin, la Informtica como un nuevo panorama en el desarrollo
profesional y el aporte desafiante de la creacin de un centro de estudios de la
informacin, y los amigos colegas sugiriendo que intervenga... y el cambio
hacia las Ciencias de la Computacin, que no saba que era, pero el feeling
de que todas las disciplinas la necesitaban y necesitan que hasta poda ser
una tecnologa emergente para grupos interdisciplinarios.
Lo dems fue vertiginoso, el aprendizaje, la conduccin del Centro de Estudios
para el Procesamiento de la Informacin, la lucha por el reconocimiento de lo
emergente por los de siempre, de nuevo... la dictadura, y luego... de nuevo
casi volver a empezar en la investigacin cientfica.
Primero el Departamento de Informtica de la Facultad de Ciencias Exactas de
la Universidad Nacional de La Plata y luego el desafo de la Facultad de
Ingeniera de la Universidad de Buenos Aires donde haba que tratar que el
PREFACIO Y RECONOCIMIENTOS
Gregorio Perichinsky
Departamento de Computacin tuviera las tres patas que tantas veces dijera
el Prof. Dr. ngel Lus Plastino, la Docencia, la Generacin de Conocimiento
con la Investigacin Cientfica y la Vinculacin con la Sociedad, la
Transferencia Tecnolgica [Bunge, M. 1999] [Perichinsky, G. Investigation,
1995] [Nagel, E. 1968].
A pesar de mi mismo y pese a sus contradicciones voy a parafrasear a Ernesto
Sbato el proceso cultural es un proceso de domesticacin que no puede
llevarse sin rebelda por parte de la naturaleza animal, ansiosa de libertad.
El hecho es que la imagen de un hombre no es que se vea bueno ni malo, ni
grande ni trivial, pero s que est elaborado para satisfacer exageradas
expectativas de la grandeza humana.
Las cosas que parecen ms justas y simples son, en definitiva, las que se
revelan ms oscuras y difciles.
Tener que formalizar todo lo bueno y todo lo malo, tener que hacer el
Doctorado en Ciencias de la Informtica, es parte de mi trayectoria.
La interdisciplina, en un problema epistemolgico [Gianella, A. E. 2000]
[Klimovsky, G. 1994] que combina simultneamente su vaguedad con la
importancia filosfica que posee, es el problema de la reduccin, vinculado a
cierta postura filosfica es el Reduccionismo Metodolgico, que implica la
afirmacin de que objetos o mbitos de cierta naturaleza pueden, al fin,
definirse o caracterizarse en trminos o en componentes que corresponden a
otro mbito, de naturaleza distinta.
Se puede ubicar este problema dentro de la Explicacin Cientfica [Hempel, C.
G.,
1996]
adems
del
Ontolgico
Semntico,
el
Reduccionismo
Gregorio Perichinsky
xi
RECONOCIMIENTOS
La amistad es la negacin de esa soledad irremediable a la cual est
condenado cualquier ser humano.
A ngel Lus Plastino por acompaarme en esta aventura del conocimiento
con el silencio crtico y clido del amigo de tantos aos.
A Rosa Orellana por el aporte de su ciencia astronmica y por soportar con la
humildad del que sabe mi lamentable obligado desorden.
A Antonio Quijano que siempre me distingui con su respeto y amistad.
Al grupo inicial, incorporaciones y a los actuales del proyecto I015 de UBACYT
(FIUBA), y en el laberinto de la relacin encontraron como resolver la utopa,
Ciencia para el Departamento de Computacin y Disimular debilidades,
dndome soporte, marco y acompaamiento, a pesar de distanciamientos,
contradicciones y oportunismos, tal vez humanamente justificables.
A Arturo Servetto que supo responder con amistad, respeto y apoyo en todas
las desventuras por pretender lograr ms de lo que se puede, laboratorios,
carrera de Ingeniera Informtica, transformar una Especialidad en Carrera de
postgrado y proyectos de investigacin y extensin (FIUBA).
A los ms de veinte asistentes y miembros del Laboratorio de Sistemas
Operativos y Bases de Datos y de proyectos acreditados en UBACYT, bajo mi
direccin durante 15 aos.
A los Docentes, Tcnicos y Administrativos del Instituto LIDI y de la Facultad
de Informtica por ser el respaldo imprescindible.
Al Decano de la Facultad de Informtica Prof. Ing. Armando De Giusti por su
impulso, apoyo y comprensin sinnimos de amistad de tantos aos.
PREFACIO Y RECONOCIMIENTOS
Gregorio Perichinsky
xii
MENCIONES
Por el apoyo y reconocimiento de la Facultad de Ciencias Astronmicas y
Geofsicas y en particular de la Prof. Dra. R. B. Orellana, del Departamento
de Mecnica Celeste (Astrometra) - Universidad Nacional de La Plata
Buenos Aires Argentina.
Por parte del Prof. Dr M. H. Hamza y del Prof. Dr Vladimir L. Uskov de la
International Association of Science and Technology for Development
IASTED (Calgary Alberta - Canad) por reconocer mi trayectoria y mi
participacin en el Comit Tcnico sobre Software, Educacin y Bases de
Datos, y la Mencin Especial y Reconocimiento en Rhodes - Greece.
Al Prof. Dr. Jorge Muniz Barreto, Professor Titular de la Universidade
Federal de Santa Catarina - Departamento de Informtica e de Estadstica
Leboratrio de Conexionismo e Cincias Cognitivas y Editor Responsable
de la Revista Eletrnica de Sistemas de Informao RESI Brasil, y
haber Mencionado Especialmente el trabajo y con la referencia del
Observatorio Astronmico de Ro de Janeiro: TAXONOMIC EVIDENCE
APPLYING
INTELLIGENT
INFORMATION
ALGORITHM
AND
THE
PREFACIO Y RECONOCIMIENTOS
Gregorio Perichinsky
xiii
cientfico-tecnolgica
del
CYTED,
en
el
Programa
PREFACIO Y RECONOCIMIENTOS
Gregorio Perichinsky
xiv
PROLOGO
La Investigacin Cientfica metdica le ha permitido al hombre incrementar su
conocimiento en forma exponencial. La aplicacin del mtodo cientfico,
basado en la observacin, la experimentacin y la verificacin es la frmula
con la que se ha logrado progresivamente una comprensin cada vez ms
clara, cada vez ms precisa y cada vez ms amplia. Esto es porque el
investigador, a travs del mtodo cientfico, va logrando un conocimiento
verificable, al cumplir con las etapas de la investigacin cientfica y lo crucial de
la etapa de contrastacin de hiptesis.
El conocimiento no es infalible, por lo tanto puede ser discutido, ratificado o
rectificado, pero siguiendo las pautas metodolgicas originales o especificando
debidamente las razones de su modificacin; discusin sobre el planteo del
problema, formulacin de la hiptesis, fijacin de los objetivos, metodologa de
trabajo y preguntas que debern ser respondidas en las conclusiones. Ciencia
es la bsqueda racional del conocimiento, al manejar variables en forma
diferenciada en la investigacin de laboratorio y la investigacin de campo.
Es un largo viaje del intelecto que naci con el hombre y es materia viva
evolutiva.
Cuerpo de doctrina metdicamente adquirido: objetivo en los hechos,
interpretativo en las leyes, deductivo en las hiptesis sobre bases
epistemolgicas, especulativo en las teoras soportadas por una base emprica.
Esta base emprica del conocimiento es lo que permite la especulacin
objetiva, verificable y refutable, para el instrumentalismo y el realismo, al
encadenar trminos y enunciados mixtos para formar teoras [Bunge, M.1983].
Es difcil formar grupos y crear leyes abarcativas de problemas siendo ms
eficiente agruparlos en conjuntos disjuntos, de acuerdo al grado de
profundizacin en el tema, en el modelo hipottico deductivo, resolviendo el
dilema o par <conocimiento, prctica> [Perichinsky, G. 1995], mediante la
PRLOGO
Gregorio Perichinsky
xv
avanza
de
acuerdo
la
solucin
del
dilema
par
Gregorio Perichinsky
xvi
nico elemento o variable que acta sobre otra, y el resto de los elementos se
mantienen constantes. El inconveniente es que resulta difcil crear condiciones
artificiales sin alejarse de la realidad.
Para tratar varios componentes, y determinar propiedades y relaciones entre
ellos se realiza la Experimentacin Factorial.
Para lograr condiciones cercanas a la realidad se realizan Experimentos de
campo, tomando componentes reales y estudios en escala. Tomar ms
componentes es acercarse a los fenmenos, le da relevancia respecto de otros
tipos de experimentos. Por ello la investigacin de campo es una metodologa
usada en ciencias sociales. Los investigadores ingresan en un grupo u
organizacin o institucin, toman contacto directo con los procesos e
interacciones sociales de esos grupos.
Los componentes son ms controlados en la investigacin de campo, pues se
utilizan mediciones y escalas para el registro de las conductas; se obtiene una
informacin completa de los fenmenos.
Experimentos ex post facto son aquellos en los cuales no se manipulan las
variables, debido a impedimentos a veces de ndole tica y otras veces de tipo
tcnico. Los fenmenos involucrados pueden ser sociales, econmicos,
histricos y astronmicos, con variables cualitativas y cuantitativas. Las
primeras responden a criterios clasificatorios, las segundas permiten alguna
correspondencia de orden numrico, y pueden a su vez dividirse en variables
ordinales y mtricas, sujetas a escalas de medicin.
En el mtodo experimental se requiere gran cantidad de casos para evaluar un
nmero reducido de propiedades, para asegurar la validez, la objetividad y la
confiabilidad experimental mediante un diseo tcnicamente adecuado;
pueden usarse tanto en mtodos exploratorios como para contrastar hiptesis.
Una analoga en un investigador o una comunidad cientfica, conforma una
Base Emprica, en la cual un Objeto, Entidad o Situacin es un Dato, o
captado es una Observacin [Klimovsky, G. 1994]. Objetos Directos o
empricos en la Zona Emprica, e Indirectos o Tericos en la Zona Terica.
La dinmica del conocimiento surge del anlisis del modo de trabajo en las
ciencias, en la bsqueda del conocimiento, la clasificacin es la dinmica del
PRLOGO
Gregorio Perichinsky
xvii
Gregorio Perichinsky
xviii
PRLOGO
Gregorio Perichinsky
xix
en
tecnologas
informticas
emergentes
como
data
mining,
PRLOGO
Gregorio Perichinsky
xx
Laboratorio y Proyectos
Acreditados en UBACYT
DEPARTAMENTO DE COMPUTACIN
FACULTAD DE INGENIERA
UNIVERSIDAD DE BUENOS AIRES
PRLOGO
Gregorio Perichinsky
xxi
EXORDIO
EXORDIO
Gregorio Perichinsky
1. EXORDIO
Esta tesis aborda la definicin de un mtodo numrico basado en invariantes
para la clasificacin automtica de objetos a partir de la informacin de sus
caracteres, focalizado en la bsqueda de las invariantes con base en una
aplicacin original metodolgica de los principios de superposicin e
interferencia en el anlisis de espectros, en congruencia analgica con la
taxonoma numrica, por su relacin lgica y con fortaleza metodolgica.
Se demuestra un nuevo criterio para dar validez al mtodo en casos no
resueltos hasta ahora por la ciencia.
Este exordio como principio o prembulo de la tesis, tiene especialmente por
objeto excitar la atencin; y para su desarrollo, el problema, el marco terico y
el papel asignado a las hiptesis y la realidad, dar origen a las tareas de
Investigacin y la explicacin cientfica.
Siendo la motivacin principal del enunciado verdadero, utilizando leyes y
datos, es necesario conceptualizar la problemtica epistemolgica (primera
parte 1.1.) y un programa de investigacin cientfica (PIC) como sucesin de
teoras emparentadas semntica y sintticamente, que se van generando en
distintas
disciplinas
por
observaciones
intrigantes,
que
se
captan
Gregorio Perichinsky
consecuencias
contrastables
como
enunciados
inferidos
Gregorio Perichinsky
Gregorio Perichinsky
estructurarse
cientficamente
el
falsacionismo
debe
evolucionar
Gregorio Perichinsky
Gregorio Perichinsky
un
desarrollo
creativo
de
su
heurstica
positiva.
Visto
enunciados
bsicos
no
pueden
verificarse
por
observacin
Gregorio Perichinsky
pueden
ser
presupuestos,
especficos,
lgicos,
designativos,
ordinarios y cientficos.
El instrumentalismo considera que muchos trminos tericos no son
designativos, a pesar de ser especficos, por lo cual habra que decir que no
son ni empricos ni lgicos.
El conductismo usa la palabra "constructo" (del ingls construct), para
insinuar que un trmino terico es en realidad una construccin basada en
aspectos puramente empricos. As, en epistemologa, es abstracta una teora
constituida nicamente por enunciados tericos puros, no pudindose deducir
nada de los mismos, aplicables a la experiencia o a la prctica, ni realizar
explicaciones ni predicciones sobre lo que acontece en la base emprica. Son
enunciados tericos "mixtos", con trminos tericos y empricos, o "enunciados
puente", vinculando el mbito puramente terico del discurso, a lo observable o
prctico, localizado en la base emprica, son las "reglas de correspondencia".
El instrumentalismo prefiere artificios de carcter lingstico para vincular
observaciones entre s.
El realismo considera que los trminos tericos se refieren a entidades, aunque
no sean observables, probar la verdad o la falsedad de los enunciados
tericos, sin acudir a observaciones o a mtodos estadsticos.
La estructura de los enunciados es de tres niveles, (1) Enunciados empricos
bsicos (singulares); (2) Enunciados empricos generales o generalizaciones
empricas. Derivando a los Universales, Existenciales, Mixtos y Estadsticos o
probabilsticas; y (3) Enunciados tericos (generales Puros y Mixtos).
Un cientfico, para formular hiptesis o conjeturas, usa el mtodo sorprendente
EXORDIO
Gregorio Perichinsky
y hasta decepcionante que usa un artista cuando se le ocurre una obra de arte,
el poder de imaginacin y de creacin de que dispone. Imaginar qu puede
haber "detrs" de una apariencia fenomenolgica, explicar el comportamiento
de sta apariencia o de un fenmeno, inventar hiptesis y despus
controlarlas.
Los
conceptos
tericos
se
definen
operacionalmente,
tericos
Gregorio Perichinsky
Gregorio Perichinsky
10
verificado,
por
el
mtodo
hipottico
deductivo,
est
Gregorio Perichinsky
11
autnticas
explicaciones
seudo
explicaciones.
Estas
ltimas
argumentan para dar una explicacin, porque hay ausencia de datos o se entr
en un crculo vicioso.
El modelo estadstico de explicacin, es un caso particular, donde las leyes son
enunciados estadsticos o probabilsticos que establecen una regularidad en
sus trminos no universales.
La Explicacin gentica, no usa leyes, sino hechos pertinentes encadenados
por precedencia.
Las Explicaciones teleolgicas son modelos que explican un hecho presente,
con algo que ocurrir en el futuro (telos, significa "fin" u "objetivo").
En el funcionalismo [Parsons, T. 1966] [Manilowski, B. 1986], se adscribe a
una sociedad con comportamiento homeosttico, sistema funcional, donde la
alteracin de variables o factores que caracterizan su funcionamiento,
producira un proceso que le permitira recobrar su estructura. Explicar por
causas y por razones [Deum, P., Ryle, G., Einstein, A.], que es cuando se
deduce usando premisas-leyes y leyes causales.
1.1.7. Reduccionismo.
Cuando se encara con vaguedad un problema importante, se reduce, es una
postura filosfica denominada reduccionismo. Es cuando se tratan objetos o
mbitos de cierta naturaleza, que pueden definirse o caracterizarse en
trminos o en componentes, que corresponden a otro mbito de naturaleza
distinta.
Se advierte la conexin entre reduccin y explicacin, si existe un
procedimiento para reducir una disciplina a otra y, una teora a otra de una
disciplina anterior, donde las leyes de la disciplina que ha sido reducida, se
transforman en hiptesis derivadas de las teoras de mayor alcance. Las leyes
fundamentales de una disciplina sern explicadas por las leyes o las teoras de
EXORDIO
Gregorio Perichinsky
12
Gregorio Perichinsky
13
1.2. De la Tesis.
Para abordar un mtodo numrico basado en invariantes para clasificar objetos
en forma automtica, a partir de la informacin de sus caracteres, focalizado
en
la
bsqueda
de
de
espectros,
en
congruencia
analgica
con
la
taxonoma
EXORDIO
Gregorio Perichinsky
14
EXORDIO
Gregorio Perichinsky
15
Gregorio Perichinsky
16
Gregorio Perichinsky
17
La duda fue de Christiaan Huygens en el siglo XVII o siglo de las luces, quien,
partiendo de los fenmenos observados de la transmisin de las ondas de
agua sobre la superficie de un estanque o de las ondas sonoras a travs del
aire, sostuvo que la luz podra ser alguna perturbacin vibratoria transmitida
por algn medio que llena todo el espacio interestelar, que denomin ter
luminoso o transportador de la luz.
Evolucion, por otra parte, debido a las leyes de Newton de la mecnica y de
gravitacin universal y de la Mecnica Celeste debido a las ecuaciones de
Johannes Kepler; y al aceptar, Newton, la teora corpuscular, la teora del ter
o teora ondulatoria, tuvo pocos adeptos, hasta que los fenmenos de
interferencia, escapaban a cualquier explicacin basada en la teora
corpuscular, mientras que eran explicados por la teora ondulatoria.
Los
hallazgos
Fenmenos de interferencia y
Gregorio Perichinsky
18
EXORDIO
Gregorio Perichinsky
19
EXORDIO
Gregorio Perichinsky
20
EXORDIO
Gregorio Perichinsky
21
Gregorio Perichinsky
22
EXORDIO
Gregorio Perichinsky
23
Gregorio Perichinsky
24
Gregorio Perichinsky
25
tercer punto de inflexin, que comienza en 1998 pero sigue con el nuevo siglo,
XXI.
Con estas motivaciones, un Criterio Espectral, en el Anlisis de Clasificacin,
he decidido lograr el anlisis espectral, las clasificaciones se extendieron a la
base de datos de los elementos propios de asteroides en las familias.
Reconozco que los trabajos de Zappala son muy importantes (clasificacin
automtica y mtodo jerrquico), y un punto de inflexin en los tempranos 90s
pero es diferente el acercamiento porque trabajo en taxonoma computacional,
en un hiperespacio taxonmico, y no en un criterio de composicin y
precedentes fsicos y cosmoqumicos. Zappala y otros usan una metodologa
confundiendo, ambos, al tratar con slo una variable de velocidad, un espacio
transformado no claramente unvoco.
La decisin es lograr la clasificacin en familias, que extienden el uso de la
base de datos de elementos propios de asteroides, con un criterio de anlisis
espectral futuro. Incorporando as un conjunto actualizado y ms grande de
elementos oscilantes que se derivaron de la teora de perturbacin secular cuya
exactitud (especficamente, la estabilidad en el tiempo) se ha verificado
extensivamente por la integracin numrica a largo plazo; en forma automtica,
y perjudicar la tcnica de anlisis de datos en los grupos del no-azar, no se usa
en el espacio de elementos propios como en el criterio de Zappala y
cuantitativamente la importancia estadstica de estos grupos; con la robustez de
las estadsticas para las familias importantes con respecto a las variaciones
aleatorias pequeas de elementos propios, todos basados en un anlisis de
Taxonoma Computacional.
No considero la transformacin isotrpica y los conjuntos homogneos,
mientras cambiando los valores de la excentricidad y el semiejes al volver a
computar los valores de las zonas de entre-espacios del cinturn de los
asteroides en las velocidades en promedio, o los grupos eliminados de 5 o
menos objetos y familias que se solapan, todos los cuales considero estn fuera
de un criterio Computacional.
Estos clusters constituyen familias, mediante el anlisis estructural, basado en
sus caractersticas fenotpicas, exhibiendo sus relaciones, en lo que se refiere a
grados de similitud, entre dos o ms OTUs.
EXORDIO
Gregorio Perichinsky
26
EXORDIO
Gregorio Perichinsky
27
Gregorio Perichinsky
28
cuantos
fotones,
haciendo
coincidir
los
resultados
Gregorio Perichinsky
29
Gregorio Perichinsky
30
EXORDIO
Gregorio Perichinsky
31
EXORDIO
Gregorio Perichinsky
32
EXORDIO
Gregorio Perichinsky
33
XXXIV
Gregorio Perichinsky
34
Gregorio Perichinsky
35
probablemente no cubra todos los mtodos de clustering, creo que trae a la luz
algunas caractersticas internas interesantes y que describe un amplio rango de
mtodos posibles.
Est dirigido a graduados y/o investigadores en aprendizaje automtico o
inteligencia artificial en general, que no han estado al tanto de trabajos fuera de
su propio campo. Existe un amplio campo de investigaciones en estadstica y en
biologa, generalmente conocido como anlisis de cluster, que se aplica al
trabajo en aprendizaje automtico, si uno lo tiene en cuenta para las diferentes
ramas de estas disciplinas. Aunque unos pocos investigadores de Inteligencia
Artificial han trabajado en este rea [Michalski y Stepp, 1983a; Stepp, 1987;
Fisher y Langley, 1986], en l se realizaron estudios de anlisis de clusters no
comprensibles para la Inteligencia Artificial. En particular, el anlisis de cluster es
muy similar al estudio de formacin de conceptos en aprendizaje automtico. Un
objetivo de este trabajo es enfatizar esta similitud y mostrar cmo investigadores
en aprendizaje automtico pueden beneficiarse con el conocimiento sobre
anlisis de cluster.
Comienzo este informe presentando puntos de vista del problema de clustering
mirado desde varias perspectivas diferentes, empezando con un enfoque desde
el aprendizaje automtico. En la tercera seccin describo la dificultad e
importancia de elegir una medida de similitud o una funcin de evaluacin; esta
seccin incluye tambin algunas de las medidas ms importantes y usuales.
Contino con una descripcin de algoritmos que utilizan estas medidas y
concluyo con una discusin acerca de la dificultad de validar o evaluar una
tcnica de clustering.
2.1.2. PARADIGMAS Y TRAYECTORIAS
Ms que intentar dar una definicin ms precisa sobre la tarea de clustering, en
su lugar describir el problema desde cuatro paradigmas diferentes: aprendizaje
automtico, biologa, estadstica y teora de la decisin. De esta manera, los
objetivos y trayectorias de los investigadores de diferentes campos sern
explcitos.
Mis propios caminos para llegar al clustering provienen del paradigma de
aprendizaje automtico y la terminologa utilizada en este estudio proviene de
Gregorio Perichinsky
36
ese campo de la literatura. Con ambos, para dar una idea acerca de la
diversidad de la terminologa y para hacerlo accesible a lectores provenientes de
otros paradigmas, la siguiente es una breve lista de trminos tcnicos
traducidos (los trminos utilizados en este trabajo son los que figuran al final de
cada rengln en letra itlica).
un objeto, unidad taxonmica operacional (OTU), evento o caso es
una instancia (de una metaclase).
los caracteres, caractersticas o variables que describen una
instancia son atributos (que describen a los objetos).
las mtricas de distancia, medidas de asociacin o coeficientes de
similitud que comparan instancias son medidas de similitud y
el criterio de optimizacin
Gregorio Perichinsky
37
generalmente existe por lo menos una dbil analoga con el sistema humano de
estructuracin de aglomeracin de objetos (clustering).
A modo de ejemplo de una aplicacin para formacin de conceptos considere un
robot explorador que percibe una secuencia de diferentes pelotas. Incluso si el
robot est equipado con un sistema perceptivo que reduce cada instancia a un
conjunto de pares atributo-valor, todava deber crear y organizar un til
conjunto de conceptos sobre estas pelotas. Por ejemplo, luego de observar unas
pocas pelotas de bisbol, deber crear un concepto para ellas y ser capaz de
reconocer una nueva pelota de bisbol como un miembro de esa clase y no
como una instancia de alguna otra clase (pelota de voleibol, pelota de tenis,
etc.).
Una caracterstica que distingue la formacin de conceptos es que las clases
aprendidas deben ser por intensin, ms que por extensin. Por ejemplo, la
clase pelota de bisbol debe ser una descripcin conceptual de las pelotas de
bisbol vistas, ms que simplemente una lista de todas las instancias
componentes [Michalski y Stepp, 1983b]. Este nfasis en definiciones de
conceptos por intensin significa que las funciones de evaluacin que comparan
clases son ms apropiadas para la formacin de conceptos que las medidas de
similitud que comparan instancias.
Un segundo aspecto de la formacin de conceptos es que las clases aprendidas
estn generalmente organizadas en una jerarqua de conceptos. Esto es, los
conceptos aprendidos estn organizados en una forma ms general jerrquica,
conceptos inclusivos hacia la parte superior y ms especficos, conceptos
exclusivos hacia la parte inferior. Esto refleja la naturaleza jerrquica del
conocimiento en dominios tpicos de aprendizaje automtico. Por ejemplo,
pelotas de ftbol y de voleibol tienen ms similitud entre ellas que con pelotas de
bisbol o de crosse (raqueta). Una jerarqua natural para estos cuatro tipos de
pelotas sera poner las pelotas de ftbol y de voleibol juntas en una clase ms
general, blanda, grande y las pelotas de crosse y bisbol en una clase dura,
pequea.
Una tercera caracterstica de la formacin de conceptos es que el aprendizaje se
produce en forma incremental. Como el robot observa cada pelota sucesiva, la
debera agregar a su conocimiento inmediatamente; los conceptos aprendidos
se actualizan con cada nueva experiencia sin reprocesar instancias previas. En
Gregorio Perichinsky
38
Gregorio Perichinsky
39
Gregorio Perichinsky
40
Existe un debate considerable sobre este tema. Vase Everitt (1979) o Aldenderfer y
Gregorio Perichinsky
41
de
clases,
los
estadsticos
estn
interesados
en
evaluar
P ( x| i ) P( i )
P( x )
2.1.2.4.1
i, o el valor de x que sera predecido por la clase i. Estas funciones deben ser
estimadas; por ejemplo, se puede asumir una distribucin normal y buscar una
buena estimacin de los parmetros y que caracterizan esta distribucin.
Gregorio Perichinsky
42
Gregorio Perichinsky
43
Gregorio Perichinsky
44
aprendizaje automtico.
ESTADO DEL ARTE
Gregorio Perichinsky
45
Dij = [
k =1
( xik x jk )
1/ 2
2.1.3.2.1
K
k =1
| xik x jk |
2.1.3.2.2
Ntese que este atributo normalizado est relacionado con el peso del atributo descrito
anteriormente. El peso del atributo es una prctica controvertida slo si la medida de similitud
utilizada es sensible a transformaciones lineales de los datos.
ESTADO DEL ARTE
Gregorio Perichinsky
46
Dij=
( xik xi )
donde xi = 1/ K
K
k
xik es el valor
( xik xi )( x jk x j )
2
2 1/ 2
2.1.3.2.3
( x jk x j ) ]
dada, i.
Esta aproximacin ha sido usada con algn xito entre los investigadores en
psicologa [Aldenderfer y Blashfield, 1973, pp. 22-23]. Sin embargo, esta medida
est muy desacreditada (especialmente en otros campos) porque no existe
justificacin para la inversin sintctica. El significado de la ecuacin se pierde:
por ejemplo, puesto que x es un promedio de atributos diferentes, podra estar
promediando manzanas y naranjas y podra no tener la semntica esperada
para ese trmino.
2.1.3.3 MEDIDAS PARA ATRIBUTOS BINARIOS O SIMBLICOS
Ni la correlacin ni la distancia Eucldea pueden ser aplicados a un atributo con
valores binarios o simblicos. Una caracterstica de un atributo semejante es que,
dados dos valores, la expresin xi - xj no tiene ningn significado. Una medida de
similitud para atributos simblicos est enfrentada con una simple comparacin:
o los dos valores son iguales, o ellos son diferentes. Sobre un conjunto de
atributos, la manera ms simple de comparar dos instancias es hallar el
porcentaje de atributos coincidentes:
Sij =
2.1.3.3.1
Gregorio Perichinsky
47
Dado que los atributos binarios son muy comunes, los investigadores han
tratado, en general, este caso por separado. Si uno mira dos instancias, i y j,
existen cuatro relaciones posibles para cada atributo binario; stas son
mostradas en la tabla de asociacin 2 x 2 como Tabla 2.1.3.3.1. Si stas son
totalizadas sobre todos los atributos, a y d representan el nmero de atributos
coincidentes, mientras que c y b son no coincidentes. Por lo tanto, la simple
medida de coincidencia descripta antes puede ser expresada como:
Sij =
a+d
K
2.1.3.3.2
a
a +b+c
2.1.3.3.3
Gregorio Perichinsky
48
(a + d ) ( c + b)
K
2.1.3.3.4
Anderberg (1973) presenta esta conversin, tanto como un gran nmero de otras
Gregorio Perichinsky
49
1
Nj
Nj
( xi x jk ) 2
2.1.3.4.1.1
Gregorio Perichinsky
50
En general, estas
Gregorio Perichinsky
51
promediada para todos los pares de atributos; cuanto mayor es esta correlacin
de promedios, mejor es la clase. La matriz de concurrencia (para usar la
terminologa de los autores) se define como:
Dij=
xmn )(log
xmn )
2.1.3.4.2.1
y j.
Vase Hand (1981) para una discusin ms detallada de esta identidad, as como tambin
Por supuesto, como se usa aqu, la correlacin slo se refiere a un par de atributos.
Gregorio Perichinsky
52
Category Utility(k)=
j =1
[ P(C j )
V
v =1
P( xkv | C j ) 2 ]
V
v =1
P ( x kv ) 2
2.1.3.4.3.1
Gluck y Corter (1985) definieron categora de utilidad para dos clases; aqu, he mostrado
la generalizacin de Fisher (1987a) para clases. El modelo de informacin terica tambin usa
logaritmos en lugar de los trminos cuadrticos ( ( )
( ( )) en lugar de
( ) ). De cualquier
modo, el autor sostiene que esta diferencia no afectar el comportamiento del sistema de
clustering.
ESTADO DEL ARTE
Gregorio Perichinsky
53
luego dividida por el nmero de hijos, por tanto, aquellas particiones de tamao
diferente pueden ser comparadas.
Ambas, la categora de utilidad y la funcin de evaluacin de Hanson y Bauer,
trabajan slo con atributos simblicos; debido a que ellas iteran alrededor de
todos los posibles valores de cada atributo, ellas no pueden ser aplicadas a
atributos continuos. Las clases se definen como un conjunto de probabilidades
para cada par posible atributo-valor. Gennari, Langley y Fisher (1989) usan la
categora de utilidad como la base para una medida relacionada para atributos
continuos normalmente distribudos. Debido a que asumimos una distribucin
normal, esta medida se basa en la desviacin estndar, k, para un atributo dado
k.
Gregorio Perichinsky
54
P(Cj ) / jk 1 / pk
2.1.3.4.3.2
J
donde jk es la desviacin estndar dentro de una clase j dada y pk es la
desviacin estndar sin informacin de ninguna clase.
Como uno podra suponer, esta medida es similar a minimizar la traza (W). Por
ejemplo, las clases son definidas de la misma manera, un conjunto de medias y
desviaciones estndar, para cada atributo. De hecho, la nica diferencia
importante es la substraccin de 1/pk.. Sin embargo, esto es exactamente lo que
distingue la categora de utilidad de Gluck y Corter de otras funciones de
evaluacin. Adicionalmente, existe alguna fuerte evidencia de que sustrayendo
esta informacin de contexto se reduce la sensitividad de la medida a normalizar
o transformaciones lineales de atributos, un problema definido para la funcin
traza (W).9
2.1.3.4.4. EVALUACION DE LA CLASE BAYESIANA
Si bien un sistema Bayesiano de clustering compara clases, usualmente no tiene
el mismo tipo de funcin de evaluacin como aquellos descriptos hasta aqu. En
lugar de evaluar clases con respecto a todas las instancias, la ecuacin bsica
de la teora de la decisin (presentada en la seccin 2.1.2.4) compara una nica
instancia con un conjunto de clases. La dificultad con esta ecuacin es que para
calcular las probabilidades de clase condicional, P(x|i), se necesita una
estimacin de los parmetros de clase que definen cada i. Duda y Hart (1973)
concluyen que en general no existe una manera analticamente simple para
hallar esta estimacin y que los costos computacionales para una solucin
exacta crecen exponencialmente con el nmero de instancias.
Sin embargo, existe un nmero de tcnicas de estimacin que han sido
empricamente exitosas. Fried y Holyoke, 1984, utilizan un algoritmo simple
basado en la medida de similitud de la distancia Eucldea para hallar
estimaciones de parmetros iniciales de clases. Utilizando estas estimaciones,
ellas pueden entonces determinar P(x|i). Anderson usa una probabilidad
9
Este efecto fue observado por el autor mientras experimentaba con el sistema CLASSIT.
Gregorio Perichinsky
55
10
Debido a que Anderson trabaja con atributos simblicos, su funcin de evaluacin est
relacionada con la medida de coincidencia simple, excepto que la nueva instancia sea comparada
con el conjunto de todas las instancias componentes. El trabajo de Anderson es tambin
interesante pues su algoritmo es incremental (vase seccin 2.1.4.3 )
ESTADO DEL ARTE
Gregorio Perichinsky
56
por asumir que cada instancia est en la misma clase de nivel ms alto, entonces divide
ESTADO DEL ARTE
Gregorio Perichinsky
57
repetidamente esta clase en un nmero de hijos hasta que cada (muy especfica ) clase tiene slo
una
instancia.
Si
bien
unos
pocos
algoritmos
semejantes
han
sido
propuestos
(MacNaughton-Smith et al. 1964, Fisher 1984), ellos han sido raramente usados.
ESTADO DEL ARTE
Gregorio Perichinsky
58
12
Duda y Hart (1973) dan la expresin exacta para el nmero de maneras de particionar
instancias en
/ !.
Gregorio Perichinsky
59
Gregorio Perichinsky
60
pequeo (menor que 10). Cuando se usa la distancia Eucldea, Hand (1981)
muestra que este algoritmo es equivalente a optimizar la funcin de evaluacin
traza (W).
Se puede hacer un nmero de modificaciones a este algoritmo. Primero, dado
que el punto inicial puede ser crtico a un investigador de hill-climbing, se pueden
utilizar diferentes mtodos para elegirlo. Por ejemplo, las instancias iniciales k
pueden ser elegidas al azar o ellas pueden ser elegidas tal que todos los
orgenes estn separados al menos en alguna mnima distancia. El algoritmo
completo puede repetirse con diferentes selecciones de orgenes tal que el
investigador puede comparar posibilidades [Duda y Hart 1973]. De hecho, ellos
sugieren incluso utilizar an un mtodo aglomerativo para hallar la particin
inicial, aunque esto parece caro. Anderberg (1973) tambin describe un nmero
de tcnicas de seleccin de orgenes.
Una segunda modificacin puede hacerse calculando nuevos centroides de
clases siempre que una instancia sea reasignada a una clase. En este caso, el
algoritmo puede converger mucho ms temprano; por ejemplo, el algoritmo
k-means de MacQueens (1967) [Sokal y Sneath, 1973] utiliza slo dos pasadas
a travs de las instancias. En la primera pasada, los centroides son modificados
a medida que sucede cada reasignacin; durante la segunda pasada los
centroides permanecen fijos.
Finalmente, se puede expandir el algoritmo de manera que apunte a dos
problemas de nivel superior. Primero, porque no siempre se puede ser capaz de
especificar el nmero de clases, k, a priori, se puede tratar el algoritmo k-means
con diferentes valores de k permitiendo una estimacin del mejor k. Segundo, el
investigador puede necesitar una jerarqua de clases ms que la sencilla lista
que los algoritmos de optmimizacin iterativa usualmente producen. Para este
fin, se puede ejecutar simplemente el algoritmo recursivamente en cada uno de
los k grupos identificados en esta primera ejecucin.
Si bien estas extensiones parecen ser caras, soluciones bruta-forza, Michalski y
Stepp (1983b) las han incorporado en algoritmos k -means en su programa
CLUSTER/2.13 Este sistema tambin incluye un paso que ayuda a evitar la
13
optimizacin iterativa. Esta caracterizacin se clarific slo despus de estudiar estos mtodos
ms antiguos.
ESTADO DEL ARTE
Gregorio Perichinsky
61
Gregorio Perichinsky
62
Gregorio Perichinsky
63
Gregorio Perichinsky
64
Gregorio Perichinsky
65
Gregorio Perichinsky
66
atributo). Por lo tanto, una vez que este resultado es promediado sobre
instancias y atributos, esta precisin predictiva promedio puede utilizarse como
una medida general de la utilidad de las clases creadas por el sistema de
clustering. Esta medida de rendimiento puede entonces ser
utilizada para
comparar diferentes mtodos con los mismos datos o el mismo mtodo con
diferentes conjuntos de datos.
2.2. ESTADO DEL ARTE EN BASES DE DATOS
El diseo de Bases de Datos se realiza en tres fases: Diseo Conceptual de ms
alto nivel de abstraccin, Diseo Lgico que permite convertir al Diseo
Conceptual en requerimientos implantados en un sistema de computacin y
Diseo Fsico donde se estructuran los datos y se determinan mtodos de
consulta.
Segn los ltimos avances tericos el diseo lgico se puede desarrollar
independientemente del administrador de la base de datos (DBMS Data Base
Management System) [Batini,C., Ceri,E., y Navathe,S., 1992] y en los mtodos
del paradigma orientado a objetos los modelos de datos semnticos y las
cadenas semnticas [Kim,W., Lochovsky,F., 1989], as mismo se utilizaron los
modelos de entidad-relacin ER [Chen,P.P.,1976] y [Bachman,C.V., 1974] y sus
extensiones [Teorey, T.J., Fry, J.P., 1982], [Shan y Shixuan, 1984] y [Elmasri,R.,
Navathe,S., 1989] sobre todo para la discusin sobre tipos abstractos, reglas de
integridad referencial y clases.
En esta discusin estn involucrados la integracin de las tecnologas de bases
de datos, con la tecnologa de los lenguajes de programacin, con la tecnologa
de la inteligencia artificial y con los lenguajes lgicos.
De todas maneras hay que marcar una tendencia comn a aumentar el poder
expresivo de los modelos de datos y de los lenguajes de gestin de datos.
2.2.1. EXTENSIN DE LOS SISTEMAS RELACIONALES
Hay una tendencia a la extensin de los DBMG relacionales con varias funciones
como la de representar directamente objetos complejos en el modelo relacional
anidado (capas de software por niveles de abstraccin), disparadores de
Gregorio Perichinsky
67
Gregorio Perichinsky
68
sistema de base de datos. Este nuevo enfoque hace que los dominios de los
atributos sean dinmicos y conformen realmente la base del tratamiento de la
teora de conjuntos, y que las tuplas se generen dinmicamente a travs de
visiones.
Se trata de un diseo que cambia la estructuracin tradicional de agrupamiento
esttico de valores de atributos en registros por la creacin de dominios de
atributos, formando conjuntos de valores de los mismos. Las tuplas (virtuales) se
forman mediante las relaciones que como las visiones no existen, las tablas
estn establecidas a partir de dominios [Date,C.J., 1992.Data on Databases].
No se trata de una estandarizacin pues este concepto frena los desarrollos
futuros, esto exige cautela pues el dilema es, que la estandarizacin orienta a los
diseadores.
La arquitectura ANSI/X3/SPARC tiene una tcnica de diseo por niveles o
mquinas anidadas y el flujo de datos pasa por las distintas capas, que estn
separadas por interfaces, cuyo nmero marca de alguna manera la capacidad
de independencia.
Un diccionario de datos permite la estructuracin del conjunto de datos o
metadatos.
El tradicional esquema conceptual envuelve esta capa con una interfaz con el
diccionario en la metabase de datos.
Las estructuras externas e internas forman parte de capas separadas por las
interfaces 4 y 5. Cada uno tiene un administrador en la interfaz 3 se puede tener
un conjunto de mens, que se utilizar para el administrador de la Base.
La manipulacin de la Base de Datos se har con SQL embbeding con un motor
C y C++.
Una operacin se ejecuta mediante transformadores conceptual/externo,
interno/conceptual y almacenamiento/interno que utilizan los metadatos
mediante las interfaces (binding).
Como no se especifica la instrumentacin, se permite que:
el sistema evolucione rpidamente
la utilizacin sea ptima
se logre independencia lgica
posibles reestructuraciones.
Gregorio Perichinsky
69
En forma similar que en el SQL, las tablas son, en sentido estricto y dinmico,
"visiones" con leyes de formacin que surgen de la lgica de la aplicacin.
Por ello hablamos de visiones y decimos "dinmicas", pues se pueden agregar o
eliminar columnas-dominio de una tabla virtual y por supuesto se pueden
modificar y eliminar valores de atributos, tanto como aumentar el cardinal de un
dominio. De esta manera todo objeto o entidad de una aplicacin puede mejorar
dinmicamente su calificacin e identificacin. Se alcanza as una gran
independencia tanto fsica como lgica de los datos, y una dinmica en el
crecimiento o expansin (hasta en comportamiento) [Perichinsky,G., 1994].
2.2.1.3. MODELIZACIN
El modelo surge del par M=<S,O> donde S son las reglas y O las operaciones
sobre objetos permitidos.
Las instancias determinan la dinmica del modelo.
El debate actual es extender la Bases de Datos Relacionales hacia la orientacin
a objetos [Third Generation Database System Manifesto. Carey et al.1990] y los
puristas del modelo orientado a objetos [The Object-Oriented System Manifesto.
Atkinson et al.1990], despus [Staugaard, 1998].
Ante esta alternativa es preferible pensar en el avance terico que representa la
orientacin a objetos y por lo tanto aplicarla de acuerdo a los requerimientos del
diseo; por ejemplo una capa de nivel externo que d la apariencia de objetos,
sobre un modelo relacional [de Miguel,A., 2000].
Verdaderamente se obtienen grandes ventajas con este modelo, ya que lo
expuesto implica una reestructuracin que no depende de los datos sino de las
aplicaciones. Las diferentes aplicaciones pueden "ver" a los datos de acuerdo a
sus requerimientos y modos.
Se simplifica la visin de los usuarios. Los dominios de los atributos son la base
del modelo y de la agregacin lgica de estos, mediante operaciones y formas
algebraicas relacionales, surge la estructura.
Las expresiones del lgebra relacional sirven a los propsitos de mantenimiento,
actualizacin y recuperacin de la informacin de los dominios, a travs del
manejo de tuplas, y preservando su homogeneidad e integridad. Al operar sobre
Gregorio Perichinsky
70
Gregorio Perichinsky
71
Gregorio Perichinsky
72
Gregorio Perichinsky
73
El IDO no tiene nada que ver con el estado, es una identificacin propia del
objeto o de clases de objetos si son complejos o sus instancias, sistemas
GemStone del Smalltalk [Breitl,R. et al,1989], O2 [Deux,O. et al,1990], Iris
[Fishman,D. et al,1989] y Orion [kim,W. et al,1989].
2.2.6. PRIMERAS CONCLUSIONES
Los modelos semnticos de datos, al igual que el modelo entidad-relacin y el
modelo funcional, representan un intento de capturar tanto conjuntos de
relaciones semnticas entre entidades del mundo real como sea posible. Las
relaciones de generalizacin/especializacin, agregacin y la de instancia-de
son modeladas eficientemente. En modelo de datos orientado a objetos es
menos expresivo que el modelo semntico de datos, pero estos carecen del
concepto de mtodo, es por eso que se est tratando de extender al modelo
orientado a objetos con funcionalidades tales como visiones y objetos
compuestos [Kim,W., 1990]. Genricamente se puede decir que mientras uno
ofrece
mecanismos
para
abstraccin
estructural
para
representar
Gregorio Perichinsky
74
Gregorio Perichinsky
75
un conjunto C de clases,
Encontrar:
Una hiptesis H (conjunto de clusulas) tal que:
e E: H e = c H e c
2.2.7.1.1.
un rbol de decisin,
planos.
Clases
predefinidas
del
tipo
{valor_atributo1,
valor_atributo2,...,
valor_atributon, clasek}.
ESTADO DEL ARTE
Gregorio Perichinsky
76
decisin.
Los rboles de decisin representan una estructura de datos que organiza
eficazmente a los descriptores. Se construye un rbol de forma tal que en cada
nodo se realiza una prueba sobre el valor de los descriptores y de acuerdo con la
respuesta se va descendiendo en las ramas, hasta llegar al final del camino
donde se encuentra el valor del clasificador. Se puede analizar un rbol de
decisin como una caja negra en funcin de cuyos parmetros (descriptores) se
obtiene un cierto valor del clasificador.
Entrada
Entrada: p1, p2
d1(p1)
Nodos
descriptores
F(d1(p1),d2(p2))=c
d2(p2)
Hojas o Nodos de
clasificadores
Salida: c
Salida
Gregorio Perichinsky
77
nico atributo, con una rama y subrbol para cada valor posible de la prueba.
El rbol de decisin generado por el C4.5 cuenta con varias caractersticas
particulares: cada hoja tiene asociados dos nmeros, que indican el nmero de
ESTADO DEL ARTE
Gregorio Perichinsky
78
Gregorio Perichinsky
79
Gregorio Perichinsky
80
2.2.7.2.3.1.
Supongamos que tenemos una prueba posible con n resultados que particionan
al conjunto T de entrenamiento en los subconjuntos T1, T2,. . ., Tn. Si la prueba se
realiza sin explorar las divisiones subsiguientes de los subconjuntos Ti, la nica
informacin disponible para evaluar la particin es la distribucin de clases en T
y sus subconjuntos.
Consideremos una medida similar luego de que T ha sido particionado de
acuerdo a los n resultados de la prueba X. La informacin esperada (entropa)
puede determinarse como la suma ponderada de los subconjuntos, de la
siguiente manera
H (T , X ) =
Ti
i =1
H (Ti )
2.2.7.2.3.2.
La cantidad
I (T , X ) = H (T ) H (T , X )
2.2.7.2.3.3.
Gregorio Perichinsky
81
I _ divisin( X ) =
Ti
i =1
log 2
Ti
T
2.2.7.2.4.1.
I (T , X )
I _ divisin( X )
2.2.7.2.4.2.
Gregorio Perichinsky
82
Un conjunto de datos
Se desea obtener:
ESTADO DEL ARTE
Gregorio Perichinsky
83
pueden ser:
1. Nodos intermedios: en donde se encuentran los descriptores escogidos
segn el criterio de entropa, que determinan cul rama es la que debe tomarse.
2. Hojas: estos nodos determinan el valor del clasificador.
Este procedimiento de formacin de reglas funcionar siempre dado que no
existen dos objetos pertenecientes a distintas clases pero con idntico valor para
cada uno de sus atributos; si este caso llegara a presentarse, los atributos son
inadecuados para el proceso de clasificacin.
Hay dos conceptos importantes a tener en cuenta en el algoritmo ID3 [Blurock,
1996]: la entropa y el rbol de decisin. La entropa se utiliza para encontrar el
parmetro ms significativo en la caracterizacin de un clasificador. El rbol de
decisin es un medio eficiente e intuitivo para organizar los descriptores que
pueden ser utilizados con funciones predictivas.
2.2.7.3.2. Algoritmo ID3
A continuacin se presenta el algoritmo del mtodo ID3 para la construccin de
rboles de decisin en funcin de un conjunto de datos previamente
clasificados.
Funcin ID3
(R: conjunto de atributos no clasificadores,
C: atributo clasificador,
S: conjunto de entrenamiento) devuelve un rbol de decisin;
Comienzo
Si S est vaco,
devolver un nico nodo con Valor Falla;
Si todos los registros de S tienen el mismo valor para el atributo clasificador,
Devolver un nico nodo con dicho valor;
Si R est vaco, entonces
devolver un nico nodo con el valor ms frecuente del atributo clasificador en los
registros de S [Nota: habr errores, es decir, registros que no estarn bien
clasificados en este caso];
Gregorio Perichinsky
84
Gregorio Perichinsky
85
Gregorio Perichinsky
86
Gregorio Perichinsky
87
Gregorio Perichinsky
88
2.2.7.4.2.1.
Gregorio Perichinsky
89
n
i =1
P (S i ) H (S i )
2.2.7.4.5.1.
excepto que slo se tienen en cuenta los casos para los cuales el valor de A es
conocido. La definicin de ganancia puede corregirse a:
2.2.7.4.5.2.
o, en otras palabras, la ganancia aparente de mirar a los casos con valores
conocidos, multiplicada por la fraccin de dichos casos en el conjunto de
entrenamiento.
El clculo de la proporcin de ganancia se realiza de la misma manera. La
definicin de informacin de la divisin puede modificarse de manera similar,
considerando los casos con valores desconocidos como un grupo ms,
entonces, si una prueba tienen n resultados, su informacin de la divisin se
calcula como la prueba dividido n+1subconjuntos.
Gregorio Perichinsky
90
I _ divisin
(X ) =
n +1
i =1
Ti
T +1
log
Ti
2
T +1
2.2.7.4.5.3.
2.2.7.4.6. Particin del conjunto de entrenamiento
Una prueba puede seleccionar del conjunto de pruebas posibles, como antes,
pero utilizando las versiones modificadas de ganancia e informacin de la
divisin. Si la prueba X con resultados O1, O2, ..., ON es escogida y tiene algunos
valores desconocidos para algunos de los datos de entrenamiento, el concepto
de particionamiento debe ser generalizado, segn un criterio probabilstico.
Cuando un caso T con un resultado conocido Oi es asignado al subconjunto Ti,
esto significa que la probabilidad de que el caso pertenezca a Ti es 1 y de que
pertenezca a todos los otros subconjuntos es 0. Cuando el resultado es
desconocido, slo se puede realizar una afirmacin estadstica ms dbil.
Entonces, se asocia con cada caso del subconjunto Ti un peso representando la
probabilidad de que el caso pertenezca a cada subconjunto. Si el resultado para
el caso es conocido, entonces el peso es 1; si el caso tiene un resultado
desconocido, entonces el peso es simplemente la probabilidad del resultado Oi
en este punto. Cada subconjunto Ti es una coleccin de casos fraccionales
posibles, tal que |Ti| debe ser reinterpretada como la suma de los pesos
fraccionales de los casos pertenecientes al subconjunto.
Los casos de entrenamiento en T pueden tener pesos no unitarios, ya que T
puede ser el resultado de una particin previa. Entonces, en general, un caso de
T con peso p cuyo resultado no se conoce, es asignado a cada subconjunto Ti
con peso:
2.2.7.4.6.1.
P x probabilidad_de_resultado_Oi
Gregorio Perichinsky
91
Si
un
clasificador asigna
todos
los
casos
con valores
Gregorio Perichinsky
92
clase mayoritaria, (1 p) x p
que da como resultado 2 x p (1 p). Como p es al menos 0.5, esto es
generalmente superior a 1 p, entonces el segundo clasificador tendr una
mayor proporcin de errores. Un rbol de decisin complejo tiene una gran
similitud con este segundo tipo de clasificador. Los casos no se relacionan a una
clase, entonces, el rbol manda cada caso al azar a alguna de las hojas.
Un rbol de decisin no se simplifica borrando todo el rbol a favor de una rama,
sino que se eliminan las partes del rbol que no contribuyen a la exactitud de la
clasificacin para los nuevos casos, produciendo un rbol menos complejo, y por
lo tanto, ms comprensible.
Existen, bsicamente, dos maneras de modificar el mtodo de particionamiento
recursivo para producir rboles ms simples: decidir no dividir ms un conjunto
de casos de entrenamiento, o remover retrospectivamente alguna parte de la
estructura construida por el particionamiento recursivo.
El primer enfoque, conocido como pre-poda, tiene la ventaja de que no se pierde
tiempo en construir una estructura que luego ser simplificada en el rbol final.
Los sistemas que lo aplican, generalmente buscan la mejor manera de partir el
subconjunto y evalan la particin desde el punto de vista estadstico mediante
la teora de la ganancia de informacin, reduccin de errores, etc. Si esta
evaluacin es menor que un lmite predeterminado, la divisin se descarta y el
rbol para el subconjunto es simplemente la hoja ms apropiada. Sin embargo,
este tipo de mtodo tiene la desventaja de que no es fcil detener un
particionamiento en el momento adecuado, un lmite muy alto puede terminar
con la particin antes de que los beneficios de particiones subsiguientes
parezcan evidentes, mientras que un lmite demasiado bajo resulta en una
simplificacin demasiado leve.
El C4.5 utiliza el segundo enfoque, el mtodo de divide y reinars procesa los
datos de entrenamiento libremente, y el rbol sobreajustado producido es
podado despus. Los procesos computacionales extras invertidos en la
construccin de partes del rbol que luego sern podadas pueden ser
sustanciales, pero el costo no supera los beneficios de explorar una mayor
Gregorio Perichinsky
93
Gregorio Perichinsky
94
Gregorio Perichinsky
95
nuestros
esquemas
clasificatorios
nunca
pueden
ser
estructuras
de
las
cuales
sostenemos,
suspendemos,
Gregorio Perichinsky
96
2.3.3. DEFINICIONES
Sistemtico: El estudio cientfico de las clases de tipos y diversidad de
organismos y de cualquiera y todas las relaciones entre ellos.
Tomado en el sentido ms amplio es el arreglo de organismos en taxones y su
nominacin y adems las causas y orgenes de los arreglos.
ESTADO DEL ARTE
Gregorio Perichinsky
97
cantidades numricas.
Esto incluye las "tiradas" de las inferencias filogenticas de estudios estadsticos
u otros matemticos, en toda su extensin.
Gregorio Perichinsky
98
Gregorio Perichinsky
99
GENERALIZACIN
1. Una generalizacin no puede ser realizada antes que los taxones sean
reconocidos.
2. Los taxones no pueden ser reconocidos antes que la semejanza
(similitud) entre objetos sea conocida.
3. La semejanza no puede ser estimada antes que los objetos y sus
caracteres han sido examinados.
4. Los pasos pueden ser combinados en un procedimiento computacional
pero el orden no puede ser cambiado pues se destruye el producto
clasificatorio.
Gregorio Perichinsky
100
Gregorio Perichinsky
101
Gregorio Perichinsky
102
Gregorio Perichinsky
103
Gregorio Perichinsky
104
Gregorio Perichinsky
105
Gregorio Perichinsky
106
Gregorio Perichinsky
107
Gregorio Perichinsky
108
Gregorio Perichinsky
109
Gregorio Perichinsky
110
Gregorio Perichinsky
111
respecto a otras.
Gregorio Perichinsky
112
DESCRIPCIN
DEL
PROBLEMA
Gregorio Perichinsky
113
Gregorio Perichinsky
114
Gregorio Perichinsky
115
SOLUCIN PROPUESTA
"La nocin de un Diseo Inteligente est vertiginosamente reemplazando
la evolucin Darwinista como el principio central de la ciencia biolgica.
viene una revolucin! "
Jonathan Wells, Bilogo Postdoctoral y Cientfico principal del Instituto
Discovery, Seattle.
CXVI
SOLUCION PROPUESTA
Gregorio Perichinsky
116
4. SOLUCIN PROPUESTA
ESPECTROS DE EVIDENCIA TAXONOMICA EN BASES DE DATOS
DINAMICAS
En este captulo se presentan todos los aspectos de la solucin
propuesta. Para ello se describen las caractersticas generales de
un Nuevo Criterio para resolver el problema de la construccin de
familias de objetos, para lo cual se constituye un programa de
investigacin cientfica (PIC) como sucesin de teoras
emparentadas de manera semntica y sintctica, que se
generan en distintas disciplinas por observaciones y
fenmenos intrigantes, dado el problema describir el marco
terico. La Taxonoma Numrica (comienzo del Captulo) tiene por
objetivo agrupar unidades taxonmicas operacionales en clusters
(OTUs o taxones o taxa), usando el anlisis de estructura por
medio de mtodos numricos. Estos clusters, que constituyen
familias, son el propsito de esta tesis y de mis proyectos, y
surgen del anlisis estructural, por su caracterstica fenotpica
(Secciones 4.2., 4.2.1-4.2.6.). La Entidades formadas por dominios
dinmicos de atributos, pueden cambiar de acuerdo, a los
requerimientos taxonmicos: Clasificacin de objetos para
formar familias o clusters. Los objetos Taxonmicos son
representados mediante la aplicacin de la semntica del modelo
de Base de Datos Relacional Dinmica (Secciones de 4.1.).
Exhibiendo las relaciones en lo que se refiere a las calidades de
similitud de los OTUs, al emplear herramientas como, distancias
Eucldeas y tcnica de vecinos ms cercanos. As la evidencia
taxonmica recoge, para cuantificar, la similitud de cada par de
OTUs (mtodo pair-group) obtenido de la matriz de datos bsica
y de esta manera el concepto, importante y principal, de espectro
de OTUs es introducido, por el principio de interferencia y
superposicin, tomando como base el estado de sus caracteres
(Seccin 4.2.6.). El concepto de los espectros de familias surge, si
el principio de superposicin se aplica a los espectros de los
OTUs, y los grupos se delimitan a travs del teorema de
Tchebycheff
y
del
mximo
de
la
inecuacin
de
Bienaym-Tchebycheff, que determina Invariantes (el centroide,
varianza y radio) (Seccin 4.2.7.), junto con la normalizacin del
rango y el principio de entropa mxima (Seccin 4.2.8.) y el
algoritmo capaz de generar las familias (Seccin 4.2.9.). Un nuevo
criterio taxonmico es as establecido por la Tesis, surgiendo una
Aplicacin que ha funcionado. As se logra un mayor
acercamiento a la Taxonoma Computacional y se presenta como
explicacin cientfica, ya que adems, ha sido empleado con
referencia a Minera de Datos (Data Mining), cuando se aplican
tcnicas de Machine Learning, en particular a los algoritmos de
C4.5, creado por Quinlan, el grado de eficacia logrado por los
algoritmos de la familia de TDIDT cuando genera modelos vlidos
de datos en los problemas de clasificacin con la Ganancia de
Informacin a travs del Principio de la Entropa Mxima.
SOLUCION PROPUESTA
Gregorio Perichinsky
117
objetos
a ser clasificados
SOLUCION PROPUESTA
Gregorio Perichinsky
118
Para estimar la similitud taxonmica usada para agrupar las OTU's tratamos de
expresar esta semejanza en una manera cuantitativa. Usamos el coeficiente de
similitud para cuantificar esta semejanza, es decir, para obtener la semejanza
para cada par de OTU's en la matriz bsica de datos.
Conceptualmente aplicaremos los conceptos expresados en las Bases de Datos
Dinmicas y su Relacin con la Taxonoma desarrollados en los ltimos aos
[Perichinsky, G. et Al., 1989-2007].
En esta aproximacin conceptual en forma similar que en el SQL, las tablas son,
en sentido estricto y dinmico, "visiones" con leyes de formacin que surgen de la
lgica de la aplicacin.
Por ello hablamos de visiones y decimos "dinmicas", pues se pueden agregar o
eliminar columnas-dominio de una tabla virtual y por supuesto se pueden
modificar y eliminar valores de atributos, tanto como aumentar el cardinal de un
dominio.
De esta manera todo objeto o entidad de una aplicacin puede mejorar
dinmicamente su calificacin e identificacin. Se alcanza as una gran
independencia tanto fsica como lgica de los datos, y una dinmica en el
crecimiento o expansin.
La matriz de datos queda representada estructuralmente mediante dominios de
atributos (caracteres) dinmicamente integrados.
La aportacin original en esta tesis es proponer el concepto de espectro de los
estados de los caracteres de los pares de OTUs respecto al total, el espectro de
familias, por el principio de superposicin al procesar los espectros de los pares
de OTUs y la obtencin de Invariantes (centroide, varianza y radio).Se logra un
algoritmo
ms
eficiente
por
un
mejor
tratamiento
matricial.
SOLUCION PROPUESTA
Gregorio Perichinsky
119
Datos [de Miguel,A., 1993] [de Miguel,A., 2000], que se apoya sobre una Base de
Datos en la cual los datos se almacenan una sola vez, con independencia de su
tratamiento, en sistemas orientados hacia los datos y se ha estabilizado
conceptualmente, en los Modelos Relacionales estructural y semnticamente y el
program embedding SQL [ISO 9075] que son las formas estandarizadas de los
prximos aos. El modelo trata a los dominios en forma independiente, por lo
tanto la estructuracin es ms natural por la forma de agregacin de las tuplas y
una semntica n-aria de atributos. Con el predicado de operaciones conjuntistas
se forman tablas virtuales o visiones. La arquitectura que se experimenta para el
gerenciador es la propuesta de tres niveles [ANSI/X3/SPARC].
4.1.1. CONCEPTOS
Esta propuesta consiste en el desarrollo terico-conceptual y de implementacin
de un sistema de base de datos relacional estructurado sobre dominios
dinmicos de atributos [Perichinsky,G., 1989-2007].
El nuevo enfoque se trata de un mayor nivel de abstraccin para conseguir el
mximo de independencia lgica posible [(ANSI).1988], que es en la cual el
gerenciador tiene la capacidad de que las referencias a los datos almacenados,
especialmente en las aplicaciones y en sus descripciones de los datos, estn
aislados de los cambios y de los diferentes usos en el entorno de los datos, como
pueden ser la forma de almacenar dichos datos, el modo de compartirlos con
otras aplicaciones y cmo se reorganizan para mejorar el rendimiento del sistema
de base de datos. Este nuevo enfoque hace que los dominios de los atributos
sean dinmicos y conformen realmente la base del tratamiento de la teora de
conjuntos, y que las tuplas se generen dinmicamente a travs de visiones [Date,
1981-1992].
Se trata de un diseo que cambia la estructuracin tradicional de agrupamiento
esttico de valores de atributos en registros por la creacin de dominios de
atributos, formando conjuntos de valores de los mismos. Las tuplas (virtuales) se
forman mediante las relaciones que como las visiones no existen, las tablas
estn establecidas a partir de dominios [Date,C.J., 1992.Data on Databases].
SOLUCION PROPUESTA
Gregorio Perichinsky
120
SOLUCION PROPUESTA
Gregorio Perichinsky
121
4.1.2. MODELIZACIN
El modelo surge del par M=<S,O> donde S son las reglas y O las operaciones
sobre objetos permitidos.
Las instancias determinan la dinmica del modelo.
El debate actual es extender la Bases de Datos Relacionales hacia la orientacin
a objetos [Third Generation Database System Manifesto. Carey et al.1990] y los
puristas del modelo orientado a objetos [The Object-Oriented System Manifesto.
Atkinson et al.1990], despus [Staugaard, 1998.
Ante esta alternativa es preferible pensar en el avance terico que representa la
orientacin a objetos y por lo tanto aplicarla de acuerdo a los requerimientos del
diseo; por ejemplo una capa de nivel externo que d la apariencia de objetos,
sobre un modelo relacional [de Miguel,A., 2000].
Verdaderamente se obtienen grandes ventajas con este modelo, ya que lo
expuesto implica una reestructuracin que no depende de los datos sino de las
aplicaciones. Las diferentes aplicaciones pueden "ver" a los datos de acuerdo a
sus requerimientos y modos.
Se simplifica la visin de los usuarios. Los dominios de los atributos son la base
del modelo y de la agregacin lgica de estos, mediante operaciones y formas
algebraicas relacionales, surge la estructura.
Las expresiones del lgebra relacional sirven a los propsitos de mantenimiento,
actualizacin y recuperacin de la informacin de los dominios, a travs del
manejo de tuplas, y preservando su homogeneidad e integridad. Al operar sobre
dominios, conjuntos de valores de atributos, se tiene la formalizacin concreta de
la teora de conjuntos.
Los valores de los dominios son atmicos y los atributos se califican por
aplicacin; esto permite operar en formas normales.
La capa externa propuesta anteriormente para tener la apariencia de objetos
sera una aplicacin ms desde el modelo conceptual.
Lo mismo ocurre con una herramienta CASE Inteligente, o una capa de nivel
inteligente para aprendizaje automtico.
La TERCERA generacin de Bases de Datos tendr ms que ver con nuevas
capas de nivel de contenido semntico para tener en cuenta las Bases de Datos
SOLUCION PROPUESTA
Gregorio Perichinsky
122
SOLUCION PROPUESTA
Gregorio Perichinsky
123
Gregorio Perichinsky
124
SOLUCION PROPUESTA
Gregorio Perichinsky
125
Integridad
La integridad asegura que la base de datos satisfaga un conjunto de restricciones
predefinidas.
En general una restriccin nace cuando una relacin incluye una referencia a
otra:
Diccionario-de-atributos - Dominio - Dominio-Inverso - Lista.
Un valor nulo, indica que ese tem no aporta informacin relevante; y dos
referencias que son las direcciones de los nodos raz del dominio de valores del
atributo y del dominio inverso o conjunto de listas invertidas correspondientes a
cada valor de un atributo. Las referencias internas se disponen ordenadas.
4.1.6. ANLISIS DE REQUERIMIENTOS
Codd propone 12 reglas bsicas, 9 estructurales, 18 de manipulacin y 3 de
integridad.
1. Reglas bsicas
REGLA 0 - BASICAS.
Cualquier sistema debe tener algn soporte relacional con capacidad para
manejar datos y por lo tanto soportar reglas de informacin y garantizar reglas de
acceso.
REGLA1 - Regla de Informacin.
Toda informacin en una base de datos est representada en el nivel lgico por
medio de tablas, columnas y dominios nominados como strings de caracteres en
el catlogo del sistema.
SOLUCION PROPUESTA
Gregorio Perichinsky
126
SOLUCION PROPUESTA
Gregorio Perichinsky
127
SOLUCION PROPUESTA
Gregorio Perichinsky
128
La base de datos tiene un lmite claro entre los aspectos lgicos y semnticos y
los aspectos fsicos y de performance.
Estos se estudian e implementan separadamente sin que afecte la lgica de los
programas de aplicacin.
REGLA 9 Independencia lgica de los datos.
Los programas de aplicacin y las actividades terminales permanecen intactas
lgicamente cuando se realizan cambios de informacin de cualquier tipo en la
base de datos.
Esta regla permite que el diseo lgico cambie dinmicamente.
Matriz de afinidad y pertenencia.
En nuestro enfoque pensamos al modelo de abstraccin de datos, como una
matriz integral dinmica donde cada columna es un dominio, cada elemento es un
puntero de indireccin para eliminar redundancia, cada atributo est tipificado y
cada fila puede tener elementos nulos.
Como esta matriz es transparente se pueden agregar o eliminar columnas a esa
matriz virtual, dinmicamente los valores de los dominios se pueden modificar o
agregar si es que ya no existen, pues es el conjunto de punteros de una columna
lo que define su dominio.De esta manera todo objeto o entidad puede mejorar su
calificacin e identificacin.Se alcanza as una gran independencia tanto fsica
como lgica de datos y una dinmica en el crecimiento o expansin.
REGLA 10 Independencia de la Integridad.
Las restricciones de Integridad son almacenadas en el catlogo.
Dinmicamente la Integridad se puede manejar a partir de la aplicacin ( regla de
entidad ) y por medio de ella crear los dominios, o bien a partir de los dominios
crear las relaciones (regla de relacin ).
REGLA 11 Distribucin Independiente.
La base de datos maneja datos distribuidos al introducirlos por primera vez o
cuando los datos estn distribuidos ( v.g.: SQL ).
SOLUCION PROPUESTA
Gregorio Perichinsky
129
E.2.
E.3.
Tablas interrogantes o tabla resultado y que debe ser salvada para una
operacin posterior.
E.4.
E.7.
de las tablas.
E.8.
Clave fornea es una Regla de Parte o candidato que est sobre el mismo
SOLUCION PROPUESTA
Gregorio Perichinsky
130
Gregorio Perichinsky
131
SOLUCION PROPUESTA
Gregorio Perichinsky
132
todos los dominios. Por ello se habla de visiones y se dice "dinmicas", pues se
pueden agregar o eliminar columnas-dominio en la matriz y por supuesto se
pueden modificar y eliminar valores de atributos, tanto como aumentar el cardinal
de un dominio. De esta manera todo objeto o entidad de una aplicacin puede
mejorar dinmicamente su calificacin e identificacin. Se alcanza as una gran
independencia tanto fsica como lgica de los datos, y una dinmica en el
crecimiento o expansin.
Verdaderamente se obtienen grandes ventajas con este modelo, ya que lo
expuesto implica una reestructuracin que no depende de los datos sino de las
aplicaciones. Las diferentes aplicaciones pueden "ver" a los datos de acuerdo a
sus requerimientos y modos.
Se simplifica la visin de los usuarios. Los dominios de los atributos son la base
del modelo y de la agregacin lgica de ellos mediante operaciones y formas
algebraicas relacionales surge la estructura.
Las expresiones del lgebra relacional sirven a los propsitos de mantenimiento,
actualizacin y recuperacin de la informacin de los dominios, a travs del
manejo de tuplas y preservando su homogeneidad e integridad. Al operar sobre
dominios, conjuntos de valores de atributos, se tiene la formalizacin concreta de
la teora de conjuntos.
Los valores de los dominios son atmicos y los atributos se califican por
aplicacin; esto permite operar en formas normales.
En las bases de datos existentes se trata de poner restricciones sobre las
relaciones para lograr el mnimo de cardinalidad, mediante normalizaciones, sin
perder composicin en las tuplas.
La dependencia funcional (FD Forma Normal de Boyce-Codd), la dependencia
multivaluada (MVD) y la dependencia por composicin o juntura (JD) generan
cinco formas normales [ Date, 1986 ], que al tratar libremente los dominios, no
afectan a las visiones en el modelo propuesto por la atomicidad de los valores,
pero s en las bases de datos existentes al ser la clave un identificador de tuplas,
objetos de entidades instanciadas.
El riesgo, sobre todo en la implementacin, es el de tener redundancia. Asimismo
la libertad de dominios y la dinmica del modelo propuesto puede tener un costo
SOLUCION PROPUESTA
Gregorio Perichinsky
133
Gregorio Perichinsky
134
SOLUCION PROPUESTA
Gregorio Perichinsky
135
Gregorio Perichinsky
136
Para superar estas anomalas, se puede definir la sintaxis de los objetos de datos
del modelo utilizando una gramtica W (tambin llamada gramtica de dos
niveles o de van Wijngaarden) [van Wijngaarden, 1976].
Sin utilizar efectivamente todas las capacidades de las gramticas W,
presentamos la sintaxis usando las producciones BNF equivalentes junto con
reglas de reemplazo uniforme.
Una gramtica W genera un lenguaje en dos pasos. En el primero, se usa una
coleccin de reglas generalizadas para crear reglas de produccin ms
especficas. En el segundo, se usan reglas de produccin generadas en el primer
paso para definir las estructuras de datos efectivas.
Seguidamente especificamos una gramtica W para generar tipos de datos
convencionales:
4.1.7.2.1. METAPRODUCCIONES
M1.
D[N..N]; "arreglo"
Registro; (Registro); "registros"
[D]; "referencia"
s-D; "secuencia"
ag-D-Hoja; "rbol general"
Diccionario; "estructuras de diccionario"
M2.
M4.
Hoja :: nada; D.
M5.
N :: Dgito; Dgito N.
M6.
Dgito :: 0; 1; 2; 3; 4; 5; 6; 7; 8; 9.
M7.
bsqueda
regla de parte"
SOLUCION PROPUESTA
Gregorio Perichinsky
137
4.1.7.2.2. HIPERREGLAS
HR1.
estructura de datos: D.
HR2.
HR3.
HR4.
HR5.
SOLUCION PROPUESTA
Gregorio Perichinsky
138
(Clave, Registro)
string (1)
Registro
Restricciones:
(1) Nombre del Atributo.
(2) Tipo: E, entero; R, real; C, carcter; S, string; B, booleano; etc.
(3) Longitud: si tipo es E, cantidad de dgitos; si es R, cantidad de dgitos de la
parte entera; si es S, cantidad de caracteres; si es C o B, nada; etc.
(4) Decimales: si tipo es R, cantidad de dgitos de la mantisa, sino nada.
(5) Referencias a estructuras de soporte definidas en Organizacin de Datos.
Elemento-Dominio
Clave
(Clave, Registro)
Referencia-Interna
Registro
Restricciones:
D tipo atmico (M1) coincidente con el tipo de Atributo al que corresponde.
Elemento-Dominio-Inverso
Clave
Registro
(Clave, Registro)
D (1)
entero (2), Referencia-Interna[1..N] (3), Lista (4)
Restricciones:
(1) Tipo atmico coincidente con el del atributo asociado.
(2) Cantidad de referencias (longitud de la lista de inversin)
(3) Arreglo con las primeras referencias.
(4) Referencia al resto de las referencias, organizado en una estructura
descripta en Organizacin de Datos.
SOLUCION PROPUESTA
Gregorio Perichinsky
139
entero
Restricciones:
Las referencias internas han de manejarse naturalmente en una variable global
del sistema con la previsin de umbrales que, para evitar el crecimiento
desmedido de valores, provoquen al ser sobrepasados solicitudes de
reorganizacin.
4.1.7.2.4. Organizacin de datos
Diccionario-de-atributos
am-2n-D-nada[0..2n] ]; nada
Dominio
am-2n-D-nada[0..2n] ]; nada
Dominio-Inverso
am-2n-D-nada: [entero,
Gregorio Perichinsky
140
Gregorio Perichinsky
141
4.1.7.2.5. IMPLEMENTACIN
Gregorio Perichinsky
142
|---------------------------------------------------|
longitud | tipo | Referencia Tabla b | Referencia Tabla c
|
|---------------------------|
|-----------|
|-------|
|----------------------------|
RI
Valor
|---------------------------|
|---------------------------|
Valor de Atributo | Cantidad de Instancias | Referencia
-----------------------|
|--------------------------------|
|----------------|
Lista de RRII
Gregorio Perichinsky
143
Los comandos activan rutinas del Sistema Operativo que trabajan en reas de
comunicacin especficamente reservadas y en las que se almacenan las
estructuras de control. No preocupa la sintaxis de los comandos, sino que se
trabaja partiendo de la idea de confeccionar un program embbeding de un
lenguaje de datos o programacin (SQL estndar) y la estructura propuesta.
SOLUCION PROPUESTA
Gregorio Perichinsky
144
Gregorio Perichinsky
145
y el
SOLUCION PROPUESTA
Gregorio Perichinsky
146
4.1.7.2.6.3. COMANDOS
Actualizacin
update { secuencia-atributo-valor, criterio }
Borrado
delete { secuencia, criterio }
Inserciones
insert { secuencia-atributo-valor }
Consultas
select { secuencia, criterio, { ,orden } }
Donde:
Secuencia-atributo-valor es una lista de pares de la forma <atributo,valor>.
SOLUCION PROPUESTA
Gregorio Perichinsky
147
Gregorio Perichinsky
148
SOLUCION PROPUESTA
Gregorio Perichinsky
149
SOLUCION PROPUESTA
Gregorio Perichinsky
150
SOLUCION PROPUESTA
Gregorio Perichinsky
151
Gregorio Perichinsky
152
1. Eleccin de OTUs.
Son los objetos a estudiar.
SOLUCION PROPUESTA
Gregorio Perichinsky
153
2. Eleccin de caracteres.
Describen las propiedades de cada OTU. Al comenzar la clasificacin
tienen todos el mismo peso o importancia. Se registra el estado (valor
que puede tomar cada carcter) de los caracteres de cada OTU. La
taxonoma numrica exige que todos los estados sean expresados en
forma cuantitativa de manera de poder ser computables.
OTU2
OTU3
...
OTUt
carcter1
x11
x12
x13
...
x1t
carcter2
x21
x22
x23
...
x2t
...
...
...
...
...
...
carctern
xn1
xn2
xn3
...
xnt
(n x t)
Siendo xnt el valor del carcter n para la OTU t.
1. Columnas:
Representan t OTUs a agrupar en base a su similitud.
2. Filas:
Representan n caracteres de OTUs.
3. Espacio A:
Espacio de caracteres que tiene n dimensiones.
4. Espacio I:
Espacio individual o de objeto que tiene t dimensiones.
Esta matriz puede ser estudiada desde dos puntos de vista:
a) el de la asociacin de caracteres, llamada Tcnica R.
b) el de la asociacin de las OTUs, llamada Tcnica Q.
4.2.3. NORMALIZACIN
SOLUCION PROPUESTA
Gregorio Perichinsky
154
SOLUCION PROPUESTA
Gregorio Perichinsky
155
Xj = (
Xij ) / n
i
j = ( (
( Xij - Xj )2 ) / ( n - 1 ) )1/2
X ij = ( Xij - Xj ) / j
Si nosotros deseamos agregar un OTU nuevo podemos calcular los valores
estandarizados desde las medias previas y las respectivas desviaciones
estndar, aunque el valor resultante no se corregir realmente, sin embargo,
porque ambos la media y la desviacin estndar de los estados del carcter no
han cambiado con la adicin del OTU nuevo. Cuando se agregan unos pocos
OTUs no constituyen un problema serio, puesto que la media y la varianza no se
veran apreciablemente alteradas.
Cuando se agrega un nmero ms grande de OTUs nuevos, ser necesaria una
normalizacin nueva de los caracteres afectados.
El uso de orden de rango de valores de estado del carcter, v.g.: el jth rango de n
valores de un carcter determinado, merece anlisis, como evitar problemas
ciertos asociados con valores extremos o frecuencia muy anormal en las
distribuciones. Se observa que las matrices con base en los logaritmos de
mtricas de caracteres o en caracteres normalizados son sumamente
SOLUCION PROPUESTA
Gregorio Perichinsky
156
SOLUCION PROPUESTA
Gregorio Perichinsky
157
Podemos entonces decir que una clase es polittica si las primera dos
condiciones se cumplen y es polittica completa si la condicin -3- tambin se
cumple.
Durante un procedimiento de clustering secuencial acumulativo los valores
arbitrarios se reducen de una manera predeterminada; y nosotros extendemos
este mtodo para definir una funcin generalizada de distancia
Dj - k = [( X
-1
- X j )' SJ ( X
- X j) |SJ |]
(1 / 2)
donde X
j,
Gregorio Perichinsky
158
D =(
jk = [
2 1/2
( Xij - Xik ) ]
djk = ( (
SOLUCION PROPUESTA
Gregorio Perichinsky
159
El valor esperado para (d) djk para una distribucin normal de media cero y
varianza unitaria es:
(d)
2 ( 1 - 1/n ) ( ( 1 + ( 1 / ( n - 2 ) ) ) ( 1 / e ))
OTU2
OTUt
OTU1
S12
S1t
OTU2
S21
OTUj
Sj1
Sj2
OTUt
St1
Sjt
Stt-1
0
(t x t)
Caractersticas:
1. Diagonal Principal:
Cada valor de esta diagonal representa cada OTU comparado consigo
mismo. Este valor corresponde al de mxima similitud (Sii = 0 ).
2. Matriz Simtrica:
La similitud entre OTU1 y OTU2 es la misma que entre OTU2 y OTU1.
Gregorio Perichinsky
160
SOLUCION PROPUESTA
Gregorio Perichinsky
161
K),L
SOLUCION PROPUESTA
Gregorio Perichinsky
162
definidas
SOLUCION PROPUESTA
de
los
PRINCIPIOS
DE
Gregorio Perichinsky
SUPERPOSICIN
163
SOLUCION PROPUESTA
Gregorio Perichinsky
164
4.2.7. DISPERSIN
Una vez conocido un valor tpico de la variable de los estados de los caracteres
es necesario tener un parmetro que d una idea de cuan esparcidos, o
concentrados, estn sus valores respecto al valor medio [Cramer, Harald, 1958].
Se considera a la varianza como como momento de segundo orden y representa
al momento de inercia de la distribucin de objetos ( masa ) respecto a su centro
de gravedad: centroide .
Cuando X ij = ( Xij - Xj ) / j es una variable normalizada la cual representa la
desviacin de Xij respecto de su media en unidades de j.
La normalizacin de los estados del carcter hace que la media de todo carcter
sea de valor cero y varianza de valor unitario.
Si tomamos como valor de la dispersin a la varianza 2d , expresamos el
principio de mnimos cuadrados.
Sea g ( Xij ) una funcin no negativa de la variable Xij, para todo k > 0 se tendr la
funcin de probabilidad:
P [ g ( Xij ) K ] ( E ( g ( Xij ) ) / K
As llegamos al Teorema de Tchebycheff.
Si designamos por S al conjunto de todas las Xij que satisfacen la desigualdad
g ( Xij ) K
la verdad del teorema surge de la relacin ( vlida para una variable de cualquier
nmero de dimensiones ) :
Eg ( Xij ) =
Gregorio Perichinsky
165
SOLUCION PROPUESTA
Gregorio Perichinsky
166
SOLUCION PROPUESTA
Gregorio Perichinsky
167
4.3. COROLARIO
El tratamiento dinmico e integrado de los dominios permite una fcil
normalizacin, atributo - dominio - valor, y la implementacin en el modelo de
Base de Datos Dinmica y su utilizacin en Taxonoma Numrica.
La contribucin terica - emprica es la aglomeracin de objetos formando clases
producidas por pasos del mtodo (ALGORITMO) obteniendo clusters y dominios
con valores normalizados y la densidad y el rango en trminos del radio del
conjunto puede ser visualizado como una INVARIANTE CARACTERSTICA de
1624
1539
1445
1353
1234
1129
1027
913
798
652
472
296
0
24
DISTANCIAS NORMALIZADAS
los OTUs.
OTUs
Invariantes:
SOLUCION PROPUESTA
Gregorio Perichinsky
168
rango 0.2343 se tienen objetos de una familia. Quedan objetos entre ambas
rectas que hay que analizar a que familia pertenecen.
(4.4.1.1.)
Donde pi+ es la probabilidad de que un ejemplo que fue tomado al azar de Si ser
positivo. Esa probabilidad puede ser calculada como
pi+ =
ni+
ni+ + ni
(4.4.1.2.)
SOLUCION PROPUESTA
Gregorio Perichinsky
169
n
i =1
p i log p i
(4.4.1.3.)
n
i =1
P (S i ) H (S i )
(4.4.1.4.)
P (S i ) =
Si
S
(4.4.1.5.)
(4.4.1.6.)
Gregorio Perichinsky
170
Para resolver este problema, puede recurrirse al mtodo binario. Este mtodo
consiste en formar dos rangos de valores de acuerdo al valor de un atributo que
pueden tomarse como simblicos.
El conjunto de hiptesis para este algoritmo est completo segn los atributos
disponibles. Porque cualquier prueba de valor puede representarse con un rbol
de decisin, este algoritmo evita uno de los riesgos principales del mtodo
inductivo, pues trabaja reduciendo el conjunto de hiptesis.
Un rasgo importante del algoritmo de C4.5 es que usa todos los datos disponibles
en cada paso al escoger el "mejor" atributo; esta es una decisin que est hecha
SOLUCION PROPUESTA
Gregorio Perichinsky
171
con mtodo estadstico. Este hecho favorece a este algoritmo por encima de
otros algoritmos porque analiza como los conjuntos de datos de entrada se
representan como rboles de decisin en forma consistente.
Una vez que un atributo ha sido seleccionado como un nodo de decisin, el
algoritmo no va hacia atrs remontando por encima de sus opciones ya tomadas.
Esta es la razn por qu este algoritmo puede converger a un mximo local
[Mitchell, 2000]. El algoritmo de C4.5 agrega un cierto grado de reconsideracin
de sus opciones en la post-poda de los rboles de decisin.
No obstante, se puede establecer que los resultados muestran que la proporcin
de error depende del dominio de los datos. Para estudios futuros, se puede
pensar en un anlisis del conjunto de datos de entrada, agrupando con este
mtodo numrico y escoger dominios, si el mtodo mantiene un porcentaje bajo
de error, en bases de datos extendidas, es una prueba de la robustez del mtodo.
SOLUCION PROPUESTA
Gregorio Perichinsky
172
FENOMENOLOGA
FSICA
CLXXIV
.INTERFERENCIA Y SUPERPOSICIN
Gregorio Perichinsky
173
5. FENOMENOLOGA FSICA
5.1. PRINCIPIOS DE INTERFERENCIA Y SUPERPOSICIN.
El peso de Sir Isaac Newton ignorando la teora ondulatoria de la luz cay
frente a la teora ondulatoria del Doctor Thomas Young en el siglo XIX, a la
cual le aadi adems el nuevo concepto del principio de Interferencia
[Hecht et al., 1977], [Feynman et al., 1971].
Cuando dos ondulaciones de diferentes orgenes coinciden perfectamente en
una direccin o casi coinciden, su efecto conjunto es una combinacin de los
movimientos que pertenecen a cada uno.
Agustn Jean Fresnel sintetiz la teora ondulatoria y el principio de
interferencia, conceptualizando que la propagacin de una onda primaria como
una sucesin de onditas secundarias estimuladas que se superponan e
interferan para reformar en su avance a la onda primaria. Los problemas de
isotropa y de patrones de difraccin fueron explicados satisfactoriamente.
La asimetra lateral y el efecto de la polarizacin en la interferencia son una
manifestacin de dos vibraciones ortogonales y transversales a la direccin de
la luz.
Primero Michael Faraday estableci la interrelacin entre el electromagnetismo
y la luz y luego James Clerk Maxwell resumi el conocimiento emprico y lo
ampli y lo formaliz con un conjunto de ecuaciones matemticas {ver [Hecht
et al., 1977.], [Feynman et al., 1971.]}, llegando tericamente a una expresin
de la velocidad de la luz en trminos de las propiedades elctricas y
magnticas del medio
.INTERFERENCIA Y SUPERPOSICIN
Gregorio Perichinsky
174
c=
electro-ptica u opto-electrnica.
El siguiente aspecto a considerar es la base conceptual de que sucede cuando
dos o ms ondas de luz se superponen en la misma regin del espacio. Las
circunstancias que gobiernan la superposicin determinan la perturbacin
ptica final o perturbacin compuesta.
Cualquier combinacin lineal de ondas individuales de (r,t) , 1(r,t), 2(r,t),
3(r,t)... es una solucin
(r,t) =
de superposicin.
Responde a una ecuacin diferencial de la forma:
(2 / x2 ) + (2 / y2 ) + (2 / z2 ) = (1 / v2 ) . (2 / t2 )
La perturbacin resultante en cualquier punto de un medio es la suma
algebraica de sus ondas constitutivas separadas.
Segn el mtodo algebraico se produce una onda compuesta armnica y de la
misma frecuencia que las constitutivas aunque su amplitud y fase son
diferentes.
Si se aplica el mtodo complejo se obtiene la amplitud compleja exponencial,
pues matemticamente se usa la representacin compleja de las funciones
trigonomtricas cuando se est manejando la superposicin de perturbaciones
armnicas.
E . ei =
N
j =1
Eo . e
ij
.INTERFERENCIA Y SUPERPOSICIN
Gregorio Perichinsky
175
.INTERFERENCIA Y SUPERPOSICIN
Gregorio Perichinsky
176
Ej
Ek
R
Gregorio Perichinsky
177
5.2. ANALOGAS
Los estados de los caracteres taxonmicos, en una clase, definida
ordinariamente por la referencia al conjunto de sus propiedades, permiten
calcular las distancias y a partir de las distancias se puede establecer por la
relacin de similitud entre individuos, por interferencia o superposicin, que
para ese dado conjunto de individuos, en una distribucin dada en un
hiperespacio, hay una constancia en los parmetros para identificar las
caractersticas de un cluster e identificar un cluster para cada individuo segn
sus parmetros.
Considerando caractersticas espectrales [Frank, N.H., 1949] [Sawyer, R.A.,
1963.] a los estados de los caracteres o atributos de los OTUs, en condiciones
definidas de los PRINCIPIOS DE SUPERPOSICIN E INTERFERENCIA, se
.INTERFERENCIA Y SUPERPOSICIN
Gregorio Perichinsky
178
.INTERFERENCIA Y SUPERPOSICIN
Gregorio Perichinsky
179
SISTEMAS COMPLEJOS Y
DINMICOS, MECNICA
ESTADSTICA Y TEORA DE LA
INFORMACIN
CLXXX
Gregorio Perichinsky
180
Gregorio Perichinsky
181
para
la
construccin
del
modelo
cuantitativo,
al
menos
Descripcin
dinmica
de
sistemas
econmico-poltico-sociales
empresariales.
Gregorio Perichinsky
182
<E >=
Pr E r
6.3.1.1.
Una clase muy importante de sistemas es la formada por los que estn en
contacto con un sistema mucho mayor denominado fuente de calor (heat
reservoir). Las fuentes de calor se caracterizan por el hecho consistente en que
toda interaccin trmica con el sistema (ms pequeo) en cuestin da lugar
nicamente a cambios infinitesimales de las propiedades de la fuente, mientras
que el sistema pequeo puede sufrir cambios de importancia, hasta que se
alcancen unas condiciones de equilibrio. Un ejemplo sera un objeto en un
cluster de caractersticas dismiles. A medida que se alcanza el equilibrio, la
ubicacin del objeto puede sufrir cambios notables, mientras que las
caractersticas del cluster global cambiar nicamente en una cantidad
imposible de medir.
Si examinsemos un gran nmero de objetos, agrupados en clusters idnticos
(o en el mismo cluster, si fuera muy grande en comparacin con el conjunto de
objetos total), encontraramos algunas variaciones en la energa total de los
objetos. Adems, encontraramos que la probabilidad Pr de que un objeto
tuviese una cierta energa Er iba a ser proporcional a un factor exponencial:
Pr = Ce- Er,
donde p es un parmetro que depende de la temperatura del cluster. Dado que
Pr Er = 1, la
C=(
r
y, por tanto,
Gregorio Perichinsky
183
Pr =
e - Er
e - Er
6.3.1.2.
6.3.1.3.
Gregorio Perichinsky
184
Gregorio Perichinsky
185
Gregorio Perichinsky
186
<I >=
n
i =1
P( s i ) I ( si ) =
n
i =1
P( s i ) log 2
1
P ( si )
6.3.2.1.1.
<I >=
n
i =1
P( s i ) I ( si ) =
n
i =1
P( s i ) log 2
1
= H(S) 6.3.2.2.1.
P( si )
Gregorio Perichinsky
187
H1 (S1) H2 (S2) =
i =1
n
i =1
P( s1i ) log 2
P( s 2i )
= G 0 6.3.2.2.3.
P( s1i )
Gregorio Perichinsky
188
Gregorio Perichinsky
189
Gregorio Perichinsky
190
p i = 1.
6.5.1.
n
i =1
p i ln pi .
6.5.2.
6.5.3.
6.5.4.
son la nica informacin que se tiene del sistema fsico y que se denominarn
Operadores Relevantes, el Operador de Densidad del sistema es aquel que
maximiza la entropa, definida a travs de la ecuacin 6.5.3. El Operador de
Densidad que satisface esta condicin se obtiene por el Mtodo de los
Multiplicadores de Lagrange.
Gregorio Perichinsky
191
= exp
n
i =0
i i
6.5.5.
6.5.6.
S = kB
n
i =0
i (i)
6.5.7.
0 = ln Tr exp
n
i =0
i i
6.5.8.
Obtenindose
(i)=
0
i
, i=1,,n ,
6.5.9.
de Lagrange.
Los resultados expuestos precedentemente fueron presentados por Jaynes
para ser aplicados a un conjunto de variables del sistema, cuyos valores medios
son de inters. Estos valores medios eran promedios de observables clsicos
relacionados con el sistema. En la seccin anterior se los ha denominado
"operadores" porque estos resultados se pueden extender sin dificultad a
operadores cunticos. El conjunto de operadores utilizados por Jaynes se forma
con las variables que, a priori, parecen relevantes. Si a posteriori del estudio del
sistema se observa que es necesario incorporar algn operador a este conjunto
para permitir una descripcin ms acertada, se redefine el conjunto inicial. Este
mtodo hace imposible la deduccin de resultados, ya que no permite distinguir
cuando un resultado no esperado es producto de la falta de algn operador o
constituye un resultado nuevo del modelo en estudio. Estas limitaciones de la
teora fueron superadas por Y. Alhassid y R. D. Levine, ya que la extendieron a
conjuntos de operadores cunticos que pueden o no conmutar entre s y
Gregorio Perichinsky
192
ln =
i =0
i i
6.5.10.
d ln
= [H(t ), ln ]
dt
6.5.11.
[H (t ), i] = i
n
i=0
i g li
i=1,,n
6.5.12.
donde gli son nmeros complejos que se interpretan como las constantes de
estructura de una semi-lgebra de Lie. Si el conjunto inicial no cumple con la
condicin 6.5.12., se incorporarn a l todos los operadores necesarios para
satisfacerla. Los (n + 1) x (n + 1) elementos gli conforman la matriz G, y
establecen la dinmica del sistema fsico, ya que como se ver, determinan las
ecuaciones de evolucin de los Multiplicadores de Lagrange y de los valores
medios de los Operadores Relevantes. El agregar la condicin de cierre de la
semi-lgebra a la maximizacin de la entropa tiene un efecto importante ya que
permite obtener, para un Hamiltoniano de un sistema fsico de inters, un
conjunto completo de Operadores Relevantes mediante la aplicacin de un
procedimiento cannico. Las ecuaciones 6.5.11. y 6.5.12. forman un conjunto
acoplado de ecuaciones diferenciales para los Multiplicadores de Lagrange,
d i
=
dt
n
j =0
g ij j ,
i = 1,2,,q ,
6.5.13.
a las que se le agregan las condiciones iniciales j (t0), compatibles con las
SISTEMAS COMPLEJOS, DINMICOS Y TEORA DE LA INFORMACIN
Gregorio Perichinsky
193
j (t ) =
K
i =1
exp(ri t )
m=0
a imj t m ,
6.5.14.
d < i >
= Tr
dt
N
j =0
j g ji =
N
j =0
< j > g ji
6.5.15.
p i ln p i
6.5.1.1.
I =1
Gregorio Perichinsky
194
S = K
p i ln p i
6.5.2.1.
i =1
con
N
i =1
6.5.2.2.
pi f ( x i )
pi = 1 .
6.5.2.3.
i =1
N
i =1
p i ln p i 0
N
i =1
pi
=1
N
i =1
pi f ( x i ) ,
6.5.2.4.
Gregorio Perichinsky
195
f ( x i ) ,
6.5.2.5.
con
e o =
exp
f ( x i )
6.5.2.6.
0
.
6.5.2.7.
( f , m) =
[ f i m i f i log( f i / m i )] ,
S( f , m) =
6.5.3.1.
6.5.3.2.
Gregorio Perichinsky
196
( S set{vinculos}) = 0 .
6.5.3.3.
Gregorio Perichinsky
197
L = K
p i ln p i 0
i =1
p i A ,
6.5.4.1.
i =1
6.5.4.2.
=0
6.5.4.3.
p
= F
p0
=0
6.5.4.4.
o bien
p = p 0 exp
=0
F .
6.5.4.5.
Gregorio Perichinsky
198
6.6.1.1.1.
Gregorio Perichinsky
199
d = (x 1 - y 1 ) 2 + (x 2 - y 2 ) 2 +
+ (x n - y n ) 2
xi, = yi
xi,
(xi - yi)
yi
6.6.1.1.2.
Gregorio Perichinsky
200
(x) = (xj + d) = yj + e.
3. Memoria autoasociativa: Presupone que
yi = xi y establece una
6.6.1.2.1.
j y ij = 1 si i = j.
Gregorio Perichinsky
201
APLICACIN
CCII
APLICATIVO
Gregorio Perichinsky
202
7. APLICACIN
7.1. CUERPOS CELESTES. FAMILIAS DE ASTEROIDES
7.1.1. INGENIERA DE REQUERIMIENTOS
Cuando desarrollamos software debemos garantizar la produccin sistemtica
y controlada de los productos que satisfagan las necesidades de los usuarios,
a tiempo y costos establecidos. Se deben aplicar principios, procedimientos,
mtricas y herramientas similares a las que se emplean en otras ramas de la
ingeniera ya que se necesitan emplear estndares [Yourdon, 1993]
[Sommerville, 1997] [Kotonya y Sommerville, 1998] [Robertson y Robertson,
1999] [IEEE Std. 1471, 2000] [Pressman, 2002] [Wiegers, 2003] [Brito y
Moreira, 2004].
7.1.1.1. Por lo tanto aplicamos: Ingeniera de Software.
Definiciones del IEEE:
"El uso de mtodos sistemticos, disciplinados y cuantificables para el
desarrollo, operacin y mantenimiento del software."
"El estudio de tcnicas relacionadas con el uso de mtodos sistemticos,
disciplinados y cuantificables para el desarrollo, operacin y mantenimiento del
software."
Definicin de Richard Fairley:
"La ingeniera de software es la disciplina tecnolgica y de administracin que
se ocupa de la produccin y evolucin sistemtica de productos de software
que son desarrollados y modificados dentro de tiempos y costos estimados."
7.1.1.2. Ciclo de Vida de Software
[Brooks, 1987]
1.
APLICATIVO
Gregorio Perichinsky
203
2.
etapas.
3.
2.
3.
Anlisis de Requerimientos
4.
5.
6.
7.
APLICATIVO
Gregorio Perichinsky
204
Gregorio Perichinsky
205
Hay distintas tcnicas y herramientas que se utilizan para llevar a cabo cada
una de las actividades del proceso.
Hacer
una
Arqueologa
de
documentos
para
determinar
posibles
Gregorio Perichinsky
206
Todos los Problemas son una coleccin de actividades que se llevan a cabo
Clases Conceptual, son modelos que representan conceptos del dominio del
problema y permite mostrar conceptos, asociaciones entre conceptos y
atributos de conceptos, ayuda a comprender la terminologa del dominio y
APLICATIVO
Gregorio Perichinsky
207
comunica cules son los trminos importantes y las relaciones existentes entre
ellos.
Siendo un Concepto una categora de ideas o cosas, para la descripcin de
sus atributos, operaciones y significado y una clase representa un concepto del
dominio del problema, como caso particular el Diagrama de pescado (Ishikawa
Diagram, Cause-and-Effect o Fishbone Diagram) [ISHIKAWA, 1969] [David,
1998].
Otras Herramientas son: (1) el Glosario que es una simple lista de trminos
en donde se explica su significado; (2) el Documento de Concepto de
Operaciones (DCO) para comprender el entorno en el cual se encuentra el
Problema, describiendo su funcionamiento interno y su relacin con el
ambiente; (3) el Diagrama de Actividad o diagrama de proceso, se asemeja a
un mapa de procedimientos, mostrando el flujo de actividades; (4) el
Documento de Especificacin de Requerimientos (ESRE) para especificar
los requerimientos del sistema (Casos de Uso), que se pueden clasificar en
categoras de no-funcionales y funcionales; (5) el Caso de Uso es un
documento narrativo que describe la secuencia de eventos de un actor (agente
externo) que utiliza un sistema para completar un proceso. Es una tcnica
diseada para especificar el comportamiento de un sistema; (6) la Casa de
Calidad es un esquema QFD (Quality Function Deployment) es una matriz
que representa las casas de calidad, en las cuales las filas representan la lista
de requerimientos, mientras que las columnas representan cmo se llevan a
cabo los requerimientos (casos de uso) utilizando referencias y finalmente (7)
la Checklist o lista de verificacin para probar que no falta ningn caso de uso
para los requerimientos, recorriendo el ESRE y los Casos de Uso [Jacobson,
Booch y Rumbaugh, 2000] [ISO/IEC: FCD 9126-1, 2001] [Filman, Elrad, Clarke,
y Aksit, 2005].
En Conclusin, finalizado el Proceso de Ingeniera de Requerimientos y las
herramientas, que se pueden utilizar para realizar las actividades del proceso
de ella, es til compartir experiencias para su aplicacin prctica en las
diferentes etapas.
APLICATIVO
Gregorio Perichinsky
208
APLICATIVO
Gregorio Perichinsky
209
Gregorio Perichinsky
210
Sobre esta base un cluster debe tener una densidad mayor, dado que esta
tomada en el espacio de una regin cuyo centro sea un asteroide. Es ms
claro y conveniente tomar una regin elipsoidal que una rectangular pues esta
resulta inconsistente. El paso siguiente es agrupar regiones de familias, que
aunque se solapen, se logra que muchas familias sean descartadas entre s
pero identificadas en otras.
Segn Arnold siguiendo la ley de Poisson el nmero de elementos de un
conjunto debe ser menor que un cierto nmero esperado, con la cual no
se concuerda en esta tesis pues los eventos no siguen esta ley por
contradecir todo lo desarrollado hasta ahora: se basa en grandores
fsicos, en caractersticas fenotpicas de caracteres o atributos de los
asteroides y finalmente de su genotpica u origen comn.
Finalmente mediante una prueba estadstica se debe encontrar el tamao de
una familia dada tal que la probabilidad de ocurrencia del mismo sea
minimizada frente a la densidad de objetos esperados en la regin.
Esto debe ser hecho de tal manera que el test estadstico rechace elementos
errantes o vagabundos por no pertenecer a la estructura taxonmica. Esto es
vlido para los Jet Streams.
Toda esa conclusin parece ser arbitraria pues debe prevalecer el
concepto conservativo de la masa es decir la densidad y la estabilidad del
entorno.
Condiciones de vecindad cercana deben ser tenidas en cuenta y las
familias de alta densidad son las ms estables y menos azarosas.
Media, rangos, desviaciones estndar y otros estadsticos deben ser tenidos en
cuenta para cada familia, no solo para las variables seleccionadas sino
tambin para las distancias al afelio y al perihelio, valores propios sujetos a
peridicas perturbaciones.
Se confirman las familias de Hirayama y las familias pequeas son de baja
densidad y la probabilidad de pertenezcan a las familias es alta y por lo tanto
su acoplamiento por el mtodo pair-group.
APLICATIVO
Gregorio Perichinsky
211
Gregorio Perichinsky
212
APLICATIVO
Gregorio Perichinsky
213
[masa de Jpiter / masa del Sol], de acuerdo con los resultados del
algoritmo consistente con las modernas teoras dinmicas de KolmogorovArnold-Moser, son cerca de 3495 asteroides de la edicin del Leningrad
Ephemerides of the Minor Planets. Se descartaron Hildas, Troyanas y los
cercanos a la Tierra (q<1.1 u.a.).
El algoritmo permite calcular un cdigo de calidad (QC) que indica cuantas
iteraciones hay que realizar para que converja.
La cantidad de asteroides se pueden recalcular en alrededor de 55 (por qu?)
iteraciones, siempre que la inclinacin no sea grande al igual que la
excentricidad.
Todo este desarrollo aparece poco claro y arbitrario, no hay un sustento formal
en la relacin convergencia cantidad de iteraciones y el nmero de asteroides.
APLICATIVO
Gregorio Perichinsky
214
de
anlisis
de
datos
que
se agrupan jerrquicamente.
Un
Gregorio Perichinsky
215
Gregorio Perichinsky
216
Gregorio Perichinsky
217
APLICATIVO
Gregorio Perichinsky
218
62
90
104
171
184
222
223
268
316
379
383
431
461
468
492
515
526
555
621
637
656
710
767
846
848
936
938
946
954
981
988
991
996
1003
1027
1061
1073
1074
1082
1142
1171
1229
1247
1253
1259
1302
1331
1340
1440
1445
1462
1487
1539
1576
1581
1615
1623
1624
1633
1669
1674
1684
1686
1687
1691
1698
KORONIS
Cantidad de asteroides 37, elemento de cabecera KORONIS.158.
158
167
208
243
263
277
311
321
452
462
534
658
720
761
811
832
962
975
993
1029
1079
1100
1223
1245
1289
1336
1350
1363
1389
1423
1442
1482
1497
1570
1618
1635
1725
MARA
Cantidad de asteroides 20, elemento de cabecera MARA.170.
170
472
575
616
652
660
695
714
727
751
787
875
879
897
994
1158
1160
1215
1379
1677
EOS
Cantidad de asteroides 66, elemento de cabecera EOS.221.
221
320
339
450
513
520
529
562
573
579
590
608
633
639
651
653
661
669
742
766
775
798
807
833
876
890
1033
1075
1087
1105
APLICATIVO
Gregorio Perichinsky
219
1112
1129
1148
1174
1186
1199
1207
1210
1220
1234
1286
1287
1291
1297
1339
1353
1364
1388
1410
1413
1416
1434
1464
1485
1532
1533
1552
1557
1604
1605
1641
1649
1654
1711
1723
1732
PHOCAEA
Cantidad de asteroides 34, elemento de cabecera PHOCAEA.24.
25
105
265
273
290
323
326
391
502
587
654
852
914
950
1090
1108
1164
1170
1192
1310
1316
1318
1322
1342
1367
1565
1568
1573
1575
1584
1591
1626
1657
1660
FLORA
Cantidad de asteroides 156, elemento de cabecera FLORA.8.
8
43
244
254
270
281
291
296
298
315
341
352
364
367
376
422
428
440
453
496
525
540
553
641
685
700
703
711
736
763
770
782
800
802
809
810
819
823
825
831
836
841
851
871
883
901
905
913
915
929
935
937
939
951
956
960
963
967
1016
1026
1037
1047
1052
1055
1056
1058
1060
1078
1088
1089
1117
1120
1123
1130
1133
1150
1153
1185
1188
1214
1216
1219
1225
1249
1270
1274
1307
1324
1335
1338
1344
1365
1370
1376
1377
1382
1387
1396
1399
1405
1412
1415
1418
1419
1422
1446
1449
1451
1455
1472
1476
1480
1492
1494
1496
1500
1513
1514
1518
1523
1526
1527
1530
1536
1549
1562
1563
1577
1590
1601
APLICATIVO
Gregorio Perichinsky
220
1602
1608
1619
1621
1622
1631
1634
1636
1651
1652
1661
1663
1666
1667
1675
1682
1696
1699
1703
1704
1707
1713
1717
1720
1729
1733
2.5
2
1.5
1
0.5
1707
1666
1624
1577
1530
1476
1416
1367
1318
1234
1174
1112
988
1058
935
798
848
710
526
637
431
243
316
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES (OTUs)
APLICATIVO
Gregorio Perichinsky
221
APLICATIVO
Gregorio Perichinsky
1.5
0.5
0
1590
1533
1480
1416
1365
1307
1223
1160
1089
1033
956
890
819
742
653
553
452
321
244
24
1725
2
1677
2.5
1725
3
1634
1677
ASTEROIDES (OTUs)
1634
1590
1533
1480
1416
1365
1307
1223
1160
1089
1033
956
890
819
742
653
553
452
321
244
24
DISTANCIAS NORMALIZADAS
DISTANCIAS NORMALIZADAS
2.5
2
1.5
0.5
ASTEROIDES (OTUs)
222
3.5
3
2.5
2
1.5
1
0.5
1634
1677
1725
1634
1677
1725
1590
1590
1480
1533
1365
1416
1307
1160
1223
1089
956
1033
890
742
819
553
653
452
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES (OTUs)
2.5
2
1.5
1
0.5
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
742
819
553
653
452
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES (OTUs)
APLICATIVO
Gregorio Perichinsky
223
3
2.5
2
1.5
1
0.5
1725
1634
1677
1533
1590
1480
1365
1416
1223
1307
1160
1033
1089
890
956
742
819
653
452
553
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES (OTUs)
APLICATIVO
Gregorio Perichinsky
224
APLICATIVO
Gregorio Perichinsky
225
APLICATIVO
Gregorio Perichinsky
226
[8]
[24]
[25]
[43]
[62]
[90]
[104]
[105]
[158]
[167]
[170]
1.4537
1.7589
0.1346
1.4169
1.4558
1.4294
1.5548
1.6052
1.6124
1.4537
2.3357
1.4222
0.1677
0.119
0.2623
2.2025
1.512
1.5422
1.7589
2.3357
1.8883
2.3425
2.3461
2.2828
0.2493
2.722
2.7367
0.1346
1.4222
1.8883
1.3846
1.4252
1.4071
1.6862
1.5736
1.5803
1.4169
0.1677
2.3425
1.3846
0.0642
0.1319
2.196
1.3469
1.3774
1.4558
0.119
2.3461
1.4252
0.0642
0.1545
2.2054
1.4065
1.4373
1.4294
0.2623
2.2828
1.4071
0.1319
0.1545
2.135
1.296
1.3275
1.5548
2.2025
0.2493
1.6862
2.196
2.2054
2.135
2.4988
2.5123
1.6052
1.512
2.722
1.5736
1.3469
1.4065
1.296
2.4988
0.0343
1.6124
1.5422
2.7367
1.5803
1.3774
1.4373
1.3275
2.5123
0.0343
1.1488
1.7116
1.3457
1.2467
1.6234
1.6592
1.5402
1.1127
1.4402
1.4499
1.4539
0.0329
2.3151
1.4246
0.1927
0.1422
0.2766
2.1844
1.5359
1.5661
#
&
(
)
+
)
.
)
.
/
0
7.2.3. Estructuracin
A partir de la matriz de similitud se obtienen los espectros caractersticos de los
asteroides (OTUs), nmero del elemento funcional a la distancia, que muestra
mucho ms claramente que otras formas geomtricas (v.g.: los fenogramas)
cual es la estructura de la distribucin y el aporte de los dems elementos a la
agregacin o agrupamiento de los mismos en clusters, familias.
En la algortmia, luego de la normalizacin, se forman conjuntos parte Ci, en
funcin de la varianza unitaria = 1 y segn lo desarrollado en la metodologa
se ajustan los conjuntos partes a partir del maximal k. y de un radio de la
densidad de distribucin de cada Ci.
APLICATIVO
Gregorio Perichinsky
227
2.5
2
1.5
1
0.5
1725
1634
1677
1590
1480
1533
1365
1416
1307
1160
1223
1089
956
1033
890
742
819
553
653
452
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
APLICATIVO
Gregorio Perichinsky
228
Invariantes:
Distancia Media 0.1261
Densidad 12.00
Dispersion
0.0568
Rango
0.2245
2.5
2
1.5
1
0.5
1634
1677
1725
1634
1677
1725
1590
1590
1480
1533
1365
1416
1307
1160
1223
1089
956
1033
890
742
819
553
653
452
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1613
Densidad 12.00
Dispersion
0.0593
Rango
0.2639
2.5
2
1.5
1
0.5
1480
1533
1365
1416
1307
1160
1223
1089
956
1033
890
742
819
553
653
452
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1394
Densidad 15.00
Dispersion
0.0642
Rango
0.2505
APLICATIVO
Gregorio Perichinsky
229
2.5
2
1.5
1
0.5
1725
1677
1634
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.0933
Densidad 11.00
Dispersion
0.0411
Rango
0.1646
3
2.5
2
1.5
1
0.5
1725
1677
1634
1590
1533
1480
1416
1365
1307
1223
1160
1089
1033
956
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1393
Densidad 12.00
Dispersion
0.0589
Rango
0.2412
APLICATIVO
Gregorio Perichinsky
230
2.5
2
1.5
1
0.5
1590
1634
1677
1725
1634
1677
1725
1533
1590
1480
1416
1365
1307
1223
1160
1089
956
1033
890
742
819
553
653
452
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.0926
Densidad 13.00
Dispersion
0.0491
Rango
0.1777
2.5
2
1.5
1
0.5
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.0916
Densidad 13.00
Dispersion
0.0493
Rango
0.1771
APLICATIVO
Gregorio Perichinsky
231
2.5
2
1.5
1
0.5
1634
1677
1725
1634
1677
1725
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.0958
Densidad 13.00
Dispersion
0.0517
Rango
0.1855
2.5
2
1.5
1
0.5
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1230
Densidad 14.00
Dispersion
0.0389
Rango
0.1904
APLICATIVO
Gregorio Perichinsky
232
2.5
2
1.5
1
0.5
1634
1677
1725
1634
1677
1725
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
742
819
553
653
452
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.2821
Densidad 13.00
Dispersion
0.0748
Rango
0.4116
3
2.5
2
1.5
1
0.5
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1583
Densidad 9.00
Dispersion
0.1019
Rango
0.3348
APLICATIVO
Gregorio Perichinsky
233
2.5
2
1.5
1
0.5
1634
1677
1725
1634
1677
1725
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
742
819
553
653
452
244
321
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1026
Densidad 13.00
Dispersion
0.0366
Rango
0.1659
2.5
2
1.5
1
0.5
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.0961
Densidad 12.00
Dispersion
0.0457
Rango
0.1752
APLICATIVO
Gregorio Perichinsky
234
3
2.5
2
1.5
1
0.5
1590
1634
1677
1725
1634
1677
1725
1533
1590
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1800
Densidad 9.00
Dispersion
0.1096
Rango
0.3698
2.5
2
1.5
1
0.5
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.0977
Densidad 13.00
Dispersion
0.0397
Rango
0.1666
APLICATIVO
Gregorio Perichinsky
235
2.5
2
1.5
1
0.5
1590
1634
1677
1725
1634
1677
1725
1533
1590
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1338
Densidad 14.00
Dispersion
0.0606
Rango
0.2387
2.5
2
1.5
1
0.5
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1064
Densidad 12.00
Dispersion
0.0446
Rango
0.1837
APLICATIVO
Gregorio Perichinsky
236
1634
1677
1725
1634
1677
1725
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.4350
Densidad 11.00
Dispersion
0.1030
Rango
0.6135
3
2.5
2
1.5
1
0.5
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1586
Densidad 9.00
Dispersion
0.1035
Rango
0.3378
APLICATIVO
Gregorio Perichinsky
237
2.5
2
1.5
1
0.5
1725
1677
1634
1590
1533
1480
1416
1365
1307
1223
1160
1089
956
1033
890
819
742
653
553
452
321
244
0
24
DISTANCIAS NORMALIZADAS
ASTEROIDES
Invariantes:
Distancia Media 0.1321
Densidad 13.00
Dispersion
0.059
Rango
0.2343
Gregorio Perichinsky
238
7.2.4.1.1.
ni+
ni+ + ni
7.2.4.1.2.
n
i =1
p i log p i
7.2.4.1.3.
H ( S , at ) =
i =1
P (S i ) H (S i )
7.2.4.1.4.
P (S i ) =
Si
S
7.2.4.1.5.
7.2.4.1.6.
Gregorio Perichinsky
239
APLICATIVO
Gregorio Perichinsky
240
APLICATIVO
Gregorio Perichinsky
241
ALGORITMIA
El orden y la conexin de las ideas es lo mismo que el orden y la conexin de las cosas
Baruch ( Benedict de ) Spinoza
CCXLII
ALGORITMIA
Gregorio Perichinsky
242
8. ALGORITMIA
with Ada
procedure unasa is
procedure impm () is
subtype rangoM is integer range 1.. ;
subtype rangoE is integer range 1..4;
<CONJUNTO DE ARREGLOS>
< REGISTRO VISIN>
<ADMINISTRACION DE MEMORIA>
type floatarray is array (rangoM) of float;
type ptrfloatarray is access floatarray;
type matriz is array (rangoM) of ptrfloatarray;
type enteroarray is array (rangoM) of integer;
type ptrenteroarray is access enteroarray;
type matrize is array (rangoM) of ptrenteroarray;
<ASIGNACION DE ARCHIVOS>
<ASIGNACION REGISTROS INSTANCIAS DE VISIN (GET)>
<LOCALIZACIN E INICIALIZACION DE ARREGLOS>
procedure alocarmatriz(mtaxa: in out matriz) is
begin
for i in rangoM loop
mtaxa(i) := new floatarray;
end loop;
end;
procedure alocarmatrize(mtaxones: in out matrize) is
begin
for i in rangoM loop
ALGORITMIA
Gregorio Perichinsky
243
.............
end loop;
close (f);
<CLCULO DE PROMEDIO DE LOS DOMINIOS>
for j in 1.. loop
v1(j):= 0.0;
for i in 1.. loop
v1(j):= v1(j) + m(i,j);
end loop;
end loop;
for i in 1.. loop
v1(i):= v1(i) / .0;
end loop;
ALGORITMIA
Gregorio Perichinsky
244
<VECTOR DE COVARIANCIA>
<DOMINIOS DE DATOS
VALORES>
245
mt2(i,j):= r(i,j);
end loop;
end loop;
<IDENTIFICACION DE OTUs AISLADOS>
ALGORITMIA
Gregorio Perichinsky
246
<DENSIDAD>
end loop;
<AGRUPAMIENTO POR INVARIANTES>
<ARMADO DE FAMILIAS>
<TAXONES>
<TRATAMIENTO DE FAMILIAS NO SOLAPADAS>
lim := 0;
jmx := 0;
jkx := - 1;
ikx := ;
for i in 1..jkx loop
if (taxones(i)(i) > -1) then
ik := i + 1;
for imx in ik..ikx loop
for j in rangoM loop
<IDENTIFICACION DE OTUs>
if ((i /= j) and (taxones(i)(j) = 1)) and ((imx /= j) and (taxones(imx)(j) = 1)) then
if (tax(i,1) > tax(imx,1)) then
<OTUs AISLADOS>
ALGORITMIA
Gregorio Perichinsky
247
taxones(i)(j) := 0;
taxones(imx)(j) := 1;
else
taxones(i)(j) := 1;
taxones(imx)(j) := 0;
end if;
end if;
end loop;
end loop;
if (taxones(i)(i) < 0) then
tax(i,1) := 0.0;
tax(i,2) := 0.0;
tax(i,3) := 0.0;
tax(i,4) := 0.0;
end if;
end if;
end loop;
<ELIMINACION DE OTUs EXTERNOS>
for i in rangoM loop
if (taxones(i)(i) > -1) then
for j in rangoM loop
if ((i /= j) and (taxones(i)(j) = 1)) then
if (matnt(i)(j) > tax(i,1)) then
taxones(i)(j) := 0;
end if;
end if;
end loop;
end if;
end loop;
lim := 0;
jmx := 0;
jkx := - 1;
ALGORITMIA
Gregorio Perichinsky
248
Gregorio Perichinsky
249
end loop;
distancia_media := distancia_media / ene;
<VARIANZA y DISPERSIN>
for j in rangoM loop
if ((i /= j) and (taxones(i)(j) = 1)) then
xsigma := xsigma + (distancia_media - matnt(i)(j))**2;
end if;
end loop;
radio := (xsigma/(ene))**0.5;
rango := xk*radio + distancia_media;
simil := 2.0 * radio + distancia_media;
for j in rangoM loop
if ((i /= j) and (taxones(i)(j) = 1)) then
if (matnt(i)(j) > rango) then
taxones(i)(j) := 0;
end if;
end if;
end loop;
<INVARIANTES>
tax(i,1) := distancia_media;
tax(i,2) := ene;
tax(i,3) := radio;
tax(i,4) := rango;
end loop;
<ARMADO DE FAMILIAS>
lim := 0;
jmx := 0;
jkx := - 1;
ikx := ;
for i in 1..jkx loop
ALGORITMIA
Gregorio Perichinsky
250
1a
2
11
11
3
<loops de 1 a 11>
ALGORITMIA
Gregorio Perichinsky
251
if (i /= jmx) then
end if;
end if;
7
6
5
end if;
end if;
end loop;
end if;
end loop;
1a
ALGORITMIA
end loop;
<COMPLETA LOS CLUSTERS DEL WHILE>
Gregorio Perichinsky
252
end loop;
<DISTORSIN DEL ESPACIO>
for lj in 1.. loop
if r(i,lj) /= 0.0 then
li := i + 1;
for ik in li.. loop
r(ik,lj) := 0.0;
end loop;
end if;
end loop;
end impm;
begin
impm();
end unasa;
ALGORITMIA
Gregorio Perichinsky
253
CONCLUSIONES
El hombre sabio querr estar siempre con alguien que sea mejor que el (Platon)
CLXXVI
CONCLUSIONES
Gregorio Perichinsky
254
9.
CONCLUSIONES
9.1.
APORTES ORIGINALES
!
"
% !
&
'
&
!
( )
%
'
(
&
&
,
CONCLUSIONES
#+
!,
Gregorio Perichinsky
255
9.2.
'
!
.-
'
'
"
#1
2 3 4
(5
0
+
#'
6*!
#
!
CONCLUSIONES
Gregorio Perichinsky
256
ANEXO I
MATRIZ DE DATOS
CCLVII
Gregorio Perichinsky
257
10.
ANEXO I
Gregorio Perichinsky
258
[1]
[2]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
8 Flora
24 Themis
2.201
3.133
0.141
0.159
5.88638
0.76258
0.097
0.02
60
155.3
116.9
315.1
0.024
0.794
2.457
1.409
25 Phocaea
43 Ariadne
2.4
2.203
0.183 21.57367
0.14
3.4662
0.417
0.071
295.4
260.7
214.6
261
0.192
0.046
2.071
2.473
62 Erato
90 Antiope
3.122
3.148
0.146
0.15
2.22285
2.23233
0.023
0.024
47.6
295.7
151.2
43.3
0.825
0.832
1.462
1.419
104 Klymene
105 Artemis
3.149
2.374
0.141
2.8238
0.168 21.48458
0.044
0.387
80.5
234.7
16
187
0.861
0.217
1.447
2.131
158 Koronis
167 Urda
2.869
2.854
0.045
0.043
1.00145
2.20436
0.038
0.037
103.7
236.7
277.8
197.2
0.917
0.909
2.02
2.042
170 Maria
171 Ophelia
2.554
3.134
0.099 14.42482
0.161 2.54263
0.266
0.024
121.2
160
299.6
101.8
0.425
0.787
2.188
1.401
184 Dejopeja
208 Lacrimosa
3.183
2.893
0.113
0.045
1.14847
1.75446
0.038
0.037
187.4
170.8
304
332.1
0.979
0.938
1.499
1.997
221 Eso
222 Lucia
3.012
3.135
0.071 10.86469
0.157 2.16047
0.174
0.019
318.9
247
147
57.7
0.957
0.801
1.796
1.412
223 Rosa
243 Ida
3.089
2.862
0.136
0.045
1.94484
1.14094
0.027
0.036
124.4
122.6
10.8
300.6
0.831
0.909
1.525
2.026
244 Sita
254 Augusta
2.174
2.195
0.103
0.116
2.8407
4.51629
0.06
0.07
39.8
231.1
212.5
22.9
0.096
0.088
2.574
2.531
263 Dresda
265 Anna
2.887
2.419
0.042 1.30803
0.175 25.62833
0.037
0.485
23.3
218.6
245.1
329.8
0.943
0.177
2.01
2.077
268 Adorea
270 Anahita
3.097
2.198
0.17
0.092
2.43342
2.36493
0.025
0.053
185.6
334.8
139.2
250.6
0.732
0.151
1.413
2.585
273 Atropos
277 Elvira
2.395
2.886
0.149 20.41422
0.051 1.15541
0.364
0.037
279.8
3.7
162.9
254
0.275
0.915
2.141
1.984
281 Lucretia
290 Bruna
2.188
2.337
0.134 5.30895
0.188 22.32099
0.084
0.406
75.2
127.8
26.6
12
0.026
0.145
2.484
2.128
291 Alice
296 Phaetusa
2.222
2.229
0.141
0.123
1.8498
1.74558
0.036
0.026
140.7
26.4
183.9
143.7
0.078
0.129
2.467
2.505
298 Baptistina
311 Claudia
2.264
2.898
0.145
0.041
6.29281
3.22719
0.107
0.037
147.4
180.2
2.6
73.1
0.094
0.954
2.412
2.005
315 Constantia
316 Goberta
2.242
3.175
0.12
0.134
2.42378
2.34017
0.044
0.024
331.4
96.4
178.4
149.1
0.149
0.906
2.501
1.442
320 Katharina
321 Florentina
3.013
2.886
0.074
0.046
9.34721
2.59711
0.175
0.038
10.9
120.5
226.6
14.3
0.949
0.93
1.787
2
323 Brucia
326 Tamara
2.383
2.318
0.195 24.23379
0.165 23.72419
0.438
0.412
32.5
256.5
101.5
28
0.137
0.177
2.068
2.211
339 Dorothea
3.012
0.067
0.17
318.6
181.3
0.97
1.808
9.94162
Gregorio Perichinsky
259
341 California
352 Gisela
364 Isara
367 Amicitia
376 Geometria
379 Huenna
383 Janina
391 Ingeborg
422 Berolina
428 Monachia
431 Nephele
440 Theodora
450 Brigitta
452 Hamiltonia
453 Tea
461 Saskia
462 Eriphyla
468 Lina
472 Roma
492 Gismonda
496 Gryphia
502 Sigune
513 Centesima
515 Athalia
520 Franziska
525 Adelaide
526 Jena
529 Preziosa
534 Nassovia
540 Rosamund
553 e
Kundry
555 Norma
562 Salome
573 Recha
575 Renate
579 Sidonia
587 Hypsipyle
590 Tomyris
608 Adolfine
616 Elly
621 Werdandi
633 Zelima
637 Chrysothe
mis
639 Latona
641 Agnes
651 Antikleia
2.199
0.129
5.67202
0.092
318.2
25.5
0.053
2.489
2.194
2.221
0.13
0.154
3.37728
6.00281
0.07
0.096
54.4
79
247.6
111.5
0.054
0.028
2.499
2.426
2.219
2.289
0.147
0.168
2.94411
5.4295
0.04
0.111
144
241.7
86
298.6
0.061
0.066
2.456
2.337
3.137
3.135
0.148
0.148
1.66536
2.65587
0.032
0.025
348.1
61.7
216.8
90.8
0.832
0.828
1.44
1.439
2.32
2.228
0.255 23.17737
0.161 5.00321
0.42
0.082
3.3
346.4
220
1.6
-0.039
0.027
1.984
2.406
2.308
3.129
0.153
0.151
6.20334
1.82699
0.104
0.013
44.7
321.5
9.3
148.3
0.126
0.815
2.357
1.437
2.21
3.015
0.151
1.5976
0.065 10.16556
0.039
0.174
124.3
13.1
278.9
8.4
0.039
0.979
2.451
1.811
2.865
2.183
0.063
0.136
3.22435
5.55879
0.036
0.091
168.3
199.8
90.8
5
0.862
0.01
1.973
2.477
3.112
2.874
0.159
0.05
1.43788
3.19195
0.025
0.036
114.3
345.2
209.4
110.5
0.774
0.908
1.431
2.001
3.14
2.542
0.153
0.4442
0.103 15.80873
0.022
0.264
348.3
98
298.9
130.7
0.819
0.405
1.42
2.19
3.112
2.199
0.147
0.128
1.63363
3.78827
0.023
0.077
329.2
124.4
0.7
212.8
0.813
0.064
1.469
2.499
2.384
3.014
0.173 24.99057
0.056
9.7169
0.42
0.171
151.2
68
132.5
191.7
0.206
1.008
2.116
1.841
3.12
3.006
0.154 2.02323
0.082 10.98307
0.019
0.184
66.3
70
151.1
28.7
0.8
0.915
1.44
1.77
2.245
3.121
0.143
0.162
5.99052
2.1693
0.117
0.026
122.3
147.9
208.6
173
0.074
0.772
2.426
1.412
3.017
2.884
0.065 11.00623
0.053 3.27484
0.174
0.037
55.9
107.4
62.5
93.3
0.98
0.91
1.809
1.982
2.219
2.231
0.145
0.123
5.5739
5.39162
0.109
0.083
168.2
91.1
207.9
72.9
0.038
0.116
2.441
2.49
3.169
3.019
0.189 2.64073
0.066 11.12101
0.031
0.177
134.9
310.8
156.3
68.1
0.724
0.98
1.277
1.805
3.014
2.555
0.073 9.84037
0.077 15.05039
0.18
0.262
13
320
337.2
346.5
0.951
0.489
1.789
2.248
3.013
2.335
0.062 11.00326
0.174 24.97898
0.171
0.427
282.2
154.3
81.1
322
0.986
0.162
1.821
2.173
3.001
3.024
0.078 11.15662
0.075 9.38495
0.174
0.186
111.2
1.8
107.8
292.2
0.925
0.955
1.788
1.775
2.553
3.118
0.096 14.98554
0.154 2.32152
0.264
0.026
134.1
113.7
353.6
39.4
0.436
0.796
2.201
1.442
3.017
3.165
0.059 10.91094
0.17 0.29074
0.177
0.025
316.9
172.4
152.9
289.6
0.999
0.783
1.827
1.338
3.016
2.22
0.068
0.131
8.56967
1.71676
0.171
0.021
333.9
80.5
279.9
22.9
0.971
0.099
1.801
2.492
3.024
0.065 10.76947
0.177
41.9
33.1
0.986
1.801
Gregorio Perichinsky
260
652 Jubilatrix
653 Berenike
654 Zelinda
656 Beagle
658 Asteria
660 Crescentia
661 Cloelia
669 Kypria
685 Hermia
695 Bella
700 Auravictrix
703 Noemi
710 Gertrud
711 Marmulla
714 Ulula
720 Bohlinia
727 Nipponia
736 Harvard
742 Edisona
751 Faina
761 Brendelia
763 Cupido
766 Moguntia
767 Bondia
770 Bali
775 Lumiere
782 Montefiore
787 Moskva
798 Ruth
800 Kressman
802 nia
Epyaxa
807 Ceraskia
809 Lundia
810 Atossa
811 Nauheima
819 Barnardian
823 a
Sisigambis
825 Tanina
831 Stateira
832 Karin
833 Monica
836 Jole
841 Arabella
846 Lipperta
848 Inna
851 Zeissia
2.555
0.072 15.77965
0.258
22.9
86.1
0.51
2.267
3.014
2.297
0.079 11.29008
0.192 18.12805
0.182
0.332
183.2
133
136.9
275
0.933
0.077
1.772
2.134
3.16
2.854
0.158
0.045
0.50817
1.51477
0.025
0.037
161.5
85.6
257
320.1
0.82
0.902
1.382
2.034
2.535
3.016
0.088 15.23935
0.071
9.2591
0.262
0.173
224.4
166.6
160.1
330.6
0.436
0.96
2.234
1.792
3.012
2.236
0.074
0.146
10.7778
3.64478
0.185
0.079
257.6
306.9
177.4
238.1
0.946
0.071
1.79
2.435
2.538
2.229
0.088 13.86899
0.148 6.79025
0.263
0.111
5
181.2
275.1
99.6
0.438
0.043
2.231
2.426
2.175
3.135
0.117
0.154
2.45315
1.74782
0.053
0.021
54
227.7
217.7
183.5
0.067
0.81
2.544
1.421
2.237
2.535
0.152 6.09407
0.091 14.27974
0.109
0.264
283.7
124.8
351.1
235.6
0.047
0.426
2.415
2.225
2.887
2.568
0.051
0.087
2.36664
15.0327
0.036
0.25
172.9
76.3
6.8
136.2
0.917
0.494
1.983
2.227
2.202
3.013
0.106
4.3724
0.072 11.21177
0.073
0.181
337.6
340.9
144.2
61.5
0.118
0.953
2.546
1.793
2.552
2.863
0.114 15.60805
0.047 2.16915
0.256
0.037
39.1
285
79.4
353.4
0.402
0.907
2.171
2.021
2.241
3.021
0.13 4.08296
0.081 10.10283
0.084
0.18
33.2
101.3
284.9
1.9
0.112
0.933
2.467
1.757
3.117
2.221
0.15
0.157
2.42135
4.39143
0.025
0.067
336.7
81.5
63.2
38
0.808
0.031
1.454
2.425
3.012
2.18
0.086
0.104
9.28739
5.26081
0.182
0.083
129.6
152.4
296
83.8
0.909
0.089
1.753
2.558
2.54
3.015
0.063
0.06
14.8439
9.22919
0.264
0.171
288.6
223.7
187.9
220.8
0.502
0.996
2.289
1.828
2.193
2.196
0.144
0.138
4.26818
5.2074
0.076
0.087
303.7
135
316.6
2.2
0.018
0.03
2.466
2.472
3.019
2.283
0.081 11.30494
0.143 7.14404
0.18
0.121
136.4
353.6
136.6
160.7
0.932
0.113
1.762
2.396
2.179
2.897
0.124
0.062
2.60873
3.13222
0.047
0.04
355.3
277.8
166
148.3
0.061
0.892
2.53
1.946
2.197
2.221
0.112
0.136
4.90112
3.64507
0.087
0.078
252.8
127.3
326.3
253.4
0.092
0.077
2.53
2.469
2.226
2.212
0.111
0.136
3.39981
4.83436
0.051
0.091
189
65.4
109.2
184.4
0.146
0.056
2.528
2.468
2.864
3.01
0.044
0.083
1.00009
9.79663
0.037
0.179
18.7
36.9
266.7
346.8
0.916
0.917
2.027
1.763
2.191
2.255
0.142
0.109
4.83714
3.79569
0.093
0.065
39.2
131.7
205.2
344.5
0.008
0.184
2.461
2.51
3.129
3.106
0.144
0.138
0.26516
1.04316
0.027
0.034
36.8
322.5
278.4
247.3
0.836
0.835
1.459
1.504
2.228
0.14
2.3883
0.04
150.7
158.9
0.086
2.463
Gregorio Perichinsky
261
852 Wladilena
871 Amneris
875 Nymphe
876 Scott
879 Ricarda
883 Matterania
890 Waltraut
897 Lysistrata
901 Brunsia
905 Universita
913 s
Otila
914 Palisana
915 Cosette
929 Algunde
935 Clivia
936 Kunigunde
937 Bethgea
938 Chlosinde
939 Isberga
946 Poesia
950 Ahrensa
951 Gaspra
954 Li
956 Elisa
960 Birgit
962 Aslog
963 Iduberga
967 Helionape
975 Perseveran
981 ti
Martina
988 Appella
991 McDonalda
993 Moultona
994 Otthild
996 Hilaritas
1003 Lilofee
1016 Anitra
1026 Ingrid
1027 Aesculapia
1029 La Plata
1033 Simona
1037 Davidweill
1047 a
Geisha
1052 Belgica
1055 Tynka
1056 Azalea
2.363
0.196 23.03898
0.427
307.9
27.5
0.127
2.087
2.222
2.555
0.147 4.24766
0.083 14.60103
0.076
0.263
202.3
302.2
166.4
199.8
0.053
0.47
2.444
2.23
3.011
2.53
0.073 11.35095
0.093 13.6828
0.185
0.26
353.5
24.5
156.3
270.4
0.947
0.422
1.793
2.23
2.238
3.023
0.144 4.72188
0.077 10.86956
0.095
0.183
323.3
218.9
280.3
166.6
0.072
0.947
2.433
1.768
2.544
2.224
0.075 14.31241
0.164 3.44693
0.261
0.077
245.4
331.5
258.2
262.7
0.482
0.017
2.263
2.403
2.216
2.197
0.122
0.135
5.32738
5.80681
0.082
0.091
38.6
262.3
34
98.4
0.101
0.037
2.503
2.477
2.454
2.228
0.181 25.25333
0.134 5.55312
0.456
0.094
284.6
70.9
251.2
1.5
0.214
0.083
2.019
2.464
2.239
2.219
0.118
0.136
3.90743
4.02951
0.08
0.072
227.3
65.8
233.5
335.9
0.139
0.076
2.497
2.473
3.136
2.231
0.151
0.166
2.37134
3.69377
0.029
0.082
302.5
307.9
35.9
245
0.819
0.02
1.429
2.394
3.161
2.247
0.149
0.129
2.66508
2.59234
0.027
0.05
334.6
329.8
134.2
312.5
0.847
0.132
1.407
2.473
3.122
2.371
0.149 1.43533
0.172 23.48858
0.013
0.404
119.9
178.1
13
184.5
0.817
0.212
1.453
2.128
2.21
3.139
0.143
0.147
4.09747
1.15938
0.084
0.024
40.4
297.5
254
224.7
0.042
0.836
2.458
1.439
2.298
2.248
0.157
0.115
5.95278
3.02143
0.115
0.068
310.6
335.3
201
249.7
0.1
0.162
2.353
2.501
2.906
2.248
0.062
0.152
2.59717
7.98496
0.035
0.128
9.9
87.8
171.5
60.7
0.9
0.049
1.935
2.398
2.226
2.834
0.118
0.049
5.41689
2.56616
0.083
0.038
303.2
141.4
83.7
13.1
0.121
0.874
2.505
2.045
3.1
3.153
0.165
0.188
2.06963
1.58078
0.029
0.024
337
15.2
12.5
352.3
0.75
0.714
1.426
1.298
3.145
2.861
0.137
0.046
2.09085
1.76889
0.024
0.036
298.4
117.8
31.4
218.2
0.874
0.906
1.465
2.023
2.53
3.093
0.061 15.37415
0.161 0.66677
0.261
0.028
351.2
143
359.6
301.4
0.498
0.756
2.304
1.444
3.15
2.219
0.151
0.137
1.83452
6.0457
0.022
0.103
108
85.9
183.7
2.2
0.833
0.061
1.414
2.462
2.25
3.161
0.134
0.159
5.40195
1.25945
0.082
0.025
308.7
169
108.1
334.3
0.116
0.816
2.452
1.378
2.89
3.003
0.063 2.43846
0.086 10.65418
0.039
0.188
178.6
57
2.1
195.3
0.882
0.898
1.948
1.762
2.255
2.241
0.151
0.157
5.89328
5.66387
0.11
0.087
20.2
30.5
207.2
79.9
0.071
0.051
2.404
2.406
2.236
2.198
0.125
0.145
4.69424
5.27
0.072
0.089
57
319.6
105.4
154.9
0.122
0.018
2.485
2.455
2.23
0.128
5.42678
0.084
307.4
108.1
0.105
2.481
Gregorio Perichinsky
262
1058 Grubba
1060 Magnolia
1061 Paeonia
1073 Gellivara
1074 Beljawskya
1075 Helina
1078 Mentha
1079 Mimosa
1082 Pirola
1087 Arabis
1088 Mitaka
1089 Tama
1090 Sumida
1100 Arnica
1105 Fragaria
1108 Demeter
1112 Polonia
1117 Reginita
1120 Cannonia
1123 Shapleya
1129 Neujmina
1130 Skuld
1133 Lugduna
1142 Aetolia
1148 Rarahu
1150 Achaia
1153 Wallenber
1158 gia
Luda
1160 Illyria
1164 Kobolda
1170 Siva
1171 Rusthaweli
1174 a
Marmara
1185 Nikko
1186 Turnera
1188 Gothlandia
1192 Prisma
1199 Geldonia
1207 Ostenia
1210 Morosovia
1214 Richilde
1215 Boyer
1216 Askania
1219 Britta
1220 Crocus
1223 Neckar
2.197
0.127
3.68672
0.078
307.2
224.9
0.06
2.501
2.237
3.121
0.149
0.182
5.91617
2.49148
0.12
0.024
293.4
36.9
224.3
88.1
0.047
0.709
2.415
1.354
3.178
3.155
0.164
0.151
1.6197
0.82232
0.026
0.02
320.7
65.3
354.2
321.8
0.81
0.837
1.343
1.409
3.014
2.27
0.069 11.51421
0.187 7.37355
0.182
0.118
342.3
141.1
101.3
93.3
0.965
-0.004
1.803
2.307
2.874
3.128
0.047
0.144
1.18691
1.84789
0.036
0.025
119.4
323.7
304
192.8
0.917
0.837
2.009
1.461
3.015
2.202
0.071 10.06036
0.154 7.65258
0.17
0.122
78.2
32.2
24.2
55.2
0.963
-0.024
1.795
2.414
2.214
2.36
0.139 3.73009
0.196 21.52181
0.053
0.36
87.4
135.1
72
152.3
0.069
0.118
2.474
2.061
2.898
3.013
0.047 1.03746
0.069 10.96578
0.037
0.171
292.6
323.8
290
119.4
0.938
0.965
1.987
1.802
2.428
3.021
0.163 24.92029
0.065 8.99225
0.468
0.177
297
39
231.3
300.8
0.235
0.985
2.096
1.807
2.248
2.216
0.161
0.121
4.3387
4.04538
0.074
0.073
285.5
35.1
158.8
167.4
0.054
0.106
2.395
2.507
2.225
3.022
0.14
0.059
6.41882
8.61607
0.101
0.17
57.3
68.9
82.7
271.4
0.063
1.005
2.453
1.822
2.229
2.186
0.146
0.138
2.16242
5.37617
0.05
0.083
326
20.2
226.3
59.1
0.071
0.016
2.448
2.478
3.179
3.016
0.12 2.09698
0.089 10.84498
0.026
0.175
223.8
304.8
172.8
151.4
0.954
0.905
1.482
1.74
2.191
2.196
0.147
0.109
2.38271
3.33341
0.052
0.066
350.3
295.6
216.6
273.1
0.02
0.108
2.47
2.549
2.564
2.56
0.087 14.8798
0.078 15.00308
0.266
0.256
72.2
20.7
340.7
0.1
0.467
0.503
2.209
2.25
2.306
2.326
0.192 25.17298
0.212 22.20613
0.426
0.409
148.4
53.9
160.4
354.8
0.095
0.071
2.163
2.087
3.167
3.022
0.176
0.079
3.04739
10.1002
0.039
0.178
56.2
346.7
138.3
355.1
0.765
0.94
1.318
1.763
2.237
3.021
0.124
0.071
5.70294
10.7515
0.088
0.179
97.3
326.3
71.9
38.6
0.12
0.963
2.482
1.787
2.191
2.365
0.14 4.82647
0.224 23.85569
0.079
0.422
28.8
146.4
358.1
5
0.022
0.064
2.474
2.011
3.019
3.021
0.063 8.77416
0.07 10.37326
0.17
0.179
174.3
85.9
241.3
14.1
0.989
0.969
1.814
1.792
3.011
2.711
0.069 11.26192
0.091 9.84984
0.177
0.189
240.2
303.4
108.9
284.6
0.962
0.631
1.804
2.05
2.579
2.232
0.094 15.89844
0.16 7.59444
0.265
0.128
54.3
245.4
125.9
127.3
0.47
0.007
2.183
2.386
2.213
3.005
0.138 4.42017
0.072 11.35919
0.068
0.178
88.7
112.9
36.7
116.1
0.066
0.945
2.474
1.8
2.869
0.043
0.037
90.2
14.7
0.923
2.025
2.55502
Gregorio Perichinsky
263
1225 Ariane
1229 Tilia
1234 Elyna
1245 Calvinia
1247 Memoria
1249 Rutherford
1253 ia
Frisia
1259 Ogyalla
1270 Datura
1274 Delportia
1286 Banachiew
1287 icz
Lorcia
1289 Kutaissi
1291 Phryne
1297 Quadea
1302 Werra
1307 Cimmeria
1310 Villigera
1318 Nerina
1322 Coppernic
us
1324 Knysna
1331 Solvejg
1335 Demoulina
1336 Zeelandia
1338 Duponta
1339 Desagneau
1340 xa
Yvette
1342 Brabantia
1344 Caubeta
1350 Rosselia
1353 Maartje
1363 Herberta
1364 Safara
1365 Henyey
1367 Nongoma
1370 Hella
1376 Michelle
1377 Roberbaux
1379 a
Lomonoso
wa
1382 Gerti
1387 Kama
1388 Aphrodite
1389 Onnie
1396 Outeniqua
1399 Teneriffa
1405 Sibelius
2.233
0.116
3.0805
0.049
129.9
0.9
0.147
2.515
3.215
3.013
0.135
0.055
0.98288
8.52827
0.032
0.168
346.4
50.7
246.6
302.1
0.936
1.01
1.396
1.844
2.893
3.138
0.043
0.16
2.88282
1.76782
0.042
0.031
349.7
283.2
175.3
205.8
0.943
0.795
2.003
1.402
2.224
3.169
0.128
0.169
4.87071
1.35218
0.099
0.024
134
40.3
256.9
341.9
0.088
0.789
2.476
1.335
3.1
2.235
0.166
0.155
2.38758
5.98686
0.024
0.097
216
3.2
55.2
100.3
0.745
0.041
1.425
2.41
2.229
3.023
0.148
0.074
4.40424
9.73659
0.084
0.178
192.5
278.2
317.3
207.7
0.056
0.956
2.434
1.777
3.012
2.86
0.075
0.052
9.8216
1.60588
0.18
0.037
140.4
270.3
209.9
226.8
0.943
0.89
1.785
2.01
3.012
3.021
0.061
0.058
9.09953
9.00369
0.171
0.176
309.5
94.4
222.3
294.9
0.99
1.005
1.827
1.826
3.122
2.251
0.162
0.118
2.59427
3.94427
0.024
0.082
94.7
103.7
83
236
0.775
0.154
1.413
2.49
2.393
2.308
0.236 21.06541
0.217 24.66142
0.424
0.422
318.2
190.8
225.2 4 0.023
354.4
0.033
1.939
2.101
2.422
2.185
0.238 23.31458
0.136 4.51544
0.423
0.086
270.7
249.3
249.6
298.2
0.057
0.017
1.91
2.481
3.104
2.241
0.171
0.116
3.08751
2.54154
0.036
0.049
291.1
23.1
137.2
186.6
0.729
0.155
1.403
2.509
2.851
2.264
0.047
0.126
3.19592
4.82162
0.036
0.091
278
97.7
98.4
318.8
0.893
0.143
2.031
2.46
3.021
3.183
0.063
0.167
8.67773
0.42545
0.171
0.028
126.3
206.8
289.9
295.1
0.991
0.805
1.812
1.33
2.289
2.248
0.179 20.94754
0.163 5.66018
0.382
0.089
180.5
181.3
308.3
58.3
0.128
0.043
2.202
2.385
2.858
3.012
0.051
0.073
2.93271
9.17873
0.039
0.172
23.9
280.9
160.4
218.3
0.889
0.952
2.013
1.792
2.903
3.012
0.047 1.09227
0.073 11.50047
0.034
0.183
291.5
253.3
247
60.8
0.943
0.949
1.982
1.79
2.249
2.344
0.141 5.07067
0.152 22.45392
0.104
0.396
213.6
258.2
258.9
271.2
0.09
0.241
2.434
2.203
2.251
2.228
0.128
0.165
4.8065
3.54532
0.091
0.063
297.9
313.2
299.3
177.2
0.127
0.025
2.462
2.403
2.26
2.528
0.125 6.01798
0.129 15.57892
0.118
0.27
197
180.2
226.3
172.1
0.129
0.309
2.455
2.128
2.22
2.258
0.147
0.155
1.5676
5.52898
0.029
0.109
218.2
325.1
325.9
210.3
0.063
0.067
2.456
2.394
3.019
2.866
0.071 11.18666
0.043 2.03479
0.182
0.037
284.6
167.3
50.1
206.8
0.961
0.919
1.79
2.027
2.248
2.216
0.153
0.136
4.4996
6.50798
0.081
0.118
246.9
45.6
349.4
166.5
0.07
0.046
2.411
2.455
2.252
0.139
7.03293
0.133
70.8
308.2
0.082
2.422
Gregorio Perichinsky
264
10.3473
0.177
54.1
177.4
0.958
1.784
2.215
3.022
0.138 4.71906
0.079 10.20022
0.071
0.178
101.4
143.1
64.8
186.6
0.066
0.939
2.47
1.762
2.224
3.018
0.125 3.43151
0.079 10.05337
0.064
0.184
188.5
75.3
317.4
346.8
0.11
0.936
2.496
1.768
2.242
2.293
0.147
0.165
7.19712
5.71953
0.124
0.114
313.7
100.5
350.3
218.1
0.054
0.076
2.414
2.34
2.247
2.86
0.13
0.044
2.67349
2.91235
0.055
0.037
23.2
25.9
213
39.7
0.13
0.91
2.471
2.03
3.018
3.153
0.059 10.81956
0.159 2.29007
0.179
0.032
259.9
44.1
158.9
12.7
0.999
0.81
1.827
1.386
2.875
3.114
0.045
0.149
1.24615
2.284
0.038
0.021
330.7
356
248.1
79.7
0.923
0.808
2.014
1.461
2.246
2.223
0.136
0.151
5.26238
6.63628
0.086
0.11
193.7
218.7
9.5
116
0.105
0.029
2.45
2.424
2.203
2.247
0.146
0.147
5.10592
7.75234
0.095
0.132
200.6
204.5
180.8
132.6
0.019
0.056
2.448
2.406
3.152
3.002
0.138
0.075
0.97457
11.554
0.025
0.183
203.8
160.4
323
85.9
0.874
0.934
1.452
1.795
2.234
2.281
0.155
0.144
4.56939
6.33258
0.069
0.113
11.9
313.7
40.9
324.2
0.054
0.114
2.421
2.4
2.202
2.872
0.165
0.049
4.863
2.9745
0.075
0.035
135.8
236.4
61.1
57.1
-0.015
0.909
2.415
2.005
3.026
3.143
0.08
0.154
8.93898
2.47148
0.175
0.023
326.6
195.2
295.3
97.8
0.942
0.817
1.756
1.414
2.173
2.19
0.156
0.1
6.05272
2.45129
0.106
0.052
188.7
43.5
142.5
202.1
-0.063
0.122
2.422
2.574
2.206
2.895
0.125
0.057
2.50479
1.06377
0.051
0.038
277.3
301.4
283.7
288.3
0.09
0.906
2.512
1.962
2.243
2.193
0.17
0.159
7.44653
3.97302
0.125
0.067
52.6
157.5
13.4
145.1
0
-0.013
2.36
2.435
1518 Rovaniemi
1523 Pieksamak
1526 iMikkeli
2.241
2.226
0.152
0.154
4.52996
6.71859
0.075
0.112
321
85.6
155.9
21.7
0.065
0.024
2.421
2.414
2.242
2.315
0.147
0.172
5.14793
6.21614
0.096
0.12
153.9
63.1
319.5
329.4
0.071
0.081
2.425
2.304
1527 Malmquist
1530 a
Rantasepp
2.227
2.249
0.144
0.155
5.19801
4.41945
0.087
0.094
314.3
20.4
9.9
281.8
0.063
0.06
2.445
2.401
3.005
3.013
0.063
8.7964
0.074 10.70339
0.166
0.177
131.4
170.5
325.9
162.9
0.977
0.949
1.827
1.789
2.204
3.147
0.151
0.151
1.52547
1.71775
0.035
0.021
16
33.3
213
188.6
0.034
0.831
2.453
1.417
2.231
3.01
0.118
0.07
5.54706
9.86029
0.086
0.173
114.2
62.6
87.4
3.5
0.128
0.958
2.502
1.801
3.01
2.226
0.07
0.116
10.3151
4.88315
0.183
0.082
349.3
187.8
349.7
136.3
0.959
0.126
1.804
2.509
2.191
0.148
5.9892
0.096
160.2
53.1
-0.002
2.453
1410 Margret
1412 Lagrula
1413 Roucarie
1415 Malautra
1416 Renauxa
1418 Fayeta
1419 Danzig
1422 Stromgreni
1423 a
Jose
1434 Margot
1440 Rostia
1442 Corvina
1445 Konkolya
1446 Sillanpaa
1449 Virtanen
1451 Grano
1455 Mitchella
1462 Zamenhof
1464 Armisticia
1472 Muonio
1476 Cox
1480 Aunus
1482 Sebastiana
1485 Isa
1487 Boda
1492 Oppolzer
1494 Savo
1496 Turku
1497 Tampere
1500 Jyvaskyla
1513 Matra
1514 Ricouxa
a
1532 Inari
1533 Saimaa
1536 Pielinen
1539 Borrelly
1549 Mikko
1552 Bessel
1557 Roehla
1562 Gondolats
1563 ch
Noel
3.02
0.073
Gregorio Perichinsky
265
2.393
0.242 21.41571
0.435
18.6
267
0.013
1.933
2.352
2.844
0.197 24.88923
0.043
1.6556
0.43
0.036
0.6
94.9
143.1
223.7
0.114
0.898
2.098
2.05
2.37
2.375
0.212 24.58003
0.196 24.77852
0.422
0.43
14.7
201
204.9
209.9
0.085
0.135
2.032
2.074
1577 Reiss
1581 Abanderad
1584 a
Fuji
3.135
2.23
0.152
0.141
0.93705
4.35529
0.022
0.071
58.7
46.1
234.4
131.6
0.817
0.08
1.429
2.455
3.164
2.376
0.153
0.195
2.53619
26.6803
0.025
0.458
188.9
133.8
111.9
302.8
0.837
0.118
1.392
2.079
1590 Tsiolkovsk
1591 aj
Baize
2.23
2.393
0.134
4.3482
0.186 24.77415
0.088
0.413
258
335.5
228.7
0.089
173 3 0.215
2.465
2.062
1601 Patry
2.234
2.245
0.118
0.154
4.94359
4.16344
0.074
0.061
246.3
150.3
75.2
74
0.136
0.071
2.503
2.418
3.024
3.014
0.066 9.40488
0.077 10.56534
0.18
0.182
328.2
120.5
305.9
181.3
0.982
0.939
1.799
1.779
2.214
3.113
0.119
0.158
3.94862
1.67708
0.066
0.025
302.6
49.7
348
197.8
0.109
0.779
2.515
1.434
2.869
2.241
0.046
0.151
3.22588
6.21591
0.036
0.095
223.9
45.3
107
61
0.915
0.061
2.018
2.417
2.23
2.234
0.123
0.153
3.16833
6.46684
0.062
0.113
83.1
238.6
192.1
357.1
0.122
0.038
2.496
2.411
3.133
3.18
0.155
0.143
2.49054
1.98281
0.025
0.021
86.3
159.2
133.5
170.8
0.806
0.879
1.422
1.407
2.364
2.235
0.233 25.31097
0.152 7.49588
0.446
0.125
77.9
331.1
283.7
13.2
0.016
0.033
1.998
2.406
3.169
2.246
0.185
0.136
2.67461
7.59833
0.029
0.12
178.2
261.7
124.9
92.3
0.734
0.089
1.288
2.44
2.855
2.235
0.045
0.12
1.80951
4.43229
0.037
0.082
277.8
70.5
217.8
176.5
0.903
0.129
2.033
2.495
3.019
3.021
0.073
9.3455
0.081 10.81762
0.174
0.176
315.6
168.3
326.7
150.8
0.959
0.933
1.785
1.757
2.18
2.251
0.135
0.144
5.07001
3.19513
0.098
0.069
156.1
244.5
193.5
252.1
0.008
0.098
2.478
2.432
3.017
2.349
0.052 10.45753
0.189 23.41922
0.176
0.413
354.6
155.9
19.8
102.4
1.023
0.138
1.851
2.114
2.395
2.184
0.212 20.54997
0.12 3.03248
0.411
0.064
135.1
197.4
216.7
258.1
0.116
0.065
2.004
2.529
2.24
2.185
0.131
0.122
5.36277
2.68527
0.084
0.059
5.8
352.9
84.9
258.5
0.109
0.063
2.466
2.524
1669 Dagmar
1674 Groenevel
1675 d
Simonida
2.19
3.14
0.13
0.15
4.61664
0.94905
0.07
0.026
252.7
194.6
83.5
319.3
0.049
0.828
2.502
1.429
3.187
2.233
0.139
0.149
2.67881
6.80303
0.025
0.113
106.3
100.6
93.9
24.6
0.898
0.045
1.412
2.421
1677 Tycho
1682 Brahe
Karel
2.532
2.239
0.063 14.82029
0.14 4.03188
0.263
0.075
259.6
333.7
335.6
315.8
0.493
0.091
2.296
2.449
1684 Iguassu
3.092
0.149
0.044
240
112
0.79
1.482
1565 Lemaitre
1568 Aisleen
1570 Brunonia
1573 Vaisala
1575 Winifred
1576 Fabiola
1602 Indiana
1604 Tombaugh
1605 Milankovit
1608 ch
Munoz
1615 Bardwell
1618 Dawn
1619 Ueta
1621 Druzhba
1622 Chacornac
1623 Vivian
1624 Rabe
1626 Sadeya
1631 Kopff
1633 Chimay
1634 Ndola
1635 Bohrmann
1636 Porter
1641 Tana
1649 Fabre
1651 Behrens
1652 Herge
1654 Bojeva
1657 Roemera
1660 Wood
1661 Granule
1663 Van den
1666 Bos
Van Gent
1667 Pels
3.66021
Gregorio Perichinsky
266
1686 De Sitter
1687 Glarona
1691 Oort
1696 Nurmela
1698 Christophe
1699 Honkasalo
1703 Barry
1704 Wachmann
1707 Chantal
1711 Sandrine
1713 Bancilhon
1717 Arlon
1720 Niels
1723 Klemola
1725 CrAO
1729 Beryl
1732 Heike
1733 Silke
3.163
0.148
0.62697
0.025
287.7
306.2
0.854
1.41
3.158
3.165
0.151
0.142
2.64173
1.05404
0.025
0.025
60.9
48.7
91.6
233.4
0.839
0.874
1.406
1.426
2.262
3.155
0.145
0.15
6.04318
1.52218
0.1
0.029
175.6
158.9
15.2
341.9
0.094
0.839
2.416
1.412
2.211
2.215
0.112
0.117
1.97285
4.5183
0.046
0.071
319
319.7
266
118.6
0.127
0.114
2.535
2.518
2.223
2.219
0.136
0.163
0.96795
4.04239
0.031
0.07
170.7
66.6
256.5
354.2
0.091
0.016
2.479
2.413
3.015
2.228
0.069 11.09417
0.136 3.74963
0.18
0.055
32.3
309.2
139.2
57.8
0.965
0.092
1.801
2.469
6.19631
0.72783
0.113
0.015
113.7
101.3
335.7
180.2
-0.084
0.062
2.366
2.516
3.013
2.903
0.077 10.92293
0.057 3.16647
0.179
0.037
168.4
334.2
155.4
131.4
0.939
0.913
1.778
1.953
2.23
3.012
0.092 2.44739
0.076 10.78776
0.038
0.177
240.6
0.7
353.5
161.5
0.197
0.943
2.57
1.784
2.193
0.136
0.081
124.4
168.7
0.034
2.482
2.195
2.188
0.18
0.13
4.4276
Gregorio Perichinsky
267
ANEXO II
REDES NEURONALES
Prefiero los errores del entusiasmo a la indiferencia de la sabidura.
Anatole France
CCLXVIII
268
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
ANEXO II
11.1. REDES NEURONALES
11.1.1. INTRODUCCIN
Como su propio nombre lo indica, la idea original de este tipo de computacin
era modelar el comportamiento de las autnticas redes de neuronas que tiene
el cerebro. Los modelos creados hasta ahora son modelos extremadamente
simplificados desde el punto de vista neurofisiolgico; lo que se busca
primordialmente no es ya imitar a las neuronas a las neuronas autnticas, sino
lograr una mquina de computacin formada por la interconexin de muchos
elementos simples de clculo que posea ciertas propiedades deseables que s
se encuentran en un cerebro real.
Tal vez la propiedad ms buscada y a su vez la que diferencia claramente a las
redes de neuronas de otro tipo de redes de caractersticas similares, como los
autmatas finitos, es la capacidad de aprender de la experiencia y de
generalizar a partir de ella. Casi todos los modelos creados de redes de
neuronas tienen estas capacidades que imitan el comportamiento de los seres
humanos. Es ms, esta imitacin tambin incorpora algunos defectos del modo
de aprendizaje humano, como es la memorizacin de los hechos (que impide
sacar conclusiones generales) o el olvido. Sin embargo, el paralelismo entre un
tipo de aprendizaje y otro terminar ah, en su comportamiento similar, ya que,
como se ver, los mecanismos de aprendizaje que se lleva a cabo en las redes
de neuronas artificiales son artificios matemticos demasiado complejos para
que se lleven a cabo en un cerebro.
La otra gran propiedad que comparten estos modelos de computacin es que
se comportan como una caja negra. Resuelven el problema en curso, pero no
es posible explicar fcilmente cmo lo hacen. Existen dos razones bsicas
para ello. La primera es que aunque los elementos que forman la red son
simples, al interconectar varios cientos o miles de ellos entre s lo que se tiene
es un sistema muy complejo de analizar. La segunda es que la <simplicidad>
de los elementos no es tal matemticamente hablando. Normalmente se
269
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
Gregorio Perichinsky
que los Perceptrones Multicapa pueden resolver casi cualquier tarea. El campo
se convierte en multidisciplinar, y todo el mundo aporta nuevas ideas:
ingenieros, matemticos, fsicos, psiclogos, bilogos, etc.
Actualmente el campo se encuentra todava en ebullicin, celebrndose
decenas de congresos sobre el tema. Existen muchas revistas cientficas
especializadas en el tema, con nombres como Neural Computation o Neural
Networks, y multitud de libros.
Gregorio Perichinsky
W i2
Wi3
272
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
xi =
N
j=1
wij xj + Ui)
(n) =
1 si n
0 si n < 0
Los pesos wij (1) representa la fuerza de la sinapsis que conecta la neurona j
con la i. La conexin puede ser positiva o negativa, emulando las sinapsis
excitadoras e inhibitorias, respectivamente. Si no hay sinapsis entre la neurona
i y la j, el peso de su conexin es 0. n es el nmero de neuronas que se
conectan a la neurona i. El parmetro ui representa el umbral o sesgo de la
neurona.
En resumen, la ecuacin anterior dice que si la suma de las entradas xj que
recibe la neurona j, ponderadas por los pesos wij supera el umbral, la neurona
se activar. En caso contrario, su activacin ser 0. Repasando la descripcin
de la transmisin de seales en neuronas que se ha realizado antes se puede
comprobar que este comportamiento es una muy buena aproximacin de lo
que ocurre en las neuronas reales.
A pesar de que el modelo es simple, la neurona de McCulloch-Pitts es un
poderoso dispositivo de computacin. McCulloch y Pitts probaron que un
conjunto
de
tales
neuronas,
conectndolas
debidamente
eligiendo
xi = f (
wij wj + Ui)
273
Gregorio Perichinsky
j=1
Gregorio Perichinsky
asignada a todas las tareas y debe guardar informacin sobre todas ellas a la
vez.
Otra propiedad y ventaja muy importante es el procesamiento masivamente
paralelo que se realiza. Las neuronas biolgicas tienen un ciclo de reloj tpico
en milisegundos, mientras que sus equivalentes en silicio, los chips, pueden
alcanzar velocidades de nanosegundos. Y sin embargo, el cerebro es capaz de
realizar
en
segundos
tareas
de
visin,
control,
etc,
que
ni
una
275
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
+1 si n
-1 si n < 0
276
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
Ii = U (
n
j=0
wij aj)
Y = U (X1 W 1 + X2 + W0)
U (a) =
+1 si a
-1 si a < 0
277
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
+1 si X2
Y=
-1 si X2
- ____ x X1 - W0
W2
W1
- _____ x X1 - W0
W2
Esta ecuacin nos dice que Y ser +1 si el valor de X2 es mayor que el valor de
la recta
f(x) = -
W1
_____
W
x x - W0
Gregorio Perichinsky
279
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
280
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
281
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
Una red de Hopfield es una red recurrente que se caracteriza por lo siguiente:
! "! #
$
"!
xi = U (
n
j=1
wij xj)
282
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
Modo sncrono
En el modo asncrono las neuronas calculan su activacin sin coordinarse unas
con otras. Es decir, cada una calcula su activacin <cuando quiere>. En la
prctica esto se reduce a ir seleccionando de una en una neuronas al azar e ir
actualizando su activacin. En esta seleccin pueden ocurrir repeticiones.
En el modo sncrono se supone que todas las neuronas calculan sus
activaciones a la vez. Realizar esto en una computadora secuencial requiere
mantener dos copias de las activaciones de las neuronas: una antes
desactualizarse y otra para almacenar sus nuevos valores.
Gregorio Perichinsky
aprendizaje slo saben hacer una sola cosa, ya que las redes donde se utiliza
este tipo de aprendizaje slo saben hacer una sola cosa, tareas de
clasificacin: dado un conjunto de patrones o datos, la red los agrupa en clases
siguiendo un determinado criterio. Este punto debe quedar muy claro, la red
clasifica a su manera y si el usuario no est de acuerdo con ella la nica
opcin que tiene es utilizar otro tipo de red. Las tareas de clasificacin abarcan
un gran espectro de problemas. Y los problemas a resolver pueden
considerarse como problemas de clasificacin si se los mira con el prisma
adecuado. Por ejemplo, en el ltimo punto del apartado anterior ya se vio cmo
una memoria asociativa poda resolver funciones lgicas. En el caso de los
clasificadores ocurre otro tanto.
284
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
285
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
286
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
287
ANEXO II. REDES NEURONALES
Gregorio Perichinsky
ANEXO III
CASOS DE USO:
BOTNICA
CCLXXXVIII
Gregorio Perichinsky
288
ANEXO III
12. CASO DE USO: BOTNICA.
Se realiza una clasificacin aplicando el Nuevo Criterio de la Tesis, a un
conjunto de familias en Botnica, para corroborar, la clasificacin realizada en
"Introduccin a la Teora y Prctica de la Taxonoma Numrica", gnero
Bulnesia y sus Especies (Zygophyllaceae) [Crisci, Lpez Armengol, 1983,
pgina 30], en base al mtodo SAHN y deduciendo criterios con fenogramas y
coinciden los clusters y familias, dando lugar a la primera contrastacin del
nuevo criterio [el autor].
12.1. ALGORITMIA
12.2. COMIENZA EL PROCEDIMIENTO
12.2.1. Clculo de promedio de los dominios
12.2.2. Clculo de similitudes euclideas
12.2.2. Clculo del vector de covariancia
12.3. ELEMENTOS DE LA MATRIZ DE DATOS
12.3.1. DOMINIOS DE DATOS
Cada OTU tiene 43 ATRIBUTOS y un identificador 1 .. 8:
Caracteres de los OTUs para asignar valor del dominio de los estados, segn su
codificacin.
Son 43 atributos:
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
Hbito
Longitud del internodio (en cm.)
Dimetro del internodio (en cm.)
Longitud de la hoja (en cm.)
Ancho de la hoja (en cm.)
Longitud del pecolulo (en cm.)
Nmero de fololos
Presencia pecilulos
Disposicin de los fololos en el caquis
Pubescencia
Longitud del fololo (en mm.)
Ancho del fololo (en mm.)
Nmero de nervaduras primarias del fololo
Posicin de los fololos terminales
Presencia de mucrn en fololos
Tipo de inflorescencia
Longitud del pednculo (en mm.)
Longitud del spalo (en mm.)
Ancho del spalo (en mm.)
Color de los ptalos
Gregorio Perichinsky
289
21.
22.
23.
24.
25.
26.
27.
28.
29.
30.
31.
32.
33.
34.
35.
36.
37.
38.
39.
40.
41.
42.
43.
B.arborea
B.carrapo
B.chilensis
B.bonariensis
B.retama
B.foliosa
B.schikendantzi
B.sarmientoi
Matriz de datos
1
B.arborea
17.2000
7.1000
3.4000
2.0000 22.4000
17.3000
16.0000
B.carrapo
Gregorio Perichinsky
290
2.0000
18.1000
6.4000
5.8000
2.0000 24.3000
18.5000
12.0000
B.chilensis
B.bonariensis
0.0000
20.4000
1.3000
25.9000
17.8000
1.0000
11.5000
6.8000
3.9000
2.0000
17.8000
10.2000
B.retama
B.foliosa
B.schikendantzi
0.0000
10.4000
1.5000
19.7000
11.6000
Gregorio Perichinsky
291
B.sarmientoi
2. B.carrapo
3. B.chilensis
4. B.bonariensis
5. B.retama
6. B.foliosa
1.84439
B.arborea
0.0000
B.arborea
0.6820
B.carrapo
Invariantes:
Distancia Media
Densidad
1.0000
2.00
Dispersion
Rango
1.0000
1.0000
B.carrapo
0.6820
B.arborea
0.0000
B.carrapo
Invariantes:
ANEXO III. CASO DE BOTNICA
Gregorio Perichinsky
292
Distancia Media
Densidad
1.0000
2.00
Dispersion
Rango
1.0000
1.0000
3
0.0000
B.chilensis
3
B.chilensis
Invariantes:
Distancia Media
Densidad
1.0000
1.00
Dispersion
Rango
0.0000
0.0000
4
0.0000
B.bonariensis i
4
B.bonariensis j
Invariantes:
Distancia Media
Densidad
1.0000
1.00
Dispersion
Rango
0.0000
0.0000
B.retama
0.0000
B.retama
0.9979
B.foliosa
5
j
j
5
6
Invariantes:
Distancia Media
Densidad
1.0000
2.00
Dispersion
Rango
1.0000
1.0000
B.foliosa
0.0000
B.foliosa
0.7346
B.schikendantzi j
Invariantes:
Distancia Media
Densidad
Dispersion
0.7346
2.00
0.0000
Gregorio Perichinsky
293
Rango
0.7346
7
B.schikendantzi i
0.7346
B.foliosa
0.0000
B.schikendantzi j
Invariantes:
Distancia Media
Densidad
1.0000
2.00
Dispersion
1.0000
Rango
1.0000
8
0.0000
B.sarmientoi
8
B.sarmientoi
Invariantes:
Distancia Media
Densidad
1.0000
1.00
Dispersion
Rango
0.0000
0.0000
12.3.4. TAXONES
1
B.arborea
0 1 0 0 0 0 0 0
B.carrapo
1 0 0 0 0 0 0 0
B.chilensis
0 0 1 0 0 0 0 0
B.bonariensis
0 0 0 1 0 0 0 0
B.retama
0 0 0
B.foliosa
0 0 0 0 0 0 1 0
B.schikendantzi 0 0 0 0 0 1 0 0
B.sarmientoi
0 0 1 0 0
0 0 0 0 0 0 0 1
12.3.5. FAMILIAS
1
B.arborea
B.chilensis
B.bonariensis
B.retama
B.sarmientoi
B.carrapo
B.foliosa
B.schikendantzi
Gregorio Perichinsky
294
12.3.6. CLUSTERING
1
B.arborea
0.0000
B.arborea
0.6820
B.carrapo
Invariantes:
Distancia Media
Densidad
Dispersion
Rango
2.00
1.0000
1.0000
2
0.0000
1.0000
B.carrapo
2
B.carrapo
Invariantes:
Distancia Media
Densidad
Dispersion
Rango
1.00
1.0000
1.0000
3
0.0000
1.0000
B.chilensis
3
B.chilensis
Invariantes:
Distancia Media
Densidad
Dispersion
Rango
1.00
0.0000
0.0000
4
0.0000
1.0000
B.bonariensis i
4
B.bonariensis j
Invariantes:
Distancia Media
Densidad
Dispersion
Rango
5
1.0000
1.00
0.0000
0.0000
B.retama
Gregorio Perichinsky
295
0.0000
B.retama
0.7346
B.foliosa
0.7346
B.schikendantzi j
6
7
Invariantes:
Distancia Media
Densidad
Dispersion
Rango
3.00
1.0000
1.0000
6
0.0000
1.0000
B.foliosa
6
B.foliosa
Invariantes:
Distancia Media
Densidad
Dispersion
Rango
1.00
0.0000
0.7346
7
0.0000
0.7346
B.schikendantzi i
7
B.schikendantzi j
Invariantes:
Distancia Media
Densidad
Dispersion
Rango
1.00
1.0000
1.0000
8
0.0000
1.0000
B.sarmientoi
8
B.sarmientoi
Invariantes:
Distancia Media
Densidad
Dispersion
Rango
1.0000
1.00
0.0000
0.0000
Gregorio Perichinsky
296
FAMILIA DE OTUs
2
1,8
1,6
1,4
1,2
Distancias
1
normalizadas
0,8
0,6
0,4
0,2
0
1
3
OTUs
familia4
familia2
Familias
Varianza
Varianza
familia1
familia2
familia3
familia4
familia5
Gregorio Perichinsky
297
BIBLIOGRAFA
ICCCVIII
BIBLIOGRAFIA
Gregorio Perichinsky
298
BIBLIOGRAFA
Abramson, N., Information Theory and Coding. McGraw Hill. Paraninfo.
Madrid. 1966.
Acedo, C.F., A Plastino y A. N. Proto. Journal of Mathematical Sociology, 1997.
Acedo, C.F., y A.N. Proto. Proceedings of the Neurap97, Neurtal Networks and
their applications. Maeseilles, March 12-14, 1997
Aho, A.V., Sethi, R., Ullman, J.D. Compiladores: Principios, Tcnicas y
Herramientas. Addison Wesley Iberoamericana. 1990.
Aldenderfer,
M., Blashfiel,
Publications. 1984.
Alhassid, Y. and R.D. Levine, J. Chem. Phys. 67, (1977) 4321.
Aliaga, J. and A.N. Proto. Phys. Lett. A142 (1989) 63
Aliaga, J, J.L. Gruver, and A.N. Proto Condensed matter Theories Vol 8, San
Juan, Pto. Rico L. Blum and B. Malik (Eds).1993 Plenum Press
Aliaga, J, G. Crespo, and A.N. Proto Phys. Rev. A August (1991)
Aliaga, J., G. Crespo and A.N. Proto. Phy. Rev. Lett.70 (1993) 434
Althusser, Louis. Pour Marx. Teora semntica. F. Maspero. Pars. Francia.
1965.
Ames, J.S., Some of the original articles by Fraunhofer and by Wollaston are
collected in book form under the title Prismatic and Diffraction
Spectra. Harper and Brothers. New York. 1898.
Anderberg, M. Cluster analysis for applicatios. New York: Academic Press.
1973.
Anderson, J. R. The place of cognitive architectures in a rational analysis.
Proceedings
of
the
Tenth
Annual
Cognitive
Science
1988.
BIBLIOGRAFIA
Gregorio Perichinsky
299
Ecological
and
intellectual
factors
in
BIBLIOGRAFIA
Gregorio Perichinsky
300
Gregorio Perichinsky
301
BIBLIOGRAFIA
Gregorio Perichinsky
302
Numrica",
Organizacin
de
los
Estados
BIBLIOGRAFIA
Gregorio Perichinsky
303
Date, C.J. Relational Database: Further Misconceptions #1. Info DB, spring,
1986.
Date, C.J. A SQL Standard. Addison Wesley. 1987.
Date, C.J. Where SQL Falls Short. Datamation pp 84-86. 1987.
Date, C.J. An Introduction to Datase Systems Vol. I. 5a Ed. Addison Wesley.
1990.
Date, C.J. Date on Databases On proceeding of the Codd & Date Relational
Database Symposium. Madrid. 1992.
David,
M.
Ishikawa
Fish
Bone
Diagram.
1998
Internet:
http://www.mansci.uwaterloo.ca/~msci432/Notes/F_Fish_bone.htm
Davis y Bonnell, Anlisis de subtipos. 1990
de Miguel, A., Piatttini, M. Concepcin y Diseo de Bases de Datos. Addison
Wesley. 1994.
de Miguel, A., Piatttini, M., Marcos, E. Diseo de Bases de Datos
Relacionales. Alfaomega - ra-ma. 2000.
Deum, Pierre, Ryle Gilbert y Einstein Albert, definieron las tesis de la Ciencia
emprica en el Crculo de Viena (ver Popper, K. 1985).
Deux, O., The Story of O2. IEEE Transaction on Knowledge and Data
Engineering 2(1), pp 91-108. 1990.
Domany, E., Hemmen, J. L., & Schulten, K. Model of Neural Networks.
Springer-Verlag. 1991.
Duda, R., Hart, P. Pattern classification and scene analysis. New York: John
Wiley and Sons. 1973.
Elmasri, R., Navathe, S. Fundamentals of Database Systems. The
Benjamin/Cummings Publishing Company. 1989.
Erickson, G. and Ray Smith, C. (Eds.). Maximum-Entropy and Bayesian
Methods. 1989.
Everitt, B. Unresolved problems in cluster analysis. Biometrics, 35, 169-181.
1979.
BIBLIOGRAFIA
Gregorio Perichinsky
304
Radiation
and
Heat.
Fondo
Educativo
Interamericano. pp. 25-2 ff, 28-6 ff, 29-1 ff, 37-4. 1971.
Fikes, R., Kehler,T., The role of frame-based representation on reasoning.
ACM 28(9) pp 904-920. 1985.
Filman R., Elrad, T., Clarke, S. y Aksit, M. Aspect-Oriented Software
Development. Addison Wesley, Boston. 2005.
Fisher, D. A hierarchical conceptual clustering algorithm (Technical Report
85-21).
Irvine:
University
of
California,
Department
of
Gregorio Perichinsky
305
Algorithm
for
Many-Valued
Attribute
Domains.
Gregorio Perichinsky
306
Gruver, J.L., J. Aliaga, H Cerdeira and A.N. Proto Phys.Lett..A 190 (1994) 363
c
Gruver, J.L., J. Aliaga, H. Cerdeira and A.N. Proto. Phys.Rev.E. 51 (1995) 6263
Hamming, R.W. Coding and information theory. Englewood Clifs, NJ: Prentice
Hall. 1980.
Hand, D.J. Discrimination and classification. New York: John Wiley & Sons.
1981.
Hanson,
S.J.,
Bauer,
M.
Conceptual
clustering,
categorization,
and
K.
Groups
of
Asteroids
Probably
Common
Origin.
The
BIBLIOGRAFIA
Gregorio Perichinsky
307
Hunt, E.B. Artificial Intelligence. New York: Academic Press, EE.UU. 1975.
IEEE Std.1471. Recommended Practice for Architectural Description of
Software-Intensive Systems. 2000.
Imre Lakatos. El falsacionismo sofisticado. Rodolfo Gaeta y Susana Lucero.
Editorial Universitaria de Buenos Aires. Argentina. 1999.
Isasi, P., Martnez, P., Borrajo, D. Lenguajes, Gramticas y Autmatas.
Addison Wesley Iberoamericana. 1997.
ISHIKAWA,
K.
Ishikawa
Diagram.
1969.
Internet:
http://imedia.vuse.vanderbilt.edu/mt322/library2/ishikawa.htm
ISO/IEC: FCD 9126-1. Information Technology - Software Engineering Product
Quality. Part 1: Quality Model. 2001.
Jacobson, I. Object Oriented Software Engineering. A Use Case Driven
Approach. Addison Wesley. 1992.
Jacobson I., Booch G y Rumbaugh J. El Lenguaje de Modelado Unificado.
Segunda Edicin. Madrid: Addison Wesley. 2000.
Jaynes, E.T., Phys. Rev 106 (1957) 620; 108 (1957)171.
Jaynes, E.T. Bayesian methods: General background. In J. H. Justice (Ed.),
Maximun entropy and Bayesian methods in applied statistics
(pp. 1-25). Cambridge, MA: Cambridge University Press. 1986.
Jimenez Rey, E.; Grossi, M., Fernandez, V. Review of Numerical Taxonomics
Methods, State of the art Technical Report. Computer Science
Department. School of Engineering. University of Buenos Aires.
1996.
Kant, Immanuel. Crtica de la razn pura. Editorial Losada. Buenos Aires.
Argentina. 1973.
Kim,
W.,
Lochovsky,F.,Objects
Oriented
Concepts.
Databases
and
BIBLIOGRAFIA
Gregorio Perichinsky
308
BIBLIOGRAFIA
Gregorio Perichinsky
309
J.
Organizacin
de
las
Bases
de
Datos,.
Prentice-Hall
R.S.,
Stepp,
R.
Learning
from
observation:
Conceptual
BIBLIOGRAFIA
Gregorio Perichinsky
310
Michalski, R.S.,
Stepp, R. Automated
construction of
classifications:
Sociedades:
perspectivas
evolucionistas
BIBLIOGRAFIA
Gregorio Perichinsky
311
11th.
International
Symposium
Computer
at
Bases.19th
Sessions
Operations
Research
and
Interdisciplinario
Diagnsticos
Perspectivas
BIBLIOGRAFIA
Gregorio Perichinsky
312
International
Association
of
Science
and
Gregorio Perichinsky
313
cuerpos
celestes.
familias
de
asteroides.
and
non-supervised
Database
and
intelligent
Taxonomy.
knowledge
Workshop
de
Nacionales
con
Carreras
de
Informtica.
Comparacin
de
Alternativas
de
Mejoramiento
de
del
VII
Congreso
Internacional
de
Ingeniera
Application
Gregorio Perichinsky
in
Celestial
Bodies.
Asteroids
314
Algoritmos
genticos
aplicados
la
categorizacin
BIBLIOGRAFIA
Gregorio Perichinsky
315
Plastino
Angel
Luis.
Taxonomic
Evidence
of
la
excelencia
acadmica.
Coloquio
en
Gestin
BIBLIOGRAFIA
Gregorio Perichinsky
316
Plastino
Angel
Luis.
Taxonomic
Evidence
of
BIBLIOGRAFIA
Gregorio Perichinsky
317
Quine, William van Orman. Theories and things. Cambridge. Harvard University
Press. USA. 1981.
Quinlan, J. Introduction of Decision Trees. Machine Learning. Vol.1. N 1. Pp.
81-106. 1986.
Quinlan, J.R., Cameron-Jones, R.M. Oversearching and Layered Search in
Empirical Learning. Basser Departament of Computer Science,
University of Science, Australia. 1995.
Quinlan, J.R. Generating Production Rules from Decision trees. Proceeding of
the
Tenth
International
Joint
Conference
on
Artificial
6,
pginas149-167.
San
Mateo,
CA:
Morgan
BIBLIOGRAFIA
Gregorio Perichinsky
318
J.R.
Learning
First-Order
Definitions
of
Functions.
Basser
BIBLIOGRAFIA
Gregorio Perichinsky
319
BIBLIOGRAFIA
Gregorio Perichinsky
320
distributions,
Belt
boundaries
and
Family
BIBLIOGRAFIA
Gregorio Perichinsky
321
Laboratory.
Palomar-Leiden
minor
planets.
by
Hierarchical
Clustering
and
Reliability
BIBLIOGRAFIA
Gregorio Perichinsky
322