Professional Documents
Culture Documents
ABSTRACT RESUMEN
This article describes a genetic algo- El presente artículo describe un algorit-
rithm and its implementation that it mo genético y su implementación, que
allows the alignment of multiple se- permite el alineamiento de múltiples
quences of amino acids by means of re- secuencias de aminoácidos mediante re-
locations that simulate the gaps inser- acomodaciones que simulan la inserción
tion (holes) and actions of recombina- de gaps (huecos) y acciones de recombi-
tion to obtain higher scores in the align- nación para obtener puntajes más altos
ment. Such scores are obtained by en el alineamiento. Tales puntajes se
means of the method of the sum of obtienen mediante el método de la suma
even, in which there are considered all de pares, en el cual se consideran todas
the possible combinations of amino ac- las posibles combinaciones de aminoáci-
ids in each column of the alignment dos en cada columna del alineamiento y
and they are qualified being based on se califican basándose en las puntuacio-
the punctuations of the matrix BLO- nes de la matriz BLOSUM62.
SUM62.
PALABRAS CLAVE
Bioinformática, Algoritmos Genéti-
KEY WORDS
cos, Genómica, Alineamiento de Múl-
Bioinformatics, Genetic Algorithms, tiples Secuencias.
Genomics, Multiple Sequence Align-
ment. Clasificación Colciencias: A
SISTEMAS
& TELEMÁTICA 53
1. INTRODUCCIÓN El alineamiento de múltiples secuen-
Desde el principio de los años noven- cias (AMS) de un conjunto de secuen-
ta muchas entidades gubernamenta- cias puede también ser visto como la
les y privadas han analizado el geno- historia evolutiva de las secuencias.
ma de varias especies, tales como le- Así, si las secuencias en el AMS se
vaduras, bacterias, ratones y otros se- alinean muy bien, parecería que han
res (incluyendo el humano). Durante sido recientemente derivadas de un
estos esfuerzos de colaboración se han ancestro común. En contraste, un
generado cantidades de información grupo de secuencias pobremente ali-
que se recogen y se almacenan en neadas comparten un relación evolu-
grandes bases de datos, la mayoría de tiva distante y compleja. La tarea de
las cuales son públicas y accesibles alinear un conjunto de secuencias,
desde cualquier parte del mundo. algunas más relacionadas que otras,
es idéntica a descubrir las relaciones
De la misma forma, cuando se va a evolutivas entre las secuencias.
introducir una nueva cadena de ami-
noácidos, se debe comparar primero Al igual que con el alineamiento de
la secuencia de componentes con to- pares de secuencias, la dificultad en
das las existentes, para poder clasifi- alinear un grupo de secuencias varía
carla. Sin embargo, el manejo de tal considerablemente con la similaridad
tipo de clasificación no se puede ha- de las secuencias. Por un lado, si la
cer a mano debido a la gran cantidad cantidad de variaciones en las secuen-
de información que se manipula y las cias es mínima, es relativamente sen-
complicadas formas de comparación cillo alinearlas, aun sin la asistencia
y asociación que se han creado a me- de un programa de computador. Por
dida que pasa el tiempo. Por tal mo- otro lado, si la cantidad de variacio-
tivo se han creado diversos progra- nes es grande, podría ser muy difícil
mas que facilitan esta tarea. encontrar un alineamiento óptimo de
las secuencias porque muchas combi-
Una de las importantes contribucio- naciones de sustituciones, inserciones
nes de la biología molecular al análi- y eliminaciones, cada una predicien-
sis evolutivo es el descubrimiento de do un alineamiento diferente, son po-
que las secuencias de ADN de dife- sibles.
rentes organismos se encuentran a
menudo relacionadas. Aquí, genes si- Para la construcción de los AMS exis-
milares son conservados a través de ten varios enfoques. El primero, en
diferentes especies divergentes, a el que se busca encontrar el alinea-
menudo desempeñando una función miento óptimo agotando todas las
similar o incluso idéntica, y en otras posibilidades existentes, pero si se
ocasiones queda reacomodándose tiene en cuenta el número de posibi-
para desempeñar una función altera- lidades del que se habla se puede in-
da a través de las fuerzas de la selec- tuir que no será aplicable a un nú-
ción natural. A través de alineamien- mero relativamente grande de cade-
to múltiple de estas secuencias, los nas. Es así como este enfoque se usa
patrones de secuencia que han sido como máximo en el alineamiento de
sujeto de alteración pueden ser ana- seis secuencias, las que a su vez de-
lizados. ben ser relativamente cortas. El se-
54 SISTEMAS
& TELEMÁTICA
gundo es el de los métodos progresi- con todas las secuencias. La selección
vos en los que se aplica el primer en- de los subgrupos se puede realizar
foque a las secuencias más relaciona- separando una o dos secuencias del
das y posteriormente se van agregan- resto, realizando un estudio del ár-
do poco a poco secuencias menos re- bol filogenético o ejecutando una se-
lacionadas al alineamiento. Dentro de lección aleatoria. Dentro de este en-
este segundo enfoque encontramos foque se encuentran algoritmos como
importantes representantes como MultAlin, DIALIGN, HMM (Hidden
Clustalw y Pileup. Este segundo en- Markov Models) y los Algoritmos Ge-
foque tiene un problema importante néticos, que son los que acaparan el
y es la dependencia del resultado de interés de este trabajo.1
los métodos en los primeros AMS de
las primeras secuencias junto con el 2. CONCEPTOS BÁSICOS
hecho de que a medida que se agre-
gan las secuencias menos relaciona- 2.1 Nucleótido
das, se pasa de un alineamiento par- Compuesto químico formado por la
cial con muy buenos parciales a un unión de una molécula de ácido fos-
AMS en el que en cada inserción pro- fórico, un azúcar de cinco átomos de
voca una propagación de errores en carbono y una base nitrogenada de-
todo el alineamiento. Un tercer enfo- rivada de la purina o la pirimidina.
que es el de los métodos iterativos en Los nucleótidos son las unidades
el que lo que se busca es lograr mejo- constituyentes de los ácidos nucleicos.
rar poco a poco el puntaje general del También se encuentran libres en las
alineamiento. Esto se logra reali- células y forman parte de ciertas
neando repetidamente subgrupos de coenzimas. La Tabla 1 muestra el có-
las secuencias y luego alineando esos digo usado para expresar las bases
subgrupos en un alineamiento global nucleótidas.3
SISTEMAS
& TELEMÁTICA 55
2.2 Aminoácidos Existen dos tipos de alineamientos:
Compuestos orgánicos que contienen • Global: El alineamiento global
un grupo amino (8NH2) y un grupo son las posibles coincidencias exis-
carboxilo (8COOH). Veinte de estos tentes a lo largo de toda la secuen-
compuestos son los constituyentes de cia del aminoácido o nucleótido.
las proteínas. La Tabla 2 presenta el Tratando siempre de encontrar el
código estándar usado para represen- mayor número de coincidencias
tar los aminoácidos.3 posibles (ver Figura 2).
2.3 Alineamiento de secuencias
Comparación lineal de secuencias • Local: Un alineamiento local se
aminoacídicas (o ácidos nucleicos) en hace en pequeñas fracciones de la
la que se introducen inserciones para cadena original en donde existen
hacer que posiciones equivalentes en regiones idénticas o de alta simi-
secuencias adyacentes se sitúen en el laridad. La prioridad dentro de
registro correcto. Los alineamientos este tipo de alineamiento es en-
son la base de los métodos de análi- contrar esas regiones locales an-
sis de secuencias. La Figura 1 mues- tes que encontrar coincidencias
tra un ejemplo de lo que es un ali- entre cadenas vecinas o pares de
neamiento con Gaps (Huecos).2 aminoácidos (ver Figura 3).
56 SISTEMAS
& TELEMÁTICA
Secuencia A A G C D E V I G
Secuencia B A G E Y C D I I G
Figura 1. Ejemplo de alineamiento con GAPS.
L G P S S K Q T G K G S - S R I W D N
L N - I T K S A G K G A I M R L G D A
Figura 2. Ejemplo de un alineamiento global.
- - - - - - - -T G K G - - - - - - - -
- - - - - - - -A G K G - - - - - - - -
Figura 3. Ejemplo de un alineamiento local.
SISTEMAS
& TELEMÁTICA 57
2.5. Algoritmos genéticos anterior, un algoritmo genético con-
Los algoritmos genéticos usan una siste en lo siguiente: hallar de qué
analogía directa con el comporta- parámetros depende el problema, co-
miento natural. Trabajan con una dificarlos en un cromosoma, definir
población de individuos, cada uno de la función de fitness y posteriormen-
los cuales representa una solución te aplicar los métodos de la evolución:
factible a un problema dado. A cada selección y reproducción sexual con
individuo se le asigna un valor o pun- intercambio de información y altera-
tuación (fitness), relacionado con la ciones que generan diversidad. Los
bondad de dicha solución. En la na- algoritmos genéticos están inspirados
turaleza esto equivaldría al grado de en la naturaleza, en la evolución de
efectividad de un organismo para las especies.4
competir por unos determinados re- Los algoritmos genéticos requieren
cursos. Cuanto mayor sea la adapta- que el conjunto se codifique en un cro-
ción de un individuo al problema, mosoma. Cada cromosoma tiene va-
mayor será la probabilidad de que el rios genes, que corresponden a sen-
mismo sea seleccionado para repro- dos parámetros del problema. Para
ducirse, cruzando (crossover) su ma- poder trabajar con estos genes en el
terial genético con otro individuo se- ordenador es necesario codificarlos en
leccionado de igual forma. Este cruce una cadena, es decir, una secuencia
producirá nuevos individuos, descen- de símbolos (números o letras) que
dientes de los anteriores, los cuales generalmente va a estar compuesta
comparten algunas de las caracterís- de 0s y 1s. Tras haber definido la co-
ticas de sus padres. Cuanto menor dificación de las variables el algorit-
sea la adaptación de un individuo mo genético procede de la siguiente
menor será la probabilidad de que sea forma:
seleccionado para la reproducción, y
por tanto de que su material genéti- 1. Evaluar la puntuación (fitness) de
co se propague en sucesivas genera- cada uno de los individuos.
ciones. De esta manera se produce 2. Permitir a cada uno de los indivi-
una nueva población de posibles so- duos reproducirse según su pun-
luciones, la cual reemplaza a la ante- tuación.
rior y verifica la interesante propie-
dad de que contiene una mayor pro- 3. Emparejar los individuos de la
porción de buenas características en nueva población, haciendo que
comparación con la población ante- intercambien material genético, y
rior. Así, a lo largo de las generacio- que alguno de los bits de un gen
nes las buenas características se pro- se vea alterado debido a una mu-
pagan a través de la población. Favo- tación espontánea.
reciendo el cruce de los individuos Cada uno de los pasos enunciados
mejor adaptados, se van explorando consiste en una actuación sobre las
las áreas más prometedoras del es- cadenas de bits, es decir, la aplicación
pacio de búsqueda. Si el algoritmo ge- de un operador a una cadena bina-
nético ha sido bien diseñado, la po- ria. Se les denominan, por razones
blación convergerá hacia una solución obvias, operadores genéticos, y hay
óptima del problema. Partiendo de lo tres principales: selección, crossover
58 SISTEMAS
& TELEMÁTICA
o recombinación y mutación; todos números, que tienen diferente
estos operadores serán explicados a consideración. Basta con que tal
continuación. fitness forme un orden parcial, es
decir, que se puedan comparar dos
Un algoritmo genético debe también
individuos y decir cuál de ellos es
definir una serie de parámetros que
mejor. Esto suele suceder cuando
se deben definir para su funciona-
se necesitan optimizar varios ob-
miento.
jetivos.
1. Tamaño de la población: Debe
ser suficiente para garantizar la Una vez evaluado el fitness se tiene
diversidad de las soluciones, y, que crear la nueva población tenien-
además, tiene que crecer más o do en cuenta que los buenos rasgos
menos con el número de bits del de los mejores se transmitan a esta.
cromosoma, aunque nadie ha Para ello hay que seleccionar una se-
aclarado cómo tiene que hacerlo. rie de individuos encargados de tan
Por supuesto, depende también ardua tarea. Y esta selección, y la con-
del ordenador en el que se esté siguiente reproducción, se pueden
ejecutando. hacer de tres formas principales:
SISTEMAS
& TELEMÁTICA 59
leta con N ranuras, tantas como 4. Proceso de crossover: Consiste
la población; de esta forma la dis- en el intercambio de material ge-
tribución estadística de descen- nético entre dos cromosomas (a
dientes en la nueva población es veces más, como el operador or-
más parecida a la real. gía.). El crossover es el principal
2. Rueda de ruleta: Se crea un pool operador genético, hasta el punto
genético formado por cromosomas que se puede decir que no es un
de la generación actual, en una algoritmo genético si no tiene cros-
cantidad proporcional a su fitness sover, y, sin embargo, puede serlo
(ver Figura 4). Si la proporción perfectamente sin mutación, se-
hace que un individuo domine la gún descubrió Holland. El teore-
población, se le aplica alguna ope- ma de los esquemas confía en él
ración de escalado. Dentro de este para hallar la mejor solución a un
pool se cogen parejas aleatorias de problema, combinando soluciones
cromosomas y se emparejan, sin parciales. Para aplicar el crosso-
importar incluso que sean del mis- ver, entrecruzamiento o recombi-
mo progenitor (para eso están nación, se escogen aleatoriamen-
otros operadores, como la muta- te dos miembros de la población.
ción). Hay otras variantes: por Esta selección puede emparejar
ejemplo, en la nueva generación incluso a dos descendientes de los
se puede incluir el mejor represen- mismos padres sin que ello repre-
tante de la generación actual. En sente en sí un problema, lo que se
este caso se denomina método eli- puede garantizar con este “inces-
tista. to” es la perpetuación de un indi-
3. Selección de torneo: Se escoge viduo con buena puntuación. Por
aleatoriamente un número T de otro lado, si esto sucede demasia-
individuos de la población, y el do a menudo, puede crear proble-
que tiene puntuación mayor se mas: toda la población puede apa-
reproduce, sustituyendo su des- recer dominada por los descen-
cendencia al que tiene menor pun- dientes de algún gen, que, ade-
tuación. más, puede tener caracteres no
Chromosome 1
Chromosome 2
Chromosome 3
Chromosome 4
60 SISTEMAS
& TELEMÁTICA
deseados. Lo anterior se suele de- petúen, y poco a poco vayan forman-
nominar en otros métodos de op- do una buena solución. El teorema de
timización como atranque en un los esquemas viene a decir que la can-
mínimo local, y es uno de los prin- tidad de buenos bloques se va incre-
cipales problemas con los que se mentando con el tiempo de ejecución
enfrentan los que aplican algorit- de un algoritmo genético, y es el re-
mos genéticos.5 sultado teórico más importante en
algoritmos genéticos.
En cuanto al teorema de los esque-
mas, se basa en la noción de bloques El intercambio genético se puede lle-
de construcción. Una buena solución var a cabo de muchas formas, pero
a un problema está constituida por hay dos grupos principales.6
unos buenos bloques. El crossover es 1. Crossover n-puntos: Los dos cromo-
el encargado de mezclar bloques bue- somas se cortan por n puntos, y el
nos que se encuentren en los diver- material genético situado entre
sos progenitores, y que serán los que ellos se intercambia. Lo más habi-
den a los mismos una buena puntua- tual es un crossover de un punto o
ción. La presión selectiva se encarga de dos puntos; en las figuras 5 y 6
de que sólo los buenos bloques se per- se ilustra este proceso.
Padres 1 0 1 0 0 0 1 1 1 0 0 0 1 1 0 1 0 0 1 0
Descendentes 1010 0 1 0 0 1 0 0 0 1 1 0 0 1 1 1 0
SISTEMAS
& TELEMÁTICA 61
2. Crossover uniforme: Se genera un se cambiará el bit (es decir, de 0 a 1
patrón aleatorio de 1s y 0s, y se ó de 1 a 0). Si no, se dejará como
intercambian los bits de los dos está. Dependiendo del número de
cromosomas que coincidan donde individuos que haya y del número
hay un 1 en el patrón. O bien, se de bits por individuo, puede resul-
genera un número aleatorio para tar que las mutaciones sean extre-
cada bit, y si supera una determi- madamente raras en una sola ge-
nada probabilidad se intercambia neración.
ese bit entre los dos cromosmas
(ver Figura 7). 2.6 Resumen de
un algoritmo genético
5. Mutación: En la Evolución, una
mutación es un suceso poco común A modo de resumen se enumerarán
que sucede aproximadamente en los pasos básicos necesarios para la
una de cada mil replicaciones, y implementación de un algoritmo ge-
aunque en la mayoría de los casos nético.
las mutaciones son letales, en ge- 1. Obtener la población inicial con la
neral contribuyen a la diversidad que se va a trabajar.
genética de la especie. En un algo-
2. Seleccionar los individuos que
ritmo genético tendrán el mismo
serán padres de la siguiente ge-
papel y la misma baja frecuencia.
neración. Para esto debe existir
Una vez establecida la frecuencia
una forma de establecer qué tan
de mutación, por ejemplo, uno por
buenos son los individuos y tam-
mil, se examina cada bit de cada
bién debe definirse una estrate-
cadena cuando se vaya a crear la
gia para escoger a estos indivi-
nueva criatura a partir de sus pa-
duos.
dres (normalmente se hace de for-
ma simultánea al crossover). Si un 3. Producir hijos a partir de los pa-
número generado aleatoriamente dres seleccionados mediante el
está por debajo de esa probabilidad, proceso de cruce.
Máscara de cruce 1 0 0 1 0 0 1
Padre 1 1 1 0 1 1 0 1
Descendiente 1 0 0 1 1 1 1
Padre 2 0 0 0 1 1 1 0
62 SISTEMAS
& TELEMÁTICA
4. Mutar a algunos de los individuos cias, muchos de los cuales simularían
hijos. cambios ocurridos en el proceso evo-
lutivo de la familia de proteínas. Aun-
5. Seleccionar los individuos entre que este algoritmo puede generar
padres e hijos que van a pasar a AMS para muchas secuencias, el pro-
la siguiente generación. grama es lento para más de veinte
6. Realizar los procesos 2 - 5 hasta cadenas. A continuación se explicarán
que se ha llegado al número de los pasos del algoritmo, que está ba-
sado en la propuesta expuesta en:1
generaciones deseadas, en donde
cada ejecución de estos pasos 1. Las secuencias son escritas en fi-
cuenta como una generación. las, como en una página, excepto
que ellas son acomodadas en ca-
3. APLICACIÓN DE LOS denas que miden un 25% más que
ALGORITMOS GENÉTICOS la longitud original de la secuen-
AL ALINEAMIENTO cia. La posición a partir de la que
DE MÚLTIPLES SECUENCIAS es plasmada la secuencia es alea-
toria y los espacios se llenan con
DE AMINOÁCIDOS
gaps (-) de modo que los extremos
La idea básica de este método es in- de las nuevas cadenas empaten.
tentar generar varios AMS mediante Normalmente se crea una pobla-
reacomodaciones que simulan la in- ción de 100 de estos alineamien-
serción de gaps (huecos) y acciones tos y lo que obtenemos son los 100
de recombinación durante la replica- primeros posibles alineamientos
ción para obtener puntajes más altos generados por el algoritmo. En las
para el AMS. Dada la forma en que figuras 8 y 9 podemos ver un ejem-
opera este algoritmo no se garantiza plo de cómo se parte de un grupo
que el resultado final sea el óptimo o de secuencias iniciales y se reali-
el más alto que se pueda alcanzar.1 za un proceso de reacomodación
en una tabla más grande.
El éxito del algoritmo genético pare-
ce radicar en los pasos que se toman 2. Cada alineamiento es calificado
en el reacomodamiento de las secuen- usando el método de la suma de
x x x x x x x x
y y y y y y y y
z z z z z z z z
- x x x x x x x x -
y y y y y y y y - -
- - z z z z z z z z
SISTEMAS
& TELEMÁTICA 63
pares (se tienen en cuenta todas manejar la inserción de gaps, en
las posibles combinaciones de nuestra versión del algoritmo la
aminoácidos en cada columna del inserción se hará de manera alea-
alineamiento) y tomando las pun- toria tanto en lo que respecta a la
tuaciones de la matriz Blosum. posición de la cadena como a la
longitud del gap. En las figuras
3. Se esogen los 50 mejores alinea-
10 y 11 se presenta un conjunto
mientos y pasan a la segunda ge-
de secuencias alineadas antes y
neración sin cambios, a continua-
después de la inserción de gaps en
ción se realiza un sorteo para de-
el alineamiento respectivamente.
terminar cuáles serán los 50 ali-
neamientos restantes, siguiendo 5. La fase de recombinación se lleva
un proceso similar a sacar cani- a cabo de la siguiente forma. A
cas de una bolsa y en el que mien- partir de la totalidad de alinea-
tras mayor sea la puntuación del mientos se seleccionan padres
AMS mayor es la probabilidad de usando el método de selección por
ser escogido. La segunda mitad torneo en el que son escogidos dos
pasará por la fase de mutación alineamientos al azar y el que ten-
que se explica a continuación. ga la mejor puntuación será uno
de los padres; el proceso se repite
4. En el proceso de mutación la se-
para obtener el segundo alinea-
cuencia no debe ser modificada en
miento padre.
las letras que la representan, por-
que de lo contrario no sería un ali- Aleatoriamente se genera un núme-
neamiento, pero sí son insertados ro que nos va a indicar el punto de
gaps y son reacomodadas las ca- corte del primer alineamiento, que es
denas en un intento de obtener el número del carácter por el que va-
mejores puntajes en el AMS. Aun- mos a realizar el primer corte, como
que existen varias maneras de se muestra en las figuras 12 y 13.
- x x x x x x x x -
y y y y y y y y - -
- - z z z z z z z z
- x x x - x x - x x x - -
y y y - y y - y y y - - -
- - z - - z z z - z z z z
64 SISTEMAS
& TELEMÁTICA
N=5
xx-xx-Axx-xxx -xxx-x-A-x-xx-xx
-xxx-x-A-x-xx-xx x-x-xx-Axx-x-x-x
x-x-xx-Axx-x-x-x xx-xx-Axx-xxx
x-xxx-A-x-xxxx x-xxx-x-A-xxxx
Figura 12. Padre 1. Figura 13. Padre 2.
A R N D C Q F F F T Q I L K S T
N D C Q D F F F T Q I K T
H I G A Q R P S T N D C Q E F F
Figura 14. Secuencias iniciales.
SISTEMAS
& TELEMÁTICA 65
2. Se calcula el 25% de la longitud tacta. Se pueden ver en la Figura
de la cadena más larga y eso nos 16 los alineamientos con mayor
da los espacios extras que se van número de coincidencias en este
a usar para mover las cadenas a caso,
un lado y al otro; en este caso la
4. A continuación la otra mitad de
holgura es de cuatro y a continua-
los alineamientos pasa por un pro-
ción se genera un número aleato-
ceso de mutación en el que para
rio entre 0 y 4 para cada cadena y
cada secuencia se escoge aleato-
eso determina el desplazamiento
riamente el número, el tamaño y
de la misma. Con los parámetros
la posición en la que va a ser in-
anteriores se generan cuatro po-
sertado cada uno de los gaps, te-
sibles alineamientos, estos son
niendo en cuenta, claro está, los
mostrados en la Figura 15.
parámetros introducidos al pro-
3. A continuación se saca el puntaje grama. La selección de esta se-
de cada alineamiento teniendo en gunda mitad se lleva a cabo así:
cuenta las calificaciones estable-
• Primero se establece un rango que
cidas en la matriz Blosum62; se
va de la menor a la mayor pun-
ordenan y se escoge la primera
tuación de entre todos los alinea-
mitad que corresponde a la de
mientos.
mejores calificaciones y pasa in-
- - A R N D C Q F F F T Q I L K S T - -
- - - N D C Q D F F F T Q I K T - - - -
- H I G A Q R P S T N D C Q E F F - - -
A R N D C Q F F F T Q I L K S T - - - -
- N D C Q D F F F T Q I K T - - - - - -
- - - H I G A Q R P S T N D C Q E F F -
- - - - A R N D C Q F F F T Q I L K S T
- - N D C Q D F F F T Q I K T - - - - -
- - - H I G A Q R P S T N D C Q E F F -
- A R N D C Q F F F T Q I L K S T - - -
N D C Q D F F F T Q I K T - - - - - - -
- H I G A Q R P S T N D C Q E F F - - -
Figura 15. Alineamientos inicales.
66 SISTEMAS
& TELEMÁTICA
- - A R N D C Q F F F T Q I L K S T - -
- - - N D C Q D F F F T Q I K T - - - -
- H I G A Q R P S T N D C Q E F F - - -
A R N D C Q F F F T Q I L K S T - - - -
- N D C Q D F F F T Q I K T - - - - - -
- - - H I G A Q R P S T N D C Q E F F -
Figura 16. Alineamientos con mayor puntuación.
A R N D - C Q F F F T Q I L K S T - - -
- N D C Q D F F - F T Q I K T - - - - -
- - - H I G A Q R P S T - N D C Q E F F
A R N D C Q F F F T - Q I L K S T - -
-
- D C Q D F - F F T Q I K T - - - - -
N
H I G A - Q R P S T N D C Q E F F - -
-
Figura 17. Alineamientos tras la inserción de gaps.
- - A R N D C Q F F F T Q I L K S T - -
- - - N D C Q D F F F T Q I K T - - - -
- H I G A Q R P S T N D C Q E F F - - -
- A R N D C Q F F F T - Q I L K S T - -
N - D C Q D F - F F T Q I K T - - - - -
- H I G A - Q R P S T N D C Q E F F - -
A R N D - C Q F F F T Q I L K S T - - -
- N D C Q D F F - F T Q I K T - - - - -
- - - H I G A Q R P S T - N D C Q E F F
- - - - A R N D C - Q F F F T Q I L K S T
- - N D - C Q D F F F T Q I K T - - - - -
- - - H I G A Q R P S T N D C Q E F F - -
Figura 18. Alineamientos seleccionados y reordenados.
SISTEMAS
& TELEMÁTICA 67
6. Ahora se realiza el proceso de re- la longitud de la cadena más cor-
producción basado en el método de ta, ese será el punto de corte. Para
torneo en el cual selecciono alea- el ejemplo el número será 5, esto
toriamente una pareja de alinea- indica no la posición sino el carác-
mientos; aquí el que tenga una ter por el que se realizará el corte
mejor calificación va a ser escogi- (ver Figura 20).
do como padre. Este proceso se
8. A continuación se intercambia la
repite n veces (donde n es el ta-
primera parte de la matriz supe-
maño de la población), ya que cada
rior con la segunda de la inferior
iteración va a asegurar obtener un
y viceversa y se obtiene algo como
alineamiento para agregar a la
lo que muestra la Figura 21 c.
nueva población. A continuación
se va a ver en detalle cómo es el 9. A continuación se escoge al hijo
proceso de reproducción. Para tal que tenga la mejor calificación y
propósito se va a trabajar con los es agregado a la nueva genera-
dos primeros alineamientos de la ción. El proceso se muestra en la
Figura 19. Figura 22
7. A partir de estos dos alineamien- 10. Cabe anotar que en el proceso de
tos se genera un número aleato- reproducción se eliminan las co-
rio dentro del rango de cero hasta lumnas llenas de gaps que se en-
68 SISTEMAS
& TELEMÁTICA
- - A R N D C Q F F F T Q I L K S T - -
- - - N D C Q D F F F T Q I K T - - - -
- H I G A Q R P S T N D C Q E F F - - -
a. Padre 1.
- A R N D C Q F F F T - Q I L K S T - -
N - D C Q D F - F F T Q I K T - - - - -
- H I G A - Q R P S T N D C Q E F F - -
b. Padre 2.
- - A R N D C Q F F F T - Q I L K S T
- - - N D C Q D F - F F T Q I K T - -
- H I G A Q R P S T N D C Q E F F - -
- A R N D C Q F F F T Q I L K S T -
N - D C Q D F F F T Q I K T - - - -
- H I G A - Q R P S T N D C Q E F F
Figura 21c. Hijo 1 e hijo 2. Las partes sombreadas corresponden al padre uno,
las otras al padre dos.
SISTEMAS
& TELEMÁTICA 69
cuentran al final de los alinea- tar que las secuencias aumenten de
mientos. Por otro lado, cuando se tamaño de manera exagerada por-
han generado el número de hijos que si no se toman tales precaucio-
suficientes para cumplir con el nes, puede suceder que todos los
total de la población, se retorna alineamientos estén llenos de se-
al paso tres para seguir con el pro- cuencias que son en un alto porcen-
cedimiento hasta completar el nú- taje gaps; y si este error se propa-
mero solicitado de generaciones. ga, el resultado del algoritmo pue-
Es importante anotar que para de ser muy pobre. Por último, es de
este ejemplo solo se está trabajan- vital importancia ejecutar este al-
do con tres secuencias cortas, una goritmo en una máquina relativa-
población de cuatro y tan solo dos mente robusta, especialmente en la
generaciones. La idea es que se medida en que aumentamos el nú-
trabaje con no más de 20 secuen- mero y la longitud de las cadenas
cias, con una población de 100 in- que vamos a alinear.
dividuos y 100 generaciones.
A lo largo de la elaboración de la
5. CONCLUSIONES aplicación se pudo observar una ca-
Tras haber realizado algunas prue- racterística propia de los algoritmos
bas con diversos grupos de secuen- genéticos y es la gran flexibilidad
cias, se evidenciaron varios aspec- que brindan. Aunque es cierto que
tos que hay que tener en cuenta en un principio lo que se busca es
para obtener buenos resultados con representar el problema en térmi-
este algoritmo. Dado que uno de los nos de cromosomas codificados que
problemas de los algoritmos gené- evidencian parte de la rigidez del
ticos en general es la existencia de modelo, a medida que se exploran
los máximos locales, puede ser ne- las opciones de desarrollo del algo-
cesario aplicar el algoritmo varias ritmo se ve claramente lo que se
veces sobre el mismo conjunto de se- quiere expresar. El hecho que el al-
cuencias y escoger entre los diferen- goritmo propuesto busque lograr
tes resultados el mejor. Por otro que toda la población de cromoso-
lado, es necesario jugar un poco con mas tenga puntajes altos o por el
los parámetros del algoritmo tales contrario el enfoque en el que se
como el número y longitud de gaps busca solamente un gran máximo va
que se pueden insertar en las se- más allá del simple significado ma-
cuencias mutadas y el tamaño de la temático. Lo que se tiene en frente
población. Esta variación en los pa- es un sistema que nos puede mos-
rámetros es muy importante porque trar diferentes soluciones a un pro-
no es lo mismo trabajar con secuen- blema y es ahí donde la capacidad
cias que son muy similares entre sí de interpretar esas propuestas pue-
a trabajar con secuencias amplia- de hacer la diferencia.
mente dispares.
Con las pruebas también se pudo 6. BIBLIOGRAFÍA
detectar que cuando se está reali- 1. Mount, David W. Bioinformatics:
zando la implementación del algo- sequence and genome analysis,
ritmo, es de vital importancia evi- Cold Spring Harbor, 2001.
70 SISTEMAS
& TELEMÁTICA
2. Lesk, Arthur M. Introduction to CURRÍCULO
bioinformatics, Oxford Universi- Luis Felipe Solanilla: Bachiller del
ty Press, 2002. Colegio Lacordaire. Estudiante
3. Attwood, Teresa K., Parry-Smith, de décimo semestre de Ingenie-
David J. Introducción a la bioin- ría de Sistemas de la Universi-
formática, Prentice Hall, 2002, dad ICESI. Trabajó como moni-
Madrid. tor durante cuatro años en el
grupo Help Desk de la Univer-
4. Goldberg, D. E. Genetic algori-
sidad ICESI.
thms in search, optimization, and
machine learning. Reading, MA: Luis Eduardo Múnera: Matemáti-
Addison-Wesley. 1989. co de la Universidad del Valle.
5. http://geneura.ugr.es/~jmerelo/ie/ Máster y Doctor en Informática
ags.htm de la Universidad Politécnica de
Madrid. Docente-Investigador
6. http://www.sc.ehu.es/isg/ de la Universidad ICESI.
SISTEMAS
& TELEMÁTICA 71