You are on page 1of 19

Alineamiento de múltiples secuencias

de aminoácidos usando algoritmos


genéticos

Luis Felipe Solanilla


solanilla@caliescali.com

Carlos Arturo Gómez Teshima


Teshima82@ yahoo.com

Luis Eduardo Múnera


lemunera@ icesi.edu.co

Fecha de recepción: 15-12-2004 Fecha de aceptación: 01-04-2005

ABSTRACT RESUMEN
This article describes a genetic algo- El presente artículo describe un algorit-
rithm and its implementation that it mo genético y su implementación, que
allows the alignment of multiple se- permite el alineamiento de múltiples
quences of amino acids by means of re- secuencias de aminoácidos mediante re-
locations that simulate the gaps inser- acomodaciones que simulan la inserción
tion (holes) and actions of recombina- de gaps (huecos) y acciones de recombi-
tion to obtain higher scores in the align- nación para obtener puntajes más altos
ment. Such scores are obtained by en el alineamiento. Tales puntajes se
means of the method of the sum of obtienen mediante el método de la suma
even, in which there are considered all de pares, en el cual se consideran todas
the possible combinations of amino ac- las posibles combinaciones de aminoáci-
ids in each column of the alignment dos en cada columna del alineamiento y
and they are qualified being based on se califican basándose en las puntuacio-
the punctuations of the matrix BLO- nes de la matriz BLOSUM62.
SUM62.
PALABRAS CLAVE
Bioinformática, Algoritmos Genéti-
KEY WORDS
cos, Genómica, Alineamiento de Múl-
Bioinformatics, Genetic Algorithms, tiples Secuencias.
Genomics, Multiple Sequence Align-
ment. Clasificación Colciencias: A

SISTEMAS
& TELEMÁTICA 53
1. INTRODUCCIÓN El alineamiento de múltiples secuen-
Desde el principio de los años noven- cias (AMS) de un conjunto de secuen-
ta muchas entidades gubernamenta- cias puede también ser visto como la
les y privadas han analizado el geno- historia evolutiva de las secuencias.
ma de varias especies, tales como le- Así, si las secuencias en el AMS se
vaduras, bacterias, ratones y otros se- alinean muy bien, parecería que han
res (incluyendo el humano). Durante sido recientemente derivadas de un
estos esfuerzos de colaboración se han ancestro común. En contraste, un
generado cantidades de información grupo de secuencias pobremente ali-
que se recogen y se almacenan en neadas comparten un relación evolu-
grandes bases de datos, la mayoría de tiva distante y compleja. La tarea de
las cuales son públicas y accesibles alinear un conjunto de secuencias,
desde cualquier parte del mundo. algunas más relacionadas que otras,
es idéntica a descubrir las relaciones
De la misma forma, cuando se va a evolutivas entre las secuencias.
introducir una nueva cadena de ami-
noácidos, se debe comparar primero Al igual que con el alineamiento de
la secuencia de componentes con to- pares de secuencias, la dificultad en
das las existentes, para poder clasifi- alinear un grupo de secuencias varía
carla. Sin embargo, el manejo de tal considerablemente con la similaridad
tipo de clasificación no se puede ha- de las secuencias. Por un lado, si la
cer a mano debido a la gran cantidad cantidad de variaciones en las secuen-
de información que se manipula y las cias es mínima, es relativamente sen-
complicadas formas de comparación cillo alinearlas, aun sin la asistencia
y asociación que se han creado a me- de un programa de computador. Por
dida que pasa el tiempo. Por tal mo- otro lado, si la cantidad de variacio-
tivo se han creado diversos progra- nes es grande, podría ser muy difícil
mas que facilitan esta tarea. encontrar un alineamiento óptimo de
las secuencias porque muchas combi-
Una de las importantes contribucio- naciones de sustituciones, inserciones
nes de la biología molecular al análi- y eliminaciones, cada una predicien-
sis evolutivo es el descubrimiento de do un alineamiento diferente, son po-
que las secuencias de ADN de dife- sibles.
rentes organismos se encuentran a
menudo relacionadas. Aquí, genes si- Para la construcción de los AMS exis-
milares son conservados a través de ten varios enfoques. El primero, en
diferentes especies divergentes, a el que se busca encontrar el alinea-
menudo desempeñando una función miento óptimo agotando todas las
similar o incluso idéntica, y en otras posibilidades existentes, pero si se
ocasiones queda reacomodándose tiene en cuenta el número de posibi-
para desempeñar una función altera- lidades del que se habla se puede in-
da a través de las fuerzas de la selec- tuir que no será aplicable a un nú-
ción natural. A través de alineamien- mero relativamente grande de cade-
to múltiple de estas secuencias, los nas. Es así como este enfoque se usa
patrones de secuencia que han sido como máximo en el alineamiento de
sujeto de alteración pueden ser ana- seis secuencias, las que a su vez de-
lizados. ben ser relativamente cortas. El se-

54 SISTEMAS
& TELEMÁTICA
gundo es el de los métodos progresi- con todas las secuencias. La selección
vos en los que se aplica el primer en- de los subgrupos se puede realizar
foque a las secuencias más relaciona- separando una o dos secuencias del
das y posteriormente se van agregan- resto, realizando un estudio del ár-
do poco a poco secuencias menos re- bol filogenético o ejecutando una se-
lacionadas al alineamiento. Dentro de lección aleatoria. Dentro de este en-
este segundo enfoque encontramos foque se encuentran algoritmos como
importantes representantes como MultAlin, DIALIGN, HMM (Hidden
Clustalw y Pileup. Este segundo en- Markov Models) y los Algoritmos Ge-
foque tiene un problema importante néticos, que son los que acaparan el
y es la dependencia del resultado de interés de este trabajo.1
los métodos en los primeros AMS de
las primeras secuencias junto con el 2. CONCEPTOS BÁSICOS
hecho de que a medida que se agre-
gan las secuencias menos relaciona- 2.1 Nucleótido
das, se pasa de un alineamiento par- Compuesto químico formado por la
cial con muy buenos parciales a un unión de una molécula de ácido fos-
AMS en el que en cada inserción pro- fórico, un azúcar de cinco átomos de
voca una propagación de errores en carbono y una base nitrogenada de-
todo el alineamiento. Un tercer enfo- rivada de la purina o la pirimidina.
que es el de los métodos iterativos en Los nucleótidos son las unidades
el que lo que se busca es lograr mejo- constituyentes de los ácidos nucleicos.
rar poco a poco el puntaje general del También se encuentran libres en las
alineamiento. Esto se logra reali- células y forman parte de ciertas
neando repetidamente subgrupos de coenzimas. La Tabla 1 muestra el có-
las secuencias y luego alineando esos digo usado para expresar las bases
subgrupos en un alineamiento global nucleótidas.3

Tabla 1. Código de bases nucleótidas.


Símbolo Significado Explicación
G G Guanina
A A Adenina
T T Tiamina
C C Citosina
R AoG Purina
Y CoT Pirimidina
M AoC Amino
K GoT Keto
S CoG Interacción fuerte
W AoT Interacción débil
H A, C o T H sigue a G en el alfabeto
B C, G o T B sigue a A en el alfabeto
V A, C o G no T (no U) V sigue a U en el alfabeto
D A, G o T no C D sigue a C en el alfabeto
N A, C, G o T Cualquier base

SISTEMAS
& TELEMÁTICA 55
2.2 Aminoácidos Existen dos tipos de alineamientos:
Compuestos orgánicos que contienen • Global: El alineamiento global
un grupo amino (8NH2) y un grupo son las posibles coincidencias exis-
carboxilo (8COOH). Veinte de estos tentes a lo largo de toda la secuen-
compuestos son los constituyentes de cia del aminoácido o nucleótido.
las proteínas. La Tabla 2 presenta el Tratando siempre de encontrar el
código estándar usado para represen- mayor número de coincidencias
tar los aminoácidos.3 posibles (ver Figura 2).
2.3 Alineamiento de secuencias
Comparación lineal de secuencias • Local: Un alineamiento local se
aminoacídicas (o ácidos nucleicos) en hace en pequeñas fracciones de la
la que se introducen inserciones para cadena original en donde existen
hacer que posiciones equivalentes en regiones idénticas o de alta simi-
secuencias adyacentes se sitúen en el laridad. La prioridad dentro de
registro correcto. Los alineamientos este tipo de alineamiento es en-
son la base de los métodos de análi- contrar esas regiones locales an-
sis de secuencias. La Figura 1 mues- tes que encontrar coincidencias
tra un ejemplo de lo que es un ali- entre cadenas vecinas o pares de
neamiento con Gaps (Huecos).2 aminoácidos (ver Figura 3).

Tabla 2. Código estándar de aminoácidos.

Código de 1 letra Código de letras Aminoácido


A Ala Alanina
C Cys Cysteína
D Asp Ácido aspártico
E Glu Ácido glutámico
F Phe Phenylalanina
G Gly Glicina
H His Histidina
I Ile Isoleucina
K Lys Lysina
L Leu Leucina
M Met Methionina
N Asn Asparagina
P Pro Prolina
Q Gln Glutamina
R Arg Arginina
S Ser Serina
T Thr Threonina
V Val Valina
W Trp Tryptophan
X Xxx Aminoácido no determinado
Y Tyr Tyrosina
Z Glx Glutamina u otro glutámico

56 SISTEMAS
& TELEMÁTICA
Secuencia A A G C D E V I G
Secuencia B A G E Y C D I I G
Figura 1. Ejemplo de alineamiento con GAPS.

L G P S S K Q T G K G S - S R I W D N

L N - I T K S A G K G A I M R L G D A
Figura 2. Ejemplo de un alineamiento global.

- - - - - - - -T G K G - - - - - - - -

- - - - - - - -A G K G - - - - - - - -
Figura 3. Ejemplo de un alineamiento local.

2.4 Puntuación del alineamiento ques fueron localizados en una base


Los valores matriciales (Tabla 3) se de datos de secuencias de proteínas
basan en las sustituciones de aminoá- que representaban más de 500 fami-
cido observadas en un gran conjunto lias de proteínas relacionadas y que
de aproximadamente 2.000 bloques actuaban como identificadores de
(patrones de aminoácido). Estos blo- esas familias.1

Tabla 3. Matriz Blosum62.

SISTEMAS
& TELEMÁTICA 57
2.5. Algoritmos genéticos anterior, un algoritmo genético con-
Los algoritmos genéticos usan una siste en lo siguiente: hallar de qué
analogía directa con el comporta- parámetros depende el problema, co-
miento natural. Trabajan con una dificarlos en un cromosoma, definir
población de individuos, cada uno de la función de fitness y posteriormen-
los cuales representa una solución te aplicar los métodos de la evolución:
factible a un problema dado. A cada selección y reproducción sexual con
individuo se le asigna un valor o pun- intercambio de información y altera-
tuación (fitness), relacionado con la ciones que generan diversidad. Los
bondad de dicha solución. En la na- algoritmos genéticos están inspirados
turaleza esto equivaldría al grado de en la naturaleza, en la evolución de
efectividad de un organismo para las especies.4
competir por unos determinados re- Los algoritmos genéticos requieren
cursos. Cuanto mayor sea la adapta- que el conjunto se codifique en un cro-
ción de un individuo al problema, mosoma. Cada cromosoma tiene va-
mayor será la probabilidad de que el rios genes, que corresponden a sen-
mismo sea seleccionado para repro- dos parámetros del problema. Para
ducirse, cruzando (crossover) su ma- poder trabajar con estos genes en el
terial genético con otro individuo se- ordenador es necesario codificarlos en
leccionado de igual forma. Este cruce una cadena, es decir, una secuencia
producirá nuevos individuos, descen- de símbolos (números o letras) que
dientes de los anteriores, los cuales generalmente va a estar compuesta
comparten algunas de las caracterís- de 0s y 1s. Tras haber definido la co-
ticas de sus padres. Cuanto menor dificación de las variables el algorit-
sea la adaptación de un individuo mo genético procede de la siguiente
menor será la probabilidad de que sea forma:
seleccionado para la reproducción, y
por tanto de que su material genéti- 1. Evaluar la puntuación (fitness) de
co se propague en sucesivas genera- cada uno de los individuos.
ciones. De esta manera se produce 2. Permitir a cada uno de los indivi-
una nueva población de posibles so- duos reproducirse según su pun-
luciones, la cual reemplaza a la ante- tuación.
rior y verifica la interesante propie-
dad de que contiene una mayor pro- 3. Emparejar los individuos de la
porción de buenas características en nueva población, haciendo que
comparación con la población ante- intercambien material genético, y
rior. Así, a lo largo de las generacio- que alguno de los bits de un gen
nes las buenas características se pro- se vea alterado debido a una mu-
pagan a través de la población. Favo- tación espontánea.
reciendo el cruce de los individuos Cada uno de los pasos enunciados
mejor adaptados, se van explorando consiste en una actuación sobre las
las áreas más prometedoras del es- cadenas de bits, es decir, la aplicación
pacio de búsqueda. Si el algoritmo ge- de un operador a una cadena bina-
nético ha sido bien diseñado, la po- ria. Se les denominan, por razones
blación convergerá hacia una solución obvias, operadores genéticos, y hay
óptima del problema. Partiendo de lo tres principales: selección, crossover

58 SISTEMAS
& TELEMÁTICA
o recombinación y mutación; todos números, que tienen diferente
estos operadores serán explicados a consideración. Basta con que tal
continuación. fitness forme un orden parcial, es
decir, que se puedan comparar dos
Un algoritmo genético debe también
individuos y decir cuál de ellos es
definir una serie de parámetros que
mejor. Esto suele suceder cuando
se deben definir para su funciona-
se necesitan optimizar varios ob-
miento.
jetivos.
1. Tamaño de la población: Debe
ser suficiente para garantizar la Una vez evaluado el fitness se tiene
diversidad de las soluciones, y, que crear la nueva población tenien-
además, tiene que crecer más o do en cuenta que los buenos rasgos
menos con el número de bits del de los mejores se transmitan a esta.
cromosoma, aunque nadie ha Para ello hay que seleccionar una se-
aclarado cómo tiene que hacerlo. rie de individuos encargados de tan
Por supuesto, depende también ardua tarea. Y esta selección, y la con-
del ordenador en el que se esté siguiente reproducción, se pueden
ejecutando. hacer de tres formas principales:

2. Condición de terminación: Lo 1. Basado en el rango: En este es-


más habitual es que la condición quema se mantiene un porcenta-
de terminación sea la convergen- je de la población, generalmente
cia del algoritmo genético o un nú- la mayoría, para la siguiente ge-
mero prefijado de generaciones. neración. Se coloca toda la pobla-
ción por orden de fitness, y los M
3. Evaluación y selección: Duran- menos dignos son eliminados y
te la evaluación se decodifica el sustituidos por la descendencia de
gen, convirtiéndose en una serie alguno de los M mejores con al-
de parámetros de un problema, se
gún otro individuo de la población.
halla la solución del problema a
A este esquema se le pueden apli-
partir de esos parámetros, y se le
car otros criterios; por ejemplo, se
da una puntuación a esa solución
crea la descendencia de uno de los
en función de lo cerca que esté de
paladines/amazonas, y esta sus-
la mejor solución. A esta puntua-
tituye al más parecido entre los
ción se le llama fitness. El fitness
determina siempre los cromoso- perdedores. Esto se denomina
mas que se van a reproducir, y crowding, y fue introducido por
aquellos que se van a eliminar, DeJong. También es posible que
pero hay varias formas de consi- cuando nazca una nueva criatura
derarlo para seleccionar la pobla- se seleccionen k individuos de la
ción de la siguiente generación: población, y se elimina al más
parecido a la nueva criatura. Una
a. Usar el orden, o rango, y hacer variante de éste es el muestreado
depender la probabilidad de per- estocástico universal, que trata de
manencia o evaluación de la posi- evitar que los individuos con más
ción en el orden. fitness copen la población; en vez
b. En algunos casos, el fitness no es de dar la vuelta a una ruleta con
una sola cantidad, sino diversos una ranura, da la vuelta a la ru-

SISTEMAS
& TELEMÁTICA 59
leta con N ranuras, tantas como 4. Proceso de crossover: Consiste
la población; de esta forma la dis- en el intercambio de material ge-
tribución estadística de descen- nético entre dos cromosomas (a
dientes en la nueva población es veces más, como el operador or-
más parecida a la real. gía.). El crossover es el principal
2. Rueda de ruleta: Se crea un pool operador genético, hasta el punto
genético formado por cromosomas que se puede decir que no es un
de la generación actual, en una algoritmo genético si no tiene cros-
cantidad proporcional a su fitness sover, y, sin embargo, puede serlo
(ver Figura 4). Si la proporción perfectamente sin mutación, se-
hace que un individuo domine la gún descubrió Holland. El teore-
población, se le aplica alguna ope- ma de los esquemas confía en él
ración de escalado. Dentro de este para hallar la mejor solución a un
pool se cogen parejas aleatorias de problema, combinando soluciones
cromosomas y se emparejan, sin parciales. Para aplicar el crosso-
importar incluso que sean del mis- ver, entrecruzamiento o recombi-
mo progenitor (para eso están nación, se escogen aleatoriamen-
otros operadores, como la muta- te dos miembros de la población.
ción). Hay otras variantes: por Esta selección puede emparejar
ejemplo, en la nueva generación incluso a dos descendientes de los
se puede incluir el mejor represen- mismos padres sin que ello repre-
tante de la generación actual. En sente en sí un problema, lo que se
este caso se denomina método eli- puede garantizar con este “inces-
tista. to” es la perpetuación de un indi-
3. Selección de torneo: Se escoge viduo con buena puntuación. Por
aleatoriamente un número T de otro lado, si esto sucede demasia-
individuos de la población, y el do a menudo, puede crear proble-
que tiene puntuación mayor se mas: toda la población puede apa-
reproduce, sustituyendo su des- recer dominada por los descen-
cendencia al que tiene menor pun- dientes de algún gen, que, ade-
tuación. más, puede tener caracteres no

Probabilidad de ser escogido para la reproduccion

Chromosome 1
Chromosome 2
Chromosome 3
Chromosome 4

Figura 4 Probabilidad de cada cromosoma de ser escogido para la siguiente ge-


neración.

60 SISTEMAS
& TELEMÁTICA
deseados. Lo anterior se suele de- petúen, y poco a poco vayan forman-
nominar en otros métodos de op- do una buena solución. El teorema de
timización como atranque en un los esquemas viene a decir que la can-
mínimo local, y es uno de los prin- tidad de buenos bloques se va incre-
cipales problemas con los que se mentando con el tiempo de ejecución
enfrentan los que aplican algorit- de un algoritmo genético, y es el re-
mos genéticos.5 sultado teórico más importante en
algoritmos genéticos.
En cuanto al teorema de los esque-
mas, se basa en la noción de bloques El intercambio genético se puede lle-
de construcción. Una buena solución var a cabo de muchas formas, pero
a un problema está constituida por hay dos grupos principales.6
unos buenos bloques. El crossover es 1. Crossover n-puntos: Los dos cromo-
el encargado de mezclar bloques bue- somas se cortan por n puntos, y el
nos que se encuentren en los diver- material genético situado entre
sos progenitores, y que serán los que ellos se intercambia. Lo más habi-
den a los mismos una buena puntua- tual es un crossover de un punto o
ción. La presión selectiva se encarga de dos puntos; en las figuras 5 y 6
de que sólo los buenos bloques se per- se ilustra este proceso.

Punto de cruce Punto de cruce

Padres 1 0 1 0 0 0 1 1 1 0 0 0 1 1 0 1 0 0 1 0

Descendentes 1010 0 1 0 0 1 0 0 0 1 1 0 0 1 1 1 0

Operador de cruce basado en un punto


Figura 5. Ejemplo de cruce basado en punto.

1010 001 110 0011 010 010

Padres 1010 001 110 0011 010 010


0

Descendentes 1010 010 110 0011 001 010

Figura 6. Ejemplo de cruce basado en dos puntos.

SISTEMAS
& TELEMÁTICA 61
2. Crossover uniforme: Se genera un se cambiará el bit (es decir, de 0 a 1
patrón aleatorio de 1s y 0s, y se ó de 1 a 0). Si no, se dejará como
intercambian los bits de los dos está. Dependiendo del número de
cromosomas que coincidan donde individuos que haya y del número
hay un 1 en el patrón. O bien, se de bits por individuo, puede resul-
genera un número aleatorio para tar que las mutaciones sean extre-
cada bit, y si supera una determi- madamente raras en una sola ge-
nada probabilidad se intercambia neración.
ese bit entre los dos cromosmas
(ver Figura 7). 2.6 Resumen de
un algoritmo genético
5. Mutación: En la Evolución, una
mutación es un suceso poco común A modo de resumen se enumerarán
que sucede aproximadamente en los pasos básicos necesarios para la
una de cada mil replicaciones, y implementación de un algoritmo ge-
aunque en la mayoría de los casos nético.
las mutaciones son letales, en ge- 1. Obtener la población inicial con la
neral contribuyen a la diversidad que se va a trabajar.
genética de la especie. En un algo-
2. Seleccionar los individuos que
ritmo genético tendrán el mismo
serán padres de la siguiente ge-
papel y la misma baja frecuencia.
neración. Para esto debe existir
Una vez establecida la frecuencia
una forma de establecer qué tan
de mutación, por ejemplo, uno por
buenos son los individuos y tam-
mil, se examina cada bit de cada
bién debe definirse una estrate-
cadena cuando se vaya a crear la
gia para escoger a estos indivi-
nueva criatura a partir de sus pa-
duos.
dres (normalmente se hace de for-
ma simultánea al crossover). Si un 3. Producir hijos a partir de los pa-
número generado aleatoriamente dres seleccionados mediante el
está por debajo de esa probabilidad, proceso de cruce.

Máscara de cruce 1 0 0 1 0 0 1

Padre 1 1 1 0 1 1 0 1

Descendiente 1 0 0 1 1 1 1

Padre 2 0 0 0 1 1 1 0

Figura 7. Ejemplo de crossover uniforme.

62 SISTEMAS
& TELEMÁTICA
4. Mutar a algunos de los individuos cias, muchos de los cuales simularían
hijos. cambios ocurridos en el proceso evo-
lutivo de la familia de proteínas. Aun-
5. Seleccionar los individuos entre que este algoritmo puede generar
padres e hijos que van a pasar a AMS para muchas secuencias, el pro-
la siguiente generación. grama es lento para más de veinte
6. Realizar los procesos 2 - 5 hasta cadenas. A continuación se explicarán
que se ha llegado al número de los pasos del algoritmo, que está ba-
sado en la propuesta expuesta en:1
generaciones deseadas, en donde
cada ejecución de estos pasos 1. Las secuencias son escritas en fi-
cuenta como una generación. las, como en una página, excepto
que ellas son acomodadas en ca-
3. APLICACIÓN DE LOS denas que miden un 25% más que
ALGORITMOS GENÉTICOS la longitud original de la secuen-
AL ALINEAMIENTO cia. La posición a partir de la que
DE MÚLTIPLES SECUENCIAS es plasmada la secuencia es alea-
toria y los espacios se llenan con
DE AMINOÁCIDOS
gaps (-) de modo que los extremos
La idea básica de este método es in- de las nuevas cadenas empaten.
tentar generar varios AMS mediante Normalmente se crea una pobla-
reacomodaciones que simulan la in- ción de 100 de estos alineamien-
serción de gaps (huecos) y acciones tos y lo que obtenemos son los 100
de recombinación durante la replica- primeros posibles alineamientos
ción para obtener puntajes más altos generados por el algoritmo. En las
para el AMS. Dada la forma en que figuras 8 y 9 podemos ver un ejem-
opera este algoritmo no se garantiza plo de cómo se parte de un grupo
que el resultado final sea el óptimo o de secuencias iniciales y se reali-
el más alto que se pueda alcanzar.1 za un proceso de reacomodación
en una tabla más grande.
El éxito del algoritmo genético pare-
ce radicar en los pasos que se toman 2. Cada alineamiento es calificado
en el reacomodamiento de las secuen- usando el método de la suma de

x x x x x x x x
y y y y y y y y
z z z z z z z z

Figura 8. Secuencias iniciales.

- x x x x x x x x -
y y y y y y y y - -
- - z z z z z z z z

Figura 9. Secuencias reacomodadas.

SISTEMAS
& TELEMÁTICA 63
pares (se tienen en cuenta todas manejar la inserción de gaps, en
las posibles combinaciones de nuestra versión del algoritmo la
aminoácidos en cada columna del inserción se hará de manera alea-
alineamiento) y tomando las pun- toria tanto en lo que respecta a la
tuaciones de la matriz Blosum. posición de la cadena como a la
longitud del gap. En las figuras
3. Se esogen los 50 mejores alinea-
10 y 11 se presenta un conjunto
mientos y pasan a la segunda ge-
de secuencias alineadas antes y
neración sin cambios, a continua-
después de la inserción de gaps en
ción se realiza un sorteo para de-
el alineamiento respectivamente.
terminar cuáles serán los 50 ali-
neamientos restantes, siguiendo 5. La fase de recombinación se lleva
un proceso similar a sacar cani- a cabo de la siguiente forma. A
cas de una bolsa y en el que mien- partir de la totalidad de alinea-
tras mayor sea la puntuación del mientos se seleccionan padres
AMS mayor es la probabilidad de usando el método de selección por
ser escogido. La segunda mitad torneo en el que son escogidos dos
pasará por la fase de mutación alineamientos al azar y el que ten-
que se explica a continuación. ga la mejor puntuación será uno
de los padres; el proceso se repite
4. En el proceso de mutación la se-
para obtener el segundo alinea-
cuencia no debe ser modificada en
miento padre.
las letras que la representan, por-
que de lo contrario no sería un ali- Aleatoriamente se genera un núme-
neamiento, pero sí son insertados ro que nos va a indicar el punto de
gaps y son reacomodadas las ca- corte del primer alineamiento, que es
denas en un intento de obtener el número del carácter por el que va-
mejores puntajes en el AMS. Aun- mos a realizar el primer corte, como
que existen varias maneras de se muestra en las figuras 12 y 13.

- x x x x x x x x -
y y y y y y y y - -
- - z z z z z z z z

Figura 10. Alineamiento con las secuencias reacomodadas.

- x x x - x x - x x x - -
y y y - y y - y y y - - -
- - z - - z z z - z z z z

Figura 11. Alineamiento tras la inserción de gaps en las secuencias.

64 SISTEMAS
& TELEMÁTICA
N=5

xx-xx-Axx-xxx -xxx-x-A-x-xx-xx
-xxx-x-A-x-xx-xx x-x-xx-Axx-x-x-x
x-x-xx-Axx-x-x-x xx-xx-Axx-xxx
x-xxx-A-x-xxxx x-xxx-x-A-xxxx
Figura 12. Padre 1. Figura 13. Padre 2.

Lo que sigue es pegar las partes som- 4. EJEMPLO DE LA APLICACIÓN


breadas entre sí obteniendo así un DEL ALGORITMO
nuevo alineamiento que sería el hijo A continuación veremos un ejemplo
1; de igual forma se pegarían las par- de cómo funciona el algoritmo paso a
tes no sombreadas creando un hijo 2. paso siguiendo el alineamiento de
Se escoge naturalmente al alinea- tres secuencias.
miento hijo con mejor puntaje. Por
En primer lugar hay que resaltar que
otro lado se pueden buscar escoger los
el programa permite parametrizar
mejores n alineamientos y pasarlos
algunos valores necesarios para el
intactos a la siguiente generación o,
alineamiento. Estos valores son: el
por el contrario, permitir que todos
tamaño de la población, el número de
los alineamientos de la nueva gene-
generaciones que se van a producir,
ración sean producto de la reproduc-
el número de gaps que se van a in-
ción de dos AMS.
sertar en cada cadena en el proceso
6. A continuación se parte de la nue- de mutación y el tamaño máximo de
va población, como si fuera la ori- gap que será insertado en la muta-
ginal, y la llevamos de nuevo al ción. Para el ejemplo solo se va a tra-
paso dos. Este proceso se realiza bajar con tres cadenas de una longi-
generalmente 100 veces, pero pue- tud relativamente corta, se genera-
de llegar a ser ejecutado incluso rán la primera y parte de la segunda
tanto como 1.000 veces. generación, y el número de gaps a
7. El proceso completo de producir un insertar por mutación será de uno
conjunto de AMS mediante la repli- igual al del tamaño máximo del gap.
cación y mutación es repetido mu- 1. En la Figura 14 se muestran las
chas veces para obtener, así mismo, secuencias cn las que se va a tra-
un gran número de posibles AMS y bajar:
es escogido el mejor calificado.

A R N D C Q F F F T Q I L K S T
N D C Q D F F F T Q I K T
H I G A Q R P S T N D C Q E F F
Figura 14. Secuencias iniciales.

SISTEMAS
& TELEMÁTICA 65
2. Se calcula el 25% de la longitud tacta. Se pueden ver en la Figura
de la cadena más larga y eso nos 16 los alineamientos con mayor
da los espacios extras que se van número de coincidencias en este
a usar para mover las cadenas a caso,
un lado y al otro; en este caso la
4. A continuación la otra mitad de
holgura es de cuatro y a continua-
los alineamientos pasa por un pro-
ción se genera un número aleato-
ceso de mutación en el que para
rio entre 0 y 4 para cada cadena y
cada secuencia se escoge aleato-
eso determina el desplazamiento
riamente el número, el tamaño y
de la misma. Con los parámetros
la posición en la que va a ser in-
anteriores se generan cuatro po-
sertado cada uno de los gaps, te-
sibles alineamientos, estos son
niendo en cuenta, claro está, los
mostrados en la Figura 15.
parámetros introducidos al pro-
3. A continuación se saca el puntaje grama. La selección de esta se-
de cada alineamiento teniendo en gunda mitad se lleva a cabo así:
cuenta las calificaciones estable-
• Primero se establece un rango que
cidas en la matriz Blosum62; se
va de la menor a la mayor pun-
ordenan y se escoge la primera
tuación de entre todos los alinea-
mitad que corresponde a la de
mientos.
mejores calificaciones y pasa in-

- - A R N D C Q F F F T Q I L K S T - -
- - - N D C Q D F F F T Q I K T - - - -
- H I G A Q R P S T N D C Q E F F - - -

A R N D C Q F F F T Q I L K S T - - - -
- N D C Q D F F F T Q I K T - - - - - -
- - - H I G A Q R P S T N D C Q E F F -

- - - - A R N D C Q F F F T Q I L K S T
- - N D C Q D F F F T Q I K T - - - - -
- - - H I G A Q R P S T N D C Q E F F -

- A R N D C Q F F F T Q I L K S T - - -
N D C Q D F F F T Q I K T - - - - - - -
- H I G A Q R P S T N D C Q E F F - - -
Figura 15. Alineamientos inicales.

66 SISTEMAS
& TELEMÁTICA
- - A R N D C Q F F F T Q I L K S T - -
- - - N D C Q D F F F T Q I K T - - - -
- H I G A Q R P S T N D C Q E F F - - -

A R N D C Q F F F T Q I L K S T - - - -
- N D C Q D F F F T Q I K T - - - - - -
- - - H I G A Q R P S T N D C Q E F F -
Figura 16. Alineamientos con mayor puntuación.

• Luego se generan números alea- busca darle una mayor probabili-


torios dentro de ese rango y se dad a los alineamientos “fuertes”
escogen posiciones aleatorias de de ser elegidos. La Figura 17
entre el conjunto de alineamien- muestra el resultado del proceso
tos, se compara el puntaje aleato- anterior.
rio con el del alineamiento alea- 5. Tanto la primera mitad de los
torio; si el puntaje del alineamien- mejores como la segunda mitad de
to es mayor o igual, es selecciona- los alineamientos mutados se jun-
do, de lo contrario se repite el pro- tan y luego son calificados y reor-
ceso. Con el proceso anterior se denados (ver Figura 18).

A R N D - C Q F F F T Q I L K S T - - -
- N D C Q D F F - F T Q I K T - - - - -
- - - H I G A Q R P S T - N D C Q E F F

A R N D C Q F F F T - Q I L K S T - -
-
- D C Q D F - F F T Q I K T - - - - -
N
H I G A - Q R P S T N D C Q E F F - -
-
Figura 17. Alineamientos tras la inserción de gaps.
- - A R N D C Q F F F T Q I L K S T - -
- - - N D C Q D F F F T Q I K T - - - -
- H I G A Q R P S T N D C Q E F F - - -

- A R N D C Q F F F T - Q I L K S T - -
N - D C Q D F - F F T Q I K T - - - - -
- H I G A - Q R P S T N D C Q E F F - -

A R N D - C Q F F F T Q I L K S T - - -
- N D C Q D F F - F T Q I K T - - - - -
- - - H I G A Q R P S T - N D C Q E F F

- - - - A R N D C - Q F F F T Q I L K S T
- - N D - C Q D F F F T Q I K T - - - - -
- - - H I G A Q R P S T N D C Q E F F - -
Figura 18. Alineamientos seleccionados y reordenados.

SISTEMAS
& TELEMÁTICA 67
6. Ahora se realiza el proceso de re- la longitud de la cadena más cor-
producción basado en el método de ta, ese será el punto de corte. Para
torneo en el cual selecciono alea- el ejemplo el número será 5, esto
toriamente una pareja de alinea- indica no la posición sino el carác-
mientos; aquí el que tenga una ter por el que se realizará el corte
mejor calificación va a ser escogi- (ver Figura 20).
do como padre. Este proceso se
8. A continuación se intercambia la
repite n veces (donde n es el ta-
primera parte de la matriz supe-
maño de la población), ya que cada
rior con la segunda de la inferior
iteración va a asegurar obtener un
y viceversa y se obtiene algo como
alineamiento para agregar a la
lo que muestra la Figura 21 c.
nueva población. A continuación
se va a ver en detalle cómo es el 9. A continuación se escoge al hijo
proceso de reproducción. Para tal que tenga la mejor calificación y
propósito se va a trabajar con los es agregado a la nueva genera-
dos primeros alineamientos de la ción. El proceso se muestra en la
Figura 19. Figura 22
7. A partir de estos dos alineamien- 10. Cabe anotar que en el proceso de
tos se genera un número aleato- reproducción se eliminan las co-
rio dentro del rango de cero hasta lumnas llenas de gaps que se en-

Figura 19. Alineamientos escogidos para el proceso de cruce.

Figura 20. Identificación del carácter de corte.

68 SISTEMAS
& TELEMÁTICA
- - A R N D C Q F F F T Q I L K S T - -
- - - N D C Q D F F F T Q I K T - - - -
- H I G A Q R P S T N D C Q E F F - - -

a. Padre 1.

- A R N D C Q F F F T - Q I L K S T - -
N - D C Q D F - F F T Q I K T - - - - -
- H I G A - Q R P S T N D C Q E F F - -

b. Padre 2.

- - A R N D C Q F F F T - Q I L K S T
- - - N D C Q D F - F F T Q I K T - -
- H I G A Q R P S T N D C Q E F F - -

- A R N D C Q F F F T Q I L K S T -
N - D C Q D F F F T Q I K T - - - -
- H I G A - Q R P S T N D C Q E F F
Figura 21c. Hijo 1 e hijo 2. Las partes sombreadas corresponden al padre uno,
las otras al padre dos.

Hijo del alineamiento uno y dos cortado por el quinto carácter.

Hijo del tercer y cuarto alineamiento, cortados por el octavo carácter.

Hijo del segundo y tercer alineamiento cortados por el décimo carácter.

Figura 22. Escogencia del hijo con menor calificación.

SISTEMAS
& TELEMÁTICA 69
cuentran al final de los alinea- tar que las secuencias aumenten de
mientos. Por otro lado, cuando se tamaño de manera exagerada por-
han generado el número de hijos que si no se toman tales precaucio-
suficientes para cumplir con el nes, puede suceder que todos los
total de la población, se retorna alineamientos estén llenos de se-
al paso tres para seguir con el pro- cuencias que son en un alto porcen-
cedimiento hasta completar el nú- taje gaps; y si este error se propa-
mero solicitado de generaciones. ga, el resultado del algoritmo pue-
Es importante anotar que para de ser muy pobre. Por último, es de
este ejemplo solo se está trabajan- vital importancia ejecutar este al-
do con tres secuencias cortas, una goritmo en una máquina relativa-
población de cuatro y tan solo dos mente robusta, especialmente en la
generaciones. La idea es que se medida en que aumentamos el nú-
trabaje con no más de 20 secuen- mero y la longitud de las cadenas
cias, con una población de 100 in- que vamos a alinear.
dividuos y 100 generaciones.
A lo largo de la elaboración de la
5. CONCLUSIONES aplicación se pudo observar una ca-
Tras haber realizado algunas prue- racterística propia de los algoritmos
bas con diversos grupos de secuen- genéticos y es la gran flexibilidad
cias, se evidenciaron varios aspec- que brindan. Aunque es cierto que
tos que hay que tener en cuenta en un principio lo que se busca es
para obtener buenos resultados con representar el problema en térmi-
este algoritmo. Dado que uno de los nos de cromosomas codificados que
problemas de los algoritmos gené- evidencian parte de la rigidez del
ticos en general es la existencia de modelo, a medida que se exploran
los máximos locales, puede ser ne- las opciones de desarrollo del algo-
cesario aplicar el algoritmo varias ritmo se ve claramente lo que se
veces sobre el mismo conjunto de se- quiere expresar. El hecho que el al-
cuencias y escoger entre los diferen- goritmo propuesto busque lograr
tes resultados el mejor. Por otro que toda la población de cromoso-
lado, es necesario jugar un poco con mas tenga puntajes altos o por el
los parámetros del algoritmo tales contrario el enfoque en el que se
como el número y longitud de gaps busca solamente un gran máximo va
que se pueden insertar en las se- más allá del simple significado ma-
cuencias mutadas y el tamaño de la temático. Lo que se tiene en frente
población. Esta variación en los pa- es un sistema que nos puede mos-
rámetros es muy importante porque trar diferentes soluciones a un pro-
no es lo mismo trabajar con secuen- blema y es ahí donde la capacidad
cias que son muy similares entre sí de interpretar esas propuestas pue-
a trabajar con secuencias amplia- de hacer la diferencia.
mente dispares.
Con las pruebas también se pudo 6. BIBLIOGRAFÍA
detectar que cuando se está reali- 1. Mount, David W. Bioinformatics:
zando la implementación del algo- sequence and genome analysis,
ritmo, es de vital importancia evi- Cold Spring Harbor, 2001.

70 SISTEMAS
& TELEMÁTICA
2. Lesk, Arthur M. Introduction to CURRÍCULO
bioinformatics, Oxford Universi- Luis Felipe Solanilla: Bachiller del
ty Press, 2002. Colegio Lacordaire. Estudiante
3. Attwood, Teresa K., Parry-Smith, de décimo semestre de Ingenie-
David J. Introducción a la bioin- ría de Sistemas de la Universi-
formática, Prentice Hall, 2002, dad ICESI. Trabajó como moni-
Madrid. tor durante cuatro años en el
grupo Help Desk de la Univer-
4. Goldberg, D. E. Genetic algori-
sidad ICESI.
thms in search, optimization, and
machine learning. Reading, MA: Luis Eduardo Múnera: Matemáti-
Addison-Wesley. 1989. co de la Universidad del Valle.
5. http://geneura.ugr.es/~jmerelo/ie/ Máster y Doctor en Informática
ags.htm de la Universidad Politécnica de
Madrid. Docente-Investigador
6. http://www.sc.ehu.es/isg/ de la Universidad ICESI.

SISTEMAS
& TELEMÁTICA 71

You might also like