Capitulo I Introducción A La Bioinformatica

RESUMEN
La revelacin de la secuencia completa del genoma humano posibilit conocer las

causas moleculares de las enfermedades, as como descubrir la significacin de
las diferencias genticas entre las personas para el desarrollo de enfermedades.
La comprensin sobre cmo las variantes genticas y el medio ambiente regulan
el fenotipo de las clulas, tejidos y rganos, ocupar la investigacin del siglo XXI.
Y, en esta bsqueda, es donde se inserta precisamente la bioinformtica, una
disciplina emergente una disciplina emergente que utiliza las tecnologas de la
informacin para captar, organizar, analizar y distribuir informacin biolgica con el
propsito de responder preguntas complejas en biologa.
Sin embargo, el objetivo final es mucho ms amplio y consiste en utilizar esta
informacin para desarrollar nuevas formas de tratar, curar o prevenir las miles de
enfermedades que afligen a la humanidad.
El anlisis del volumen de la produccin cientfica sobre bioinformtica por aos
en el perodo estudiado, muestra un crecimiento lineal, que denota el momento de
avance y expansin que experimenta esta nueva disciplina
CAPITULO I INTRODUCCIN A LA BIOINFORMATICA.

1. Qu es la Bioinformtica?
La Bioinformtica es el uso de tcnicas computacionales, matemticas y
estadsticas para el anlisis, interpretacin y generacin de datos biolgicos.
La bioinformtica es una ciencia muy joven, si miramos a travs del tiempo
algunos descubrimientos fueron de la siguiente manera:
1958 Primera secuencia de protena

1975 Primera secuencia de ADN
1986 Desarrollo PCR (Polmeros)
Inicio de la era Genmica.
La bioinformtica estudia la Minera de Datos de:
ADN (cido Desoxirribonucleico)

Protenas
Genmicas
Mutacin /Polimorfismo
En la bioinformtica lo que se hace es:
Almacenar datos de genes a travs de minera de datos.

Observar que hacen los genes
2. Bases de Qumica.
Qumica: Estudio de la materia. La materia est hecha de tomos
Qumica (palabra que podra provenir de los trminos griegos o ,
quemia y quemeia respectivamente). Es la ciencia que estudia tanto la
composicin, estructura y propiedades de la materia como los cambios que sta
experimenta durante las reacciones qumicas y su relacin con la energa. Es
definida, en tanto, por Linus Pauling, como la ciencia que estudia las sustancias,
su estructura (tipos y formas de acomodo de los tomos), sus propiedades y las
reacciones que las transforman en otras sustancias con referencia al tiempo.
La qumica moderna se desarroll a partir de la alquimia, una prctica
protocientfica de carcter filosfico, que combinaba elementos de la qumica, la
metalurgia, la fsica, la medicina, la biologa, entre otras ciencias y artes.
6
Bases de biologa.
Biologa: Ciencia que estudia los seres vivos.
Ser vivo: Es todo lo que es capaz de reproducirse.
La biologa tiene las siguientes caractersticas:
1. Universalidad: Las reacciones qumicas bsicas son las mismas en todos los
seres vivos.
2. Evolucin: Todos los organismos se evolucionaran de un nico ancestro comn.
3. Taxonoma: Todos los seres se dividen en una categora y subcategoras.
Encontramos tres (3) niveles:
Orgnico: Tejidos, agregaciones de clula.
Biologa Celular: Estudio sobre las clulas. Esto incluye su anatoma, su fisiologa,
las interacciones de sta con el medio, su ciclo vital, y su divisin y muerte.
Biologa Molecular: Estudio de las molculas. La biologa molecular concierne
principalmente al entendimiento de las interacciones de los diferentes sistemas de
la clula, lo que incluye muchsimas relaciones, entre ellas las del ADN con el
ARN, la sntesis de protenas, el metabolismo, y el cmo todas esas interacciones
son reguladas para conseguir un correcto funcionamiento de la clula.
Clula: Unidad funcional de todo ser vivo. Encontramos dos categoras de clulas:
Procariotas: No tienen ncleo.
Eucariotas: Tienen ncleo.
Entre
las
clulas
eucariotas
encontramos la vegetal y animal,
estas poseen diferencias que las
podemos observar en la figura donde
ilustra las estructuras que son
comunes en las clulas animales y
vegetales, as como las estructuras
que les son nicas. Las estructuras
que son comunes a plantas y
animales, estn en medio de la
imagen. Las estructuras propias de
las plantas, a la izquierda y las
animales a la derecha.
7
Las clulas hacen parte de dos clases de organismos: Pluricelulares y Mono

celulares por ejemplo la clula animal es pluricelular y las bacterias mono
celulares. La clula tienen las siguientes funciones:
Nutricin.
Crecimiento.
Multiplicacin.
Diferenciacin.
Sealizacin.
Evolucin
3. Bases de gentica
4.1 Gentica
La gentica estudia los genes que determinan nuestras caractersticas.
Hay cuatro (4) tipos de gentica:
a) Gentica Clsica: trata de cromosomas y genes.
Cromosomas: Es como el ADN se empaqueta.
Genes: Secuencia larga (3Gb) en el genoma humano cada gen codifica las
protenas que dan nuestras caractersticas fsicas. Los genes estn dentro de
los cromosomas. En nuestro cuerpo hay 33.000 caractersticas.
b) Gentica Cuantitativa: Estudia el impacto de los fenotipos.
c) Gentica Evolutiva: Estudia como los genes se vuelven a travs del tiempo en
determinada poblacin.
d) Gentica Molecular: Estudia lo mismo que la gentica clsica, cuantitativa y
evolutiva pero a nivel molecular.
3.2 Dogma Central de la Biologa Molecular

El Dogma Central de la Biloga nos habla de cmo se pasa de genotipo a
fenotipo. El paso de genotipo a fenotipo se llama expresin gentica lo
podemos ver en la siguiente figura
Transcripcin
Traduccin |Genotipo|----------> |
ADN|-------------------->|ARN|--------------->|Protenas| | _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ | \/ Expresin Tcnica
|Fenotipo|
Dogma Central (Paso de Genotipo a Fenotipo)
4.3 cido Desoxirribunocleico (ADN).

cido Desoxirribonucleico (ADN): Contiene la informacin gentica.
Es una molcula -> (conjunto de tomos con estructura tridimensional). Se puede
afirmar que el ADN es un poli nucletido el cual es una cadena de molculas
pequeas.
4.4 Traduccin y Transcripcin Gentica.

Transcripcin es el proceso de fabricacin ARN usando el ADN como molde.
Traduccin es la construccin de una secuencia de aminocidos (poli pptido) con
la informacin proporcionada por la molcula de ARN.
El esquema de este "dogma" ha sido encontrada repetidamente y se considera
una regla general (salvo en los retrovirus).
El cido Ribonucleico mensajero (ARNm) es el molde para la construccin de la
protena.
El cido Ribonucleico ribosmico (ARNr) se encuentra en el sitio donde se
construye la protena: el ribosoma.
El cido Ribonucleico de transferencia (ARNt) es el transportador que coloca el
aminocido apropiado en el sitio correspondiente.
El ARN tiene el azcar ribosa en vez de desoxirribosa. La base uracilo (U)
reemplaza a la timina (T) en el ARN. El ARN tiene una sola hebra, si bien el ARNt
puede formar una estructura de forma de trbol debido a la complementariedad de
sus pares de bases.
4.5 Cdigo Gentico.

20 aminocidos estn representados en el cdigo gentico por la agrupacin de
tres letras (triplete) de las cuatro existentes. Si uno considera las posibilidades de
arreglo de cuatro letras agrupadas de a tres (43) resulta que tenemos 64
posibilidades de palabras a codificar, o 64 posibles codones (secuencia de tres
bases en el ARNm que codifica para un aminocido especfico o una secuencia de
control).
4.6 Protenas.
Las protenas son biomolculas formadas por cadenas lineales de aminocidos. El
nombre protena proviene de la palabra griega ("proteios"), que significa
"primario" o del dios Proteo, por la cantidad de formas que pueden tomar.
Las protenas desempean un papel fundamental para la vida y son las
biomolculas ms verstiles y ms diversas. Son imprescindibles para el
9
crecimiento del organismo. Realizan una enorme cantidad de funciones diferentes,

entre las que destacan:
Estructural. sta es la funcin ms importante de una protena.

Inmunolgica (anticuerpos),
Enzimtica (sacarosa y pepsina),
Contrctil (actina y miosina).
Homeosttica: colaboran en el mantenimiento del pH,
Transduccin de seales (rodopsina)
Protectora o defensiva (trombina y fibringeno)
Las protenas estn formadas por aminocidos. Las protenas de todos los seres
vivos estn determinadas mayoritariamente por su gentica (con excepcin de
algunos pptidos antimicrobianos de sntesis no ribosomal), es decir, la
informacin gentica determina en gran medida qu protenas tiene una clula, un
tejido y un organismo.
Las protenas se sintetizan dependiendo de cmo se encuentren regulados los
genes que las codifican. Por lo tanto, son susceptibles a seales o factores
externos. El conjunto de las protenas expresadas en una circunstancia
determinada es denominado proteoma.
4. NCBI ENTREZ
Entrez es un portal y un buscador que permite acceder a la base de datos del
National Center forBiotechnologyInformation (NCBI). NCBI es una parte de la
National Library of Medicine (NLM), as como un departamento de
NationalInstitutes of Health (NIH) del Gobierno de los Estados Unidos. Aqu toda la
informacin biolgica es de dominio pblico. No se puede patentar la informacin
gentica.
10
CAPITULO II SECUENCIAS DE ADN

1. Formato FASTA
El formato FASTA es el formato ms comn de secuencia de ADN, ARN y
Protenas. Es un formato de solo texto(se puede escribir oleer en un bloc de
notas). Hay unas lneas de descripcin y unas lneas donde esta nuestra
secuencia. La secuencia mxima de las lneas del formato FASTA es de 80
caracteres de longitud, es decir que cuando llegamos a 80 se empieza una nueva
lnea.
2. Alineamiento de Secuencias.
Alinear: Comparar dos (2) secuencias. Resaltar sus similitudes y diferencias.
Cuando se analizan secuencias es comn utilizar los trminos similitud y
homologa de forma indiscriminada, pero estos dos trminos hacen referencia a
conceptos distintos.
3. BLAST
El algoritmo y el programa de computadora que lo implementa fueron
desarrollados por: Stephen Altschul, Warren Gish, David Lipman en el Centro
Nacional de Informacin Biotecnolgica (NCBI, por sus siglas en ingls), Webb
Millar en la Universidad estatal de Pennsylvania, y Gene Myers en la Universidad
de Arizona. Tambin es basado en el algoritmo Smith-Waterman y es local,
bastante rpido pero no garantiza el mejor resultado solo el mejor alineamiento. Es
usado para encontrar probables genes homlogos, es decir con funciones
similares.
Para ejecutarse, BLAST requiere dos secuencias como entrada: una secuencia de
consulta (tambin llamada secuencia blanco) y una base de datos de secuencias.
BLAST encontrar subsecuencias en la consulta que son similares a
subsecuencias de la base de datos. En el uso tpico, la secuencia de consulta es
mucho ms pequea que el banco de datos, por ejemplo, la consulta puede ser de
mil nucletidos mientras que la base de datos es de varios miles de millones de
nucletidos. BLAST busca alineamientos de secuencias de alto puntaje entre la
secuencia de consulta y las secuencias en el banco de datos usando un enfoque
heurstico. La velocidad y la relativamente buena precisin de BLAST son la clave
de la innovacin tcnica de los programas BLAST y probablemente el porqu es la
herramienta de bsqueda ms popular en bioinformtica.
11
3.1 Etapas
a) Asemilladlo (Seeding): BLAST busca coincidencias exactas de una
pequea longitud fija W entre la secuencia de consulta y las secuencias de
la base de datos. Por ejemplo, dadas las secuencias AGTTAC y ACTTAG y
el largo de palabra W = 3, BLAST podra identificar la subcadena
coincidente TTA que es comn en ambas secuencias. Por defecto, W = 11
para "semillas" nucleicas.
b) Extensin: BLAST trata de extender la coincidencia en ambas direcciones,
comenzando por la semilla. El proceso de alineamiento sin huecos,
extiende la coincidencia de la semilla inicial de longitud W en cada direccin
en un intento de estimular el puntaje de alineacin. Inserciones y
eliminaciones no son consideradas durante esta etapa. Para nuestro
ejemplo, el alineamiento sin huecos entre las secuencias AGTTAC y
ACTTAG centrado alrededor de la palabra en comn TTA podra ser: Si es
encontrado un alineamiento sin huecos de alto puntaje, la base de datos de
secuencias pasa a la tercera etapa.
c) Evaluacin: BLAST realiza un alineamiento con huecos entre la secuencia
de consulta y la secuencia de la base de datos usando una variacin del
algoritmo de Smith-Waterman. Entonces los alineamientos relevantes
estadsticamente son mostrados al usuario.
3.2 Familia Blast.
BlastN: Busca una secuencia ADN/ARN en la base de datos de Nucleotidos

(ADN/ARN).
BlastP: Busca una protena en una base de datos de protenas.
BlastX: Busca nucletidos (ADN) en la base de datos de protenas.
TBlastN: Busca protenas en el ADN. Traduce de la BD(Base de Datos) a
protenas. La traduccin va en un solo sentido.
3.3 Variantes de BLAST.
Gapped BLAST: Esta es una mejora al algoritmo original del BLAST.2

Tambin se lo conoce como BLAST 2.0. Se trata de un BLAST que
contempla la existencia de pequeas inserciones o eliminaciones en las
secuencias que se estn comparando, permitiendo as alinear uno o varios
nucletidos o aminocidos con huecos vacos llamados gaps.
PsiBLAST: Esta variante de BLAST2 es usada para buscar posibles
homlogos en organismos muy lejanos entre ellos, filogenticamente
hablando. Est disponible slo para secuencias de aminocidos.
BLAST no garantiza que las secuencias que alinea sean homlogas y mucho
menos que tengan la misma funcin, simplemente provee posibles candidatos.
12
CAPITULO III GENES

1. Cdigo Gentico
El cdigo gentico viene a ser como un diccionario que establece una equivalencia
entre las bases nitrogenadas del ARN y el leguaje de las protenas, establecido
por los aminocidos. Despus de muchos estudios (1955 Severo Ochoa y
Grumberg; 1961 M.Nirenberg y H. Mattaei) se comprob que a cada aminocido la
corresponden tres bases nitrogenadas o tripletes (61 tripletes codifican
aminocidos y tres tripletes carecen de sentido e indican terminacin de mensaje).
El cdigo gentico nos indica que aminocido corresponde a cada triplete o codn del ARN
mensajero.
1.1
Caractersticas Del Cdigo Gentico
a) El Cdigo es Organizado en Tripletes o Codones: Si cada nucletido

determinara un aminocido, solamente podramos codificar cuatro
aminocidos diferentes ya que en el ADN solamente hay cuatro nucletidos
distintos. Cifra muy inferior a los 20 aminocidos distintos que existen.
13
b) El Cdigo Gentico es Degenerado: Como hemos dicho anteriormente

existen 64 tripletes distintos y 20 aminocidos diferentes, de manera que un
aminocido puede venir codificado por ms de un codn. Este tipo de
cdigo se denomina degenerado. Las molculas encargadas de transportar
los aminocidos hasta el ribosoma y de reconocer los codones del ARN
mensajero durante el proceso de traduccin son los ARN transferentes
(ARN-t). Los ARN-t tienen una estructura en forma de hoja de trbol con
varios sitios funcionales:
Extremo 3': Lugar de unin al aminocido (contiene siempre la secuencia

ACC).
Lazo dihidrouracilo (DHU): lugar de unin a la aminoacil ARN-t sintetasa o
enzimas encargadas de unir una aminocido a su correspondiente ARN-t.
Lazo de T C: lugar de enlace al ribosoma.
Lazo del anti codn: lugar de reconocimiento de los codones del mensajero.
c) El Cdigo Gentico es No Solapado o Sin Superposiciones: Un nucletido

solamente forma parte de un triplete y, por consiguiente, no forma parte de
varios tripletes, lo que indica que el cdigo gentico no presenta
superposiciones. Por tanto, el cdigo es no solapado.
d) La Lectura del Cdigo Gentico es "Sin Comas": Teniendo en cuenta que la
lectura se hace de tres en tres bases, a partir de un punto de inicio la
lectura se lleva a cabo sin interrupciones o espacios vacos, es decir, la
lectura es seguida "sin comas". De manera, que si aadimos un nucletido
(adicin) a la secuencia, a partir de ese punto se altera el cuadro de lectura
y se modifican todos los aminocidos.
e) El Cdigo Gentico es Universal: Los experimentos realizados hasta la
fecha indican que el cdigo gentico nuclear es universal, de manera que
un determinado triplete o codn lleva informacin para el mismo aminocido
en diferentes especies. Hoy da existen muchos experimentos que
demuestran la universalidad del cdigo nuclear, algunos de estos
experimentos son:
Utilizacin de ARN mensajeros en diferentes sistemas acelulares.

Por ejemplo ARN mensajero y ribosomas de reticulocitos de conejo
con ARN transferentes de E. coli. En este sistema se sintetiza un poli
pptido igual o muy semejante a la hemoglobina de conejo.
Las tcnicas de ingeniera gentica que permiten introducir ADN de
un organismo en otro de manera que el organismo receptor sintetiza
las protenas del organismo donante del ADN. Por ejemplo, la
sntesis de protenas humanas en la bacteria E. coli.
14
1.2 Splicing
En el caso de los organismos Eucariotas el ADN no se transcribe completamente
sino solo por partes; Las secciones que no se transcriben se llaman Intrnes, los
cuales son regiones del ADN que debe ser eliminada del transcrito primario de
ARN, y las secciones que se trascriben se llaman Exones, los cuales son regiones
que codifican para una determinada protena.
2. Open Reading Frames (ORF)

2.1 Marco Abierto de Lectura
Es una secuencia de informacin gentica que contiene datos que pueden ser
utilizados para codificar aminocidos; Los marcos de lectura se encuentran en el
ADN y ARN. En el caso de ADN, el ADN contiene conjuntos de nucletidos
conocida como tripletes o codones. Cada codn puede ser transcrito por el ARN
en otro triplete.
El marco de lectura es la seccin de ADN o ARN que contiene instrucciones para
hacer una protena completa. En el ADN, hay seis marcos de lectura posibles, ya
que el inicio de un marco de lectura depende de donde uno empieza a leer, y el
ADN es de doble cadena. Con el ARN, existen tres posibles marcos de lectura.
Una seccin de lectura comienza con un codn de inicio (AUG) y uno de parada
(UAA, UAG o UGA). Un marco abierto de lectura puede contener un gen completo,
o los genes que se solapan; el cdigo gentico no siempre es tan ordenada como
uno podra imaginar. De hecho, el cdigo gentico contiene mucho de lo que se
conoce como el ADN no codificante, es decir, que el ADN no parece cumplir una
funcin en trminos de la expresin gnica. No codificante del ADN puede
contener informacin interesante acerca de la herencia gentica de una especie, y
puede utilizarse para otras funciones.
Existen 6 sentidos en los que se puede aparecer un marco de lectura: +1, +2, +3,
-1, -2, -3. Si una secuencia se empieza a leer desde el 1er carcter, entonces el
marco de lectura es +1; si se empieza
desde la 2da, entonces el marco de lectura
es +2; Y si se comienza desde la 3era,
entonces el marco de lectura es +3.
Para la secuencia complementaria, si se
empieza a leer desde el 1er carcter,
entonces el marco de lectura es -1; si se
empieza desde la 2da, entonces el marco
de lectura es -2; Y si se comienza desde la
3era, entonces el marco de lectura es -3.
15
2.2 ORF Finder (Open Reading Frame Finder) - NCBI

ORF Finder busca marcos abiertos de lectura (ORF) en la secuencia de ADN que
Ud. introduzca. El programa devuelve el rango de cada ORF, junto con la
traduccin de la protena correspondiente. ORF Finder soporta el alfabeto IUPAC y
varios cdigos genticos. Utilice ORF Finder para buscar posibles segmentos de
codificacin de protenas en nuevas secuencias de ADN.
3. Modelos Estocsticos
Estocstico: Utiliza probabilidad. un proceso estocstico es un concepto
matemtico que sirve para caracterizar una sucesin de variables aleatorias
(estocsticas) que evolucionan en funcin de otra variable, generalmente el
tiempo. Cada una de las variables aleatorias del proceso tiene su propia funcin
de distribucin de probabilidad y, entre ellas, pueden estar correlacionadas o no.
3.1. Modelo Oculto de Markov.
Un mtodo de previsin muy fiable sera aquel que analizase la evolucin de
distintos desarrollos teniendo en cuenta las interrelaciones entre dichos
desarrollos e introdujese la variable tiempo.
Este modelo se caracteriza por el desarrollo secuencial tecnolgico mediante dos
parmetros probabilsticos: la secuencia de los desarrollos y el tiempo entre
desarrollos sucesivos. Estos dos parmetros se pueden representar con los
conceptos transicin de estados y tiempo de permanencia en el estado.
Se dice que un proceso es de Markov cuando verifica la propiedad de Markov: la
evolucin del proceso depende del estado actual y del prximo, y no de anteriores
o posteriores.
4. GENSCAN
GENSCAN fue desarrollado por Chris Burge en el grupo de investigacin de
Samuel Karlin, Departamento de Matemticas de la Universidad de Stanford. El
programa y el modelo que subyace en ella se describen en: Burge, C. y Karlin, S.
(1997) Prediccin de la estructura de los genes completos en ADN genmico
humano. J. Mol. Biol. 268, 78-94.
16
CAPITULO IV
PROTENAS
ALINEAMIENTO
DE
SECUENCIAS
1. Alineamiento de Secuencias
1.1 Alineamiento mltiple de Secuencias Un mtodo de alineamiento mltiple
verdadero, alinea todas las secuencias al mismo tiempo.
Pero no existe un mtodo computacional que pueda realizar esto en tiempo
razonable para ms de 3 secuencias cortas.
El alineamiento de mltiples secuencias es muy utilizado en la bsqueda de que

varias especies estn emparentadas por un ancestro comn.
a. Mtodo Global: Confronta una secuencia con otra completa. Los
primeros programas que se desarrollaron para el alineamiento de
secuencias fueron diseados para tratar de crear alineamientos
globales, es decir para detectar similaridades utilizando las protenas
enteras. Sin embargo, existen numerosas protenas "modulares",
entendiendo por tal el hecho de que en su secuencia es posible
identificar varios dominios diferentes.
b. Programacin Dinmica: La tcnica de programacin dinmica es
tericamente aplicable a cualquier nmero de secuencias; sin
embargo, y puesto que es computacionalmente costosa tanto en
tiempo como en memoria, raramente se usa en su forma ms bsica
para ms de tres o cuatro secuencias. Este mtodo requiere la
construccin de un equivalente n-dimensional a la matriz formada
por dos secuencias, donde n es el nmero de secuencias
problema.
c. rbol Filogentico: La filogenia y el alineamiento de secuencias son
campos ntimamente relacionados debido a su necesidad compartida
de evaluar el parentesco entre secuencias. La filogenia hace un uso
extensivo de los alineamientos de secuencias en la construccin e
interpretacin de rboles filogenticos, que se usan para clasificar
las relaciones evolutivas entre genes homlogos representados en el
genoma de especies divergentes.
17
1.2 rbol Filogentico
Todos los seres vivos comparten su origen: todos provienen del reino mneras.
Este reino abarca los seres unicelulares procariotas, que carecen de ncleo
celular. Son las arqueo bacterias y las eubacterias.
De los mneras surgieron los protoctistas. Este reino rene seres eucariotas
unicelulares hetertrofos y con digestin interna (protozoos), y eucariotas
unicelulares o pluricelulares sin tejidos, auttrofos fotosintticos (algas).
El reino de los hongos comprende seres eucariotas, unicelulares o pluricelulares,
sin tejidos, hetertrofos y con digestin externa. Las metfitas o plantas son
eucariotas pluricelulares con tejidos y nutricin auttrofa.
Estudiando los cidos nucleicos, especialmente el ARN ribosmico, se ha
comprobado que se pueden clasificar los seres vivos en solo tres grandes grupos
o dominios. Esta tcnica se denomina filogenia molecular y tiene una gran utilidad
para establecer las relaciones de parentesco entre taxones de seres vivos,
basndose en la similitud gentica existente entre stos.
Los rboles filogenticos son una representacin grfica de las similitudes y
diferencias entre unas secuencias determinadas . Habitualmente, las secuencias
de los genes y las protenas son ms parecidas entre organismos ms cercanos
evolutivamente. Los organismos que hace ms tiempo que se separaron en la
evolucin suelen tener ms diferencias en las secuencias de sus respectivos
genes, y, por lo tanto, cuando se realiza un rbol filogentico, aparecen ms
alejados entre s
18
2. ClustalWJalview
2.1 Clustal.
CLUSTAL es un programa que permite hacer alineamientos globales de protenas
y cidos nucleicos y que adems tiene un algoritmo heurstico progresivo,
bastante rpido, para calcular alineamientos mltiples. En combinacin con
herramientas como BLAST, CLUSTAL es muy til para definir familias de protenas
y de cidos nucleicos.
Al igual que BLAST, tambin hay servidores web para correr CLUSTALW sin
necesidad de instalar software, pero asimismo tiene ventajas instalarlo localmente,
sobre todo para correr trabajos de alineamiento mltiple a gran escala y tener todo
el proceso bajo control.
2.2 Jalview
JalView es un editor de alineamiento mltiple por escrito en Java. Se utiliza
ampliamente en una variedad de pginas web (por ejemplo, el servidor de EBI
Clustalw y la base de datos de protenas Pfam dominio), pero est disponible
como un editor de propsito general, la alineacin y banco de trabajo de anlisis.
3. Protenas y Protemica
3.1 Protenas
Es una macromolcula -> Cadena muy larga de aminocidos. Los tipos principales
de macromolculas son las protenas, formadas por cadenas lineales de
aminocidos; los cidos nucleicos, DNA y RNA, formados por bases nucleotdicas
(purinas y pirimidinas), los polisacridos, formados por subunidades de azcares y
los lpidos formados por glicerol, cidos grasos o colesterol. Los aminocidos de
las protenas estn unidos por enlaces peptdicos, los carbohidratos de los
polisacridos por enlaces glucosdicos o peptdicos y los lpidos y cidos nucleicos
por enlaces ster.
Nuestro cuerpo posee 500.000 protenas.
El estudio de las protenas permite estudiar:
* Su Estructura: Es la manera como se organiza una protena para adquirir cierta
forma. Se puede estudiar su forma:
3D: Se realiza Experimentalmente (Rayos X, etc.) o Matemticamente.
Dominios Funcionales: Subsecuencia que desarrolla una funcin especfica.
3.2 Protema
Es el conjunto de todas las protenas producidas por una clula en un instante de
tiempo. El trmino proteoma se utiliz por primera vez en 1995 y ha sido aplicado
a diferentes escalas en los sistemas biolgicos. El proteoma celular es la totalidad
de protenas expresadas en una clula particular bajo condiciones de
medioambiente y etapa de desarrollo, (o ciclo celular) especficas, como lo puede
ser la exposicin a estimulacin hormonal. Tambin se puede hablar del proteoma
completo de un organismo que puede ser conceptualizado como las protenas de
19
todas las variedades de proteomas celulares. Es aproximadamente, el equivalente

protenico del genoma.
El Proteoma es un elemento altamente dinmico, cuyos componentes varan en
un organismo, tejido, clula o compartimento subcelular, como consecuencia de
cambios en su entorno, situaciones de estrs, administracin de drogas, seales
bioqumicas o su estado fisiolgico o patolgico.
3.3 Protemica
Ciencia que estudia el Proteoma. estudios que se han realizado tradicionalmente
mediante la tcnica de electroforsis en gel de dos dimensiones. En la primera
dimensin las protenas se separan por isoelectroenfoque, que separa las
protenas con base en su carga elctrica. En la segunda dimensin, las protenas
se separan por peso molecular utilizando SDS-PAGE.
20
La
Protemica engloba un conjunto de metodologas orientadas al estudio sistemtico

de las protenas, que son los componentes primordiales que regulan la maquinaria
biolgica. Los cambios experimentados por las clulas de un tejido, por la accin
de factores naturales, drogas o frmacos o a causa de alguna patologa, son
consecuencia de cambios, ms o menos sutiles, en la pauta de protenas que
producen las clulas en ese momento. Si bien estos cambios pueden analizarse
de forma indirecta mediante tcnicas genmicas (chips de microarrays de DNA),
los resultados no siempre reflejan el grado real de expresin de las protenas.
4. Anlisis Comparativo de Protenas

Significa tomar una protena compararla con otras protenas conocidas para ver
fundamentalmente su funcin.
La protenas al estudiar su estructura se pueden dividir por Familias esta
clasificacin es jerrquica.
Superfamilias, familias y subfamilias
Una superfamilia es un conjunto de protenas con un origen evolutivo comn, un
conjunto de homlogos. Las superfamilias se pueden dividir, ms o menos
arbitrariamente, segn lo grandes que sean, en familias y subfamilias. Son
conceptos paralelos a los de ortlogos y parlogos: las protenas de una misma
subfamilia son ortlogas entre s (tambin puede haber in-paralogs), mientras que
son parlogas de las de otras subfamilia que pertenezca a la misma superfamilia.
5. PROSITE, PRINTS, Pfam, InterPro

5.1 PROSITE
PROSITE es una base de datos de familias y dominios de protenas creada por
Amos Bairoch en 1988.Consiste en entradas que describen dominios, familias y
21
sitios funcionales as como patrones de aminocidos. Estos son manualmente

verificados por un equipo del Instituto Suizo de Bioinformtica e integrado con la
base de datos de Swiss-Prot.
Sus usos incluyen la identificacin de posibles funciones de las protenas
recientemente descubiertas y el anlisis de aquellas ya conocidas pero con
actividades previamente desconocidas. PROSITE ofrece herramientas para el
anlisis de secuencias de protenas y deteccin de motivos de protenas; es parte
de los servidores de anlisis de protemica de ExPASy.
5.2 PRINTS
Es una coleccin de las llamadas "FingerPrints ": proporciona tanto un recurso de
anotacin detallada de las familias de protenas , y una herramienta de diagnstico
para recin determinar las secuencias. Una huella digital es un grupo de
conservacin motivos tomados de un alineamiento de secuencias mltiples - en
conjunto, los motivos forman una firma caracterstica de la familia de protenas
alineadas. Los mismos motivos que no son necesariamente contiguos en la
secuencia, pero pueden agruparse en un espacio 3D para definir los sitios de
unin molecular o las superficies de interaccin.
5.3 Pfam
La base de datos Pfam es una de las ms importantes colecciones de informacin
en el mundo para la clasificacin de las protenas. La base de datos clasifica el 75
por ciento de protenas conocidas para formar una biblioteca de familias de
protenas - una "tabla peridica" de la biologa. El recurso de acceso abierto se
estableci en el Instituto Wellcome Trust Sanger en 1998. Su visin es ofrecer una
herramienta que permite a los bilogos experimentales, computacionales y la
evolucin de clasificar las secuencias de protenas y responder a preguntas sobre
lo que hacen y cmo han evolucionado. El proyecto Pfam es dirigido por el Dr.
Alex Bateman en el Instituto Sanger.
5.4 InterPro
InterPro es una base de datos de familias, dominios y sitios funcionales de
protenas en donde las caractersticas identificables encontradas en protenas
conocidas pueden ser aplicadas a nuevas secuencias de protenas.
Fue creada en 1999 tras la formacin del InterProConsortium entre el grupo de
Swiss-Prot en el Instituto Europeo de Bioinformtica y el Instituto Suizo de
Bioinformtica y los miembros fundadores de las bases de datos Pfam, PRINTS,
PROSITE y ProDom. Actualmente integra informacin de las bases de datos
PROSITE, Pfam, PRINTS, ProDom, SMART, TIGRFAMs, PIRSF, SUPERFAMILY,
GENE3D y PANTHER.
La base de datos est disponible para bsquedas por texto y basadas en
secuencia a travs de un servicio web, y para descargas por FTP annimo.
Incluye varios formatos de salida como tablas de texto, documentos XML y
grficos para facilitar el anlisis de sus resultados. Al igual que las otras bases de
datos del Instituto Europeo de Bioinformtica, se encuentra en dominio pblico.
22
23
CAPITULO V BASES DE DATOS

BASE DE DATOS
Una base de datos es un almacn que nos permite guardar grandes cantidades
de informacin de forma organizada para que luego podamos encontrar y utilizar
fcilmente. A continuacin te presentamos una gua que te explicar el concepto y
caractersticas de las bases de datos.
El trmino de bases de datos fue escuchado por primera vez en 1963, en un
simposio celebrado en California, USA. Una base de datos se puede definir como
un conjunto de informacin relacionada que se encuentra agrupada
estructurada.
Desde el punto de vista informtico, la base de datos es un sistema formado por
un conjunto de datos almacenados en discos que permiten el acceso directo a
ellos y un conjunto de programas que manipulen ese conjunto de datos.
Cada base de datos se compone de una o ms tablas que guarda un conjunto de
datos. Cada tabla tiene una o ms columnas y filas. Las columnas guardan una
parte de la informacin sobre cada elemento que queramos guardar en la tabla,
cada fila de la tabla conforma un registro.
Bases de datos no proporcionan unos datos organizados, en un entorno esttico,
segn determinados criterios, y facilitan su exploracin y consulta selectiva.
Se pueden emplear en mltiples actividades como por ejemplo: seleccionar datos
relevantes para resolver problemas, analizar y relacionar datos, extraer
conclusiones, comprobar hiptesis. Las preguntas que nos realizamos para la
realizacin son del tipo: Qu caractersticas tiene este dato? Qu datos hay con
la caracterstica X? Qu datos hay con las caractersticas X e Y?.
Las bases de datos pueden tener una estructura jerrquica (si existen unos
elementos subordinantes de los que dependen otros subordinados, como los
organigramas), relacional (si estn organizadas mediante unas fichas o registros
con una misma estructura y rango) o documental (si utiliza descriptores y su
finalidad es almacenar grandes volmenes de informacin documental: revistas,
peridicos, etc.).
En cualquier caso, segn la forma de acceder a la informacin se pueden
distinguir dos tipos:
24
Bases de datos convencionales. Tienen la informacin almacenada en

ficheros, mapas o grficos, que el usuario puede recorrer segn su criterio
para recopilar informacin.
Bases de datos tipo sistema experto. Son bases de datos muy

especializadas que recopilan toda la informacin existente de un tema
concreto y adems asesoran al usuario cuando accede buscando
determinadas respuestas.
Descomposicin y Normalizacin
Siempre que un analista de sistemas de base de datos arma una base de datos,
queda a su cargo descomponer dicha base en grupos y segmentos de registros.
Este proceso es la descomposicin; el mismo es necesario independientemente

de la arquitectura de la base de datos - relacional, red o jerrquica-.
Sin embargo, para la base de datos relacional, la accin correspondiente puede
dividirse y expresarse en trminos formales y se denomina normalizacin a la
misma.
La normalizacin convierte una relacin en varias sub-relaciones, cada una de las
cuales obedece a reglas. Estas reglas se describen en trminos de dependencia.
Una vez que hayamos examinado las distintas formas de dependencia,

encontraremos procedimientos a aplicar a las relaciones de modo tal que las
mismas puedan descomponerse de acuerdo a la dependencia que prevalece. Esto
no llevar indefectiblemente a formar varias subrelaciones a partir de la nica
relacin preexistente.
Biologa de Visualizacin de Datos
25
Es una rama de la bioinformtica relacionada con la aplicacin de grficos por

ordenador, visualizacin cientfica, y la visualizacin de la informacin a las
diferentes reas de las ciencias de la vida. Esto incluye la visualizacin de
secuencias de genomas, las alineaciones, las filogenias, estructuras
macromoleculares, la biologa de sistemas, la microscopa, y los datos de
resonancia magntica. Herramientas de software utilizadas para la visualizacin
de los datos biolgicos van desde simples programas independientes a los
sistemas complejos e integrados.
Hoy en da estamos experimentando un rpido crecimiento en el volumen y la
diversidad de los datos biolgicos, presentando un desafo cada vez mayor para
los bilogos. Un paso clave en la comprensin y el aprendizaje a partir de estos
datos es la visualizacin. Por lo tanto, ha habido un aumento correspondiente en
el nmero y la diversidad de los sistemas de visualizacin de datos biolgicos.
Una nueva tendencia es la difuminacin de las fronteras entre la visualizacin de

las estructuras 3D a resolucin atmica, la visualizacin de los complejos ms
grandes de crio-microscopa electrnica, y la visualizacin de la ubicacin de las
protenas y complejos dentro de las clulas y los tejidos conjunto.
Una segunda tendencia emergente es un aumento en la disponibilidad y la
importancia de la resolucin temporal de datos de la biologa de sistemas, la
microscopa electrnica y de imgenes de clulas y tejidos. Por el contrario, la
visualizacin de trayectorias ha sido durante mucho tiempo una parte importante
de la dinmica molecular.
Base de Datos Biolgicas

Casi todos los desarrollos que se hacen a da de hoy en bioinformtica de una u
otra manera hacen uso de datos almacenados en bases de datos biolgicas o
bioinformticas. Gestores de bases de datos y los distintos productos que hay
disponibles, tanto de pago como de cdigo abierto, que permiten interrogar de
diversas maneras (usando el lenguaje de consultas SQL) la informacin
almacenada en una instancia del gestor.
En bioinformtica, el concepto de base de datos biolgica no alude tanto a la
tecnologa usada como al contenido almacenado.
26
Una base de datos biolgica es un almacn de datos para informacin derivada de

los datos obtenidos experimentos biolgicos, ni ms ni menos. Y una base de
datos bioinformtica es un almacn de datos para informacin derivada de datos
biolgicos y de programas bioinformticos. Si bajamos al nivel ms tcnico, las
bases de datos biolgicos y bioinformticas estn disponibles generalmente como
un conjunto de ficheros planos, cuyo tamao suele ser enorme. Lo ms importante
de todo: casi todas estas bases de datos son de libre disposicin (cualquiera
puede descargarlas).
Ello es posible porque la informacin almacenada en la mayor parte de estas
bases de datos es de dominio pblico y casi siempre esttica, al venir de
investigacin cientfica ya terminada financiada con fondos pblicos. Estos
ficheros estn casi siempre en formato textual, y la razn viene de los orgenes de
la bioinformtica: poder entender, ver y manipular sus contenidos sin depender de
herramientas especializadas. Los contenidos de estos ficheros, al ser textuales,
son muy comprimibles, y por eso suelen estar comprimidos con gzip, bzip2, xz,
etc
27
CAPTULO VI ESTRUCTURAS BIOLGICAS

Introduccin
Como es lgico la rapidez con que se suceden las innovaciones de toda ndole
tanto cientficas como humansticas resulta difcil adaptarse a los avances
alcanzados, en los momentos actuales, que se dan a nivel mundial, que coloca
esta ciencia entre las primeras con ms descubrimientos y logros..
AL hacer este estudio, se ha tenido en cuenta los progresos de la Biologa y de
la Genticacon un tema tan interesante como lo es la estructura del ADN y ARN.
Esperamos que este estudio no sea un tema complicado ms sin embargo que
nos sea fcil de entender y discutir con gran facilidad.
1. cido desoxirribonucleico (ADN)

cido desoxirribonucleico (ADN), material gentico de todos los organismos
celulares y casi todos los virus. El ADN lleva la informacin necesaria para dirigir la
sntesis de protenas y la replicacin. Se llama sntesis de protenas a la
produccin de lasprotenas que necesita la clula o el virus para realizar sus
actividades y desarrollarse.
La replicacin es el conjunto de reacciones por medio de las cuales el ADN se
copia a s mismo cada vez que una clula o un virus se reproduce y transmite a la
descendencia la informacin que contiene.En casi todos los organismos celulares
el ADN est organizado en forma de cromosomas, situados en el ncleo de la
clula.
1.1 Estructura del ADN
Cada molcula de ADN est constituida por dos cadenas o bandas formadas por
un elevado nmero de compuestos qumicos llamados nucletidos. Estas cadenas
forman una especie de escalera retorcida que se llama doble hlice. Cada
nucletido est formado por tres unidades: una molcula de azcar llamada
desoxirribosa, un grupo fosfato y uno de cuatro posibles compuestos nitrogenados
llamados bases: adenina (abreviada como A), guanina (G), timina (T) y citosina
(C).
28
La molcula de desoxirribosa ocupa el centro del nucletido y est flanqueada por

un grupo fosfato a un lado y una base al otro. El grupo fosfato est a su vez unido
a la desoxirribosa del nucletido adyacente de la cadena. Estas subunidades
enlazadas desoxirribosa-fosfato forman los lados de la escalera; las bases estn
enfrentadas por parejas, mirando hacia el interior, y forman los travesaos.
Los nucletidos de cada una de las dos cadenas que forman el ADN establecen
unaasociacin especfica con los correspondientes de la otra cadena. Debido a la
afinidad qumica entre las bases, los nucletidos que contienen adenina se
acoplan siempre con los que contienen timina, y los que contienen citosina con los
que contienen guanina. Las bases complementarias se unen entre s por enlaces
qumicos dbiles llamados enlaces de hidrgeno.
En 1953, el bioqumico estadounidense James Watson y el biofsico britnico
Francis Crick publicaron la primera descripcin de la estructura del ADN. Su
modelo adquiri tal importancia para comprender la sntesis proteica, la replicacin
del ADN y las mutaciones, que los cientficos obtuvieron en 1962 el Premio Nobel
de Medicina por su trabajo.
1.2 Sntesis Proteica
Una de las tareas ms importantes de la clula es la sntesis de protenas,
molculas que intervienen en la mayora de las funciones celulares.
El material hereditario conocido como cido desoxirribonucleico (ADN), que se
encuentra en el ncleo de la clula, contiene la informacin necesaria para dirigir
la fabricacin de protenas.
El ADN incorpora las instrucciones de produccin de protenas. Una protena es un
compuesto formado por molculas pequeas llamadas aminocidos, que
determinan su estructura y funcin.
La secuencia de aminocidos est a su vez determinada por la secuencia de
bases de los nucletidos del ADN.
Cada secuencia de tres bases, llamada triplete, constituye una palabra del cdigo
gentico o codn, que especifica unaminocido determinado.
29
As, el triplete GAC (guanina, adenina, citosina) es el codn correspondiente

al aminocido leucina, mientras que el CAG (citosina, adenina, guanina)
corresponde al aminocido valina.
Por tanto, una protena formada por 100 aminocidos queda codificada por un
segmento de 300 nucletidos de ADN.
De las dos cadenas de polinucletidos que forman una molcula de ADN, slo
una, llamada paralela, contiene la informacin necesaria para la produccin de
una secuencia de aminocidos determinada. La otra, llamada antiparalela, ayuda
a la replicacin.
La sntesis proteica comienza con la separacin de la molcula de ADN en sus
dos hebras. En un proceso llamado transcripcin, una parte de la hebra paralela
acta como plantilla para formar una nueva cadena que se llama ARN mensajero
o ARNm.
El ARNm sale del ncleo celular y se acopla a los ribosomas, unas estructuras
celulares especializadas que actan como centro de sntesis de protenas. Los
aminocidos son transportados hasta los ribosomas por otro tipo de ARN llamado
de transferencia (ARNt). Se inicia un fenmeno llamado traduccin que consiste
en el enlace de los inocidos en una secuencia determinada por el ARNm para
formar una molcula de protena.
Un gen es una secuencia de nucletidos de ADN que especifica el orden de
aminocidos de una protena por medio de una molcula intermediaria de ARNm.
La sustitucin de un nucletido de ADN por otro que contiene una base distinta
hace que todas las clulas o virus descendientes contengan esa misma secuencia
de bases alterada.
Como resultado de la sustitucin, tambin puede cambiar la secuencia de
aminocidos de la protena resultante. Esta alteracin de una molcula de ADN se
llama mutacin. Casi todas las mutaciones son resultado de errores durante el
proceso de replicacin. La exposicin de una clula o un virus a las radiaciones o
a determinados compuestos qumicos aumenta la probabilidad de sufrir
mutaciones.
Replicacin
30
En casi todos los organismos celulares, la replicacin de las molculas de ADN

tiene lugar en el ncleo, justo antes de la divisin celular. Empieza con la
separacin de las dos cadenas de polinucletidos, cada una de las cuales acta a
continuacin como plantilla para el montaje de una nueva cadena complementaria.
A medida que la cadena original se abre, cada uno de los nucletidos de las dos
cadenas resultantes atrae a otro nucletido complementario previamente formado
por la clula.
Los nucletidos se unen entre s mediante enlaces de hidrgeno para formar los
travesaos de una nueva molcula de ADN. A medida que los nucletidos
complementarios van encajando en su lugar, una enzima llamada ADN polimerasa
los une enlazando el grupo fosfato de uno con la molcula de azcar del siguiente,
para as construir la hebra lateral de la nueva molcula de ADN. Este proceso
contina hasta que se ha formado una nueva cadena de polinucletidos a lo largo
de la antigua; se reconstruye as una nueva molcula con estructura de doble
hlice.
2. cido Ribonucleico ARN

El ARN es una sola molcula trenzada con un azcar ribosa. Tiene una estructura
distintiva y, a diferencia del ADN, hay variaciones y varios tipos de estructuras de
ARN.
La estructura bsica del ARN
Sin embargo, la estructura bsica del ARN, puede definirse como un azcar
ribosa, que se numera de 1' a 5', con:
una base unida a la posicin 1'
un grupo hidroxilo en la posicin 2
un fosfato Unido a la posicin 3' de una ribosa y la posicin 5' de la

siguiente
2.1 Bases de RNA

Una base depende de la posicin de 1', generalmente adenina (A), citosina (C),
guanina (G) o uracilo (U).
31
Adenina y guanina son purinas; citosina y uracilo son pirimidinas. Las bases
pueden formar enlaces de hidrgeno entre la citosina y guanina, entre adenina y
uracilo y entre guanina y uracilo.
A diferencia de ADN que contiene slo cuatro bases A, T, G y C, RNA maduro
puede contener bases modificadas y azcares.
Pseudouridina (), en el que la vinculacin entre uracilo y ribosa se cambia de un
bono CN a un enlace CC y ribothymidine (T), se encuentran en varios lugares.
Otra notable base modificada es hipoxantina, una base de adenina desaminada
cuyos anlogos de los nuclesidos se llaman inosina (I).
2.2 Grupo hidroxilo de RNA
Hay presencia de un grupo hidroxilo en la posicin 2' del azcar ribosa. Esto
diferencia a RNA de ADN y hace el ARN adopte una geometra de un formulario en
lugar de la forma B ms comnmente observados en el ADN. Esto significa que
hay un surco mayor muy profundo y estrecho y un surco poco profundo y ancho
menor.
El grupo hidroxilo en 2' significa que en las regiones flexibles de una molcula de
ARN productos qumicos pueden atacar el enlace fosfodiester adyacentes para
romper la columna vertebral.
2.3 Grupo de fosfato de RNA
Un grupo fosfato est unido a la posicin 3' de una ribosa y la posicin 5' del
siguiente.
Los grupos fosfato tienen una carga negativa. Esto hace que el ARN una molcula
cargada (polyanion).
2.4 Estructura terciaria de RNA
Una vez que se forma el ARN, como las protenas requiere someterse a cambios
para formar una estructura terciaria especfica. El andamio para esta estructura es
proporcionado por elementos estructurales secundarios que son enlaces de
hidrgeno en la molcula. El filamento forma bucles de horquilla, bultos y bucles
internos. Ya est cargada RNA, iones metlicos como Mg2 + son necesarios para
estabilizar muchas estructuras secundarias y terciarias. Las estructuras terciarias
de ARN se determinan usando asignacin de interferencia de sondeo y
modificacin qumica, cristalografa de rayos x y resonancia magntica nuclear
(RMN), criomicroscopa electrnica.
3. Estructura de Protenas
32
La palabra protena proviene del griego protop (lo primero, lo principal, lo ms

importante). Las protenas son las responsables de la formacin y reparacin de
los tejidos, interviniendo en el desarrollo corporal e intelectual. Las protenas son
biopolmeros (macromolculas orgnicas), de elevado peso molecular,
constituidas bsicamente por carbono (C), hidrgeno (H), oxgeno (O) y nitrgeno
(N); aunque pueden contener tambin azufre (S) y fsforo (P) y, en menor
proporcin, hierro (Fe), cobre (Cu), magnesio (Mg), yodo (Y). Estos elementos
qumicos se agrupan para formar unidades estructurales (monmeros) llamados
aminocidos (aa), a los cuales se consideran como los "ladrillos de los edificios
moleculares proteicos".
Estos edificios macromoleculares se construyen y desmoronan con gran facilidad
dentro de las clulas, y a ello debe precisamente la materia viva su capacidad de
crecimiento, reparacin y regulacin.
Se clasifican, de forma general, en Holo protenas y Heteroprotenas segn estn
formadas, respectivamente, slo por aminocidos o bien por aminocidos ms
otras molculas o elementos adicionales no aminoacdicos.
La organizacin de una protena viene definida por cuatro niveles estructurales
denominados: estructura primaria, estructura secundaria, estructura terciaria y
estructura cuaternaria. Cada una de estas estructuras informa de la disposicin de
la anterior en el espacio.
a) Estructura Primaria. Una cadena polipeptdica consiste en una cadena
lineal de aminocidos unidos por enlaces peptdicos. El primer puesto de la
cadena corresponde al grupo amino terminal, y la estructura primaria es la
secuencia en la que estn situados todos los constituyentes hasta llegar al
carboxilo terminal est codificada genticamente.
b) Estructura Secundaria. La estructura secundaria es la forma en la que la
cadena poli peptdica se pliega en el espacio. En una protena, cada tramo
de cadena polipeptdica tiene distinta estructura secundaria. Existen varias
formas definidas de estructura secundaria, las ms importantes de las
cuales son las llamadas hlice a y hoja plegada b. Las estructuras
secundarias definidas estn mantenidas por puentes de hidrgeno
formados exclusivamente entre los grupos amino y carboxilo que
constituyen el esqueleto de la cadena polipeptdica. Consecuentemente, los
parmetros
estructurales
(distancias,
ngulos)
sern
iguales,
independientemente de la protena y de los aminocidos que formen la
estructura.
c) Estructura Terciaria. La estructura terciaria de la protena es la forma en la
que se organizan en el espacio los diferentes tramos de la cadena
polipeptdica, que pueden tener una estructura secundaria definida, como
las hlices u hojas o no tenerla. La estructura terciaria est mantenida por
enlaces inicos y de puentes de hidrgeno entre las cadenas laterales de
los aminocidos, enlaces hidrofbicos y eventualmente puentes disulfuro.
d) Estructura Cuaternaria. La estructura cuaternaria de una protena es la
forma en la que se asocian las distintas subunidades constituyentes, si es
que existen. Es decir, para poder hablar de estructura cuaternaria es
33
necesario que la protena est formada por varias subunidades. Como

ejemplos de protenas con estructura cuaternaria se puede considerar la
hemoglobina, las inmunoglobulinas o la miosina.
34
4. Protein Data Bank

El Protein Data Bank es un repositorio de descripciones experimentales de las
estructuras moleculares de protenas y cidos nucleicos resueltos hasta el
momento. Cada descripcin es un archivo de texto que contiene las coordenadas
atmicas de la molcula en cuestin en un formato que se llama PDB.
Crecimiento
Cuando se fund, el PDB contena tan slo 7 estructuras de protenas. Desde
entonces ha experimentado un crecimiento aproximadamente exponencial en el
nmero de estructuras y nada parece indicar que el ritmo vaya a decaer.
El ritmo de crecimiento del PDB ha sido analizado en profundidad en diversos
estudios.
5. Folding de Protenas
Las protenas para llevar a cabo sus funciones deben alcanzar una forma
determinada, conocida como Pliegue, en otras palabras, antes de realizar su
trabajo tienen que ensamblarse a s mismas. Este proceso de auto ensamblaje se
le llama Plegamiento.
Las protenas plegadas incorrectamente por lo general carecen de actividad
biolgica, pero en algunos casos pueden estar asociadas con enfermedades.
Para esto las clulas tienen sistemas que reducen las posibilidades de que las
protenas estn mal plegadas, adems cualquier protena de este tipo son
degradados por grupos celulares especializados del sistema de eliminacin.
5.1 Proceso De Folding

La explicacin de la eficiencia de la clula en la promocin de plegamiento de las
protenas probablemente se encuentra en los chaperones, la cual es una clase de
protena que se encuentra en todos los organismos desde las bacterias hasta en
los seres humanos. Los chaperones estn localizados en cada compartimiento
celular, unidos a una gran variedad de protenas, y la funcin de la chaperona en
general es el mecanismo de plegamiento de las protenas en las clulas.
Existen dos tipos de Chaperonas:
Chaperonas Moleculares: Se unen para estabilizar las protenas desplegadas o
parcialmente doblados, impidiendo as que estas protenas se agreguen y se
degraden.
Chaperoninas: Facilitan directamente el plegamiento de las protenas.
5.1.1 Chaperonas Moleculares
De particular importancia son las chaperonas presentes en todos los tipos de
clulas y en los compartimentos celulares. Algunas chaperonas interactan con las
35
cadenas recin formadas que emergen de los ribosomas. En tanto que otras guan
en las etapas posteriores del plegado.
5.1.2 Chaperoninas
Las chaperoninas utilizan su estructura para ayudar en el plegamiento de muchas
protenas mediante un mecanismo muy general pero poco eficiente, que se basa
en el aislamiento de la protena a plegar. En los organismos eucariotas esta
arquitectura ha generado la chaperonina CCT, que pliega eficientemente un
reducido nmero de protenas.
6. Alineamiento de Estructuras
Un alineamiento estructural es un tipo de alineamiento de secuencias basado en la
comparacin de la forma. Estos alineamientos intentan establecer equivalencias
entre dos o ms estructuras de polmeros basndose en su forma y conformacin
tridimensional. El proceso se aplica normalmente a las estructuras terciarias de las
protenas, pero tambin puede usarse para largas molculas de ARN. En
contraste a la simple superposicin estructural, donde al menos se conocen
algunos residuos equivalentes de las dos estructuras, el alineamiento estructural
no requiere un conocimiento previo de posiciones equivalentes. Es una valiosa
herramienta para la comparacin de protenas con baja similitud entre sus
secuencias, en donde las relaciones evolutivas entre protenas no pueden ser
fcilmente detectadas por tcnicas estndares de alineamiento de secuencias. El
alineamiento estructural puede usarse, por lo tanto, para sugerir relaciones
evolutivas entre protenas que comparten una secuencia comn muy corta. Sin
embargo, el uso de los resultados como evidencia de un ancestro evolutivo comn
debe realizarse con cautela dados los posibles efectos de confusin con la
evolucin convergente, segn la cual mltiples secuencias de aminocidos sin
relacin filogentica entre si convergen a una misma estructura terciaria."
36
CONCLUSIN
Se realiz una recopilacin de conceptos y un repaso por las bases de la

bioinformtica, as como las ciencias que la componen para afianzar nuestro
propio concepto con respecto al tema.
Algunos de los conceptos de la bioqumica aplicada a la bioinformtica dieron
ms ideas y compresin acerca de las bases de datos que se pueden crear para
el desarrollo y avance en cuanto al conocimiento de la informacin de los
organismos en general.
37
BIBLIOGRAFA.
Apuntes de Clase de Bioinformtica. Ingeniera Telemtica. Docente Marco
Regalia. Universidad Distrital Francisco Jos de Caldas. 2011
http://www.aulaclic.es/sqlserver/b_1_1_4.htm
http://www.monografias.com/trabajos5/norbad/norbad.shtml#ixzz3l0CPoRmD
https://adnestructurayfunciones.wordpress.com/2008/08/15/adn/
http://biology.kenyon.edu/courses/biol63/watson_06.pdf
http://www.news-medical.net/health/RNA-Structure-(Spanish).aspx
http://tecnologica.udistrital.edu.co/moodle/course/view.php?id=36
http://www.um.es/molecula/anucl03.htm
http://scielo.sld.cu/scielo.php?pid=S1024-94352004000600002&script=sci_arttext
38

Capitulo I Introducción A La Bioinformatica

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Capitulo I Introducción A La Bioinformatica

Uploaded by

Copyright:

Available Formats

RESUMEN

La revelacin de la secuencia completa del genoma humano posibilit conocer las

CAPITULO I INTRODUCCIN A LA BIOINFORMATICA.

1958 Primera secuencia de protena

La bioinformtica estudia la Minera de Datos de:

ADN (cido Desoxirribonucleico)

En la bioinformtica lo que se hace es:

Almacenar datos de genes a travs de minera de datos.

Las clulas hacen parte de dos clases de organismos: Pluricelulares y Mono

3.2 Dogma Central de la Biologa Molecular

4.3 cido Desoxirribunocleico (ADN).

4.4 Traduccin y Transcripcin Gentica.

4.5 Cdigo Gentico.

crecimiento del organismo. Realizan una enorme cantidad de funciones diferentes,

Estructural. sta es la funcin ms importante de una protena.

CAPITULO II SECUENCIAS DE ADN

BlastN: Busca una secuencia ADN/ARN en la base de datos de Nucleotidos

3.3 Variantes de BLAST.

Gapped BLAST: Esta es una mejora al algoritmo original del BLAST.2

CAPITULO III GENES

Caractersticas Del Cdigo Gentico

a) El Cdigo es Organizado en Tripletes o Codones: Si cada nucletido

b) El Cdigo Gentico es Degenerado: Como hemos dicho anteriormente

Extremo 3': Lugar de unin al aminocido (contiene siempre la secuencia

c) El Cdigo Gentico es No Solapado o Sin Superposiciones: Un nucletido

Utilizacin de ARN mensajeros en diferentes sistemas acelulares.

2. Open Reading Frames (ORF)

2.2 ORF Finder (Open Reading Frame Finder) - NCBI

El alineamiento de mltiples secuencias es muy utilizado en la bsqueda de que

1.2 rbol Filogentico

todas las variedades de proteomas celulares. Es aproximadamente, el equivalente

Protemica engloba un conjunto de metodologas orientadas al estudio sistemtico

4. Anlisis Comparativo de Protenas

5. PROSITE, PRINTS, Pfam, InterPro

sitios funcionales as como patrones de aminocidos. Estos son manualmente

CAPITULO V BASES DE DATOS

Bases de datos convencionales. Tienen la informacin almacenada en

Bases de datos tipo sistema experto. Son bases de datos muy

Este proceso es la descomposicin; el mismo es necesario independientemente

Una vez que hayamos examinado las distintas formas de dependencia,

Biologa de Visualizacin de Datos

Es una rama de la bioinformtica relacionada con la aplicacin de grficos por

Una nueva tendencia es la difuminacin de las fronteras entre la visualizacin de

Base de Datos Biolgicas

Una base de datos biolgica es un almacn de datos para informacin derivada de

CAPTULO VI ESTRUCTURAS BIOLGICAS

1. cido desoxirribonucleico (ADN)

La molcula de desoxirribosa ocupa el centro del nucletido y est flanqueada por

As, el triplete GAC (guanina, adenina, citosina) es el codn correspondiente

En casi todos los organismos celulares, la replicacin de las molculas de ADN

2. cido Ribonucleico ARN

una base unida a la posicin 1'

un grupo hidroxilo en la posicin 2

un fosfato Unido a la posicin 3' de una ribosa y la posicin 5' de la

2.1 Bases de RNA

La palabra protena proviene del griego protop (lo primero, lo principal, lo ms

necesario que la protena est formada por varias subunidades. Como

4. Protein Data Bank

5.1 Proceso De Folding

Se realiz una recopilacin de conceptos y un repaso por las bases de la

You might also like