|
|
Al principio fue el |
|
|
Verbo |
|
BIOINFORMÁTICA |
y del Verbo surgio un |
|
|
Organismo |
|
|
y del
Organismo surgió la |
|
|
Vida |
(Para el
establecimiento de patrones en la información biológica)
3.4 Búsqueda de secuencias similares
RECOMENDACIONES PARA TRABAJOS FUTUROS
ANEXOS
El hombre en su afán por entender el universo lo ha
clasificado y dividido según las propiedades de aquellos objetos que lo
conforman, hasta hace algunos años solo se consideraban la Materia y la Energía
como las propiedades básicas de la realidad, pero no hace mucho la Información
se sumó como un nuevo factor, dando nacimiento a la Informática o la ciencia
que se encarga del estudio de la información.
"Claude Shannon encargado de descifrar mensajes del
enemigo durante la segunda guerra mundial consideraba que la
información no solo son datos , noticias, hechos, sino una fuerza activa
que da forma y carácter a las cosas, aun a los
pensamientos"[1][2].
En muchas ocasiones la Informática se asocia
únicamente con las computadoras y si bien es cierto que en gran
medida su desarrollo se debió a la necesidad de manejar grandes
cantidades de información en tiempos mínimos, esto no quiere decir
que solamente a esto se limite, ya que eso sería equivalente a
pensar que la Biotecnología solo se limita a las técnicas de cultivo y
mantenimiento de los micro-organismos.
La Informática tiene grandes posibilidades y
potencialidades en todos los campos del que hacer humano ya que su
campo de estudio se centra en la información y ésta se presenta
prácticamente en cualquier área, por ejemplo en el caso de la Biología se
le ha vinculado directamente con todo aquello que implica los
sistemas de percepción de la realidad, y recientemente, mediante el
estudio de las formas y de su evolución se empieza a dar un giro a la
manera en la cual se estudian los fenómenos biológicos[3].
A continuación presentaremos algunos ejemplos en
donde la Informática se interrelaciona con la Biología.
Por ejemplo, en áreas como la Teoría de la
Información y de la comunicación de datos se busca que el espacio
que ocupa la información dependa de su nivel de importancia y de la
frecuencia con la que aparece[4], con lo cual los datos a ser
transmitidos requieren menos energía entre más importantes son, así
la primera prioridad que se establece es la de un mínimo espacio
necesario, esta idea se puede generalizar y podemos plantear que, entre
más sea usada una información o entre más importante sea para el
sistema conviene que sea menor su espacio de almacenaje.
De esta forma la energía necesaria para reproducir
dicha información es mínima, pudiendo el sistema, disponer fácilmente de
ella, con un gasto mínimo de energía.
Como otro ejemplo tenemos que para estudiar al código
genético es común que, primero se identifique la característica que
se quiere estudiar, después se aísla un organismo que exprese de manera
abundante dicha característica, se le extrae el ADN, se identifica y
aísla el gen de interés, después se secuencia éste, y se observa si
existe mutación, esta manera de estudiar al código genético equivale a
tratar de leer un libro fijándonos en cada una de las líneas que componen
a las letras que conforman las oraciones.
A nivel informático se cuenta con la Lingüística
Matemática[5][6][7]que es toda un área dedicada al estudio de los
lenguajes sean estos lenguajes matemáticos, químicos, o hablados, con el
auxilio de esta área se puede empezar a entender de una manera más
amplia al lenguaje natural más difundido "el código genético"
usando como si fuera piedra roseta a las proteínas ya que estas son el
concepto que a la larga se desea transmitir.
Por otra parte existe una gran cantidad de
información sobre secuenciación genética, en base a la cual
mediante un análisis comparativo se pueden ir encontrando patrones de
información, que a la larga sirvan para modelar desde un marco teórico
secuencias de genes de interés Desde hace más de quince años y
teniendo como pioneros a informáticos mexicanos se ha ido
desarrollando toda un área del conocimiento que se dedica al
estudio de la evolución en los sistemas[6][7], entendiéndose con la
palabra Evolución a los cambios que presentan los sistemas debido a los
flujos de materia, energía e información.
En base a lo anterior seria posible modelar la
evolución en sistemas biológicos, donde el principal vector de
cambio han sido las mutaciones en la información genética de los
organismos, permitiéndoles adaptarse mejor a su entorno.
Una de las áreas que más se ha desarrollado
últimamente es la Teoría de Caos y fractales[9][10].
A nivel biológico se habla de procesos de
diferenciación que dan origen a células altamente especializadas,
éstas por un proceso de desdiferenciación debido a la desregulación
de algunos de sus genes pueden derivar en cosas tan dañinas como lo es un
cáncer.
A nivel informático se hablaría de una misma
información que se encuentra sumergida en distintos espacios
caóticos, productos estos de la evolución del organismo de una
célula cigoto a un ser multicelular, entonces la desdiferenciación se
observaría como un cambio en los objetivos de la célula, debido ya sea a
que el espacio caótico en que se desarrolla cambio (las condiciones
exteriores de la célula) o porque la información en su interior fue
alterada.
De esta manera se puede empezar a visualizar cómo a
partir de conceptos informáticos se pueden modelar algunos
fenómenos biológicos, surgiendo una nueva rama del conocimiento que
conjugue ambas áreas y a la cual incluso muy bien podríamos llamar
Bioinformática[11][12].
Para el estudio de la información genética y proteica
se abren infinidad de posibilidades que van desde las más prácticas
como el diseño de mejores matrices para la purificación de proteínas
hasta la posibilidad de poder diseñar desde un plano teórico genes y
proteínas de nuestro interés, programando los genes de los
micro-organismos.
Hace poco tiempo se termino de decodificar el genoma
humano, pero como muchos han señalado esto apenas es el comienzo de
lo que muy bien puede llamarse el mayor descubrimiento en la historia de
la humanidad, el poder descifrar las instrucciones que hacen que un ser
humano sea un ser humano, pero para poder comprender como esto es
posible será necesario no solamente visualizar al genoma cómo un conjunto
de bases químicas ordenadas en una secuencia específica, si no más
bien como información que obedece patrones y reglas, los cuales todavía
falta descubrir y para ello será necesario analizar la información
biológica disponible de diversos organismos.
Por otra parte es común encontrarnos con que
los precios de el software existente para el análisis de procesos
biológicos suelen ser muy elevados, además que tienden a ser
extremadamente grandes y con la incomodidad de que como no poseemos los
programas fuentes no es factible que sean modificables para las
necesidades específicas del análisis que se pretenda
realizar 1.
Actualmente en todo el mundo y principalmente en
Europa se están creando centros de investigación y nuevas cátedras
en torno a la Bioinformática[11][12] , previendo la gran necesidad que habrá
de personas especializadas en esta área en los próximos años.
También existen en internet múltiples sitios
donde se pueden consultar las secuencias de los genes y las
proteínas conforme estos son liberados para su estudio y
utilización por parte de los investigadores y gente interesada en el
área[16], de esta manera al colocar en el buscador de internet
"Altavista" la palabra "bioinformatics" encontramos
más de 150 000 páginas relacionadas con el tema
Una de las formas en las cuales
estos sitios son utilizados es para lo que bien podríamos llamar
southern blot electrónico, el cual consiste en secuenciar un gen o
un fragmento de nucleótidos y en vez de realizar un empalme con una
secuencia conocida se suministran los datos a la red para que el blast
busque y compare en diversos bancos de genes a nivel mundial y
obtener de esta forma una identificación aproximada del gen o en dado
caso su posible afinidad con genes conocidos
Como primer paso se recopila información
en bancos de secuencias de proteínas y de genes, estos bancos se encuentran en
internet[15] y la primera parte del proyecto fue localizar su dirección
electrónica, después de buscar en internet se decidió utilizar el sitio del
Instituto Europeo de Bioinformática (European Bioinformatic Institute EBI) que se encuentra entrando a
internet con www.ebi.ac.uk
En el banco de proteínas que se utiliza,
para cada proteína se indica el tipo de enzima y el organismo del cual fue
aislada, por ejemplo si aparece AMY_BACSU indica que se trata de una amilasa
que se aíslo de Bacillus subtilis.
AMY |
BACSU |
|
Tipo de enzima
o proteína |
Organismo
del cual fue aislada
|
|
|
genero especie |
|
AMY Amilasas |
BAC SU |
|
|
Bacillus subtilis |
Otros abreviaturas de proteínas que aparecen en el
presente trabajo son:
|
Abreviatura |
Enzima o
proteína |
|
CYC |
Citocromo C
|
|
GUN |
Endoglucosidasas |
|
CGT |
Cyclomaltodextrin glucanasa |
|
MALT |
Maltasas |
En base a la secuencia de la proteína de
interés se realiza un análisis de Blast-p. El
Blast es un método que va comparando la secuencia suministrada con las otras
secuencias que se encuentran almacenadas en el banco de genes o proteínas y
selecciona aquellas que muestran homología con la secuencia suministrada,
mostrando también las zonas de homología, el blast-p es específico para el
análisis de secuencias de aminoácidos y el blast-x para el análisis de
secuencias de nucleótidos.
La
información es clasificada e integrada
con el fin de utilizarla para la búsqueda de patrones de comportamiento a nivel
genético y proteico, para lo cual se utilizan varias herramientas informáticas,
como por ejemplo: teoría de la información, lingüística matemática, sistemas
evolutivos, programación en lenguaje C.
En esta etapa lo primero que se realiza
es el establecimiento de la estructura
lingüística para la proteína o gen analizado. Para ilustrar lo anterior y como
ejemplo de los resultados obtenidos partiremos de la tabla 2.1 que muestra un
pequeño fragmento del Blast p realizado para citocromo C.
|
Citocromo C
(CYC) |
|
|||||||||||
|
Organismo |
Secuencia de
a.a |
|
||||||||||
|
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
11 |
|
|
EUGGR |
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
|
|
EUGVI |
G |
D |
A |
E |
R |
G |
K |
K |
L |
F |
E |
|
|
MOUSE |
G |
D |
A |
E |
A |
G |
K |
K |
I |
F |
V |
|
|
EQUAS |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
|
|
HORSE |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
|
|
BOVIN |
G |
D |
V |
E |
K |
G |
K |
K |
I |
F |
V |
|
De la tabla 2.1 observamos como en todos
los CYC el primer aminoácido es G, el segundo es D, mientras en el tercero
observamos dos posibles a.a A y V en este lugar lo marcamos como x1,
donde la x indica que se tiene una variable y el 1 por ser el primer lugar
donde se presenta variación, lo mismo sucede en el 5° a.a. aquí lo marcamos
como x2 por ser el 2° sitio donde existen diversos a.a. para la
misma posición, de esta forma vamos obteniendo la estructura lingüística
G D
x1 E x2 G K K
x3 F x4
Mediante este proceso se ha desarrollado el análisis de cadenas de diferentes
tipos de proteínas, encontrando su estructura lingüística. Para el caso del
citocromo C pudimos establecer su estructura en base al análisis visual de su
blast-p ya que se trata de una proteína relativamente pequeña, pero cuando empezamos a tratar con los blast-p de
las celulasas el análisis se complicó al tener algunas de las proteínas
secuencias de más de 500 a.a. por lo cual nos vimos en la necesidad de crear
varios programas (ver anexos D)
Para
un mejor entendimiento de las propiedades lingüísticas de las proteínas
estudiadas es necesario comenzar un análisis a nivel de caracteres, donde cada aminoácido se visualiza como un caracter de una oración, en este sentido
se crearon programas que nos permitieran visualizar el porcentaje de aparición
de un aminoácido en un sitio determinado obteniendo resultados muy
interesantes.
Estos resultados nos permiten apreciar
entre otras cosas los patrones de variación en un sitio determinado de la
proteína, pudiéndose apreciar si los
aminoácidos que aparecen en un sitio determinado son todos del mismo tipo p. ej. 100%
neutros o
si existe combinaciones p ej. 70%
neutros 20% ácidos 10% básicos e incluso 30%
neutros-aromáticos 70% neutros no aromáticos
Finalmente se desarrolló otra
herramienta que conjugando lo anterior permite tanto el establecimiento de la
ecuación lingüística como el comparar ésta con secuencias de aminoácidos
de forma tal que selecciona
aquellas que cumplen la ecuación.
En el presente trabajo se utilizaron
como proteínas de estudio a las celulasas y amilasas debido a su importancia
económica, por su parte el modelo de citocromo C que obtengamos al analizar las
cadenas completas nos servirá de referencia para validar los otros modelos, ya
que existen suficientes estudios en base al citocromo C para comparar con
nuestros resultados. Cabe señalar que los procedimientos aquí utilizados pueden
ser aplicados para el análisis de proteínas y de ser el caso también para el
estudio de genes, ya que a las herramientas que creamos para poder analizar
nuestras secuencias les es indistinto, puesto que visualizan a las proteínas o
a los genes como una secuencia de caracteres.
Como se mencionó en la metodología la primera parte del proyecto consistió en
entrar a internet para localizar bancos de genes y proteínas que fuesen de
utilidad, de estos se decidió utilizar el sitio del Instituto Europeo de
Bioinformática (European Bioinformatic Institute EBI )[15] ya que posee varios bancos tanto de proteínas como
de genes, además mediante ligas se puede acceder a otros de estos bancos que se
encuentra en todo el mundo.
Dentro de los bancos de proteínas se
buscaron las secuencias de aminoácidos de las enzimas de nuestro interés,
encontrándose una gran cantidad de ejemplos, por lo que nos centraremos para el
análisis en los blast-p del citocromo C, endoglucanasas y amilasas.
Para buscar una endoglucosidasa que nos
sirviera para el estudio, entramos al banco de proteínas "Enzimes"
del EBI, encontrando que ahí se encuentran disponibles para su utilización las
secuencias de endoglucosidasas que se muestran en la tabla 3.1
|
Identificación |
Organismo |
Identificación |
Organismo
|
Identificación |
Organismo |
|
P40942 |
CEXY_CLOSR |
P54583 |
GUN1_ACICE |
P06566 |
GUN1_BACS4 |
|
P07983 |
GUN1_BACSU |
P20847 |
GUN1_BUTFI |
P17877 |
GUN1_CLOJO |
|
Q04469 |
GUN1_CRYFL |
Q12622 |
GUN1_HUMGR |
P05522 |
GUN1_PERAE |
|
P16216 |
GUN1_RUMAL |
P21833 |
GUN1_SCLSC |
P33682 |
GUN1_STRHA |
|
Q05156 |
GUN1_STRRE |
P13933 |
GUN1_STRSQ |
Q12714 |
GUN1_TRILO |
|
P07981 |
GUN1_TRIRE |
P54424 |
GUN1_USTMA |
P06565 |
GUN2_BACS4 |
|
P10475 |
GUN2_BACSU |
P37701 |
GUN2_CLOJO |
P23666 |
GUN2_PERAE |
|
P21834 |
GUN2_SCLSC |
P26222 |
GUN2_THEFU |
P07982 |
GUN2_TRIRE |
|
P19570 |
GUN3_BACS4 |
P23549 |
GUN3_BACSU |
P14250 |
GUN3_FIBSU |
|
Q07940 |
GUN4_RUMAL |
P26221 |
GUN4_THEFU |
P43316 |
GUN5_HUMIN |
|
Q01786 |
GUN5_THEFU |
P43317 |
GUN5_TRIRE |
P22699 |
GUN6_DICDI |
|
P37696 |
GUNA_ACEXY |
Q12679 |
GUNA_ASPAK |
P29719 |
GUNA_BACLA |
|
P22541 |
GUNA_BUTFI |
P22534 |
GUNA_CALSA |
P07984 |
GUNA_CELFI |
|
P17901 |
GUNA_CLOCE |
P54937 |
GUNA_CLOLO |
P04955 |
GUNA_CLOTM |
|
P23665 |
GUNA_FIBSU |
P26414 |
GUNA_MICBI |
P10476 |
GUNA_PSEFL |
|
P23660 |
GUNA_RUMAL |
P27035 |
GUNA_STRLI |
P19487 |
GUNA_XANCP |
|
P23550 |
GUNB_BACLA |
P10474 |
GUNB_CALSA |
P26225 |
GUNB_CELFI |
|
P28621 |
GUNB_CLOCL |
P04956 |
GUNB_CLOTM |
P46236 |
GUNB_FUSOX |
|
Q12647 |
GUNB_NEOPA |
P18126 |
GUNB_PSEFL |
P23661 |
GUNB_RUMAL |
|
P14090 |
GUNC_CELFI |
P37699 |
GUNC_CLOCE |
P28622 |
GUNC_CLOCL |
|
P23340 |
GUNC_CLOSF |
P07985 |
GUNC_CLOTM |
P46237 |
GUNC_FUSOX |
|
P27033 |
GUNC_PSEFL |
P50400 |
GUND_CELFI |
P25472 |
GUND_CLOCE |
|
P28623 |
GUND_CLOCL |
P04954 |
GUND_CLOTM |
P10477 |
GUNE_CLOTM |
|
Q05622 |
GUNE_RUMFL |
P37698 |
GUNF_CLOCE |
P26224 |
GUNF_CLOTM |
|
P46239 |
GUNF_FUSOX |
P37700 |
GUNG_CLOCE |
Q05332 |
GUNG_CLOTM |
|
P16218 |
GUNH_CLOTM |
Q02934 |
GUNI_CLOTM |
P45699 |
GUNK_FUSOX |
|
P55742 |
GUNM_CLOTM |
Q59394 |
GUNN_ERWCA |
P38686 |
GUNS_CLOTM |
|
P16630 |
GUNS_ERWCA |
Q47096 |
GUNV_ERWCA |
Q59395 |
GUNW_ERWCA |
|
P15329 |
GUNX_CLOTM |
P38534 |
GUNX_PRUPE |
P27032 |
GUNY_ERWCH |
|
P23659 |
GUNZ_CLOSR |
P07103 |
GUNZ_ERWCH |
P22669 |
GUN_ASPAC |
|
P23548 |
GUN_BACPO |
P06564 |
GUN_BACS1 |
P19424 |
GUN_BACS6 |
|
P29019 |
GUN_BACSP |
P17974 |
GUN_BURSO |
P18336 |
GUN_CELUD |
|
P15704 |
GUN_CLOAB |
P22503 |
GUN_PHAVU |
P23044 |
GUN_ROBSP |
|
P22533 |
MANB_CALSA |
|
|
|
|
También en el banco de proteínas
"Enzimes" del European Bioinformatic Institute se encuentran
disponibles para su utilización las secuencias de amilasas que se muestran en
la tabla 3.2 a continuación
|
Identificación |
Organismo |
Identificación |
Organismo |
Identificación |
Organismo |
|||
|
P27935 |
AM2A_oRYSA |
P04750 |
AMY6_HoRVU |
P30269 |
AMY_BUTFI |
||
|
P27932 |
AM3A_oRYSA |
P41131 |
AMYA_AERHY |
P23671 |
AMY_CLoAB |
||
|
P27937 |
AM3B_oRYSA |
Q02905 |
AMYA_ASpAW |
P49274 |
AMY_DERpT |
||
|
P27939 |
AM3C_oRYSA |
P56271 |
AMYA_ASpNG |
Q59006 |
AMY_METJA |
||
|
P27933 |
AM3D_oRYSA |
P10529 |
AMYA_ASpoR |
P49067 |
AMY_pYRFU |
||
|
P27934 |
AM3E_oRYSA |
P54215 |
AMYA_DRoMA |
P30270 |
AMY_STRGR |
||
|
P27940 |
AMC1_oRYSA |
P08144 |
AMYA_DRoME |
P08486 |
AMY_STRHY |
||
|
P27941 |
AMC2_oRYSA |
P51548 |
AMYA_DRoYA |
Q05884 |
AMY_STRLI |
||
|
P53354 |
AMY1_AEDAE |
P17859 |
AMYA_VIGMU |
P09794 |
AMY_STRLM |
||
|
P22630 |
AMY1_AERHY |
Q02906 |
AMYB_ASpAW |
P27350 |
AMY_STRTL |
||
|
P19269 |
AMY1_DEBoC |
P21543 |
AMYB_pAEpo |
P22998 |
AMY_STRVL |
||
|
P09961 |
AMY1_DICTH |
P19961 |
AMYC_HUMAN |
P56634 |
AMY_TENMo |
||
|
P25718 |
AMY1_ECoLI |
P04746 |
AMYp_HUMAN |
P29750 |
AMY_THECU |
||
|
P00693 |
AMY1_HoRVU |
P00688 |
AMYp_MoUSE |
P26827 |
AMY_THETU |
||
|
P17654 |
AMY1_oRYSA |
P00690 |
AMYp_pIG |
P09107 |
AMY_TRICA |
||
|
P21567 |
AMY1_SACFI |
P00689 |
AMYp_RAT |
P38939 |
ApU_THEET |
||
|
Q09840 |
AMY1_SCHpo |
P17692 |
AMYR_BACS8 |
P36905 |
ApU_THESA |
||
|
P14898 |
AMY2_DICTH |
P04745 |
AMYS_HUMAN |
P38536 |
ApU_THETU |
||
|
P26612 |
AMY2_ECoLI |
P00687 |
AMYS_MoUSE |
P16950 |
ApU_THETY |
||
|
P04063 |
AMY2_HoRVU |
P29957 |
AMY_ALTHA |
P00692 |
AMY_BACAM |
||
|
P26613 |
AMY2_SALTY |
P30292 |
AMY_ASpSH |
P08137 |
AMY_BACCI |
||
|
O14154 |
AMY2_SCHpo |
P08117 |
AMY3_WHEAT |
P06278 |
AMY_BACLI |
||
|
P14899 |
AMY3_DICTH |
P04748 |
AMY4_HoRVU |
P20845 |
AMY_BACME |
||
|
P04747 |
AMY3_HoRVU |
P04749 |
AMY5_HoRVU |
P06279 |
AMY_BACST |
||
|
|
|
|
|
P00691 |
AMY_BACSU |
||
De la tabla 3.2 se eligió a las amilasas del genero Bacillus (AMY_BAC*) ya que a nivel industrial es el genero más utilizado para la producción de amilasas
Como se mencionó en la metodología el
Blast-p es una forma de análisis que sirve para agrupar proteínas similares
esto funciona de la siguiente forma
*Se suministra
la secuencia de aminoácidos de interés
*El programa
compara las proteínas que existen en diversos bancos de proteínas y escoge
aquellas secuencias que muestren homología (semejanza) con la de interés
*Presenta una
lista con todas aquellas secuencias con las cuales el fragmento o la proteína
suministrada tuvo semejanza
*Esta lista está
ordenada en orden descendente con respecto a la homología existente entre la
secuencia suministrada y la listada
Cabe
señalar que al programa en ningún momento se le indica el tipo de proteína
suministrada
La primera proteína con la cual se
comenzó a trabajar fue la de citocromo C la cual presenta varias ventajas
*Se trata de una
proteína relativamente pequeña ( de 100 a 120 a.a)
*Se han
realizado varios estudios en base a ella con lo cual podemos comparar nuestros
resultados
En este caso se
buscó en el banco de proteínas "Siwssprot" del European Bioinformatic Institute y se seleccionó el citocromo C de Euglena
gracilis cuya secuencia es de 102 a.a., de peso molecular 11210 Daltons y
su secuencia de aminoácidos se muestra a continuación
|
GDAERGKKLF |
ESRAAQCHSA |
QKGVNSTGPS |
LWGVYGRTSG |
SVPGYAYSNA |
|
NKNAAIVWEE |
ETLHKFLENP |
KKYVPGTKMA |
FAGIKAKKDR |
QDIIAYMKTL |
|
KD |
|
|
|
|
Con esta secuencia se realizó un
análisis mediante blast-p, utilizando las herramientas (Tools) que se
encuentran en la página web del Instituto, las secuencias que tuvieron
alineamientos significativos con la secuencia de el citocromo C de
Euglena gracilis se muestran en la tabla 3.3
Tabla 3.3
Secuencias con alineamientos significativos
con
el citocromo C de Euglena gracilis
|
1 |
CYC_EUGGR |
7 |
CYC_BOVIN
|
13 |
CYC_HUMAN |
19 |
CYC_NEUCR |
|
2 |
CYC_EUGVI
|
8 |
CYC_CYPCA |
14 |
CYC_CANFA |
20 |
CYC_RANCA |
|
3 |
CYC _MOUSE
|
9 |
CYC_MACGI |
15 |
CYC_MIRLE |
21 |
CYC_MINSC |
|
4 |
CYC _RAT
|
10 |
CYC_HIPAM |
16 |
CYC_KATPE |
22 |
CYC_APTPA |
|
5 |
CYC_EQUAS
|
11 |
CYC_THELA |
17 |
CYC_MACMU |
23 |
CYC_ENTTR |
|
6 |
CYC_HORSE
|
12 |
CYC_CRIFA
|
18 |
CYC_ESCGI |
24 |
CYC_MOUSE |
Al observar la tabla 3.3 vemos como todas las secuencias que tuvieron correlación con la que nosotros suministramos son de citocromos, aquí cabe señalar lo anteriormente mencionado sobre que a este programa en ningún momento se le indicó que la secuencia suministrada para el análisis se trataba de un citocromo C
Al observar la parte final del blast-p
para citocromo C, que se muestra a continuación. resalta como al parecer la
información biológica se comporta según lo predicho por la Teoría de la
información, un ejemplo muy claro es que el
tamaño de los citocromos C tiende a ser menor conforme el organismo al cual
pertenece es más evolucionado, esto se relaciona con el hecho de que
entre más importante resulta una información para un sistema menor es el tamaño
que ocupa su almacenamiento, ya que la información tiende a condensarse y
eficientar el espacio que ocupa conforme va siendo utilizada.
|
2179893195563.WU-blastp.a |
100.0% |
I |
I |
A |
Y |
M |
K |
T |
L |
K |
D |
|
1 SWALL:CYC_EUGGR |
100.0% |
I |
I |
A |
Y |
M |
K |
T |
L |
K |
D |
|
2 SWALL:CYC_EUGVI
|
91.2% |
I |
I |
A |
Y |
M |
K |
T |
L |
K |
D |
|
3 SWALL:CYC2_MOUSE |
58.2% |
L |
I |
K |
Y |
L |
K |
|
|
|
|
|
4
SWALL:CYC2_RAT
|
58.2% |
L |
I |
Q |
Y |
L |
K |
|
|
|
|
|
5
SWALL:CYC_EQUAS
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
6
SWALL:CYC_HORSE
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
7
SWALL:CYC_BOVIN
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
8
SWALL:CYC_CYPCA
|
51.5% |
L |
I |
A |
Y |
L |
K |
S |
|
|
|
|
9 SWALL:CYC_MACGI
|
57.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
10
SWALL:CYC_HIPAM
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
11
SWALL:CYC_THELA
|
57.1% |
L |
I |
T |
Y |
L |
K |
|
|
|
|
|
12
SWALL:CYC_CRIFA
|
56.4% |
V |
I |
A |
Y |
L |
E |
T |
L |
K |
|
|
13
SWALL:G298836
|
58.2% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
14 SWALL:CYC_HUMAN
|
56.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
15
SWALL:CYC_CANFA
|
57.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
16
SWALL:CYC_MIRLE
|
57.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
17
SWALL:CYC_KATPE
|
54.5% |
L |
V |
A |
Y |
L |
K |
S |
|
|
|
|
18
SWALL:CYC_MACMU
|
56.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
19
SWALL:CYC_ESCGI
|
57.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
20
SWALL:CYC_NEUCR
|
57.1% |
I |
I |
T |
F |
M |
K |
|
|
|
|
|
21
SWALL:CYC_RANCA
|
55.6% |
L |
I |
A |
Y |
L |
K |
S |
|
|
|
|
22
SWALL:CYC_MINSC
|
56.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
23
SWALL:CYC_APTPA |
55.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
24
SWALL:CYC_ENTTR
|
54.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
|
25
SWALL:CYC_MOUSE
|
56.1% |
L |
I |
A |
Y |
L |
K |
|
|
|
|
De las endoglucanasas disponibles se
eligió la de Thermomonospora
fusca. cuya secuencia es de 880 a.a; 95202 MW, para realizar el análisis de
Blast-p se suministró la secuencia completa que se muestra a continuación
|
MSVTEPPPRR |
RGRHSRARRF |
LTSLGATAAL |
TAGMLGVPLA |
TGTAHAEPAF |
NYAEALQKSM |
|
FFYEAQRSGK |
LPENNRVSWR |
GDSGLNDGAD |
VGLDLTGGWY |
DAGDHVKFGF |
PMAFTATMLA |
|
WGAIESPEGY |
IRSGQMPYLK |
DNLRWVNDYF |
IKAHPSPNVL |
YVQVGDGDAD |
HKWWGPAEVM |
|
PMERPSFKVD |
PSCPGSDVAA |
ETAAAMAASS |
IVFADDDPAY |
AATLVQHAKQ |
LYTFADTYRG |
|
VYSDCVPAGA |
FYNSWSGYQD |
ELVWGAYWLY |
KATGDDSYLA |
KAEYEYDFLS |
TEQQTDLRSY |
|
RWTIAWDDKS |
YGYVLLAKE |
TGKQKYIDDA |
NRWLDYWTVG |
VNGQRVPYSP |
GMAVLDTWG |
|
ALRYAANTAF |
VALVYAKVID |
DPVRKQRYHD |
FAVRQINYAL |
GDNPRNSSYV |
VGFGNNPPRN |
|
PHHRTAHGSW |
TDSIASPAEN |
RHVLYGALVG |
GPGSPNDAYT |
DDRQDYVANE |
VATDYNAGFS |
|
SALAMLVEEY |
GGTPLADFPP |
TEEPDGPEIF |
VEAQINTPGT |
TFTEIKAMIR |
NQSGWPARML |
|
DKGTFRYWFT |
LDEGVDPADI |
TVSSAYNQCA |
TPEDVHHVSG |
DLYYVEIDCT |
GEKIFPGGQS |
|
EHRREVQFRI |
AGGPGWDPSN |
DWSFQGIGNEL |
APAPYIVLY |
DDGVPVWGTA |
PEEGEEPGGG |
|
EGPGGGEEPG |
EDVTPPSAPG |
SPAVRDVTST |
SAVLTWSASS |
DTGGSGVAGY |
DVFLRAGTGQ |
|
EQKVGSTTRT |
SFTLTGLEPD |
TTYIAAVVAR |
DNAGNVSQRS |
TVSFTTLAEN |
GGGPDASCTV |
|
GYSTNDWDSG |
FTASIRITYH |
GTAPLSSWEL |
SFTFPAGQQV |
THGWNATWRQ |
DGAAVTATPM |
|
SWNSSLAPGA |
TVEVGFNGSW |
SGSNTPPTDF |
TLNGEPCALA |
|
|
El balance general del análisis por
blast-p realizado para celulasas fue el siguiente
|
|
Identificación |
Descripción |
|
Identificación |
Descripción |
|
||||||||||||||||||||
|
1 |
O65186 |
celulasa. 8/98f98 |
51 |
Q42059 |
endoglucanasa 1 precursor |
|
||||||||||||||||||||
|
2 |
G3600052 |
2p3.1 proteína. |
52 |
G1836024 |
cel2=celulasa 2. 3/98 492 |
|
||||||||||||||||||||
|
3 |
O48766 |
supuesta celulasa. |
53 |
O65987 |
endoglucanasa h (fragmento). |
|
||||||||||||||||||||
|
4 |
O64889 |
supuesta celulasa |
54 |
G1836025 |
cel3=celulasa 3. 3/98 |
|
||||||||||||||||||||
|
5 |
G3341674 |
supuesta glicosil hidrolasa |
55 |
GUN2_PERAE |
endoglucanasa 2 (ec 3.2.1.4) |
|
||||||||||||||||||||
|
6 |
O64890 |
supuesta celulasa |
56 |
G1836028 |
cel6 = celulasa 6. 3/98 |
|
||||||||||||||||||||
|
7 |
G3341675 |
supuesta glicosil hidrolasa |
57 |
G3746670 |
endo-1,4-beta-glucanasa (ec 3.2 |
|
||||||||||||||||||||
|
8 |
G3341676 |
supuesta glicosil hidrolasa |
58 |
P71141 |
endoglucanasa (fragmento). 11/98 |
|
||||||||||||||||||||
|
9 |
G3341677 |
supuesta glicosil hidrolasa |
59 |
Q43750 |
celulasa (ec 3.2.1.4) (endogluca... |
|
||||||||||||||||||||
|
10 |
Q96546 |
endo-beta-1,4-glucanasa |
60 |
Q42151 |
relative to endoglucanasa 1 |
|
||||||||||||||||||||
|
11 |
Q42875 |
endo-1,4-beta-glucanasa precursor |
61 |
O50014 |
endo-1,4-beta-glucanasa fragmento |
|
||||||||||||||||||||
|
12 |
O64949 |
endo-1,4-beta glucanasa. 8/98 |
62 |
O24280 |
endo-beta-1,4-glucanasa |
|
||||||||||||||||||||
|
13 |
O22297 |
acidic celulasa. 11/98 |
63 |
Q43749. |
celulasa (ec 3.2.1.4) endoglucanasa. |
|
||||||||||||||||||||
|
14 |
O64402 |
endo-beta-1,4-glucanasa. 11/98 |
64 |
O24281 |
endo-beta-1,4-glucanasa |
|
||||||||||||||||||||
|
15 |
G3377800 |
t2h3.5
proteína. 10/98 |
65 |
Q39848 |
celulasa, endo-1,4-beta-... |
|
||||||||||||||||||||
|
16 |
Q40763 |
q40763 celulasa precursor. 11/98 |
66 |
GUNA_FIBSU |
endoglucanasa precursor |
|
||||||||||||||||||||
|
17 |
O64401 |
endo-beta-1,4-glucanasa. 11/98 |
67 |
Q52746 |
beta-glucanasa. 11/98 |
|
||||||||||||||||||||
|
18 |
P94114 |
endo-beta-1,4-glucanasa |
68 |
P77864 |
endoglucanasa d precursor |
|
||||||||||||||||||||
|
19 |
G3687887 |
endo-1,4-beta-glucanasa |
69 |
P94794 |
pbgb (fragmento). 11/98 |
|
||||||||||||||||||||
|
20 |
G3549291 |
endo-1,4-beta-glucanasa |
70 |
Q43146 |
endo 1,4-glucanasa (ec 3.2.1.4) |
|
||||||||||||||||||||
|
21 |
O23697 |
endo-1,4-beta-glucanasa. |
71 |
Q59442 |
endo-1,4-beta-d-glucanasa |
|
||||||||||||||||||||
|
22 |
Q43149 |
celulasa (ec 3.2.1.4) endoglucanasa |
72 |
GUND_CLOTM |
endoglucanasa d precursor |
|||||||||||||||||||||
|
23 |
O49296 |
t26j12.2 proteína |
73 |
P71326 |
endoglucanasa e. 11/98 |
|
||||||||||||||||||||
|
24 |
Q42660 |
beta-1,4-endoglicanohidrolasa |
74 |
Q59318 |
avicelase i (ec 3.2.1.4)
(cellula... |
|
||||||||||||||||||||
|
25 |
Q96545 |
celulasa (ec 3.2.1.4) |
75 |
|
gunc_butf> |
|
||||||||||||||||||||
|
26 |
P05522 |
gun1_perae endoglucanasa 1 |
76 |
P38534 |
gunx_prupe endoglucanasa |
|
||||||||||||||||||||
|
27 |
G547083 |
beta-1,4-glucanasa, celulasa |
77 |
D1029755 |
celulasa salivar (fragmento). ... |
|
||||||||||||||||||||
|
28 |
Q42872 |
endo-1,4-beta-glucanasa precursor |
78 |
O69308 |
celulasa 1,4-beta-celobiosidasa... |
|
||||||||||||||||||||
|
29 |
O23134 |
beta-glucanasa. 11/98 |
79 |
Q08166 |
celulasa 1 precursor (ec
3.2.1.4... |
|
||||||||||||||||||||
|
30 |
O04972 |
endo-1,4-beta-d-glucanasa |
80 |
Q38890 |
celulasa precursor. 11/98 |
|
||||||||||||||||||||
|
31 |
Q43105 |
celulasa (ec 3.2.1.4) (endogluca |
81 |
O50013 |
endo-1,4-beta-glucanasa fragmento |
|
||||||||||||||||||||
|
32 |
Q42871 |
endo-1,4-beta-glucanasa precursor |
82 |
O50011 |
endo-1,4-beta-glucanasa fragmento |
|
||||||||||||||||||||
|
33 |
P22503 |
gun_phavu endoglucanasa precursor |
83 |
Q02934 |
guni_clotm endoglucanasa 1 precursor |
|
||||||||||||||||||||
|
34 |
Q96547 |
celulasa (ec 3.2.1.4) endoglucanasa |
84 |
P26224 |
gunf_clotm endoglucanasa f precursor |
|
||||||||||||||||||||
|
35 |
O22298 |
basic celulasa. 11/98 |
85 |
Q55365 |
hypothetical 112.1 kd proteína. 11/98 |
|
||||||||||||||||||||
|
36 |
O23696 |
endo-1,4-beta-glucanasa. 11/98 |
86 |
O0447 |
f5i14.14. 11/98 |
|
||||||||||||||||||||
|
37 |
Q41012 |
endo-1,4-beta-glucanasa precursor. |
87 |
P23659 |
gunz_closr endoglucanasa z precursor |
|
||||||||||||||||||||
|
38 |
O23954 |
endo-1,4-beta-glucanasa |
88 |
Q38817 |
beta-glucanasa (fragmento). 11/98 |
|
||||||||||||||||||||
|
39 |
:D1034676 |
nteg precursor (ec 3.2.1.4). 10/98 |
89 |
P96311 |
endoglucanasa a (ec 3.2.1.4) |
|
||||||||||||||||||||
|
40 |
D1034677 |
precursor (ec 3.2.1.4). |
90 |
Q43751 |
celulasa (ec 3.2.1.4) (endogluca. |
|
||||||||||||||||||||
|
41 |
GUN4_THEFU |
endoglucanasa e-4 precursor |
91 |
O50012 |
endo-1,4-beta-glucanasa fragmento |
|
||||||||||||||||||||
|
42 |
GUNB_CELFI |
endoglucanasa b precursor |
92 |
P37700 |
gung_cloce endoglucanasa g precursor |
|
||||||||||||||||||||
|
43 |
D1032280 |
salivary celulasa. |
93 |
O64891 |
supuesta celulasa, 5' partial |
|
||||||||||||||||||||
|
44 |
GUNC_CLOCL |
endoglucanasa c (ec 3.2.1.4) |
94 |
P22699 |
gun6_dicdi endoglucanasa precursor |
|
||||||||||||||||||||
|
45 |
O50589 |
endo-1,4-beta-glucanasa |
95 |
Q39847 |
cmcase, celulasa, endo-1,4-beta-. |
|
||||||||||||||||||||
|
46 |
D1035025 |
endoglucanasa 2. 10/98 |
96 |
P22534 |
guna_calsa endoglucanasa a precursor |
|
||||||||||||||||||||
|
47 |
O04890 |
endo-1,4-beta-glucanasa |
97 |
Q39826 |
celulasa (fragmento). 11/98 |
|
||||||||||||||||||||
|
48 |
G1836027 |
cel5=celulasa 5. 3/98 |
98 |
G3493633 |
celulasa (ec 3.2.1.4). |
|
||||||||||||||||||||
|
49 |
G1836026 |
cel4=celulasa 4. 3/98 |
99 |
G3598956 |
celulasa (ec 3.2.1.4). |
|
||||||||||||||||||||
|
50 |
G1836023 |
cel1=celulasa 1. 3/98 |
100 |
Q59444 |
endo-1,4-beta-d-glucanasa |
|
||||||||||||||||||||
Lo cual se resume en la tabla 3.4, donde
se concentró la cantidad y el tipo de enzimas encontradas en este análisis
|
Enzima |
N° |
|
celulasa
(ec 3.2.1.4) endo-beta-1,4-glucanasa |
54 |
|
endo-1,4-beta-glucanasa
fragmento |
30 |
|
supuesta
celulasa. |
5 |
|
supuesta
glicosil hidrolasa |
4 |
|
proteína.
|
3 |
|
celulasa
1,4-beta-celobiosidasa.. |
1 |
|
beta-1,4-endoglicanohidrolasa
|
1 |
|
acidic
celulasa. |
1 |
|
basic
celulasa. |
1 |
En base a estos primeros resultados
obtenidos de la realización del blast-p a citocromos y a una endoglucanasa nos
dimos cuenta que, es posible que existan secuencias altamente conservadas en
las proteínas que ejercen la misma función pero en distintos organismos y
condiciones.
Se realizaron varios análisis de blast-p
en base a diversas secuencias de amilasas hasta encontrar uno que nos
permitiera el análisis adecuado para establecer posteriormente la ecuación
lingüística que detecte amilasas.
Primero se realizó el análisis de
blast-p utilizando la amilasa de Bacillus megaterium y se obtuvo
homología mayormente con varios tipos de glucosidasas, tales como xilanasas,
manasas y en menor medida amilasas. Cuando se utilizó la secuencia de Bacillus
circulans se obtuvo homología mayormente con cyclomaltodextrin
glucanotransferasas como se observa en la tabla 3.5 donde se resumió la lista
de secuencias que tuvieron alineamientos significativos con la amilasa de Bacillus
circulans
|
Enzima |
% |
Enzima |
% |
|
cyclomaltodextrin
glucanotransferasas |
23 |
Neopullulanase.
|
6 |
|
Amilasa
digestiva |
1 |
Cyclomaltodextrinase
|
2 |
|
Amilasa |
18 |
acid
alpha-amylase |
2 |
|
alfa amilasa Maltogenica |
2 |
Exo-Alpha-1,
4-Glucosidasa |
1 |
|
Amilasa
alcalina |
2 |
neutral
and basic amino acid transferasa |
2 |
|
amilasa
precrusor |
22 |
Amilopulanasa |
1 |
|
glycosyl
hydrolase, |
2 |
otros |
6 |
Al observar los resultados anteriores se
decidió volver a clasificar la información y realizar un nuevo blast-p
utilizando ahora como patrón de comparación la secuencia de la amilasa de Bacillus
subtilis reportada en el banco de enzimas del EBI con ID AMY_BACSU STANDARD siendo su secuencia de 660
A.A; 72799 MW y que se presenta a continuación
|
MFAKRFKTSL |
LPLFAGFLLL |
FHLVLAGPAA |
ASAETANKSN |
ELTAPSIKSG |
TILHAWNWSF |
|
NTLKHNMKDI |
HDAGYTAIQT |
SPINQVKEGN |
QGDKSMSNWY |
WLYQPTSYQI |
GNRYLGTEQE |
|
FKEMCAAAEE |
YGIKVIVDAV |
INHTTSDYAA |
ISNEVKSIPN |
WTHGNTQIKN |
WSDRWDVTQN |
|
SLLGLYDWNT |
QNTQVQSYLK |
RFLDRALNDG |
ADGFRFDAAK |
HIELPDDGSY |
GSQFWPNITN |
|
TSAEFQYGEIL |
QDSASRDAA |
YANYMDVTAS |
NYGHSIRSAL |
KNRNLGVSNI |
SHYASDVSAD |
|
KLVTWVESHD |
TYANDDEEST |
WMSDDDIRLG |
WAVIASRSGS, |
TPLFFSRPEG |
GGNGVRFPGK |
|
SQIGDRGSAL |
FEDQAITAVN |
RFHNVMAGQP |
EELSNPNGNN |
QIFMNQRGSH |
GVVLANAGSS |
|
SVSINTATKL |
PDGRYDNKAG |
AGSFQVNDGK |
LTGTINARSV |
AVLYPDDIAK |
APHVFLENYK |
|
TGVTHSFNDQ |
LTITLRADAN |
TTKAVYQINN |
GPDDRRLRME |
INSQSEKEIQ |
FGKTYTIMLK |
|
GTNSDGVTRT |
EKYSFVKRDP |
ASAKTIGYQN |
PNHWSQVNAY |
IYKHDGSRVI |
ELTGSWPGKP |
|
MTKNADGIYT |
LTLPADTDTT |
NAKVIFNNGS |
AQVPGQNQPG |
FDYVLNGLYN |
DSGLSGSLPH |
Las secuencias que tuvieron
alineamientos significativos con la amilasa de Bacillus subtilis se
presentan en la tabla 3.6
Tabla 3.6
Secuencias con alineamientos significativos
con la amilasa de Bacillus subtilis
|
Identificación (ID) |
Organismo |
Descripción
|
|
Amy_Bacsu |
Bacillus
subtilis |
(Amye)
Alpha-Amilasa |
|
Amy_Butfi |
Butyrivibrio
fibrisolvens |
(Amya)
Alpha-Amilasa |
|
Amy_Thecu
|
Thermomonospora
curvata |
(Tam)
Alpha-Amilasa |
|
Amy_Cloab |
Clostridium acetobutylicum |
Putative
Alpha-Amilasa |
|
Amy_Strlm |
Streptomyces
limosus |
(Aml)
Alpha-Amilasa |
|
Amy_Strgr |
Streptomyces
griseus |
(Amy)
Alpha-Amilasa |
|
Amy_Strvl |
Streptomyces
violaceus |
(Aml)
Alpha-Amilasa |
|
Amy_Strtl |
Streptomyces thermoviolaceus |
(Amy)Alpha-Amilasa |
|
Amya_Droya |
Drosophila yakuba |
Alpha-Amilasa |
|
Amya_Droma |
Drosophila
mauritiana |
(Amy-D..)Alpha-Amilasa |
|
Amya_Drome
|
Drosophila
melanogaster |
(Amy-D..)Alpha-Amilasa |
|
Amy_Strhy |
Streptomyces
hygroscopicus |
Alpha-Amilasa
. |
|
Amy_Aerhy |
Aeromonas
hydrophila |
Alpha-Amilasa
Precursor |
|
Amya_Aerhy |
Aeromonas
hydrophila |
(Amya)
Alpha-Amilasa |
|
Amy_Tenmo |
Tenebrio
molitor |
Alpha-Amilasa |
|
Amy_Altha |
Alteromonas
haloplanktis |
(Amy)
Alpha-Amilasa |
|
Amyp_Rat |
Rattus norvegicus |
Alpha-AmilasaPancreatica |
|
Amyp_Mouse |
Mus musculus |
Alpha-AmylasaPancreatica |
|
Amyp_Pig |
Sus scrofa |
Alpha-AmilasaPancreatica |
|
Amyc_Human |
Homo
sapiens |
(Amy
B) Alpha-Amilasa B |
|
Amyp_Human |
Homo sapiens |
Alpha-Amilasa
Pancreatica |
|
mys_Human |
Homo sapiens |
Alpha-AmilasaSalivar |
|
Amy
_Aedae |
Aedes aegypti |
(Amy ..) Alpha-Amilasa I |
|
Amy_Trica |
Tribolium castaneum |
Alpha-Amilasa
Precursor... |
|
Amyb_Paepo |
Paenibacillus
polymyxa |
Beta/Alpha-Amilasa |
|
Amy_Sacfi |
Saccharomycopsis
fibuligera |
(Alp)
Alpha-Amilasa |
|
Cdg_Paema |
Paenibacillus
macerans |
Cyclomaltodextrin
|
|
Cdgt_Bacoh
|
Bacillus ohbensis |
(Cgt) Cyclomaltodextrin |
|
Cdgt_Bacst |
Bacillus stearothermophilus |
(Cgt) Cyclomaltodextrin |
|
Cdgt_Bacci |
Bacillus circulan |
Cyclomaltodextrin Glucanasa |
|
Cdgt_Bacss |
Bacillus Sp. |
Cyclomaltodextrin Glucanasa |
|
Amys_Mouse |
Mus
musculus |
(Amy)
Alpha-Amilasa Salivar |
|
Amya_Aspaw |
Aspergillus
awamori |
(Amya)
Alpha-Amilasa A |
|
Amya_Aspor |
Aspergillus
oryzae |
Alpha-Amilasa |
|
Amyb_Aspaw |
Aspergillus
awamori |