Post on 19-Jan-2016
description
transcript
Anotación de Genomas con ESTs
Eduardo Eyras
Bioinformática UPF – Marzo 2006
Objetivos:
Conocer un poco más sobre como se anotan genomas automáticamente
Y el uso de ESTs para anotar genomas
Objetivo
Proteínas conocidas Secuencias de mRNAs
Localización en el genoma de genes conocidos(known)
Alineamiento de proteínas/mRNAs al genoma en dos pasos
Resultado: estructura exónica
BLAST proteína/mRNA “query” contra genoma
Realinea proteína/mRNA “query” contra región genómica
1
2
. . . GCCGCACCTGAAGAGGGAAAAGC . . .
404 : CAGCCGCACCTGAAGAGG >>>> Target Intron 2 >>>> GAAAAGC : 428 ||||||||||||||||||++ 792 bp ++||||||| 27250191 : CAGCCGCACCTGAAGAGGgt.........................agGAAAAGC : 27251007
Secuencia genómica
mRNA “query”
Alineando mRNAs al genoma
Programas: Exonerate, Blat, Sim4, Spidey
DCUP_HUMAN 75 RFPLDAAIIFSDILVVPQ ALGMEVTM RF LDAAIIFSDILVVPQ ALGMEVTM RFLLDAAIIFSDILVVPQ ALGMEVTM HS307871 2141 ctccgggaattgacggccGTACCCA Intron 4 CAGgcgaggaa gtttacctttcattttca<0-----[2195 : 2433]-0>ctgtatct cctgttcctccccttacg agcgggcg
Secuencia genómica partida en codones
La traducción de la secuencia genómica
Proteína “query”
Alineando Proteínas al genoma
DCUP_HUMAN . . . RFPLDAAIIFSDILVVPQALGMEVTM . . .
Programas: GeneWise, Exonerate
Proteína alineada al genoma
Combinando proteinas y mRNAs
mRNA alineado en el mismo locus
Anotación de un tránscrito con CDS y UTR
Como encontrar más genes(novel)
Programas de predicción de genes: e.g. Genscan, Geneid, SGP2, Twinscan, etc…
Predicción
Comparamos con bases de datos (Proteínas, mRNAs, ESTs, etc)
Tránscrito 2
Tránscrito 1
Contruimos tráncritos a partir de predicciones con evidencia
Anotación Funcional
Anotación (predicción a partir de proteína o mRNA)
Comparación con Bases de Datos con información Funcional
A la caza de genes
Consorcio Público (HGP): Secuenciación del Genoma
Inciativa privada (Craig Venter): Secuenciación de ESTs
ESTs (Expressed Sequence Tags)
Son fragmentos de secuencia obtenidos a partir de clones de cDNA
Tiene una longitud de 300-600 bases
Pueden contener parte del CDS y/o UTR
Traducción: Etiquetas de secuencias expresadas?
mRNA extraído de células de un determinado tejido, estado de enfermedad y desarrollo.
Obtención de cDNA
ESTs
AAAAAA 3’5’
TTTTTT5’3’Clone cDNA into a vector
Multiple cDNA clones5’ EST
3’ EST
Single-pass sequence reads
Variantes de splicing
Genoma
Tránscrito primario
Splicing
Clones de cDNA
Secuencias de ESTs(una única lectura)
5’ 3’ 5’ 3’
Muestreando el Transcriptoma con ESTs
oligo-dT primer
Transcriptasa Reversa
Longitud de los ESTs
Distribución de longitudes para ESTs de human
(dbEST)
~ 450 bp
Alineamiento de ESTs al genoma para anotar genes
•El alineamiento define exones e intrones
EST
GT AG GT AG
dbEST: Más de 7 MILLONES de ESTs de humano
Alineamiento algenoma humano~ 3 Gigabases
Bioinformática como una Tecnología
Desarrollo de software specializado:
Programas que mejoran en rapidez sin perder en calidad en los alineamientos.
Desarrollo de tecnología especializada:
Computación en paralelo con más de 2000 CPUs
Alineamiento de ESTs al genoma
Pueden contener colas polyA/polyT del cDNA: tenemos que cortarlas
Pueden contener contaminación del vector: tenemos que filtrarlos.
Pueden contener intrones no procesados (clones de tránscritos no maduros): damos preferencia a ESTs que alineen con 1 ó más intrones, con dinucleótidos consenso: GT—AG, AT—AC, GC—AG
Es secuenciación de baja calidad (1 única pasada): Solo aceptamos “matches” casi exactos al genoma (coverage >= 97%, percent id>= 95%)
Alineamiento de ESTs al genoma
EST
Mejor alineamiento en todo el genoma
Parálogo
Pseudogene procesado
GT AG
PolyA*Stop
AAAA
GT AG
Alineamiento de ESTs al genoma
EST quimérico
Trozo de gen A Trozo de gen B
Thomson et al.. Fusion of the human gene for the polyubiquitination coeffector UEV1 with Kua, anewly identified gene.Genome Res. 2000 Nov;10(11):1743-56Parra et al. Tandem chimerism as a means to increase protein complexity in the human genome.Genome Res. 2006 Jan;16(1):37-44
ESTs dan información sobre variantes de splicing
¿Cuales son los tránscritos representados por este set de ESTs alienados al genoma?
¿podemos averiguar el conjunto de mRNAs en este locus del genoma que supuestamente
han dado lugar ha estos ESTs?
ESTs
Genoma
Compatibilidades entre distintos ESTs
2 ESTs pueden tener estructura exónicas redundantes:
x
z
z es redundante con x -> es suficiente quedarnos con x
x + z
Extensión de la estructura exónica
Consider 2 ESTs in a Genomic Cluster with more ESTS
x
y
y extiende x, podemos asumir que provienen del mismo mRNA
x + y
Extensión de la estructura exónica
x
zw
ESTs como z no son muy frecuentes, por lo que tendremos fragmentación
El resultado depende de la representación de exones en los ESTs.
Sin embargo, ESTs suelen representar mayormente regiones 3’y 5’.
Complejidad de las estructuras exónicas
x
zw
En un grupo de ESTs pueden existir redundancias y extensiones. Todas pueden ser importantes:
w es compatible con z pero no con x, mantenemos z a pesar de ser redundante con x, para obtener z + w
x + zz + w
Predicciones
ESTs
Predicción de tránscritos a partir de ESTs
Podemos obtener predicciones de mRNAs teniendo en cuenta las compatibilidades entre ESTs.
Eyras et al. Genome Research 2004
Secuenciación de ESTs a gran escala en paralelo a la secuenciación de un genoma
ESTs proporcionan información sobre la expresión de genes
Ontologías eVOC http://www.sanbi.ac.za/evoc/
Sistema Anatómico
Tipo de Célula
Patología
Estado de Desarrollo
El tejido, órgano o sistema anatómico en el que se ha preparado la muestra. Por ejemplo: digestivo, pulmón, retina.
El tipo de célula en el que se ha preparado la muestra.Ejemplo: Linfocitos B, Fibroblasto.
El estado patológico del tejido en el que se preparó la muestra. Por ejemplo: normal, linfoma.
El estadio en el desarrollo del organismo en el cual se preparó la muestra. Por ejemplo: embrión, feto, adulto.
Ontologías eVOC http://www.sanbi.ac.za/evoc/
Sistema Anatómico
Tipo de Célula
Patología Estado de Desarrollo
…nervioso
cerebro cerebelo …
Librería 1 Librería 2 …
ESTs ESTs
ESTs proporcionan información sobre la expresión de genes
Como conectar el vocabulario de expressión con los genes previamente anotados
ESTs
GenesV Curwen et al. Genome Research (2004)
Vocabulario de expresión
CONCLUSIONES
La anotación de genomas requiere software especializado.
ESTs (muestreo parcial de mRNAs) son útiles para anotar genomas. En particular:, para obtener información sobre splicing alternativo y sobre el contexto de la expresión.
La producción de ESTs es rápida y barata pero los datos necesitan bastante procesamiento.
Los ESTs solo dan información sobre los tránscritos expresados por la célula. Para estudia regiones reguladoras necesitamos el genoma.
FIN