Date post: | 12-Jul-2015 |
Category: |
Technology |
Upload: | alberto-labarga |
View: | 2,049 times |
Download: | 1 times |
Inteligencia Artificial en Bioinformática. Algunas Aplicaciones.
Carlos Cano GutiérrezFernando García Alcalde
Fco. Javier López DomingoMarta Cuadros CelorrioArmando Blanco Moron
Genome Alhambra Group http://genome.ugr.es
Dpto. Ciencias de la Computación e Inteligencia Artificial
Universidad de Granada
Abril 2009 I Jornadas de Bioinformática en Granada 2
Contenidos
1. Extracción de módulos de regulación genética mediante análisis de microarrays con Clustering y Biclustering.
2. Text-mining para extraer relaciones de la literatura biomédica
Abril 2009 I Jornadas de Bioinformática en Granada 3
Microarrays: Background biológico
• Células de un organismo: – Comparten mismo ADN.– Muestran distinto comportamiento.
• Causa: expresión-represión genes
Measure the expression level of gene G
Measure the mRNA abundance of gene G
Measure the amount of protein P
Abril 2009 I Jornadas de Bioinformática en Granada 4
Hibridación de un Microarray
Abril 2009 I Jornadas de Bioinformática en Granada 5
Hibridación de un Microarray (II)
• Excitar microarray con láser
• Medir fluorescencia emitida por cada spot:
gen expresado en cels. Tipo A.
gen expresado en cels. Tipo B.
gen expresado en ambos tipos.
gen no expresado en ningun tipo.
• Intensidad de la fluorescencia = nivel de expresión del gen.
Abril 2009 I Jornadas de Bioinformática en Granada 6
Matriz de expresión génica
• Resultado de la Tecnología de Microarrays• Matriz de expresión A: n genes x m condiciones• A(i,j) nivel de expresión gen i bajo condición j
Abril 2009 I Jornadas de Bioinformática en Granada 7
Clustering sobre matriz de expresión
• Identificar grupos de genes (condiciones) con el mismo comportamiento a lo largo de las condiciones (genes) --> genes coexpresados.
• Genes pertenecientes al mismo grupo probablemente compartirán una misma función biológica.
• Como un gen puede desempeñar varios papeles en distintos procesos biológicos, se requieren algoritmos de clustering no exclusivo.
Abril 2009 I Jornadas de Bioinformática en Granada 8
Objetivo
• Clustering no exclusivo (permite solapamiento entre clusters).
• Identificar clusters coherentes de genes con alta varianza entre muestras.
• Criterio:– Clusers coherentes (genes similares se agrupan
conjuntamente). – Máxima varianza de los valores de los genes para
las distintas condiciones.
Abril 2009 I Jornadas de Bioinformática en Granada 9
Objetivo (II)
Abril 2009 I Jornadas de Bioinformática en Granada 10
Máxima varianza para las muestras
• Objetivo: – Clusters ayudan a identificar distintos tipos de
muestras.– Identificar grupos de genes cuya variación en los
niveles de expresión pudiera estar relacionada con propiedades biológicas de las muestras.
• Medida variabilidad: varianzaSea el valor de expresion para la muestra j del gen promedio del cluster :
La varianza del gen promedio es:
donde
∑∈ kSi
ijj xk)(=x /1
jxSk
∑ −p
j=j
jx )xx(p)(=σ
1
2
2/1
∑ jxp)(=x /1
Diciembre 2007 Máster en Soft Computing y Sistemas Inteligentes 11
Algoritmo ‘Gene Shaving’ (Hastie, 2001)
• Obtener un cluster:– Encontrar una secuencia anidada de clusters:
– Elegir un cluster de la secuencia: función GAP
• Calcular la 1ª CP de los genes restantes
• Eliminar α% genes con menor correlación con la 1ª CP.
Abril 2009 I Jornadas de Bioinformática en Granada 12
Nuestra propuesta
• Selección de genes :≈ Problema Selección Características (FSS)
Algoritmos Evolutivos: Algoritmos Genéticos (GA)
Algoritmos de Estimación de Distribuciones de Probabilidad (EDA)
Abril 2009 I Jornadas de Bioinformática en Granada 13
• Medida fitness: función GAP
– Criterios (ANOVA):MAX Between Variance MIN Within Variance
– Calidad Cluster (percent of variance explained)
– Elegir el cluster de la secuencia que:
– donde es el promedio de
Sk
Calidad del Cluster
Abril 2009 I Jornadas de Bioinformática en Granada 14
Biclustering sobre matriz de expresión
El clustering identifica grupos de genes con el mismo comportamiento para TODAS las condiciones
Un bicluster es una submatriz cuyos valores están relacionados de acuerdo a un criterio establecido.
Criterio: GAP • Valores Coherentes (genes
similares en un mismo bicluster)
• Máxima varianza para las columnas del bicluster
Abril 2009 I Jornadas de Bioinformática en Granada 15
Biclustering utilizando CP: Gene & Sample Shaving
Gene & Sample Shaving: Eliminar genes y muestras• MAX VARIANZA MUESTRAS: Eliminar filas menos correladas
con la 1ª CP de las filas de X.• MIN VARIANZA GENES: Eliminar columnas más correladas
con la 1ª CP de las columnas de X
Abril 2009 I Jornadas de Bioinformática en Granada 16
Clustering. Comparativa resultados.
• Cho et al. 1998. Ciclo celular de la levadura.• 2879 genes x 17 condiciones• Comparación resultados (10ejec.x10clusters/ejec.)
Medias y desv. típicas de GAP y tamaño:
35.53 (10.1)72.64 (4.6)EDA-Clustering (single-step shaving)
15.3 (6.4)81.87 (4.8)EDA-Clustering (multiple-step shaving)
14.56 (4.01)79.92 (3.8)GA-Clustering
13.26 (10.3)61.89 (23.8)Gene-Shaving
Nº. GenesGAPAlgoritmo
Abril 2009 I Jornadas de Bioinformática en Granada 17
Biclustering. Comparativa resultados.
• Alizadeh et al. 2000. Tipos de linfoma humano.• 4026 genes x 96 condiciones (agrupadas en 9 tipos de
linfoma y muestras sanas).• Comparativa resultados (10 ejecs.x50 biclusters/ejec. )
9613.28 (96.6)52.13 (17.3)Gene Shaving
17.92 (4.5)20.24 (6.6)68.56 (8.3)EDA Biclustering
14.89 (14.2)10.98 (7.3)83.99 (7)Gene & Sample Shaving
Avg. No. Cols.
Avg. No. Genes
Avg. GAPAlgoritmo
Abril 2009 I Jornadas de Bioinformática en Granada 18
Interpretación biológica de los resultados.
• Multiple-step EDA-Clustering.
Sulfur metabolism. P-value 7,2e-15. GAP: 83. 4. size: 14 genes.
Asignación de términos más significativos de Gene Ontology:
• Single-step EDA-Clustering.
DNA metabolism. P-value 18e-13. GAP: 83.38. size: 50 genes.
Abril 2009 I Jornadas de Bioinformática en Granada 19
Biclustering. Interpretación biológica.
EDA Biclustering. GAP:90.22. tamaño: 39 genes, 24 condiciones
• Columnas 84 a 94 representan CLL (10/11 muestras de CLL)
• La expresión de los genes de este bicluster discrimina el CLL
respecto a otros tipos de tejidos sanos y cancerígenos.
Abril 2009 I Jornadas de Bioinformática en Granada 20
Trabajo futuro en Análisis de Microarrays.
• Integrar información de otras fuentes de datos biológicas: Gene Ontology, TRANSFAC, literatura
Abril 2009 I Jornadas de Bioinformática en Granada 21
Publicaciones
• "Possibilistic approach for biclustering microarray data"
Computers in Biology and Medicine . 37(10), 2007
• "Intelligent system for the analysis of microarray data using principal components and estimation of distribution algorithms"
Expert Systems with Applications. 36(3), 2009
Abril 2009 I Jornadas de Bioinformática en Granada 22
Contenidos
1. Extracción de módulos de regulación genética mediante análisis de microarrays con Clustering y Biclustering.
2. Text-mining para extraer relaciones de la literatura biomédica
Abril 2009 I Jornadas de Bioinformática en Granada 23
Text Mining de la literatura biomédica
Hunter & Cohen, Mol Cell. 21(5), 589-94, 2006.
– “tp53”: 45.000 artículos // “autism”:11.000 artículos
Abril 2009 I Jornadas de Bioinformática en Granada 24
Objetivo: Extracción de relaciones
The action of SCPA enzymatically inhibits the chemotactic activity of C5a by cleaving its neutrophil binding site. [PMID: 12964111]
– Keyword: inhibits
– Argument 1: SCPA
– Argument 2: C5a
– Type: repression
– Role Arg. 1: agent
– Role Arg. 2: patient
Abril 2009 I Jornadas de Bioinformática en Granada 25
Enfoque: Análisis sintáctico + ML
•Patrones en árbol sintáctico:
...
NP
NP
Abril 2009 I Jornadas de Bioinformática en Granada 26
Corpora disponible
Type Corpus Name Object of the annotation Level of annotation Length + / -FormatBioText PPI / Treat-Disease int. Prots instances and type of relationship 100 titles / 40 abstracts + HTMLWisconsin PPI / Prot-Cell loc / Gene-Disease int. POS, Entities, arguments of the relation 52000 / 7900 / 13412 sent + / - Own Stand-offPICorpus PPI Entities and relations (Tags: Protein / Action)10271 sent + XML/WordFreakFetch Prot Corpus PPI Interacting arguments 190 full texts + / - Stand-off XML
PPI HIV-1 Human PI PPI Prot instances and type of relationship 2224 interacting prots. + OwnBioCreAtIvE I with PPI PPI / NE POS, Genes and relations tags. 255 int / 1000 sent + / - Stand-off XMLSPIES Corpus PPI / NE Protein mentions,yes/no for interaction 963 sent + OwnBioIE PPI / NE Proteins and keywords for relations 250 sent + HTMLYapex PPI / NE Protein mentions,yes/no for interaction 200 abstracts + / - XMLBioContrasts PPI / NE Proteins and constrasts 100 abstracts + XML
PennBioIE NE / Syntactic Structure (constituents) POS tags, Domain Entities and contituent trees642 abs / 2257 sent XML/WordFreakSYNTAX GENIA NE /Syntactic Structure (constituents) Domain Entitie and contituent trees 300 abs / 2000 sent XML / PTB
Brown GENIA Syntactic Structure (constituents) POS tags and constituent trees 21 abs / 215 sent PTBDepGENIA Syntactic Structure (dependencies) Dependency trees automatically annotatedAll GENIA corpus XML
• Escaso tamaño• Heterogeneidad
– Objetos– Niveles de anotación– Formatos
• Ejemplos positivos/negativos• Palabras clave / estructura sintáctica
Abril 2009 I Jornadas de Bioinformática en Granada 27
Esfuerzo propio de Anotación: BioNotate
• Herramienta web colaborativa de código abierto: esfuerzo distribuido.
• Presentar al anotador un snippet con dos entidades biológicas (gen, proteina, enfermedad)
• Proceso anotación :− Indicar Si/No en función de si el snippet constata una
interacción entre las entidades marcadas.
− Marcar la frase mínima (si la hay) que justifique la respuesta anterior.
− Al menos k anotadores deben alcanzar un grado mínimo de acuerdo para que un snippet se considere anotado.
• BioNotate: http://bionotate.sourceforge.net
Abril 2009 I Jornadas de Bioinformática en Granada 28
Esfuerzo propio de Anotación: BioNotate
Abril 2009 I Jornadas de Bioinformática en Granada 29
Gracias…
• Preguntas?
Contacto:
Carlos Cano Gutiérrez, D16 Dept. CCIA. [email protected]
http://genome.ugr.es