Post on 19-Sep-2018
transcript
Introducción a la Bioinformática
Fernando Barraza A., MS.c.
Agenda
–!Que es la bioinformática
–!Perspectiva mundial y en Colombia
–!Campos de aplicación
–!Participación de los Ingenieros
–!Herramientas bioinformáticas, frameworks y plataformas de análisis
–!Conclusiones
Que es la Bioinformática?
!Bio informát ica es e l uso de herramientas computacionales que permiten analizar, depurar y agilizar el manejo grandes cantidades de información genética y predecir en algunos casos función de genes y proteínas con base en evidencia experimental de secuencias o procesos similares. La bioinformática parte de datos encontrados experimentalmente".
4
¿Y que es eso que llamamos vida?
Alta organización
Homeostasis
Reproducción
Adaptación Crecer y desarrollarse
Transforman energía
Estímulos
Desde Grecia hasta hoy
5
El Mundo Microscopico amplia la descripción de los seres vivos
Carl Von Linné (1707-1778)
Taxonomía: Clasificación de organismos en reinos, clases, generos, especies, etc
Antoni van Leeuwenhoek
(1632-1723)
1.! Todos los organismos vivos están formados por una o más células;
2.! las reacciones químicas de un organismo vivo tienen lugar dentro de las células;
3.! las células se originan de otras células, y
4.! las células contienen la información hereditaria de los organismos.
Aristóteles
(384-322 A.C)
6
La diversidad de la vida
Kingdoms
Described species !
Estimated total species !
Bacteria
4 000
1 000 000
Protoctists
80 000
600 000
Animals
1 320 000
10 600 000
Fungi
70 000
1 500 000
Plants
270 000
300 000
TOTAL
1 744 000
ca.14 000 000
Dentro de animales se estima que 8.000.000 son insectos, 10.000 son aves y 4.640 mamíferos son reconocidos.
TODOS TENEMOS CÉLULAS!
7
Los Virus: ¿Seres Vivos? No son células, y no cumplen con la capacidad de reproducirse por si mismos.
Bacterioagos
Ébola HIV
8
Clasificación de los seres vivos a partir de sus células
Los Unicelulares
Bacterias Protozoarios Algunas algas
Los Pluricelulares
Tejidos Células
Descubriendo el código secreto !
La genética
Congreso de Solvey - 1927
La Física y la Genética
Nacimiento de la biología molecular
13
Estructura del ADN
http://www.ba-education.demon.co.uk/for/science/dnamain.html!
http://www.lecb.ncifcrf.gov/~toms/DNA.Resources.html!http://www.ebi.ac.uk/microarray/biology_intro.html!
14
Ultimas fases
16
Las Unidades de Herencia de Mendel se convierten en genes.
Genoma: La totalidad del material genético de una célula o individuo. El conjunto completo de cromosomas de una célula o individuo con sus genes asociados.
Los Genes
17
18
http://www.eonline.com/Features/Specials/Surgery2/index4.html!
Kirk Douglas! Michael Douglas!
Las características se heredan de padres a hijos!
Mellizos y trillizos!
La historia de la bioinformática (1)
•! Fase 1: La genética: –! 1865 – 1930. Mendel y sus leyes.
–! 1865 – 1952. La búsqueda del gen y la sustancia hereditaria.
•! Fase 2: La biología molecular: –! 1953 – 1966. La doble hélice y el código genético.
–! 1967 – 1989. La ingeniería genética y la reacción en cadena de la polimerasa.
•! Fase 3: La genómica: –! 1990 – 2001. El proyecto genoma y la era post-genómica.
•! Nuevas tendencias: Proteómica, Metabolómica, Biología sistémica.
-! 1930 – 1950 Primeros modelos computacionales (Alan Turing)
-! 1950 – 1970 Evolución de las arquitecturas de computadores (Von Neumann)
-! 1970 – 1980 Formalizacion de las bases de datos (Codd)
-! 1980 – 1990 La era del PC
-! 1990 – 2000 Internet y la globalización
-! Nuevas tendencias: Grid Computing, Computación ubicua, Nanocomputación.
La historia de la bioinformática (2)
Diversidad de ciencias cuantitativas
•! Genómica –! Caracterización de ADN –! Predicción de genes
•! Proteómica –! Modelamiento de proteinas
•! Evolución –! Análisis filogenético
•! Metabolómica •! Biología Sistémica
Áreas Biológicas
Predicción de Genes
•! Dada una secuencia de DNA no caracterizada, encontrar: –! Qué región codifica para una proteína
–! Qué hebra codifica el gen
–! Cuál es el marco de lectura
–! Donde comienza y termina el gen
–! Donde comienza y termina un intron/exon
–! Donde están las regiones regulatorias del gen
Modelamiento de proteínas
Representación gráfica de las proteinas desde varias perspectivas según la aplicación requerida: –! Modelamiento de drogas
–! Dinámica de proteinas
–! Caracterización
–! Predicción de plegamiento
Orangutan Gorilla Chimpanzee Human
From the Tree of the Life Website,
University of Arizona
Análisis Filogenético
Bases de Datos Computación Gráfica
Minería de Datos Reconocimiento de patrones
Modelado y Simulación Colaboración y Redes
Áreas Computacionales
Introductory
Stage
Growth
Stage
Maturity
StageDecline Stage
Total
Market
Sales
Time
Bases de Datos
Se caracteriza por la gran cantidad de datos a ser almacenados y la necesidad de aplicar tecnologías y técnicas tales como: •!Bases de datos orientadas a objetos •!Bases de datos relacionales •!Bodegas de datos •!Diccionarios de Datos (Metadatos) •!Diseño de bases de datos
Redes
Manipular, compartir, archivar y transportar la información bioinformática requiere de tecnologías e infraestructuras de redes que la soporten y faciliten tales como: •!Intranets •!Internet •!Sistemas Inalámbricos •!Bases de datos Públicas •!Máquinas de búsquedas en redes
Visualización de Datos
Se requiere de técnicas sofisticadas de computación gráfica para expresar las posibles configuraciones de proteínas y graficar los resultados de análisis estadísticos: Visualización en 2D Visualización en 3D
Estadística
Se requiere aplicar algoritmos y técnicas aplicadas a la probabilidad y métodos estadísticos para manejar la aleatoriedad inherente en los procesos de muestreo.
LaggardsLate
Majority
Early
Majority
Early
AdoptorsInnovators
"The
Chasm"
Technology Adoption Process
Introductory
Stage
Growth
Stage
Maturity
StageDecline Stage
Total
Market
Sales
Time
Minería de Datos
En algunos proyectos las investigaciones se basan en las búsquedas de cadenas de secuencias en una amplia variedad de bases de datos de otros proyectos. Se utilizan técnicas como son las de perfilar secuencias o taxonomías.
Reconocimiento de Patrones
Tienen aplicación en investigaciones de biología molecular y básicamente se requiere de aplicar tecnologías de sistemas Expertos y AI.
Modelamiento y Simulación
Para modelar eventos que simulen interacciones entre proteínas hasta el análisis de caminos biológicos potenciales se requiere de modelos de manejos de eventos tales como: •!Event-Driven •!Time-Driven •!Hybrid simulation
Colaboración
Para obtener un alto grado de cooperación entre investigadores que contribuyen con la base de conocimiento genómico y proteomico se requiere de aplicaciones Web que permitan manipular grandes cantidades de información, multimedia y herramientas colaborativas (mensajería, video, etc.)
Tres revoluciones convergentes
Revenues ( $ millions)
2000
2001
2002
2003
2004
2005
2010
C G R %
(2000-2005
)
C G R %
(2005-2010
Wor ldwide
468
609
824
1,120
1,508
1,987
5,421
33.5
22
________________________________________________________________ *Source: Front Line Strategic Management Consulting (FLSMC).**Compound Annual Growth. The estimated size of the bioinformatics market in 2003 is US$1.1 billion and is growing at a rate of 33.5%.
CIFRAS DEL MERCADO BIOINFORMÁTICO MUNDIAL
Mercado Mundial
Campos de Aplicación
!! Medicina o! Descubrimiento de drogas o! Medicina personalizada o! Terapias genética / Prevención
!! Agricultura o! Mejoramiento de Cultivos o! Tratamiento plagas y enfermedades
!! Ecología y Medio Ambiente !! Energía !! Antropología !! Investigación forense
Medicina y tratamientos personalizados (ej: 23andme.com)
Mercado Laboral
Impactos Bioinformática
•! Surgimiento de nuevos paradigmas •! Conceptos éticos y legales •! Proyectos interdisciplinarios de alta complejidad •! Necesidad de nuevas herramientas computacionales •! Herramienta para acortar el “time to market” en el
desarrollo de productos •! La frase “in Silico” se ha unido a “in Vivo” e “in Vitro”
Oportunidades en Colombia (1/2)
Específicamente se centran en desarrollar herramientas bioinformáticas para :
•! Fortalecer en el campo agrícola las áreas de estudios genómicos en cultivos de interés estratégico nacional.
•! Mejorar en salud humana la capacidad de innovación en sistemas de diagnóstico, el desarrollo de procesos y productos conducentes a la obtención de vacunas para el tratamiento humano en enfermedades de alta incidencia en el país.
•! En los temas de agua y producción limpia, implementar procesos de tratamiento de residuos sólidos, líquidos industriales y domésticos y procesos de biorremediación para el tratamiento de desechos bióticos y xenobióticos.
Oportunidades (2/2)
•! En Biodiversidad y bosques fortalecer el conocimiento y la innovación sobre los componentes genéticos de la biodiversidad y aportar conocimiento de tipo genético a la conservación de las especies.
•! En el área de mercados verdes obtener mecanismos para agregar valor de tipo genético y mejorar los procesos de escalamiento y obtención de los mismos.
•! Fortalecer las técnicas aplicadas al mejoramiento animal que permitan conocer el potencial genético de las razas criollas.
•! Identificar y estudiar a nivel genético nuestra diversidad marina, así como para usar esta de manera sostenible.
•! Utilización de múltiples tools •! Contextualización de la información •! Espacios gráficos personalizados •! Ejecución de consultas paralelizadas •! Interoperabilidad semántica de las BD •! Cooperación de equipos
investigadores
Necesidades bioinformáticas
•!Grandes Volúmenes de información •!Bases de datos heterogéneas y dispersas •!Diferentes estándares tecnológicos •!Búsquedas extendidas y complejas •!Gráficas avanzadas en 2D y 3D •!Colaboración de equipos de investigadores interdisciplinarios •!Formación de bioinformáticos
Desafíos
Bioinformática
Biología Ciencias de la computación
Tecnología de información
Múltiples ciencias y disciplinas involucradas
Biomatemáticas
Bioestadística
Subdisciplinas de la bioinformática
•! Desarrollo de nuevos algoritmos y estadísticas para evaluar relaciones entre un gran número de datos
•! Análisis e interpretación de datos de secuencias de genes y proteínas
•! Desarrollo e implementación de herramientas para el acceso eficiente a los datos
•! Desarrollo de herramientas aisladas y heterogéneas
•! Interfases de usuarios limitadas •! Mínima integración de información
biológica •! Mercadeo open source amplio pero
limitado a soluciones puntuales •! Iniciativas para incluir tecnologías de
punta
La ingeniería de software en bioinformática
•! Usabilidad –! Patrones de uso –! Colaboración
•! Arquitecturas de Software –! Frameworks –! SOA, ESB
•! Generación automática de interfases –! Ontologías –! Web Semántica
•! Integración de información –! Workflows –! Bases de datos
Campos de aplicación de la Ingenería en Bioinformática
Integración de información
ID MURA_BACSU STANDARD; PRT; 429 AA. DE PROBABLE UDP-N-ACETYLGLUCOSAMINE 1-CARBOXYVINYLTRANSFERASE DE (EC 2.5.1.7) (ENOYLPYRUVATE TRANSFERASE) (UDP-N-ACETYLGLUCOSAMINE DE ENOLPYRUVYL TRANSFERASE) (EPT).
GN MURA OR MURZ. OS BACILLUS SUBTILIS. OC BACTERIA; FIRMICUTES; BACILLUS/CLOSTRIDIUM GROUP; BACILLACEAE; OC BACILLUS.
KW PEPTIDOGLYCAN SYNTHESIS; CELL WALL; TRANSFERASE. FT ACT_SITE 116 116 BINDS PEP (BY SIMILARITY). FT CONFLICT 374 374 S -> A (IN REF. 3). SQ SEQUENCE 429 AA; 46016 MW; 02018C5C CRC32; MEKLNIAGGD SLNGTVHISG AKNSAVALIP ATILANSEVT IEGLPEISDI
ETLRDLLKEI GGNVHFENGE MVVDPTSMIS MPLPNGKVKK LRASYYLMGA MLGRFKQAVI GLPGGCHLGP RPIDQHIKGF EALGAEVTNE QGAIYLRAER LRGARIYLDV VSVGATINIM LAAVLAEGKT
IIENAAKEPE IIDVATLLTS MGAKIKGAGT NVIRIDGVKE LHGCKHTIIP DRIEAGTFMI
El problema de integración en bioinformática (2)
•! Como conocer la procedencia de los datos desde sus diferentes fuentes?
•! Como enlazar de forma lógica las referencias a las bases de datos?
•! Como reconstruir los análisis de los workflows para afinar el proceso?
•! Como saber que una fuente de información ha cambiado?
Public & Private Online Databases
Data Files
Browsing, Annotation
Pipelined Bioinformatics
Tools
Biomaterial
Generation & Acquisition
Local Databases
Executing
Results
Filtering
Searching
Searching
User
Entorno típico de un proyecto bioinformático
Elementos en un proyecto bioinformático
People
Plattform
Methodologies
Quien es un bioinformático?
•! Utiliza y desarrolla herramientas de software bioinformáticas para analizar los datos de secuencias y estructuras moleculares y así responder preguntas de tipo biológico y/o encontrar nuevo conocimiento.
•! Conocimientos en biología molecular
•! Entendimiento perfecto del dogma central
•! Experiencia en paquetes mas conocidos de biología molecular
•! Conocimientos de ambientes linux
•! Experiencia en programación con C++, Perl, etc.
Competencias de bioinformáticos
•! Hardware
•! Software
•! Bases de Datos
•! Redes
Bioinformatic Plattform
Es la infraestructura necesaria de apoyo colaborativo entre bioinformáticos y recursos a través de sistemas con alta capacidad computacional conformados por:
DW
Tools
Search
Workflow Engine
Portal
Niveles plataforma bioinformática
KDM
Back-end Services Front-end
Web Services Local Databases
LIMS
Mining
Public Databases
•! Clustering
•! GigaSwitch
•! Broadband Internet
Identificación de Componentes
•! Software Architecture
•! Database Engines
•! Analyses Tools
•! Middleware tool
hard Soft
Tools
•! Herramientas de análisis –! Clustal, Blast, Phylip, Rasmol, etc.
•! Módulos de lenguajes –! Bioperl, Biopython, Biojava, etc.
•! Frameworks bioinformáticos –! Web Services, Databases, Portals, Workflows, etc.
Frameworks Bioinformáticos
Tool Tipo URL
Biopipe WorkFlow System www.biopipe.org
Taverna WorkFlow System taverna.sourceforge.net
Talisman Framework talisman.sourceforge.net
GMod Database Models www.gmod.ord
BioMoby FrameWork www.biomoby.org
EMBOSS Suite Análisis emboss.sourceforge.net
StackPack Suite Análisis www.egenetics.com
Gpipe WorkFlow System kun.homelinux.com/Pise/5.a/gpipe
Pegasys WorkFlow System bioinformatics.ubc.ca/pegasys/
MyGrid Framework www.mygrid.org
•! Permiten ofrecer servicios de análisis desde servidores especializados sin la intervención humana
•! Ofrecen información sobre las características de los servicios de análisis
•! Uno de los más populares es BioMoby (www.biomoby.org)
Web Services en bioinformática
Cliente Web Service Tool Análisis
myGrid
•! Es una middleware para bioinformática orientado a servicios
•! El proyecto myGrid ha desarrollado una suite de componentes de mediación acoplados específicamente para soportar experimentos biológicos intensivos en procesamiento de datos.
•! Workflows y consultas se enlazan a programas de terceros y recursos locales usando protocolos basados en web services.
Componentes de myGrid
Tuberías Bioinformáticas
•! Copiar y pegar desde una aplicación web a otra anotando manualmente
•! Ventajas : Rápido, fácil acceso a recursos distribuidos •! Desventajas: Consumo de tiempo, tendencia al error,
procedimientos tácitos que hacen difícil compartir protocolos y resultados
RepeatMasker BLASTn Twinscan
Workflows Bioinformáticos
Taverna workflow workbench
collected metabolic pathway
computed BLAST report
computed BLAST report
•! Tuberías de datos •! Computan datos •! Actualización
frecuente de recursos públicos
•! Se obtienen los mismos productos de datos en contextos de experimentos diferentes
Bioinformatician users
•! Bioinformática es un campo donde la computación y la ingeniería de software tienen un alto potencial de aplicación
•! El desarrollo de la bioinformática requiere de avances significativos en investigación en temas de ingeniería
•! Existen posibilidades de proyectos en diferentes campos de la ingeniería de sistemas.
CONCLUSIONES
67
La Biografía de un ser vivo es la sumatoria de sus
genes mas la interacción entre ellos y el medio
ambiente; lo que hace que cada ser sobre la tierra
sea único, ya que es casi improbable que las
mismas condiciones genéticas y ambientales se
vuelvan a presentar.
68
Créditos
•! Moreno Pedro, Velez Patricia. Atlas Biología Molecular Animado. Universidad del Cauca, Colombia
•! Morgan Echeverry S., Proyecto de Agrobiodiversidad y Biotecnología. CIAT
•! Diana Marcela Bernal Franco. Proyecto de Agrobiodiversidad y Biotecnología. CIAT