TP 3 - Exploración de Bases de datos Humanas
Introducción
A partir del avance tecnológico y del desarrollo de nuevas técnicas de alto rendimiento en
las ciencias naturales y exactas, en las últimas décadas la cantidad de datos científicos ha
crecido exponencialmente. De esta manera surge la necesidad de almacenar toda esa
información de manera rápida y ordenada, con la posibilidad de un fácil acceso para su
consulta y posterior análisis. Actualmente, este almacenamiento y consulta es, casi
exclusivamente, una tarea computacional, donde los datos son guardados de manera digital
para agilizar el acceso a ellos de entre una gran maraña de datos, juntándolos y
ordenándolos en bases de datos. Particularmente, para las ciencias biológicas, y más
específicamente dentro del área de la salud y genómica humana, existe una gran variedad
de bases de datos públicas, disponibles gratuitamente que pueden ser consultadas
libremente vía internet.
En este trabajo práctico (TP) se brindará un recorrido por algunas de las bases de datos más
relevantes, con el fin de explorar sus principales características.
Tarea 1) Ensembl
El proyecto Ensembl es un trabajo en colaboración entre el European Bioinformatic
Institute (EMBL-EBI) y el Wellcome Trust Sanger Institute, con el objetivo de centralizar
información de genómica y generar una base de datos de genomas para vertebrados y otras
especies eucariotas.
Link http://www.ensembl.org/
1
III Escuela de Genómica Clínica Agosto 2018
A. Vaya a la página inicial de Ensembl y allí seleccione, a la izquierda de la pantalla, el
genoma humano. Como verá, debajo de “Human” encontrará el subtítulo
“GRCh38.p10” que corresponde a la versión actual del genoma humano de
referencia (“assembly”). Una vez entre a la página del genoma humano, puede
visitar assemblies anteriores en el menú desplegable debajo de “Other assemblies” y clickeando en “Go”. Trabajaremos ahora con la versión GRCh38 (figura 1) la cual es la más reciente, pero
tenga en cuenta que para los siguientes trabajos prácticos, algunas de las
herramientas que se utilizarán no han sido actualizadas para esta versión, por lo que
si quisiera verificar variantes en base de datos, acuérdese de trabajar con la versión
anterior, GRCh37.
Figura 1: Herramientas que brinda Ensembl para trabajar un con genoma dado, en este caso, el
genoma humano versión GRCh38.
i) Busque información de la versión GRCh38 del genoma en Ensembl y complete la
siguiente tabla.
Fecha de lanzamiento del ensamble
Cantidad de pares de bases
2
III Escuela de Genómica Clínica Agosto 2018
Genes codificantes (primary assembly)
Pseudogenes (primary assembly)
Transcriptos
Variantes pequeñas
Variantes estructurales
B. Seleccione ahora la variante de ejemplo suministrada por Ensembl (“example
variant”), en la sección de “variation” (figura 2) y la sección de pestañas
correspondiente (figura 3).
Figura 2: Sección “Variation”.
3
III Escuela de Genómica Clínica Agosto 2018
Figura 3: (A) Selección de pestañas. Puede elegir entre ver los datos disponibles de la variante, ver la
región del genoma donde se encuentra la variante (location, ver figura 4), o bien volver a la página
inicial del ensamble GRCh38. (B) Información principal de la variante. (C) Herramientas para la
exploración de la información de la variante.
i) ¿En qué cromosoma se encuentra la variante que está analizando? ¿Cuál es la
posición exacta de la variante dentro del cromosoma? ¿Cuál es el ID de la variante
(rsxxxxx)?
ii) ¿Cuál es el cambio de nucleótido? ¿Es una variante “no sinónima”? De ser así,
indique también cuál es el cambio de aminoácido generado.
iii) Explore desde la pestaña “Location” (figura 4) el entorno cercano de la variante
en el genoma. ¿Existen otras variantes (SNPs) a menos de 300 bp desde el lugar
donde se encuentra la variante del ejemplo?. ¿Cuál es el número de identificación
(rs###) para la variante más cercana?
Figura 4: Pestaña “Location”. Brinda información acerca del cromosoma y la posición en la que se
encuentra una variante, además de un conjunto de gráficas que permiten obtener diferentes grados
de detalle de la misma, considerando el entorno génico.
4
III Escuela de Genómica Clínica Agosto 2018
iv) Utilice ahora las herramientas de exploración de la variante (accesibles desde el
panel superior izquierdo en la pestaña “Variant”) para completar los datos de la
siguiente tabla:
Frecuencia alélica total para el alelo alternativo (1000 Genomes*)
Frecuencia de homocigosis total para el alelo alternativo (1000 Genomes*)
Consecuencia/s de la variante
Cantidad de transcriptos afectados
Fenotipo/s asociado/s a la variante
(*) 1000 Genomes es un proyecto de colaboración internacional en la que se almacenaron datos de
secuenciación de más de mil personas anónimas. La finalidad principal del proyecto es crear un catálogo
completo de variaciones genéticas humanas. De esta manera, 1000 Genomes proporciona una herramienta
sumamente útil para trabajar con datos de variantes que sean raras y que, por lo tanto, aparezcan con una
baja frecuencia en la población.
Hasta este punto del TP, cuando se mencionaba el término “variante”, se estaba refiriendo a
variantes pequeñas. Esto es SNPs (del inglés, Single Nucleotide Polymorphisms,
polimorfismos de un único nucleótido), inserciones y deleciones pequeñas (menores a 50
bp, denominados “indels”) y sustituciones de bloques pequeños (cambio de un grupo de
nucleótidos por otro). Sin embargo, existen también variaciones más grandes dentro del
genoma denominadas variantes estructurales. Entre ellas se observan cambios de grandes
bloques de nucleótidos, inserciones y deleciones, inversiones de secuencias, inserciones de
elementos móviles y cambios en la cantidad de repeticiones de una determinada secuencia
(copy number variation).
C. Seleccione la pestaña Human (GCRh38.p10) para volver a la página principal del
ensamble. Ahora vaya a “Example structural variant”.
i) Al igual que lo que hizo para el ejemplo de SNP, realice una exploración de la
variante estructural de muestra. Anote lo que le parezca interesante. (Ayuda:
transcriptos afectados, fenotipos relacionados, variantes cercanas, entre otras).
ii) Discuta con sus compañeros los resultados obtenidos.
D. En Ensembl diríjase al gen TP53. Visualice la cantidad de transcriptos y localícelos en
la pestaña correspondiente. Para esto configure el gráfico de transcriptos
seleccionando el ícono de configuración (engranaje) que se muestra en la Figura 5.
5
III Escuela de Genómica Clínica Agosto 2018
Vaya al apartado “Genes and transcripts” y allí tilde la opción básica. Agregue
además, dentro del apartado “Variation”-”Sequence variants”, “1000 Genomes - All -
short variants (SNPs and indels)” y dentro de “Phenotype(...)”, “All ClinVar variant
annotations - short variants (SNPs and indels)”. Luego, para aplicar los cambios,
diríjase a la esquina superior derecha y clickee sobre el botón visto.
a. Ahora visualice todos los transcriptos, ayudándose con la herramienta de
zoom y desplazamiento.
b. Busque variantes dentro de distintos exones de diferentes transcriptos:
i. ¿Encuentra una relación entre la identificación de variantes
patogénicas y los transcriptos en los que éstas se encuentran
incluídas?
ii. ¿Para todas las variantes encuentra información de relevancia clínica?
Figura 5: Gráfico de transcriptos. Señalado con un círculo rojo está el botón de ajustes del gráfico.
Otras páginas útiles: UCSC Genome Browser on Human https://genome.ucsc.edu/cgi-bin/hgGateway
DECIPHER (para CNVs) https://decipher.sanger.ac.uk/
Tarea 2) Visitando dbSNP
La base de datos de polimorfismos de un solo nucleótido (dbSNP) es una base de datos
pública y libre para el almacenamiento de variaciones genéticas en diferentes especies,
desarrollada por el National Center of Biotechnology Information (NCBI) en colaboración con
6
III Escuela de Genómica Clínica Agosto 2018
el National Human Genome Research Institute (NHGRI). Es quizás la base de datos más
importantes de variantes genómicas en general.
Link http://www.ncbi.nlm.nih.gov/SNP/
Figura 6: Pantalla inicial de dbSNP.
7
III Escuela de Genómica Clínica Agosto 2018
Figura 7: Descripción de una variante.
A. Ingrese en el cuadro de búsqueda el identificador de la variante rs137853222.
Ingrese en la variante haciendo click sobre el código rs.
B. Observe la tabla del medio “Allele”.
i) ¿Comprende el significado de cada fila (“Variation Class”, “RefSNP Alleles”, etc.)?.
En particular, la fila “RefSNP Alleles” muestra tres alelos, y menciona que se
encuentran descritos para la hebra reversa o negativa (“REV”). ¿Reversa respecto a
qué?.
ii) Esta información proviene del campo “Submitter records for this RefSNP Cluster”.
Analice las entradas del mismo, ¿cuántas son?
iii) ¿Qué significan los campos “Allele Origin” y “Ancestral Allele”? ¿Qué información
provee el campo Clinical Significance?
C. Observe la posición en el cromosoma em “Integrated maps”. ¿Cuantas posiciones
distintas les aparece? ¿A qué se debe esto? ¿Qué conclusión puede sacar respecto a
la versión del genoma de referencia utilizado para identificar una variante? ¿Basta
con indicar la posición?
D. Si alguien le preguntara sobre la validación del SNP, ¿qué podría responder? ¿qué
significa y qué relevancia tiene la validación de una variante?.
E. Observe la tabla de la derecha “HGVS Names”. ¿Entiende la construcción de los
términos? Relacione estos códigos con las tablas de las secciones “Integrated Maps”
y “GeneView” (“Primary Assembly Mapping” y “RefSeqGene Mapping”).
HGVS o la Human Genome Variation Society establece las reglas de nomenclatura apropiada para cada variante (ver http://varnomen.hgvs.org/).
8
III Escuela de Genómica Clínica Agosto 2018
Siempre posee una primera parte que indica la referencia (en qué, en cuál y qué versión) y una
segunda parte, con la descripción de la variante. Esta segunda parte la conforma un prefijo que
indica la secuencia de referencia usada, la posición y la variante propiamente dicha. Dependiendo
el caso la nomenclatura puede complejizarse, pero como introducción veremos un ejemplo;
NM_004006.2:c.5234G>A
NM_004006 .2 :c. 5234 G>A
Secuencia de referencia
Versión de la secuencia de
referencia
Prefijo
Posición de la variante
Referencia y variante referida
● Indicador en letra de la secuencia de referencia:
NC_ una secuencia de referencia genómica basada en un cromosoma
NG_ una secuencia de referencia genómica basada en una región Genética o Genómica
LRG_ una secuencia de referencia genómica, utilizada en un entorno de diagnóstico, basada en
una región Gen o región genómica
NM_ una secuencia de referencia basada en un ARN que codifica una proteína (ARNm)
NR_ una secuencia de referencia basada en un ARN de codificación no proteica
NP_ una secuencia de referencia basada en una secuencia de proteína (aminoácido)
● Prefijo en letra:
"g." Para una secuencia de referencia genómica
"c." Para una secuencia de referencia de ADN codificante
"m." Para una secuencia de referencia de ADN mitocondrial
"n." Para una secuencia de referencia de ADN no codificante
"r." Para una secuencia de referencia de ARN (transcripción)
"p." Para una secuencia de referencia de proteína
F. Analicemos ahora el “entorno de la variante” en la sección de
Visualización/Navegación del genoma.
9
III Escuela de Genómica Clínica Agosto 2018
Figura 8: Visualización/Navegación del genoma en dbSNP
i) ¿La variante se encuentra en una región codificante? ¿Cuál es el alelo de referencia en el
genoma?
ii) ¿Encuentra variantes cercanas a la variante del ejemplo? ¿Existen diferencias con las
variantes cercanas encontradas en Ensembl? ¿Puede determinar a qué se deben las
diferencias observadas? Como ayuda,le suministramos el link con el visor de Ensembl
enfocado en la posición de la variante ejemplo:
http://www.ensembl.org/Homo_sapiens/Location/View?db=core;r=17:63917572-63918572
;v=rs137853222;vdb=variation;vf=24027206
iii) ¿Es capaz de encontrar en el mapa la referencia a ClinVar? - ¿Para qué cree que sirve
este link adicional que figura en la sección “Alleles”?.
G. Ahora analizaremos las frecuencias alélicas poblacionales.
En la fila “MAF(...)” (Minor Allele Frequency) se describe la representación del segundo
alelo con mayor representación en la población, referenciado a la posición genómica
correspondiente al SNP. El Alelo de MAF se informa utilizando la hebra de referencia.
i. Observe el valor de “MAF" ¿Considera que la variante informada representa un
polimorfismo o una variante rara? ”
ii. ¿Por qué el alelo minoritario es “A”, a qué alelo de “RefSNP Alleles” corresponde?
La información adicional sobre la frecuencia poblacional se muestran en la sección
“Population diversity” al final de la página:
Figura 9: Population diversity en dbSNP
iii. ¿Para cuáles alelos se tiene información de la frecuencia poblacional? ¿por qué no
está el alelo “A” para el cual se reportó la MAF? ¿Cuál de los alelos reportados para el
10
III Escuela de Genómica Clínica Agosto 2018
SNP no posee información poblacional? ¿En qué población-proyecto se determinaron
las frecuencias?
H. Finalmente analicemos el efecto biológico del SNP en el gen/proteína:
Figura 10: Efecto biológico del SNP en dbSNP
i) ¿Cuál es el cambio que introduce la variante en la proteína?
ii) ¿Por qué si en el genoma la variante es C→G, en el gen figura como G→C?
Otras páginas útiles: VarSome https://varsome.com/
SNPedia https://www.snpedia.com/
Tarea 3) OMIM y ClinVar
OMIM (Online Mendelian Inheritance in Man) es un amplio compendio de genes humanos
y fenotipos genéticos. El objetivo principal es catalogar todas las enfermedades que posean
un componente genético y generar relaciones bibliográficas y con otras bases de datos con
datos genómicos. Una de estas bases de datos es ClinVar, que recopila información de
variantes genómicas y sus relaciones con la salud humana.
Links http://www.omim.org/ http://www.ncbi.nlm.nih.gov/clinvar/
A. Seguiremos trabajando con la variante rs137853222. Vaya primero al sitio web de
OMIM e ingrese la variante.
i) ¿A qué fenotipo (condition) se encuentra relacionada la variante? Puede verificarlo
en OMIM y en ClinVar, incluso también en Ensembl.
ii) ¿Puede identificar cuáles son las publicaciones que relacionan a la variante con el
fenotipo asociado?
11
III Escuela de Genómica Clínica Agosto 2018
B. Ahora cambiaremos el enfoque. Supongamos que nos interesa conocer variantes y
genes relacionados con una enfermedad en particular, por ejemplo fenilcetonuria
(PKU, abreviado en inglés).
i) Busque en la página principal de OMIM la enfermedad fenilcetonuria y seleccione,
entre los resultados, aquel correspondiente a la enfermedad (figura 11). Puede
repasar las características del cuadro clínico, con la información brindada por OMIM.
ii) ¿Cuál es el gen asociado a la enfermedad? ¿Qué modelo de herencia describe la
transmisión de la enfermedad? Desde la página de la enfermedad encuentre el link
que lo lleva hasta la página de dicho gen.
iii) En la página del gen existe una sección donde se detallan las variantes
relacionadas con la enfermedad. Encuentre la sección y seleccione “Table view” para
explorar estas variantes. Analice brevemente las mismas, ¿qué tipo de variantes
son? ¿Hay algún patrón en común?
iv) Identifique en la tabla la variante con el ID “rs75193786” ¿Tiene entrada en
ClinVar? De ser así, abra el link en una pestaña nueva del navegador.
12
III Escuela de Genómica Clínica Agosto 2018
Figura 11: (A) Entrada de fenilcetonuria en OMIM. (B) Acceso al gen relacionado (PAH) en OMIM.
C. Explore la entrada de ClinVar abierta en el último inciso del ejercicio anterior, y
complete la siguiente tabla:
Cromosoma y posición de la variante (GRCh38 y GRCh37)
Cambio de aminoácido
Validación de la variante
Significancia clínica
13
III Escuela de Genómica Clínica Agosto 2018
D. En la sección “About” de ClinVar existe documentación acerca de la base de datos.
Ingrese a “Clinical Significance” y en función de la información brindada responda las
siguientes preguntas:
i) ¿Los valores de significancia clínica son asignados por la base de datos? ¿De dónde
surgen?
ii) ¿Cómo se soluciona la situación en la cual una misma variante tiene más de un
valor de significancia clínica asignado?
iii) ClinVar representa los distintos valores de significancia clínica con un código
numérico (ASN.1). Describa brevemente la numeración y cada una de las categorías.
Otras páginas útiles: Genetics Home Reference https://ghr.nlm.nih.gov/
FindZebra http://www.findzebra.com/ Orphanet https://www.orpha.net/consor/cgi-bin/index.php
Tarea 4) UniProt
Uniprot (de Universal Protein) es una fuente integral de datos de secuencias proteicas y
anotaciones funcionales relacionadas a ellas. Las bases de datos que componen Uniprot
(figura 13) son UniprotKB (Uniprot Knowledgebase), UniRef (Uniprot Reference Cluster) y
Uniprot Archive (UniParc).
Link http://www.uniprot.org/
UniprotKB es el eje principal para la recolección de información funcional en proteínas, a
partir de un vasto número de anotaciones. A su vez, esta base de datos está dividida en dos
partes, según sus entradas hayan sido manualmente curadas (Swiss-Prot) o subidas de
manera automática (TrEMBL).
Por ejemplo, el proteoma de Homo Sapiens tiene 173.324 proteínas, donde
aproximadamente el 12% pertenece a Swiss-Prot y el 88% a TrEMBL. Mientras que las
primeras disponen de evidencia experimental, el segundo grupo tiene poca o ninguna
evidencia de que se expresen en el organismo.
UniParc es la recopilación de secuencias proteicas de todas las bases de datos más
conocidas y agrupadas bajo un ID único por proteína. Esto permite eliminar la redundancia
de secuencias debido a múltiples fuentes de datos. Allí también se guarda el “historial” de
las proteínas, es decir, como van cambiando sus anotaciones, secuencia o si son eliminadas
por nuevas entradas.
Por ejemplo, es muy común que:
14
III Escuela de Genómica Clínica Agosto 2018
* Se compruebe que 2 proteínas eran en realidad la misma y junten en un nuevo id
y los ids viejos pasen a ser ids alternativos;
* Se verifique que una proteína no se expresa en el organismo y la entrada se borre;
* Se determina que en realidad “una” proteína eran dos distintas, y la entrada se
borre y se generen 2 nuevas.
En todos los casos, en Uniparc se guarda todo. UniprotKB tiene la última versión.
Por último, Uniref agrupa las secuencias de UniprotKB en clusters según su porcentaje de
identidad de secuencia. Por ejemplo, P62258 está en humano, gallina y en otras especies,
comparten el 100% de la secuencia, pero en gallina tiene el id Q5ZMT0. Tanto P62258 como
Q5ZMT0 (y otras 14 proteínas de distintas especies) pertenecen al cluster
UniRef100_P62258.
Figura 12: Organización de Uniprot.
Ahora vamos a navegar por uniprot para analizar algunas proteínas humanas
A. Ingrese en los proteomas y busque el proteoma humano (figura 13):
i. ¿Resulta lo mismo buscar “human” que buscar “homo sapiens”?
Figura 13: Parte superior de la web de Uniprot. Sección de búsquedas.
15
III Escuela de Genómica Clínica Agosto 2018
ii. En el proteoma seleccionado se pueden ver todos los cromosomas y la
cantidad de proteínas asociadas a cada uno. También se pueden descargar
todas en distintos formatos o visualizarlas desde “View all proteins”. Haga
click sobre ese botón.
La cantidad de proteínas observadas parece muy grande, ¿no?. Cada entrada considera
solo una isoforma, por lo que la aparente gran cantidad de proteínas no se debe solamente a
las variantes de splicing y variantes naturales. Una sola proteína puede contener varias
isoformas y cada una de ellas se encuentra como una entrada separada. Lo más probable es
que esto se deba a consideraciones con las que Uniprot determina cuándo 2 entradas son las
mismas (criterio de redundancia), que luego se van corrigiendo con el tiempo.
Ahora analizaremos entradas de Uniprot buscando sobre UniprotKB.
B. Realice una nueva búsqueda sobre UniprotKB para la palabra “phenylketonuria”:
i. Filtre por humano y Swiss-Prot (antes de filtrar por Swiss-Prot, vea cuántas
entradas distintas hay para el gen PAH).
ii. Utilice el filtro de la izquierda “disease”, éste filtrará aún más la búsqueda.
Las proteínas que quedan son aquellas que tienen variantes directamente
asociadas al trastorno. Verá que en este caso, por ejemplo, desaparece la
entrada Q03393, ¿por qué piensa que la misma es descartada?.
iii. Ingrese a la entrada correspondiente a PAH. ¿Cuál es la función de la proteína
codificada por PAH, la fenilalanin hidroxilasa humana? ¿En qué camino
metabólico (pathway) está involucrada?
iv. En la sección Sequence, ¿pueden identificar una única variante causante de
fenilcetonuria?
v. ¿Hay registradas modificaciones postraduccionales? ¿de qué tipo? ¿sobre
qué aminoácidos?
vi. Vaya a la sección Structure (figura 14) y de ahí a la subsección “3D structure
databases”.
Figura 14: Sección “Structure”. Brinda información sobre la disponibilidad de estructuras obtenidas de la
proteína codificada por el gen PAH.
16
III Escuela de Genómica Clínica Agosto 2018
1. ¿Hay estructuras disponibles? ¿Se observa una buena cobertura horizontal
de la secuencia de la PAH en las estructuras disponibles? ¿Por qué es
importante esto?
2. Para analizar la estructura, clickee sobre el primer código PDB (por Protein
Data Bank) de cuatro dígitos (1dmw), asociado a una estructura
cristalográfica de la proteína codificada por el gen PAH. En este punto, ya
estamos interactuando con otra base de datos: Protein Data Bank in
Europe (PDBe).
2. Para analizar la estructura, entrando por Feature viewer se accede a una pestaña que
permite visualizar características como dominios, estructuras secundarias, registros de
casos, etc. En la parte inferior, a la izquierda se puede visualizar la estructura de PDB (por
Protein Data Bank) identificado en el título, y a la derecha se puede seleccionar las
estructuras disponibles para visualizar. Cada estructura posee un link que lleva a su fuente
en Protein Data Bank in Europe (PDBe).
Link https://www.ebi.ac.uk/pdbe/
Figura 15: Entrada para el código 1dmw, correspondiente a una estructura cristalográfica de la fenilalanin
hidroxilasa humana.
C. Inspeccione la información brindada para la estructura bajo el código 1dmw: i. Haga click sobre alguna de las figuras de la proteína. Podrá ver la estructura
desde distintas vistas y, además, observará algunas con ligandos / metales resaltados. Con esta información, ¿puede determinar si el sitio de reconocimiento del ligando se encuentra sobre la superficie de la proteína o bien en su interior?
ii. Los metales, de estar presentes, suelen jugar un rol muy importante en la función de una proteína, por lo que su identificación dentro de la estructura es una primera incursión hacia un estudio estructural / funcional. El sitio
17
III Escuela de Genómica Clínica Agosto 2018
catalítico, ¿se coordina con algún metal? En caso afirmativo, ¿dónde se encuentra?
iii. A su derecha, en Quick links, clickee en “3D visualization”. Se cargará un visualizador interactivo. Espere a que cargue todos los componentes (se lo va informando en la esquina inferior izquierda).
Otras páginas útiles: NextProt https://www.nextprot.org/
GTEx Portal https://www.gtexportal.org/home/
18
III Escuela de Genómica Clínica Agosto 2018
Visualizador Interactivo (para hacer en casa)
Esta herramienta embebida en este sitio web le permite ir moviendo la proteína y verla
desde distintos ángulos (figura 16). Pruebe posicionarse sobre la estructura terciaria y
verá cómo va identificando a cada aminoácido que allí se encuentra, señalándolo con
amarillo y etiquetándolo en la región izquierda superior.
Figura 16: Visor interactivo de la estructura cristalográfica de la fenilalanin hidroxilasa
humana, código de PDB 1dmw.
Intente ahora clickear sobre un
aminoácido determinado, o sobre otra
partícula que desee. Si clickea sobre alguna
zona de la proteína muy cercana al ligando,
por ejemplo, inmediatamente el
visualizador hará zoom sobre esa región y
le mostrará los aminoácidos más cercanos
a esa zona, es decir, aquellos que pueden
estar interactuando con el ligando
mediante distintos tipos de interacciones
químicas.
19
III Escuela de Genómica Clínica Agosto 2018
Tarea 5) GWAS catalog
Como la clase de teórica de GWAS la tendrán más adelante, haremos por aquí sólo un
recorrido breve.
El acrónimo GWAS hace referencia a Genome-Wide Association Studies, estudios a nivel de
genomas completos, y busca determinar asociaciones entre secuencias de ADN y rasgos
fenotípicos. En estos estudios, se analizan dos grupos de individuos, “casos” (aquellos que
presentan una cierta enfermedad o característica) y “control” (aquellos sanos) y se analiza la
proporción de en que se presentan los alelos alternativos (ALT) y de referencia (REF) en cada
grupo. Es posible que alguno de los dos grupos esté enriqueciendo significativamente a
algún alelo en ciertos SNPs, y se asume que existe una correlación entre la presencia de
dicho alelo y la presencia o ausencia de la enfermedad.
Abajo mostramos una tabla de contingencia hipotética:
Casos Control
Alelo ALT 400 200
Alelo REF 100 800
A través de esta tabla se puede realizar una prueba de Χ2 (CHI cuadrado) para determinar si
estas diferencias se deben al azar o son significativas (donde el valor p es menor a un umbral
determinado). Este análisis puede realizarse para todos los distintos SNPs en el genoma
humano, obteniéndose un gráfico como el de la figura 17 (conocido como Manhattan plot).
Figura 17: Distribución de valores p para distintos SNPs a lo largo del genoma humano relacionados a
un ensayo GWAS.
20
III Escuela de Genómica Clínica Agosto 2018
Como pueden observar, existen variantes en ciertos cromosomas con un valor p muy bajo
(valores -log10(p) altos) (¿por qué?) lo que implica que existe una asociación fuertemente
significativa entre el locus y el carácter/condición analizada.
Para estos SNPs significativos se puede calcular un “Odds ratio (OR)”, también conocido
como “cociente de chances” o “razón de momios”, en español. Se define como “chance”, a
un cálculo de la probabilidad de un evento determinado a partir de frecuencias observadas.
Así el cociente de chances queda definido como:
R O = Casos Alt / Controles AltCasos Ref / Controles Ref Si esta razón es igual a 1 implica que no existe relación entre el alelo alternativo (ALT) y la
presencia de la enfermedad. Si es mayor a 1, el ALT estaría relacionado a una mayor
incidencia de la enfermedad. Por último, si es menor a 1, el riesgo mayor estaría dado por el
alelo de referencia (REF). Existe una base de datos que recopila este tipo de información y la
almacena de forma ordenada y accesible, denominada GWAS catalog..
Link http://www.ebi.ac.uk/gwas
A. Ingrese a GWAS catalog, luego vaya primero a la lista de características (traits) que
están descritas en el mismo (si no encuentra el acceso siga este link:
http://www.ebi.ac.uk/gwas/search/traits). Ahí podrá encontrar todos los traits para
los que se ha realizado un GWAS. Como verá los traits pueden ser enfermedades
como “Alzheimer” y “Coronary heart disease” o características muy generales como
“Aging” ó “Coffee consumption”.
Observe un poco las demás entradas, ¿qué tienen en común? ¿Por qué se pueden
realizar estudios GWAS de cosas tan diversas?
B. Seleccione la opción de “Alzheimer’s disease” y clickee “Search for traits” ó escriba
“Alzheimer disease” en la barra superior.
i) Vaya a la sección “Associations”. ¿Puede reconocer los parámetros explicados en la
introducción (OR, p-value)? ¿Que otra información provee GWAScat?
ii) Mire la columna “Functional class”. ¿A qué puede atribuir los tipos de variantes
génicas que allí observa?
C. Busque el SNP rs1333049.
i) ¿Con qué enfermedad está relacionado la variante?
ii) ¿Cuál es su OR? ¿cómo se interpreta ese valor?
21
III Escuela de Genómica Clínica Agosto 2018
iii) Observe el valor de la frecuencia del alelo en la población sana (RAF). ¿Es un
polimorfismo o una variante rara? ¿Encuentra algún correlato entre la frecuencia de
este alelo y la incidencia de esta enfermedad en el mundo?
Tarea 6) PharmGKB
Al igual que para GWAScat, para PharmGKB haremos solo un recorrido breve, ya que la clase
será más adelante.
PharmGKB es un proyecto que recopila y organiza información clínica relacionada con la
farmacogenómica, incluyendo guías de dosaje y asociaciones gen-droga con potencial
relevancia clínica y relaciones genotipo-fenotipo. PharmGKB recopila, cura y publica
información acerca de las variaciones genéticas humanas asociadas a la respuesta de
drogas.
Link www.pharmgkb.org
A. Ingrese en Pharmgkb y busque en la base de datos “hypercholesterolemia”.
Dentro de los resultados que le devuelve la búsqueda:
i) Seleccione, por ejemplo, el rs4149056, el cual, entre las drogas asociadas tiene a
“simvastatin”. Busque, haciendo Ctrl+F, la droga “simvastatin”. ¿Qué información
puede encontrar entre la droga y genotipos posibles en un paciente? ¿Cuán
relevante considera este tipo de información brindada?
ii) ¿Qué tipo de efecto tiene la variante sobre la droga (“Type”)? ¿Con qué nivel de
evidencia se observa esta relación?
iii) ¿Existen otras entradas relacionadas a la misma variante? ¿Todas las entradas
corresponden al mismo cuadro clínico?
iv) ¿Reconoce el gen afectado por la variante? ¿cuál es el resultado funcional de
dicha variante?
D. La FDA (Food and Drug Administration) posee una lista con aquellas drogas usadas
como biomarcadores de farmacogenómica. Así, las drogas pueden tener información
de dosaje, efectividad, mecanismos de acción, etc. que sean dependientes o estén
relacionadas a un cierto genotipo.
Link http://www.fda.gov/drugs/scienceresearch/researchareas/pharmacogenetics/ucm083378.htm
22
III Escuela de Genómica Clínica Agosto 2018
i) Abra el link de FDA y busque en la lista la droga “dolutegravir”. ¿Cuál es el gen cuyo
producto es el blanco de dicha droga? ¿En qué secciones del prospecto (Labelling
Section) se encuentra la información de farmacogenómica?
ii) Ingrese nuevamente en PharmGKB y busque la droga “dolutegravir”. Haga click en
la primera sección “Annotation of FDA Label for dolutegravir and UGT1A1”. Se abrirá
una nueva página. ¿Puede encontrar alguna información que relacione la efectividad
de la droga con aspectos genéticos?
iii) En esta página usted podrá encontrar un link de descarga del prospecto de la
droga (en formato pdf), con la secciones que tienen anotaciones sobre
farmacogenómica resaltadas. ¿Puede encontrar una región resaltada que tenga
información acerca de en qué población es más efectiva la droga?
E. PharmGKB permite también acceder a anotaciones clínicas, que de otra forma son
inaccesibles (para poder visualizarlas tienen que registrarse, pero la página solicita
datos que acrediten que pertenecen a una entidad académica / clínica y la
autorización a veces lleva un tiempo). Para poder realizar este ejercicio, a
continuación le suministramos una captura de pantalla para la variante rs1800497. i) Observe detenidamente la información suministrada para cada caso. Ver figura 18.
ii) ¿Considera estos datos importantes a la hora de recetar un fármaco?
iii) Describa brevemente la interacción de la variante con ambas drogas. Tenga en
cuenta el tipo de interacción, la evidencia, los genotipos, si alguna raza en particular
se ve afectada, etc.
NOTA: Si bien se considera que no existen razas en la especie humana, muchos sitios utilizan
este término como sinónimo a grupo étnico o población en la que se realizó el estudio.
Nosotros no adherimos a esta terminología, pero lo incluimos de esta forma para evitar
confusiones. iv) ¿Le llama la atención que una variante afecte a dos genes distintos? Busque dicha
variante en Ensembl y localícela en el genoma con el visor integral (figura 19).
¿Puede concluir algo al respecto?
23
III Escuela de Genómica Clínica Agosto 2018
Figura 18: Anotaciones clínicas detalladas para la variante rs1800497.
24
III Escuela de Genómica Clínica Agosto 2018
Figura 19: Localización de la variante rs1800497 y su entorno génico cercano.
25