Tarea 2: Proteınas transmembranales
Dpto. Ciencias de la Computacion e Inteligencia ArtificialUniversidad de Sevilla
Base de datos UniProt
Incluimos el codigo asignado
Secuenciacion de la proteına
En la pagina con la informacion sobre la proteına asignada
• Localizamos la seccion ’Sequences’
Secuenciacion de la proteına
Descargamos la secuenciacion de la proteına en formato FASTA
Topologıa de la proteına
Volvemos a la pagina con la informacion sobre la proteına asignada
• Localizamos la seccion ’Topology’ (a traves de ’Feature table’)
Anotacion de la proteına
Descargamos la descripcion de la topologıa de la proteına enformato GFF
Se trata de una ’Hoja de calculo’
Si utilizamos ’LibreOffice Calc’ para procesar el fichero
Separadores de los datos
Elegimos como separadores de los datos: ’Tabulador’, ’Punto ycoma’ e ’=’.
Edicion previa del fichero GFF
Si elegimos otra herramienta que no nos permita seleccionar losseparadores de los datos, tipo ’Excel’
• Sera necesario editar el fichero reemplazando cada ’;’ y cada’=’ por un tabulador (copia primero algun tabulador).
Edicion previa del fichero GFF (II)
No olvides incluir el tabulador en ’Reemplazar por:’
Procesado del fichero GFF
Con la ’Hoja de calculo’, eliminamos solo las filas innecesarias...
Procesado del fichero GFF (II)
y eliminamos solo las columnas innecesarias.
Fichero CSV
Guardamos los datos (posicion de inicio y finalizacion de cada tipode region, y el tipo de region) en formato CSV
RStudio
En R, obtenemos la tabla a partir del fichero CSV
Regiones en la proteına
Generamos el etiquetado de la secuenciacion de la proteına con losdistintos tipos de region asociados a cada aminoacido.
Proteınas similares
Volvemos a la pagina con la informacion sobre la proteına asignada
• Localizamos la seccion ’Similar proteins’ (y expandimos latabla de resultados)
Revisadas
Descargamos tambien la informacion de aquellas que estenrevisadas.