Date post: | 29-Apr-2018 |
Category: |
Documents |
Upload: | trinhduong |
View: | 220 times |
Download: | 3 times |
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 1
Practica de Laboratorio 04
Tema: Descripción de varios software estadísticos e instalación de un software biológico
I. Objetivos
1.1. El estudiante conocerá algunas descripciones de software estadístico para
tratamiento de datos.
1.2. El estudiante aprenderá a instalar un software de tratamiento genético biológico y su
uso básico.
II. Fundamento de la practica
En la actualidad existen muchos software estadísticos, para el tratamiento de diferentes
tipos de datos, entre los cuales tenemos
2.1. Software biológico: Existen muchos software biológicos para realizar estudios como
ADN, Proteínas algunos son gratuitos como otro son licenciados en la práctica vamos a
ver el software MEGA (pasteur 2007) (NCBI s.f.)
2.1.1. Mega 5: es una herramienta integrada para transmitir alineación automática y
manual de secuencia, infiriendo árboles filogenéticos, extrayendo de la cantera
bases de datos basadas en la Web, estimando tasas de evolución molecular,
infiriendo secuencias ancestrales, y probando hipótesis evolucionistas. MEGA es
una aplicación de múltiples Ventanas. Funciona con todas las ediciones de los
sistemas operativos Windows.
2.2. Software Estadísticos
En la actualidad existen muchos software estadísticos, para el tratamiento de
diferentes tipos de datos, entre los cuales tenemos
2.2.1. BMDP es uno de los paquetes de software estadísticos más antiguos. El primer
manual para BMDP Biomedical Computers Programs se publicó en 1961. En 1975
pasó a denominarse BMDP. Cubre un amplio abanico de métodos estadísticos
pero su capacidad para manejar datos es limitada. Desventajas. Sus programas se
ejecutan por separado: solo puede accederse a uno de ellos en cada ejecución.
Los resultados de cada programa se pueden guardar en un archivo de BMDP y
utilizarse como entrada en otros programas. (Wikipedia 2001)
2.2.2. CalEst es un paquete de Estadística y Probabilidad, es tanto didáctico como
operativo. CalEst cuenta con una interface amigable que le permitirá obtener
cálculos y gráficas rápidamente, faciles de interpretar. Además, le permite
interactuar con diversas distribuciones de probabilidad (densidad y acumulada).
Asimismo, incluye diversos tutoriales que permiten experimentar diversos
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 2
aspectos de estadística y probabilidad. CalEst fue desarrollado en CONTECK por
los científicos Jorge Dominguez y Axel Dominguez. (Wikipedia 2001)
2.2.3. EViews es un paquete estadístico para Windows, usado principalmente para
análisis econométrico. Ha sido desarrollado por Quantitative Micro Software
(QMS). La versión 1.0 salió al mercado en marzo de 1994, reemplazando al
MicroTSP. La versión más actualizada del EViews es la 7.0. El EViews combina la
tecnología de hoja de cálculo con tareas tradicionales encontradas en software
estadístico tradicional, empleando una interfaz de usuario gráfica. Estas
características se combinan con un poderoso lenguaje de programación. El EViews
puede ser empleado para análisis estadístico general, pero es especialmente útil
para realizar análisis econométrico, como modelos de corte transversal, datos en
panel y estimación y predicción con modelos de series de tiempo. Entre los tipos
de archivo con los que es compatible destacan el Excel, SPSS, SAS, Stata, RATS, y
TSP. (Wikipedia 2001)
2.2.4. Octave o GNU Octave es un programa libre para realizar cálculos numéricos.
Como indica su nombre es parte de proyecto GNU. MATLAB es considerado su
equivalente comercial. Entre varias características que comparten se puede
destacar que ambos ofrecen un intérprete permitiendo ejecutar órdenes en modo
interactivo. Nótese que Octave no es un sistema de álgebra computacional como
podría ser Máxima, sino que usa un lenguaje que está orientado al análisis
numérico. El proyecto fue creado alrededor del año 1988 pero con una finalidad
diferente: ser utilizado en un curso de diseño de reactores químicos.
Posteriormente en el año 1992, se decide extenderlo y comienza su desarrollo a
cargo de John W. Eaton. La primera versión alpha fue lanzada el 4 de enero de
1993. Un año más tarde, el 17 de febrero de 1994 aparece la versión 1.0. El
nombre surge del nombre de un profesor de unos de los autores conocido por sus
buenas aproximaciones por medio de cálculos mentales a problemas numéricos.
(Wikipedia 2001)
2.2.5. KNIME (o Konstanz Information Miner) es una plataforma de minería de datos
que permite el desarrollo de modelos en un entorno visual. Está construido bajo
la plataforma Eclipse. Fue desarrollado originalmente en el departamento de
bioinformática y minería de datos de la Universidad de Constanza, Alemania, bajo
la supervisión del profesor Michael Berthold. En la actualidad, la empresa
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 3
KNIME.com GmbH, radicada en Zúrich, Suiza, continúa su desarrollo además de
prestar servicios de formación y consultoría. (Wikipedia 2001)
2.2.6. LISREL (acrónimo de linear structural relations), es un programa usado en análisis
de ecuaciones estructurales. Fue desarrollado en los años setenta por Karl
Jöreskog y Dag Sörbom, profesores ambos de la Universidad de Uppsala, Suecia.
Su versión más reciente es la 8.8 de agosto de 2009. LISREL está principalmente
basado en comandos, aunque las versiones más recientes han incorporado una
interfaz gráfica. Lo distribuye la empresa SSI (Scientific Software International).
(Wikipedia 2001)
2.2.7. Orange es un programa informático para realizar minería de datos y análisis
predictivo desarrollado en la facultad de informática de la Universidad de
Ljubljana. Consta de una serie de componentes desarrollados en C++ que
implementan algoritmos de minería de datos, así como operaciones de
preprocesamiento y representación gráfica de datos. Los componentes de Orange
pueden ser manipulados desde programas desarrollados en Python o a través de
un entorno gráfico. Se distribuye bajo licencia GPL (Wikipedia 2001)
2.2.8. R: es un lenguaje y entorno de programación para análisis estadístico y gráfico. Se
trata de un proyecto de software libre, resultado de la implementación GNU del
premiado lenguaje S. R y S‐Plus ‐versión comercial de S‐ son, probablemente, los
dos lenguajes más utilizados en investigación por la comunidad estadística, siendo
además muy populares en el campo de la investigación biomédica, la
bioinformática y las matemáticas financieras. A esto contribuye la posibilidad de
cargar diferentes bibliotecas o paquetes con finalidades específicas de cálculo o
gráfico. R se distribuye bajo la licencia GNU GPL y está disponible para los
sistemas operativos Windows, Macintosh, Unix y GNU/Linux. (Wikipedia 2001)
2.2.9. RapidMiner (anteriormente, YALE, Yet Another Learning Environment) es un
programa informático para el análisis y minería de datos. Permite el desarrollo de
procesos de análisis de datos mediante el encadenamiento de operadores a
través de un entorno gráfico. Se usa en investigación y en aplicaciones
empresariales. La versión inicial fue desarrollada por el departamento de
inteligencia artificial de la Universidad de Dortmund en 2001. Se distribuye bajo
licencia GPL y está hospedado en SourceForge desde el 2004. RapidMiner
proporciona más de 500 operadores orientados al análisis de datos, incluyendo
los necesarios para realizar operaciones de entrada y salida, preprocesamiento de
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 4
datos y visualización. También permite utilizar los algoritmos incluidos en Weka.
(Wikipedia 2001)
2.2.10. Statistical Package for the Social Sciences (SPSS) es un programa estadístico
informático muy usado en las ciencias sociales y las empresas de investigación de
mercado. En la actualidad, la sigla se usa tanto para designar el programa
estadístico como la empresa que lo produce. Originalmente SPSS fue creado como
el acrónimo de Statistical Package for the Social Sciences ya que se está
popularizando la idea de traducir el acrónimo como "Statistical Product and
Service Solutions". Sin embargo, aunque realizando búsquedas por internet estas
pueden llevar a la página web de la empresa, dentro de la página misma de la
empresa no se encuentra dicha denominación. Como programa estadístico es
muy popular su uso debido a la capacidad de trabajar con bases de datos de gran
tamaño. En la versión 12 es de 2 millones de registros y 250.000 variables.
Además, de permitir la recodificación de las variables y registros según las
necesidades del usuario. El programa consiste en un módulo base y módulos
anexos que se han ido actualizando constantemente con nuevos procedimientos
estadísticos. Cada uno de estos módulos se compra por separado. Actualmente,
compite no solo con software licenciados como lo son SAS, MATLAB, Statistica,
Stata, sino también con software de código abierto y libre, de los cuales el más
destacado es el Lenguaje R. Recientemente ha sido desarrollado un paquete libre
llamado PSPP, con una interfaz llamada PSPPire que ha sido compilada para
diversos sistemas operativos como Linux, además de versiones para Windows y
OS X. Este último paquete pretende ser un clon de código abierto que emule
todas las posibilidades del SPSS. (Wikipedia 2001)
2.2.11. Statistica (aunque la marca está registrada como STATISTICA, en mayúsculas) es
un paquete estadístico usado en investigación, minería de datos y en el ámbito
empresarial. Lo creó StatSoft, empresa que lo desarrolla y mantiene. StatSoft
nació en 1984 de un acuerdo entre un grupo de profesores universitarios y
científicos. Sus primeros productos fueron los programas PsychoStat‐2 y
PsychoStat‐3. Después desarrolló Statistical Supplement for Lotus 1‐2‐3, un
complemento para las hojas de cálculo de Lotus. Finalmente, en 1991, lanzó al
mercado la primera versión de STATISTICA para MS‐DOS. Actualmente compite
con otros paquetes estadísticos tanto propietarios, como SPSS, SAS, Matlab o
Stata, como libres, como R. El programa consta de varios módulos. El principal de
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 5
ellos es el Base, que implementa las técnicas estadísticas más comunes. Éste
puede completarse con otros módulos específicos tales como:
• Advanced: técnicas multivariantes y modelos avanzados de regresión
lineal y no lineal
• QC: técnicas de control de calidad, análisis de procesos (distribuciones no
normales, Gage R&R, Weibull) y diseño experimental
• Data Miner: minería de datos, análisis predictivos y redes neurales
El paquete puede ser extendido a través de una interfaz con el lenguaje R.
Además, se pueden modificar y añadir nuevas librerías usando el lenguaje .NET.
(Wikipedia 2001)
2.2.12. Minitab: es un programa de computadora diseñado para ejecutar funciones
estadísticas básicas y avanzadas. Combina lo amigable del uso de Microsoft Excel
con la capacidad de ejecución de análisis estadísticos. En 1972, instructores del
programa de análisis estadísticos de la Universidad Estatal de Pennsylvania
(Pennsylvania State University) desarrollaron MINITAB como una versión ligera de
OMNITAB, un programa de análisis estadístico del Instituto Nacional de
Estándares y Tecnología (NIST) de los Estados Unidos. Como versión completa en
el 2006 cuesta $1195 USD, pero una versión para estudiantes y académicos se
ofrece como complemento de algunos libros de texto. Minitab es frecuentemente
usado con la implantación la metodología de mejora de procesos Seis Sigma.
(Wikipedia 2001)
2.2.13. Weka (Waikato Environment for Knowledge Analysis ‐ Entorno para Análisis del
Conocimiento de la Universidad de Waikato) es una plataforma de software para
aprendizaje automático y minería de datos escrito en Java y desarrollado en la
Universidad de Waikato. Weka es un software libre distribuido bajo licencia GNU‐
GPL. El paquete Weka contiene una colección de herramientas de visualización y
algoritmos para análisis de datos y modelado predictivo, unidos a una interfaz
gráfica de usuario para acceder fácilmente a sus funcionalidades. La versión
original de Weka fue un front‐end en TCL/TK para modelar algoritmos
implementados en otros lenguajes de programación, más unas utilidades para pre
procesamiento de datos desarrolladas en C para hacer experimentos de
aprendizaje automático. Esta versión original se diseñó inicialmente como
herramienta para analizar datos procedentes del dominio de la agricultura, pero la
versión más reciente basada en Java (WEKA 3), que empezó a desarrollarse en
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 6
1997, se utiliza en muchas y muy diferentes áreas, en particular con finalidades
docentes y de investigación. (Wikipedia 2001)
2.2.14. WinBUGS es un software estadístico para análisis bayesiano usando los llamados
métodos MCMC (Markov chain Monte Carlo). Está basado en el proyecto BUGS
(Bayesian inference Using Gibbs Sampling), iniciado en 1989. Corre sobre
Windows, aunque es posible ejecutarlo sobre Linux usando Wine. Lo desarrolla un
grupo de investigadores del MRC, Unidad de Bioestadística, Cambridge y el
Imperial College School of Medicine de Londres. (Wikipedia 2001)
2.2.15. World Programming System, también conocido como WPS, es un paquete
estadístico desarrollado por la compañía World Programming. WPS permite a sus
usuarios crear, editar y ejecutar programas escritos en el lenguaje SAS. El núcleo
de WPS, WPS Core, está desarrollado en C++ y ensamblador. Sobre Windows, WPS
tiene una interfaz gráfica conocida como WPS Workbench para gestionar ficheros
y editar y ejecutar programas que está basada en Eclipse. (Wikipedia 2001)
2.2.16. Statgraphics El Statgraphics Plus para Windows es un paquete para análisis de
datos estadísticos. El diseño del Statgraphics es intuitivo y provee un conjunto de
aspectos que lo hacen atractivo para profesionales que trabajan en cualquier
industria. Entre los principales aspectos del programa merecen destacarse el
StatAdvisor, que da una interpretación de los resultados; StatFolio, que permite
guardar y reutilizar los análisis realizados previamente; gráficos interactivos;
StatGallery que permite combinar textos y gráficos en múltiples páginas;
StatWizard, que guía en la selección de los datos y los análisis, y StatReporter que
permite organizar reportes del STATGRAPHICS Plus. El Statgraphics contiene
varios aspectos únicos que facilitan su uso y la generación de informes: El
StatAdvisor, Statfolios, StatGallery, StatReporter y StatWizard, los cuales
examinaremos brevemente.
III. Equipo multimedia (Hardware y Software) y materiales
• Equipo multimedia
o Proyector multimedia
o Computadora para el docente
o Computadoras para alumnos
o USB
o Windows XP
o Office 2010
•
IV. Pr
•
•
•
Ing. Ken
o Utilitari
Materiales
o Guía de
o Pizarra
o Plumon
o Tiza
o Mota
ractica
Para instal
al ejecutab
Se nos mos
Damos clic
UnEscu
ne A. Reyna Ro
os diversos (
s
e Practica
acrílica y de
es
ar el Mega,
ble
strara la sigu
en el botón
iversidaduela Académica e
ojas
(Adobe Read
tiza
este softwa
uiente ventan
ejecutar, se
d Nacionen Ingeniería de S
der, K‐lite, W
are puedes d
na
muestra la s
al del SaSistemas e Inform
Winrar, etc.)
descargarlo d
siguiente ven
nta mática
del internet,
ntana
damos dob
7
ble clic
•
•
Ing. Ken
A partir de
defecto tal
Hasta que
UnEscu
ne A. Reyna Ro
e aquí pulsam
como nos v
nos muestre
iversidaduela Académica e
ojas
mos el botó
va a mostrar
e en el escrito
d Nacionen Ingeniería de S
n Siguiente
las siguiente
orio el siguie
al del SaSistemas e Inform
(Next) y dej
es ventanas
ente acceso d
nta mática
amos las co
directo
onfiguracione
8
es por
Menú princ
Ing. Ken
Iniciando e
• E
m
• V
• M
a
V
D
p
d
f
a
b
cipal
UnEscu
ne A. Reyna Ro
el Mega
Existen dos fo
mega y b) in
Ventana prin
Mega básico
archivos de d
Visualizando
Desde el men
para visualiza
de texto meg
recuenteme
a) Desde el m
b) se nos mos
Área de
iversidaduela Académica e
ojas
ormas para i
nicio > todos
cipal
o: en esta p
datos y guard
un archivo
nú principal
arlo y/o edit
ga nativo y ex
nte en Mega
menú princip
strara la sigu
e trabajo
d Nacionen Ingeniería de S
ingresar a m
s los program
parte nos en
dando resulta
de datos us
de mega, us
tarlo para es
xplorar su fo
a.
pal de Mega
uiente ventan
al del SaSistemas e Inform
mega a) dand
mas > Mega5
nfocaremos
ados
ando el edit
sted pude ab
ste ejemplo
ormato esta
clic file > E
na
nta mática
do doble clic
> clic en Me
en abriend
or de texto d
brir cualquie
nosotros ab
característic
dit a Text Fil
c al acceso d
ega
do y manipu
de Mega
r archivo de
brimos un ar
ca no es usad
le
9
irecto
ulando
texto
rchivo
do tan
Barras deHerramiepara prodatos coalineamiabrir datmodelos
e entas cesar mo ento, tos, , etc.
Ing. Kene
c
d
m
UnEscu
e A. Reyna Roj
c) Vamos a
d) Selecciona
mostrara la s
iversidaduela Académica e
as
File > Open,
amos el A
iguiente ven
d Nacionen Ingeniería de S
se mostrara
rchivo Dros
ntana con el f
al del SaSistemas e Inform
a la siguiente
ophila_Adh,
formato está
nta mática
e ventana
damos clic
ándar
c en abrir s
10
e nos
Ing. Kene
N
a
A
U
a
UnEscu
e A. Reyna Roj
Nosotros a es
abierto
Abriendo un
Usted puede
a) Desde la
File/Sess
Se mostr
iversidaduela Académica e
as
ste archivo p
archivo de d
abrir una Fil
barra de he
sion
rara la siguie
d Nacionen Ingeniería de S
podemos mo
datos para a
le Data usan
erramientas
ente ventana
al del SaSistemas e Inform
odificarlo en
nálisis
ndo cualquie
del menú pr
donde selec
nta mática
algo semeja
ra de los sigu
rincipal Meg
ccionamos e
nte a este a
uientes méto
ga Data > O
l archivo a a
11
rchivo
odos
Open a
brir
Ing. Kene
b
V
Le
u
U
c
a
UnEscu
e A. Reyna Roj
Le damo
muestra
b) Otra ma
principal
el entorn
Nota: sol
Visualizando
e deja visual
na gran var
Usted puede
ualquier de e
) Clic en TA
menú pri
Cm
iversidaduela Académica e
as
os clic en abr
en la siguien
nera es dan
de Mega, la
no principal d
amente se p
una Secuen
lmente explo
riedad de an
activar la ve
estos métod
A que se e
ncipal del M
Clic con el mouse
d Nacionen Ingeniería de S
rir el entorno
nte ventana
ndo clic en
a secuencia a
de mega.
puede abrir u
ncia de dato
orar sus dato
nálisis estad
entana del E
os.
encuentra en
ega.
al del SaSistemas e Inform
o principal de
File > Ope
anterior se re
un solo archiv
os
os de secuen
dístico basad
Explorador d
n debajo de
nta mática
e Mega se vi
en a File /Se
epite y visua
vo de datos
ncia así como
do en comp
e Datos de S
la barra de
isualizara co
ession del
alizara igualm
o también re
posición de d
Secuencia u
e herramient
12
mo se
menú
mente
ealizar
datos.
sando
ta del
Ing. Kene
b
c)
D
T
U
se
u
a
bc)
UnEscu
e A. Reyna Roj
) Pulse F4
) Clic en da
De estas tres
raduciendo
Utilizando el
ecuencia de
sando cualq
) En la vent
) Pulsando ) En la vent
iversidaduela Académica e
as
ata > explore
formas se p
secuencia
l Explorado
código de p
uier de los si
tana Sequen
la tecla T tana pulse el
d Nacionen Ingeniería de S
e active data
puede ingres
r de Datos
proteína a un
iguientes mé
nce data exp
l botón UUC
al del SaSistemas e Inform
ar a la venta
s de Secue
na secuencia
étodos:
plorer selecc
C → Phe
nta mática
na de Seque
encia, usted
a de aminoá
ione data > t
ence data ex
d puede tra
ácido y de re
traslate sequ
13
plorer
aducir
egreso
uence
Ing. Kene
D
U
se
la
N
UnEscu
e A. Reyna Roj
De estas tres
Una vez trad
eleccionando
a ventana de
Nos mostrara
iversidaduela Académica e
as
formas se pu
ducido la s
o Statistics
e la sequece
a los resultad
Clic con emouse
d Nacionen Ingeniería de S
uede obtene
ecuencia, ca
> clic en am
data explore
dos en Excel
el
al del SaSistemas e Inform
er la siguient
alcular la c
mino acid co
er
la cual se ej
nta mática
e ventana co
omposición
omposition, d
ecutara auto
on la traducc
de amino
desde el me
omáticament
14
cion
acido
enú de
te
Ing. Kene
Ex
U
si
P
Ex
re
G
E
H
UnEscu
e A. Reyna Roj
xportando s
Usando el Se
iguientes fo
hylip 3.0, Ex
xport Data y
esto lo dejam
Guardando la
En la ventana
Hasta aquí lo
iversidaduela Académica e
as
ecuencia de
equence dat
rmatos Meg
cel Workboo
y se nos mo
mos por defe
a Sesión
a de Sequenc
básico del so
d Nacionen Ingeniería de S
e datos
ta explorer,
ga, Nexus (P
ok, CSV (imp
ostrar la sigu
ecto
ce Data Expl
oftware Meg
al del SaSistemas e Inform
usted pued
PAUP 4.0), N
ortable a exc
uiente venta
orer, vamos
ga, para prof
nta mática
de guardar
Nexus (PAUP
cel), para ell
ana el elegim
a Data > sav
fundizar más
los datos e
P 3.0/Mac C
o vamos a: D
mos el form
ve sessión
s entrar a la a
15
en los
Clade),
Data >
ato el
ayuda
Universidad Nacional del Santa Escuela Académica en Ingeniería de Sistemas e Informática
Ing. Kene A. Reyna Rojas 16
V. Trabajo en laboratorio o domicilio
1. Realice los pasos de instalación de un software estadístico ejemplo SPSS
2. Realice una descripción de un software biológico
3. Realice los pasos de instalación de un software biológico
4. Haga una descripción tanto biológica y química de las estructuras orgánicas timina,
guanina, citosina, uracilo, adenina
5. Realice un ingreso de datos al mega5, de aminos ácidos y proteínas de una
sustancia cualquiera por ejemplo papa
6. Investigar que hace las otras opciones de la barra de herramientas del Mega5 ( Align,
Models, Distance, Diversity, Phylogeny, User Tree, Ancestors, selection, Rate, clocks).
VI. Bibliografía
• NCBI. http://www.ncbi.nlm.nih.gov. s.f. http://www.ncbi.nlm.nih.gov/Structure/CN3D/cn3dinstall.shtml (último acceso: 06 de abril de 2011).
• pasteur, institut. http://bioweb2.pasteur.fr. 31 de diciembre de 2007. http://bioweb2.pasteur.fr/intro‐en.html (último acceso: 6 de abril de 2011).
• wikipedia. http://es.wikipedia.org. 15 de enero de 2001. http://es.wikipedia.org/wiki/Bioinform%C3%A1tica (último acceso: 06 de abril de 2011).
• Wikipedia. http://es.wikipedia.org/. 15 de enero de 2001. http://es.wikipedia.org/wiki/Categor%C3%ADa:Paquetes_de_software_estad%C3%ADstico (último acceso: 05 de abril de 2011).