Date post: | 05-Sep-2015 |
Category: |
Documents |
Upload: | bbva-innovation-center |
View: | 13 times |
Download: | 1 times |
Herramientas de visualizacin de datos
01
02
03
La caja de herramientas del cientfico de datos
Cinco herramientas de visualizacin de datos
Saca provecho a los datos con estos cuatro tutoriales
La ciencia del dato se erige en nuestros das como una profesin
multidisciplinar. Esta pretende ser una gua bsica de recursos en
cada una de las facetas desempeadas por estos profesionales.
La caja de herramientas del
cientfico de datos
01. CAJA HERRAMIENTAS
La ciencia del dato se erige en nuestros das
como una profesin multidisciplinar en la
cual conocimientos tcnicos de diversas
reas se solapan formando un perfil ms
propio del Renacimiento que del
superespecializado siglo XXI.
HERRAMIENTAS
Y LENGUAJES
SQL
Sqlite
SQlite3
RSQlite
Toad
Tora
RapidMiner
Knime
Pentaho
RODBC
RJDBC
pyODBC
mxODBC
SQLAlchemy
pandas
data.table
XML
Jsonlite
json
Dada la escasez de formacin
estructurada en la materia, los
cientficos de datos se ven obligados a
ir coleccionando conocimientos,
habilidades y herramientas que les
permitan desarrollar de forma ptima
sus competencias.
Este artculo pretende ser una
gua bsica no exhaustiva de
recursos en cada una de las
facetas desempeadas por
estos profesionales.
Gestin de datosParte del trabajo del cientfico de datos es la
captura, depuracin y almacenamiento de la
informacin en un formato adecuado para su
tratamiento y anlisis.
El caso ms frecuente ser el acceso a una rplica
de los datos para una captura puntual o peridica.
Ser necesario conocer SQL para acceder a la
informacin almacenada en bases de datos
relacionales. Cada base de datos tiene una consola
01. CAJA HERRAMIENTAS
de comandos para ejecutar las sentencias SQL,
aunque son mayora los que prefieren un entorno
grfico con informacin sobre tablas, campos e
ndices. Entre las herramientas ms valoradas estn
Toad, versin comercial para plataforma
Microsoft y Tora, versin libre multiplataforma.
Una vez extrados los datos podemos guardarlos en
ficheros de texto plano que luego cargaremos en
nuestro entorno de trabajo para machine learning o
utilizar una herramienta como SQlite.
01. CAJA HERRAMIENTAS
SQlite es una base de datos relacional ligera, sin
dependencias externas y que no necesita la
instalacin en un servidor. Transportar una base de
datos es tan fcil como copiar un solo fichero. En
nuestro caso, cuando vayamos
a procesar la informacin lo haremos sin necesidad
de concurrencia ni de mltiples escrituras en los
datos origen, lo cual se adapta perfectamente a las
caractersticas de SQlite.
Los lenguajes que utilizaremos para nuestros
algoritmos tienen conectividad con SQlite (Python a
travs de SQlite3 y R a travs de RSQlite) por lo
que podemos optar por importar los datos antes de
preprocesarlos o hacer parte en la base de datos,
lo cual nos evitar ms de un problema a partir de
un volumen medio de registros.
Otra alternativa para la captura en lotes de los
datos es la utilizacin de una herramienta
que incluya el ciclo ETL completo (extraccin,
transformacin y carga), entre las que destacan
RapidMiner, Knime y Pentaho. Con ellas podremos
definir el ciclo de captura y depuracin de los datos
de manera grfica mediante conectores.
Cuando tengamos garantizado acceso al origen de
datos durante el preproceso podemos optar por
una conexin ODBC (RODBC y RJDBC en R y
pyODBC, mxODBC y SQLAlchemy en Python) y
beneficiarnos de realizar uniones (JOIN) y
agrupaciones (GROUP BY) utilizando el motor de la
base de datos e importando posteriormente los
resultados.
Para el procesado externo a la base de datos
pandas (librera de Python) y data.table (paquete de
R) son primera eleccin. En el caso de R, data.table
permite soslayar uno de los puntos dbiles de ste,
la gestin de la memoria, realizando operaciones
vectoriales y agrupaciones por referencia, es decir,
sin tener que duplicar temporalmente los objetos.
01. CAJA HERRAMIENTAS
Un tercer escenario sera el acceso a
informacin generada en tiempo real y que
sea transmitida en formatos como XML o
JSON. Seran proyectos denominados de
incremental learning entre los que se
encuentran los sistemas de recomendacin,
publicidad online y trading de alta
frecuencia.
Utilizaremos herramientas como XML o
jsonlite (paquetes para R) o xml y json
(mdulos de Python). Con ellos haremos
una captura en streaming, calcularemos la
prediccin, la devolveremos en el mismo
formato y actualizaremos nuestro modelo
una vez el sistema de origen nos facilite,
ms adelante, el resultado observado en la
realidad.
Si bien las reas de business intelligence, data
warehousing y machine learning son objetos de
la ciencia de datos, es esta ltima la ms
diferencial en el sentido que necesita de un
nmero mayor de utilidades especficas.
En cuanto a lenguajes de programacin,
imprescindibles en nuestra caja de herramientas
son R y Python, los ms utilizados para el
aprendizaje automtico.
Anlisis de datos
01. CAJA HERRAMIENTAS
Para Python destacamos la suite scikit-learn que
cubre casi todas las tcnicas, salvo quizs las redes
neuronales. Para estas tenemos varias alternativas
interesantes, como Caffe y Pylearn2. Pylearn2
utiliza como base Theano, una interesante librera
de Python que permite definiciones simblicas y
uso transparente de los procesadores GPU.
01. CAJA HERRAMIENTAS
Si necesitamos modificar algn paquete de R requeriremos C++ y disponer de utilidades que nos permitan
volver a generarlos: Rtools o devtools facilitan todos los procesos relacionados con el desarrollo.
Data.table: Lectura rpida de ficheros texto,
creacin, modificacin y borrado de columnas
por referencia, unin de tablas por una clave
comn o agrupacin y resumen de datos.
Foreach: Ejecucin de procesos en paralelo
contra un backend previamente definido con
alguna utilidad como doMC o doParallel.
Bigmemory: Manejar grandes matrices y
compartirlas entre varias sesiones o ejecuciones.
Caret: Comparacin modelos, control de
particiones de datos (splitting, bootstrapping,
subsampling) y ajuste de parmetros (grid
search).
Matrix: Manejo de matrices dispersas y
transformacin de variables categricas a
binarias (onehot encoding) mediante la funcin
sparse.model.matrix.
Utilidades que nos harn la vida ms fcil en R:
Gradient boosting: gbm y xgboost.
Ensamblado de rboles de regresin y
clasificacin: randomForest y randomForestSRC.
Mquinas de soporte de vectores: e1071,
LiblineaR y kernlab.
Regresin con regularizacin (Ridge, Lasso y
ElasticNet): glmnet.
Modelos generalizados aditivos: gam.
Clustering: cluster.
Entre los paquetes para R ms utilizados destacan:
01. CAJA HERRAMIENTAS
Una mencin especial requieren los entornos distribuidos. Si hemos trabajado con datos procedentes de una
entidad o empresa de cierto tamao probablemente tengamos experiencia con el denominado ecosistema
Hadoop. Hadoop es en su origen un sistema distribuido de ficheros (HDFS) dotado de unos algoritmos
(MapReduce) que permiten realizar procesamiento de la informacin en paralelo.
Vowpal Wabbit: Mtodos para online learning
basado en gradiente descendente.
Mahout: Suite de algoritmos entre los que
destacan los sistemas de recomendacin,
clustering, regresin logstica, random forest.
h2o: Quizs la herramienta en fase de mayor
crecimiento, con un gran nmero de algoritmos
paralelizables. Puede ejecutarse desde un
entorno grfico propio o bien desde R o Python.
Algunas de las herramientas de aprendizaje automtico que conviven con Hadoop:
Interesar tambin al cientfico de datos estar al
corriente de las nuevas tendencias de cambio
generacional de Hadoop hacia Spark.
Spark tiene varias ventajas sobre Hadoop para el
procesamiento de la informacin y la ejecucin
de algoritmos. La principal de ellas la velocidad,
dado que es hasta cien veces mayor debido a que,
a diferencia de Hadoop, Spark utiliza la gestin en
memoria y slo escribe a disco cuando es
necesario.
01. CAJA HERRAMIENTAS
Spark puede ejecutarse de forma
independiente o puede convivir como un
componente ms de Hadoop, de forma
que la migracin puede planificarse de
manera no traumtica. Puede por
ejemplo utilizar HBase como base de
datos, aunque Cassandra se est
imponiendo como solucin de
almacenamiento por su redundancia y
escalabilidad.
Como muestra de los aires de cambio,
Mahout desde el pasado ao trabaja para
integrarse con Spark, distancindose de
MapReduce y Hadoop, y H2O.ai ha
lanzado Sparkling Water que es la versin
de su suite h2o sobre Spark.
Para terminar una breve referencia a
la presentacin de los resultados.
Las herramientas ms utilizadas en R
son sin duda lattice y ggplot2 y en
Python Matplotlib, pero si necesitamos
presentaciones profesionales
integradas en entornos web la mejor
opcin sin duda es D3.js.
Entre los entornos integrados de
business intelligence, con un enfoque
claro a la presentacin, destacar
Tableau, el ms conocido, y como
alternativas para la exploracin grfica
de datos, Birst y Necto.
Visualizacin
01. CAJA HERRAMIENTAS
Te presentamos algunas de las mejores herramientas de
visualizacin de datos que puedes usar en tu negocio para sacar
el mayor provecho a la gran cantidad de informacin que se crea
cada da en el mundo digital.
Cinco herramientasde visualizacin de datos que no debes perder de vista
02. HERRAMIENTAS DE VISUALIZACIN DE DATOS
Hoy en da, el universo digital est alcanzado nuevos umbrales. La cantidad de datos generada, tanto por usuarios particulares como por las empresas, est aumentando a un ritmo vertiginoso. De hecho, segn un estudio de IDC y EMC, el universo de datos digitales est doblando su tamao cada dos aos y, en 2020, se habrn generado 44 zettabytes de informacin o, lo que es lo mismo, 44 trillones de gigabytes de datos estructurados y desesctructurados.
El hecho de crear y acceder a una pgina web, participar en un blog, aumentar nuestro nmero de seguidores, escribir comentarios, mandar un tuit o simplemente, navegar por internet, produce toda una serie de datos que, si se saben aprovechar correctamente, pueden ofrecer un gran valor para las empresas.
NDICE DE HERRAMIENTAS
DE VISUALIZACIN
Google Fusion Tables
CartoDB
Tableau Public
iCharts
Smart Data Report
02. HERRAMIENTAS DE VISUALIZACIN DE DATOS
El gran reto, no obstante, es dar sentido a todos
esos datos. Es decir, ser capaces de captar,
relacionar, analizar y extraer su verdadero valor, de
forma que la informacin se pueda presentar de
manera atractiva, clara, concisa y comprensible. El
objetivo es facilitar la toma de decisiones dentro de
tu negocio. Explorar y analizar visualmente los
datos de clientes puede llevarte, adems, a
descubrir nuevas vas para llegar hasta ellos,
segmentarlos mejor, personalizar ofertas de
productos o servicios y crear ideas innovadoras,
entre otras muchas posibilidades, que pueden
mantener el engagement entre tu marca y tus
usuarios a lo largo del tiempo.
Por dnde empezar
Puede que el primer paso dentro de la visualizacin
de datos resulte intimidante. Por fortuna, al igual
que el crecimiento de datos avanza, tambin lo
hacen las herramientas que nos ayudan a sacar su
valor. Te presentamos 5 herramientas
recomendables para iniciarse en este mundo.
Google Fusion Tables
02. HERRAMIENTAS DE VISUALIZACIN DE DATOS
Es una excelente herramienta para principiantes
o aquellas personas que no saben de
programacin. Adems, para los usuarios ms
avanzados, existe una API que permite producir
grficas o mapas a partir de informacin.
Una de las ventajas de esta aplicacin es la
diversidad de representaciones de datos que
hay a disposicin del usuario. Adems, ofrece la
posibilidad de crear grficos o mapas de manera
relativamente rpida, incluyendo funciones GIS
para analizar datos por geografas.
Esta herramienta es muy utilizada por The
Guardian para producir mapas de una manera
rpida y detallada.
CartoDBSe trata de un servicio open source dirigido a
cualquier usuario, independientemente del nivel
tcnico que tenga, con una interfaz muy amigable.
Permite crear una gran variedad de mapas
interactivos, lo que permite elegir entre el catlogo
que el mismo servicio ofrece, incluir mapas
de Google Maps, o agregar a la lista tus propios
mapas personalizados.
Lo ms interesante es que es posible tener acceso a
los datos de Twitter para ver cmo los usuarios
reaccionan ante una marca, una determinada
campaa de marketing o un evento. Un buen
ejemplo de ello lo podemos ver en el mapa de
seguimiento de tuits que se cre el pasado ao con
motivo del lanzamiento del ltimo lbum
de Beyonce en el que, claramente, se puede
observar los lugares donde ms impacto tuvo. Toda
una fuente de informacin visual para los
profesionales del marketing y de negocio.
Tambin hay que destacar su activo grupo de
desarrolladores que aporta gran cantidad de
documentacin y ejemplos. Adems, el carcter
abierto de su API hace que continuamente se estn
desarrollando nuevas integraciones y aumentando
las capacidades de la herramienta con nuevas
libreras.
02. HERRAMIENTAS DE VISUALIZACIN DE DATOS
Tableau Public
02. HERRAMIENTAS DE VISUALIZACIN DE DATOS
Con Tableau Public puedes crear mapas
interactivos, grficos de barras, tartas, etc. de forma
sencilla. Una de sus ventajas es que, al igual que
con Google Fusion Tables, es posible importar
tablas de Excel para facilitar tu trabajo. En cuestin
de minutos, puedes crear un grfico interactivo,
embeberlo en tu pgina web y compartirlo. Por
ejemplo, el medio de comunicacin Global
Post cre una serie de grficos sobre cules son los
mejores pases para hacer negocios en frica.
Recientemente, lanzaron su versin 8.2. En ella
tambin podemos encontrar la nueva
herramienta OpenStreetMap que permite generar
mapas muy detallados a partir de datos locales,
como cafeteras o tiendas. Tableau Public es una
herramienta gratuita, aunque existe tambin una
versin de pago.
iChartsCon esta herramienta puedes iniciarte en el mundo
de la visualizacin de datos. iCharts cuenta con una
versin gratuita (Basic) y dos de pago (Platinum y
Enterprise). Con esta herramienta puedes crear
visualizaciones en pocos pasos exportando
documentos de Excel y Google Drive, o aadir
datos manualmente.
A travs de esta herramientas tambin es posible
compartir tus grficos con tus colaboradores de
forma privada, adems de poder editar y actualizar
dichos grficos con nuevos datos a travs de su
servicio de cloud computing. Incluso, puedes
compartirlos con tus clientes a travs de mensajes
de correo electrnico, boletines de noticias o redes
sociales.
Entre las empresas que utilizan este servicio nos
encontramos con la prestigiosa consultora IDC, que
utiliza iChart para ofrecer un aspecto visual a los
datos ms relevantes de sus informes.
02. HERRAMIENTAS DE VISUALIZACIN DE DATOS
Smart Data ReportFinalmente, queremos destacar la solucin Smart
Data Report que, aunque no sea tan potente como
las anteriores, tiene la ventaja de ser una solucin
de visualizacin de datos asequible para
emprendedores y pequeas empresas cuyos
trabajadores no disponen de mucho tiempo en su
da a da.
Esto se debe a que entre los servicios que te ofrece
esta web se incluye el anlisis de datos gratuito y la
generacin de informes que pueden enviarse por
email, sin que sea necesario que lo haga uno
mismo. Una vez el servicio ha preparado tu
informe, se generan un cdigo HTML para poder
embeberlo en tu web corporativa o en tus artculos.
02. HERRAMIENTAS DE VISUALIZACIN DE DATOS
Mapear datos, visualizarlos en apps geoespaciales y aplicar el
aprendizaje automtico. Ponemos en prctica nuestros
conocimientos con la ayuda de estos vdeos tutoriales.
Saca provecho a los datos con estos
cuatro tutoriales
Mapear datos
03. TUTORIALES
CartoDB nos explica cmo convertir los datos de localizacin en conocimiento para tu negocio. En este
tutorial podrs aprender a analizar, visualizar y construir aplicaciones de datos a travs de su herramienta.
Aprendizaje automtico
03. TUTORIALES
Ahora que se acerca el verano, Andrs Gonzlez, responsable de soluciones de Big Data y Data Prediction en
Clever Task, nos ensea cmo hacer predicciones de los datos en un caso muy concreto: el sector turstico.
Apps geoespaciales
03. TUTORIALES
Y si lo que quieres es aprender a crear aplicaciones con datos geoespaciales no te puedes perder este
tutorial, tambin de CartoDB, en el que se explica cmo puedes sacar provecho de una API, en este caso la
que abri BBVA para el concurso InnovaChallenge, y as poder crear apps y visualizaciones.
Buenos ejemplos de visualizacin
03. TUTORIALES
Por ltimo para cerrar esta recopilacin, Alberto Cairo, profesor de visualizacin de datos en la Universidad
de Miami, nos ensea las buenas prcticas en visualizacin de datos. Es bueno aprender de nuestros errores
y de los aciertos de otros.
compartir
TE PUEDE INTERESAR
Innovation Edge Big Data: generar
valor de negocio con los datos
Emerging Tech: la visualizacin de
datos ms all del ruido
Infografa: las claves de Big Data
segn DJ Patil
Infografa Big Data: el presente y el
futuro de los datos
Caso de xito de visualizacin de
datos: Illustreets y CartoDB
Regstratepara estar al da de las ltimas tendencias
conversa con nosotros en:
BBVA no se hace responsable de las opiniones publicadas en este documento.
www.bbvaopen4u.com