Date post: | 04-Dec-2014 |
Category: |
Business |
Upload: | fernando-parra |
View: | 820 times |
Download: | 0 times |
Big DataValor estratégico para el mercado corporativo
@ferparra
A. Definición de Big Data
B. Aplicaciones
C. Tecnologías
D. Mejores prácticas
E. Reflexión final
• Hacia 2020, 5,200 Gigabytes de datos serán generados para cada ser humano del planeta.
• Un motor de jet en un vuelo de Londres a Nueva York genera 10 Terabytes de datos cada 30 minutos.
• El 90% de los datos del mundo actuales fueron generados en los últimos 2 años.
• Según MIT, las organizaciones grandes tienen en promedio 5.000 fuentes de datos, pero 1-2% terminan en su Data Warehouse.
• El crecimiento exponencial se torna cada vez mas difícil de administrar.
• Los datos contienen información poco obvia que las empresas podrían descubrir para mejorar sus resultados.
• Las medidas de datos son relativas. Cada industria enfrenta desafíos de distinto tamaño.
A. Definición de Big Data!
B. Aplicaciones
C. Tecnologías
D. Mejores prácticas
E. Reflexión final
¿Qué es Big Data?
¿Análisis Predictivo
¿Business Intelligence?
¿Data Discovery?
¿Visualizaciones e infografías?
¿Búsqueda de texto?
¿Procesamiento de eventos complejos?
¿Programación neurolingüística?
¿Aprendizaje profundo?
¿Inteligencia Artificial?
¿Cual es nuestra frontera?
MB GB TB PBtablabase de datos
fotos web audio
social video mobile
tiempo re
alca
si tie
mpo real
periodico
batch
Velocidad
Volumen
Variedad
El problema comienza a definirse como de Big Data
cuando la fronterase expande.
Nuestras arquitectura de información tradicional se torna inadecuada.
El ruido supera la señal
Hay buenos modelos…y malos modelos…
El 80% del esfuerzo se produce en la
integración de datos
La explotación de Big Data está debajo de la superficie
alias“Dark data"
Además, el 80% de los datos disponibles son
no estructurados, pero… ¿equivalen al 80% del valor?
ROB (Return on Byte)!Es el valor de un byte dividido por el costo de almacenarlo
MAX(ROB)
¿Alto ROB?
¿Bajo ROB?
Big Data es la frontera de una firma para almacenar, procesar y acceder a todos los datos que necesita para operar eficazmente, tomar decisiones, reducir riesgos y servir a los clientes.
A. Definición de Big Data
B. Aplicaciones!C. Tecnologías
D. Mejores Prácticas
E. Reflexión final
Machine learning
Procesamiento en tiempo real
Analytics exploratorio
Banca Bienes de Consumo IT Telcos y
comunicaciones
Servicio al consumidor
Análisis sentimental
Seguridad informática Churn
Riesgocrediticio
Recomendación de productos
Escabilidad de Infraestructura
Gestión de promociones
Detección de Transacciones fraudulentas
Predicción de demanda en tiempo real
Optimización de protocolos
Alocación inteligente de
capacidad
Upsell y cross-sell de productos
Vista 360 del consumidor
Predicción de fallos M2M
Gobierno y ciudad
Biología y Medicina
Energía y utilidades Internet
Predicción y prevención del
delitoGenómica Medidores
inteligentesAsistente
virtual
Ciudadinteligente
Registro de enfermedades
Redesmixtas
Contenido personalizado
Digitalización de documentos
Diagnóstico médico en la
nubePredicción de la
demandaAprendizaje
profundo
OpenGovernment “Yo” cuantificado
Gestión de energía desde el
consumidorInternet of
Things
A. Definición de Big Data
B. Aplicaciones
C. Tecnologías!D. Mejores prácticas
E. Reflexión final
Nuevas estructuras de datos para
nuevos problemas
No Relacional Relacional
Hadoop!Horton!
Cloudera!MapR!
Zettaset!
!!
Hadapt!!!
Teradata!Aster!EMC!
Greeplum!IBM InfoSphere!
Netezza!SAP HANA!
SAP Sybase IQ!HP Vertica!
Oracle!
Times-ten!Infobright!ParAccel!Calpoint!
VectorWise
Analíticas
Operativas Spark Oracle IBM DB2 SQLSrvr JustOneDB
Documentos
Lotus Notes
InterSystems!Progress!
Objectivity!Versant
Marklogic!McObject
CouchDB!MongoDB!RavenDB
NoSQL
Clave Valor
Big Table
Grafos
Couchbase
Riak!Redis!
Membrain!Voldemort!BerkleyDB
Cassandra
HyperTable!HBase FlockDB!
InfiniteGraph!Neo4j!
AllegroGraph
Datos en la nubeApp Engine!SimpleDB
Amazon Redshift!SQL Azure!
database.com
Xeround!FathomDB
NewSQL
Sybase ASE Ingress
MySQL
PostgreSQL
EnterpriseDB
SchoonerSQL!Tokutek!
Continuent!Translattice!
GenieDB
ScaleBase!CodeFutures!
VoltDB!ScalArc!Drizzle
HandlerSocket!Akiban!
MySQL Cluster!Clustix!
Tuplas "Clave": { "valor": 0.55 }
¿Lenguaje de query?
(C) consistencia (A) disponibilidad (P) tolerancia a particiones
¿NoSQL? Elija 2
(lo sentimos)
Hadoop• Almacenaje y procesamiento
barato y a escala.
• Es la tecnología dominante para procesamiento distribuido a gran escala. Crece 60% anual a tasa compuesta.
• Sin embargo su nivel de utilización se encuentra por debajo del 6% en empresas.
Hadoop instala herramientas en cada nodo:
• Librerías y scripts en Java
• Un filesystem de altadisponibilidad -> HDFS
• Una plataforma de gestiónde recursos de cómputo -> YARN
• Un motor de extracción -> Map-Reduce
Arquitectura básica
Fuente: Rare Mile Technologies, 26 de Junio de 2012, http://blog.raremile.com/hadoop-demystified/
MapReduceInput -> Map(..) -> Reduce(..) -> output
Nodo 2
Nodo 3
Nodo 1
Nodo 2
Nodo 3
Nodo 1
Arch
ivos
en
files
yste
mMap(..) Reduce(..)input output
Soy maestro primario… tengo una caja de lápices de color y cajas más pequeñas
->Caja de lápices
Un alumno: toma lápiz, le
pone etiqueta, y lo vuelca en su caja (Ejemplo:
Rojo, 1)
->Otro alumno: toma caja y suma los 1s
-> Lápicespor color
input
Map(..)Reduce(..)
output
Map Reduce
Storm!Drill!
HANA Spark
Alto volumen, alta latencia Alto volumen, baja latencia
Procesamiento en batch Acceso a datos en memoria
Se define proceduralmenteSon queries a bases de datos
columnares como HBase, Cassandra o MongoDB
Es adecuado para el procesamiento total de datos
Es adecuado para producir reportes ah-hoc y procesamiento
en tiempo real
• Persistencia Cassandra, HBase
• Manipulación de datos Pig, Pandas
• Búsqueda de textoSolr, Lucene
Tecnologías complementarias que hay que saber obligado
Tecnologías complementarias que hay que saber obligado
• Machine LearningMahout, R, SAS, MADLib
• Real-time processingDrill, Storm, Impala
• In-memory SAP HANA, Apache Spark
fácil ranking de ventas por región difícil clientes que estén por dejar el servicio ultra difícil clientes que muestran insatisfacción sobre problemas aún no identificados
Consulta SQL
Clasificador
Programación neuro linguistica
¿Con qué sentido sumergirnos entre tanta
complejidad?
fácil ranking de ventas por región difícil clientes que estén por dejar el servicio ultra difícil clientes que muestran insatisfacción sobre problemas aún no identificados
Microstrategy
Modelo en R
Luminoso
Las bases de datos columnares tienen grandes beneficios• Aprovechamiento de procesamiento
masivo en paralelo (MPP).
• Posibilitan el almacenamiento en memoria RAM.
• Fáciles de administrar y de leer(viejo y conocido SQL)
• Soportan un volumen del orden de los TBs sin problemas
Analytics in-database y funciones definidas por el usuario
• Ganancia cualitativa en performance.
• Compatibles con lenguajes de markup para aplicaciones de Data Mining (PMML)
• Contendientes: Aster Data, Vertica, Netezza, Greenplum (EMC), ParAccel, SAP Sybase
Columnar + In-Database analytics =
A. Definición de Big Data
B. Aplicaciones
C. Tecnologías
D. Mejores prácticas!E. Reflexión final
Algunas Mejores prácticas
1. Partir siempre de una hipótesis antes de actuar sobre los datos
2. No construir Legacy
3. Definir una “autopista de la información”
4. Seguir pensando en dimensiones e indicadores
Algunas Mejores prácticas
5. Construir una infraestructura flexible y escalable (la nube)
6. Implementar flujos conectados a las etapas de caché anteriores
7. Los datos mas próximos van a ser sucios, pero debe agregarse valor en la etapas subsiguientes
A. Definición de Big Data
B. Aplicaciones
C. Tecnologías
D. Kimball
E. Reflexión final
–Brett Sheppard, director de Big Data, Splunk
“2014 will be the year of the big data non-specialist. Until recently, many big data projects—including those built with Hadoop—have required the skills of highly trained data scientists. They’ve also tended to rely on fixed schemas and scheduled reporting that limit the kinds of questions the system can answer. Starting in 2014, line-of-business employees will be able to ask and answer their own questions using raw, unstructured big data from disparate sources. They won’t need to rely on specialists to unlock the value of big data. Inevitably, they’ll start using data to help make decisions they previously might have made on gut-feel alone. Decision-making will also become a more creative process, as employees of all kinds start asking questions of their data to test hypotheses and explore new approaches to old problems.”
Fuente: http://inside-bigdata.com/2013/12/09/big-data-predictions-2014/
Fuente: Read Write Web, 26 de Diciembre 2013, http://readwrite.com/2013/12/26/big-data-myths-reality
El mercado requerirá nuevos perfiles
Resumiendo
1. Las empresas pueden capturar más datos que nunca.
2. La explosión del social media y del Internet of Things son los principales disparadores.
Resumiendo
3. Identificar lo importante entre tanto ruido depende del las capacidades intuitivas y de la apertura del tomador de decisiones.
4. Hadoop es una herramienta extremadamente flexible que pocos ejecutivos entienden.
Resumiendo
5. El cliente va cambiando. Las gerencias de negocio son las nuevas compradoras de software.
6. La apuesta es a largo plazo, pero con foco en lo diario. Las empresas necesitan de la prueba y el error.
Big Data es pensar en nuevos modelos de negocio basados en las necesidades del futuro
¡Gracias!