+ All Categories
Home > Data & Analytics > Upsa abril2014

Upsa abril2014

Date post: 29-Oct-2014
Category:
Upload: luis-joyanes
View: 405 times
Download: 4 times
Share this document with a friend
Description:
Conferencia en Salamanca, Universidad Pontificia de Salamanca: Big Data. La revolución de los datos, 3 de abril 2014
Popular Tags:
159
1 Prof. Luis Joyanes Aguilar U UNIVERSIDAD PONTIFICIA DE SALAMANCA BIG DATA La revolución de los datos Salamanca, abril 2014
Transcript
Page 1: Upsa abril2014

11

Prof. Luis Joyanes Aguilar

U

UNIVERSIDAD PONTIFICIA DE SALAMANCABIG DATA La revolución de los datos

Salamanca, abril 2014

Page 2: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Página –2–

Page 3: Upsa abril2014

33

ESTADO DEL ARTE DECLOUD COMPUTING

Prof. Luis Joyanes Aguilar

COMPUTACIÓN EN LA NUBELa nueva era de la computación

Page 4: Upsa abril2014

4

Page 5: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BIG DATA Y MINERÍA DE DATOS

Página –5–

Page 6: Upsa abril2014

6

Page 7: Upsa abril2014

77

ANALÍTICA DE DATOS (Analytics)

Prof. Luis Joyanes Aguilar

BIG DATAEl universo digital de datos

Page 8: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LA ERA DEL PETABYTE (1.000 TB), Wired , julio 2008 (www.wired.com)Sensores en todas partes, almacenamiento

infinito y Nubes (clouds) de procesadores Nuestra capacidad para capturar, almacenar y

comprender cantidades masivas de datos está cambiando la ciencia, medicina, negocios y tecnología. A medida que aumenta nuestra colección de hechos y figuras, crece la oportunidad de encontrar respuestas a preguntas fundamentales.

Because in the era of big data, more isn´t just more. More is different

Página –8–

Page 9: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LA ERA DEL PETABYTE -2- . Wired , julio 2008 (www.wired.com) 1TB (250.000 canciones)

20 TB (fotos “uploaded” a Facebook cada mes)

120 TB (todos los datos e imágenes recogidos por el telescopio espacial Hubble) ; 460 TB (todos los datos del tiempo climático en EEUÜ compilados por el National Climatic Data Center); 530 TB (Todos los vídeos de YouTube); 600 TB (base de datos de genealogía, incluye todos los censos de EEUU 1790-2000)

1 PB (datos procesados por los servidores de Google cada 75 minutos) Página –9–

Page 10: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Tabla de unidades de almacenamiento (The Economist, febrero 2010): “data, data everywhere” www.economist.com/specialreports/displaystory.cfm?story_id=15557421

Página –10–

Page 11: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

UN EJEMPLO DE ALMACENAMIENTO DE 1 TB

Página –11–

Page 12: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

El Universo Digital – EMC / IDC

Página –12–

Page 13: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

El Universo Digital – EMC / IDC

Página –13–

Page 14: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

El universo digital de datos, IDC 2012

Pina –14–

Page 15: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

EL UNIVERSO DIGITAL DE DATOS, 2013

EMC Corporation PUBLICÓ en diciembre de 2012, su estudio anual sobre el Universo Digital de IDC, patrocinado por EMC: “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far

East”. El estudio arrojó que, a pesar de la expansión sin precedentes del Universo Digital debido a el Big Data que se generan a diario por personas y máquinas, IDC estima que solo 0,5% de los datos mundiales se analizan.

Página –15–

Page 16: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

EL UNIVERSO DIGITAL DE DATOS, 2013

El último estudio sobre el Universo Digital de IDC “Big Data, Bigger Digital Shadows, and Biggest Growth in the Far East” (Grandes volúmenes de datos, sombras digitales más Grandes y el mayor crecimiento en el Lejano Oriente). (Diciembre 2012)

Página –16–

Page 17: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

EL UNIVERSO DIGITAL DE DATOS, 2013

Página –17–

Page 18: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

EL UNIVERSO DIGITAL DE DATOS, 2013

Página –18–

Page 19: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

El universo digital de datos, 2012

Página –19–

Page 20: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LA ERA DEL EXABYTE/ZETTABYTE CISCOLA ERA DEL EXABYTE, CISCO .

Estudio “Cisco Visual Networking Index (VNI) 2007-2012. Tráfico mundial de datos.

LA ERA DEL ZETTABYTE:Cisco VNI: Forecast and Methodology 2012: 22017. Tráfico mundial de datos (publicado en 2013)

Página –20–

Page 21: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Informe VNI CISCO 2012-2107Durante 2012, empresas, gobiernos,

industria y usuarios finales generan cada mes del año, una tasa de tráfico mensual de 44 EB (aprox. 44 millones de discos duros de 1TB apilados u 11.000 millones de DVDs).

México produjo en 2012 un tráfico de 0,6 ExaBytes/mes. Se estima que en 2017 producirá unos 1,3 EB.

Para ese momento el 56% de la población contará con acceso a Internet de acuerdo con el INEGI de México

Página –21–

Page 22: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Informe VNI CISCO 2012-2107Los dispositivos que más ayudan a

generar los 44 EB por mes, según CISCO:

0,6 EB, smartphones2,7 tabletas5,8 televisores7,6 consolas de videojuegos18,6 computadoras personales…En 2017 se espera una tasa global de

tráfico mensual de 121 EB aprox. 1 ZBPágina –22–

Page 23: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LA AVALANCHA / DILUVIO DE DATOSTwitter: (redes sociales) 90 millones de tuits (tweets) por día que representan

12 Terabytes (datos de 2011)

Boeing: (industria) Vuelo transoceánico de un jumbo puede generar 640

Terabytes.

Wal-Mart: (comercio) 1 millón de transacciones por hora que se estima que

alimenta una base de datos de 2.5 petabytes. Google procesa al día 20 PB de

informaciónPágina –23–

Page 24: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LA AVALANCHA / DILUVIO DE DATOSEl 90% de los datos acumulados en

todo el mundo se han creado en los dos últimos años. Cada día se escriben 400 millones de tuits, cada minuto se crean 600 nuevos blogs y cada segundo se registran 10.000 transacciones de pagos con tarjetas. Objetos cotidianos como los carros, los relojes o las gafas están comenzando a conectarse a Internet para alimentar nuevos servicios que requieren un constante intercambio de información.

Página –24–

Page 25: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LA AVALANCHA / DILUVIO DE DATOSLos Ayuntamientos siembran las calles con

sensores de recogida de datos para facilitar la vida de los ciudadanos. Cada día se recogen 2,5 trillones de bytes de datos, y los directivos de las empresas apenas pueden manejar la mitad de los generados en su entorno porque el 80% de ellos están “desestructurados·.

El número de dispositivos en red duplicará a la población mundial en 2015 y los datos que generen se convertirán en información utilizada por las empresas para anticipar las necesidades de los consumidores.

Página –25–

Page 26: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LA AVALANCHA / DILUVIO DE DATOSLa respuesta para ordenar este caos

es big data, la nueva herramienta para sistematizar los datos procedentes de cualquier soporte —incluyendo imagen sonido, fotos, textos…— y convertirlos de forma automática en información.

Big data ayudó a ganar las elecciones a Barak Obama y ha reducido de días a minutos la detección de uso de información privilegiada en Wall Street

Página –26–

Page 27: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LA AVALANCHA / DILUVIO DE DATOSEn torno a ella se está creando un

mercado evaluado por la firma de análisis Gartner en 132.000 millones de dólares para 2015. Ese año se crearán 4,4 millones de puestos de trabajo para abastecerlo. Los expertos comparan la herramienta con una revolución industrial en el mundo de los datos y afirman que con ella cambiará nuestra forma de vida.

Página –27–

Page 28: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

EL NEXO DE LAS FUERZAS- GARTNER (2012)

Página –28–

Page 29: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

El nexo de las fuerzas- Gartner (2012) In the Nexus of Forces, information (Big

Data) is the context for delivering enhanced social and mobile experiences. Mobile devices are a platform for effective social networking and new ways of work. Social links people to their work and each other in new and unexpected ways. Cloud enables delivery of information and functionality to users and systems. The forces of the Nexus are intertwined to create a user-driven ecosystem of modern computing.

At the Core: Social, Mobile, Cloud and Information. Converge and Reinforce Página –29–

Page 30: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

TENDENCIAS TECNOLÓGICAS DE LA DÉCADA

LAS CONSULTORAS IDC, GARTNER, FORRESTER, MCKINSEY y otras, están de acuerdo:

Cloud ComputingSocial Media (Medios sociales)Movilidad: Localización, realidad

aumentada, realidad virtual…Internet de las cosas (objetos)

NFC, Bluetooth, RFID, QR, ZigBee, Sensores…

Big Data: Herramientas y AnalíticaPágina –30–

Page 31: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

RESUMEN: LAS CINCO GRANDES TENDENCIASCloud Computing

Modelos, despliegues, seguridad…Social Media/Social Business

Medios sociales … empresa socialMovilidad (Localización….)

Plataformas, dispositivos y Web Apps

Big Data: Herramientas y analíticaInternet de las cosas (M2M)

Página –31–

Page 32: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

TENDENCIAS tecnológicas de 2014“Lo móvil” (movilidad): Teléfonos

inteligentes (smartphones), tabletas (tablets), videoconsolas,.. (geolocalización, realidad aumentada, NFC, RFID, QR…)

GamificaciónConsumerización, BYOD

(Bring your own device)Smart TVBIG DATA (grandes

volúmenes) Página –32–

Page 33: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

TECNOLOGÍAS PONIBLES (Wearables)Gafas inteligentesRelojes inteligentesPulseras inteligentesAnillos inteligentesRopa inteligente….

Página –33–

Page 34: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

TECNOLOGÍAS MÓVILES ACTUALES Tecnologías NFC (NFC ,Near Field

Communication). Comunicaciones en cortas distancias (10 cm -20 cm)… HERRAMIENTA actual y FUTURA DE TELEPAGO

Aplicaciones: Teléfono como medio de pago (experiencias de Telefónica

en Barcelona) Pago en aparcamientos, centros comerciales,… Gestión de recetas, control de pacientes, citas médicas,… Pago de transportes públicos (Málaga) Fidelización y servicios en bibliotecas

En móviles (SI, Galaxy S IV de Samsung; NO, iPhone 5)

Página –34–

Page 35: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

TECNOLOGÍAS MÓVILES ACTUALES

Tecnologías NFCChips RFID (Identificación por

radiofrecuencia)Códigos QRSensores… Redes Bluetooth (1.0, 2.0, 3.0, 4.0…)GeolocalizaciónRealidad Aumentada

Página –35–

Page 36: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

EL TELÉFONO MÓVIL (CELULAR) con NFC como

medio de pago

Página –36–

Page 37: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

TELÉFONO MÓVIL COMO MEDIO DE PAGO

Página –37–

Page 38: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Código QR (periodicos,

documentos,..)http://www.ticbeat.com/economia/auge-

codigosqr-espana-infografia/

Página –38–

http://wwhttp://

Page 39: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

MACHINE TO MACHINE (M2M) Intercambio de información en formato de datos

entre dos puntos remotos, bien a través de red fija o móvil sin interacción humana con características específicas en cuanto a tráfico y tarjetas SIM e integradas en la fabricación de dispositivos

Automatización de los procesos de comunicación entre máquinas, entre dispositivos móviles (celulares) y máquinas (Mobile to Machine) y entre hombres y máquinas (Man to Machine)

En 2011 había más de 1.500 millones de dispositivos alrededor del mundo conectados entre sí; 15.000 millones en 2013. Previsiones de Cisco, 25.000 millones para 2015

Página –39–

Page 40: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

INTERNET DE LAS COSAS (OBJETOS)

Página –40–

Page 41: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

INTERNET DE LAS COSAS (OBJETOS)Cada día aumenta el número de

dispositivos de todo tipo que proporcionan acceso a Internet. Las “cosas” que permiten y van a permitir estos accesos irá aumentando con el tiempo. Ahora ya tenemos videoconsolas, automóviles, trenes, aviones, sensores, aparatos de televisión, … y pronto el acceso se realizará desde los electrodomésticos

Página –41–

Page 42: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

World Wide Web, Internet móvil, cloud computing, INTERNET DE LAS

COSAS Un mundo en el que miles de millones de objetos informarán de su posición, identidad e historia a través de conexiones inalámbricas … mediante tecnologías RFID, bluetooth, sensores inalámbricos, NFC, …

La realización del “Internet de las cosas” , probablemente requerirá cambios dramáticos en

sistemas, arquitecturas y comunicaciones,… Invisible es la descripción de las nuevas tecnologías empotradas

“Computación ubicua”… A medida que avance su penetración:

Producirá un CAMBIO SOCIAL, posiblemente, de tanto impacto y tan poco previsible, como las actuales tecnologías Web Página –42–

Page 43: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE IMPACTO DEL IoT* Plataforma Satelise de Ferrovial (empresa

multinacional constructora de infraestructuras, líder en España)… Está instalando en los peajes de autopistas una aplicación basada en tecnología satelital (GPS) para el pago de peajes sin barreras y la comunicación entre el conductor y la concesionaria mediante teléfonos inteligentes…. Ofrecerá otros servicios de valor añadido: trayectos de peaje y alternativos, información sobre el estado del tráfico, meteorología o cualquier tipo de incidente… pretende incorporar “comandos de voz” para evitar distracciones del conductor al volante.

*Actualidad económica, octubre 2013Página –43–

Page 44: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE IMPACTO DEL IoT*SHODAN, buscador en la Internet de

las cosas*A Google for Hackers. Shodan es una

nueva herramienta utilizada por “los chicos buenos y malos” para encontrar todos los dispositivos conectados “ahora” a la Internet: luces de tráficos, plantas de energía e incluso el monitor de su bebé”

* Forbes, sección Technology. 23 de septiembre, 2013 (nº de esta semana en España)

Página –44–

Page 45: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BUSCADOR SHODAN DE LA IoT

Página –45–

Page 46: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

VENTAJAS Y RIESGOS DE IoTVENTAJAS Y OPORTUNIDADES CISCO, ERICSSON,… prevén que para el año 2020 habrá

cerca de 50 mil millones de dispositivos conectados a Internet, capaces de comunicarse entre sí, desde automóviles, aparatos de consumo en el hogar, teléfonos inteligentes, marcapasos, televisores, carros (coches), ropa inteligente, electrodomésticos, puertas - ventanas de hogares y edificios, PCs, tabletas… Infinitas ventajas

RIESGOS*…Hackers “maliciosos”, ciberespionaje … * Cibereespionajes, piratas y mafias, El País, febrero 2013 http://elpais.com/elpais/2013/02/19/eps/1361281322_025092.html Página –46–

Page 47: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

MAPA DE ETIQUETAS DE BIG DATA

Página –47–

Page 48: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

MAPA DE ETIQUETAS DE BIG DATA

Página –48–

Page 49: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Harvard Business Review, octubre 2012

Página –49–

Page 50: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Foreign Affairs, mayo 2013

Página –50–

Page 51: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Revista BBVA, innovation edge, junio 2013

Página –51–

Page 52: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

ORIGEN DEL TÉRMINO Grandes volúmenes de datosDatos masivosMacrodatos (Fundación Fundeú BBVA)“La era de los datos masivos se refiere a

cosas que se pueden hacer a gran escala, y pone en cuestión la forma en que vivimos e interactuamos con el mundo” (Mayer-Schömberg, Cukier, The Economist)

Correlación: ya no importa el porqué sino sólo el qué

Página –52–

Page 53: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE BIG DATA Los Gigantes de Internet como Google, Amazon o

Facebook basan su éxito en el valor de los “big data” sin ellos tendrían serias dudas de supervivencia.

Big data es el nuevo petróleo, oro o maná de la década. IBM, SAP ,Oracle, Cisco… los han sistematizado para adaptarlas a todo tipo de empresas.

Google comenzó a gestionar Big Data desde su nacimiento en 1998, para indexar sus búsquedas”

Big data ha saltado de Internet al mundo real, y las empresas investigan sus aplicaciones para mejorar la gestión, ahorrar consumos o lanzar nuevos servicios.

Página –53–

Page 54: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE BIG DATA Big data empieza a dar los primeros pasos en

Europa. La británica Tesco, cuarta cadena minorista mundial, lo acaba de implantar para controlar la energía en 120 tiendas irlandesas y quiere extenderlo a las 3.000 tiendas que tiene entre Irlanda y Reino Unido para lograr un ahorro de 20 millones de euros en consumos energéticos.

ING Direct ha lanzado en Holanda un servicio para vigilar la interacción de los clientes con la web que genera llamadas telefónicas automáticas para ayudar a quienes no logran terminar su operación “una forma de fidelizar clientes”

Página –54–

Page 55: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE BIG DATALa central de reservas Amadeus (líneas

aéreas) insta a las empresas a que incorporen la herramienta junto con el uso ya creciente de MINERÍA DE DATOS.

Investigación realizada por el profesor Thomas Davenport, de la escuela de negocios de Harvard, sobre la experiencia de Air France-KLM, Lufthansa, British Airways, Cathay, Eurostar, Hoteles Marriott, aeropuerto de Múnich.

El informe indica que “las aerolíneas, los aeropuertos, los hoteles, las empresas ferroviarias y los distribuidores de productos turísticos deben plantearse una estrategia big data para situarse a la vanguardia”. Página –55–

Page 56: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE BIG DATALa industria aérea comercial podría

ahorrar 30 millones de dólares en 15 años con la recogida de datos realizada por los sensores que GE coloca en los motores de los aviones.

Trece de las 25 mayores cadenas hoteleras de todo el mundo efectúan ya sus inversiones y sus ofertas comerciales, incluso el color de las paredes de los restaurantes o las habitaciones, cada vez más en función de sofisticados

sistemas de análisis de datos de clientes (MINERÍA DE DATOS) Página –56–

Page 57: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE BIG DATA En España, un sistema privado de seguridad,

Sanitas ha puesto en marcha un sistema para prevenir enfermedades entre sus 2,3 millones de clientes.

“En un año hemos realizado 800.000 contactos a 100.000 clientes para darles consejos o indicarles la conveniencia de hacer pruebas de detección precoz cuando detectamos que por su perfil puede ser conveniente y ofrecer mejores servicios” [Portavoz de Sanitas al periódico El País]

Página –57–

Page 58: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE BIG DATALas farmacéuticas y las aseguradoras

de todo el mundo han sumado la fuerza de sus datos para acelerar la investigación contra el cáncer, el alzhéimer y otras lacras de la sociedad.

“hacer predicciones de comportamientos futuros de pacientes” son grandes ventajas de big data, que puede “mejorarnos la vida hasta límites insospechados”.

Página –58–

Page 59: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

APLICACIONES DE BIG DATAUna línea de negocio importante

de big data estará en las empresas de servicios.

Mezclarán la información procedente de distintas fuentes y harán campañas de marketing (mercadotecnia) personalizado asociado a la geolocalización con datos de su perfil de riesgo, sus gustos y sus hábitos …

Página –59–

Page 60: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

EXPANSIÓN, de Wall Street Journal, 1 de abril 2013 (casos de estudio) UPS

UPS comenzó a instalar sensores en sus vehículos de reparto para conocer su velocidad y ubicación, si el cinturón de seguridad del conductor está abrochado... Al combinar su información de GPS y los datos de sensores sobre rendimiento en más de 46.000 vehículos, UPS recortó 136 millones de kilómetros de sus rutas.

Página –60–

Page 61: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BIG DATA Y LA INVESTIGACIÓN DEL CÁNCER Aplicar la analítica avanzada de datos a los

tratamientos basados en medicina genómica para enfermos con tumores cerebrales. Éste es el gran objetivo del proyecto que acometerá el Centro del Genoma de Nueva York con ayuda de IBM y, en concreto, del Grupo Watson, centrado en la llamada computación cognitiva, un área por la que el Gigante Azul ha apostado de lleno en los últimos años y para la que ha destinado mil millones de dólares, como anunciaba la compañía el pasado mes de enero*.

*www.ticbeat.com *http://bigdata.ticbeat.com/watson-arma-contra-el-

cancer/Página –61–

Page 62: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA

“Otro ámbito será la salud, donde toda la información sobre nuestra historia médica y la de millones de personas será accesible, tanto para el paciente como para la investigación médica (de forma anónima), a fin de entender el impacto de las epidemias, enfermedades, y tratamientos”,

Página –62–

Page 63: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

¿Qué es Big Data?No hay una definición estándarBig data es una colección de datos grande, complejos, muy difícil de procesar a través de herramientas de gestión y procesamiento de datos tradicionales

“Big Data” son datos cuyo volumen, diversidad y

complejidad requieren nueva arquitectura,

técnicas, algoritmos y análisis para gestionar y

extraer valor y conocimiento oculto en ellos ...

Página –63–

Page 64: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

What is big data?*Every day, we create 2.5 quintillion bytes of

data — so much that 90% of the data in the world today has been created in the last two years alone. This data comes from everywhere: sensors used to gather climate information, posts to social media sites, digital pictures and videos, purchase transaction records, and cell phone GPS signals to name a few. This data is big data.

* www-01.ibm.com/software/data/bigdata/

Página –64–

Page 65: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM Esta infinidad de datos, tan variados y con una

gran velocidad de crecimiento esconden tras de sí un gran conocimiento que puede ayudar al mundo a mejorar sus procesos e ineficiencias”.

Sin embargo, “no sirven de nada si no se pueden almacenar, discriminar, procesar y analizar para sacar a la luz ese conocimiento. Además, su utilidad depende también de que este proceso se realice en fracciones de segundo y de manera eficiente”.

“La tecnología ya está preparada y las herramientas de procesamiento y análisis de datos pueden almacenar, gestionar y analizar grandes cantidades de información y traducirlos en inteligencia de negocio rápidamente”,  Página –65–

Page 66: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: GartnerGartner* define “Big data” como

un conjunto de datos de gran volumen, de gran velocidad y procedente de gran variedad de fuentes de información que demandan formas innovadoras y efectivas de procesar la información

www.gartner.com/id=2100215Página –66–

Page 67: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: GartnerAdemás, según el último informe de

Gartner,  en 2015 el Big Data creará 4.4 millones de puestos de trabajo TIC (tecnologías de la información y la comunicación) en todo el mundo, pero si no reciben la formación adecuada solo habrá suficientes profesionales para cubrir un tercio de ellos

Página –67–

Page 68: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: Gartner “Big Data es la capacidad de analizar

grandes volúmenes de datos de diferentes tipos y a gran velocidad, para mejorar los procesos de negocio actuales o crear nuevas áreas de oportunidad”,

Página –68–

Page 69: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA Desde el punto de vista tecnológico seguirán

apareciendo herramientas que permitirán que el término “big” (grande) de Big Data sea cada vez mayor, y con menor coste, sobre todo gracias a su implementación en los entornos “cloud”".

La complementación del Big Data con los entornos “cloud”, permitirá a casi cualquier empresa que tenga las ideas claras acceder a estas capacidades, que no serán un coto restringido a los que tienen grandes capacidades inversoras”.

Página –69–

Page 70: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

OTRAS DEFINICIONES DE BIG DATA

O’Reilly Radar “Se considera Big Data cuando el volumen de los

datos se convierte en sí mismo parte del problema a solventar” ().

EMC/IDC “Las tecnologías de Big Data describen un nuevo

conjunto de tecnologías y arquitecturas, diseñadas para extraer valor y beneficio de grandes volúmenes de datos con una amplia variedad en su naturaleza, mediante procesos que permitan capturar, descubrir y analizar información a alta velocidad y con un coste reducido”

Página –70–

Page 71: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

OTRAS DEFINICIONES DE BIG DATA

McKinsey Global Institute (MGI) en Junio de 2011,

“conjuntos de datos cuyo tamaño va más allá de la capacidad de captura, almacenado, gestión y análisis de las herramientas de base de datos”.

The IBM Big Data Platform Big Data represents a new era of computing – an

inflection point of opportunity where data in any format may be explored and utilized for breakthrough insights - whether that data is in-place, in-motion, or at-rest. IBM is uniquely positioned to help clients navigate this transformation.

Página –71–

Page 72: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

OTRAS DEFINICIONES DE BIG DATA IBM, considera que hay “Big Data”, si el conjunto

de información supera el terabyte de información, es sensible al tiempo, y mezcla información estructurada con no estructurada. Así, su enfoque trata de buscar la forma mejor de aprovechar estos datos, su gestión, su combinación (datos estructurados con los que no lo son), la aplicación de algoritmos predictivos de comportamiento, y con todo ello, permitir la toma de decisiones que añadan valor al negocio.

Página –72–

Page 73: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

Página –73–

Page 74: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Página –74–

Page 75: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

VOLUMEN de datos procesados por las empresas ha crecido significativa y exponencialmente.

Google procesa 20 petabytes al día

En 2020 se esperan 42.000 millones de pagos electrónicos.

La Bolsa de Nueva York genera UN terabyte de datos al día

Twitter genera 8 TB Página –75–

Page 76: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

VELOCIDAD. Rapidez con la que se accede a los datos. La velocidad del movimiento, proceso y captura de datos, dentro y fuera de la empresa ha aumentado considerablemente.

Flujo de datos a alta velocidad.

eBay se enfrenta al fraude a través de PayPal analizando cinco millones de transacciones en tiempo real al día.

Página –76–

Page 77: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

VARIEDAD: Big data es cualquier tipo de dato – estructurado y no estructurado - tales como texto, datos de sensores, datos entre máquinas (M2M), archivos “logs”, audio, vídeo, flujos de clicks, XML, datos en streaming, cotizaciones bursátiles, medios sociales,

Una creciente variedad de datos necesitan ser procesados y convertidos a información

Página –77–

Page 78: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM (5V-6V)

Página –78–

Page 79: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

Encierra esta idea el tratamiento de información que hace evolucionar los métodos y recursos habituales para hacerse cargo de grandes volúmenes de datos (de terabytes pasamos a zettabytes). Estos se generan a gran velocidad (pasamos de datos en lotes/archivos a datos en “streaming”) y además se añade una posible componente de complejidad y variabilidad en el formato de esos datos (pasamos de datos estructurados a datos semi-estructurados o no estructurados). Todo ello requiere de técnicas y tecnologías específicas para su captura, almacenamiento, distribución, gestión y análisis de la información.

Página –79–

Page 80: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

Según IBM Research (www.research.ibm.com), “el 90 por ciento de toda la información que existe -datos digitales- en la actualidad se ha creado en los últimos dos años y el 80 por ciento es información no estructurada, procedente de vídeos, imágenes digitales, correos electrónicos, comentarios en las redes sociales y otros textos”.

“Este prolífico universo de información que crece a ritmos exponenciales ha creado lo que se ha denominado Big Data o datos masivos. Sus características son: su variedad, velocidad, volumen y veracidad”, explican los expertos de IBM.

Página –80–

Page 81: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

También recientemente se añade una nueva “v” de valor: los datos por sí mismos, aun siendo muchos, no proporcionan valor a una empresa u organización. Es su tratamiento, a través de un proceso de planteamiento de hipótesis, creación de modelos estadísticos y semánticos, y definición de algoritmos de corta o larga duración, lo que permite descubrir el significado oculto en esos grandes volúmenes de datos.

Página –81–

Page 82: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DEFINICIÓN DE BIG DATA: IBM

Según otras definiciones de Big Data de fabricantes, consultoras, NIST, etc. existen otras propiedades de los big data:

Veracidad de los datosValor de los datos

6V: +Viabilidad de la infraestructuras y las herramientas de almacenamiento

Página –82–

Page 83: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

INTERNET EN 2020

Página –84–

Page 84: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Página –85–

Page 85: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

TRATAMIENTO DE LOS BIG DATA

Página –86–

Page 86: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Página –87–

Page 87: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

¿Qué sucede en 1´ en INTERNET (2012)

Página –88–

Page 88: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Informe de GP Bullhound, el banco de inversión líder en Europa (2012 vs 2013)

Página –89–

Page 89: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Informe de GP Bullhound, el banco de inversión líder en Europa (2012 vs 2013)

Página –90–

Page 90: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

http://blog.qmee.com/qmee-online-in-60-seconds/ (Noviembe-2013

Página –91–

Page 91: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Actividad de Internet en 1´. Qmee Se producen 2 millones de búsquedas en Google Se suben 72 horas de video de Youtube En Facebook, se producen 2.460.000 post, 1.8 Me Gustan y 350GB de

Datos Se registran 70 nuevos dominios Se descargan 15.000 temas desde iTunes Se miran 20 millones de fotos en flickr Se producen 278.000 Tweets por minuto Se comparten por Snapchat 104.000 fotos Amazon vende u$s 83.000 Se hacen 11.000 búsquedas de LinkedIn Hay 11.000 usuarios activos en Pinterest 216.000 fotos nuevas en Instagram 204 millones de mails enviados; 20.000 nuevas fotos en Tumblr 571 nuevos sitios creados

Página –92–

Page 92: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Fuentes de Big Data Herramientas para análisis de datos en grandes

volúmenes de datos. Infraestructuras de Big Data Fuentes de Big Data (Soares 2012):

Web y Social mediaMachine-to-Machine (M2M, Internet

de las cosas)BiometriaDatos de transacciones de grandes

datos (salud, telecomunicaciones…)Datos generados por las personas

(humanos)

Página –93–

Page 93: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Sunil Soares (2003). Big Data Governance Emerging

Página –94–

Page 94: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)1. Web y Social Media: Incluye contenido web e información

que es obtenida de las medios sociales como Facebook, Twitter, LinkedIn, Foursquare, Tuenti, etc, blogs como Technorati, blogs de periódicos y televisiones, wikis como MediaWiki, Wikipedia, marcadores sociales como Del.icio.us, Stumbleupon… agregadores de contenidos como Dig, Meneame… En esta categoría los datos se capturan, almacenan o distribuyen teniendo presente las características siguientes: Datos de los flujos de clics, tuits, retuits o entradas en general (feeds) de Twitter, Tumblr…, Entradas (posting) de Facebook y contenidos web diversos.

Página –95–

Page 95: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Big Data. Joyanes, MéxicoDF: Alfaomega (2013) 2. Machine-to-Machine (M2M)/ Internet de las

cosas: M2M se refiere a las tecnologías que permiten conectarse a otros diferentes dispositivos entre sí. M2M utiliza dispositivos como sensores o medidores que capturan algún evento en particular (humedad, velocidad, temperatura, presión, variables meteorológicas, variables químicas como la salinidad, etc.) los cuales transmiten a través de cableadas, inalámbricas y móviles a otras aplicaciones que traducen estos eventos en información significativa. La comunicación M2M ha originado el conocido Internet de las cosas o de los objetos. Entre los dispositivos que se emplean para capturar datos de esta categoría podemos considerar chips o etiquetas RFID, chips NFC, medidores (de temperaturas, de electricidad, presión…). sensores, dispositivos GPS… y ocasionan la generación de datos mediante la lectura de los medidores, lecturas de los RFID y NFC, lectura de los sensores, señales GPS, señales de GIS, etc.

Página –96–

Page 96: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Big Data. Joyanes, MéxicoDF: Alfaomega (2013)3.Big Data transaccionales: Grandes datos transaccionales

procedentes de operaciones normales de transacciones de todo tipo. Incluye registros de facturación, en telecomunicaciones registros detallados de las llamadas (CDR), etc. Estos datos transaccionales están disponibles en formatos tanto semiestructurados como no estructurados. Los datos generados procederán de registros de llamada de centros de llamada, departamentos de facturación, reclamaciones de las personas, presentación de documentos…

Página –97–

Page 97: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Big Data. Joyanes, MéxicoDF: Alfaomega (2013) 4. Biometría: La biometría o reconocimiento

biométrico. La información biométrica se refiere a la identificación automática de una persona basada en sus características anatómicas o trazos personales. Los datos anatómicos se crean a partir de las características físicas de una persona incluyendo huellas digitales, iris, escaneo de la retina, reconocimiento facial, genética, DNA, reconocimiento de voz, incluso olor corporal etc. Los datos de comportamiento incluyen análisis de pulsaciones y escritura a mano. Los avances tecnológicos han incrementado considerablemente los datos biométricos disponibles

Página –98–

Page 98: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Big Data. Joyanes, MéxicoDF: Alfaomega (2013) . En el área de seguridad e inteligencia, los datos

biométricos han sido información importante para las agencias de investigación. En el área de negocios y de comercio electrónico los datos biométricos se pueden combinar con datos procedentes de medios sociales lo que hace aumentar el volumen de datos contenidos en los datos biométricos. Los datos generados por la biometría se pueden agrupar en dos grandes categorías: Genética y Reconocimiento facial.

“An Overview of Biometric Recpgnition”. http://biometrics.cse.nsu.edu/info.html

Página –99–

Page 99: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Big Data. Joyanes, MéxicoDF: Alfaomega (2013) 5. Datos generados por las personas: Las

personas generan enormes y diversas cantidades de datos como la información que guarda un centro de llamadas telefónicas (call center) al establecer una llamada telefónica, notas de voz, correos electrónicos, documentos electrónicos, estudios y registros médicos electrónicos, recetas médicas, documentos papel, faxes, etc. El problema que acompaña a los documentos generados por las personas es que pueden contener información sensible de las personas que necesita, normalmente ser oculta, enmascarada o cifrada de alguna forma para conservar la privacidad de dichas personas. Estos datos al ser sensibles necesitan ser protegidos por las leyes nacionales o supranacionales (como es el caso de la Unión Europea o Mercosur) relativas a protección de datos y privacidad.

Página –100–

Page 100: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Estructura de Big Data: tipos de datosEstructuradosNo estructurados

No estructurados (texto, vídeo, sonido, imágenes) Semiestructurados ( a veces se conocen como

“multiestructurados”. Tienen un formato y flujo lógico de modo que pueden ser entendidos pero el formato no es amistoso al usuario(HTML. XML…, datos de web logs)

Normalmente, se suelen asociar los datos estructurados a los tradicionales y los datos no estructurados a los Big Data

Objetivo principal de los sistemas de gestión de datos: Integración de datos estructurados y no estructurados

Página –101–

Page 101: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Oportunidades en Big DataOportunidad profesional: En 2015, Gartner predice que 4,4 millones de empleos serán creados en torno a big data. (Gartner, 2013)

Fuente: http://www.gartner.com/technology/topics/big-data.jsp

Página –102–

Page 102: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Oportunidades en Big Data http://elpais.com/elpais/2013/12/02/vinetas/

1386011115_645213.html

El RotoViñeta de El Roto3 de diciembre de 2013

Página –103–

Page 103: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Oportunidades en Big Data

Página –104–

Page 104: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

RETOS Y OPORTUNIDADES

IDC entiende Big data como un nuevo valor económico basado en la toma de decisiones a partir del análisis de grandes volúmenes de datos procedentes de una amplia variedad de fuentes, desde las aplicaciones empresariales convencionales a los datos móviles, los medios sociales y el Internet de las Cosas, un campo aún incipiente donde en 2020 convivirán 212.000 millones de dispositivos conectados.

Big data también ofrece riesgos. Fundamentalmente en privacidad y seguridad de los datos. Normas legales de la Unión Europea, sus países miembros, América…

Página –105–

Page 105: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

RETOS Y OPORTUNIDADES Sus ventajas para el negocio en áreas como

la gestión de las relaciones con el cliente, el desarrollo de nuevos productos, la detección del fraude o la predicción del comportamiento de los consumidores permiten a las compañías obtener resultados financieros un 20% por encima de sus competidores, según estimaciones de Gartner.

Se entiende así que, una vez superada la fase de evaluación y prueba en la que todavía nos encontramos, la adopción creciente de Big data dispare un mercado que, de acuerdo con la firma de investigación, cerrará 2013 con un volumen de negocio asociado de 34.000 millones de dólares, 6.000 millones más que en 2012.

Página –106–

Page 106: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

RETOS Y OPORTUNIDADES

Las promesas de Big data alcanzan a prácticamente todos los sectores de actividad, como demuestran las primeras experiencias de éxito emprendidas por organizaciones de finanzas, sanidad, turismo, retail o telecomunicaciones. Y su adopción se irá extendiendo a medida que los responsables TI vayan asumiendo el valor que aportan nuevos frameworks de software como Hadoop y los nuevos sistemas avanzados de almacenamiento, bases de datos, analítica y lenguajes de programación especialmente orientados a los grandes datos.

Página –107–

Page 107: Upsa abril2014

108108

UNIVERSIDAD PONTIFICIA DE SALAMANCA

Prof. Luis Joyanes Aguilar

BIG DATA Y ANALÍTICADE DATOS.Nuevas bases de datosNoSQL, “In-Memory”…

Page 108: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

ESTADO ACTUAL DE BIG DATA

1. Almacenamiento: hacen falta nuevas tecnologías de almacenamiento 2. Bases de datos: las BD relacionales no pueden con todo 3. Procesamiento: se requieren nuevos modelos de

programación 4. Obtención de valor: los datos no se pueden comer crudos (en bruto) La información no es conocimiento “accionable”

Página –109–

Page 109: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

1. Almacenamiento

Hacen falta nuevas tecnologías de almacenamiento

RAM vs HHD Memorias hardware. HHD 100 más barato

que RAM pero 1000 veces más lento Solución actual: Solid- state drive (SSD) además no volátil Tecnologías “in-memory” (SAP HANA…) Investigación: Storage Class Memory (SCM)

Página –110–

Page 110: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

2. Base de datos Las BD relacionales no pueden

con todo volumen de la información

GBs PBs Exabytes …. Cada día más populares Limitadas para almacenamiento de “big

data” (ACID, SQL, …) ACID: Atomicity, Consistency, Isolation & Durability

Página –111–

Page 111: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

3. Procesamiento … HADOOP Se requieren nuevos modelos de

programación para manejarse con estos datos

Solución: Para conseguir procesar grandes

conjuntos de datos: MapReduce de Google

Pero fue el desarrollo de Hadoop (Yahoo - Apache) por parte de Yahoo, el que ha propiciado un ecosistema de herramientas open source. Página –112–

Page 112: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

4. Obtención de valor Los datos no se pueden comer ·crudos” (en

bruto) la información no es conocimiento accionable

Para ello tenemos técnicas de Data Mining • Asociación • Clasificación • Clustering • Predicción • ... La mayoría de algoritmos se ejecutan

bien en miles de registros, pero son hoy por hoy impracticables en miles de millones. Página –113–

Page 113: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Bases de datos

In-Memory (en-memoria) SAP Hana Oracle Times Ten In-Memory Database IBM solidDB

Relacionales Sistemas RDBMS (SGBDR). Oracle, IBM, Microsoft… Transferencia de datos entre Hadoop y bases de datos

relacionales

Legacy (jerárquicas, en red… primeras relacionales…)

NoSQL (Cassandra, Hive, mongoDB, CouchDB, Hbase…)

Página –114–

Page 114: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BASES DE DATOS RELACIONALES (Revisión)

La mayoría de las bases de datos cumplen con las propiedades ACID (atomicity, consistency, isolation, durability). Estas propiedades garantizan un comportamiento de las base de datos relacionales y el mejor de los argumentos para su utilización.

Página –115–

Page 115: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BASES DE DATOS ANALÍTICAS Analíticas: para permitir a múltiples usuarios

contestar rápidamente preguntas de negocio que requieran de grandes volúmenes de información.

Bases de datos de procesamiento paralelo masivo (MPP)

Bases de datos “en memoria”Almacenamiento en columnas Históricamente estas bases de datos tan

especializadas tenían un costo muy elevado, pero hoy el mercado nos ofrece varias alternativas que se adaptan al presupuesto de cada organización.

Página –116–

Page 116: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Bases de datos analíticas Bases de datos diseñadas específicamente para

ser utilizadas como motores de Data Warehouse. Estas bases de datos logran procesar grandes volúmenes

de información a velocidades asombrosas, gracias a la aplicación de diferentes conceptos y tecnologías:

Almacenamiento en columnas en lugar de filas (registros)

Massively parallel processing (MPP) In-Memory Analytics

Página –117–

Page 117: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

In-Memory Computing (IBM)

In-memory computing is a technology that allows the processing of massive quantities of data in main memory to provide immediate results from analysis and transaction. The data to be processed is ideally real-time data (that is, data that is available for processing or analysis immediately after it is created).

To achieve the desired performance, in-memory computing follows these basic concepts:

Página –118–

Page 118: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Row-based and column-based storage models: IBM

Página –119–

Page 119: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Almacenamiento por filas vs columnas

Página –120–

Page 120: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Almacenamiento en columnas, no filas: FUENTE: datalytics.com

Página –121–

Page 121: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Computación en memoria “In-Memory”La computación en memoria es una

tecnología que permite el procesamiento de cantidades masivas de datos en memoria principal para proporcionar resultados inmediatos del análisis y de las transacciones.

Los datos a procesar, idealmente son datos en tiempo real (es decir, datos que están disponibles para su procesamiento o análisis inmediatamente después que se han creado).

Existen un amplio conjunto de tecnologías que

emplean bases de datos en memoria. SAP HANA es una de las más acreditadas y populares… (Oracle, IBM,…)

Página –122–

Page 122: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Página –123–

Page 123: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BASES DE DATOS NoSQL

Las bases de datos no-relacionales son comúnmente llamadas bases de datos NoSQL ya que la gran mayoría de ellas comparte el hecho de no utilizar el lenguaje SQL para realizar las consultas

Es una definición controvertida, aunque la definición más aceptada es “Not only SQL”.

Una de las características de las bases de datos no relacionales es que la mayoría de ellas no utilizan esquemas de datos rígidos como las bases de datos relacionales. Esto hace que estas bases de datos también se les llame “Schema-less” o “Schema-free (“almacenamiento des-estructurado”).

Página –124–

Page 124: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BASES DE DATOS NoSQL Distintos tipos de bases de datos para distintos tipos de aplicaciones:

documentales, grafos, clave/valor, orientadas a objetos, tabulares, … NoSQL: para capturar de manera segura y escalable, grandes volúmenes de información continua generados por eventos.

Características SQL: Sin (o muy poco) soporte para SQL.

Datos accedidos a través de programas Java, no consultas ACID: Sin integridad referencial, poco soporte transaccional Definición de estructuras de datos flexibles (sobre la marcha)

Página –125–

Page 125: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BASES DE DATOS NoSQL Beneficios Facilidad de escalamiento horizontal (clusters

baratos) Almacenamiento de grandes volúmenes (no

generan cuellos de botella) Excelentes para lecturas masivas de registros tipo

clave/valor. Desafíos… Son de distintos vendedores y no están

integradas Estos tipos de DBs se utilizan por lo general en

conjunto Se utilizan y administran de distinta manera;

utilizan distintos lenguajes: no SQL! Dependencia de sistemas: vuelta a las raíces?

Página –126–

Page 126: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Taxonomía de Bases de datos NoSQL Los principales tipos de BBDD de acuerdo con su

implementación son los siguientes: – Almacenes de Clave-Valor – Almacenes de Familia de Columnas

(columnares) – Almacenes de documentos (orientadas a

documentos) – Almacenes de Grafos (orientadas a grafos) - Cachés de memoria

Página –127–

Page 127: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

SOLUCIONES DE BASES DE DATOS NoSQL

Página –128–

Page 128: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

MongoDBMongoDB es un sistema de base

de datos NoSQL orientado a documentos, desarrollado bajo el concepto de código abierto.

MongoDB forma parte de los sistemas de base de datos NoSQL, almacena los datos no en tablas, sino en documentos tipo JSON con un esquema dinámico (formato BSON), haciendo que la integración de los datos sea más fácil y rápida.

Página –129–

Page 129: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Neo4jNeo4j es una base de datos

de gráficos, de código abierto soportada por Neo Technology. Neo4j almacena los datos en nodos conectados por relaciones dirigidas y tipificadas, con las propiedades de ambos, también conocidas como Gráfico de Propiedad (Property Graph).

Página –130–

Page 130: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Apache CouchDBBase de datos de código abierto,

NoSQL que emplea JSON para documentos, JavaScript como lenguaje de consulta para MapReduce y HTTP como API.

Se distribuye bajo una licencia Apache 2.0 y es utilizada por múltiples organizaciones, como la BBC que usa CouchDB para su plataforma dinámica de contenidos, mientras que Credit Suisse's lo utiliza para almacenar los detalles de configuración de su framework Python de mercado de datos49.

Página –131–

Page 131: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

HyPertableSistema Gestor de Bases de Datos de

código abierto desarrollado en C++ por la compañía Zvents, basado en el modelo Big Table de Google.

Es un sistema de almacenamiento de datos distribuido, escalable, no relacional, no soporta transacciones y de alto desempeño, ideal para aplicaciones que necesitan manejar datos que evolucionan rápidamente y diseñado para soportar una gran demanda de datos en tiempo real. Entre sus clientes51 se encuentran empresas como

Ebay, Tiscali o Reddiff.com

Página –132–

Page 132: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

HiveSistema data warehouse para Hadoop

que facilita resúmenes de datos, consultas ad-hoc, y el análisis de grandes conjuntos de datos almacenados en los sistemas de archivos compatibles con Hadoop.

Hive proporciona un mecanismo para proyectar la estructura sobre estos datos y consultar los datos utilizando un lenguaje SQL, llamado HiveQL.

Página –133–

Page 133: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

RedisRedis es un motor de base de

datos en memoria, basado en el almacenamiento en tablas de hashes clave, valor) pero que opcionalmente puede ser usada como una base de datos durable o persistente.

Está escrito en ANSI C patrocinado por VMware.1 2 y esta liberado bajo licencia BSD.

Página –134–

Page 134: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

¿Quién usa Apache Cassandra?Algunos usuarios importantes de

Cassandra son:DiggFacebookTwitterRackspaceSimpleGEO…

Página –135–

Page 135: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Lenguaje RR es el lenguaje de programación

líder en el mundo para el análisis estadístico y la realización de gráficos.

R, es un lenguaje para la minería de datos y un entorno de programación. Se trata de un proyecto GNU, que es similar al lenguaje y al entorno de programación S desarrollado en Bell Laboratories (antes AT&T, ahora Lucent Technologies). Página –136–

Page 136: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Lenguaje RR ofrece una gran variedad de

técnicas estadísticas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, clasificación, clustering, ...) y técnicas gráficas, y es altamente extensible.

R está disponible como software libre bajo licencia de GNU Free Software Foundation. Se compila y ejecuta en una variedad de plataformas UNIX y sistemas similares (incluyendo FreeBSD y Linux), Windows y MacOS. Página –137–

Page 137: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Integración con Big Data. FUENTE: datalytics.com

Página –138–

Page 138: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Integración con Big Data. FUENTE: datalytics.com

Página –139–

Page 139: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Arquitectura de referencia de Big Data de Sunil Soares

Página –140–

Page 140: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

ANALÌTICA PREDICTIVA. La explotación de los Big Data Eric SIEGEL (2013). Analítica predictiva. Predecir

el futuro utilizando Big Data. Madrid: Anaya “La predicción es poder. Las grandes

empresas se garantizan una posición altamente competitiva prediciendo el destino futuro y el valor de activos concretos.”

“ANALÍTICA PREDICTIVA. Tecnología que aprende de la experiencia (los datos) para predecir el futuro comportamiento de los individuos para poder tomar mejores decisiones”.

Página –141–

Page 141: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

ALGUNOS CASOS DE AP VS BIG DATA Los estudios de Hollywood predicen el éxito que

tendría un guión en caso de llevarse a la gran pantalla.

Netflix –el gigante del video, cine y TV de EEUU- premió con 1 millón de dólares al equipo de científicos que más mejoró la capacidad del sistema de recomendaciones para predecir las películas que nos podrán gustar.

La compañía eléctrica australiana Energex predice la demanda de electricidad para poder decidir dónde implantar su red eléctrica.

La predicción determina los cupones descuento que nos dan en las tiendas.

EN ESPAÑA, LAS NUEVAS TARIFAS ELÉCTRICAS….Página –142–

Page 142: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

CIENCIA DE DATOS (DATA SCIENCE)

Página –143–

Page 143: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

CIENCIA DE DATOSCiencia de datos es la extracción de

información útil de grandes volúmenes de datos. La ciencia de datos necesita acceder a los datos, a la ingeniería de datos y a las tecnologías de procesamiento de datos.

La Ciencia de Datos es una especialización creciente que toca muchos de los siguientes temas: Computación en nube, big data, matemáticas, estadística, métodos de optimización, teoría de negocios y teoría de ciencias de la computación.

Página –144–

Page 144: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

CIENTÍFICO DE DATOS EL CIENTÍFICO DE DATOS (Data Scientist). Un

profesional con formación de Informática, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.

Lenguajes que deberá conocer: Python, R, SQL, NoSQL…

Página –145–

Page 145: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

DISCIPLINAS CLAVE DE DATA SCIENCE

Página –146–

Page 146: Upsa abril2014

147147

OPORTUNIDADES Y NUEVAS PROFESIONES TECNOLÓGICAS Y DE COMUNICACIÓN DEMANDADAS POR LAS EMPRESAS

Prof. Luis Joyanes Aguilar

Page 147: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

NECESIDAD DE FORMACIÓN PROFESIONAL AVANZADA EN CLOUD COMPUTING-BIG DATA

El mercado tiene carencia de especialistas en Cloud Computing y sobre todo en Big Data. Hay miles de puestos que se deberán cubrir en los próximos cinco años según estadísticas fiables de IDC, Gartner, Forrester, McKinsey…

UNA DE LAS PROFESIONES MÁS DEMANDADAS SERÁ DE ESPECIALISTAS EN CIENCIAS DE DATOS (Científicos de datos) y además ANALISTAS DE DATOS (formados en Analytics y tecnologías Big Data ·Hadoop”, “InMemory”…)

Se necesitan certificaciones profesionales en CLOUD COMPUTING Y BIG DATA… “TECNOLÓGICAS Y DE NEGOCIOS”

Página –148–

Page 148: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

NUEVAS CARRERAS UNIVERSITARIAS: maestrias,ingeniería, diplomados…

Community Manager, Social Media Manager y Analista Web y SEO

Ingeniero de Cloud Computing (En España hay una universidad privada que lo lanza el próximo curso)

Ingeniero de negocios digitales (Digital Business Intelligence)

Ingeniero de datos (Infraestructuras, Bases de datos NoSQL, Hadoop, Tecnologías “in-memory”…)

Analítica de datos (Analytics) y Analítica de Big Data

Página –149–

Page 149: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

NUEVAS CARRERAS Y PROFESIONESCommunity Manager , Social Media

Manager, SEO, Analistas Web … cada día son más demandadas y. Sin embargo la profesión del futuro será:

EL CIENTÍFICO DE DATOS (Data Scientist). Un profesional con formación de Sistemas, Estadística, Analítica, Ciencias Físicas y Biológicas… que analizará los Big Data para la toma de decisiones eficientes y obtener rentabilidad en los negocios.

HBR (Harvard Business Review lo declaró la profesión “MÁS SEXY del siglo XXI”…) Página –150–

Page 150: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

LAS TITULACIONES-PROFESIONES MÁS DEMANDADAS en TIC EN PRÓXIMOS AÑOS(HBR, Harvard Business Review)

número de octubre de 2012 (Los datos el nuevo petróleo/oro del siglo XXI):

Ciencia de los datos: Data Science (Maestría/Doctorado) … En Estados Unidos, México y Europa… ya existen iniciativas. (EN MÉXICO, el ITAM… en España algunas universidades y escuelas de negocio)LA PROFESIÓN MÁS SEXY DEL SIGLO XXI : EL CIENTÍFICO DE DATOS (Data Scientist) Página –151–

Page 151: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Página –152–

MUCHAS GRACIAS … ¿Preguntas?

Twitter:@luisjoyanes

www.facebook.com/joyanesluis

www.slideshare.net/joyanes

CORREO-e: [email protected]

Page 152: Upsa abril2014

153

Prof. Luis Joyanes Aguilar

BIBLIOGRAFÍA

Page 153: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BIBLIOGRAFÍA BÁSICAJOYANES, Luis (2012). Computación

en la nube. Estrategias de cloud computing para las empresas. México DF: Alfaomega; Barcelona: Marcombo

JOYANES, Luis (2013). BIG DATA. El análisis de los grandes volúmenes de datos. México DF: Alfaomega; Barcelona: Marcombo

Colección de libros NTiCS (Negocios, Tecnología, Innovación, Conocimiento y Sociedad) dirigida por el profesor Luis Joyanes y publicada en la editorial Alfaomega de México DF y Marcombo en España

Página –154–

Page 154: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BIBLIOGRAFÍA BÁSICATema 6.Big Data. Inteligencia de negocios.

http://www.slideshare.net/joyanes/ioi-bi-tema6-bigdata

Conferencia “Big Data y Minería de datos”, Congreso Qbit, Instituto Tecnológico de Monterrey, Querétaro (México), noviembre 2013

http://www.slideshare.net/luismackoy/ig-data-y-minera-de-datos-tec-de-monterrey-quertaro

Página –155–

Page 155: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BIBLIOGRAFÍA Innovation Edge , revista BBVA, junio 2013

https://www.centrodeinnovacionbbva.com/innovation-edge/21-big-data

SOARES, Sunil (2013). Big Data Governance. An emerging Imperative. Boise, USA: MC Press.

DAVENPORT, Thomas H. y DYCHÉ, Jill. Big Data in Big Companies. SAS. International Institute for Analytics.

Datalytics. 18D – Pentaho Big Data Architecture, www.datalytics.com (Pentaho)

Gereon Vey, Tomas Krojzl. Ilya Krutov (2012) . In-memory Computing with SAP HANA on IBM eX5 Systems. ibm.com/redbooks. Draft Document for Review December 7, 2012 1:59 pm SG24-8086-00 Página –156–

Page 156: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

BIBLIOGRAFÍA ZIKOPOULOS, Paul C. et al (2012).

Understanding Big Data. Analytics for Enterprise Class Hadoop and Streaming Data. New York: McGraw-Hill.

www-01.ibm.com/software/data/bigdata/ ZIKOPOULOS, Paul C. et al (2013). Harness the

Power of Big Data. The IBM Big Data Platform. New York: McGraw-Hill. Descargable libre en IBM.

Página –157–

Page 157: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

Página –158–

Page 158: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

REFERENCIAS

McKinsey Global Institute . Big data: The next frontier for innovation, competition, and productivity. June 2011

James G. Kobielus. The Forrester Wave™: Enterprise Hadoop Solutions, Q1 2012, February 2, 2012.

www-01.ibm.com/software/data/bigdata/ Diego Lz. de Ipiña Glz. de Artaza. Bases de

Datos No Relacionales (NoSQL). Facultad de Ingeniería, Universidad de Deusto. www.morelab.deusto.es http://paginaspersonales.deusto.es/dipina

Página –159–

Page 159: Upsa abril2014

© Luis Joyanes AguilarBig Data . La revolución de los datosSalamanca, 3 de abril 2014

REFERENCIAS

Philip Russom. BIG DATA ANALYTICS. FOURTH QUARTER 2011. TDWI.org

IBM. http://www-01.ibm.com/software/data/bigdata/

Página –160–


Recommended