Date post: | 13-Apr-2017 |
Category: |
Data & Analytics |
Upload: | universitat-politecnica-de-catalunya |
View: | 179 times |
Download: | 3 times |
Deployment de Spark al Supercomputador Marenostrum III
Albert Calvo Ibáñez
Director Jordi Torres, Codirector: Rubèn TousGrau en Enginyeria Informàtica - Facultat d'Informàtica de Barcelona
Universitat Politècnica de Catalunya - BarcelonaTech
Abril 2016
2
Índex
1. Context
2. Objectius
3. Planificació temporal
4. Pressupost
5. Desenvolupament
6. Resultats
7. Conclusions
3
1. Context
● Anàlisi de Dades Massives (Big Data)
– Cada dia es generen una mitjana de
2.5 Quintilions Bytes de informació
● Múltiples aplicacions
– Prendre decisions empresarials
– Detecció de frau
– Anàlisi de dades de dispositius de
baix cost
4
1. Context
- Framework Big Data
- Realitza les operacions a memòria
5
1. Context
-Permet treballar en diversos llenguatges: Scala, Python, R, Java
6
1. Context
- Pila unificada
7
2. Objectius
- Realitzar proves de rendiment a la plataforma MareNostrum III amb Spark
- Comparar la plataforma MareNostrum III amb altres plataformes
- Crear material didàctic, que serà utilizat en assignatures dels Màsters de la FIB
8
3. Planificació temporal
Bloc Descripció Metodologia
Bloc 0 Familiarització -
Bloc I Curs de GEP Cascada
Bloc II Desenvolupament del projecte
Scrum
Bloc III Preparació de la defensa Cascada
Bloc 0 01/08 fins 15/09, 2015
Bloc 1 15/09 fins 16/10, 2015
Bloc 2 16/10 fins 22/03, 2015/2016
Bloc 3 28/03 fins 11/04, 2016
9
4. Pressupost
Tipus de Cost Preu
Costos directes 9.444,71 €
Costos indirectes 34,40 €
Altres costos 25 €
Contingència (3%) 285,12 €
Imprevistos 476,1 €
TOTAL 10.265,33 €
10
5. Desenvolupament
Plataforma MareNostrum III
Centre de Càlcul DAC
- Aproximadament 50,000 cores- 115,5 TB de memòria
- 16 cores - 27,2 GB de memòria
11
5. Desenvolupament
Plataforma Bluemix
Plataforma Databricks
- Recursos sota demanda - Plataforma, de moment, inestable
- Academic Cloud Initiative - 12 cores - 18 GB de memòria
12
5. Desenvolupament
4 cores 4 GB memòria
8 cores 8 GB memòria
16 cores 16 GB memòria
13
6. Resultats
K-meansAlgoritme de Clustering
Dataset
Exemples Dimensions /Atributs
1M100d 1.000.000 100
10M10d 10.000.000 10
100M1d 100.000.000 1
14
6. Resultats
Reducció del temps d'execució afegint més recursos
4 8 160
20
40
60
80
100
120
BSC
DAC
#cores
#se
con
ds
Cas 1M100d
K-means, Speedup
15
6. Resultats
K-means, Speedup
4 8 160
500
1000
1500
2000
2500
3000
3500
4000
4500
5000
BSC
DAC
#cores
#se
con
ds
4 8 160
20
40
60
80
100
120
140
BSC
DAC
#cores
#se
con
ds
Cas 100M1d
Cas 10M10d
16
6. Resultats
K-means, ScaleupTemps constant en incrementar el dataset i recursos
1x / 4 cores 2x / 8 cores 4x / 16 cores0
50
100
150
200
250
300
350
400
BSC1M100D
BSC 10M10D
DAC 1M100D
DAC 10M10D
#datasize / cores
#se
con
ds
17
6. Resultats
Naive BayesAlgoritme de classificació
Dataset
Exemples Features / Atributs
1M100f 1.000.000 100
10M10f 10.000.000 10
100M1f 100.000.000 1
18
6. Resultats
Reducció del temps d'execució afegint més recursos
Cas 1M100f
Naive Bayes, Speedup
4 8 160
5
10
15
20
25
30
BSC
DAC
#cores
#se
con
ds
19
6. Resultats
Naive Bayes, Speedup
Cas 100M1f
Cas 10M10f
4 8 160
5
10
15
20
25
30
35
BSC
DAC
#cores
#se
con
ds
4 8 160
20
40
60
80
100
120
140
160
BSC
DAC
#cores
#se
con
ds
20
6. Resultats
Naive Bayes, ScaleupTemps constant en incrementar dataset i recursos
1x / 4 cores 2x / 8 cores 4x / 16 cores0
10
20
30
40
50
60
70
BSC 1ME100F
BSC 10ME10F
DAC 1ME100F
DAC 10ME10F
#datasize/cores
#se
con
ds
21
6. Resultats
Spark Deployment and Performance Evaluation on the Marenostrum III
Obj. desenvolupar petites execucions amb Spark al Supercomputador.
Utilizada a l'assignatura, Supercomputers Architecture (SA) del màster MIRI.
22
6. Resultats
Inside Spark
Obj. Executar Spark a la plataforma Databricks
S'utilitzarà a l'assignatura, Cloud Computing(CC) del màster MEI.
23
7. Conclusions
- Treball de Fi de Grau exploratori
- Objectius proposats assolits
- Material realitzat útil
- La implicació del Director, Codirector i staff del BSC han fet possible aquest projecte
24
Deployment de Spark al Supercomputador Marenostrum III