Post on 25-Sep-2018
transcript
1
2º Jornada de Supercomputación E.T.S.I. Aeronaúticos UPM
Lustre: A High Performance Open Source File System
Gregorio ChillónTechnical SpecialistSun Microsystems
1
2
Agenda
• Introducción• Arquitectura y funcionalidades• Hardware recomendado• Una solución completa con SAMQFS• ¿Quién lo utiliza?
3
Introducción
4
¿Qué es lustre?• Es un sistema de ficheros distribuido en red de alto
rendimiento• ¿Qué quiere decir esto?
> Que es un sistema de ficheros compartido. Los datos se comparten entre varios clientes (tipo NFS)
> Que es un sistema de ficheros en red. No se accede a través de una SAN
> Los clientes ven un solo sistema de ficheros> Varios clientes pueden acceder de forma simultanea al
sistema de ficheros y lustre gestina los bloqueos
5
¿Qué es lustre?• Es una solución software• Es Open Source, licencia GNU GPL• Soporte para todo tipo de tecnologías de red
(LNET)• Proporciona alta disponibilidad (sin puntos únicos
de fallo)• Proporciona una gran escalabilidad y rendimiento
6
Retos del almacenamiento para HPCQue necesitan nuestros clientes
Rendimiento Escalabilidad Facilidad instalación Reducir costes
7
Respondiendo a estos retosRendimiento y escalabilidad
• Rendimiento escalando desde 1 a más de 240GB/s
• Escalabilidad casi lineal> Escalabilidad de ~90% del máximo teórico
• Crecimiento online de forma sencilla> Se puede aumentar facilmente capacidad y rendimiento
• Escalabilidad masiva cuando es necesaria> Sistema de ficheros escalable hasta 2000 millones de
ficheros y 32 petabytes para crecimientos de datos grandes
> Desde unos pocos hasta miles de clientes – escalabilidad real de pequeño a grande
8
Respondiendo a estos retosFacilidad de instalación y configuración
• Servidores Sun Fire y almacenamiento de Sun probado y certificado para obtener los mejores resultados en el despliegue y funcionamiento de lustre
• Aproximación modular permite una configuración y despliegue más rápido
• Sun HPC Software Linux Edition: una pila de software para HPC que ha sido probado/certificado (incluye lustre)
• Servicios de instalación y configuración
9
Respondiendo a estos retosRedución de costes
• Se beneficia del uso de componentes hardware estandar que permite el software open source> Sistemas estandar vs sistemas de
almacenamiento propietario
• Facilidad de instalación ahorra tiempo y dinero
10
Arquitectura
11
Arquitectura• Lustre es una arquitectura de almacenamiento
– Lustre separa metadatos (MDS) de datos (OSS)
– Escalabilidad horizontal de E/S entre todos los servidores – Paraleliza E/S gestionando bloqueos
– Aumentar la capacidad añadiendo almacenamiento
– Aumentar el rendimiento añadiendo servidores
– Puede usar cualquier tipo de almacenamiento (dispositivos tipo bloque)
12
Arquitectura
OSS 7
Servidores de metadatos (HA)
Clientes Lustre
1 100,000
MDS disk storage containing Metadata Targets (MDT)
= failover
MDS 1
(activo)
MDS 2
(standby)
OSS 1
OSS 2
OSS 3
OSS 4
OSS 5
OSS 6
Servidores de datos (OSS)
11000’s
Commodity Storage
Almacenamiento de gama alta
Soporte simultaneo para distintos tipos de red
Router
GigE
Elan
Myrinet
InfiniBand
Almacenamiento compartido para permitir alta disponibilidad
OSS storage with Object Storage Targets (OST)
13
Arquitectura
• Clientes– Acceden al sistema de ficheros
• Servidor de gestión (MGS)– Proporciona información de configuración a los clientes
– Notifica a otros nodos de cambios en la configuración
– Por defecto almacena su información en un MDT
– 1 servidor MGS (o dos en configuración Active/Standby) por site
14
Arquitectura
• Servidor de metadatos (MDS)– Proporciona información de metadatos
– Almacena su información en MDT (Metadata Targets)
– 1 MDT por sistema de ficheros
– Cada MDT pertenece a un único sistema de ficheros
– Se puede configurar el alta disponibilidad
15
Arquitectura
• Servidor de datos (OSS)– Proporciona E/S para los datos en el sistema de ficheros
(striping data)
– Almacena la información en OST (Object Storage Targets)
– Cada OST pertenece a un solo sistema de ficheros
– Tamaño máximo de OST: 8TB
– Máximo #OST/sistema de fichetos: 1020
– Se puede configurar un par de servidores de datos en cluster “Active/Active”, pero cada OST puede ser exportado únicamente por un servidor de datos
16
Como funciona– El cliente obtiene información del sistema de ficheros del
servidor de gestión (MGS) (<mgsnid> is passed on mount.lustre)
– El cliente envía/recibe todos los metadatos del servidor de metadatos MDS (open/close ficheros y directorios)
– El cliente (LOV) escribes los datos (stripes) entre todos los OST exportados por los servidores OSS
17
Alta disponibilidad• Sin punto único de fallo• Las modificaciones de metadatos son asíncronas
– El cliente salva una copia de sus escrituras
– Si el servidor falla, el cliente repite su petición
– El cliente solo descarta sus peticiones, cuando el MDS le informa que se han realizado los cambios en el MDT
• MDT y OST soportan configuración en HA– Configurar un par de servidores con almacenamiento compartido
– LinuxHA (Heartbeat) failover MDT/OST
– El cliente bloquea E/S e intenta reconectarse al servidor de respaldo, para repitir. La aplicación en el cliente se bloquea.
18
Alta disponibilidad• MDT/OST Failover
– Failover se configura en modo activo/pasivo– Cada disco solo se puede montar en un servidor.– NUNCA se puede montar el mismos MDT/OST en dos servidores
(PERDIDA DE DATOS)
• Un par de servidores se puede configurar en activo/activo
– Cada servidor exporta uno o mas OST/MDT
19
¿Qué nos proporciona lustre?
Quota, Failover, POSIX, POSIX ACL, secure portsFuncionalidades
TrainingFormación
Número de ficheros: 2000 millonesTamaño de un sistema de ficheros: 32PB, Tamaño max fichero 1.2PB
Capacidad
Soporte nativo para distintas tecnologías de redRedes
Servidores de metadatos (MDS): 1 + failoverServidores de datos (OSS): hasta 450
# servidores
Un solo cliente o servidor: 2 GB/s +BlueGene/L – primera semana: 74M ficheros, 175TB escritosE/S agregada (One FS): ~130GB/s (PNNL) Operaciones de metadatos: ~15,000 ops/second
Rendimiento
Software reliability on par with hardware reliabilityIncreased failover resiliency
Estabilidad
Clientes: 25,000 – Red StormProcesos: 130,000 – BlueGene/L
# clientes
20
Hardware recomendado
21
Hardware recomendado
22
Una solución completa (SAMQFS)
23
Solución completa de almacenamiento
Red IBSAN
Archive
Lustre – datos online SAM-QFS – datos archivados
Nodos de cómputo
Servidores de datos
Data Movers
Recuperar
Near Line Archive
Tier 1 Archive
Servidores demetadatos
24
¿Quién lo utiliza?
25
¿Quién lo utiliza?
• Lustre es el sistema de ficheros lider en entornos HPC
– Siete de los sistemas del TOP 10
– 50% de los treinta primeros sistemas del TOP 500
26
Sandia Red Storm340 TB Storage; 50GB/s I/O throughput
12.960 multicore compute sockets
Livermore Blue Gene/LSCF3.5 PB storage; 52 GB/s I/O throughput
131.072 processor cores
TACC Ranger1.73 PB storage; 40GB/s I/O throughput
62.976 processor coresres
ORNL Jaguar10.5PB storage; 240 GB/s I/O throughput goal
265.708 processor cores
27
FRAMESTORE CFC MediaNecesidades del cliente>Eliminar los cuellos de botella en el almacenamiento derivados de la falta de escalabilidad de NFS
>Aumentar el rendimiento y la estabilidad del almacenamiento
Propuesta de valor de lustre>Duplicó su almacenamiento con un coste tres veces menor al de otras soluciones
>Posilibilidad de proporcionar un sistema de ficheros único a sus artistas de producción
>Software open source con gran flexibilidad en el hardware que puede utilizar
“ While we were working on The Golden Compass, we faced the most intensive I/O requirements on any project to date. Lustre played a vital role in helping us to deliver this project. ”— Daire Byrne, senior systems integrator, Framestore
28
Level3 Telecomunicaciones
Necesidades del cliente>Asegurar la disponibilidad permanente
>Porporcionar un servicio escalable
>Controlar los costes
Propuesta de valor de lustre>Posibilidad de escalar de forma sencilla
>Funciona con cualquier tipo de almacenamiento
>Alto rendimiento y fiabilidad
NBC broadcast 2008 Summer Olympics live online over Level 3 network using Lustre
“With Lustre, we can achieve that balancing act of maintaining a reliable network with lesscostly equipment. It allows us to replace servers and expand the network quickly and easily” Kenneth Brookman, Level 3 Communications
29
Chebron EnergíaNecesidades del cliente>Procesar grandes cantidades de datos
>Mantener el coste del hardware dentro de lo razonable
>Escalar el cluster existente con facilidad
Propuesta de valor de lustre>Capacidad de dar respuesta al crecimiento exponencial de los datos
>Capacidad para que los clusters de computación escalen
>Reducir los costes hardware
>Reducir los costes de mantenimiento
More Success
30
GraciasGregorio Chillóngregorio.chillon@sun.com
30