2. Mapa de las nuevas caractersticas de almacenamiento de
datos
3. Latabla anterior muestra las caractersticas de escalabilidad de
nuevo en SQL Server 2008 R2, y donde se ayudan con las actividades
que rodean a su almacn de datos.
Este whitepaper describe brevemente las mejoras en el
almacenamiento de datos en cada uno de los diferentes componentes
de SQL Server 2008 R2, y cmo pueden ayudarle a sacar el mximo
partido de su almacn de datos.
4. SQL Server Relational DBMS Data Warehouse Improvements
El SQL Server 2008 R2 relacional DBMS contiene avances importantes
respecto a versiones anteriores, por lo que funciona mejor cuando
usted crea, gestiona y consulta los almacenes de datos de gran
tamao.En esta seccin se detalla en el DBMS relacional mejoras de
almacenamiento de datos en la Tabla 1.
5. Star Join
Con modelados dimensionales de almacenes de datos, una gran parte
de su carga de trabajo suele consistir en lo que se conoce como la
estrella de consultas de unin.Estas consultas siguen un patrn comn
que se une a la tabla de hechos con una o varias tablas de
dimensiones.Adems, la combinacin en estrella consultas suelen
expresar las condiciones de filtro contra las columnas sin clave de
las tablas de dimensiones y realizar una agregacin (por lo general
SUM) en una columna de la tabla de hechos (denominada columna
demedida).Con SQL Server 2008 R2, que experimentar importantes
mejoras de rendimiento para la estrella de muchas consultas de unin
de ese proceso una fraccin significativa de las filas tabla de
hechos.
6. 7. Partitioned Table Parallelism
Elparalelismo tabla particionada(PTP) en SQL Server 2008
R2.Aplicaciones de almacenamiento de datos suele reunir grandes
cantidades de datos histricos en las tablas de hechos, que a menudo
son divididas por la fecha.En SQL Server 2005, las consultas que
tocan ms de una particin usa un thread (y por lo tanto un ncleo del
procesador) por particin.A veces, esto limita el rendimiento de las
consultas que implican las tablas con particiones, especialmente
cuando se ejecuta en paralelo con varios procesadores de memoria
compartida (SMP) con ncleos de procesador.
8. 9. La figura anteriorilustra el impacto de paralelismo tabla con
particiones en un escenario tpico de almacenamiento de datos.
Consulta Q resume las ventas de ms de siete das.La consulta se
puede tocar particiones diferentes segn el momento en que se
ejecuta.Esto se ilustra en la consulta Q1, que toca una sola
particin P2 y Q2, que toca dos particiones ya que los datos
pertinentes en el momento de la ejecucin se extiende por P3 y
P4.
10. Partition-Aligned Indexed Views
Particin de las vistas indizadas alineadas le permiten crear y
gestionar los agregados de resumen en su almacn de datos
relacionales de manera ms eficiente, y utilizarlos en situaciones
en las que no podra usarlos con eficacia antes, la mejora de
rendimiento de las consultas.
Cuando se cambia en una particin nueva tabla, las particiones de
los puntos de vista coincidentes alineadas por particin ndice
definido en la tabla con particiones tambin cambian, de forma
automtica.
La particin alineados funcin de las vistas indizadas en SQL Server
2008 R2 le ofrece las ventajas de las vistas indizadas en tablas
con particiones grandes, evitando al mismo tiempo el costo de la
reconstruccin de los agregados en toda una tabla con
particiones.Estos beneficios incluyen el mantenimiento automtico de
los agregados, y se pongan vista indizada (reescritura de la
consulta automtica de utilizar los agregados para resolver las
consultas que se refieren slo a las tablas base, no los
agregados).Para ms detalles sobre las vistas indizadas
11. La siguiente figura muestra cmo se mueven los agregados con las
particiones de la tabla base cuando se cambia de una
particin.
12. GROUPING SETS
GROUPING SETS le permiten escribir una consulta que produce varias
agrupaciones y devuelve un solo conjunto de resultados.El conjunto
de resultados es equivalente a una UNION ALL de filas agrupadas de
manera diferente.Mediante el uso de GROUPING SETS, usted puede
concentrarse en los diferentes niveles de informacin (grupos) en
sus necesidades de negocio, en lugar de la mecnica de cmo combinar
varios resultados de la consulta.
13. Salida de una consulta GROUPING SETS, con formato de tabla
dinmica
14. MERGE
La instruccin MERGE le permite utilizar varios lenguajes de
manipulacin de bases de datos (DML) (INSERT, UPDATE y DELETE) en
una tabla o vista en una sola instruccin Transact-SQL.La tabla o
vista de destino est unido a una fuente de datos y las operaciones
de DML se realizan en los resultados de la unin.
La instruccin MERGE tiene tres clusulas WHEN, cada una de ellas le
permite realizar una accin especfica de DML en una fila determinada
en el conjunto de resultados
15. Para cada fila que existe tanto en el objetivo y la fuente, la
clusula WHEN MATCHED le permite actualizar o eliminar la fila en la
tabla de destino.
Por cada fila que existe en el origen pero no en el de destino, el
CUANDO que no se repite la clusula le permite insertar una fila en
el blanco.
Para cada fila que existe en el destino pero no en la fuente, la
clusula WHEN FUENTE que no se repite le permite actualizar o
eliminar la fila en la tabla de destino
Tambin se puede especificar una condicin de bsqueda con cada una de
las clusulas WHEN para elegir el tipo de operacin de DML se debe
realizar en la fila.La clusula de salida para la instruccin MERGE
incluye una nueva columna virtual llamadoaction,que se puede
utilizar para identificar la accin DML que se llev a cabo en cada
fila
16. Change Data Capture
La captura de datoses una de las caractersticas de los nuevos datos
de seguimiento introduce en SQL Server 2008 R2.Diseado
principalmente para escenarios de data warehousing, la captura de
datos proporciona un mecanismo eficaz para rastrear y recopilar
datos de los cambios realizados en las tablas de usuario y le
proporciona acceso a modificar los datos en un formato
relacional.
La informacin auxiliar se reunieron junto con los datos de cambio
permite captura de datos modificados para dar respuesta a una serie
de preguntas.
aqu hay una serie de preguntas para las que la captura de datos
puede proporcionar las respuestas de manera eficiente:
17. Quiero que todas las filas que han cambiado entre las 12:00 am
y 12:00 pm
Necesito saber si un cambio es una insercin, actualizacin o
eliminacin.
Para una fila actualizada, me gustara saber en qu columna (s)
modificado.
La captura de datos que proporciona una forma muy eficiente para
extraer los cambios de manera gradual, reduciendo el tiempo general
de procesamiento ETL.
El siguiente diagrama proporciona una visin general de los
componentes que conforman la captura de datos.
18. 19. Minimally Logged INSERT
En general, cuando se escriben datos en una base de datos de
usuario, debe escribir en el disco dos veces: una para el registro,
y una vez a la propia base de datos.Esto es porque el sistema de
base de datos utiliza un undo / redo log por lo que puede deshacer
o rehacer operaciones cuando sea necesario.
Esto es lo que la nueva funcin de registro mnimo INSERTAR hace en
SQL Server 2008 R2.Un factor de 2 o ms aceleracin es comn con el
registro mnimo en comparacin con el registro completo.Sus
resultados dependern de su aplicacin y el hardware.
Las operaciones que se registra al mnimo en SQL Server 2005 incluye
las operaciones de importacin masiva, SELECT INTO, y la creacin de
ndices y la reconstruccin.SQL Server 2008 R2 extiende la
optimizacin de INSERT INTO ... SELECT FROM T-SQL operaciones que
insertan un gran nmero de filas en una tabla de destino existente
en esa tabla es un montn que no tiene ndices no agrupados, y la
sugerencia TABLOCK se utiliza en el objetivo.
20. Data Compression
La caracterstica de compresin de datos en SQL Server 2008 R2 reduce
el tamao de tablas, ndices o un subconjunto de las particiones de
almacenamiento de longitud fija los tipos de datos en formato de
almacenamiento de variables longitud y por reducir los datos
redundantes.
SQL Server ofrece dos tipos de compresin de la siguiente
manera:
CompresinROWpermite el almacenamiento de tipos de longitud fija en
formato variable de almacenamiento de longitud.
LacompresinPAGE se construye en la parte superior de la compresin
de fila.Reduce al mnimo el almacenamiento de datos redundantes en
la pgina mediante el almacenamiento de patrones de bytes que
ocurren comnmente en la pgina de una vez y luego hacer referencia a
estos valores en las columnas respectivas.El reconocimiento de
patrones de bytes es de tipo independiente.Bajo la compresin PAGE,
SQL Server optimiza el espacio en una pgina mediante dos
tcnicas.
21. La primera tcnica esprefijo de columna.En este caso, el sistema
busca un patrn de bytes comn como un prefijo para todos los valores
de una columna especfica en las filas de la pgina.
La segunda tcnica es eldiccionario de nivel de pgina.Este
diccionario almacena los valores comunes a travs de columnas y
filas y los almacena en un diccionario.Las columnas se modifica
para referirse a la entrada del diccionario.
Los comandos para comprimir los datos se exponen como opciones en
el modo de CREATE / ALTER DDL y el apoyo tanto online como
offline.Adems, un procedimiento almacenado se proporciona para
ayudarle a calcular el ahorro de espacio antes de la compresin
real.
22. Backup Compression
Al reducir el tamao de las copias de seguridad de SQL, se ahorra
mucho en los medios de comunicacin en disco para copias de
seguridad de SQL.Mientras que todos los resultados de compresin
depende de la naturaleza de los datos se comprimen, los resultados
del 50% no son infrecuentes, y una mayor compresin posible.Esto le
permite utilizar menos espacio de almacenamiento para guardar sus
copias de seguridad en lnea, o para mantener a ms ciclos de copias
de seguridad usando el mismo almacenamiento.
23. Resource Governor
El regulador de recursos nuevos en SQL Server 2008 R2 le permite
controlar la cantidad de recursos de la CPU y la memoria asignada a
diferentes partes de su carga de trabajo de base de datos
relacional.Se puede utilizar para evitar que las consultas fuera de
control (que niegan los recursos a otros) y de reservar recursos
para una parte importante de su carga de trabajo.SQL Server 2005
las polticas de asignacin de recursos tratar a todos por igual las
cargas de trabajo, y asignar los recursos compartidos (por ejemplo,
ancho de banda de CPU y memoria), cuando se requiere.Esto a veces
causa una distribucin desproporcionada de los recursos, que a su
vez se traduce en un desempeo desigual o retrasos
inesperados.
24. Hay tres nuevos conceptos que son importantes para la
comprensin de la regulacin de recursos: los grupos de trabajo, las
agrupaciones de recursos, la clasificacin (y clasificador de las
funciones de usuario).
Grupo:Ungrupo de trabajo,ogrupo,es una categora especificada por el
usuario de las solicitudes que son similares de acuerdo a las
reglas de clasificacin que se aplican a cada solicitud.
Piscina:Ungrupo de recursos,o en lapiscina,representa una porcin de
los recursos fsicos del servidor.Dependiendo de su configuracin, un
grupo puede tener un tamao fijo (la configuracin de los recursos
mnimos y mximos de uso son iguales entre s) o una parte que se
reparte entre varios grupos (el mnimo es menor que el mximo de
eficacia)
Clasificacin:La clasificacines un conjunto de reglas escritas por
el usuario que permiten que el regulador de recursos para
clasificar las solicitudes en los grupos descritos anteriormente.Se
implementa a travs de un escalar Transact-SQL definida por el
usuario (UDF), que se designa como "UDF clasificador" para el
regulador de recursos
25. Esto se ilustra en la siguiente figura
26. Integration Services Improvements
Haciendo ETL para mover datos de sus sistemas operativos en su
almacn de datos puede ser una tarea ardua.Para hacer este proceso
ms rpido, SQL Server 2008 IntegrationServices R2 (SSIS) presenta
dos caractersticas de escalabilidad importante: mejorar el
rendimiento de bsqueda y un mejor rendimiento de transformacin de
tuberas
Rendimiento de bsqueda
El componente de bsqueda en SSIS se ejecuta ms rpido, y es an ms
fcil de programar que en SQL Server 2005.A las pruebas de bsqueda
si cada fila de una corriente de filas tiene una fila
correspondiente en otro conjunto de datos.Una bsqueda es como una
operacin de combinacin de bases de datos.Por lo general se utiliza
de bsqueda dentro de un proceso de integracin, tales como la capa
de ETL que rellena un almacn de datos de sistemas de origen
27. Otras mejoras al componente de bsqueda incluyen:
Optimizado las rutinas de E / S que lleva a la carga de cach ms
rpida y las operaciones de bsqueda.
De usuario ms intuitiva interfaz que simplifica la configuracin del
componente de bsqueda, en particular, las opciones de
almacenamiento en cach.
Filas de la entrada que no coinciden con al menos una entrada en el
conjunto de datos de referencia son ahora enviados a la salida del
partido no.La salida de error slo se ocupa de los errores, como
truncamientos.
Instrucciones de consulta en las transformaciones de bsqueda se
puede cambiar en tiempo de ejecucin, por lo que las
transformaciones de programacin ms flexible.
Mensajes informativos y de error se han mejorado para ayudar a la
solucin de problemas y anlisis de rendimiento.
28. 29. Tubera de rendimiento
30. En SSIS SQL Server 2008 R2, varios hilos pueden trabajar juntos
para hacer el trabajo que un solo hilo se ve obligado a hacer por s
mismo en SQL Server 2005 SSIS.Esto puede darle una aceleracin
varias veces en el rendimiento de ETL.
Para lograr un alto nivel de paralelismo, las tuberas de SQL Server
2008 R2 SSIS permite un procesamiento ms en paralelo, lo que
significa que para cualquier mquina multiprocesador esto debera
resultar en un rendimiento ms rpido.
31. Analysis Services Improvements
SQL Server 2008 AnalysisServices R2 (SSAS) mejora considerablemente
la velocidad de las consultas con el clculo nuevo bloque,
write-back, y compartida escalable caractersticas de rendimiento de
base de datos.Tambin mejora la capacidad de gestin con la capacidad
de copia de seguridad de bases de datos mucho mayor.
32. Rendimiento de las consultas MDX: Clculo de bloques
Clculo bloque mejorado en SQL Server 2008 R2 velocidades SSAS hasta
el procesamiento de consultas MDX principalmente mediante el
trabajo slo para los valores no nulos en un espacio del cubo.No se
pierde tiempo la evaluacin de clulas nulas.La idea clave detrs de
la computacin subespacio es el mejor presentado por contraste con
un "ingenuo" clula por clula de evaluacin de un clculo.Considere la
posibilidad de un clculo RollingSum que resume las ventas del ao
anterior y el ao en curso, y una consulta que pide al RollingSum
para el ao 2005 para todos los productos.
33. Data Warehouse 2.0 and SQL Server Architecture and
Vision.
34. SQL Server en la evolucin
En un principio, como una base de datos que sirvieron de pequeas
cantidades de datos en un ordenador personal con funciones muy
bsicas.
ahora est preparado para servir de base para la BD de tamao medio y
grandes cantidades de datos para almacenamiento de datos.
Cambio totalmente su arquitectura
se ha convertido en la plataforma de tecnologa preferida para la
forma ms avanzada de la arquitectura de almacenamiento de datos -
DW 2.0.
almacenamiento de datos como la base de base de datos para
almacenes de datos grandes y complejos.
35. Las caracteristicas de DW 2.0
El acceso bsico de datos :
aleatoria y secuencial de E / S
1.-Tranzacciones en lnea
2.-DSS
36. 2.-Un Data Mart Ruta de migracin
Inconvenientes:
No hay una fuente definitiva de los datos corporativos.
Se crea cada puesto de dato a partir de cero.
Fragiles.
SQL Server.
37. 3.-Los costos de almacenamiento de datos
. Los ciclos de procesamiento ms caros son los que se encuentran en
las mquinas ms grandes. Cuanto ms la carga de trabajo se puede
dividir, el menos costoso de los ciclos de procesamiento de llegar
a ser.
38. 4.-Compresin
Necesidad de almacenar y gestionar un gran volumen de datos.
39. 5.-Procesamiento Paralelo
Los datos son almacenados en ms de un dispositivo a fin de que ms
de un procesador puede acceder y gestionar los datos, al mismo
tiempo.
Si un solo servidor se siente abrumado por su carga de datos,
varios servidores pueden ser utilizados al mismo tiempo y la carga
de datos se pueden dividir en ms de un servidor.
Tal enfoque se denomina un enfoque paralelo porque los conjuntos de
datos son operados en paralelo de forma independiente. Al hacerlo
aadiendo ms servidores en paralelo aumenta el rendimiento total que
un sistema puede manejar.
40. 6.-Probabilidad de acceso de datos
DW 2.0 insta a la separacin fsica de los datos basados en la
probabilidad de que el acceso de los datos.
Los datos menos utilizados que hay en almacenamiento de alto
rendimiento, ms eficientes que es encontrar los datos que est
siendo buscado en almacenamiento de alto rendimiento
SQL Server permite que los datos se dividen de acuerdo a su
probabilidad de acceso. Fsicamente divisin de datos en los
diferentes sectores, el rendimiento de los datos es mucho
mayor.
41. 7.-Los datos de streaming
SQL Server CAR: Esa capacidad es la habilidad para manejar el flujo
de datos.
Hay dos divisiones bsicas de los datos - los datos estticos y los
datos transmitidos.
Los datos estticos son los datos que se registra como un
subproducto de un acontecimiento que ocurre sobre una base
caso-por-evento. El evento que se produce por lo general ocurre de
una manera relajada.
Datos transmitidos se diferencia de los datos estticos en que los
datos transmitidos se produce y entra en el sistema de base de
datos muy rpida y predecible muy.
42. 8.-Datos Histricos Qu significa eso?
As que vamos a llamar a los datos que todava est muy fresco recin
creado los datos histricos y vamos a llamar a los datos que es ms
antigua que el archivo de datos real.
Muestra que los datos histricos se pueden dividir en dos clases -
de nueva creacin y los datos histricos verdaderos datos de
archivo.
43. Esta distincin de lo que se entiende por datos histricos
necesarios para comprender qu tipo de datos tiene que ser colocado
en el sector interactivo.
En DW 2.0 hay un sector de datos llamada el sector
interactivo.
El sector interactivo contiene datos recin creado histricos como un
conjunto de datos transmitidos, no los datos de archivo.
44.9.-El ajuste entre DW 2.0 y SQL Server
Hay una adecuacin de la arquitectura muy buena entre la
arquitectura del futuro del almacenamiento de datos - DW 2.0 - y
SQL Server.
45. La necesidad de manejar grandes volmenes de datos .
La necesidad de estar constantemente al tanto de los costes del
almacenamiento de datos.
La necesidad de separar interactiva y procesamiento de datos
transmitidos desde otras partes de los datos y el
procesamiento.
La necesidad de gestionar los datos de forma paralela.
La necesidad de dividir la carga de trabajo a mayor cantidad de
componentes ms pequeos como sea posible.
La necesidad de un acceso bsico secuencial de conjuntos de
datos.
La necesidad de tener una ruta de migracin racional de los data
marts y data warehouses mini a un gran almacn de datos
centralizado.
El lugar y la posicin de los datos transmitidos.
La necesidad de datos separadas fsicamente sobre la base de las
diferencias en la probabilidad de que el acceso de los
datos.