19/11/2014
1
Seminario de Evaluación Estadística de Ensayos de Aptitud por Comparación
Interlaboratorio a cargo de Pablo Calello
La participación en actividades de ensayo de aptitud es uno de los mecanismos utilizados por el propio laboratorio y por organismos de acreditación para asegurar la calidad de los resultados y para la demostración de la competencia técnica.
El objetivo principal del ensayo de aptitud (PT) es proveer una herramienta de aseguramiento de la calidad para que cada laboratorio pueda comparar su desempeño con el de otros laboratorios similares, para aplicar cualquier acción correctiva, y facilitar el mejoramiento.
19/11/2014
2
Para poder aplicar acciones correctivas y aprovechar las oportunidades de mejora, es importante saber interpretar profundamente los resultados de un ensayo de aptitud, ya que contienen información más rica que un Resultado Satisfactorio o No Satisfactorio.
Ensayo de aptitud: Los resultados de los participantes se comparan con un estándar (Material de Referencia, Valor asignado por un laboratorio de referencia)
Ensayo Interlaboratorio: Se comparan los resultados obtenidos por los participantes con un valor de consenso surgido a partir de los valores aportados por los participantes
19/11/2014
3
CONCEPTOS ESTADISTICOS
MODELO PROBABILÍSTICO SUBYACENTE O MODELO PROBABILÍSTICO GENERADOR DE LOS DATOS
Todo experimento mediante el cual se obtengan datos, a pesar de ser repetido en igualdad e condiciones (repetibilidad y/o reproducibilidad), tiene en cada una de sus realizaciones algún grado de discrepancia, es por esta razón que se asume el resultado de estos como una variable aleatoria. La función que indica la proporción de veces que determinado resultado será obtenido es el modelo probabilístico subyacente o modelo probabilístico generador de los datos. Se espera que si se repite el experimento un número suficiente de veces, el histograma de los datos, se aproxime al gráfico de la función de densidad o probabilidades que es la forma matemática que toma el modelo probabilístico.
19/11/2014
4
Inferencia estadística
• Análisis de toda la población por medio de un subconjunto de datos llamado “muestra”.
• Se espera que la muestra sea representativa de todo el conjunto.
Muestra
Población
Media de Consenso y Desvío de Consenso
Un test de proficiencia debe documentar cual es el procedimiento para determinar el valor asignado para el mensurando. Nosotros, para nuestros fines, vamos a tomar como valor de consenso a la media aritmética que haya surgido del resultado que haya obtenido cada laboratorio.
Otros valores asignados pueden ser:
Valores conocidos
Valores certificados de referencia
Valores de Consenso entre expertos
Se encuentra un listado completo en el Anexo B de la ISO 17043
19/11/2014
5
En una planilla de Cálculo:
19/11/2014
6
ESTADÍSTICA ROBUSTA
Es una aproximación alternativa a los métodos estadísticos clásicos. El objeto es producir estimadores alternativos para el valor asignado y el desvío que no sean afectados por variaciones pequeñas respecto a las hipótesis del modelo subyacente; en el caso que los datos surjan por consenso entre participantes.
La estadística robusta intenta proporcionar métodos que emulan a los métodos clásicos, pero que no son afectados indebidamente por valores atípicos u otras pequeñas discrepancias respecto de las asunciones del modelo.
19/11/2014
7
Para mas información recomendamos ver el anexo c de la iso 13528:2005(E)
Cálculo clásico del valor asignado y desvío
El tratamiento clásico consiste en eliminar los outliers y estimar el valor de consenso con la media y el desvío con el desvío de los datos.
19/11/2014
8
DISTRIBUCIÓN NORMAL Para variables cuantitativas como pesos,
concentración de un analito en una matriz, porcentajes de proteínas, grasas, etc. existen numerosas funciones matemáticas que las describen, la mas importante de todas (Por se la que mejor ajusta a los resultados e mediciones e un laboratorio, y que coincide con hipótesis matemáticas que facilitan su explicación) es la denominada Distribución Normal o Campana de Gauss en alusión a su gráfica.
La función de densidad que describe un conjunto de datos con esta distribución es:
2
2
2
)(
22
1)(
x
x exf
• Las probabilidades se calculan como el área
bajo la curva. Los parámetros y
19/11/2014
9
PROPIEDADES DE LA DISTRIBUCIÓN NORMAL
.
Distribución simétrica respecto de la media (La media, moda y mediana coinciden).
2)var(
)(
x
xE
Los datos que se encuentran a más de 4 desvíos de distancia de la media se denominan outliers. Es muy poco frecuente que se presenten outliers cuando los datos provienen de una distribución normal.
19/11/2014
10
Familia de distribuciones normales con diferente media y mismo desvío.
Familia de normales con igual media y diferentes desvíos.
19/11/2014
11
TRATAMIENTO ESTADISTICO DE LOS RESULTADOS.
Para evaluar los resultados de los análisis individuales, se utiliza el estadístico Z-Score:
Valor asignado.
Desvío estimado valor de referencia.
19/11/2014
12
Trigo-PH
-2.50
-2.00
-1.50
-1.00
-0.50
0.00
0.50
1.00
1.50
2.00
2.50
1 2 3 4 5 6 7 8 9 10 11
Número de Laboratorio
Valo
res Z
19/11/2014
13
Trigo-Granos con Carbón
-2.50
-2.00
-1.50
-1.00
-0.50
0.00
0.50
1.00
1.50
2.00
2.50
1 2 3 4 5 6 7 8 9 10 11
Número de Laboratorio
Va
lore
s Z
19/11/2014
14
Trigo-Granos Picados
-2.50-2.00-1.50-1.00-0.500.000.501.001.502.002.50
1 2 3 4 5 6 7 8 9 10 11
Número de Laboratorio
Va
lore
s Z
Tanto el valor de X como el de se obtuvieron como valor de consenso entre los
participantes. Para ello se utilizó el Algoritmo B de la norma ISO 17043, calculándose la media y el desvío robusto. Se entiende por estadística robusta al conjunto de técnicas estadísticas que son poco sensibles a variaciones en los supuestos. El cálculo de media y desvío robusto brindan una solución al problema de los outliers, ya que los cálculos no se encuentra afectados por la existencia de valores extremos. El criterio de clasificación es el usual: Los valores de Z-Score entre [-2 2] son clasificados como satisfactorios. Los valores con Z-Score entre [-3 -2] o entre [2;3] son clasificados como Dudoso y los valores menores a -3 o mayores a 3 son clasificados como No Satisfactorios. En el caso que el resultado del ensayo no se informe, se evalúa como no satisfactorio, salvo en el caso que el laboratorio participante haya informado la baja previamente a la distribución de las muestras en cuyo caso no se evalúa.
19/11/2014
15
¿Cómo saber si un conjunto de datos tiene
distribución Normal? La prueba de normalidad debe ser abordada de
alguna manera cuando se trata de datos de interlaboratorios que son tratados con una distribución normal.
Varias alternativas: Análisis de consistencia de datos: Histograma,
cuantiles / percentiles empíricos vs. teóricos. Test de distribución: Por ejemplo Kolmogorov-
Smirnov, Shapiro-Wilks, Chi-cuadrado. Análisis mediante gráficos Cuantil - Cuantil.
19/11/2014
16
Para los análisis de calidad en Harina sólo hay 2 o 3 laboratorios participantes según el análisis, por lo cual no es posible calcular un valor de referencia y desvío por consenso. Para evaluar la performance se realizó un análisis de consistencia entre los resultados de los participantes utilizando ANOVA ROBUSTA (KRUSKAIS WALLIS). El test de Kruskais Wallis calcula el valor del estadístico H:
FC
RRnnn
H
r
m
m
m
1
2)(1
)1(
12
Donde: n . Es la cantidad de datos total (La suma de todas las determinaciones
duplicadas de todos los laboratorios) :m Es el índice para los laboratorios.
:r Es la cantidad de laboratorios participantes.
mR . Es la diferencia entre las determinaciones duplicadas de los laboratorios. Si
ambas determinaciones coinciden se dice que es un “empate”. :R Es el promedio de los rangos.
:FC Factor de Corrección por Empates. El valor FC se calcula como:
nn
dd
FC
k
j
j
3
1
23 )(
1
Donde jd es el número de empates en kj ,.....,2,1 ; el número de valores
diferentes de las determinaciones.
19/11/2014
17
HOMOGENEIDAD Y ESTABILIDAD
La homogeneidad se verifica demostrando que los contenidos de analito en muestras representativas de la población no presentan diferencias estadísticas significativas. Los contenidos de analito se miden por duplicado, en condiciones de repetibilidad (el mismo día) sobre al menos diez muestras tomadas al azar de un lote preparado. Sobre los datos se aplica la prueba de la norma ISO 13528:2005 Anexo B [2]. Homogeneidad: Las muestras y sus duplicados se midieron en bajo condiciones de repetibilidad (mismo día y analista). Se considera lote homogéneo cuando la desviación estándar entre muestras es menor que 0,3 de la desviación estándar robusta esperada para el ensayo aptitud. (la desviación estándar entre muestras no debe contribuir en más del 10% del total de la desviación estándar del ensayo).
La estabilidad se verifica demostrando que los contenidos de analito en muestras representativas de la población no presentan diferencias estadísticas entre un antes y un después. Los contenidos de analito se miden por duplicado, en condiciones de repetibilidad, sobre tres muestras. De nuevo las muestras y sus duplicados se midieron en orden aleatorio (de Excel). Se considera estable el lote cuando la diferencia de los promedios de los resultados obtenidos de las pruebas de homogeneidad y los de estabilidad es menor que 0,3 de la desviación estándar robusta esperada para el ensayo de aptitud. El tratamiento es el mismo para la prueba de transporte.
19/11/2014
18
𝑥 = 𝑥𝑡
𝑔
𝑠𝑥 = 𝑥𝑡 − 𝑥 2
𝑔 − 1
𝑠𝑤 = 𝑤𝑡
2
2𝑔
𝑠𝑠 = 𝑠𝑥2 − 𝑠𝑤
2
𝑠𝑠 ≤ 0,3𝜎
Donde
𝑥 es la media aritmética, de los g promedios de dos muestras cada uno
𝑠𝑥es el desvío, de de los g promedios de dos muestras cada uno
𝑠𝑤es el desvío dentro las muestras
𝑠𝑠es el desvío entre de las muestras
𝜎 es el desvío asignado. En este ejemplo se supongo 𝜎 = 1,1
Ejemplo de Homogéneidad
En el presente ejemplo vemos que las muestras son homogéneas.
Sample number Test portion Test portion Sample average Between-test-portion
t 1 2 xt wt
1 10,5 10,4 10,45 0,1
2 9,6 9,5 9,55 0,1
3 10,4 9,9 10,15 0,5
4 9,5 9,9 9,7 0,4
5 10 9,7 9,85 0,3
6 9,6 10,1 9,85 0,5
7 9,8 10,4 10,1 0,6
8 9,8 10,2 10 0,4
9 10,8 10,7 10,75 0,1
10 10,2 10 10,1 0,2
11 9,8 9,5 9,65 0,3
12 10,2 10 10,1 0,2
Media Muestral 10,02083333 Sw= 0,246
Desvio Muestral 0,340092456 Ss=0,292
19/11/2014
19
ANOVA
• ANOVA: Análisis de varianza
• Cuadro ANOVA
ANOVA - Test de igualdad de medias
• Valor estadístico F:
• Si el nivel critico asociado al estadístico F, es menor que 0,05 (por ejemplo)
Rechazamos la hipótesis de igualdad de medias Concluiremos que no todas las medias poblacionales comparadas son iguales
• En caso contrario, no podemos rechazar la hipótesis de igualdad y no podremos afirmar que los grupos comparados difieran en sus promedios poblacionales.
CMD
CMEnkkF ))1(,1(
19/11/2014
20
ANOVA - Test de igualdad de varianzas
• Test de Levene
• Estimación de variabilidad:
• Estadístico F:
• Para el rechazo se procede de la misma manera que en el test de igualdad de medias
• Cuando se quiere analizar el efecto de una fuente de variabilidad ocasionado por factores discretos, se puede realizar un análisis ANOVA donde cada uno de los factores es un grupo.
1
)(1
2
2
n
Xx
s
n
i
kij
j
)min(
)max()1,(
2
2
j
j
s
snkF
Ejemplo Se toman medidas de un mismo mensurando por tres instrumentos por el mismo analista bajo las mismas condiciones en un mismo laboratorio. En este caso, que la única variable que se cambia es el instrumento, la repetibilidad de cada uno esta representada por la variabilidad dentro de cada grupo: ANOVA permite probar que las variabilidades no son estadísticamente significativas, lo cual implica que puede tomarse un valor único para la repetibilidad, dado por un promedio de la repetibilidad de cada grupo. Por otro lado, también permite que cantidad de la variabilidad corresponde al instrumento y que parte es el error.
15
)( 25
12
Xx
s i
ij
j
3
3
1
2
2
j
j
r
s
s
19/11/2014
21
Descomposición ANOVA
3
1
5
1
2)(i j
ij XxSCT
3
1
2)(i
i XXSCE
3
1
25
)(i
j
j
ij XxSCD
La variabilidad total es una medida de la “reproducibilidad del laboratorio” y se representa por: La repetibilidad: La variabilidad debida al error es:
15
)(
15)var(
3
1
5
1
2
2
i j
ij
L
XxSCT
totals
3
)(
3
3
1
2
2
i
i
r
XXSCD
s
222
rLe sss