UNIVERSITAT ROVIRA I VIRGILI Departament de Química Analítica i Química Orgànica PARÁMETROS CUALIMÉTRICOS DE MÉTODOS ANALÍTICOS QUE UTILIZAN REGRESIÓN LINEAL CON ERRORES EN LAS DOS VARIABLES Tesis Doctoral F RANCISCO J AVIER DEL R ÍO B OCIO Tarragona, 2001 Parámetros Cualimétricos de Métodos Analíticos que Utilizan Regresión Lineal con Errores en las Dos Variables Tesis Doctoral U NIVERSITAT ROVIRA I V IRGILI UNIVERSITAT ROVIRA I VIRGILI Departament de Química Analítica i Química Orgànica Àrea de Química Analítica PARÁMETROS CUALIMÉTRICOS DE MÉTODOS ANALÍTICOS QUE UTILIZAN REGRESIÓN LINEAL CON ERRORES EN LAS DOS VARIABLES Memoria presentada por Francisco Javier del Río Bocio para conseguir el grado de Doctor en Química Tarragona, 2001 Prof. FRANCESC XAVIER RIUS I FERRÚS, Catedrático del Departament de Química Analítica i Química orgánica de la Facultat de Química de la Universitat Rovira i Virgili, y el Dr. JORDI RIU I RUSELL, Becario post doctoral del mismo Departamento, CERTIFICAN: Que la presente memoria que tiene por título: “PARÁMETROS CUALIMÉTRICOS DE MÉTODOS ANALÍTICOS QUE UTILIZAN REGRESIÓN LINEAL CON ERRORES EN LAS DOS VARIABLES”, ha sido realizada por FRANCISCO JAVIER DEL RÍO BOCIO bajo nuestra dirección en el Área de Química Analítica del Departament de Química Analítica i Química Orgánica de esta Universidad y que todos los resultados presentados son fruto de las experiencias realizadas por dicho doctorando. Tarragona, marzo de 2001 Prof. F. Xavier Rius i Ferrús Dr. Jordi Riu i Rusell AGRADECIMIENTOS Soy consciente de que los siguientes párrafos van a ser los más leidos de la Tesis. Por este motivo voy a aprovechar y mostrar mi gratitud hacia todas aquellas personas que de una manera u otra me han ayudado a poder llegar a este momento tan esperado. En primer lugar me gustaría agradecer a F. Xavier Rius el empujón que me dio en su día para entrar en este mundillo de la investigación cuando yo había dejado de creer en la química. Muchas gracias por eso y por la ayuda que me has prestado en todos estos años de trabajo. También me gustaría darle las gracias a Jordi Riu. Muchas gracias por tu ayuda, por tu colaboración pero, sobretodo, muchas gracias por ofrecerme tu amistad. Espero que te vaya muy bien en el post-doc y que a tu vuelta triunfes tanto como investigador como ... bueno, como en todo lo demás. Muchas gracias a mis compañeros del grupo de Quimiometría. Quiero empezar por los que me han acompañado en el labo 9 desde el primer día, y que me han aguantado en mis buenos y en mis malos días. Muchas gracias a Jaume (los del Burger echarán de menos al consumidor de Long Chicken, ¿eh?) y a Santi (siempre disponible para ayudar y resolver dudas en cualquier momento ...). No quiero olvidar al resto de compañeros del grupo, empezando por Ángel que es con el que he trabajado más (¡aúpa BLS!). Alicia Pulido (... anda que no hemos pasado ratos criticando a troche y moche en el pasillo, ¿eh?), a la otra Alicia (otra que tal, ¿eh?), Enric (anímate y hazte merengue, que tendrás menos disgustos, ¡hombre!), a Mari, a Toni, a Josep Lluís, a Floren, a Joan, a Ricard, a Pilar, a Marisol, a Iciar, y a todos los que han pasado por el grupo y que ya no están. De estos me gustaría hacer mención especial a Sara y Barbara; estuvisteis poco tiempo, pero habéis dejado huella, ¿eh?. No me quiero olvidar (porque no sería justo) de mis amigos. Dentro de este apartado me gustaría mencionar muy especialmente a Noe (a pesar de haberme viciado con los talladets y la carmanyola he disfrutado mucho de ellos en compañía de una gran Amiga), a Pepe (esas comidas juntos no se olvidan fácilmente, ¿eh?. Por cierto, mucha suerte en tu nueva vida) y a Fernando (¡vaya ratos hemos pasado sentados en la escalera frente a orgánica!). Entre los tres habéis aguantado todos mis malos momentos en Tarragona y me habéis ayudado a superarlos. Tampoco me quiero olvidar de Juan Antonio, Jorge, Jordi, Merche, Eva, Núria y Olga (¡ese equipazo de enólogas! que siempre me han ayudado cuando lo he necesitado), Joan (¡firrrmes!) y Eva, ni tampoco de Vanessa y otros tantos que no enumeraré porque necesitaría demasiado espacio para no dejarme a nadie. Muchas gracias a todos por ser mis amigos. No me quiero olvidar de los momentos buenos y de ocio que he pasado durante este periodo de tiempo, así que también quiero agradecer los buenos ratos que he pasado en los tres coros (el de la URV, el Mare Nostrum y el de los Paúles), tocando la flauta o en el cine. Muchas gracias a los responsables de que me queden estos buenos recuerdos: Mònica, Marisol, Arancha, Quim, Laura, ... y un muy largo etcétera. Por último quiero agradecer muchísimo el apoyo y la ayuda de toda mi familia. Empezando por la más cercana: Papá, Mamá, Carlos, Inma, Marga y Yaya, y siguiendo por los tíos y primos. Muchas gracias a todos por ser como sois, por aguantarme y por ayudarme a llegar a esto. Sólo vosotros sabéis cuánto os agradezco todo lo que me habéis dado. A la hora de agradecer normalmente se piensa en toda la gente que te ha ayudado. Sin embargo cinco años son muchos y mi memoria demasiado flaca como para estar seguro de que no me he dejado a nadie. Por este motivo, quiero dar las gracias a todos aquellos que en algún momento han pensado en mi o me han querido ayudar. Muchas gracias a todos “Pedí a Dios de todo para disfrutar de la vida y Él me dio la vida para disfrutar de todo” A Papá, Mamá, Yaya, Carlos, Inma y Marga Os quiero muchísimo Índice ÍNDICE 1 2 Introducción 1 1.1 Objetivos y justificación 3 1.2 Estructura de la Tesis 3 Fundamentos teóricos 2.1 7 Notación 2.1.1.1 Símbolos del alfabeto latino 9 10 2.1.1.2 12 Símbolos del alfabeto griego 2.2 Regresión lineal 12 2.2.1 Métodos que consideran los errores en una sola variable 15 2.2.1.1 Mínimos cuadrados ordinarios (OLS) 15 2.2.1.2 Mínimos cuadrados ponderados (WLS) 18 2.2.2 Métodos que consideran los errores en dos variables 19 2.2.2.1 Estimaciones por máxima verosimilitud 21 2.2.2.2 Estimaciones por mínimos cuadrados 25 2.2.2.3 Método de mínimos cuadrados bivariantes (bivariate least squares, BLS). 26 2.2.3 Aplicaciones de la regresión lineal considerando los errores en las variables predictora y respuesta 28 2.2.3.1 Calibración lineal 29 2.2.3.2 Comparación de métodos 29 2.3 Distribución de la población de una medida experimental 2.3.1 Distribución normal o Gaussiana 30 33 2.4 Tests estadísticos para la comprobación de la normalidad de una distribución 34 2.4.1 Test de normalidad en Cetama 34 2.4.2 Test de Kolmogorov 36 2.4.3 Gráficos de probabilidad normal 37 2.5 Predicción en regresión lineal 39 XI Índice 2.5.1 Intervalos de predicción considerando solamente los errores en la variable respuesta 39 2.5.2 Intervalos de predicción considerando los errores en las variables predictora y respuesta 44 3 2.6 Límites de detección 2.6.1 Test de hipótesis 2.6.2 Etapa de decisión 2.6.3 Etapa de detección 45 47 47 48 2.7 Regresión lineal en presencia de puntos discrepantes 2.7.1 Técnicas de detección de puntos discrepantes 2.7.2 Robustez en regresión lineal 51 52 53 2.8 Simulación de Monte Carlo 56 2.9 Referencias 57 Normalidad de los coeficientes de regresión 3.1 Introducción 3.2 Detecting proportional and constant bias in method comparison studies by using linear regression with errors in both axes 4 65 67 69 3.3 Conclusiones 96 3.4 Referencias 96 Predicción en BLS 4.1 Introducción 99 101 4.2 Prediction intervals in linear regression taking into account errors on both axes 104 5 4.3 Conclusiones 133 4.4 Referencias 134 Límite de detección en BLS 5.1 XII Introducción 137 139 Índice 5.2 concentration 6 Limits of detection in linear regression with errors in the 142 5.3 Conclusiones 163 5.4 Referencias 164 Regresión lineal en presencia de puntos discrepantes 6.1 Introducción 6.2 Detección de puntos discrepantes 6.2.1 Introducción 6.2.2 Outlier detection in linear regression taking into account errors in both axes 6.2.3 Comprobación de la aplicación del criterio gráfico 165 167 169 169 172 190 6.3 Regresión robusta 195 6.3.1 Introducción 195 6.3.2 Robust linear regression taking into account errors in both axes 6.3.3 BLMS 6.3.4 197 Comparación de diversos algoritmos de cálculo de la recta 213 Robustez de la recta BLS 214 6.4 Protocolo de actuación en regresión lineal en presencia de puntos discrepantes 217 6.4.1 Introducción 217 6.4.2 Linear regression taking into account errors in both axes in presence of outliers 218 7 6.5 Conclusiones 234 6.6 Referencias 236 Conclusiones 239 7.1 Conclusiones 241 7.2 Perspectivas futuras 244 XIII Índice 8 Anexos 247 8.1 Anexo 1. Comparación de los métodos OLS, WLS y BLS 249 8.1.1 Comparación de las rectas de regresión obtenidas con los métodos OLS, WLS y BLS 249 8.1.2 Comparación de los métodos OLS, WLS y BLS 250 8.1.3 Referencias 254 8.2 Anexo 2. Presentaciones en congresos Índice temático XIV 255 257 1 Capítulo Introducción 1.1 Objetivos y justificación 1.1 Objetivos y justificación En el presente trabajo se pretende ampliar el conocimiento existente sobre la comparación de métodos analíticos y la calibración lineal, mediante la utilización de la técnica de regresión de mínimos cuadrados bivariantes (BLS, bivariate least squares) en la que se consideran los errores experimentales individuales asociados a las variables predictora y respuesta, incidiendo especialmente en las características cualimétricas de las metodologías que utilizan la regresión lineal con errores en las dos variables. Con esta finalidad se han planteado los siguientes objetivos principales: 1.- Estudio y caracterización de las distribuciones de los coeficientes de regresión (ordenada en el origen y pendiente) encontrados mediante el método BLS con el fin de conocer qué tipo de tests estadísticos derivados se deben aplicar en el campo de la química analítica. 2.- Desarrollo de las expresiones para el cálculo de las varianzas asociadas a la predicción tanto de la variable predictora como de la variable respuesta utilizando los errores cometidos en ambas variables. 3.- Cálculo del límite de detección de una metodología analítica en que la recta de calibración se construye mediante el método de BLS. 4.- Establecer el procedimiento que se ha de seguir ante la posible presencia de puntos discrepantes en una recta de regresión considerando los errores en las dos variables, desarrollando para ello un método de regresión robusto y un criterio gráfico para la detección de puntos discrepantes. 1.2 Estructura de la Tesis La presente Tesis Doctoral se estructura de la siguiente forma: 3 1. Introducción • Capítulo 1. Este capítulo incluye una descripción de los objetivos de la Tesis Doctoral, incluyendo una breve justificación de los mismos. Este segundo apartado intenta clarificar la estructura de la Tesis. • Capítulo 2. El segundo capítulo pretende recoger los fundamentos teóricos que se han utilizado en el desarrollo de la presente Tesis Doctoral. En cada caso se ha pretendido hacer una revisión bibliográfica de los precedentes, pasando posteriormente a una descripción de los métodos más utilizados en cada uno de los campos desarrollados. Tras una introducción a la notación (sección 2.1) utilizada en el resto de la Tesis Doctoral, los demás apartados de este capítulo pretenden ilustrar cada uno de los temas que se tratan en ella. Así, por ejemplo, el siguiente apartado (2.2) es el más general, pues incluye un estudio de los diversos métodos de regresión que se han utilizado a lo largo del tiempo, tanto considerando los errores en una como en dos variables. De estos últimos, el método de BLS se explica con más detenimiento pues será el utilizado en el resto del trabajo. Los siguientes apartados explican el estado actual de otros aspectos tratados en el presente trabajo, tales como la normalidad de las distribuciones y los diversos tests existentes para su determinación (apartados 2.3 y 2.4), una introducción a los diferentes métodos de cálculo de los intervalos de predicción (apartado 2.5), un estudio de los diferentes criterios utilizados para el cálculo de los límites de detección, incluyendo las definiciones básicas necesarias para su comprensión (apartado 2.6) y una revisión bibliográfica de los métodos de regresión robusta y de detección de puntos discrepantes (apartado 2.7). El último apartado de este capítulo hace una breve introducción al método de Monte Carlo que se utiliza en varios capítulos de esta Tesis Doctoral. • Capítulos 3-6. En estos capítulos se presenta el núcleo del trabajo realizado en esta Tesis Doctoral. En todos los casos se presentan los resultados en forma de artículos publicados en revistas científicas de difusión internacional. La estructura de los capítulos empieza con una breve introducción a la investigación incluida en el artículo con el fin de contextualizar su contenido. A continuación se presenta cada uno de los artículos, para finalmente presentar las conclusiones a 4 1.2 Estructura de la Tesis cada uno de los artículos destinadas a enlazar los contenidos presentados en cada capítulo. En el tercer capítulo se presenta un estudio realizado sobre las distribuciones de los coeficientes de regresión, con el fin de comprobar si pueden ser asimiladas a una distribución normal. El cuarto capítulo incluye el desarrollo de las expresiones para el cálculo de los intervalos de predicción, mientras que en el quinto se utilizan estos mismos intervalos para encontrar el límite de detección cuando se consideran los errores experimentales en las variables predictora y respuesta. El sexto capítulo presenta una discusión cuyo principal objetivo es la búsqueda de la mejor recta de regresión cuando se consideran los errores en las dos variables en presencia de puntos discrepantes. • Capítulo 7. En este capítulo se enumeran las conclusiones extraídas a partir de los objetivos que se han planteado inicialmente para la presente Tesis Doctoral. • Capítulo 8. Este capítulo incluye una serie de anexos. En ellos se presentan algunos cálculos que por su longitud o complejidad se ha considerado que no se debían incluir en los capítulos anteriores. En el último apartado de este capítulo se citan las participaciones que se han presentado en congresos como consecuencia del trabajo realizado en esta Tesis Doctoral. Todas las simulaciones y programas definidos a lo largo de la presente Tesis Doctoral se han llevado a cabo utilizando el programa Matlab1, que es un entorno matemático destinado a simplificar el cálculo matricial. 5 2 Capítulo Fundamentos teóricos 2.1 Notación Este segundo capítulo intenta dar una noción general de los aspectos teóricos utilizados en el resto de la Tesis Doctoral. En primer lugar, y tras un apartado dedicado a aclarar la notación utilizada, se dan unas nociones básicas sobre la regresión lineal, para profundizar finalmente en la regresión lineal considerando los errores en las dos variables, y más concretamente en el método de los mínimos cuadrados bivariantes (bivariate least squares, BLS), que será utilizado como base en todos los capítulos de la presente Tesis Doctoral. A continuación se citarán las principales aplicaciones de la regresión lineal, con el fin de introducir conceptos que a continuación se irán adaptando para el caso en que se consideran los errores experimentales en las variables predictora y respuesta. En concreto se explicarán brevemente los diferentes tests para el estudio de la normalidad de distribuciones, el cálculo de los intervalos de predicción y del límite de detección y las diferentes aplicaciones existentes para la regresión lineal en presencia de puntos discrepantes cuando se tienen en cuenta los errores en las variables predictora y respuesta. 2.1 Notación En general, los valores verdaderos de las diferentes variables usadas a lo largo de este trabajo se representan por caracteres griegos, mientras que sus estimaciones se representan por caracteres latinos. De esta forma, los valores de los coeficientes de regresión están representados por β0 (ordenada en el origen) y β1 (pendiente), mientras que sus respectivas estimaciones se representan por b0 y b1. Por otra parte, las predicciones de las variables experimentales se definen con un acento circunflejo ( ŷi ). Las matrices se representan por una letra mayúscula en negrita (como por ejemplo la matriz de puntos experimentales de la variable predictora X), los vectores por una letra minúscula en negrita (por ejemplo el vector b de los coeficientes de la recta de regresión), y las variables y escalares por una letra en cursiva (por ejemplo la estimación de la ordenada en el origen, b0). A lo largo de la presente Tesis Doctoral la notación decimal sigue la norma anglosajona de separar con puntos los números decimales. Se ha tomado esta decisión para homogeneizar la presentación de los resultados, teniendo en cuenta 9 2. Fundamentos teóricos que la mayoría de ellos se presentan en forma de artículos en publicaciones internacionales, donde se exige la utilización de esta norma. A continuación se enumeran los símbolos más utilizados a lo largo de la Tesis Doctoral. 2.1.1.1 Símbolos del alfabeto latino ar Momento adimensional centrado de orden r de una distribución b0 Estimación de la ordenada en el origen de la recta de regresión b1 Estimación de la pendiente de la recta de regresión b Vector de las estimaciones de los coeficientes de regresión e Vector de las estimaciones de los residuales de la variable respuesta f dist Función de probabilidad de una distribución Estimación del coeficiente i de Fisher (i=1,2) fi F(p,n-p,1-α) Valor aleatorio perteneciente a una distribución F H0 Hipótesis nula H1 Hipótesis alternativa k xi Coeficiente de fiabilidad L Valor real en términos de concentración o señal neto L̂ Cantidad estimada en términos de concentración o señal neto LC Valor crítico en términos de concentración o señal neto LD Límite de detección en términos de concentración o señal neto LR Límite normativo en términos de concentración o señal neto M Función de probabilidad en regresión por máxima verosimilitud m m Número de puntos que forman una distribución 0 r Momento de orden r de una distribución mr Momento centrado de orden r de una distribución n Número de puntos experimentales p Número de parámetros que deben ser estimados en un modelo pi Estimación del coeficiente i de Pearson (i=1,2) q Número de repeticiones del análisis de una muestra S Suma del cuadrado de los residuales de la recta de regresión 10 2.1 Notación s2 Estimación del error experimental de la recta de regresión s 02 Estimación de la varianza al nivel de concentración cero sb20 Estimación de la varianza de la ordenada en el origen de la recta de regresión sb21 Estimación de la varianza de la pendiente de la recta de regresión 2 s dist Estimación de la varianza de una distribución s D2 Estimación de la varianza al nivel de concentración del límite de detección s δ2 Estimación de la varianza relacionada con el error de la variable predictora s e2 Estimación de la varianza del error instrumental se2i Estimación de la varianza del i-ésimo residual s ε2 Estimación de la varianza relacionada con el error de la variable respuesta s y2i Estimación de la varianza de la variable respuesta en el punto i t α,ν Valor aleatorio perteneciente a una distribución t de Student V Matriz diagonal con las varianzas experimentales de la variable respuesta W Matriz diagonal con los pesos (wi) wi Coeficiente de ponderación del punto i X Matriz de la variable predictora xi Valor medido de la variable predictora en el punto i x̂i Valor predicho de la variable predictora en el punto i x Valor medio de los valores experimentales de la variable predictora x p Valor medio ponderado de los valores experimentales de la variable predictora Y Matriz de la variable respuesta yi Valor medido de la variable respuesta en el punto i ŷi Valor predicho de la variable respuesta en el punto i y Valor medio de los valores experimentales de la variable respuesta y p Valor medio ponderado de los valores experimentales de la variable respuesta zα Valor aleatorio perteneciente a una distribución normal 11 2. Fundamentos teóricos 2.1.1.2 Símbolos del alfabeto griego α Nivel de significancia; Probabilidad de cometer un error de primera especie; falso positivo β Probabilidad de cometer un error de segunda especie; falso negativo β0 Valor verdadero de la ordenada en el origen de la recta de regresión β1 Valor verdadero de la pendiente de la recta de regresión δi Error aleatorio asociado al punto i en la variable predictora εi Valor del residual en el punto i γi Error aleatorio asociado al punto i en la variable respuesta ηi Valor verdadero de la variable respuesta en el punto i ϕi Coeficiente i de Fisher (i=1,2) λ Relación de varianzas de las variables respuesta y predictora µ dist Valor medio real de una distribución ν Número de grados de libertad πi Coeficiente i de Pearson (i=1,2) σ Valor verdadero del error experimental de la recta de regresión 2 σ 02 Varianza al nivel de concentración cero σ 2D Varianza al nivel de concentración del límite de detección 2 σ dist Varianza asociada a una distribución σ 2xi Varianza de la variable predictora en el punto i σ 2yi Varianza de la variable respuesta en el punto i ξi Valor verdadero de la variable predictora en el punto i 2.2 Regresión lineal La regresión se considera como un conjunto de técnicas estadísticas utilizadas para estudiar las relaciones existentes entre varias variables. La regresión lineal es un caso particular de la regresión en que las relaciones entre las variables pueden definirse mediante una línea recta o por generalizaciones de una línea recta a diferentes dimensiones. Estas técnicas se utilizan en muchos campos, entre los 12 2.2 Regresión lineal que se pueden citar las ciencias sociales, la física, la biología, la economía, la tecnología o las humanidades. Un ejemplo de utilización en el campo de la química es la absorción de una muestra coloreada a una determinada longitud de onda, cuya relación con la concentración se mide a partir de la ley de Lambert-Beer. Al tomar un conjunto de valores de una de las variables y hacer una transformación sobre la otra variable, su dispersión aumenta, mientras que su valor medio es más próximo a la media de la distribución, y lo hará en mayor o menor medida dependiendo de la correlación entre las variables.2 Por este motivo se dice que se produce un fenómeno de ”retroceso” o de “vuelta atrás”. De ahí se introduce el concepto de “regresión”. El primero en utilizarlo fue Galton3 (1887) que observó que los hijos de padres altos tienden a ser menos altos y los hijos de padres bajos a ser menos bajos. Se producía una regresión hacia la media de la población. Hoy se sigue manteniendo este término, aunque su significado original de “retroceso” hacia algún promedio estacionario no está necesariamente implicado. La regresión lineal univariante considera el caso particular en que se pretende conocer la relación lineal entre dos variables, y postula que la relación entre el valor i de la variable predictora (ξ) y el valor i de la variable respuesta (η) se expresa:4-6 ηi = β 0 + β1ξ i (2.1) donde β 0 y β1 son la ordenada en el origen y la pendiente que definen la recta que relaciona las variables predictora y respuesta reales. Sin embargo, debido a que experimentalmente no pueden obtenerse exactamente los valores de las variables reales ξi y ηi, únicamente se puede utilizar una estimación de dichas variables (xi e yi respectivamente). La relación entre los valores verdaderos y los experimentales de los coeficientes de regresión puede expresarse de la siguiente manera:7 xi = ξ i + δ i (2.2) y i = ηi + γ i (2.3) 13 2. Fundamentos teóricos donde δi y γi representan los errores aleatorios asociados a la medida de las variables observables, de manera que: δ i ~ N(0, σ 2xi ) y γ i ~ N(0, σ 2yi ) ,5 donde N indica que las variables siguen una distribución con las medias y varianzas indicadas dentro del paréntesis, tal como se verá posteriormente en la sección 2.3.1. Introduciendo estas ecuaciones en la ecuación 2.1, y aislando la variable yi se obtiene la siguiente expresión:4,8,9 yi = β 0 + β1 xi + ε i (2.4) Esta ecuación representa la ecuación de la recta de regresión verdadera a partir de los valores experimentales de las dos variables. El término εi es el error residual verdadero del i-ésimo punto cumpliendo ε i ~ N(0, σ ε2i ) ,10 y que puede expresarse como función de las variables γi, β1 y δi.5 ε i = γ i − β1δ i (2.5) De esta forma, las variables observadas se relacionan entre sí de la siguiente forma: yi = b0 + b1 xi + ei (2.6) donde ei es el error residual del punto i, mientras que b0 y b1 son la ordenada en origen y la pendiente que definen la recta de regresión que relaciona entre sí las variables observadas. Debido a la simplicidad de su utilización, la ecuación anterior también puede presentarse en forma matricial: y = Xb + e 2 1 y n 14 X n 1 1 b = (2.7) 2 + e n 2.2 Regresión lineal donde el vector y, de dimensión n contiene los valores de la variable respuesta, mientras que la matriz X, de dimensión nx2, la forman: una primera columna de unos y una segunda con los valores de la variable predictora. El vector b, de dimensión 2, representa los dos coeficientes de regresión, y e es un vector de dimensión n que incluye los valores de los residuales de la variable respuesta. El uso de matrices tiene una serie de ventajas, de forma que cuando un problema de regresión se soluciona en forma matricial, la solución puede aplicarse a cualquier problema de regresión sin tener en cuenta el número de términos que incluya. Para encontrar las estimaciones de los coeficientes de la recta que relaciona las variables reales, se han desarrollado una gran cantidad de métodos. Algunos de ellos se describen a continuación. 2.2.1 Métodos que consideran los errores en una sola variable La calibración es uno de los pasos que, generalmente, deben aplicarse en un análisis químico, y suele asociar a la variable predictora la concentración de los patrones de calibrado, y a la variable respuesta los valores de la medida instrumental. Generalmente, el error asociado a la preparación de los patrones es mucho menor que el asociado a la medida instrumental. Por este motivo, se suelen utilizar técnicas de regresión lineal univariantes que únicamente consideran los errores asociados a la variable respuesta. De los métodos de regresión que consideran los errores en una sola variable hay que destacar los métodos de mínimos cuadrados ordianarios (ordinary least squares, OLS) y mínimos cuadrados ponderados (weighted least squares, WLS) que se explican a continuación. 2.2.1.1 Mínimos cuadrados ordinarios (OLS) Se considera que el método de mínimos cuadrados ordinarios se descubrió independientemente por Carl Friedrich Gauss y Adrien Marie Legendre, que Gauss lo utilizó antes de 1803 y que la primera publicación corresponde a 15 2. Fundamentos teóricos Legendre el año 1805. Por este motivo, el descubrimiento del método de OLS ha llevado siempre asociada una dura controversia.11-14 Rigurosamente, para poder utilizar el método de OLS, deben cumplirse las siguientes condiciones:15 - El error, expresado en términos de varianza, para cada valor de la variable respuesta debe ser mucho mayor que el correspondiente a la varianza de la variable predictora multiplicado por el cuadrado de la pendiente. σ 2yi >> σ 2xi b12 ⇒ σ 2xi ≈ 0 (2.8) - Las varianzas de los valores de la variable respuesta deben ser constantes a lo largo de todo el intervalo de linealidad (homoscedasticidad). σ 2yi = σ 2y j ∀i, j (2.9) - Los errores asociados a la variable respuesta deben ser mutuamente independientes. Si se cumplen estas condiciones, los valores de la ordenada en el origen y la pendiente obtenidas mediante el método de OLS dan lugar a las estimaciones más precisas no sesgadas de la ordenada en el origen y de la pendiente.4,16,17 Para encontrar las expresiones de la ordenada en el origen y la pendiente, el método de OLS minimiza la suma de los cuadrados de los residuales de los puntos experimentales a la recta de regresión: n S= ∑ i =1 ei2 = n n i =1 i =1 ∑ ( yi − yˆ i )2 = ∑ ( yi − b0 − b1 xi )2 (2.10) El cálculo de los coeficientes de regresión, consistirá en igualar a cero las derivadas parciales de S respecto a la ordenada y la pendiente: n ∂ 2 ( yi − b0 − b1 xi ) = 0 ∂b0 i =1 ∑ 16 (2.11) 2.2 Regresión lineal n ∂ 2 ( yi − b0 − b1 xi ) = 0 ∂b1 i =1 ∑ (2.12) Desarrollando las expresiones 2.11 y 2.12 se obtienen las estimaciones de la ordenada en el origen y de la pendiente de la recta de regresión de OLS: n n ∑ ∑ xi2 b0 = i =1 yi − i =1 n n ∑ i =1 b1 = n ∑ ∑x y xi i i =1 x − 2 i n n n ∑ n ∑ i =1 xi y i − i =1 n n ∑ i =1 = y − b1 x xi n ∑ ∑y x − (2.13) n xi i =1 2 i i i =1 2 i i =1 n ∑ i =1 xi (2.14) 2 donde x e y representan el valor medio de las variables predictora y respuesta respectivamente y el punto ( x, y ) corresponde al centroide de la recta de regresión, que tiene la propiedad de pertenecer a la recta OLS. Mediante la expresión matricial (ecuación 2.15), OLS permite encontrar los coeficientes de regresión: b = ( X' X) −1 X' y (2.15) Si los errores son independientes y se cumple que ε i ~ N(0, σ ε2i ) , b es una solución de máxima verosimilitud, es decir, que minimizar la suma del cuadrado de los residuales es equivalente a maximizar la función de probabilidad: n M= n ∏ i =1 −1 / 2 σ 2 ∑ ε i2 2 2 1 1 i =1 e −εi / 2 σ = e σ(2π)1 / 2 σ n ( 2 π) n / 2 (2.16) 17 2. Fundamentos teóricos 2.2.1.2 Mínimos cuadrados ponderados (WLS) En ciertos casos algunas de las observaciones instrumentales asociadas a algunos puntos experimentales en regresión lineal son más fiables que otras. Esta característica del conjunto de datos implica que los errores asociados a la variable respuesta no son siempre iguales, o lo que es lo mismo, se debe considerar heteroscedasticidad en la variable respuesta. El método de WLS permite la existencia de heteroscedasticidad en la variable respuesta, si bien los errores entre sus valores no pueden estar correlacionados.15,18 El método WLS minimiza la suma de los cuadrados de los residuales ponderados expresados de la siguiente forma: S= n ∑ i =1 n ( yi − b0 − b1 xi ) ei2 = wi i =1 wi ∑ 2 (2.17) donde wi (factor de ponderación) se corresponde con la varianza experimental asociada a cada punto en la variable respuesta ( s 2yi ). De esta forma, tienen más influencia sobre la recta aquellos puntos cuyos errores en la variable respuesta sean menores. Procediendo de la misma forma que en OLS, se obtienen las expresiones de la ordenada en el origen y de la pendiente: xi2 ⋅ wi n b0 = ∑ i =1 n ∑ i =1 ∑ i =1 i =1 n ∑ i =1 1 ⋅ wi n ∑ i =1 18 yi − wi ∑ 1 ⋅ wi n b1 = n n ∑ i =1 x − wi 2 i n ∑ i =1 1 ⋅ wi xi ⋅ wi n ∑ i =1 xi y i − wi n ∑ i =1 n i =1 xi wi n ∑ i =1 x − wi 2 i yi ∑w i 2 xi ⋅ wi n ∑ i =1 = y p − b1 x p n ∑ i =1 xi wi xi y i wi 2 (2.18) (2.19) 2.2 Regresión lineal donde x p y y p son la media ponderada de las variables predictora y respuesta respectivamente: n xp = i =1 n i ∑ 1 wi n yi i =1 yp = xi ∑w ∑w i =1 n ∑ i =1 i 1 wi (2.20) (2.21) ( x p , y p ) definen el centroide ponderado, punto por el que pasa la recta de regresión obtenida mediante el método WLS. Utilizando la notación matricial, la estimación de los coeficientes de regresión pueden encontrarse según la siguiente ecuación: b = ( X' V −1 X) −1 X' V −1y (2.22) donde V es una matriz diagonal de dimensión nxn, que incluye los valores de la varianza experimental de la variable respuesta ( s y2i ). 2.2.2 Métodos que consideran los errores en dos variables Las hipótesis necesarias para utilizar los métodos de OLS y WLS no siempre se cumplen. Así, por ejemplo, debido a los avances tecnológicos, cada vez es más fácil encontrar casos en que el error asociado a la medida instrumental ha disminuido tanto que su valor no puede despreciarse frente al asociado a la preparación de patrones. Esto ocurre, por ejemplo, en análisis que utilizan técnicas de absorción o emisión atómica19 pues tienen asociado un error que en muchos casos es al menos comparable al asociado a la preparación de los patrones. Existen otras técnicas analíticas, como por ejemplo la fluorescencia de rayos X,20 donde 19 2. Fundamentos teóricos debido a la complejidad de las muestras reales (por ejemplo muestras geológicas), la recta de calibración se suele construir utilizando materiales de referencia certificados del analito de interés en vez de los patrones puros. En este caso, cada material de referencia presenta un error asociado a la concentración,21-24 cuyo valor normalmente no es despreciable frente a los errores asociados a la respuesta instrumental. Otro caso similar son los análisis que se basan en las técnicas de datación por radiocarbono,25,26 donde los errores asociados a la variable predictora suelen ser grandes y, por tanto, difícilmente despreciables frente a los cometidos en la variable respuesta. Esto mismo ocurre al utilizar la regresión lineal para realizar una comparación de métodos analíticos a diferentes niveles de concentración, pues al representar los resultados de analizar una serie de muestras con dos métodos diferentes, los errores asociados a cada uno de ellos suelen ser de un orden de magnitud similar. Por este motivo, en estos casos es necesario utilizar técnicas de regresión que consideran los errores asociados a las dos variables.4,5 Si se utiliza el método de mínimos cuadrados para obtener la recta de regresión sobre alguno de estos casos en que los errores en la variable predictora son, al menos, del mismo orden de magnitud que en la variable respuesta, los coeficientes de regresión se obtendrán sesgados. Este sesgo vendrá determinado por el factor entre el valor verdadero y observado de la varianza de la variable predictora. Este factor se llama coeficiente de fiabilidad y se define según la siguiente expresión: k xi = σ 2xi s x2i (2.23) Por este motivo se han desarrollado una serie de técnicas para encontrar la recta de regresión teniendo en cuenta los errores cometidos en las dos variables. Dichos métodos se han clasificado en dos grupos dependiendo del proceso seguido para obtener sus coeficientes. El primero de ellos son métodos de máxima verosimilitud, mientras que el segundo lo conformarán los métodos de mínimos cuadrados. 20 2.2 Regresión lineal 2.2.2.1 Estimaciones por máxima verosimilitud Una estimación por máxima verosimilitud pretende encontrar los coeficientes de regresión con máxima probabilidad de ser iguales a los verdaderos. Para ello estos estimadores maximizan la función de probabilidad de los coeficientes. De esta forma, las predicciones de la variable respuesta serán aquellas que presenten una máxima probabilidad de ser iguales a las verdaderas. Los métodos de máxima verosimilitud asumen que las dos variables son inobservables y que se pueden medir solo aquellas que están afectadas por errores aleatorios. En este sentido, pueden distinguirse, básicamente, tres tipos de modelos con errores en las medidas dependiendo de las asunciones realizadas sobre los valores de la variable predictora:5,27 - Modelo funcional, que supone los valores de la variable predictora ( ξi ) como constantes desconocidas. - Modelo estructural, que considera los valores de la variable predictora como variables aleatorias independientes distribuidas idénticamente e independientes de sus errores experimentales. - Modelo ultraestructural,5,28 que asume que los valores de la variable predictora son variables aleatorias independientes (como en el modelo estructural), pero no distribuidas idénticamente, además de tener la posibilidad de poseer diferentes medias ( µ i ) y una varianza común ( σ 2 ). De entre los modelos presentados, los funcionales son los más apropiados para el caso del análisis químico, pues los valores de la variable predictora (concentraciones en el caso de una calibración o resultados analíticos en el caso de una comparación de métodos), suelen asociarse con valores desconocidos correspondientes a los diversos niveles de concentración de los analitos. Por este motivo, en adelante trataremos con detenimiento el caso del modelo funcional dejando de lado los otros dos modelos descritos. 21 2. Fundamentos teóricos En la bibliografía se encuentran seis asunciones que pueden realizarse con el fin de encontrar la recta de máxima verosimilitud en el caso de tener en cuenta los errores en las dos variables. Estos son: a) La relación de los errores de las varianzas ( λ = σ 2xi σ 2yi ) es conocida. b) El coeficiente de fiabilidad ( k xi ) es conocido. c) σ 2xi son conocidas. d) σ 2yi son conocidas. e) Los valores de las varianzas de las dos variables σ 2xi y σ 2yi son conocidas. f) La ordenada en el origen ( β 0 ) es conocida. Existe cierta confusión en la bibliografía acerca de la consistencia de las estimaciones de máxima verosimilitud para el modelo funcional. En el caso en que se conoce la relación de las varianzas (caso a), el estimador de los coeficientes de regresión es consistente. Sin embargo, el estimador de una varianza desconocida no lo es. En los casos c y d las estimaciones de máxima verosimilitud fallan en la consistencia de los parámetros encontrados. El motivo principal es que las estimaciones de máxima verosimilitud tienen problemas cuando el número de parámetros de incidencia aumenta con el tamaño de muestra. Por este motivo, la consistencia de los resultados se puede considerar como un efecto aleatorio en el caso de conocer la relación de las varianzas en las dos variables.5 En el caso de conocerse las varianzas asociadas a las dos variables (caso e) es equivalente al ya comentado de conocerse la relación entre las mismas. La única diferencia consistiría en que en el último caso no deberá estimarse ninguna de las varianzas experimentales. El caso b en el que se supone conocido el factor de fiabilidad es un caso que no tiene demasiado sentido en el caso del modelo funcional, pues la fiabilidad no está bien definida para este tipo de modelo. Esta situación se resolvió cuando Gleser29 introdujo una definición más general de la fiabilidad. El último caso (caso f) en que se conoce la ordenada en el origen también conduce a estimaciones no consistentes, que únicamente podrían serlo bajo el modelo 22 2.2 Regresión lineal estructural, del que ya se ha comentado que queda fuera de los objetivos de la presente Tesis Doctoral. A continuación se estudia la regresión bajo las asunciones en que el modelo funcional obtiene estimaciones consistentes de máxima verosimilitud, que son aquellas en que se conoce la relación de las varianzas de las variables predictora y respuesta, y cuyos resultados son equivalentes a utilizar el modelo estructural. A esta regresión se la conoce como relación constante de varianzas. Método de la relación constante de varianzas (constant variance ratio, CVR). El problema de la regresión lineal cuando se consideran los errores en las variables predictora y respuesta data de finales del siglo XIX, siendo Adcock30,31 la primera persona que trató el problema de la regresión cuando se consideran los errores en ambas variables. El método desarrollado por Adcock suponía que las varianzas de las variables predictora y respuesta son iguales y es conocido como el método de la regresión ortogonal (orthogonal regression, OR). Este método se ha reinventado en varias ocasiones y en diversas disciplinas.32-35 Entre estos redescubrimientos el método de la regresión ortogonal también se ha renombrado de diversas maneras, tales como regresión de la distancia ortogonal (orthogonal distance regression, ODR)36 o como método de mínimos cuadrados totales (total least squares, TLS)37,38. Más adelante Kummel39 (1879) extendió los resultados de Adcock al caso en que se conoce la relación entre las varianzas. Esta extensión se conoce por el nombre de método de la relación constante de varianzas (constant variance ratio, CVR). La relación entre las varianzas experimentales de las variables respuesta ( s 2yi ) y predictora ( s x2i ) se representa por la siguiente expresión: λ= s y2i s x2i (2.24) En el caso particular de la regresión ortogonal, la relación entre las varianzas es la unidad, y por tanto se cumple que λ=1. Una de las principales aplicaciones de la recta de regresión obtenida mediante el método de OR es que ésta coincide con el primer componente principal en el análisis por componentes principales (PCA, principal component analysis).17 23 2. Fundamentos teóricos Debido a que el método de CVR es un método de máxima verosimilitud con los errores de la variable predictora siguiendo un modelo funcional, para encontrar los coeficientes de la recta de regresión se deberá maximizar la función de probabilidad M: n − −1 M ∝ λ 2 σ −x 2 n exp 2 2σ x n ∑ (x i − ξi ) 2 + i =1 n ∑(y i =1 i − β 0 − β1ξ i ) 2 (2.25) donde el símbolo de proporcionalidad aparece debido a que se ha omitido la constante de normalización. En el caso de la regresión ortogonal, a partir de las ecuaciones 2.2 y 2.3 puede observarse cómo maximizar la función de probabilidad es equivalente a minimizar la suma del cuadrado de las distancias ortogonales de cada uno de los puntos a la recta de regresión. Las expresiones de la ordenada en el origen y la pendiente (donde se asume que la correlación entre la variable predictora y la variable respuesta es nula) obtenidas según la aproximación desarrollada por Mandel40 son las siguientes: b1 = S yy − λ S xx + (S yy − λ S xx )2 + 4 λ S xy2 2S xy b0 = y − b1 x (2.26) (2.27) donde Sxx, Sxy y Syy son sumatorios de los datos experimentales: n S xx = ∑ (x − x ) 2 i (2.28) i =1 n S yy = ∑ (y − y) 2 i (2.29) i =1 n S xy = ∑ (x − x)(y i i =1 24 i − y) (2.30) 2.2 Regresión lineal 2.2.2.2 Estimaciones por mínimos cuadrados Algunos autores han desarrollado procedimientos para estimar los coeficientes de la recta de regresión basados en una aproximación de máxima verosimilitud cuando están presentes errores en las dos variables.4,6,41,42 En la mayoría de los casos, estos métodos requieren modelar cuidadosamente la variable predictora.41 Sin embargo, esta situación no suele ser posible en análisis químicos, donde los valores verdaderos de la variable predictora ( ξi ) no se suelen distribuir aleatoriamente (es decir, se asumen modelos funcionales5). Además, existen casos en los que el comportamiento de los datos experimentales es heteroscedástico, y las estimaciones de los errores de medida únicamente pueden obtenerse a partir de réplicas en el análisis (es decir que la relación σ xi σ yi es no constante, o incluso desconocida). Estas condiciones, comunes en los datos químicos, hacen muy complicada la aplicación rigurosa del principio de máxima verosimilitud para estimar los coeficientes de la recta de regresión. Por otra parte, Sprent10 presentó un método para estimar los coeficientes de la recta de regresión utilizando una aproximación de máxima verosimilitud, incluso considerando el modelo como funcional. Sin embargo este método no es rigurosamente aplicable cuando se consideran los errores heteroscedásticos individuales en cada punto experimental. Además, puede comprobarse que cuando se asume σ xi = λσ yi para cada valor de i, los métodos basados en la aproximación de mínimos cuadrados obtienen los mismos resultados de los coeficientes de regresión que los basados en el principio de máxima verosimilitud.43 Por todas estas razones, para llevar a cabo este trabajo, se ha elegido un método iterativo basado en la aproximación de mínimos cuadrados, ya que éstos métodos pueden utilizarse sobre cualquier conjunto de datos sin hacer asunciones acerca de las distribuciones de probabilidad que tienen asociados.43 Esto permite la aplicación de este método en casos químicos reales cuando se consideran los errores individuales heteroscedásticos en las variables predictora y respuesta. De todos los métodos de regresión que consideran los errores heteroscedásticos en las dos variables basados en el principio de mínimos cuadrados44-52 el seleccionado para este trabajo es el método de Lisý, también conocido como método BLS53,54, debido sobretodo a su rapidez en la correcta 25 2. Fundamentos teóricos obtención de los coeficientes de regresión (la matriz varianza-covarianza se obtiene de una forma sencilla), así como a la simplicidad de la programación del algoritmo. 2.2.2.3 Método de mínimos cuadrados bivariantes (bivariate least squares, BLS). El método de BLS considera que las variables experimentales xi e yi se expresan como función de las variables predictora y respuesta reales según las ecuaciones 2.2 y 2.3. El término ei es el valor residual que aparece en la ecuación 2.6 y se define como el error individual asociado al punto i del conjunto de datos. La varianza de ei es se2i y se considerará a partir de ahora como factor de ponderación (wi). En el método BLS, este parámetro considera las varianzas de cada punto individual en las dos variables ( s x2i y s 2yi ) obtenidas a partir de réplicas del análisis. La covarianza entre las variables para cada punto (xi, yi), que normalmente se asume que es nula, también se considera: wi = se2i = s 2yi + b12 s x2i − 2b1 cov( xi , yi ) (2.31) El método de regresión de BLS encuentra las estimaciones de los coeficientes de regresión minimizando la suma de los residuales ponderados, S, expresados en la ecuación 2.32: S= n ( xi − xˆ i ) 2 ( y i − yˆ i ) 2 n ei2 + = = 2 s y2i i =1 wi s xi ∑ i =1 ∑ n ∑ i =1 ( y i − yˆ i ) 2 =(n − 2) s 2 (2.32) wi donde n es el número de datos experimentales, x̂i e ŷi representan el valor predicho para los valores xi e yi experimentales y s 2 es la estimación de la varianza experimental. Minimizando la suma de los residuales ponderados, expresados en la ecuación 2.32, con respecto a la ordenada en el origen y a la pendiente, e incluyendo las derivadas parciales de los cuadrados de los residuales, se obtienen dos ecuaciones no lineales, que se expresan: 26 2.2 Regresión lineal n i =1 n i =1 n ∑ 1 wi ∑ ∑ xi wi ∑ i =1 n i =1 2 n yi + 1 ei ∂ wi xi wi b0 i =1 wi 2 wi ∂b0 × = xi2 b1 n x y 1 e 2 ∂ w i i i + i wi 2 wi ∂b1 i =1 wi ∑ (2.33) ∑ o en forma matricial: R ⋅b = g (2.34) Aislando el vector b de la ecuación 2.34, se obtiene la ecuación 2.35 para calcular los valores de la ordenada en el origen y la pendiente de la recta de regresión que considera los errores individuales en las variables predictora y respuesta: b = R −1 ⋅ g (2.35) El término wi, correspondiente al factor de ponderación (que aparece en las matrices g y R-1) incluye la pendiente de la recta de BLS. Por este motivo, con el fin de calcular los coeficientes de regresión utilizando el método de BLS se necesita resolver un proceso iterativo. Este proceso, tal como se ha indicado con anterioridad es fácil de programar y converge rápidamente. Además, mediante la multiplicación de la matriz R-1 por la estimación del error experimental ( s 2 en la ecuación 2.32), se obtiene de forma sencilla la matriz varianza-covarianza de los coeficientes de regresión. De esta forma, las desviaciones estándar de la ordenada en el origen y la pendiente se calculan como se detalla en las ecuaciones 2.36 y 2.37 respectivamente: n sb20 = ∑ i =1 n ∑ i =1 1 ⋅ wi n ∑ i =1 xi2 wi x xi − wi i =1 wi 2 i n ∑ 2 ⋅ s2 (2.36) 27 2. Fundamentos teóricos n sb21 = 1 ∑w i =1 n ∑ i =1 1 ⋅ wi n ∑ i =1 i x xi − wi i =1 wi 2 i n ∑ 2 ⋅ s2 (2.37) Otra característica importante del método BLS es que la recta de regresión no varía al hacer un intercambio entre los ejes. Este hecho tiene una importancia particular en procesos de comparación de dos métodos analíticos mediante regresión lineal, donde la decisión acerca de si los dos métodos estudiados son o no comparables, no debería verse influida por el método analítico que se asigna a cada eje. Por tanto, la invariabilidad respecto al intercambio de ejes del método BLS, permite concluir que la asignación de uno u otro método como variable respuesta o predictora carece de importancia, pues las conclusiones extraídas tras el uso de la recta BLS coinciden exactamente en los dos casos. En el Anexo 1 de la Tesis Doctoral está desarrollado el proceso de transformación de las expresiones de cálculo de la ordenada en el origen y de la pendiente de la recta BLS en las expresiones del cálculo de los coeficientes de regresión de WLS y OLS. Para ello, en primer lugar se han supuesto nulos los errores asociados a la variable predictora (condiciones WLS) y a continuación se ha añadido la necesidad de homoscedasticidad en la variable respuesta (condiciones OLS). De esta forma se comprueba que cuando el conjunto de datos cumple las condiciones requeridas por WLS y OLS, los resultados de utilizar la recta BLS son coincidentes con los obtenidos al utilizar los otros dos métodos. 2.2.3 Aplicaciones de la regresión lineal considerando los errores en las variables predictora y respuesta Existen una serie de aplicaciones dentro del campo de la química analítica, que utilizan la regresión lineal como herramienta. A su vez hay una parte de estas técnicas que requieren que la regresión lineal sea utilizada considerando los errores experimentales cometidos en las variables predictora y respuesta (tal como hace el método BLS). A continuación se presentan una serie de aplicaciones 28 2.2 Regresión lineal donde deben considerarse los errores cometidos en ambas variables al utilizar la regresión lineal. 2.2.3.1 Calibración lineal La calibración metodológica es uno de los procesos más importantes en el análisis químico. Unas buenas precisión y exactitud sólo pueden obtenerse si, entre muchos otros procesos, se utiliza un buen procedimiento para llevar a cabo la calibración. En una calibración, generalmente se busca la relación entre la concentración de patrones (representada en el eje de abscisas) y la medida instrumental (generalmente representada en el eje de ordenadas). Esta es quizás la aplicación de la regresión lineal donde es menos necesario considerar los errores en las dos variables, pues considerar únicamente los errores en la variable respuesta supone considerar la concentración libre de error. Esta es una suposición generalmente aceptada, pues los errores asociados a la medida experimental suelen ser claramente superiores a los asociados a los patrones. Sin embargo hay una serie de casos en los que esta suposición no se puede hacer dentro de los procesos de calibración. Algunos de los casos ya se han especificado, y se corresponden, por ejemplo, con aquellos análisis en los que la variable predictora la definen materiales de referencia certificados (como por ejemplo en análisis de muestras de origen geológico por medio de fluorescencia de rayos X)20, aquellos análisis en que la respuesta instrumental tiene un error muy pequeño debido a los avances técnicos en el proceso de medida, o aquellos procesos de datación por radiocarbono, en que los patrones suelen ser bastante inestables con el tiempo. 2.2.3.2 Comparación de métodos La comparación de métodos analíticos a diversos niveles de concentración es otra de las aplicaciones de la regresión lineal más utilizadas. En este caso se construye la recta de regresión entre los resultados de los dos métodos analíticos en comparación, y comparando sus coeficientes de regresión con los teóricos de ordenada en el origen cero y de pendiente unitaria, se concluye si los métodos comparados son o no equivalentes. La comparación de métodos es la 29 2. Fundamentos teóricos aplicación de la regresión lineal donde la utilidad de considerar los errores en las dos variables es más clara, pues generalmente los dos métodos en comparación presentan errores que son, cuando menos, del mismo orden de magnitud. 2.3 Distribución de la población de una medida experimental La extracción de información de los datos generalmente empieza con una descripción de los datos obtenidos experimentalmente.17 En muchas ocasiones estos resultados forman parte de una población, y la razón de hacer las medidas experimentales es intentar deducir alguna de las características de esta población, ya sea la media o la desviación estándar, por ejemplo. En otras ocasiones se pretende conocer si los datos siguen una distribución, ya sea la distribución normal u otra distribución cualquiera. Otra aplicación de estudiar la población de los datos es la detección de puntos discrepantes en los resultados experimentales. Aquellos casos en que se desconocen los parámetros estadísticos que definen la población de los datos forman parte de la estadística no paramétrica. En muchas ocasiones, los tests realizados sobre un conjunto de datos experimentales requieren del conocimiento de parámetros estadísticos referidos a la población de los datos. De esta manera se justifica la necesidad de conocer la población a la que pertenece un conjunto de medidas experimentales. En una determinación analítica, debido al error aleatorio, se obtiene un grado de dispersión de los resultados del análisis. Estos resultados pueden considerarse como una población de datos. Como objetivo de los análisis, normalmente se pretenden conocer el valor medio y la desviación estándar de la población definida por los resultados. La media para conocer el valor real de una muestra y la desviación estándar para conocer la precisión de la determinación. Estos dos parámetros se consideran los parámetros de la muestra. Para resumir las características de una distribución, pueden utilizarse los momentos. El r-ésimo momento de un conjunto de datos (x1, ... , xn) se calcula de la siguiente forma: 30 2.3 Distribución de la población de una medida experimental n ∑x mro = r i i =1 (2.38) n El r-ésimo momento centrado o sobre la media del mismo conjunto de datos se calcula de igual forma pero sustituyendo el valor xi por su resta respecto a la media: n ∑ (x − x ) r i mr = i =1 n (2.39) El r-ésimo momento adimensional centrado se define como: ar = mr m = rr r sdist m2 (2.40) donde sdist es la desviación estándar de la distribución definida como la raíz cuadrada del momento centrado de orden 2. De esta forma, el primer momento de un conjunto de datos ( m1o ) es igual a la media, mientras que el primer momento centrado (m1) es igual a cero. El segundo momento centrado de cualquier distribución es la varianza de la misma: n ∑ (x − x ) 2 i m2 = i =1 n 2 = s dist (2.41) El tercer momento centrado es una medida de la asimetría (skeewness) de la distribución.16,17 El tercer momento centrado se utiliza en su forma adimensional; por tanto, el coeficiente de asimetría se expresa de la siguiente forma: 31 2. Fundamentos teóricos xi − x m3 i =1 s dist = a3 = n m23 n ∑ 3 (2.42) Se dice que una distribución es simétrica si la media, la mediana y la moda son iguales (a3=0). Una distribución con una cola más larga por la derecha que por la izquierda hace que la media sea mayor que la mediana y ésta mayor que la moda, entonces se dice que dicha distribución tiene un coeficiente de asimetría positivo. En el caso en que la cola mayor esté a la izquierda, se dirá que la distribución posee un coeficiente de asimetría negativo.16,17 Una gráfica en la que se visualiza esta diferencia se representa en la figura 2.1. Simétrica a3=0 Positiva a3>0 Negativa a3<0 Figura 2.1.- Visualización de una asimetría positiva (media menor que la moda) y negativa (media mayor que la moda). El cuarto momento centrado adimensional se usa como una medida del aplastamiento de la distribución (kurtosis): xi − x m4 i =1 s dist a4 = 2 = m2 n n ∑ 4 (2.43) El aplastamiento da idea de la distribución de las observaciones alrededor de la media y permite apreciar si la distribución estudiada es llana o con forma de pico.16,17 Un ejemplo de la influencia del cuarto momento centrado adimensional de 32 2.3 Distribución de la población de una medida experimental una distribución, sobre la altura de pico se encuentra en la figura 2.2, donde a4=3 se corresponde con una distribución normal. a4>3 a4=3 a4<3 Figura 2.2.- Influencia del cuarto momento centrado adimensional sobre el aplastamiento de la distribución. 2.3.1 Distribución normal o Gaussiana La distribución de probabilidad más conocida es la distribución normal.17 En notación corta se escribe: 2 ) x ~ N (µ dist , σ dist (2.44) Esto quiere decir que los valores de la población x se distribuyen según 2 . La función de la densidad una distribución normal con media µdist y varianza σ dist de probabilidad de una distribución normal es: M ( x) = 1 σ dist 1 x − µ dist exp − 2 2π σ dist 2 (2.45) El teorema del límite central es uno de los teoremas más importantes dentro del campo de la matemática estadística. Este teorema nos dice que la suma 33 2. Fundamentos teóricos de n variables independientes de media µi y varianza σ i2 (donde i es un valor comprendido entre 1 y n) sigue una distribución normal con media varianza ∑σ 2 i ∑µ i y , cuando n tiende a infinito. Este resultado es importante para el campo de la química analítica pues explica porqué las distribuciones de los errores suelen tender aproximadamente a la distribución normal. Esto se debe a que, en general, el error total se puede expresar como una función de muchas componentes de error. Una condición importante es que todas las componentes de error tengan un peso de similar orden de magnitud entre sí. 2.4 Tests estadísticos para la comprobación de la normalidad de una distribución La mayoría de los tests estadísticos utilizados en el campo de la química se basan en la asunción de la normalidad en la distribución de los datos. Sin embargo las distribuciones pueden no ser normales, en cuyo caso se dispone de diversos tests que permiten detectar las desviaciones de la normalidad en una distribución de datos. En la bibliografía se encuentran indicaciones sobre la desviación de la normalidad de las distribuciones asociadas a la ordenada en el origen y a la pendiente cuando se consideran los errores en las variables predictora y respuesta,55 pero sin especificar el grado de desviación respecto a la normalidad. Para estudiar la normalidad de las distribuciones asociadas a los coeficientes de regresión de la recta BLS, así como su grado de desviación en el caso que su comportamiento difiera de la normalidad, se utilizarán los tests estadísticos que se explican a continuación. 2.4.1 Test de normalidad en Cetama Este test de normalidad56 permite, no sólo decidir si una distribución es o no normal, sino que permite encontrar parámetros de su distribución, tales como la media, la mediana o la ecuación de su distribución. Para ello, este test utiliza los 34 2.4 Tests estadísticos para la comprobación de la normalidad coeficientes de Pearson y Fisher, que son función de los momentos centrados de orden dos, tres y cuatro (mi, i=2-4): ϕ1 = m3 m = 3 3 = a3 3/ 2 m2 sdist (2.46) ϕ2 = m4 − 3 = a4 − 3 m22 (2.47) sdist es la desviación estándar de la distribución. Los coeficientes ϕ1 y ϕ2 son los coeficientes de Fisher. El primer coeficiente de Fisher es un coeficiente de asimetría (skeewness). El segundo coeficiente de Fisher se llama coeficiente de aplastamiento (kurtosis). Los coeficientes de Fisher se pueden reemplazar por los coeficientes de Pearson (π1 y π2) según las siguientes expresiones: m32 = ϕ12 m23 (2.48) m4 = ϕ2 + 3 m22 (2.49) π1 = π2 = Según los valores de los coeficientes de Fisher o de Pearson pueden caracterizarse todas las distribuciones posibles. Un caso concreto es la distribución normal en la que se cumple que los coeficientes de Fisher son nulos. Los coeficientes de Fisher ϕ1 y ϕ2 se estiman por medio de f1 y f2: f1 = f2 = k3 k 23 k4 k 22 (2.50) (2.51) Los coeficientes de Pearson pueden estimarse por p1 y p2: 35 2. Fundamentos teóricos p1 = f12 = k 32 (2.52) k 23 p2 = f 2 + 3 (2.53) donde los coeficientes k2, k3 y k4 se calculan de la siguiente forma: k2 k3 = m ∑ (x = − x) 2 i ∑ (x − x) 3 i (m − 1)(m − 2) k4 = = (m − 1) = m2 ∑ (x m(m + 1) m ∑ x − (∑ x ) 2 2 i m(m − 1) ∑x 3 i − 3m 2 = s dist ∑x ∑x 2 i i +2 m(m − 1)(m − 2 ) (2.54) (∑ x ) 3 i [∑ (x − x ) ] − x ) − 3(m − 1) 4 i i (m − 1)(m − 2)(m − 3) (2.55) 2 2 i (2.56) donde xi se refiere a cada uno de los m puntos de la distribución que se desea estudiar, y sdist representa la estimación de la desviación estándar real de la distribución de cada uno de los coeficientes de regresión ( σ dist ). 2.4.2 Test de Kolmogorov Existen dos modalidades del test: la gráfica y la numérica.57 En este trabajo se ha utilizado la segunda debido sobretodo a la sencillez a la hora de programar su algoritmo.58 Además, ya se utiliza otro test de tipo gráfico (sección 2.4.3) y, aunque los tests gráficos son más sensibles a posibles desviaciones de la normalidad, su información es menos concreta y más difícil de interpretar que la obtenida por los tests numéricos. El test evalúa la normalidad de una distribución, mediante la comparación de los datos experimentales con unos datos teóricos tabulados que dependen del número de datos y del nivel de significancia (α) que se acepta. Para realizar el test de Kolmogorov hay que seguir los siguientes pasos: 36 2.4 Tests estadísticos para la comprobación de la normalidad - En primer lugar se ordenan de forma ascendente los datos que conforman la distribución que se quiera estudiar en cada caso. - A continuación se calcula el valor de Di para cada uno de los valores experimentales a partir de la siguiente expresión: Di = N ( xi ) − i m (2.57) donde i es el orden del valor estudiado dentro de la secuencia ordenada (frecuencia), m es el número de puntos totales de la distribución, mientras que N(xi) es el valor correspondiente a la distribución normal acumulativa. - El siguiente paso es encontrar el valor máximo Dmáx de todos los Di, y una vez obtenido Dmáx, se debe comparar con los valores de D tabulados para un valor de α determinado. Si el valor Dmáx es mayor que el tabulado, se considera la distribución como no normal con una probabilidad dada por el valor α seleccionado. 2.4.3 Gráficos de probabilidad normal Es interesante utilizar como mínimo un test gráfico para la comprobación de la normalidad en los coeficientes de regresión de la recta BLS, ya que los tests de tipo gráfico son más sensibles frente a posibles desviaciones de la normalidad que los tests numéricos.59 Los gráficos de probabilidad normal (normal probability plots o test de Rankit),18,59 están diseñados para detectar las desviaciones de la normalidad de las distribuciones. En ellos se representan los residuales ordenados frente al orden estadístico normal con el tamaño apropiado para la muestra. Este orden lo forman los valores esperados de las observaciones ordenadas provenientes de una distribución normal con media cero y desviación estándar unitaria. Una línea recta en estos gráficos representa una distribución normal (figura 2.3), mientras que una desviación de la línea recta esperada indica la ausencia de normalidad en la distribución. Una distribución no simétrica (con skeewness) se representa por una curva cuya dirección la determina el sentido de la 37 2. Fundamentos teóricos 0.999 0.999 0.99 0.99 0.90 0.90 Probabilidad Probabilidad asimetría (figura 2.4). Una curva en forma de “S” da idea de una distribución de grandes colas o de colas muy pequeñas (distribución con aplastamiento o kurtosis) dependiendo de la dirección de la “S” (figura 2.5). Las distribuciones con grandes colas tienen relativamente mayores frecuencias en las observaciones extremas que la distribución normal, mientras que las distribuciones con colas pequeñas las tienen relativamente menores. El hecho de tener una distribución con colas pequeñas se puede deber a la aparición de algún punto discrepante o a la heterogeneidad de los errores en las dos variables. 0.50 0.10 0.50 0.10 0.01 0.01 0.001 0.001 -2 0 2 4 0 Datos experimentales 4 8 12 Datos experimentales Figura 2.3.- Representación del test de Rankit Figura 2.4.- Representación del test de Rankit para una distribución normal. para una distribución asimétrica. 0.999 0.99 Probabilidad 0.90 0.50 0.10 0.01 0.001 -1 -0.5 0 0.5 1 Datos experimentales Figura 2.5.- Representación del test de Rankit para una distribución con colas grandes. Un caso particular de los gráficos de distribución normal, la forman los gráficos de percentiles de la distribución (quantile-quantile plots)59 útiles para la caracterización de una distribución como una previamente conocida. El método representa los residuales ordenados de las dos distribuciones (generalmente una distribución problema y una de las teóricas), y por tanto, una línea recta en la 38 2.4 Tests estadísticos para la comprobación de la normalidad gráfica equivale a poder considerar la coincidencia entre las dos distribuciones comparadas. 2.5 Predicción en regresión lineal La etapa de predicción es una de las etapas más importantes dentro del proceso de utilización de la recta de regresión. Su uso más generalizado se da en procesos de calibración, donde la concentración de una muestra y su intervalo de confianza asociado se predicen a partir de un valor de la respuesta y su error experimental. Sin embargo, también se utilizan en procesos de comparación de métodos analíticos. En estos casos los resultados, y su intervalo de confianza asociado, que se obtendrían al analizar una muestra mediante un método ya establecido en un laboratorio (por ejemplo considerado de referencia), se predicen a partir de los obtenidos mediante un método de reciente implantación. De esta manera se podría comprobar si los resultados a cada uno de los niveles de concentración pueden considerarse como equivalentes o no utilizando los dos métodos. A continuación presentaremos las expresiones desarrolladas para el cálculo de la predicción considerando los errores en la variable predictora, tanto considerando la heteroscedasticidad en la variable respuesta como manteniendo la hipótesis de homoscedasticidad. 2.5.1 Intervalos de predicción considerando solamente los errores en la variable respuesta La predicción de la variable predictora a partir de un valor dado de la variable respuesta y viceversa, así como el cálculo de sus intervalos de predicción están ampliamente desarrollados en la bibliografía para el método de regresión OLS.15,60,61 El intervalo de predicción de la variable respuesta (y0) a partir de q réplicas de la variable predictora (x0) utilizando el método de OLS se obtiene con la siguiente expresión: 39 2. Fundamentos teóricos y = y 0 ± t α / 2,n−2 ⋅ s ( x − x) 2 1 1 + + n 0 q n ( xi − x ) 2 ∑ (2.58) i =1 La expresión del cálculo del intervalo de predicción para un valor considerado como verdadero (realizando infinitas réplicas) de la variable respuesta se correspondería con la misma expresión en la que se elimina el término 1/q ( q = ∞ ).62 y = y 0 ± t α / 2 ,n − 2 ⋅ s ( x − x) 2 1 + n 0 n ( xi − x ) 2 (2.59) ∑ i =1 Estas expresiones se encuentran de igual manera en su forma matricial.15 La ecuación 2.60 representa el intervalo de predicción de una muestra obtenida a partir de q réplicas de la variable predictora (x0), mientras que la ecuación 2.61 representa el intervalo de predicción de una muestra considerada como verdadera ( q = ∞ ): 1 −1 y = y 0 ± t α / 2 ,n − 2 ⋅ s + X′0 ⋅ (X′ ⋅ X ) ⋅ X 0 q (2.60) ( (2.61) y = y 0 ± t α / 2 ,n −2 ⋅ s X′0 ⋅ (X′ ⋅ X ) ⋅ X 0 −1 ) Los intervalos de predicción para la variable respuesta se representan por medio de las clásicas hipérbolas de confianza, tal como se ve en el ejemplo representado en la figura 2.6. 40 2.5 Predicción en regresión lineal 30 20 y 10 0 5 10 x 15 20 25 Figura 2.6.- Representación gráfica de los intervalos de predicción de la variable respuesta encontrados según el método OLS. La predicción de un valor de la variable predictora (x0) a partir de un valor dado de la variable respuesta (y0) es la llamada predicción inversa. El intervalo de predicción inversa se expresa de la siguiente forma:15 ( x0 − x) ⋅ g ± t α / 2,n −2 ⋅ s ⋅ (1 − g ) ⋅ b1 ( x − x) 2 n / q +1 + n 0 n ( xi − x ) 2 ∑ i =1 x = x0 + 1− g (2.62) donde el parámetro g se corresponde con: t α2 / 2,n − 2 g= b12 n s2 / ∑ (x i − x) 2 = t α2 / 2,n −2 b12 sb21 (2.63) i =1 Los intervalos de predicción encontrados a partir de la ecuación 2.62 no siempre son simétricos. Su simetría dependerá del valor del coeficiente g. El término g está relacionado con el test de significancia para la pendiente de la recta de regresión. Si dicho test es significativo al nivel α escogido (es decir, si b1 / sb1 > t α / 2,n − 2 ), se concluye que la pendiente es significativa y el parámetro g será 41 2. Fundamentos teóricos menor que 1. Si el test es altamente significativo (es decir g es suficientemente pequeño), puede eliminarse el parámetro g de la ecuación 2.62, y ésta se reduce a:15,63,64 x = x0 ± t α / 2,n−2 ⋅ s b1 ⋅ ( x − x) 2 1 1 + + n 0 q n ( xi − x ) 2 ∑ (2.64) i =1 que proporciona unos intervalos de predicción simétricos alrededor del punto x0. Los intervalos de predicción encontrados por medio de la regresión con el método OLS no son invariables ante un intercambio de los ejes. Esta conclusión es importante pues hay muchos casos en que la elección de la variable predictora y la variable respuesta no es trivial, mientras que los resultados derivados de la recta de regresión son diferentes según se haga la elección. Un ejemplo es la comparación de métodos analíticos, donde debería ser indiferente cual de los métodos se elija como variable respuesta y cual como variable predictora. Los intervalos de predicción de la variable respuesta a partir de q réplicas de una muestra de concentración x0, considerando heteroscedasticidad en la variable respuesta se pueden calcular utilizando el método de WLS: y = y 0 ± t α / 2,n−2 ⋅ s ⋅ w0 + q 1 n ∑ i =1 1 wi + ( x0 − x p ) 2 n ( xi − x p ) 2 wi i =1 ∑ (2.65) Teniendo en cuenta los errores heteroscedásticos en la variable respuesta se han desarrollado más métodos de cálculo de los intervalos de predicción de la variable respuesta que de la variable predictora. El método de regresión WLS es el más utilizado. La expresión del intervalo de predicción de la variable predictora (x0) a partir de q réplicas sobre un valor conocido de la variable respuesta (y0) utilizando el método de WLS es la siguiente: 42 2.5 Predicción en regresión lineal x = x0 ± t α / 2,n−2 ⋅ s b1 w0 + q ⋅ 1 n 1 wi ∑ i =1 + ( x0 − x p ) 2 n ( xi − x p ) 2 wi i =1 ∑ (2.66) Otros autores65,66 proponen métodos de cálculo alternativos que también consideran la heteroscedasticidad en la variable respuesta. La siguiente ecuación es un ejemplo: x = x0 ± t α / 2 , n + q −3 ⋅ s b1 ⋅ x0p + q 1 n ∑ i =1 1 wi + ( x0 − x p ) 2 n ( xi − x p ) 2 wi i =1 ∑ (2.67) donde p es la potencia del factor de ponderación (wi). En la bibliografía se definen diversos factores de ponderación que pueden utilizarse.67 A este método para calcular los intervalos de predicción se le conoce como método paramétrico aproximado (aproximate parametric method, APM). Otra de las propuestas es una solución paramétrica asimétrica, que se conoce como método exacto paramétrico (exact parametric method, EPM). Este método encuentra el intervalo de predicción de la variable predictora mediante un procedimiento iterativo en los extremos superior e inferior del intervalo hasta minimizar las funciones de diferencias. El método no paramétrico de bootstrap16,68,69 es una técnica de computación intensiva que proporciona una estimación no paramétrica del error estadístico de un modelo en términos de sesgo y varianza. El procedimiento imita el proceso de seleccionar un número elevado de muestras del mismo tamaño a partir de una población dada con el fin de calcular un intervalo de predicción. El conjunto de datos compuesto por n observaciones no se considera una muestra de la población, sino la misma población, a partir de la cual muestras de tamaño n, llamadas muestras bootstrap, se seleccionan con sustitución. Esto se consigue asignando un número a cada observación del conjunto de datos y después generando muestras aleatorias emparejando los datos a los números correspondientes a las observaciones. Mediante este método se obtienen unos intervalos de predicción cuyo balance entre precisión y exactitud es aceptable cuando el número de réplicas sobre la variable respuesta está comprendido entre 2 y 4. 43 2. Fundamentos teóricos 2.5.2 Intervalos de predicción considerando los errores en las variables predictora y respuesta Generalmente los errores en la variable predictora no se tienen en cuenta a la hora de buscar los intervalos de predicción. Sin embargo hay una serie de casos en que sí se consideran. Por ejemplo, Spiegelman y colaboradores19 desarrollaron las expresiones para el cálculo de los intervalos de predicción en procesos de calibración para la determinación de potasio por medio de espectrometría de emisión de llama (FES), donde la respuesta instrumental (variable respuesta) suele ser tan estable que difícilmente se pueden eliminar los errores cometidos en la preparación de los patrones de calibración (variable predictora). Estos intervalos de predicción se obtienen a partir de un ensanchamiento de los calculados utilizando únicamente los errores cometidos en la respuesta instrumental. Dichas expresiones se basan en un procedimiento desarrollado por Lwin y Spiegelman70 aplicable cuando los errores en la variable predictora son muy bajos. Asumiendo un error máximo (ϕi) asociado a los patrones de calibración del 0.5% del valor individual de la concentración de cada patrón (ϕi = 0.5% · xi), los intervalos de predicción aumentan en un valor ∆(x): ∆ ( xi ) = ϕ i n ∑c i m( xi ) (2.68) i =1 donde m(xi) es una función positiva dada y las constantes ci dependen de los valores verdaderos de la concentración de los patrones. La aproximación CVR también se ha utilizado para calcular los intervalos de predicción de las variables respuesta y predictora:40 1 ( x − x) 2 2 s y20 = b12 s δ2 + + (1 + kb1 ) 2 ⋅ 0 ⋅ se S uu n (2.69) donde: S uu = n ∑ i =1 44 ( xi − x ) 2 + 2k n ∑ i =1 ( xi − x)( y i − y ) + k 2 n ∑(y i =1 i − y) 2 (2.70) 2.5 Predicción en regresión lineal 2 b1 se = n ∑ ( xi − x) 2 − 2b1 i =1 n ∑ ( xi − x)( y i − y ) + i =1 n ∑(y i =1 n−2 sδ = se b + λ − 2b1θ 2 1 i − y ) 2 (2.71) (2.72) El parámetro k de las ecuaciones 2.69 y 2.70 se introduce en el proceso de cálculo de los coeficientes de regresión y se corresponde con:40 k= b1 − θ λ − b1θ (2.73) donde λ es la relación entre las varianzas de las variables respuesta y predictora y θ es la covarianza entre las varianzas de las dos variables multiplicada por el factor λ .40 El valor sδ está relacionado con el error asociado a la variable predictora, mientras que se está asociado a la estimación del error instrumental. La expresión para el cálculo de la varianza asociada a la predicción del valor de la variable predictora x0, a partir del punto y0 de la variable respuesta, viene dada por la siguiente expresión: s x20 = 2 s ε2 1 1 2 ( y0 − y) 2 ( 1 ) kb + + + ⋅ ⋅ se 1 b12 b12 n b12 S uu (2.74) donde sε, que está relacionado con el error asociado a la variable respuesta, viene dado por la siguiente expresión: sε = sδ λ (2.75) 2.6 Límites de detección En el campo químico, durante los últimos años, se ha adquirido conciencia de la importancia de establecer correctamente el límite de detección de un método analítico. La capacidad de un método para detectar la presencia o 45 2. Fundamentos teóricos ausencia de un determinado analito en una muestra es uno de los posibles parámetros a optimizar en el proceso de comprobar si una metodología se ajusta a un propósito (fit for purpose).71,72 El desarrollo de técnicas de análisis más sensibles, o la utilización de materiales de referencia certificados en lugar de patrones en la variable predictora en el proceso de la calibración, han incrementado la necesidad de examinar los actuales procedimientos para establecer los límites de detección. A lo largo de la historia se han propuesto multitud de técnicas destinadas a calcular el límite de detección de una metodología. Una de las primeras la propuso Kaiser73 (1947), quien relacionaba el límite de detección con la desviación estándar del ruido de fondo. Sobre esta teoría se han ido haciendo modificaciones y diferentes propuestas hasta llegar a la situación actual en que Currie74 hizo una serie de recomendaciones para el cálculo del límite de detección. Debido a los errores aleatorios (los errores sistemáticos deben haber sido previamente detectados y eliminados) presentes en todo procedimiento analítico, únicamente es posible obtener una estimación del límite de detección, y por tanto se puede llegar a conclusiones erróneas al utilizar dicho límite de detección. Por este motivo, siempre existirán unas determinadas probabilidades de cometer un error de primera especie (también llamado falso positivo o error α), que se corresponden con la situación en que se detecta un analito cuando en realidad este no está presente en la muestra, o unas determinadas probabilidades de cometer un error de segunda especie (también llamado falso negativo o error β), que se corresponden con la situación en que no se detecta un analito que está presente en la muestra. Según las últimas recomendaciones de la IUPAC74 el cálculo del límite de detección se desglosa en dos etapas. La primera de ellas es la etapa de decisión (apartado 2.6.2), mientras que la segunda es la etapa de detección (apartado 2.6.3). Previamente a la explicación de estas dos etapas en el apartado 2.6.1 se explican brevemente los conceptos de test de hipótesis y de errores de primera y segunda especie que son utilizados en el cálculo del límite de detección. 46 2.6 Límites de detección 2.6.1 Test de hipótesis En un test de hipótesis, las decisiones suelen estar basadas en muestras que siguen un determinado tipo de distribución. En el caso concreto de una distribución unidimensional, en algunos casos de interés práctico es necesario verificar si la media y la desviación estándar (por ejemplo), tienen en realidad un valor conocido de antemano. Mediante los tests de hipótesis se puede decidir si el valor estimado ( θ̂ 0 ) es significativamente diferente del valor θ 0 de un parámetro θ cualquiera.17 El procedimiento para llevar a cabo estos tests de hipótesis empieza por fijar una hipótesis nula (H0).75 Al definir la hipótesis nula hay que fijar un nivel de significancia (α), que representará la probabilidad de rechazar erróneamente H0. Este error es conocido con el nombre de error de primera especie o error α. Para el caso en que la hipótesis nula no sea cierta, habrá que definir una hipótesis alternativa (H1)75, que se aceptará al rechazar la hipótesis nula. De igual forma que para la hipótesis nula, habrá unas probabilidades de aceptar erróneamente la hipótesis alternativa. A este error se le conoce con el nombre de error de segunda especie o error β. Es decir, el hecho de aceptar una hipótesis no implica que se haya probado que dicha hipótesis es cierta, sino que no se tienen evidencias para rechazarla. La tabla 2.1 esquematiza las probabilidades de cometer errores de primera o segunda especie. Conclusión del test Situación real H0 cierta H0 falsa H0 cierta Decisión correcta Error α H0 falsa Error β Decisión correcta Tabla 2.1.- Representación de las diferente situaciones derivadas del uso de un test de hipótesis. 2.6.2 Etapa de decisión El valor crítico (LC) se define como el valor mínimo de una señal neta (sin la contribución del blanco) o de una concentración, que puede considerarse 47 2. Fundamentos teóricos significativamente diferente del blanco. matemáticamente de la siguiente forma: Esta Pr (Lˆ > LC | L = 0 ) = α definición se expresa (2.76) Si la cantidad estimada ( L̂ ) tanto en términos de concentración como de señal neta, sigue una distribución normal, con una varianza conocida, la ecuación 2.76 se reduce a la siguiente expresión: LC = z1−α σ 0 (2.77) donde z1-α es el valor crítico de la distribución normal y σ0 es la desviación estándar verdadera de la cantidad estimada. Si no se conoce el valor de la desviación estándar y se estima su valor a partir de s0, con ν grados de libertad, entonces la cantidad estimada sigue una distribución t de Student: LC = t1−α ,ν s 0 (2.78) Como conclusión, la decisión sobre si un analito es detectado o no se produce mediante la comparación de la cantidad estimada en términos de señal neta o de concentración ( L̂ ) con el valor crítico ( LC ) de la distribución respectiva, de manera que la probabilidad de exceder este valor no sea mayor que α si el analito no se encuentra en la muestra. 2.6.3 Etapa de detección La IUPAC, en sus últimas recomendaciones,74 define el límite de detección, con el nombre de valor mínimo detectable, como la capacidad de detección inherente que tiene un proceso de medida químico. Desde el punto de vista matemático, se define el límite de detección como el valor LD para el cual la probabilidad de cometer un error de segunda especie es β, dado un LC (o α). Esta definición se expresa de la siguiente forma: Pr (Lˆ ≤ LC | L = LD ) = β 48 (2.79) 2.6 Límites de detección Si la cantidad estimada ( L̂ ) sigue una distribución normal, con una varianza conocida, la ecuación 2.79 se reduce a la siguiente expresión: LD = LC + z1−β σ D = z1−α σ 0 + z1−β σ D (2.80) donde z1-β es el valor crítico de la distribución normal y σD es la desviación estándar verdadera de la cantidad estimada. Si no se conoce el valor de la desviación estándar y se estima su valor a partir de sD, con ν grados de libertad, entonces la cantidad estimada sigue una distribución t de Student: LD = LC + t 1−β,ν s D = t1−α ,ν s 0 + t1−β,ν s D (2.81) Una vez definidos el valor crítico y el límite de detección, en la bibliografía pueden encontrarse multitud de ejemplos de aplicación. Currie,76 presenta un ejemplo que clarifica el uso de estos dos conceptos. A continuación se explica una adaptación de dicho ejemplo al campo de la química analítica. Imaginemos que se pretende detectar la presencia de un contaminante en agua de consumo, y supongamos un límite para dicho contaminante extraído de una normativa (LR). Sobre este valor, la toxicidad puede ser peligrosa para la salud de los consumidores. Evidentemente, el método analítico seleccionado debería tener un límite de detección (LD) inferior al valor normativo (LR). Los límites normativos se escogen teniendo en cuenta los riesgos que conlleva la comisión de un error tanto de primera como de segunda especie. En la figura 2.7 se representa un esquema del proceso. De tal manera que en la parte superior podríamos encontrar una relación hipotética entre la concentración del contaminante en el agua de consumo y el coste social que se derivaría de su presencia. Lógicamente resulta imposible analíticamente suponer el límite normativo como nulo (lo que implicaría un coste social también nulo). La parte inferior de la figura representa el análisis químico en términos de concentración. El límite de detección LD requerido por el método ha de estar por debajo de LR y es función del valor crítico (LC) establecido y de la probabilidad β prefijada de cometer un error de segunda especie. 49 2. Fundamentos teóricos Coste social Aceptable 0 Concentración de contaminante LR σ0 σD β 0 α LC LD Concentración de contaminante Figura 2.7.- Representación del nivel crítico (LC), del límite de detección (LD) y del nivel normativo (LR) y sus relaciones con las probabilidades de error α y β. Hubaux y Vos77 fueron pioneros en la evaluación de los límites de detección utilizando regresión lineal. Su aproximación sigue las propuestas de Currie,78 y definen el límite de decisión en respuestas como la señal mínima que puede distinguirse de la señal del blanco, y el límite de detección en concentraciones como la señal mínima por debajo de la cual cualquier muestra puede considerarse erróneamente como un blanco. Zorn y colaboradores79 realizaron una aproximación en la que se tiene en cuenta la posible heteroscedasticidad de los datos en la respuesta. Esta propuesta se basa en la descrita de Hubaux y Vos (representada en la figura 2.8), donde la variabilidad del error en las respuestas se tiene en cuenta mediante un modelado de las varianzas experimentales. Esta aproximación minimiza los límites de detección en un proceso, debido a que utiliza información ignorada en las anteriores aproximaciones, y que tienen una especial incidencia en los niveles de concentración cercanos al límite de detección. 50 Respuesta 2.6 Límites de detección y = b0 + b1 x α yC β y0 0 LC LD Concentración Figura 2.8.- Representación gráfica de la recta de regresión y de los intervalos de predicción, así como de los límites de decisión y de detección según la aproximación de Hubaux y Vos. 2.7 Regresión lineal discrepantes en presencia de puntos Desde siempre ha habido una preocupación por la presencia de observaciones no representativas, aberrantes o alejadas de la media en un conjunto de datos, pues estos puntos contaminan los datos reduciendo o distorsionando la información que contienen. Por este motivo es comprensible la búsqueda de mecanismos para interpretar y clasificar los puntos discrepantes, o de métodos que consigan rechazar los puntos discrepantes con el fin de restablecer la información que contienen los datos o, como mínimo, métodos que minimicen su impacto.80 Legendre, en 1805, en la primera publicación sobre el método de mínimos cuadrados, hace referencia a los puntos discrepantes, diciendo: “Si entre los errores hay algunos que son demasiado grandes para ser admisibles, las observaciones que producen estos errores se deben eliminar, como si provinieran de experimentos defectuosos, mientras que las observaciones desconocidas deberán encontrarse a partir del resto de observaciones, que tienen asociados errores mucho menores.” Más adelante, Peirce81 en una cita que data del año 1852 51 2. Fundamentos teóricos expresa la inquietud ante la presencia de observaciones discrepantes: “En casi todas las series reales de observaciones, se encuentran observaciones que difieren mucho de las demás indicando una fuente anormal de error no contemplada en las discusiones teóricas, y cuya inclusión en las investigaciones únicamente pueden servir ... para confundir y desconcertar al investigador.” Para solucionar este problema existen dos posibilidades: la solución de rechazar los puntos discrepantes, con lo que se corre el riesgo de perder información que puede llegar a ser genuina y en algunos casos útil, o incluirlos en al análisis, lo que conlleva el riesgo de contaminación de los datos. Para remediar el problema surgido ante la presencia de puntos discrepantes, se han desarrollado técnicas estadísticas que no se afectan fácilmente por la presencia de estos puntos discrepantes. Estas son las llamadas técnicas robustas, debido a que sus resultados son fiables a pesar de tener una cierta cantidad de los datos contaminados. Además, pueden considerarse como técnicas de detección de puntos discrepantes, pues hacen que estos puntos tengan los mayores residuales. Una alternativa es la construcción de métodos para diagnosticar la presencia de puntos discrepantes. Son dos soluciones con el mismo fin pero que actúan de forma totalmente opuesta: una intentando localizar los puntos discrepantes mientras que la otra pretende ignorar su presencia.82 2.7.1 Técnicas de detección de puntos discrepantes Las técnicas de detección de puntos discrepantes se dividen básicamente en dos grupos: las que se basan en los residuales a la recta de regresión (como por ejemplo los residuales estandardizados) y los que se basan en ir eliminando puntos del conjunto de datos inicial. De estos últimos el más conocido es el test de la distancia al cuadrado de Cook,17,62,82,83,84 que pasa por ser la técnica más utilizada en la actualidad para la detección de puntos discrepantes en regresión lineal. El test de Cook mide los cambios que sufren los coeficientes de regresión cuando se eliminan una o varias observaciones del conjunto de datos. Para ello utiliza la conocida distancia al cuadrado de Cook, que es la distancia que existe entre los coeficientes de regresión antes y después de eliminar los puntos 52 2.7 Regresión lineal en presencia de puntos discrepantes sospechosos de ser discrepantes, de manera que un valor elevado de la distancia de Cook indica que la observación eliminada (o las observaciones eliminadas en el caso de tener múltiples observaciones sospechosas de ser puntos discrepantes), tiene una considerable influencia en la determinación de los coeficientes de regresión. Para llevar a cabo esta comparación, se representa el intervalo de confianza conjunto de los coeficientes de regresión de la recta obtenida a partir del conjunto de datos inicial, y se observa si los valores de los coeficientes de regresión una vez eliminados los puntos sospechosos caen dentro de la elipse representada. En el caso de pertenecer a la elipse de confianza, se diría que los puntos eliminados no tienen una gran influencia sobre la recta y en el caso contrario deberían ser considerados como puntos discrepantes. De entre las aplicaciones desarrolladas para la detección de puntos discrepantes cuando se consideran los errores en las variables predictora y respuesta, cabe destacar la propuesta de Barnett85 (1985), que introduce un método de detección basado en el modelo estructural, y cuya importancia se debe a que dicho modelo presenta problemas de identificación para observaciones sin réplicas y ante una estructura normal de errores. 2.7.2 Robustez en regresión lineal La mayoría de los autores se decantan por las ventajas de la utilización de las técnicas de regresión robusta frente a las técnicas de detección de puntos discrepantes,86-88 de tal forma que entre ellos Huber89 destaca que la regresión robusta es capaz de suavizar la transición entre aceptar y rechazar un punto sospechoso de ser discrepante. La primera aproximación a la robustez en regresión lineal corre a cargo de Edgeworth90 el año 1887. Observó que el método de OLS se veía rápidamente afectado por la presencia de puntos discrepantes y propuso encontrar la recta de regresión minimizando la suma de los residuales absolutos, de igual forma que había propuesto Laplace el 1812 para el caso unidimensional. La recta de regresión resultó ser robusta ante puntos discrepantes en la dirección de las respuestas, pero se ve inmediatamente afectado si los puntos discrepantes lo son en la dirección de 53 2. Fundamentos teóricos las x. Otra solución al problema es la de los estimadores basados en procesos de máxima verosimilitud o estimadores-M (M-estimators) que se basan en sustituir el cuadrado de los residuales por otra función de los residuales. Entre estos métodos destacó el de Huber91 en 1973. Sin embargo estos métodos se caracterizan por ser vulnerables ante la presencia de puntos influyentes, motivo por el que se introdujeron los estimadores-M generalizados (GM-estimators), que intentan superar la presencia de puntos discrepantes en el eje de abscisas mediante la inclusión de una función de pesos. Entre las propuestas destacan las de Mallows92 del año 1975 o la de Schweppe93 del año 1977. Optimizando los pesos y la función incluidos en los residuales a minimizar se obtuvieron aproximaciones óptimas de los estimadores-GM.94-97 Desde entonces, a estos métodos se los conoce como estimadores de influencia definida. A lo largo de la historia se han desarrollado, básicamente, otros dos tipos de estimadores:98 los estimadores-L y los estimadoresR. Los primeros estimadores se obtienen a partir de combinaciones lineales de órdenes estadísticos, obteniendo los mejores resultados la propuesta realizada por Chernoff, Gastwirth y Johns99 datada el año 1967. Por su parte, los estimadores-R se derivan a partir de tests de rangos. Las principales aproximaciones son las propuestas por Chernoff y Savage100 (1958), Hodges y Lehmann101 (1963) y Hájek y Šidák102 (1967). Rousseeuw,103 el año 1984 desarrolló el conocido como método de la mínima mediana de cuadrados (least median of squares, LMS), basándose en la robustez intrínseca de la mediana frente a la suma de los residuales, minimizada en OLS para encontrar la recta de regresión, y en una idea anterior de Hampel104 del año 1975. LMS resultó ser un estimador robusto ante la presencia de puntos discrepantes tanto en el eje de abscisas como en el eje de ordenadas. Su robustez se demuestra pues su punto de ruptura (breakdown point)105,106 es del 50%.82 El método de LMS es en la actualidad el método de regresión robusta más conocido y extendido. Este método encuentra la recta de regresión minimizando la mediana de los residuales a la recta de regresión, donde la mediana se encuentra como el ([n/2]+1)-ésimo valor de los residuales ordenados, donde [n/2] representa la parte entera del valor n/2 y n es el número de puntos presentes en el conjunto de datos. Para ello, encuentra las rectas que pasan por todos los pares de puntos del conjunto de datos, y encuentra la mediana de los residuales de cada uno de los puntos a las 54 2.7 Regresión lineal en presencia de puntos discrepantes rectas. La recta cuya mediana sea mínima se considera como la recta de regresión robusta de LMS. La profundidad (depth) de una recta de regresión107 se define como el menor número de observaciones que se deben eliminar de un conjunto de datos para convertir la recta en una recta no ajustada, donde por una recta no ajustada se entiende aquella en la que para valores menores a uno determinado (v) todos los residuales son positivos y para valores mayores a v los residuales de todos los puntos son negativos (o viceversa). De una forma más gráfica, se define la profundidad de una recta de regresión como el número mínimo de puntos que debe cruzar la recta de regresión en su transformación, mediante una rotación, en una línea vertical. Recientemente Rousseeuw y Hubert108 han desarrollado un método de regresión llamado regresión profunda (deepest regression, DR) basado en este concepto, y consistente en encontrar la recta de regresión con máxima profundidad. Van Aelst y Rousseeuw109 estudiaron la robustez del método de la regresión profunda concluyendo que su punto de ruptura es del 33.33%. De este resultado se concluye que este método de regresión incluye bastante robustez, obteniéndose la recta de regresión sin hacer suposiciones acerca de la distribución ni de la magnitud de los residuales, pues únicamente considera la situación de los puntos y el signo de sus residuales. En la actualidad se han desarrollado un conjunto de técnicas de regresión robusta que consideran los errores en las dos variables. La mayoría están basados en métodos de regresión de máxima verosimilitud, teniendo como principal inconveniente la necesidad de tener los datos distribuidos de alguna determinada forma, según si se trata de un modelo funcional, estructural o ultraestructural. Brown110 (1982) propone un método de regresión robusta basado en la regresión ortogonal. Más adelante Hartmann111 (1996) hace una aplicación del LMS ortogonal desarrollado según las ideas de Rousseeuw y Leroy82 y Hu112. En el caso del modelo funcional, destacan también las propuestas realizadas por Carroll113 (1982) y Abdullah114,115 (1989), pues desarrollaron estimadores robustos de máxima verosimilitud. En el caso del modelo estructural aparecen problemas de identificación del modelo robusto116 (1984). Sin embargo Nyquist117 (1987) propone un método alternativo al método de los momentos para la obtención de la 55 2. Fundamentos teóricos recta de regresión robusta para el modelo estructural, donde estos problemas de identificación se ven solventados. Más próxima en el tiempo está la estimación propuesta por Feldmann118 (1992) que propone un método para el cálculo de la recta de regresión robusta mediante una generalización del método LMS. 2.8 Simulación de Monte Carlo Se trata de una técnica destinada a imitar el proceso de selección aleatoria de muestras a partir de una población predefinida con el fin de obtener estimaciones de los parámetros de la población. A partir de una fórmula matemática que no se puede evaluar fácilmente, normalmente es posible encontrar un proceso para generar variables estadísticas con distribuciones de frecuencia que pueden relacionarse con la fórmula matemática. La simulación genera una muestra, determina su distribución empírica y la usa en la evaluación numérica de la fórmula.16,119-121 La simulación se utiliza en muchos casos para evaluar el comportamiento de un método estadístico, para comparar varios métodos estadísticos similares o para resolver problemas matemáticos. La ventaja de la utilización de la simulación en vez de conjuntos de datos reales radica en que en el caso de los datos simulados se conoce la distribución de su población. Una de las principales utilidades del método de Monte Carlo en esta Tesis Doctoral, es la comprobación de diversas expresiones encontradas empíricamente. En el caso tratado más directamente en este trabajo, el método de Monte Carlo es un método de simulación que permite encontrar m nuevos conjuntos de datos a partir del inicial. A la hora de encontrar estos nuevos conjuntos de datos, el método de Monte Carlo considera los errores asociados a las dos variables. Para generar estos conjuntos de datos el método de Monte Carlo utiliza las siguientes expresiones: 56 xin = xi + zs xi (2.82) yin = yi + zs yi (2.83) 2.8 Simulación de Monte Carlo donde xin e yin representan un nuevo punto generado por el método de Monte Carlo, a partir del punto inicial (xi, yi) con desviaciones estándar s xi y s yi , mientras que z es un valor aleatorio extraído a partir de una distribución normal con media 0 y desviación estándar unitaria. Este proceso se aplica a cada uno de los n puntos del conjunto de datos experimentales. A modo de ejemplo, en la figura 2.9 se presenta el esquema seguido a lo largo del capítulo tercero de la presente Tesis Doctoral al utilizar la simulación de Monte Carlo: Conjunto de datos inicial: x i , y i x in= x i ± zsxi y in= y i ± zsyi BLS m iteraciones Coeficientes de regresión, b0 y b1 Se encuentran m b0 y b1 nuevas Figura 2.9.- Esquema de la utilización de la simulación de Monte Carlo en el capítulo 3 de la presente Tesis Doctoral. 2.9 Referencias 1.- Mathworks Inc., Newark, Massachussets, USA. 2.- B. Visante, P. Batallé, Métodos Estadísticos Aplicados. Tomo 1. Estadística Descriptiva, PPU, S.A., Barcelona (1991). 3.- Sir F. Galton, Journal of Anthropological Institute, 15 (1885) 246-263. 4.- W.A. Fuller, Measurement Error Models, John Wiley & Sons, New York (1987). 5.- C.L. Cheng, J.W. Van Ness, Statistical Regression with Measurement Error, Arnold, London (1999). 57 2. Fundamentos teóricos 6.- C.L. Cheng, J.W. van Ness, Journal of the Royal Statististical Society, Series B, 56 (1994) 167-183. 7.- G.A.F. Seber, Linear Regression Analysis, John Wiley & Sons, New York (1977). 8.- S.D. Edland, Biometriks, 52 (1996) 243-248. 9.- G.B. Schaalje, R.A. Butts, Biometriks, 49 (1993) 1262-1267. 10.- P. Sprent, Models in Regression and Related Topics, Methuen & Co. Ltd., London (1969). 11.- R.L Plackett, Biometrica, 59 (1972) 239-251. 12.- C. Eisenhart, Journal of the Washington Academy of Sciences, 54 (1964) 2433. 13.- S M Stigler, Ann. Statist., 9 (1981) 465-474. 14.- S M Stigler, Historia Mathematica, 4 (1977) 31-35. 15.- N. Draper, H. Smith, Applied Regression Analysis, 2ªed., John Wiley & Sons, New York (1996). 16.- I.E. Frank, R. Todeschini, The Data Analysis Handbook, Elsevier, Amsterdam (1994). 17.- D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics: Part A, Elsevier, Amsterdam (1997). 18.- J.O. Rawlings, Applied Regression Analysis, Wadsworth & Brooks/Cole Advanced Books & Software, Belmont (1988). 19.- C.H. Spiegelman, R.L.Watters, L. Hungwu, Chemometrics and Intelligent Laboratory Systems, 11 (1991) 121. 20.- H. Bennett, G. Olivier, XRF Analysis of Ceramics, Minerals and Allied Materials, John Wiley & Sons, New York (1992). 21.- K. Govindaraju, I. Roelandts, Geostandards Newsletter, 13 (1989) 5-67. 22.- X. Xie, M. Yan, L. Li, H. Shen, Geostandards Newsletter, 9 (1985) 83-159. 23.- X. Xie, M. Yan, L. Li, H. Shen, Geostandards Newsletter, 13 (1989) 83-179. 24.- E.S. Gladney, I. Roelandts, Geostandards Newsletter, 13 (1989) 217-268. 25.- R.M. Clark, Journal of the Royal Statististical Society, Series A, 142 (1979) 47-62. 26.- R.M. Clark, Journal of the Royal Statististical Society, Series A, 143 (1980), 177-194. 27.- P.Sprent, Contemporary Mathematics, 112 (1990) 3-15. 28.- G.R. Dolby, Biometrica, 63 (1976) 39-50. 58 2.9 Referencias 29.- L.J. Gleser, Journal of the American Statistical Association, 87 (1992) 696707. 30.- R.J. Adcock, Analyst, 4 (1877) 183-184. 31.- R.J. Adcock, Analyst, 5 (1878) 53-54. 32.- K. Pearson, Philos. Mag., 2 (1901) 559-572. 33.- T.C. Koopmans, Linear Regression Analysis of Economic Time Series, De Erven F. Bohn, N.V. Haarlem, The Netherlands (1937). 34.- A. Madansky, Journal of the American Statistical Association, 54 (1959) 173205. 35.- D. York, Canadian Journal of Physic, 44 (1966) 1079-1086. 36.- P.T. Boggs, J.E.Rogers, Contemporary Mathematics, 112 (1990) 183-194. 37.- G.H. Golub, C.F. Van Loan, SIAM Journal of Numerical Analysis, 17 (1980) 883-893. 38.- S. Van Huffel, J. Vandewalle, The Total Least Squares Problems. Computational Aspects and Analysis, Siam, Philadelphia (1991). 39.- C.H. Kummel, Analyst, 6 (1879) 97-105. 40.- J. Mandel, Journal of Quality Technology, 16 (1984) 1-14. 41.- D.W. Schafer, K.G. Puddy, Biometrika, 83 (1996) 813-824. 42.- K.C. Lai, T.K. Mak, Journal of the Royal Statististical Society, Series B, 41 (1979) 263-268. 43.- D.V. Lindley, Journal of the Royal Statististical Society / London Suppl., Series B, 9 (1947) 218-244. 44.- J. Riu, F.X. Rius, Journal of Chemometrics, 9 (1995) 343-362. 45.- C. Brooks, I. Went, W. Harre, J. Geophys. Res. 73 (1968) 6071. 46.- M. Lybanon, Am. Journal Phys., 52 (1984) 22. 47.- M. Lybanon, Comput. Geosci., 11 (1985) 501. 48.- W.H. Jeffreys, Astron. Journal, 85 (1980) 177. 49.- W.H. Jeffreys, Astron. Journal, 86 (1981) 149. 50.- D.R. Powell, J.R. Macdonald, Comput. Journal, 15 (1972) 148. 51.- D.R. Powell, J.R. Macdonald, Comput. Journal, 16 (1973) 51. 52.- G.L. Cumming, J.S. Rollett, F.J.C. Rossotti, R.J. Whewell, Journal Chem. Soc., 23 (1972) 2652. 53.- J.M. Lisý, A. Cholvadová, J. Kutéj, Computers and Chemistry, 14 (1990) 189192. 54.- J. Riu, F.X. Rius, Analytical Chemistry, 68 (1996) 1851-1857. 59 2. Fundamentos teóricos 55.- A.H. Kalantar, R.I. Gelb, J. S. Alper, Talanta, 42 (1995) 597-603. 56.- Commission d’Établissement des Méthodes d’Analyses du Commissariat à l’Énergie Atomique (Cetama), Statistique Appliquée à l’Exploitation des Mesures, 2ª ed., Masson, Paris (1986). 57.- G. Kateman, F.W. Pijpers, Quality Control in Analytical Chemistry, John Wiley & Sons, New York (1981). 58.- J.C. Olucha, F.X. Rius, Trends in Analytical Chemistry, 9 (1990) 77-79. 59.- M. Meloun, J. Militký, M. Forina, Chemometrics for Analytical Chemistry, Ellis Horwood limited, Chichester (1992). 60.- S.J. Haswell (ed.), Practical Guide to Chemometrics, Marcel Dekker Inc., New York (1992). 61.- M. Meloun, J. Militký, M. Forina, Chemometrics for Analytical Chemistry. Volume 2. PC-aided Regression and Related Methods, Ellis Horwood, London (1994). 62.- S. Weisberg, Applied Linear Regression, 2nd Ed., John Wiley & Sons, New York (1985). 63.- G.W. Snedecor, W.G. Cochran, Statistical Methods, 8th ed., Iowa State University Press, Ames (1989). 64.- P.D. Lark, B.R. Crowen, R.L.L. Bosworth, The Handling of Chemical Data, Pergamon Press, Oxford (1968). 65.- J.C. Miller, J.N. Miller, Statistics for Analytical Chemists, Ellis Horwood, Chichester (1984). 66.- J.N. Miller, Analyst, 116 (1991) 3. 67.- A.G. Asuero, A.G. González, Microchemical Journal, 40 (1989) 216. 68.- P.L. Bonate, Analytical Chemistry, 65 (1993) 1367. 69.- P. Hall, The Annals of Statistics, 14 (1986) 1431. 70.- T. Lwin, C.H. Spiegelman, Journal of the Royal Statistical Society Series C, 35 (1986) 256. 71.- ISO/IEC 17025 General Requirements for the Competence of Testing and Calibration Laboratories ISO, Geneva (1999). 72.- M. Sargent, Anal. Proc. 32 (1995) 201-202. 73.- H. Kaiser, Z. Anal. Chem., 3 (1947) 40. 74.- L.A. Currie, (IUPAC Recomendations). Pure & Applied Chemistry, 67 (1995) 1699-1723. 60 2.9 Referencias 75.- C. Liteanu, I. Rica, Statistical Theory and Methodology of Trace Análisis, Ellis Horwood, Chichester (1980). 76.- L.A. Currie, Ed., Detection in Analytical Chemistry: Importance, Theory, and Practice, cap.1, ACS Sympos. Serie 361, American Chemical Society, Washington (1988). 77.- A. Hubaux, G. Vox, Analytical Chemistry, 42 (1970) 586. 78.- L.A. Currie, Analytical Chemistry, 40 (1968) 849. 79.- M.E. Zorn, R.D. Gibbons, W.C. Sonzogni, Analytical Chemistry 69 (1997) 3069-3075. 80.- V. Barnett, T. Lewis, Outliers in Statistical Data, 3ª ed., John Willey & Sons, Chichester (1994). 81.- B. Peirce, Astr. Journal, 2 (1852) 161-163. 82.- P.J. Rousseeuw, A.M. Leroy, Robust Regression & Outlier Detection, John Willey & Sons, New York (1987). 83.- R.D. Cook, Technometrics, 19 (1977) 15-18. 84.- F.X. Rius, J. Smeyers-Verbeke, D.L. Massart, Trends in Analytical Chemistry, 8 (1989) 8-11. 85.- V. Barnett, Austral. J. Statist., 27 (1985) 151-162. 86.- C.L.Cheng, J.W. Van Ness, Technometrics, 39 (1997) 401-411. 87.- D.J. Cummings, C.W. Andrews, Journal of Chemometrics, 9 (1995) 489-507. 88.- F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, W.A. Stahel, Robust Statistics, John Willey & Sons, New York (1986). 89.- P.J. Huber, Robust Statistics, John Willey & Sons, New York (1981). 90.- F.Y. Edgeworth, Hermathena, 6 (1887) 279-285. 91.- P.J. Huber, Ann. Stat. 1 (1973) 799-821. 92.- C.L. Mallows, Technometrics, 15 (1973) 661-678. 93.- R.W. Hill, Robust Regression when there are Outliers in the Carriers, Tesis Doctoral no publicada, Universidad de Harvard, Moston (1977). 94.- F.R. Hampel, Proceedings of the Statistical Computing Section of the American Statistical Association, ASA, Washington, D.C., (1978) 59-64. 95.- W.S. Krasker, R.E. Welsch, Journal of the American Statistical Association, 77 (1982) 595-604. 96.- E. Ronchetti, Statistical Probability Letters, 3 (1985) 21-23. 97.- A.M. Samarov, Journal of the American Statistical Association, 80 (1985) 1032-1040. 98.- P.J. Huber, The Annals of Mathematical Statistics, 43 (1972) 1041-1067. 61 2. Fundamentos teóricos 99.- H. Chernoff, J.L. Gastwirth, M.V. Johns, The Annals of Mathematical Statistics, 38 (1967) 52-72. 100.- H. Chernoff, I.R. Savage, The Annals of Mathematical Statistics, 29 (1958) 972-994. 101.- J.L. Hodges Jr., E.L. Lehmann, The Annals of Mathematical Statistics, 34 (1963) 598-611. 102.- J. Hájek, Z. Šidák, Theory of Rank Tests, Academic Press, New York (1967). 103.- P.J. Rousseeuw, J. Am. Stat. Assoc., 79 (1984) 871-880. 104.- F.R. Hampel, Bull. Int. Stat. Inst., 46 (1975) 375-382. 105.- D.L. Donoho, P.J. Huber, The notion of breakdown point, en A Festschrift for Erich Lehmann, editado por P. Bickel, K. Doksum, J.L. Hodges, Jr, Wadsworth, Belmont (1983). 106.- F.R. Hampel, Contributions to the Theory of Robust Estimation, Tesis Doctoral, University of California (1968). 107.- R.Y. Liu, The Annals of Statistics, 18 (1990) 405-414. 108.- P.J. Rousseeuw, M. Hubert, Journal of the American Statistical Association, 94 (1999) 388-402. 109.- S. Van Aelst, P.J. Rousseeuw, Journal of Multivariate Analysis, 73 (2000) 82-106. 110.- M.L. Brown, Journal of American Statistical Association, 77 (1982) 71-79. 111.- C. Hartmann, P. Vankeerberghen, J. Smeyers.Verbeke, D.L. Massart, Analytica Chimica Acta, 344 (1997) 17-28. 112.-Y. Hu, Expert Systems for Method Development in Analytical Chemistry, Tesis Doctoral, Vrije Universiteit Brussels (1989) 113.- R.J. Carroll, P.P. Gallo, Commun. Statist. Theor. Meth., 11 (1982) 25732585. 114.- M.B. Abdullah, Commun. Statist. Theory Meth., 18 (1989) 287-314. 115.- M.B. Abdullah, J. Statist. Comput. Sim., 33 (1989) 101-123. 116.- R.H. Ketellapper, A.E. Ronner, Metrika, 31 (1984) 33-41. 117.- H. Nyquist, Metrika, 34 (1987) 177-183. 118.- U. Feldmann, Eur. J. Clin. Chem. Clin. Biochem., 30 (1992) 405-414. 119.- P.C. Meier, R.E. Zünd, Statistical Methods in Analytical Chemistry, John Wiley & Sons, New York (1993). 120.- O. Güell, J.A. Holcombe, Analytical Chemistry, John Wiley & Sons, New York (1993). 62 2.9 Referencias 121.- H.A. Meyer (editor), Symposium on Monte Carlo Methods, Willey, Chichester, New York, 1956. 63 3 Capítulo Normalidad de los coeficientes de regresión 3.1 Introducción 3.1 Introducción A pesar del reciente desarrollo de los intervalos de confianza conjuntos de los coeficientes de la recta de regresión cuando se utiliza el método de regresión de BLS,1 no existen tests paramétricos que aseguren de forma individual la ausencia de sesgo en los coeficientes de regresión, cuando se tienen en cuenta los errores experimentales heteroscedásticos en cada punto. Con el fin de obtener las expresiones que permitan llevar a cabo dichos tests, es imprescindible conocer las distribuciones de los coeficientes de regresión. Dicha importancia se acrecienta en la regresión lineal considerando los errores en las dos variables pues en la bibliografía se encuentran indicaciones de que los coeficientes de regresión se distribuyen de una forma no Gaussiana2. En estudios de comparación de métodos analíticos, en ocasiones es interesante comprobar la existencia de errores sistemáticos proporcionales o constantes. Para comprobarlo a lo largo de un intervalo de concentraciones, se analizan una serie de muestras reales mediante el método que se tiene a prueba (lo llamaremos método candidato) y mediante un método del que se tiene certeza que da lugar a resultados exactos (por ejemplo un método de referencia), y se representan los resultados obtenidos con ambos métodos. Si el nuevo método (o método candidato) no presenta errores sistemáticos constantes, la ordenada en el origen no debe diferir significativamente de cero. Si el método candidato no presenta errores proporcionales sistemáticos, la pendiente de la recta no debe ser significativamente diferente de la unidad. Ambas situaciones pueden comprobarse mediante un test individual para la ordenada en el origen y la pendiente respectivamente. Otras aplicaciones de los tests individuales para la ordenada en el origen o la pendiente en calibración pueden ser la necesidad de efectuar correcciones del blanco, la comprobación de efectos matriz o la aplicación de constantes de recuperación. Sin embargo, si lo que se pretende es comparar dos métodos de análisis, se deben comparar simultáneamente los dos coeficientes de regresión. Para ello se debe utilizar el test conjunto para la ordenada en el origen y la pendiente.3 67 3. Normalidad de los coeficientes de regresión En el siguiente apartado de este capítulo se presenta el artículo: “Detecting proportional and constant bias in method comparison studies by using linear regression with errors in both axes”, que se ha publicado en la revista Chemometrics and intelligent laboratory systems. La investigación que se presenta en el artículo ha sido llevada a cabo en colaboración con Ángel Martínez, miembro del Grupo de Quimiometria i Qualimetria de la Universitat Rovira i Virgili. Mi contribución en el artículo se corresponde con el objetivo del presente capítulo y es estudiar la normalidad de los coeficientes de regresión de la recta BLS. Además, en el artículo se utiliza la información extraída del estudio de la normalidad de los coeficientes de regresión, para poder detectar un sesgo constante o proporcional en los procesos de comparación de métodos utilizando regresión lineal cuando se consideran los errores experimentales en las variables predictora y respuesta. También se han desarrollado las expresiones para el cálculo del tamaño de muestra necesario para obtener unos errores α y β fijados en la predicción de ambos coeficientes de regresión individualmente. Como dato de nomenclatura, hay que destacar que el artículo de la siguiente sección presenta una notación ligeramente diferente de la detallada en la sección 2.1. Esto es debido a que dicho artículo se realizó con anterioridad a un perfeccionamiento de la notación llevado a cabo tras una exhaustiva revisión bibliográfica sobre el tema. Las siguientes secciones del capítulo presentan la bibliografía y las conclusiones que se extraen al analizar el capítulo en el contexto de la Tesis Doctoral. 68 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 3.2 Detecting proportional and constant bias in method comparison studies by using linear regression with errors in both axes Chemometrics and Intelligent Laboratory Systems 49 (1999) 179-193 Ángel Martínez*, F. Javier del Río, Jordi Riu, F.Xavier Rius Department of Analytical and Organic Chemistry. Universitat Rovira i Virgili. Pl. Imperial Tarraco, 1. 43005-Tarragona. Spain. Constant or proportional bias in method comparison studies using linear regression can be detected by an individual test on the intercept or the slope of the line regressed from the results of the two methods to be compared. Since there are errors in both methods, a regression technique that takes into account the individual errors in both axes (bivariate least squares, BLS) should be used. In this paper we demonstrate that the errors made in estimating the regression coefficients by the BLS method are fewer than with the OLS or WLS regression techniques and that the coefficient can be considered normally distributed. We also present expressions for calculating the probability of committing a β error in individual tests under BLS conditions and theoretical procedures for estimating the sample size in order to obtain the desired probabilities of α and β errors made when testing each of the BLS regression coefficients individually. Simulated data were used for the validation process. Examples for the application of the theoretical expressions developed are given using real data sets. Keywords: Bivariate least-squares; Linear regression; Probability Received 12 November 1998; received in revised form 10 June 1999; accepted 11 June 1999 69 3. Normalidad de los coeficientes de regresión 1. Introduction Linear regression is widely used in the validation of analytical methodologies. In method comparison studies, for example, a set of samples of different concentration levels are analysed by the two methods to be compared, and the results are regressed on each other. Ordinary least-squares (OLS), or weighted least-squares (WLS), which considers heteroscedasticity in the response variable, are the most widely used regression techniques. However, these techniques have a limited scope, since they consider the x-axis to be free of error. OLS and WLS should not usually be applied, for instance, in method comparison studies, since the uncertainties associated with the methods to be compared are usually of the same order of magnitude. An alternative is the errors-in-variables regression [1], also called CVR approach [2-4], which considers the errors in both axes. It does not take into account the individual uncertainties of each experimental point but considers the ratio of the variances of the response to predictor variables to be constant for every experimental point (λ=sy2/sx2). A particular case of the CVR approach is the orthogonal regression (OR) [5], in which the errors are of the same order of magnitude in the response and predictor variable (i.e. λ=1). Another option is a bivariate least squares (BLS) regression technique [6,7], which takes into account individual non-constant errors in both axes to calculate the regression coefficients. Despite the recent development of a joint confidence interval test for the BLS regression method [8], no statistical test to individually assess the presence of bias in the regression coefficients which takes into account the individual uncertainties in every experimental point has yet been described. For this reason, we present expressions for the application of the individual tests which take into account individual errors in both axes. Although the distributions of the BLS slope and intercept have been reported to be nongaussian [9], in this paper we show that the results of applying statistical tests based on the assumption of normality of the BLS regression coefficients do not show significant errors and that these errors are fewer than those obtained with the OLS or WLS regression techniques. 70 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 Of the two types of error associated with the statistical tests (α and β), the β error, related to the probability of not detecting an existing proportional or constant bias is seldom considered. However, the theoretical background and the expressions which enable its calculation in the individual tests which use the OLS method have already been developed [5]. In this paper we describe the expressions for estimating the probability of β error when performing an individual test on one of the regression coefficients to detect a set proportional or constant bias based on the BLS regression technique. These expressions take into account the different distributions that may be associated to the reference and to the selected biased regression coefficient values. These estimates are compared with the ones from the OLS and the WLS techniques for several real data sets. Finally, we describe the procedure for estimating the sample size, i.e. the number of experimental data pairs necessary for detecting the specific selected bias when performing an individual test with set probabilities of making α and β errors when the BLS regression method is used. Simulated data sets have been used to validate the theoretical expressions. 2. Background and theory 2.1. Notation In general, the true values of the different variables used in this work are represented with greek characters, while their estimates are denoted with latin letters. In this way, the true values of the BLS regression coefficients are represented by β0 (intercept) and β1 (slope), while their respective estimates are denoted as a and b. The estimates of the standard deviation of the slope and the intercept for the BLS regression line, are symbolised as sb and sa respectively. The experimental error, expressed in terms of variance for the n experimental data pairs (xi,yi), is referred to as σ2, while its estimate is s2. By analogy, ŷi represents the estimated value for the yi predicted. The estimated variance-covariance matrix of the regression coefficients related to the BLS regression technique is denoted as B. 71 3. Normalidad de los coeficientes de regresión In the individual tests, the terms a H 0 , a H1 , bH 0 and bH1 represent the values of the theoretical regression coefficients from which the null (H0) and the alternative hypothesis (H1) are assumed. The distance between a H 0 and a H1 or between bH 0 and bH1 , known as bias, is denoted by ∆ and represents the value of the systematic error that the experimenter wants to check. By analogy, the values of the standard deviations of the theoretical regression coefficients defining H0 and H1 are denoted as saH (or sbH ) and saH (or sbH ). 0 0 1 1 2.2. BLS BLS is the generic name given to a set of regression techniques applied to data which contain errors in both axes. From all the different existing approaches for calculating the regression coefficients, Lisý’s method [6] was found to be the most suitable [7]. This technique assumes the true linear model to be: ηi = β 0 + β1ξ i . (1) The true variables ξi and ηi are unobservable and instead, one can only observe the experimental variables: xi = ξ i + δ i and yi = ηi + γ i . (2) Variables δi and γi are random errors committed in the measurement of variables xi and yi respectively, where δ i ~ N (0, σ x2i ) and γ i ~ N (0, σ y2i ) . In this way, the observed variables xi and yi are related as follows: yi = a + bxi + ε i , (3) where εi is the ith residual error. The BLS regression method finds the estimates of the regression line coefficients by minimising the sum of the weighted residuals, S, expressed in Eq. (4): 72 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 ( yi − yˆ i ) 2 = ( n − 2) s 2 . 2 s i =1 εi n S=∑ (4) The weighting factor sε2i is expressed as the variance of the ith residual ε i and takes into consideration the variances of any individual point in both axes ( s x2i and s 2yi ) obtained from the replicate analysis of each sample by both methods. The covariance between the variables for each (xi,yi) data pair, which is normally assumed to be zero, is also taken into account: var (ε i ) = var( yi − a − bxi ) = sε2i = s 2yi + b 2 s x2i − 2b cov( xi , yi ) . (5) For this reason, the BLS regression technique assigns higher weights to those data pairs with larger s x2i and s 2yi values, i.e. the most imprecise data pairs. By minimising the sum of the weighted residuals (Eq. (4)), two non-linear equations are obtained, from which the regression coefficients a and b can be estimated by an iterative process [8]. 2.3. Characterisation of the distribution of the BLS regression coefficients The distribution functions of the regression coefficients a and b found by the BLS regression technique have been reported to be nongaussian [9]. This influences the individual tests on the regression coefficients, since they are usually performed under the assumption of normality. To determine the degree of nonnormality of the distributions of the BLS coefficients, three different statistical tests were used: Cetama [10] (which also allows the actual probability function to be characterised), the Kolmogorov test [11] and the normal probability plot (or Rankit test) [12]. These tests were applied to different types of real data sets to find a relationship between their structure and the degree of non-normality. Furthermore, to characterise their distribution, the real distributions and some theoretical distributions were compared. These comparisons were carried out with the quantile-quantile graphic method (Q-Q plot) [12]. 73 3. Normalidad de los coeficientes de regresión 2.4. β error in the individual tests for the BLS regression coefficients According to the theory of hypothesis testing, when an individual test is applied on a regression coefficient, the null hypothesis H0 is usually defined as the one that considers the estimated regression coefficient to belong to the distribution of a hypothetical regression coefficient ( a H 0 or bH 0 ) equal to the reference value, or in other words, that there are no proportional or constant systematic errors in the method being tested. On the other hand, the alternative hypothesis H1 considers that the estimated regression coefficient belongs to the distribution of a hypothetical regression coefficient ( a H1 or bH1 ) with a given value. This value, which has to be set by the experimenter according to the systematic error one wants to detect in the analytical method being tested, defines the distance between a H 0 (or bH 0 ) and a H1 (or bH1 ), or in other words the so-called bias [13]. The standard deviations saH (or sbH ) and saH (or sbH ) can be calculated for a given data set 0 0 1 1 with the values of a H 0 (or bH 0 ) and a H1 (or bH1 ). The expressions developed for estimating the probability of committing a β error in the application of an individual test to one of the regression coefficients calculated by using the OLS regression technique are established [5]. Analogous expressions can be adapted for the BLS technique by considering the appropriate standard deviation values: ∆ b = tα 2 ⋅ sbH 0 + t β ⋅ sbH1 Ö t β = ∆ a = tα 2 ⋅ saH 0 + t β ⋅ saH1 Ö t β = ∆ b − tα 2 ⋅ sbH 0 sbH 1 ∆ a − tα 2 ⋅ saH 0 saH (6) . (7) 1 The probability of committing a β error under the assumption of normality is finally given by the Student’s t value for n-2 degrees of freedom for a fixed level of significance α. The standard deviations saH (or sbH ) and saH (or 0 74 0 1 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 sbH ) can be estimated in a similar way to the standard deviations of the intercept 1 and the slope, and are easily obtained from the B variance-covariance matrix [8] calculated while estimating the regression coefficients with the BLS technique: xi2 ∑ s2 i =1 ε i n sa = sb = 2 ×s (8) 2 ×s. (9) n xi x 1 × − ∑ s 2 ∑ s ∑ s 2 i =1 ε i i =1 i =1 ε i n 2 i 2 εi n n 1 i =1 εi ∑ s2 x x 1 ∑ s 2 × ∑ s − ∑ s 2i i =1 ε i i =1 i =1 εi n 2 i 2 εi n To calculate the values of saH 0 n (or sbH ) and saH (or sbH ) it is only 0 1 1 necessary to recalculate the value of the weighting factor (Eq. (5)) according to the new slope value. Due to the dependence of the weighting factor on the slope, the values of saH 0 and saH will be equal to the standard deviation obtained for the 1 estimated regression coefficient ( sa = saH = saH ), which is not true for the slope. 0 1 2 The experimental error s remains unchanged. 2.5. Estimating the sample size Relating Eqs. (8-9) with the number of data pairs n it is possible to estimate the number of data pairs required to detect certain bias with set probabilities of committing α and β errors. This can only be achieved if the individual uncertainties, and hence the weighting factors are considered constant for all the data pairs ( sε2a , sε2b H0 H0 or sε2b = ct): H1 75 3. Normalidad de los coeficientes de regresión n saH = 0 sbH 0 = sbH = 1 ∑ xi2 ⋅ sε2 aH i =1 0 n n a ⋅ ∑ x − ∑ xi i =1 i =1 n ⋅s. 2 (10) 2 i nb ⋅ sε2bH ⋅ s or 0 n n b ⋅ ∑ x − ∑ xi i =1 i =1 n 2 2 i nb ⋅ sε2bH 1 n nb ⋅ ∑ x − ∑ xi i =1 i =1 n 2 ⋅s . (11) 2 i Introducing these two expressions in Eq. (6-7) respectively it is possible to isolate n in terms of the desired variables α, β and ∆: na = (tα / 2 + t β ) 2 ⋅ sε2a H ∆2a 0 n xi ∑ i =1 2 ⋅s + n ∑ xi2 2 (12) i =1 nb = n ∆ ⋅ ∑ xi i =1 2 2 b n ∆2b ⋅ ∑ xi2 −(tα / 2 ⋅ sε bH + t β ⋅ sε bH ) 2 ⋅ s 2 0 i =1 Initial estimates of the terms sε2a H0 . (13) 1 or sε2b H0 and sε2b , s2 and both sums H1 involving x data coordinates can be set from an initial data set containing few data pairs. After an iterative calculation (due to the dependence of the tα/2 and tβ values on the number of data pairs) an estimate of na or nb is obtained. It is then important to recalculate the sample size adding more data to the initial data set, as the estimates of the terms mentioned in Eqs. (12-13) are likely to change. In this way a 76 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 new estimate of na or nb is obtained. The estimation process ends when the differences between two consecutive na or nb values are below a set threshold value. 2.6. Validation The objective of the validation process is twofold. Firstly, to show that, despite the non-normal distribution of the BLS regression line coefficients, the confidence interval computed using the t-distribution can generally be accepted without committing relevant errors. Secondly, to assess whether the theoretical estimate of either the β error and the number of data pairs required to perform the individual tests, based on BLS under defined statistical conditions, provides correct results. a1 b1 1 a2 Initial data set Monte Carlo b2 2 3 n straight lines Tests of normality a b a3 b3 n ·· · ·· · an bn Figure 1. Scheme of the procedure followed to check the normality of the BLS regression coefficients using the Monte Carlo simulation method and the three selected test for checking the normality. To show the degree of non-normality of the intercept and the slope distributions under real regression conditions, six real data sets with errors in both axes were studied. The Monte Carlo method [14] was applied to generate 200,000 data sets from each of the six initial ones (Figure 1). This method adds a random error to every data pair based on the individual uncertainties in both axes. In this way, 200,000 simulated data sets were randomly generated. This gave rise to 200,000 regression lines, to which the three selected tests for assessing the 77 3. Normalidad de los coeficientes de regresión normality of the distributions were applied. The error made in estimating the BLS regression coefficients when their respective distributions were assumed to be normal (when in fact they are not) was quantified and compared with the error made in estimating the regression coefficients by OLS and WLS techniques. Figure 2 illustrates the comparison procedure. Once the distribution of the regression coefficients corresponding to the real data set is obtained by the Cetama method, we can determine its left (xlr) and right (xrr) limits for a chosen level of significance α. The shaded areas in Figure 2 represent the errors made by estimating the regression coefficients with each of the three regression techniques studied. Real distribution xlr xrr BLS xrbls xlbls WLS xlwls xrwls OLS xlols xrols Figure 2. Error made in estimating the BLS regression coefficients assuming normal distributions. Comparison with errors made using OLS and WLS regression techniques. 78 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 To validate the expressions for the estimation of the probability of β error, 24 initial simulated data sets were used with all the data pairs perfectly fit to an straight line with either biased slope or intercept values. From each of these initial data sets, 100,000 simulated new ones were randomly generated by adding a random error to every individual data pair (xi,yi) in the initial data set with the Monte Carlo method. An individual test was then applied on one of the regression coefficients for every one of these 100,000 data sets to check whether H0 could be accepted in each case for a fixed level of significance α. So every time H0 was accepted, a β error was being committed because the data set had been generated from an initial biased one, but due to the application of random errors by the Monte Carlo method, however, the bias could not be detected. The value of the bias was chosen to provide a probability of β error similar to the level of significance α in each of the four cases. In this way, if the estimate of the probability of β error from the theoretical expressions was similar to the one from the simulation process, we may conclude that the stated expressions provide correct results. Once the estimates of the probability of β error were proved to be correct, the expressions to estimate the sample size were validated. The probabilities of β error estimated for the different levels of significance α, the calculated standard deviations and the experimental error from the iterative process (terms tβ , tα/2 , sε2a , sε b or sεb H0 H0 H1 and s2 respectively) for each of the initial data sets in the validation process were introduced in expressions 12 and 13. If the estimated sample size required to achieve the chosen probabilities of α and β error was similar to the number of data pairs in each data set, results were considered correct. To show the applicability of the procedure, a real data set was used as a case study. 3. Experimental 3.1. Data sets and software Six real data sets with different characteristics (such as number of data pairs, heteroscedasticity or position within the experimental domain) were used to check the distribution of the BLS regression coefficients. Twenty-four different 79 3. Normalidad de los coeficientes de regresión simulated data sets were considered to validate the expressions for the estimates of the probability of β error (Eqs. (6-7)). Finally, one of the six former real data sets was used to show the different estimates of the probability of β error between BLS, OLS and WLS regression techniques and provide an example of the sample size estimation procedure using data with errors in both axes. Data Set 1 [15]. Data set obtained from the study of the supercritical fluid extraction (SFE) recoveries of policyclic aromatic hydrocarbons (PAHs) from railroad bed soil using two different modifiers; CO2 (on the x-axis) and a mixture of CO2 with 10% of toluene (on the y-axis). The data set is composed of seven data pairs. The standard deviations ( s xi and s yi ) were the result of a triplicate supercritical fluid extraction at each level of concentration. The units are expressed in terms of µg/g of soil. The data set and the regression lines obtained by the OLS, WLS and BLS regression techniques are shown in Figure 3a. Data Set 2 [16]. Comparative study of mercury determination using gas chromatography coupled to a cold vapour atomic fluorescence spectrometer following derivatization with sodium tetraethylborate. One (x-axis) and two (yaxis) amalgamation steps were used to obtain five data pairs with their respective uncertainties ( s xi and s yi ) generated from six replicates performed at each point. Units are expressed in terms of pg of recovered mercury. The data set and the regression lines generated by the three regression techniques are shown in Figure 3b. Data Set 3 [17]. Twenty-seven data pairs obtained from a method comparison study which analysed Ca(II) in water by atomic absorption spectroscopy (AAS), taken as the reference method (x-axis), and sequential injection analysis (SIA), taken as the tested method (y-axis). The data set and the regression lines generated by OLS, WLS and BLS regression techniques are shown in Figure 3c. Units are expressed in mg/l. The uncertainties associated with the AAS method were derived from the analytical procedure, including the linear calibration step [18]. The uncertainties of the SIA results were calculated with a multivariate regression model and the PLS technique using the Unscrambler program (Unscrambler-Ext, ver. 4.0, Camo A/S, Trondheim, Norway). 80 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 Data Set 4 [19]. Comparative study for determining arsenic in natural waters from two techniques: continuous selective reduction and atomic absorption spectrometry (AAS) as the reference method (x-axis) and non-selective reduction, cold trapping and atomic emission spectrometry (AES) as the tested method (yaxis). Thirty experimental data pairs were obtained with three replicates per data pair. The units are expressed in terms of µg/l. The data set and the regression lines obtained using all three regression techniques are shown in Figure 3d. Data Set 5 [20]. Data set obtained by measuring the CO2 JouleThompson coefficient. The data was acquired from thermocouple-measured voltage differences (∆mV, on the y-axis) as a function of pressure increments (∆kPa, on the x-axis). Eleven equally-distributed data pairs were obtained with estimated unity x-axis uncertainties. The y-axis uncertainties were estimated to be between one and two units. The data set and the three regression lines found by using the stated regression techniques are shown in Figure 3e. Data Set 6 [21]. Comparative study of the average recoveries for organochlorine pesticides present in solvent (on the x-axis) or in solvent/soil suspension (on the y-axis) after microwave-assisted extraction (MAE) analysis. Twenty-one data pairs were used in the analysis. The uncertainties were obtained from triplicate MAE analysis at each point. The data set and the straight lines regressed by the three regression techniques are shown in Figure 3f. To validate the estimates of the probability of β error, twenty-four different initial data sets showing different values of bias in the intercept or in the slope were built to cover several analytical situations; different linear ranges, number of data pairs and uncertainty patterns. Linear Ranges: Two linear ranges were considered during validation, a short one for values from 0 to 10 units, and a large one for values from 0 to 100 units. Number of data pairs: Data sets containing five, fifteen, thirteen and a hundred data pairs were selected. In all cases the data pairs were randomly distributed throughout the two different linear ranges. 81 3. Normalidad de los coeficientes de regresión 30 1000 (a) 25 800 140 (b) 120 (c) 100 15 600 80 SIA 2 amalgamations CO2 / 10% toluene 20 400 60 10 200 5 0 40 0 0 5 10 15 20 25 30 20 -200 -200 0 CO2 (d) 60 800 30 0 20 10 40 15 AAS / selective reduction 20 25 10 40 60 80 100 120 AAS 200 (e) (f) 150 40 5 5 20 solvent / soil 10 0 0 0 1000 50 ∆ mV AES / cold trapping 600 70 15 -5 -5 400 1 amalgamation 25 20 200 100 60 80 100 ∆ kPa 120 140 160 50 80 85 90 95 100 105 110 115 120 125 solvent Figure 3. OLS (dashed line), WLS (dotted line) and BLS (solid line) regression lines obtained for the six real data sets. Uncertainties: Homoscedastic and heteroscedastic data sets were considered. The homoscedastic data sets were comprised of data pairs with constant standard deviations on both x and y values. In the short linear ranges the standard deviations presented half unity values, whereas in the large linear ranges they showed unity values. The heteroscedastic data sets were divided into two other different types. On one hand those with increasing standard deviations and on the other hand, those which presented random standard deviations. In both cases however, the standard deviation values were never higher than the 10% of each individual xi and yi value. For every one of the twenty four different simulated data sets, four levels of significance α were considered: 10, 5, 1 and 0.1%. Depending on the regression coefficient being tested and on the level of significance, the slope ( bH1 ) or the intercept value ( a H1 ) of the selected bias changed in such a way that the probabilities of β error from the iterative process were similar to the specified α 82 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 values. In this way the accuracy of estimates of different magnitudes from Eqs. (67) was also tested. All the computational work was performed with home-made Matlab subroutines (Matlab for Microsoft Windows ver. 4.0, The Mathworks, Inc., Natick, MA). 4. Results and discussion 4.1. Distribution of the regression coefficients The results of studying the distributions of the slope (b) and the intercept (a) using the three tests to check normality are summarised in Table 1. The variation in the number of iterations needed to achieve non-normality can be used to identify the degree of normality. The more iterations needed to achieve nonnormality (if finally achieved) the more normal the distribution is. Data set 1 presents non-normal distributions mainly due to the high lack of fit of the data pairs to the regression line. Data sets 2 and 5 present the best goodness of fit of all the sets, which helps the distribution of the regression coefficients to be normal. In data set 3, the data structure and the errors in both axes make the regression line mainly change the intercept value, which leaves the slope almost unmodified. In this way the intercept value shows a major uncertainty which leads to a non-normal distribution, whereas a much lower uncertainty is associated to the slope value. In data set 4, the slope of the regression line does not follow a normal distribution since the remarkable heteroscedasticity along the experimental range causes the regression line to move along a conical-shaped region when considering errors in both axes. This varies the slope and leaves the intercept almost unmodified. Finally, data set 5 has normal distributions and data set 6 presents non-normal ones due to the irregular disposition of the points in the space and the high heteroscedasticity. The more similar the error pattern to OLS conditions (i.e. larger errors in the y axis than in the x axis, homoscedasticity) and the better the goodness of fit, the more normal the distribution is. It has to be 83 3. Normalidad de los coeficientes de regresión pointed out that the Cetama method was the most sensitive in detecting deviations from normality. Cetama data set Iterations 1 10.000 30.000 50.000 100.000 200.000 10.000 30.000 50.000 100.000 200.000 10.000 30.000 50.000 100.000 200.000 10.000 30.000 50.000 100.000 200.000 10.000 30.000 50.000 100.000 200.000 10.000 30.000 50.000 100.000 200.000 2 3 4 5 6 a$ b$ NSNL NSLRL NSNL NSNL NSNL NSNL NSNL NSNL NSNL NSNL N NSNL N NSLRL N NSNL NSNL NSNL NSLRL NSLL NSNL NSLRL NSNL NSLRL NSNL NSNL NSLRL NSLRL NSNL NSNL N NSNL N NSNL N NSNL N NSNL N NSNL N N N N N N N N N N NSNL NSNL NSNL NSNL NSNL NSNL NSNL NSNL NSNL NSNL α=1% a$ b$ N NN NN NN NN NN NN NN NN NN N N N N N N N N N N N N N N NN N NN N NN N N N N NN N NN N NN N NN N N N N N N N N N N N NN N NN NN NN NN NN NN NN Kolmogorov α=5% a$ b$ NN NN NN NN NN NN NN NN NN NN N N N N N N N N N N N N N N NN N NN N NN N N N N NN N NN N NN N NN N N N N N N N N N N N NN NN NN NN NN NN NN NN NN α=10% b$ NN NN NN NN NN NN NN NN NN NN N N N N N N N N N N N N N N NN N NN N NN N N N N NN N NN N NN N NN N N N N N N N N N N N NN NN NN NN NN NN NN NN NN a$ Rankit Plot a$ b$ NN NN NN NN NN NN NN NN NN NN NN NN N N N N N N N N NN NN NN N NN N NN N NN N N N N NN N NN N NN N NN N N N N N N N N N N NN NN NN NN NN NN NN NN NN NN N: Normal distribution. NN: Non-normal distribution. NSNL: Non-symmetric and non-limited. NSLRL: Non-symmetric and left and right limited. NSLL: Non-symmetric and left limited. Table 1. Normality study results for the BLS regression coefficients. Table 2 shows the quantification of the error made in estimating the BLS regression coefficients when normality in their distributions is assumed, and the comparison with the analogous results from OLS and WLS regression techniques. The error is calculated according to the shaded areas in Figure 2 (where the error is considered to be the part that belongs to the OLS, WLS or BLS distribution for a fixed α level and which does not belong to the real distribution, and the part that 84 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 does not belong to the OLS, WLS or BLS distribution for the same α level and belongs to the real one). This table shows that the error made from assuming normality for the BLS regression technique is low, and significantly lower than the ones obtained for the OLS and WLS regression methods for all the data sets. The data sets that present BLS regression coefficients as normally distributed have errors equal to zero. We can also see that the error committed when using the WLS method is usually lower than when using OLS. % Error data set Coefficient BLS WLS OLS 1 a$ b$ a$ b$ a$ b$ a$ b$ a$ b$ a$ b$ 4.69 4.46 0 0 0.53 0.58 0 2.79 0 0 2.48 2.48 26.84 14.59 9.81 5.51 1.37 6.20 5.11 14.97 0.26 0.25 2.31 3.75 58.29 16.43 44.35 3.66 11.42 11.03 88.50 25.28 0.62 3.28 6.60 6.45 2 3 4 5 6 Table 2. Difference between the theoretical and estimated regression coefficients by the three regression techniques (normal distributions assumed). Once the BLS regression coefficients have been found, in most cases, to be non-normally distributed, their distributions were compared with some theoretical ones (beta, binomial, chi-squared, exponential, F, gamma, geometric, hypergeometric, normal, Poisson, t-Student, uniform, uniform discrete and Weibull distributions) using the quantile-quantile plot graphic method (Q-Q plot) [12]. As the results provided by the Cetama method (Table 1) indicate that the regression coefficients that do not follow a normal distribution are mainly non-symmetric and non-limited, it seems reasonable to suppose that the regression coefficient distributions follow some kind of constant pattern. However, the results given by the Q-Q plot indicate that the theoretical distributions that are most similar to the 85 3. Normalidad de los coeficientes de regresión real ones are the chi-squared, normal and t-Student since their differences are very difficult to appreciate. 4.2. β error and sample size validation Tables 3 and 4 summarise the results from 100,000 iterations using the Monte Carlo method for the four levels of significance in the twenty four simulated data sets. Columns a H1 and bH1 show the regression coefficient values which define the chosen bias (distance between H0 and H1). The values in the βexp column are those from the simulation process, whereas the values shown in the βpred column are the ones obtained with the theoretical expressions to be validated (Eqs. (6-7)). Finally, the values in the column npred are the estimated sample sizes of the different simulated data sets for the different levels of significance. To detect significant differences between the estimated probabilities of β error and the values from the simulation process, paired t-tests [22] (with α=1%) were applied on the β error values obtained for the different number of data points (since it is the most critical factor for achieving good predictions of probabilities of β error) at the same level of significance. In this way significant differences between the values in the βexp and βpred columns were found only in the data sets with five data pairs for the slope and intercept at the four levels of significance. The possible sources of error and some important observations concerning the results from the simulation process can be summarised as follows: (i) In most cases the predicted probabilities of β error from Eqs. (6-7) are higher than the experimental values from the simulation process. This overestimation may be due to a lack of information, since the overestimation is higher in those data sets with fewer data pairs (where the experimental error, and thus the uncertainty of the regression coefficient is higher [23]), and lower in those data sets with a larger number of points. In this latter case however, small disagreements still exist due to the assumption of the normality of the regression coefficients. Figure 4 plots the differences between the experimentally-obtained probabilities of β error (from the simulation process) and the predicted probabilities against the number of data pairs of each data set for the slope and intercept with a level of significance of 5%. Only the results corresponding to the 86 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 low range are shown in Figure 4 since the results for the high range where identical. (ii) Results for the intercept show a higher agreement than the ones for the slope (Figure 4). This may be because estimating the slope is more complex since two different distributions have to be considered for bH 0 and bH1 , whereas only one is needed when the probabilities of β error are estimated for the intercept, as saH = saH . 0 1 (iii) There is no clear relationship between the uncertainty patterns and the error made in predicting the β error (in percent) for the different simulated data sets. As Figure 4 shows, the three lines depicting the three patterns of uncertainty do not maintain a constant relative position as they cross each other. Results for the intercept seem to follow a steadier pattern for the different uncertainties. As previously stated, the number of data pairs on the regression line is the key factor for obtaining a better estimate of the β error. (iv) Results from the predicting the probabilities of β error (Eqs. (6-7)) and sample size (Eqs. (12-13)) for data sets with a high linear range were identical to the ones with a low linear range. Results shown in Tables 3 and 4 correspond to the low linear range, while the ones from the high linear range have been omitted. These results can be explained because the distribution of the data pairs in data sets (for a given uncertainty and number of data pairs) with different linear ranges is identical. So the only difference between data sets with different linear ranges is that the values of the individual data pairs and their respective uncertainties (taken as standard deviations) are ten times higher in the high linear range than in the low linear range. Only the standard deviation values for the intercept were exactly ten times higher in the high linear range than the ones in the low linear range. This is due to the direct dependence of the standard deviation for the intercept on the sum of the x-axis values (Eq. (8)). 87 3. Normalidad de los coeficientes de regresión 180 %∆β 160 Slope 140 homoscedasticity 120 heteroscedasticity random heteroscedasticity 100 80 60 40 20 0 0 20 40 60 80 100 Number of data pairs 100 %∆β 90 Intercept 80 homoscedasticity 70 heteroscedasticity 60 random heteroscedasticity 50 40 30 20 10 0 0 20 40 60 80 100 Number of data pairs Figure 4. Difference between the experimentally-obtained probabilities (simulation process) and the predicted probabilities of β error for the slope and the intercept (in percent) in relation to the number of data pairs for each data set. If we look at the results of estimating the sample size in Tables 3 and 4 (npred columns), we can see that the predicted results in all cases provide the correct number of data pairs of the different initial data sets considered. From these results we can conclude that the expressions for estimating the sample size provide correct results for the three kinds of distribution of uncertainties considered. 88 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 n Uncertainty α(%) aH 1 saH βexp. βpred. npred. 5 homo. 10 5 1 0.1 2.4 3.2 5.2 10.5 0.641 9.97 5.02 2.22 0.13 12.91 8.39 5.38 2.03 5 5 5 5 hetero. 10 5 1 0.1 0.7 0.95 1.5 3 0.189 10.11 4.32 2.75 0.74 13.67 8.26 6.53 3.14 5 5 5 5 heter. rnd. 10 5 1 0.1 1 1.3 2.1 4.3 0.261 8.36 4.80 2.23 0.11 11.77 8.48 5.71 2.59 5 5 5 5 homo. 10 5 1 0.1 1 1.3 1.9 2.6 0.341 13.24 5.73 0.93 0.10 13.34 6.14 1.19 0.24 15 15 15 15 hetero. 10 5 1 0.1 5e-2 1.69e-2 6.5e-2 9.5e-2 0.125 12.02 4.98 0.57 0.10 12.99 4.9 1.11 0.28 15 15 15 15 heter. rnd. 10 5 1 0.1 2.5e-2 8.79e-3 3.4e-2 4.5e-2 6.4e-2 13.95 4.39 1.81 0.13 15.12 5.56 2.75 0.45 15 15 15 15 homo. 10 5 1 0.1 0.262 12.93 4.36 1.74 0.12 12.82 4.43 1.84 0.17 30 30 30 30 hetero. 10 5 1 0.1 5.5e-3 1.92e-3 7e-3 9.5e-3 1.2e-2 12.19 5.53 1.43 0.54 12.62 5.99 1.84 0.76 30 30 30 30 heter. rnd. 10 5 1 0.1 1.9e-2 6.48e-3 2.4e-2 3.2e-2 4.3e-2 11.07 4.97 1.50 0.16 11.46 5.47 1.92 0.31 30 30 30 30 homo. 10 5 1 0.1 0.142 12.78 6.61 1.77 0.35 12.68 6.51 1.70 0.32 100 100 100 100 hetero. 10 5 1 0.1 1.5e-5 5.37e-6 1.9e-5 2.6e-5 3.4e-5 12.89 6.02 1.41 0.19 12.98 6.16 1.45 0.20 100 100 100 100 heter. rnd. 10 5 1 0.1 1.9e-4 6.41e-5 2.4e-4 3e-4 4.2e-4 9.49 3.86 1.91 0.07 9.76 4.07 2.13 0.10 100 100 100 100 15 30 100 0.75 1 1.3 1.8 0.4 0.5 0.68 0.88 0 Table 3. Estimated and experimentally obtained probabilities of β error for individual tests on the intercept. Predicted sample size to achieve the probabilities of α and β error for each data set. 89 3. Normalidad de los coeficientes de regresión n Uncertainty α (%) bH1 s bH sbH βexp. 5 homo. 10 5 1 0.1 1.45 1.6 2 3.1 0.118 0.147 0.157 0.187 0.272 10.39 5.87 3.09 0.62 16.44 12.60 9.87 6.37 5 5 5 5 hetero. 10 5 1 0.1 1.27 1.36 1.65 2.3 7.48e-2 8.55e-2 9.02e-2 0.102 0.132 12.67 4.56 1.11 0.22 17.64 10.70 6.42 4.36 5 5 5 5 heter. rnd. 10 5 1 0.1 1.27 1.4 1.67 2.35 7.59e-2 9.07e-2 9.80e-2 0.113 0.153 14.41 3.76 1.19 0.26 19.44 10.24 6.99 4.78 5 5 5 5 homo. 10 5 1 0.1 0.8 0.75 0.68 0.55 6.92e-2 6.26e-2 6.11e-2 5.86e-2 5.58e-2 10.84 5.11 3.75 0.48 11.91 6.21 2.14 0.71 15 15 15 15 hetero. 10 5 1 0.1 0.93 0.91 0.87 0.83 2.49e-2 2.41e-2 2.39e-2 2.34e-2 2.29e-2 14.59 6.98 1.14 0.35 15.2 7.73 1.78 0.72 15 15 15 15 heter. rnd. 10 5 1 0.1 0.965 0.955 0.94 0.915 1.19e-2 1.16e-2 1.153e1.19e-2 1.12e-2 11.77 5.07 1.98 0.15 12.72 5.98 2.74 0.42 15 15 15 15 homo. 10 5 1 0.1 1.12 1.16 1.23 1.32 4.27e-2 4.53e-2 4.62e-2 4.78e-2 4.99e-2 14.92 5.44 0.99 0.10 15.22 6.38 1.32 0.14 30 30 30 30 hetero. 10 5 1 0.1 1.02 1.026 1.036 1.05 7.18e-3 7.25e-3 7.27e-3 7.31e-3 7.36e-3 14.22 5.92 1.29 0.082 14.61 6.59 1.77 0.17 30 30 30 30 heter. rnd. 10 5 1 0.1 1.037 1.047 1.065 1.085 1.26e-2 1.28e-2 1.29e-2 1.30e-2 1.31e-2 10.79 4.82 0.95 0.14 11.62 5.48 1.35 0.31 30 30 30 30 homo. 10 5 1 0.1 0.93 0.951 0.89 0.85 2.41e-2 2.32e-2 2.30e-2 2.28e-2 2.23e-2 10.39 5.81 2.35 0.16 9.94 5.47 2.13 0.14 100 100 100 100 hetero. 10 5 1 0.1 0.995 0.993 0.991 0.988 1.89e-3 1.88e-3 1.88e-3 1.87e-3 1.87e-3 15.92 4.17 1.56 0.16 16.16 4.31 1.68 0.18 100 100 100 100 heter. rnd. 10 5 1 0.1 0.986 0.983 0.979 0.972 4.85e-3 4.82e-3 4.81e-3 4.80e-3 4.79e-3 11.02 6.45 4.39 0.81 11.07 6.48 4.48 0.90 100 100 100 100 15 30 100 0 1 βpred. npred. Table 4. Estimated and experimentally obtained probabilities of β error for individual tests on the slope. Predicted sample size to achieve the probabilities of α and β error for each data set. 90 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 4.3.Procedure for β error and estimation of sample size in a real data set Table 5 summarises the results of estimating the probabilities of committing a β error in the individual tests for the BLS slope and intercept for a level of significance of 5% (β column, in percent) for data set 3. Columns a H 0 − a and bH 0 − b show the distance between the estimated regression coefficients and the reference values ( a H 0 = 0 and bH 0 = 1 ). The columns t ⋅ saH and 0 t ⋅ sbH (α=5%) show the values of the confidence intervals associated to the 0 reference values. Columns a H1 and bH1 represent the bias that the experimenter wants to check in the regression coefficient being tested. Bias is detected in the regression coefficient whenever the difference a H 0 − a and bH 0 − b is higher than its associated confidence interval. Probabilities of β error are not calculated if bias is detected. BLS WLS OLS BLS WLS OLS a H0 − a t ⋅ saH 2.94 4.38 3.97 a H1 β 5.35 5.19 7.11 6 40.2 37.6 62.5 bH 0 − b t ⋅ sbH 0 bH 1 β 0.0364 0.0571 0.0656 0.0991 0.100 0.110 1.2 2.77 2.60 5.30 0 Table 5. Results obtained in estimating the probability of β error in the individual tests for the intercept and the slope in data set 3. Table 5 shows that neither constant nor proportional bias are found in the SIA methodology in the analysis of Ca(II) in water according to the results from the three regression techniques. The highest probability of β error is estimated at 62.5% for the OLS technique, due to the highest standard deviation value. On the other hand, the probabilities of β error for BLS and WLS are lower and similar to each other although the WLS intercept value is nearer the upper confidence interval limit. This means that the results are less reliable, although this is not reflected in 91 3. Normalidad de los coeficientes de regresión the estimated probabilities of β error. Results for the slope show that the estimated probabilities of β error in the three cases are very similar, despite the differences in the slope values from the three regression methods. However, if we look at the slope values we can be more confident about the accuracy of the one estimated by the BLS method as it is the closest to the reference value bH 0 . iteration 1 2 3 4 5 6 7 8 9 10 11 12 13 nb0 sˆbH 5 9 13 18 22 24 25 26 0.0974 0.131 0.0753 0.0666 0.0609 0.0530 0.0511 0.0492 0 sˆbH 1 0.0992 0.134 0.0769 0.0678 0.0622 0.0542 0.0522 0.0502 nb f na0 sˆ aH <0 <0 18 22 24 25 26 26 5 9 11 13 16 18 20 22 23 24 25 26 27 6.369 3.694 3.511 3.728 3.403 3.391 3.199 3.103 3.103 2.954 2.887 2.838 2.657 0 na f 9 11 13 16 18 20 22 23 24 25 26 27 27 Table 6. Iterations during estimation of the sample size for the slope and the intercept performed in data set 3. The process for estimating the sample size to achieve the calculated probabilities of β error in the slope (2.77%) and intercept (40.2%) for a level of significance of 5% is shown in Table 6. For the intercept, starting with an initial data set of five data pairs ( na0 column), thirteen iterations were needed to end up with twenty-seven data pairs. For the slope, twenty-six data pairs were needed to achieve convergence and there was no estimate of the data pairs until 13 had been considered ( nb0 column) since, according to the denominator of Eq. (13), high experimental errors may produce negative estimates of sample size for the slope (denoted by <0 in Table 6). 92 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 5. Conclusions The results of this work show that, in spite of the non-normality of the distributions of the BLS regression coefficients, the errors made in the calculating the confidence intervals for the BLS regression coefficients are lower than the ones made with OLS or WLS techniques for data with uncertainties in both axes. Thus, the probability of β error in the individual tests on the BLS regression coefficients can be estimated under the hypothesis of normality. We have also demonstrated that the expressions for estimating the probability of committing a β error when testing an individual regression coefficient with the BLS regression technique and considering different distributions for the reference ( a H 0 or bH 0 ) and for the biased ( a H1 or bH1 ) regression coefficients, provide correct results. Some sources of error have also been detected and identified to explain the disagreements produced in validating the results. The number of data pairs of the regression line appear to be crucial for better estimating the probability of β error. In addition, results in real data show that in some cases it may be interesting to calculate the probability of β error not with the set α threshold value, but with the maximum level of significance α for which no bias is detected in the regression coefficient. One would be more confident of the regression coefficient value being accurate than when it falls near one of the boundaries of the confidence interval (in this way the probabilities of α error would be higher but the probabilities of β error would be lower than in the usual way). Finally, we found that it is advisable to estimate the sample size, since it allows the experimenter to control the probabilities of committing α and β errors that they consider reasonable for the analytical problem in question. The iterative process for estimating the sample size guaranteed the chosen probabilities of making α and β errors when an individual test is applied to one of the estimated BLS coefficients and produced correct results for those data sets with moderate heteroscedasticity, but not for those with high heteroscedasticity. The experimenter also has to weigh up the pros and cons of performing the discontinuous series of experiments that this iterative procedure requires. 93 3. Normalidad de los coeficientes de regresión Acknowledgments We would like to thank the DGICyT (project no. BP96-1008) for financial support, and the Rovira i Virgili University for providing a doctoral fellowship to A. Martínez and F. J. del Río. References [1] W.A. Fuller, Measurement Error Models, John Wiley & Sons, New York, 1987. [2] R.L. Anderson, Practical Statistics for Analytical Chemists, Van Nostrand Reinhold, New York, 1987. [3] M.A. Creasy, Confidence limits for the gradient in linear in the linear functional relationship, J. Roy. Stat. Soc. B 18 (1956) 65-69. [4] J. Mandel, Fitting straight lines when both variables are subject to error, J. Qual. Tech. 16 (1984) 16 1-14. [5] C. Hartmann, J. Smeyers-Verbeke, W. Penninckx, D.L. Massart, Detection of bias in method comparison by regression analysis, Anal. Chim. Acta 338 (1997) 19-40. [6] J.M. Lisý, A. Cholvadová, J. Kutej, Multiple straight-line least-squares analysis with uncertainties in all variables, Comput. Chem. 14 (1990) 189-192. [7] J. Riu, F.X. Rius, Univariate regression models with errors in both axes, J. Chemom. 9 (1995) 343-362. [8] J. Riu, F.X. Rius, Assessing the accuracy of analyticas methods using linear regression with errors in both axes, Anal. Chem. 68 (1996) 1851-1857. [9] A.H. Kalantar, R.I. Gelb, J.S. Alper, Biases in summary statistics of slopes and intercepts in linear regression with errors in both variables, Talanta 42 (1995) 597-603. [10] Cetama, Statistique appliquée à l’exploitation des mesures, 2nd ed., Masson, Paris, 1986. [11] G. Kateman and L. Buydens, Quality Control in Analytical Chemistry, 2nd ed., John Wiley & Sons, New York, 1993. 94 3.2 Chemom. Intell. Lab. Sys. 49 (1999) 179-193 [12] M. Meloun, J. Militký and M. Forina, Chemometrics for Analytical Chemistry. Volume 1: PC-aided statistical data analysis, Ellis Horwood ltd., Chichester, 1992. [13] M.R. Spiegel, Theory and Problems of Statistics; McGraw-Hill, New York, 1988. [14] O. Güell, J.A. Holcombe, Analytical applications of Monte Carlo techniques, Anal Chem. 62 (1990) 529A - 542A. [15] J.J. Langenfeld, S.B. Hawthorne, D.J. Miller, J. Pawliszyn, Role of modifiers for analytical-scale supercritical fluid extraction of environmental samples, Anal. Chem. 66 (1994) 909-916. [16] I. Saouter, B. Blattmann, Analyses of organic and inorganic mercury by atomic fluorescence spectrometry using a semiautomatic analytical system, Anal. Chem. 66 (1994) 2031-2037. [17] I. Ruisánchez, A. Rius, M.S. Larrechi, M.P. Callao, F.X. Rius, Automatic simultaneous determination of Ca and Mg in natural waters with no interference separation, Chemom. Intell. Lab. Syst. 24 (1994) 55-63. [18] R. Boqué, F.X. Rius, D.L. Massart, Straight line calibration: something more than slopes, intercepts and correlation coefficients, J. Chem. Educ. (Comput. Ser.) 71 (1994) 230-232. [19] B.D. Ripley, M. Thompson, Regression techniques for the detection of analytical bias, Analyst 112 (1987) 337-383. [20] P.J. Ogren, J.R. Norton, Applying a simple linear least-squares algorithm to data with uncertainties in both variables, J. Chem. Educ. 69 (1992) 130-131. [21] V. López-Ávila, R. Young, F.W. Beckert, Microwave-assisted extraction of organic compounds from standard reference soils and sediments, Anal. Chem. 66 (1994) 1097-1106. [22] D. L. Massart, B.M.G. Vandeginste, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics: Part A, Elsevier, Amsterdam, 1997. [23] G.J. Hahn, W. Q. Meeker. Statistical Intervals, a guide for practitioners, John Wiley & Sons, New York, 1991. 95 3. Normalidad de los coeficientes de regresión 3.3 Conclusiones Tras el estudio de los coeficientes de regresión de la recta que considera los errores en las variables predictora y respuesta, se concluyó en primer lugar que dichas distribuciones difieren de la distribución normal. Tras comparar las distribuciones con otras distribuciones teóricas se pudo comprobar que tampoco se asemejan a ellas, reforzándose la hipótesis de que la diferencia entre las distribuciones reales y la normal es pequeña. Es por este motivo, que se intentó cuantificar el error cometido al utilizar dichas distribuciones bajo la hipótesis de normalidad. El error obtenido es pequeño y en cualquier caso menor que el cometido utilizando otros métodos de regresión estudiados (OLS y WLS). Por lo tanto el test individual sobre los coeficientes de regresión de la recta BLS puede llevarse a cabo bajo la hipótesis de normalidad en los coeficientes de regresión. Una vez comprobado que las distribuciones de los coeficientes de regresión pueden asimilarse a una distribución Gaussiana, pueden utilizarse los diferentes tests sobre la ordenada en el origen y la pendiente que requieren de esta condición. A parte de los tests individuales que se explican en este capítulo, también se utiliza el test conjunto de la ordenada en el origen y la pendiente,1,4 que permite discernir si los resultados obtenidos mediante dos métodos analíticos no difieren estadísticamente entre sí a lo largo de un intervalo de concentraciones. Para ello se debe comprobar que la ordenada en el origen no difiera estadísticamente de cero y que simultáneamente la pendiente no difiera significativamente de la unidad. En el capítulo 6 de esta Tesis Doctoral, se presenta una aplicación de los intervalos de confianza conjuntos. Estos intervalos se utilizan para desarrollar un criterio gráfico para la detección de puntos discrepantes cuando se tienen en cuenta los errores cometidos en las dos variables. 3.4 Referencias 1.- J. Riu, F.X. Rius, Analytical Chemistry, 68 (1996), 1851-1857. 2.- A.H. Kalantar, R.I. Gelb, J. S. Alper, Talanta, 42 (1995), 597-603. 96 3.4 Referencias 3.- D.L. Massart, B.G.M. Vandeginste, S.N. Deming, Y. Michotte, L. Kaufman, Chemometrics: a textbook, Elsevier, Amsterdam (1988). 4.- J. Riu, F.X. Rius, Trends in Analytical Chemistry, 9 (1995) 343-363. 97 4 Capítulo Predicción en BLS 4.1 Introducción 4.1 Introducción Una vez desarrollados los tests individuales sobre la recta BLS, una aplicación importante que se puede llevar a cabo sobre la recta de regresión es la predicción. La etapa de predicción en calibración lineal, donde normalmente la concentración de una muestra desconocida se calcula a partir del valor de la respuesta instrumental de un análisis de dicha muestra, es una aplicación ampliamente conocida y desarrollada en el campo de la química analítica. Sin embargo, la predicción tiene otras aplicaciones en el campo de la regresión lineal. Por ejemplo, en el ámbito de la comparación de métodos,1 donde en determinadas ocasiones es útil conocer la concentración y el intervalo de predicción que tendría una determinada muestra al ser analizada por un método analítico de referencia, conociendo el valor de su concentración al ser analizada por un método analítico de nueva implantación (generalmente más preciso y sencillo de utilizar). Tanto en los procesos de comparación de métodos analíticos como en los de calibración lineal en que el error asociado a la variable predictora no sea despreciable frente al asociado a la variable respuesta, deberá aplicarse la regresión lineal considerando los errores cometidos en ambas variables. Un ejemplo en el que debería aplicarse la regresión lineal considerando los errores en ambas variables lo constituye la fluorescencia por rayos X en la cual, debido a la complejidad de las muestras reales (normalmente muestras geológicas), la recta de regresión se encuentra utilizando como patrones de calibración materiales de referencia certificados (CRM), cada uno de ellos con incertidumbres asociadas a su valor de concentración.2 Otro ejemplo lo suponen las técnicas espectroscópicas, donde la disminución del error de la variable respuesta hace que se deban considerar los errores en la variable predictora.3 La utilización de los intervalos de predicción considerando únicamente los errores experimentales cometidos en la variable respuesta tiene asociados una serie de problemas. A parte de los problemas derivados directamente de no considerar los errores experimentales asociados a la variable respuesta, tales como el sesgo introducido en los coeficientes de la recta de regresión, se puede destacar 101 4. Predicción en BLS el hecho de que los intervalos de predicción (y por consiguiente los resultados derivados de su utilización) varían dependiendo de cuál de las variables es considerada como predictora y cual como respuesta. En muchas ocasiones esta asignación se hace de forma rutinaria, como en los procesos de calibración, donde la concentración se asocia a la variable predictora y la respuesta instrumental a la variable respuesta, o en comparaciones de metodologías de análisis, donde se suele asociar como variable predictora al método considerado como de referencia y a la variable respuesta un método de nueva implantación. Sin embargo, esta clasificación no está clara en otros casos, como por ejemplo en la comparación de los resultados obtenidos por dos laboratorios del mismo nivel metrológico o de varios analistas dentro de un mismo laboratorio, y los resultados de utilizar una u otra asignación no deberían variar. Para solucionar todos estos problemas, en esta Tesis Doctoral se han desarrollado las expresiones para el cálculo del error asociado a la predicción cuando se consideran los errores en las dos variables. Para ello se han seguido dos caminos paralelos. El primero de ellos está basado en las expresiones, ampliamente descritas en la bibliografía1,4 para el cálculo de la varianza asociada a la predicción (tanto de la variable respuesta como de la variable predictora) cuando se consideran los errores cometidos únicamente en la variable respuesta mediante una regresión por mínimos cuadrados (es decir utilizando OLS o WLS), y que han sido introducidos en el apartado 2.5.1. Estas ecuaciones se han modificado para adaptarlas a la situación en que se consideran los errores asociados a las variables predictora y respuesta, mediante una ponderación debida a los errores individuales experimentales cometidos en las dos variables. La segunda vía ha sido a partir de la teoría de propagación de los errores5,6 sobre la ecuación de la recta de regresión ( y = b0 + b1 x ). Esta teoría permite calcular la varianza de una función matemática (en nuestro caso la expresión de la recta de regresión), a partir de la serie de Taylor, donde no se tienen en cuenta los términos de orden superior a dos. En este capítulo se presenta el artículo: “Prediction intervals in linear regression taking into account errors on both axes”, aceptado para su publicación en la revista Journal of Chemometrics. En este artículo, se explica el proceso seguido para obtener las expresiones para calcular los errores asociados a la predicción tanto de la variable respuesta como de la variable predictora. En primer 102 4.1 Introducción lugar se obtienen las expresiones del error asociado a la predicción de la variable respuesta mediante cada uno de los dos procedimientos explicados. Tras comparar sus resultados se concluye que dichas expresiones son equivalentes. La validación de las mismas se lleva a cabo a partir de la comparación con los valores de la varianza asociada a la predicción, obtenidos mediante una simulación por medio del método de Monte Carlo,6-9 que son considerados como reales. La utilización de un método de simulación se debe a la imposibilidad de conocer los valores reales de las varianzas asociadas a los valores predichos. Una vez validadas estas expresiones se siguió un proceso similar para desarrollar y validar una expresión para el cálculo de la varianza asociada a la predicción de la variable predictora. Tras obtener las expresiones del error al predecir cada una de las variables se procedió a comprobar la invariabilidad de los resultados al hacer un intercambio entre las variables (es decir al cambiar la asignación de las variables predictora y respuesta). En las siguientes secciones del capítulo se presentan las conclusiones que se extraen del artículo que se presenta a continuación, así como algunas perspectivas que se abren de los resultados obtenidos, para finalmente presentar brevemente la bibliografía referida en este capítulo. 103 4. Predicción en BLS 4.2 Prediction intervals in linear regression taking into account errors on both axes Journal of Chemometrics, aceptado para publicación F. Javier del Río*, Jordi Riu, F.Xavier Rius Department of Analytical and Organic Chemistry. Universitat Rovira i Virgili. Pl. Imperial Tarraco, 1. 43005-Tarragona. Spain. This study reports the expressions for the variances in the prediction of the response and predictor variables calculated with the bivariate least squares regression technique (BLS). This technique takes into account the errors on both axes. Our results are compared to those of a simulation process based on six different real data sets. The mean error in the results from the new expressions is between 4 and 5%. With weighted least squares, ordinary least squares, constant variance ratio approach and orthogonal regression, on the other hand, mean errors can be as high as 85%, 277%, 637% and 1697% respectively. An important property of the prediction intervals calculated with BLS is that the results are not affected when the axes are switched. Keywords: Prediction; linear regression; errors on both axes; confidence intervals; predictor intervals Received 10 March 2000; accepted 30 October 2000 104 4.2 J. Chemometrics, en prensa 1. INTRODUCTION The extraordinary mathematical properties of ordinary least squares, OLS, together with its practical performance characteristics, are the main reasons why this is the most commonly used regression technique among the analytical chemistry community. However, OLS is based on a set of mathematical hypotheses -the homoscedasticity on the y-axis or the absence of errors on the x-axis- that are not always fulfilled. This may lead to biased regression coefficients of the straight line and therefore to erroneous predictions [1,2]. Method comparison studies, where the errors from each method are usually of the same order of magnitude, or calibration lines where the errors on the instrumental responses are similar to those from the concentration values [3-5], are situations in which OLS often provides biased results. An improvement on the OLS technique is the weighted least squares (WLS) technique [1,6], which takes into account heteroscedasticity in the y-axis. However, WLS still considers the x-axis to be error free. Errors-in-variables regression [7], also called the constant variance ratio (CVR) approach [8-10], considers the errors on both axes. It does not take into account the individual errors of each experimental point but considers the ratio of the variances of the response to predictor variables to be constant for every experimental point (λ=sy2/sx2=ct). A particular case of the CVR approach is orthogonal regression (OR) [11], in which the errors are considered to be of the same order of magnitude in the response and predictor variable (i.e. λ=1). In the literature, this case is also called orthogonal distance regression (ODR) [2] or total least squares regression (TLS) [12]. The bivariate least squares (BLS) method [13,14] is a linear regression technique that can overcome the limitations of the previous methods i.e. the fact that the individual errors on both variables are not considered. This technique calculates the straight line regression coefficients by taking into account the 105 4. Predicción en BLS individual heteroscedastic errors on both axes (i.e. sy2 and sx2 for every experimental point). BLS has been applied, for instance, in method validation studies to detect bias in newly developed analytical methodologies [15], and in calibration stages where the errors associated to the predictor variable are of the same order of magnitude as the errors associated to the response variable [3]. This is the situation, for instance, of some AAS or EAS analyses, where the response variable has small errors, which are of the same order of magnitude as those associated to the predictor variable. Calculating predicted values in regression analysis by considering individual heteroscedastic errors on both axes is an important issue in practical instances that has been given little attention to date. Prediction intervals from linear regression taking into account errors on both axes, should be considered, for example, when calculating the results and confidence intervals of a new method from historical values recorded by a previously established methodology, or when evaluating the relationship between two dating methodologies, both of which incorporate errors, in order to determine the chronology of archaeological samples. Another situation in which BLS can be applied is the analysis of chemical elements in rocks using X-ray fluorescence. Because of the complexity of the samples (i.e. geological samples), certified reference materials (CRM) of the analyte of interest are often used to build the calibration line. If this is so, each CRM has errors associated to the concentration values and regression techniques which consider the errors on both axes should be used. This paper develops and validates new expressions for calculating the confidence and prediction intervals for the response variable given a value of the predictor variable, and for the predictor variable given a value of the response variable, using the BLS regression technique, i.e. by considering the individual errors of every experimental point. There are other procedures in the literature for estimating the regression parameters (as well as their underlying uncertainties) in linear regression taking into account heteroscedastic individual errors [7,14], but 106 4.2 J. Chemometrics, en prensa we are not aware of the expressions for calculating the variances for the predictor and response variables when this error structure is met. The expressions for the intervals when considering errors on both axes are derived from a generalisation of the existing OLS and WLS expressions. The same results have also been found with the error propagation theory [16]. To validate the suitability of the new confidence and prediction intervals, we used six real data sets in which random errors based on the individual variances of each real point were added to the data sets using the Monte Carlo method. The values obtained with the new expressions based on BLS agree with the theoretical values better than the results from the expressions based on OLS, WLS, OR or CVR. One of the most important properties of the BLS prediction intervals is that they do not vary when the axes are switched. 2. BACKGROUND AND THEORY 2.1. Bivariate least squares technique From all the least squares approaches for calculating the regression coefficients when there are errors on both axes, Lisý's method [13] (referred to as BLS) is the most suitable [14]. This technique assumes the true linear model to be ηi = β 0 + β1ξi (1) where β0 and β1 are the intercept and slope of the true linear model between the true variables ξi and ηi. These variables cannot be observed. Instead, one can only observe the experimental variables xi = ξi + δ i (2) yi = ηi + γ i (3) 107 4. Predicción en BLS where δi and γi are random errors made when measuring predictor and response variables respectively, and δ i ~ N (0, σ 2xi ) and γ i ~ N (0, σ 2yi ) . In this way, by introducing (2) and (3) into (1) and isolating yi, we obtain the following expression yi = β 0 + β1 xi + ε i (4) where εi is the ith true residual error with ε i ~ N (0, σ 2εi ) [17] and can be expressed as a function of δi, γi and β1: ε i = γ i − β1 δ i (5) Many authors have developed procedures to estimate the regression line coefficients based on a maximum likelihood approach whenever errors on both variables are present [5, 18-20]. In most cases these methods need the true predictor variable to be carefully modelled [18]. This is not usually possible in chemical analysis, where the predictor variables are often constant values (i.e. functional models are assumed). Moreover, there are cases in which the experimental data is heteroscedastic and estimates of measurement errors are only available through replicate measurements (i.e. the ratio σ xi σ yi is not constant or is unknown). These conditions, which are common in chemical data, make it very difficult to apply the principle of maximum likelihood rigorously to the estimation of the regression line coefficients. On the other hand, Sprent [17] presented a method for estimating the regression coefficients using a maximum likelihood approach even when a functional model is assumed. This method is not rigorously applicable when individual heteroscedastic measurement errors are considered. Moreover, when assuming σ yi = λσ xi for any i, least squares methods provide the same estimates for the regression coefficients as a maximum likelihood estimation approach [21]. For these reasons, we have chosen an iterative least squares method that can be used on any group of ordered pairs of observations with no assumptions about the probability distributions [21]. This allows the method to be used on real 108 4.2 J. Chemometrics, en prensa chemical data when individual heteroscedastic errors on both axes are considered. The BLS regression method then relates variables xi and yi as follows [22]: yi = b0 + b1 xi + ei (6) where b0 and b1 are the respective estimates of the intercept and the slope of the true linear model and ei is the ith residual error. The variance of ei is s e2i and will be referred to as the weighting factor (wi). This parameter considers the experimental variances of any individual point on both axes ( s x2i and s 2yi ) obtained from replicate analysis. It should be pointed out that it is very important to correctly estimate the individual errors by means of replicates of the experimental measurements in timedifferent intermediate conditions. If the variances associated with the experimental points are extremely low, the regression line will tend to fit these points perfectly. However, very slight deviations from the regression line may cause lack of fit in the data set, and hence the derived statistical test from the BLS regression coefficients may be invalid. The covariance between the variables for each (xi, yi) data pair, which is normally assumed to be zero, is also taken into account: 2 wi = se2i = s 2yi + b1 s x2i − 2b1 cov( xi yi ) (7) The BLS regression method finds the estimates of the regression line coefficients by minimising the sum of the weighted residuals, S, expressed as S= n ∑ i =1 ( y i − yˆ i ) 2 = ( n − 2) s 2 wi (8) where the estimation of the experimental error, s2, corresponds to S/(n-2). By minimising the sum of the weighted residuals (Equation (8)), two non-linear equations are obtained and by putting in the partial derivatives of the squared residuals the following can be written in matrix form: 109 4. Predicción en BLS Rb = g n n ∑ 1 s e2i ∑ ∑ xi s e2i ∑ i =1 n i =1 i =1 n i =1 2 ∂s e2i y i + 1 ei 2 2 2 b ∂ s s 0 i =1 e b0 ei i × = 2 2 2 xi b1 n xi y i 1 ei ∂s ei 2 + s ei s e2 2 s e2i ∂b1 i =1 i xi s e2i (9) n ∑ (10) ∑ To determine the slope and the intercept, which are the components of vector b in Equations (9) and (10), it is only necessary to carry out an iterative process [13,14] on the following matrix form: b = R −1g (11) With this method the variance-covariance matrix of the calibration straight line coefficients are obtained without having to use additional expressions, only by multiplying the final matrix R-1 by s2 Interestingly, whenever the variances of the predictor variable values are zero and all the variances on the response variable are the same (i.e., all errors are constant and only due to the experimental measurement in the y-axis), the results are identical to those from the OLS method. 2.2. Variance for the response variable In the OLS method, the well known expression for the variance of the predicted observation of a future sample of the response variable y0, obtained as the mean of q observations performed at x0, is given by [2]. 110 4.2 J. Chemometrics, en prensa s 2y0 2 ( x − x) 2 1 1 ⋅s = + + n 0 q n 2 ( xi − x ) i =1 ∑ (12) where x is the mean value of the predictor variable and s2 is the estimate of the true experimental error (σ2): n s2 = ∑( y i − yˆ i ) 2 i =1 n−2 (13) Equation (12) can also be expressed in matrix form: 1 s 2y0 = + X ′0 ⋅ ( X ′ ⋅ X ) −1 ⋅ X 0 ⋅ s 2 q (14) where X0 is a two-element column vector formed by a 1 in the first row and the predictor variable (x0) in the second row, and X is an nx2 matrix in which the first column is a column of ones and the second is formed by the n values of the predictor variable corresponding to the experimental points. For the WLS technique, which takes into account heteroscedastic errors on the response variable, the variance for the predicted observation y0, calculated as the mean of q observations performed at a selected value of x0 is given by [6] 1 s 2y0 = + X ′0 ⋅ ( X ′ ⋅ V −1 ⋅ X ) −1 ⋅ X 0 ⋅ s 2 q (15) where V is an nxn diagonal matrix whose ith element corresponds to the variance of yi ( s 2yi ), and s2, the estimate of the experimental error, now takes into account the variances of the response variable as the weighting factor: 111 4. Predicción en BLS n s2 = ∑ i =1 ( y i − yˆ i ) 2 s 2yi (16) n−2 In the CVR approach, the expression for the variance in the prediction of the response variable from a measured value of the predictor variable calculated as the mean of infinite observations (i.e. q=∞), is [10] s 2y0 1 = b12 s δ2 + + (1 + kb1 ) 2 n ( x0 − x) ⋅ s 2 (17) n n e ( x i − x ) 2 + 2k ( x i − x )( y i − y ) + k 2 ( y i − y ) 2 i =1 i =1 2 ∑ ∑ where k, s δ2 and s e2 are defined in the process of finding the regression coefficients ( s δ2 refers to the error for the predictor variable and s e2 is associated with the estimate of the experimental error). If λ, which appears in the coefficients k and b1 in Equation (17), is chosen to be unity, results for the OR method are obtained. Looking at the OLS and WLS expressions (Equations 14 and 15), we can see that the only difference between them is the V matrix which takes into account the errors on the response variable. Since BLS is also a least squares method and its results are consistent with the OLS and WLS ones when the structure of the errors is met (i.e. when there are no errors on the predictor variable and constant errors on the response variable for OLS or non-constant errors on the response variable for WLS) to find the BLS expressions it would only be necessary to introduce a term taking into account the errors on both axes. By adapting the OLS and WLS expressions, the variance in the prediction of the mean value of response variable given a value of the predictor variable for the BLS regression technique is given by s 2y0 = X ′0 ⋅ ( X ′ ⋅ W −1 ⋅ X ) −1 ⋅ X 0 ⋅ s 2 112 (18) 4.2 J. Chemometrics, en prensa where W is an nxn diagonal matrix whose ith-diagonal element is the weighting factor wi defined in (7). This weighting factor takes into account the errors on both axes. The estimate for the experimental error is now n s2 = ∑ i =1 ( y i − yˆ i ) 2 wi n−2 (19) However, in (18) there is still one term that needs to be considered to obtain the variance associated with predicting a mean value: the error associated to the predictor variable (x0) when its error is also taken into account (i.e. considering the errors on both axes). This term is obviously neglected in the OLS or WLS expressions. To correct the difference in ranges between the two axes, the square of the slope must be introduced, because the slope can be considered as a quotient between the value of the predictor and the response variable. The expression for the variance of the response mean value at a given observation x0 is ( ) s 2y0 = X ′0 ⋅ ( X ′ ⋅ W −1 ⋅ X ) −1 ⋅ X 0 + s x20 ⋅ b12 ⋅ s 2 (20) In the previous equation and the following ones in which the variance of x0 appears (i.e. s x20 ), this value is supposed to be known by replicate measurements in x0. Another way of calculating it, although it is not considered in this paper, may be by modelling the variances in the x-axis [23]. On the other hand, an independent expression for the variance for the predicted mean value of the response variable can be found by applying the error propagation theory [16] to the straight line model. This expression is given in (21). The covariances between the regression coefficients and x0 are assumed to be negligible. 113 4. Predicción en BLS s 2y0 = sb20 + x 02 sb21 + b12 s x20 + 2 x 0 cov(b0 , b1 ) (21) where sb20 and sb21 are the estimates of the variances of the intercept and the slope respectively, and cov(b0 , b1 ) is the covariance between the two regression coefficients. They can be found directly from the variance-covariance matrix using the BLS method (R-1·s2 in Equations (9)-(11)).13,14 Because of the two different ways of obtaining expressions (20) and (21), which calculate the variance in the prediction of the mean value of the response variable, the fact that their results match seems to be an internal validation of the expressions. The variance in the prediction of the response variable of a future sample using the BLS technique must take into account the variances in the regression line (Equations (20) or (21)) and the new observation. Equation (22) gives the final matrix expression for calculating the variance of the response variable y0 as the mean of q observations performed at x0: 1 s 2y0 = + X ′0 ⋅ ( X ′ ⋅ W −1 ⋅ X ) −1 ⋅ X 0 + s x20 ⋅ b12 ⋅ s 2 q (22) 2.3. Variance for the predictor variable Studying of the variance for the predictor variable given a value of the response variable is similar to studying of the prediction of the response variable. Only the new expressions developed for the BLS method are presented here. When errors on both axes are taken into account, and the same procedure as for the prediction of the response variable is used, the resulting expression for the variance of the predictor mean value at a given observation y0 is 114 4.2 J. Chemometrics, en prensa 1 s x20 = Y0′ ⋅ ( Y ′ ⋅ W −1 ⋅ Y ) −1 ⋅ Y0 + s 2y0 ⋅ 2 ⋅ s ′ 2 b1 (23) where Y0 is a two-element column vector with a 1 in the first row and the response variable y0 in the second row, Y is an nx2 matrix whose first column is a column of ones and whose second column is made up of the n values corresponding to the response variables of the experimental points, W is an nxn diagonal matrix whose ith-diagonal element is the weighting factor wi′ , and s ′2 is the experimental error associated with the predictions on the x-axis and corresponds to n s ′2 = ∑ i =1 ( y i − yˆ i ) 2 wi′ n−2 (24) The weighting factor wi′ is now defined as wi′ = s x2i + 1 2 1 s − 2 cov( xi , y i ) 2 yi b1 b1 (25) The variance of the prediction of the predictor variable of a future sample at y0, obtained as a mean of q observations, is found from 1 1 s x20 = + Y0′ ⋅ ( Y ′ ⋅ W −1 ⋅ Y ) −1 ⋅ Y0 + s 2y0 ⋅ 2 ⋅ s ′ 2 b1 q (26) 2.4. Prediction intervals When linear regression with errors on both axes is used, the distributions of both the intercept and the slope can be assumed to be normal [24] without any significant error being made. Furthermore, three methods for testing the normality of a given variable (Kolmogorov test [25], normal probability plots [16] and the Cetama method [26], in order to assure that conclusions are correct) were applied 115 4. Predicción en BLS to a group of simulated values of the response and predictor variables generated by the Monte Carlo simulation method. The results (not shown) indicate that, although the response and predictor variables may be non-normally distributed, in most cases they are normal or very close to normality. The hypothesis that their distribution is normal is therefore acceptable. The expressions of the confidence and prediction intervals for the response and predictor variables are then defined by y 0 ± t α , n − 2 s y0 (27) x 0 ± t α , n − 2 s x0 (28) where tα,n-2 is the t-value for a given level of significance α and n-2 degrees of freedom. The expressions validated in this paper are those for the prediction intervals for the predictor and response variables (where the future sample is obtained as a mean of infinite analyses, i.e. q=∞) [27], since no information is provided in the original data sets about prediction for a future sample or, hence, its associated replicates (i.e. there is no information about q, s x20 nor s 2y0 ). For example, the BLS prediction interval of the response variable for Data set 3 in the Experimental Section is shown in Figure 1, where the future sample is considered to be a consequence of infinite analysis (i.e. q=∞). In the linear regression in which errors on both axes are taken into account, the pattern of the prediction intervals is very irregular. This is due to the dependence between the prediction interval and the variance of the point in which the prediction is made (i.e. the final term in brackets in (22) or (26)). If these terms were constant throughout the regression interval, the prediction interval would be the classic hyperbola of the OLS regression technique. However, since both variables are usual to be heteroscedastic, these variances are not constant and the pattern for the prediction intervals which take into account errors on both axes can only be strictly calculated at points in which the individual experimental error is known. The continuous line for the prediction interval along the regression line is drawn by 116 4.2 J. Chemometrics, en prensa interpolating between contiguous points. Another way to obtain the pattern of the prediction intervals is to model the variances associated to both variables [23], but this solution may not be totally rigorous, since it forces the variances to follow a selected pattern. In this paper we have preferred to take the first option. 35 y 25 15 5 0 10 20 30 x Figure 1 Experimental points for Data set 3, BLS regression line and prediction intervals for the response variable. A significance level of α = 5% was selected. The vertical and horizontal lines at any experimental point are twice the standard deviation on each axis. 3. EXPERIMENTAL 3.1. Data sets and software Six real data sets were used to validate the expressions for calculating the variance for the response variable given a value of the predictor variable and for the predictor variable given a value of the response variable. In the data sets used, mainly in method comparison studies, the established method is normally placed on the x-axis while the new method is placed on the y-axis. Data sets 3 and 6 were introduced to show the usefulness of the new expressions in other fields. These six data sets are plotted in Figure 2. For the sake of clarity, only the BLS, OLS and WLS regression lines have been drawn in Figure 2. In most of the data sets studied 117 4. Predicción en BLS in this section the variances associated to the errors of the experimental points are found using a few replicates (for instance only three). In this paper we have preferred to take into account the individual errors (i.e. using the BLS expressions), although their estimation in some cases is far from optimal, rather than not take into account the individual errors even though they exist (i.e. using the OLS or WLS expressions). Data Set 1: Concentrations of polycyclic aromatic hydrocarbons (PAHs) recovered from railroad bed soil after supercritical fluid extraction (SFE) with CO2 as the modifier on the x-axis, and CO2/10% toluene as the modifier on the y-axis [28]. The standard deviations are obtained from three determinations at each of the 7 experimental points. The data set ranges from 1.4 to 26.9 µg/g of soil. The standard deviations for all experimental points are similar in both methods. Data Set 2: A method comparison study for analyzing Mg2+ in natural waters with atomic absorption spectrometry (AAS) on the x-axis, and sequential injection analysis (SIA) on the y-axis [29]. The errors on AAS are derived from four replicates in the analysis. The errors on the SIA method are calculated from the multivariate regression model developed using the partial least squares (PLS) technique. The comparison consists of 26 data pairs within the range 0.4 and 46.3 mg/l. In all cases, the errors from the SIA method are larger than those from AAS. Data Set 3: The composition of a set of archaeological samples of unknown origin (on the x-axis) is compared to a reference set of known origin (on the y-axis) with neutron activation analysis (NAA). Concentrations of six metal ions (Ce, Co, Cr, Fe, La and Sc) expressed in ppm (except for Fe which is in percent) are determined for a number of pottery jar handles found in Tell enNasbeh [30]. In this way the concentration of the six metal ions is placed in the x and y axes in an attempt to compare the origins of the two sets of samples based on these chemical analysis. 118 4.2 J. Chemometrics, en prensa 25 20 50 140 Undefined origin (ppm; Fe in %) 60 (1) SIA (µg/l) CO2/10% toluene (µg/g) 30 (2) 40 30 15 20 10 10 120 5 10 15 WLS:dotted line OLS:dashed line BLS:solid line 20 25 CO2 (µg/g) -20 -20 0 20 WLS:dotted line OLS:dashed line BLS:solid line 40 60 AAS (µg/l) 150 100 50 80 90 100 130 La Sc Co Fe 0 0 WLS:dotted line OLS:dashed line BLS:solid line 50 100 Reference group (ppm; Fe in %) 150 70 (5) (6) 20 60 15 50 10 40 5 30 0 WLS:dotted line OLS:dashed line BLS:solid line 110 120 Solvent (%) Ce 40 -20 -50 80 25 (4) 60 ∆µV 200 80 20 -10 30 AES (mg/l) Solvent and soil (%) 0 0 Cr 100 0 5 (3) -5 -5 20 0 5 WLS:dotted line OLS:dashed line BLS:solid line 10 15 20 AAS (mg/l) 25 10 40 60 80 WLS:dotted line OLS:dashed line BLS:solid line 100 120 140 ∆kPa 160 Figure 2 BLS (solid line), OLS (dashed line) and WLS (dotted line) regression lines for the six real data sets. The experimental points are shown with their associated errors. Data Set 4: The percentage of recovery for several organochlorine pesticides after microwave-assisted extraction (MAE) with solvent (hexane/acetone 1:1) on the x-axis, and solvent/soil suspensions spiked with the target compounds on the y-axis [31]. The standard deviations are obtained from three determinations at each point. The experiment consists of 20 points with recoveries ranging from 83 to 169%. The variances on both axes are quite large, and there is a possible outlier at high recovery values. Data Set 5: A method comparison study for determining arsenic in natural water using continuous selective reduction and atomic absorption spectrometry (AAS) on the x-axis, and reduction, cold trapping and atomic emission spectrometry (AES) on the y-axis [32]. The study consists of 30 points ranging from 0 to 19.3 µg/l. The errors are proportional to the concentration determined by both methods. 119 4. Predicción en BLS Data Set 6: Data from the measurement of the CO2 Joule-Thompson coefficient [33]. The data correspond to thermocouple measured voltage differences (∆ µV) on the y-axis, as a function of pressure increments (∆ kPa) on the x-axis. There were 11 equally distributed data pairs with estimated x-axis variances of one. The y-axis variances were estimated to range between one and two units. 3.2. Validation process A first step in validating the expressions to calculate the variances associated with the mean value of the response variable when considering errors on both axes (Equations (20) and (21)) is to compare the results from the two expressions. To check the expression obtained for calculating the variance of the predictor variable (Equation (23)), we compared the results from this expression with those from equations for calculating the variance of the response variable (Equations (20) and (21)) after switching the variables on the axes. This comparison can also be used to check the reversibility of the axes with the expressions for calculating the variances for both predictor and response variables. BLS straight line Obtention of y1 BLS straight line Obtention of y2 1 Initial data set Monte Carlo 2 Variance of the response 3 BLS straight line q ·· · Obtention of y3 ·· · BLS straight line ·· · Obtention of yq Figure 3 Scheme of the simulation using the Monte Carlo method followed to obtain the real variance of the response for a value of the predictor variable. Once the results from Equations (20) or (21) and (23), when the axes were switched, have been proved to be coincide, the Monte Carlo simulation 120 4.2 J. Chemometrics, en prensa technique [34] was used to check their validity in real cases. The Monte Carlo method was used to generate a value for the predicted variable from a value of the response variable and vice versa at two different random points for each of the six initial real data sets taking into account the individual variances of each experimental point on both axes. The process was repeated 10,000 times for each one of the two different points in each data set. For each of the 10,000 times, the BLS regression line was calculated and used to predict a value of the response or predictor variable, so we finally had 10,000 'replicates' and hence q=10,000 (Figure 3). The individual uncertainties on both axes were considered to be equal to the uncertainties of the real data pairs. This ensured that possible errors on estimating the variances for the response and predictor variables could only be due to the theoretical expressions and not due to inaccurately estimating the individual uncertainties on both axes. Finally, the variance of these 10,000 values for each real data set was calculated and compared with the predicted variance given by the theoretical expressions. The same simulation process was repeated for the other regression methods. Again the individual errors on both axes were considered (since the errors on both axes exist, although some regression methods ignore them) and the regression lines were calculated for the 10,000 'replicates' with the different regression methods. Again, the variance of these 10,000 values was calculated and compared with the predicted variance given by the theoretical expressions for each regression method. In the CVR approach, λ was chosen to be the ratio between the average of the variances of the response variable and the average of the variances of the predictor variable for each data set. All calculations were performed with customized software with MATLAB (The Mathworks, Inc., Natik, MA, USA). (The MATLAB code is available on request from the authors.) 121 4. Predicción en BLS 4. RESULTS AND DISCUSSION 4.1. Variance for the prediction of the response variable Table I shows the variance of the response variable calculated from the BLS expressions at two randomly selected values for the six data sets described in the Experimental Section. In order to have known variances of the predicted value, only the points of the real data set have been considered as candidates for the predicted value since we had no information nor replicates of points other than the ones used in the calibration line. All the results from (20) and (21) match up to the eighth decimal place. The two expressions must, therefore, be considered the same. This is an important step in the validation process because the fact that the results are identical can be considered an internal validation of the expressions. Table I.- Expressions 20 and 21 for calculating of the variance for the prediction of the response variable and the differences between them. Data Set 122 x0 sy20 sy20 Predicted Equation (20) Equation (21) 1 16.80 6.40655210 6.40655210 1 7.10 1.71674460 1.71674460 2 29.30 8.01060550 8.01060550 2 13.00 5.69862276 5.69862276 3 11.70 0.57148232 0.57148232 3 23.40 0.03850903 0.03850903 4 81.90 7.63379592 7.63379592 4 123.00 7.06714730 7.06714730 5 7.92 4.17691152 4.17691152 5 4.66 1.88624149 1.88624149 6 57.00 0.14971572 0.14971572 6 21.00 0.21554948 0.21554948 4.2 J. Chemometrics, en prensa 4.2. Reversibility of axes. Variance for the predictor and response variables An interesting feature of the BLS regression technique is that it is invariant when the axes are switched. OLS or WLS regression techniques do not have this feature, since only homoscedastic or heteroscedastic errors are taken into account on the y-axis, and two different regression lines with different confidence intervals are obtained according to the variable placed on each axis. The CVR and OR approaches, are also invariant when the axes are switched. To check the reversibility of the axes, the variance corresponding to the prediction of the response variable on the y-axis (e.g. for a new method in a method comparison study or the response variable in a calibration process) was calculated (from (20) or (21)) for a fixed value of the predictor variable on the x-axis (corresponding to an established method or to the concentration variable). The axes were then switched and the variance of the variable on the x-axis (formerly the so-called new method or the response variable) was the same as for the predictor variable (the established sy0 70 (a) Established Method New Method 80 60 40 (b) 60 50 40 30 20 20 0 10 -20 0 10 20 30 40 50 60 Established Method 70 0 -20 0 20 40 sx0 60 80 New Method Figure 4 The process of exchanging the axes in a method comparison analysis is presented in a generic case, where predictor intervals (broken lines) are plotted for an α value of 5% a) Standard deviation for the predicted value of a new method (response variable) at a given value of an established method (predictor variable) b) Predicted values upon switching axes. In this case the standard deviation is for the predicted value of the new method (predictor variable) at a given value of the established method (response variable). 123 4. Predicción en BLS Table II.- Expressions for calculating the variances of the predictor and response variables when their axes are switched and the differences between them. Data Set x0 / y0 sx20 s y20 Predicted Equations (20) and (21) Equation (23) 1 17.80 3.45781347 3.45781347 1 4.60 4.95883603 4.95883603 2 32.10 20.99017650 20.99017650 2 0.30 100.63858697 100.63858697 3 14.00 0.53514345 0.53514345 3 23.80 0.07533935 0.07533935 4 103.00 79.88020685 79.88020685 4 107.00 881.92789365 881.92789365 5 7.01 7.90043654 7.90043654 5 5.66 1.92173104 1.92173104 6 140.00 1.67904956 1.67904956 6 60.00 5.84275834 5.84275834 method on the y-axis or the concentration variable) using (23). This process can be seen in Figure 4. The reversibility of the axes was tested for two random points in each of the six data sets. Table II shows that placing the methods on either of the two axes does not change the results for the variances of the predicted value. Table 2 also shows the agreement between the expressions for calculating the variance of the predictor and response variables when the axes are switched, since the results are identical. These results show that (23) is also internally validated. 4.3. Validation of the results with the Monte Carlo simulation method The expressions for calculating the variance of the true mean of the predicted variables were validated by comparing the calculated variance values with those of the Monte Carlo simulations, which we considered were the correct ones. The values obtained from the simulation process were also compared with 124 4.2 J. Chemometrics, en prensa those from the expressions for OLS, WLS, CVR and OR. The differences may be significant if the techniques are used in situations in which there are heteroscedastic errors on both axes. Table III shows the results for the variance in the prediction of the true mean of the response variable, and Table IV shows the results for the variance in the true mean of the predictor variable. In all the individual cases (except two for the response variable and one for the predictor variable), the agreement between the simulated and calculated variances in the response and predictor variables obtained with BLS is significantly better than the agreement with the other four regression methods. The mean errors for the variances of the response and predictor variables found with BLS, WLS, OLS, CVR and OR are 4-5%, 57-85%, 277-205%, 444-637% and 1697-462%, respectively. The agreement between the simulated and the BLS results is not surprising since the BLS assumptions are always consistent (provided that estimates of the individual errors are good) with the structure of the data sets. If, for instance, the structure of the data sets had been of very small errors on the predictor variable and non-constant errors on the response variable, then the BLS and the WLS expressions would have given results which were very near to the simulated values for these hypothetical data sets. Table III.- Variance values of the new method (response variable), calculated from (20) and (21), with the experimental values from the simulation process on the six real data sets, and the results from OLS, WLS, CVR and OR regression methods. Data Set x0 s y20 s y20 Pred. Simul. BLS Error (%) s y20 Error (%) OLS s y20 Error (%) WLS s y20 Error (%) CVR s y20 Error (%) OR 1 17.80 6.9337 6.4066 7.60 0.8715 87.43 3.1740 54.22 1.9556 71.80 2.4708 64.37 1 4.60 1.7601 1.7167 2.47 0.6510 63.01 0.2547 85.53 1.7330 1.54 2.2459 27.60 2 32.10 8.0788 8.0106 0.84 2.9733 63.20 2.0940 74.08 5.0474 37.52 30.1071 272.67 2 0.30 6.4005 5.6986 10.97 5.5663 13.03 6.2511 2.33 7.6424 19.40 32.9836 415.33 3 14.00 0.5568 0.5715 2.64 0.7833 40.68 0.0366 93.43 1.1714 110.38 2.3364 319.61 3 23.80 0.0387 0.0385 0.52 1.0131 2517.83 0.0143 63.05 1.4007 3519.38 2.5659 6530.23 4 103.00 7.7837 7.6338 1.93 20.3506 161.45 5.0557 35.05 59.8349 668.72 976.4771 12445.15 4 107.00 7.3417 7.0671 3.74 17.0338 132.01 5.8768 19.95 56.3773 667.91 9.5010 29.41 5 7.01 4.4771 4.1769 6.71 0.0610 98.64 0.0289 99.35 0.4397 90.18 0.5412 87.91 5 5.66 2.0327 1.8862 7.21 0.0383 98.12 0.1176 94.21 0.4165 79.51 0.5178 74.53 6 140.00 0.1486 0.1497 0.74 0.1633 9.89 0.0832 44.01 0.2218 49.26 0.2873 93.34 6 60.00 0.2153 0.2186 1.53 0.1193 44.59 0.1622 24.66 0.1778 17.42 0.2433 Mean error (%): 3.91 277.49 57.49 444.42 13.01 1697.76 125 4. Predicción en BLS Table IV.- Variance values of the reference method (predictor variable), calculated from (23), with the experimental values from the simulation process on the six real data sets, and the results from OLS, WLS, CVR and OR regression methods. Data Set y0 sx20 sx20 Pred. Simul. BLS Error (%) sx20 Error (%) OLS sx20 Error (%) WLS sx20 Error (%) CVR sx20 Error (%) OR 1 16.80 3.6885 3.4578 6.25 0.7942 78.47 2.4092 34.68 3.6207 1.84 2.7991 24.11 1 7.10 5.0595 4.9588 1.99 0.6060 88.02 0.6077 87.99 3.3658 33.48 2.6145 48.32 105.20 2 29.30 21.3897 20.9902 1.87 4.2472 80.14 2.3623 88.96 87.7860 310.41 43.8907 2 13.00 103.0027 100.6386 2.30 7.8508 92.38 7.1846 93.02 91.7295 10.94 47.1192 54.25 3 11.70 0.5340 0.5351 0.21 0.9533 78.52 0.0289 94.59 4.3668 717.75 3.0540 471.91 3 23.40 0.0740 0.0753 1.76 1.1956 1515.68 0.0148 80.00 4.6337 6161.76 3.2965 4354.73 4 81.90 91.1230 77.2692 15.20 11.0476 87.88 5.2274 94.26 69.8071 23.39 4.5703 94.98 4 123.00 994.3954 870.0950 12.50 6.7616 99.32 23.7078 97.62 69.0507 93.06 3.2380 99.67 5 7.92 8.4438 7.9004 6.44 0.1242 98.53 0.4586 94.57 1.0325 87.77 0.9325 88.96 5 4.66 2.0086 1.9217 4.33 0.0510 97.46 0.1108 94.48 1.0018 50.12 0.8615 57.11 6 57.00 1.7145 1.6790 2.07 0.7621 55.55 0.3849 77.55 3.6430 112.48 3.3568 95.79 6 21.00 5.8198 5.8428 0.40 0.5833 89.98 0.7755 86.67 3.4417 40.86 3.1780 45.39 Mean error (%): 4.61 205.16 85.37 636.99 461.70 The lowest errors using the BLS expressions are obtained with Data sets 3 and 6. These seem to have the best goodness of fit for the experimental points to the regression line, which seems to confirm that the closeness of the experimental points to the regression line is an important factor for predicting the correct variances. On the other hand, the errors are highest for Data sets 2 and 4 (maximum around 15% for the predictor variable). The variance for the response variable in Data set 2 using the BLS expressions is overestimated by up to 11% whereas the error with the WLS expression was unusually low (2.3%). With Data set 4 we can examine the behaviour of the BLS technique to be examined in the presence of data sets with a low correlation between the variables, and with two possible outliers with very different variances at the limits of the regression range. Since the BLS technique weights the influence of points with high errors negatively, the point at the far end of the range affects the regression coefficients relatively. This feature is partially present in WLS but absent in the other methods because they do not take into account the individual errors. Therefore, the resulting regression coefficients and associated variances of the five techniques are quite different, and again, the variances corresponding to the variables predicted with 126 4.2 J. Chemometrics, en prensa BLS are closer to the simulated results than those calculated with the other methods. Data sets 1 and 5 give errors ranging from 1% to 7% for the response and predictor variables. 5. CONCLUSIONS We have developed and validated the new expressions for calculating the variance of the predicted values in the x and y axes taking into account heteroscedastic individual errors on both axes. This structure of errors (heteroscedastic individual errors on both axes) is common in some fields of chemical analysis, e.g. method comparison studies and some calibration procedures, so it is important to have expressions for calculating the variance in the predictor and response variables that take it into account. The validation has been made by comparing the results of the two expressions (Equations (20) and (21)) in the prediction of the response variable, and comparing the variance from (23) with those from (20) and (21) after switching the axes in the prediction of the predictor variable. Another more complete validation is made by comparing the results of these equations with an estimate of the real variance from the Monte Carlo simulation method applied to six real data sets. The comparison with the variance from the Monte Carlo simulation method applied to six real data sets confirms that these expressions are valid in real cases when errors on both axes are taken into account. These expressions are of a general nature and can be used to predict values and any kind of associated error, such as measurements from two different methods, analytical techniques, observers or laboratories. BLS-based calculations can be done rapidly with an iterative process. The main limitation of this technique is that the errors on both axes of each experimental point in the regression analysis need to be known. However, this will 127 4. Predicción en BLS probably not be unusual in the future, since the international standards recommend stating the errors for every measurement result [35]. One has to be aware of the importance of having correct estimates of the variances associated with the experimental points (which estimates are usually obtained by replicate analysis, preferably in time-different intermediate conditions, not in repeatability conditions, which tend to give rise to low variance estimators), since unusually low variances (for instance, from a low number of replicates) make the regression line fit these experimental points perfectly. Although in some of the real data sets used the number of replicates was very low (only three), this study has assumed that a comparison approach that accounts for approximate estimates of the individual heteroscedastic uncertainties is better than one that does not consider them at all when they really exist. Nevertheless, it is important to note that, when only the errors on one variable are considered, BLS gives results which are identical to those from OLS or WLS regression techniques. CVR and OR appear to produce acceptable results when the data structure meet their requirements, but as the individual errors are not taken into account, their results may be far different from the real ones. It should be pointed out that the high mean errors shown by CVR and OR methods in Tables 3a and 3b are mainly due to their application to Data set 3. If this data set had not been taken into account, the results from CVR and OR methods would have been more similar to those from the WLS and OLS expressions. A feature of the BLS method is that it provides results that are invariant when the axes are switched. This property is of practical importance since, in method comparison studies for instance which axis is used to represent the method to be compared should not be significant as long as all the errors on both axes are considered. Further studies based on these results are in progress. The development of estimators for detection and quantification limits may be of particular interest. 128 4.2 J. Chemometrics, en prensa ACKNOWLEDGMENTS The authors thank the Spanish Ministry of Education and Science (DGICyT project no. BP96-1008) for their financial support. REFERENCES 1.- N. Draper and H. Smith, Applied regression analysis, John Wiley, New York (1981). 2.- D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, S. de Jong, P. J. Lewis and J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics: Part A, Elsevier, Amsterdam (1997). 3.- R. L. Watters, R. J. Carroll and C. H. Spiegelman, Error modeling and confidence interval estimation for inductively coupled plasma calibration curves. Anal. Chem. 59, 1639-1643 (1987). 4.- R. M Clark, Calibration, cross-validation and carbon-14. J. R. Statist. Soc. A, 142, 47-62 (1979). 5.- R. M Clark, Calibration, cross-validation and carbon-14. J. R. Statist. Soc. A, 143, 177-194 (1980). 6.- J. O. Rawlings, Applied Regression Analysis, Wadsworth & Brooks/Cole, Belmont (CA) (1988) 7.- W. A. Fuller, Measurement Error Models, John Wiley & Sons, New York (1987). 8.- R. L. Anderson, Practical Statistics for Analytical Chemists, Van Nostrand Reinhold, New York (1987). 9.- M. A. Creasy, Confidence limits for the gradient in linear in the linear functional relationship. J. Roy. Stat. Soc. B, 18, 65-69 (1956). 10.- J. Mandel, Fitting straight line when both variables are subject to error. J. Qual. Tech. 16, 1-14 (1984). 129 4. Predicción en BLS 11.- C. Hartmann, J. Smeyers-Verbeke, W. Penninckx and D. L. Massart, Detection of bias in method comparison by regression analysis. Anal. Chim. Acta, 338, 19-40 (1997). 12.- S. Van Huffel and J. Vandewalle, The Total Least Squares Problems. Computational Aspects and Analysis, Siam, Philadelphia (1991). 13.- J. M Lisý, A. Cholvadová and J. Kutej, Multiple straight-line least-squares analysis with uncertainties in all variables. Computers Chem. 14, 189-192 (1990). 14.- J. Riu and F. X. Rius, Univariate regression models with errors in both axes. J. Chemom. 9, 343-362 (1995). 15.- J. Riu and F. X. Rius, Assessing the accuracy of analytical methods using linear regression with errors in both axes. Anal. Chem. 68, 1851-1857 (1996). 16.- M. Meloun, J. Militký and M. Forina, Chemometrics for Analytical Chemistry. Volume 1: PC-aided statistical data analysis, Ellis Horwood, Chichester (1992). 17.- P. Sprent, Models in Regression and related topics, Methuen & Co. Ltd., London (1969). 18.- D. W. Schafer and K. G. Puddy, Likelihood analysis for errors-in-variables regression with replicate measurement. Biometrika, 83, 813-824 (1996). 19.- K. C. Lai and T. K. Mak, Maximum likelihood estimation of a linear structural relationship with replication. J. R. Statist. Soc. B, 41, 263-268 (1979). 20.- C. L. Cheng and J. W. Van Ness, On estimating linear relationships when both variables are subject to error. J. R. Statist. Soc. B, 56, 167-183 (1994). 21.- D. V. Lindley, Regression lines and the linear functional relationship. J. R. Statist. Soc./ London Suppl. Series B, 9, 218-244 (1947). 22.- G. A. F. Seber, Linear regression analysis, John Wiley & Sons, New York (1977). 23.- M. E. Zorn, R. D. Gibbons and W. C Sonzogni, Weighted least-squares approach to calculating limits of detection and quantification by modeling 130 4.2 J. Chemometrics, en prensa variability as a function of concentration. Anal. Chem. 69, 3069-3075 (1997). 24.- A. Martínez, F. J. del Río, J. Riu and F. X. Rius, Detecting proportional and constant bias in method comparison studies by using linear regression with errors in both axes. Chemolab, 49, 181-193 (1999). 25.- G. Kateman and F. W. Pijpers, Quality Control in Analytical Chemistry, John Wiley & Sons, New York (1981). 26.- Commission d’Établissement des Méthodes d’Analyses du Commissariat à l’Énergie Atomique (Cetama) Statistique Appliquée a l’exploitation des Mesures, Masson, Paris (1986). 27.- G. J. Hahn and W. Q. Meeker, Statistical intervals. A guide for practitioners, John Wiley & Sons, New York (1991). 28.- J. J. Langenfeld, S. B. Hawthorne, D. J. Miller and J. Pawliszyn, Role of modifiers for analytical-scale supercritical fluid extraction of environmental samples. Anal. Chem. 66, 909-916 (1994). 29.- I. Ruisánchez, A. Rius, M. S. Larrechi, M. P. Callao and F. X. Rius, Automatic simultaneous determination of Ca and Mg in natural waters with no interference separation. Chemom. Intell. Lab. Syst. 24, 55-63 (1994). 30.- J. Yellin, Neutron activation analysis: impact on the archaeology of the Holy Land. Trends Anal. Chem. 14, 37-44 (1995). 31.- V. López-Ávila, R. Young and W. F. Beckert, Microwave-assisted extraction of organic compounds from standard reference soils and sediments. Anal. Chem. 66, 1097-1106 (1994). 32.- B. D. Ripley and M. Thompson, Regression techniques for the detection of analytical bias. Analyst, 112, 377-383 (1987). 33.- P. J. Ogren and J. R. Norton, Applying a simple linear least-squares algorithm to data with uncertainties in both variables. J. Chem. Edu. 69, A130-A131 (1992). 34.- P. C. Meier, R. E. Zünd, Statistical Methods in Analytical Chemistry, John Wiley & Sons, New York (1993). 131 4. Predicción en BLS 35.- P. De Bièvre, R. Kaarls, H. S. Preiser, S. D. Rasberry and W. P. Reed, Measurement Results without Statements of Reliability (Uncertainty) should not to be taken Seriously. Accred. Qual. Assur. 2, 269 (Editorial) (1997). 132 4.3 Conclusiones 4.3 Conclusiones En el artículo de la sección anterior se ha presentado el desarrollo de las expresiones para el cálculo de las varianzas asociadas a la predicción de la variable predictora a partir de un valor conocido de la variable respuesta y viceversa, cuando se consideran los errores asociados a ambas variables. Estas expresiones se han utilizado sobre una serie de conjuntos de datos reales sobre los que se han encontrado los intervalos de predicción, con el fin de probar su aplicabilidad en el campo de la química analítica. Analizando las expresiones que se han desarrollado para el cálculo de la varianza asociada a la predicción, tanto de la variable respuesta como de la variable predictora, cuando se tienen en cuenta los errores en ambas variables, se observa que su principal inconveniente es que dichas varianzas únicamente pueden calcularse para aquellos puntos cuyo error experimental sea perfectamente conocido. Aunque esta suposición limita el uso de dichas expresiones, hay diversas soluciones al problema que se plantea. Una de ellas consiste en el modelado de las varianzas a lo largo de todo el intervalo de la variable predictora y de la variable respuesta (concentraciones y respuestas en una calibración o resultados de analizar utilizando un método de nueva implantación y un método de referencia en una comparación de métodos) a partir de los resultados experimentales. De esta forma, el valor de la varianza experimental se conoce para todo el intervalo de cada una de las dos variables, y por tanto puede calcularse la varianza asociada a la predicción de la variable respuesta partiendo de cualquier punto de la variable predictora (o viceversa). Esta solución se aplicará en el siguiente capítulo, donde se utilizan los intervalos de predicción para calcular el límite de detección en regresión lineal considerando los errores en las variables predictora y respuesta. Una solución menos rigurosa al problema descrito es utilizar la experiencia para fijar los valores de las varianzas a cada nivel de concentración. Sin embargo, esta solución suele llevar asociado un importante error pues se añade la incertidumbre del analista a la propia de los análisis, si bien sigue sin aportar información en aquellos lugares de los que no se tiene suficiente información. 133 4. Predicción en BLS En el presente capítulo también se ha tratado la representación de los intervalos de predicción en el campo de la comparación de métodos analíticos. Sin embargo, su principal aplicación es la correspondiente a los procesos de calibración, donde la concentración de los patrones se representa frente a su respuesta instrumental. A lo largo de esta Tesis Doctoral se han presentado una serie de conjuntos de datos en los que deben considerarse los errores cometidos en las dos variables, siendo un buen número de ellos calibraciones llevadas a cabo en el ámbito de la química analítica. Una aplicación de los intervalos de predicción, tal como se ha introducido con anterioridad, es el cálculo del límite de detección de una metodología, donde dicho límite se extrae a partir de los intervalos de predicción fijados a los niveles de confianza α y β. En el próximo capítulo se explicará el proceso seguido para encontrar las expresiones para su cálculo, si bien su aplicación se plasmará, básicamente, sobre procesos de calibración (es decir, se representan concentraciones frente a respuestas instrumentales). 4.4 Referencias 1.- D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics: Part A, Elsevier, Amsterdam (1997). 2.- H. Bennett, G. Olivier, XRF Analysis of Ceramics, Minerals and Allied Materials, John Wiley & Sons, New York (1992). 3.- C.H. Spiegelman, R.L.Watters, L. Hungwu, Chemometrics and Intelligent Laboratory Systems, 11 (1991) 121. 4.- N. Draper, H. Smith, Applied Regression Analysis, 2ªed., John Wiley & Sons, New York (1996). 5.- M. Meloun, J. Militký, M. Forina, Chemometrics for Analytical Chemistry, Ellis Horwood limited, Chichester (1992). 6.- I.E. Frank, R. Todeschini, The Data Analysis Handbook, Elsevier, Amsterdam (1994). 7.- P.C. Meier, R.E. Zünd, Statistical Methods in Analytical Chemistry, John Wiley & Sons, New York (1993). 134 4.4 Referencias 8.- O. Güell, J.A. Holcombe, Analytical Chemistry, John Wiley & Sons, New York (1993). 9.- H.A. Meyer (editor), Symposium on Monte Carlo Methods, Willey, Chichester, New York, 1956. 135 5 Capítulo Límite de detección en BLS 5.1 Introducción 5.1 Introducción Los resultados de los análisis químicos han adquirido una gran importancia debido a las demandas de la sociedad actual. Recientemente, en toda la Europa occidental ha surgido una grave problemática acerca del riesgo derivado del consumo de carne procedente del ganado vacuno que padezca la encefalopatía espongiforme bovina (EEB) (conocida popularmente como “mal de las vacas locas”). En estadísticas oficiales realizadas en España, y concretamente en el barómetro de noviembre de 2000 (estudio 2402) del Centro de Investigaciones Sociológicas (CIS), esta enfermedad se sitúa como una de las veinte mayores preocupaciones de la sociedad, a pesar de que en esas fechas era un problema incipiente y no excesivamente conocido por el conjunto de la población. En las citadas estadísticas, se demuestra que el problema afecta tanto a los individuos como a la sociedad en general, y que su repercusión se puede ver tanto desde el punto de vista económico como de política internacional. Por este motivo, los resultados de los análisis llevados a cabo sobre los animales sospechosos de poseer la enfermedad son portada diariamente en los periódicos de toda Europa. Existen algunos estudios económicos con un carácter más general que revelan que la generación de información analítica comporta hasta un 5% del producto interior bruto mundial. Conocer si un alimento está adulterado, la presencia de un contaminante en el aire, o incluso conocer el contenido de colesterol en la sangre son otros ejemplos en que se consideran importantes los resultados de los análisis químicos, en los que frecuentemente se necesita poder detectar un analito a concentraciones extremadamente bajas. Los químicos son conscientes desde hace muchos años de la importancia de establecer límites de detección a las metodologías analíticas.1 Sin embargo, el desarrollo de técnicas de análisis más sensibles y la reciente promulgación de leyes que regulan la exposición de los seres humanos a niveles bajos de elementos químicos que pueden ser dañinos, han servido para acentuar la necesidad de calcular dichos límites. En el apartado 2.6 de la presente Tesis Doctoral, se presentan una serie de técnicas desarrolladas para calcular el límite de detección a lo largo de los años. Cada una de ellas introduce sutiles cambios en la terminología 139 5. Límites de detección en BLS y en los conceptos, o diferencias en el cuidado y la atención que merecen las asunciones necesarias para calcular el límite de detección. Durante mucho tiempo muchos analistas no han tenido conciencia de estas sutiles diferencias, pero estas se han hecho patentes cuando se han realizado intercomparaciones entre laboratorios a niveles de trazas.2 Un ejemplo ocurrió en un proceso de intercomparación llevado a cabo por la Agencia Internacional de Energía Atómica,3 donde se analizó el contenido de As en un riñón de caballo (medido en niveles de µg/g). Varios laboratorios obtuvieron resultados no cuantificables (por debajo del límite de detección), a pesar de que los límites de detección que presentaron eran claramente menores que resultados cuantitativos presentados por otros laboratorios. Como consecuencia, el rango de los resultados presentados por todos los laboratorios se extendía hasta cerca de cinco órdenes de magnitud. Una aplicación con amplia repercusión social del límite de detección es la comprobación de si determinado contaminante está o no presente en unas aguas de consumo, o en un alimento determinado, o incluso conocer en qué concentraciones se encuentra. Otra aplicación es el estudio de elementos traza en la atmósfera. Además de las aplicaciones que se verán en este trabajo, el límite de detección tiene aplicabilidad en múltiples situaciones en otros campos de la ciencia. Sin embargo, en otros campos de la ciencia también se utiliza el límite de detección en multitud de situaciones. En algunos métodos analíticos en los que se necesita calcular el límite de detección deben considerarse los errores experimentales cometidos en las variables predictora y respuesta. Este es el caso de algunos procesos de calibración lineal donde la respuesta instrumental es tan estable que sus errores experimentales son comparables a los errores que llevan asociadas las concentraciones (tal como ocurre con los análisis radioquímicos),4,5 o aquellos casos en que, debido a la complejidad de las muestras, se deben utilizar materiales de referencia certificados en la variable predictora (tal como ocurre con el análisis de muestras geológicas utilizando fluorescencia de rayos X).6 En todos estos casos debe utilizarse el límite de detección calculado utilizando un método de regresión que considere los errores en las variables predictora y respuesta. 140 5.1 Introducción En este capítulo se presentan las expresiones desarrolladas para el cálculo de los límites de detección cuando se tienen en cuenta los errores experimentales cometidos en las variables predictora y respuesta. Para explicar el proceso, en la sección 5.2 se incluye el artículo: “Limits of detection in linear regression with errors in the concentration”, enviado para su publicación en la revista Analytical Chemistry, donde se desarrolla el cálculo de los límites de detección en los casos en que deben considerarse los errores en la concentración además de los asociados a las respuestas instrumentales. Dichos límites de detección se aplican sobre dos conjuntos de datos reales en que los límites de detección basados en los métodos de OLS y WLS son claramente sesgados por el hecho de no considerar los errores en las dos variables. Para el cálculo de los límites de detección se han utilizado las expresiones para el cálculo de los intervalos de predicción desarrollados en el capítulo anterior. Sin embargo, el cálculo del límite de detección involucra un proceso iterativo, de manera que deben conocerse los intervalos de predicción para diferentes valores de la concentración en los que la experimentación no se ha llevado a cabo. Para solucionar este problema, se ha propuesto modelar las varianzas experimentales asociadas a cada una de las variables. De esta forma se obtiene una aproximación al valor de dichas varianzas a lo ancho de todo el intervalo de concentraciones y puede calcularse el límite de detección. Este modelado se ha introducido de una manera similar a como se hace al calcular el límite de detección utilizando la recta de WLS, donde únicamente se consideran los errores heteroscedásticos en la variable respuesta.7 En las siguientes secciones de este capítulo se presentan las conclusiones que se extraen del artículo presentado, así como las referencias que se han citado a lo largo del capítulo. 141 5. Límites de detección en BLS 5.2 Limits of detection in linear regression with errors in the concentration Analytical Chemistry. Enviado para publicación F. Javier del Río*, Jordi Riu, R. Boqué, F.Xavier Rius Department of Analytical and Organic Chemistry. Universitat Rovira i Virgili. Pl. Imperial Tarraco, 1. 43005-Tarragona. Spain. This paper discusses a method for calculating the limit of detection using linear regression. This method takes into account the heteroscedastic individual errors in both axes, i.e. it uses the bivariate least squares (BLS) regression method. The expressions were applied to X-ray fluorescence (XRF) and capillary electrophoresis (CE) determinations to calculate the limits of detection of nine elements in solid rocks and three anions in water, respectively. The geological samples are habitually complex, so the calibration is usually performed using certified reference materials of the analyte of interest, all of which have uncertainties associated to the concentration values. When determining anions using capillary electrophoresis, errors in both axes are justified because of the small errors in measurement. The limits of detection with these expressions have been compared with those obtained with Ordinary Least Squares (OLS) and Weighted Least Squares (WLS). The results show that the limits of detection when the BLS procedure is used are smaller than when the other techniques are used. 142 5.2 Anal. Chem., enviado INTRODUCTION Chemists have long been aware of the importance of establishing the limits of detection of analytical methods. The ability of a method to detect the presence or absence of analytes in samples is one of the parameters that need to be verified when checking whether it is 'fit for purpose'.1 However, the development of more sensitive analytical techniques and the promulgation of statutory regulations on human or environmental exposure to low levels of chemical health hazards have increased the need to further examine the procedures used to establish these limits. In most laboratories, limits of detection are currently calculated from the standard deviation of replicate analyses using blank samples. There are, however, other good techniques for calculating the limits based on repetitions of analyses at different levels of concentration, and normally using linear regression.2 One of the most common techniques using different levels of concentration is based on the ordinary least squares (OLS)3 regression technique. This is based on a set of mathematical hypotheses, such as the presence of random errors with constant variance (homoscedasticity) on the y axis (normally the instrumental response) or the absence of errors on the x axis (normally the concentration level), that are sometimes not fulfilled in the chemical field.4,5 If these hypotheses are not fulfilled, there may be biased regression coefficients of the OLS straight line and, therefore, erroneous results. An improvement of the use of OLS is the weighted least squares (WLS) regression technique,4,6 which takes into account the presence of random errors with non-constant variance (heteroscedasticity) in the y axis. However, WLS still considers the x axis to be error-free. Procedures based on this latter regression technique7,8 have been developed to obtain a better approximation of the limits of detection when homoscedasticity in the instrumental responses cannot be assured. There are analytical methods using straight lines in the calibration stage whose errors in the instrumental responses are similar or even lower to the errors in the concentration values.9 These are situations in which OLS or WLS often provide biased results for the regression coefficients and therefore for parameters like the 143 5. Límites de detección en BLS limit of detection, because the mathematical hypotheses are not satisfied. In such cases, regression techniques that consider the errors in both axes, i.e. the errors in the instrumental responses and the concentration values, are recommended.10,11 Of the numerous regression techniques that consider the errors in both axes, we have chosen bivariate least squares (BLS) because it easily provides the coefficients of the regression line and their associated variance-covariance matrix, and because of the simplicity of programming its algorithm. The BLS regression technique12,13 can overcome the limitations of the OLS and WLS regression methods, i.e. the fact that the individual errors in both variables are not considered. This technique calculates the straight line regression coefficients by taking into account the heteroscedastic errors in both axes for every experimental point. In this paper we present a new method for calculating the limit of detection when errors in the concentration are present, i.e. using the BLS regression method. It is based on the prediction intervals developed for BLS,14 and adapts the procedures for calculating the limits of detection in OLS3 and WLS8. To demonstrate its applicability, the derived estimator has been used in the determination of nine elements in solid rocks using X-ray fluorescence (XRF). Due to the complexity of the real samples (i.e. geological samples), the calibration is usually performed using CRMs of the analyte of interest.15 The estimator has also been used in the analysis of three anions in waters using capillary electrophoresis (CE). BACKGROUND AND THEORY Notation. In general, the true values of the variables used in this paper are represented by Greek characters, while their estimates are represented by Latin characters. In this way, the true values of the straight line regression coefficients are represented by β0 (intercept) and β1 (slope), while their respective estimates are represented by b0 and b1. The estimates for the standard deviation of the intercept and the slope of the regression line are sb0 and sb1 respectively. The experimental data pairs of a data set are (xi, yi) and their respective errors in each axis are 144 5.2 Anal. Chem., enviado expressed in terms of variance as s x2i for the concentration and s 2yi for the response variable. The experimental error, also expressed in terms of variance for the n experimental data pairs, is σ2, while its estimate is s2. ŷi represents the estimated value for the yi predicted. Some expressions have the subscript 'OLS', 'WLS' or 'BLS' to denote the regression method from which they are calculated. σ 02 and σ 2D are the true errors, in terms of variance, associated with the prediction of the estimated quantity (net response or concentration) at zero concentration (under the null hypothesis, true value = 0) and at the level of the limit of detection, respectively, while s02 and s D2 are their estimates.2 In the calculation of the limit of detection, LC is the critical value of the estimated quantity in terms of net response or concentration, XC is the critical value in terms of concentration, and yC is the value of the response at the level of XC. LD is the limit of detection of the estimated quantity, XD is the limit of detection in terms of concentration and yD is the value of the response at the level of XD. In all cases m is the number of replicates performed on a future sample. Finally, z1-α represents the percentage point or critical value of the standard normal distribution for a significant level α, while t1-α is its equivalent for a one sided t-Student distribution. Bivariate least squares regression. The straight line model found with this regression technique is expressed in eq. 1: yi = b0 + b1 xi + ei (1) where ei is the residual for the i-th point in the data set of the regression line. In this form, the predicted value for the observed yi is: ŷi = b0 + b1 xi (2) The method consists of minimizing the squared sum of the weighted residuals of the experimental points to the regression straight line: S= n ∑ i =1 ei2 = wi n ∑ i =1 ( y i − yˆ i ) 2 = s 2 ⋅ ( n − 2) wi (3) 145 5. Límites de detección en BLS where s2 is the estimation of the experimental error and wi is the weighting factor that corresponds to the variance of the ith-residual: 2 wi = s e2i = s 2yi + b1 s x2i − 2b1 cov( x i , y i ) (4) cov(xi, yi) is the covariance between the predictor and the response variable for every experimental point, which is normally set to zero. Minimizing the sum of the weighted residuals in relation to the slope and the intercept gives eq. 5. Rb = g (5) Eq. 6 is obtained from eq. 5 by including the partial derivatives of the squared residuals: n 1 ∑s i =1 n ∑ i =1 2 ei xi s e2i n ∑ i =1 n ∑ i =1 2 ei ∂s e2i y 1 i + s e2 2 s e2 ∂b0 i 1 = b0 i i = 2 × 2 2 xi b1 n xi y i 1 ei ∂s ei 2 + s ei s e2 2 s e2i ∂b1 i =1 i xi s e2i n ∑ (6) ∑ The slope and the intercept, which are the components of vector b in eq. 5 and eq. 6, can be found by inverting matrix R and solving eq. 7: b = R −1g (7) An iterative process must be carried out to solve eq. 7, due to the weighting factor (including the slope) in every term of matrix R. With this method, and assuming that the straight line model is correct, the variance-covariance matrix of the calibration straight line coefficients is obtained by multiplying the final matrix R-1 by the estimate of experimental error, s2 (eq. 3). 146 5.2 Anal. Chem., enviado Whenever the variances of the concentration values are zero, the WLS solution is obtained. Furthermore, if the errors on the response variable are constant and the concentration is considered free of error, the OLS solution is obtained. Detection limit. The decision about whether an analyte is present in a sample or not is taken by comparing its estimated net response or concentration with the critical value (LC). The critical value is the minimum significant value of an estimated net signal or concentration. The probability of exceeding the critical value is no greater than the selected α level of significance if the analyte is absent.2 If data at zero concentration are normally distributed with known variance, the critical value can be expressed as follows, LC = z1−α σ 0 (8) where σ0 is defined from a sum of variances, one of which is due to the measurement of the sample ( σ 2y ) and the other to the uncertainty of the blank ( σ 2blank ): σ 02 = σ 2y + σ 2blank (9) The detection limit (LD) is the minimum value for which the false negative error is β, given LC (or α).2 These terms are shown in Figure 1. σ0 σD α β 0 LC LD Figure 1.- Graphical representation of the critical level (LC) and the detection limit (LD). The two distributions plotted represent the normal distribution at zero concentration and at the level of the limit of detection. 147 5. Límites de detección en BLS For data with a known variance structure, LD can be expressed as: LD = LC + z1−β σ D = z1−α σ 0 + z1−β σ D (10) Estimating limits of detection in linear regression. Response Ordinary least squares estimator. Figure 2 shows the relationship between the value of the response at the critical value (yC) and the limit of detection in terms of concentration (XD) according to Hubaux and Vos3. y=b0+b1x α yC β y0 XC XD Concentration Figure 2.- The Hubaux and Vos approach for calculating the limit of detection. The blank signal (y0) is obtained as the intercept (b0) of the OLS regression line, and the standard deviation of the blank is subsequently assumed to be sb0 . The value of the response in the critical value is the intersection between the upper prediction interval (for a fixed α) and the y-axis. Following the Hubaux and Vos development, the response at the critical value can be calculated from eq. 11: y C = b0OLS + t1−α s 0 = b0OLS + t (1−α,n −2 ) sOLS 1 1 + + m n x OLS ∑ (x n i =1 148 i 2 − x OLS ) 2 (11) 5.2 Anal. Chem., enviado where sOLS is the estimate of the experimental error and x OLS is the mean value of the concentration, and where the z-values in equation 8 are substituted by t-values. XC = y C − b0OLS (12) b1OLS This value is equivalent to the XC level given by Currie. The detection limit XD is obtained by projecting yC onto the lowest prediction interval of the regression line chosen for a fixed β probability of error, and is equivalent to the LD level defined by Currie. The limit of detection is calculated as follows: X D = t (1− α,n − 2 ) s0OLS + t (1−β,n − 2 ) s DOLS = = t (1− α,n − 2 ) sOLS b1OLS 1 1 + + m n 2 x OLS n ∑ (x i =1 − x OLS ) 2 i + t (1−β,n − 2 ) sOLS b1OLS 1 1 + + m n ( X D − xOLS )2 n ∑ (x (13) − x OLS ) 2 i i =1 s0OLS and s DOLS represent the standard deviation at zero concentration level and at the level of the limit of detection.4,5 Eq. 13 has an exact mathematical solution16 and can also be solved by an iterative process. Weighted least squares estimator. Oppenheimer et al.7 generalized the procedure to find the limit of detection when heterostedasticity in the response variable is allowed. The main difference from the OLS estimator is the inclusion of a weighting factor to take into account the heteroscedasticity in the response. The variances for the response variable can be found by modeling the experimental individual variance values versus the concentration level8 (i.e. the known s 2yi of the experimental points). The limit of detection in WLS regression can then be expressed as: 149 5. Límites de detección en BLS X D = t (1−α,n −2 ) s0WLS + t (1−β,n −2 ) s D WLS = = t (1−α,n −2 ) s WLS s 2y0 b1WLS m + n ∑ i =1 + t (1−β,n −2 ) s WLS s 2yD b1WLS m 2 1 + + 1 s 2yi ∑ ∑ i =1 (x i i =1 − x WLS s 2yi + ) 2 (14) (X − x ) (x − x ) 2 1 n n x WLS 1 s 2yi + WLS D n ∑ i =1 2 i WLS 2 s yi where s 2y0 and s 2yD are the variances in the response variable, associated with zero concentration and with the concentration at the limit of detection, respectively. Eq. 14 is solved by an iterative process, due to the limit of detection in both terms of the equation and the need to recalculate the experimental standard deviation at the level of yD. Due to the weighting factor, which includes the individual errors, the analytical solution is difficult to find. s WLS is the estimate of the experimental error (eq. 15) and x WLS is the mean weighted value of the concentration calculated from eq. 16. n s WLS = ∑ i =1 ( y i − yˆ i ) 2 s 2yi n−2 n x WLS = xi ∑s i =1 n ∑ i =1 (15) 2 yi 1 s 2yi (16) It must be pointed out that if the errors in the instrumental response are homoscedastic (i.e. s 2yi =ct.), the limit of detection is the same with OLS (eq. 13) and WLS (eq. 14). Bivariate least squares estimator. To find the limit of detection by considering heteroscedastic individual errors in both axes, we use the prediction intervals based on the BLS regression method,14 which takes into account the errors 150 5.2 Anal. Chem., enviado in both axes. These expressions are similar to the ones for OLS and WLS but include the uncertainty in the concentration. Using these expressions and the scheme in Figure 2, from eq. 17 we obtain the estimate of the response at the critical value (yC) as follows: y C = b0 + t1− α s0 = b0BLS + t (1−α,n − 2 ) s BLS w0 + m 1 n ∑ i =1 1 wi + x BLS n ∑ i =1 (x i 2 − x BLS wi ) 2 (17) where w0 is the weight associated with the signal at zero concentration and calculated using eq. 4. The variances of both the concentration and the instrumental response are calculated modeling the errors in both axes, as with the WLS expressions (see next section). s BLS is the estimate of the experimental error (eq. 18) and x BLS is the mean weighted value of the concentration calculated from eq. 19. n s BLS = ∑ i =1 ( y i − yˆ i ) 2 wi n−2 n x BLS = xi ∑w i =1 n ∑ i =1 (18) i 1 wi (19) Following the scheme in Figure 2, the critical value can be expressed in terms of concentrations, using eq. 12 with the regression coefficients of the BLS regression line. The limit of detection is obtained from eq. 10, where the real values of the standard deviations are substituted by their estimates and the z-values are replaced by t-values: 151 5. Límites de detección en BLS X D = t (1−α,n −2 ) s0BLS + t (1−β,n −2 ) s D BLS = = t (1−α,n −2 ) s BLS b1BLS w0 + m n ∑ i =1 + t (1−β,n −2 ) s BLS b1BLS 2 1 wD + m 1 wi + 1 n ∑ i =1 1 wi n ∑ (x x BLS i i =1 − x BLS wi + ) 2 (20) (X − x ) (x − x ) 2 + BLS D n ∑ i =1 2 i BLS wi where wD is the weight associated with the signal at the limit of detection, and is calculated from eq. 4. Eq. 20 has no analytical solution because XD appears in both sides of the equation. For this reason, the limit of detection is found using an iterative process. In this process, XD and wD are recalculated in each iteration until XD converges to the criterion set by the analyst (depending on the number of significant digits used to express the limit of detection). Modeling the errors. The errors associated to instrumental responses and concentrations in a calibration process normally increase as the concentration increases. We need to know the errors in the predictor and response variables (or just the errors associated with the response variable for the WLS limit of detection) at the levels of concentration and responses around the limit of detection (i.e. to calculate wD and w0 from eq. 4, we need the standard deviation of both variables at zero concentration level and the limit of detection). However, these are normally unknown. A way to get these values is by modeling the uncertainties in the response and the concentration.8 To model these standard deviations we propose some typical expressions: Lineal model (L): sv = a 0 + a1v Quadratic model (Q): s v = a 0 + a1v + a 2 v 2 Exponential model (E): s v = a 0 e a1v Squared quadratic model (S): sv = a 0 + a1v + a 2 v 2 where v represents both the predictor and response variables. 152 (21) (22) (23) (24) 5.2 Anal. Chem., enviado After trying to fit all the models to the experimental standard deviations of both the concentration and the response, the simplest model that provides positive values and the lowest residual errors to the regression model is chosen. EXPERIMENTAL SECTION To show how useful these expressions are we used them to calculate the limits of detection of nine elements in geological samples analyzed using X-ray fluorescence (XRF), and to the calculate the limits of detection of three anions in water determined using capillary electrophoresis (CE). Instrumentation. XRF was conducted using an X-ray sequential spectrophotometer Philips PW2400 (equipped with the program UniQuant® v2.53), which simultaneously detects each element of the periodic table whose atomic weights is greater or equal to that for Fluor. It is equipped with a filtered Rh-target X-ray guide with an aperture for analysing samples of about 40mm in diameter. The X-ray fluorimeter works at 60kV and 50 mA for all elements except Na2O (40kV and 75 mA) and Nb (60 kV and 30 mA). The capillary electrophoresis was performed using a Waters CIA (Capillary Ion Analyzer) system with a fused silica capillary of 75 µm x 60 cm. The detector was a UV set at 254 nm. The electrolyte was 5 mM cromate / 0.5 mM OFM (Osmotic Flow Modifier). Samples were injected hydrostatically (indirect detection mode) by applying 50 mbar for 10 s. The separation was performed at 20 kV (negative voltage supply) and 25 ºC. Samples. The calibration samples for the XRF determination were geological certified reference materials (CRM), supplied by the IGGE (Institute of Geophysical and Geochemical Prospection, Ministry of Geology, Beijing, China); their references were: GSD-2 to GSD-12 and GSR-1 to GSR-4. Nb, Zr, Y, Sr, Rb, Pb, Na2O, Ga and Ni were analyzed in each of the 15 CRMs to obtain 15 data pairs for every element. The errors in the CRMs were calculated from a worldwide certification interlaboratory trial, and the final results were presented by Xie et al.17,18. The error in the instrumental response was obtained from seven replicate 153 5. Límites de detección en BLS measurements of each CRM in different days performed in the SCT of the University of Barcelona (Barcelona, Spain). Interferences was taken into account and possible matrix effects were corrected with the incoherent radiation (Compton) of the sample. The samples used in the analysis of anions in waters were obtained from dilutions of CRMs; these were 3181, 3182 and 3185 from the National Institute of Standards & Technology (NIST). The uncertainty of these standards was calculated from the error propagation theory, taking into account the dilutions made. The uncertainty of the CRMs is based on the “combined uncertainty” calculated according with the ISO Guide to the Expression of Uncertainty in Measurement19. The anions were chloride, sulfate and nitrate. Forty replicates of each standard were obtained at time-intermediate conditions in the Public Health Laboratories of Valencian Autonomous Government (Albal, Valencia, Spain). Calculations. All calculations were made with customized software using MATLAB ver. 4.2 for Microsoft Windows20. Matlab files are available on request. RESULTS AND DISCUSSION Table 1 shows the results of the straight lines using the BLS regression technique for the XRF determination. The results for the OLS and WLS regression lines (which do not consider the uncertainties in the CRMs) are also given for comparison purposes. The table also shows the models chosen for the errors in the predictor and response variable according to eqs. 21-24 (the model for the errors in the x axis is used to calculate the BLS limits of detection; the model for the errors in the y axis is used in the BLS and WLS limits of detection). In every case, we chose the model that gives positive values and the lowest residual error to the regression model. Table 2 shows the same parameters for analysing anions with CE. 154 5.2 Anal. Chem., enviado Table 1.- Straight line regression coefficients for the nine analytes by XRF obtained with OLS, WLS and BLS regression techniques, and model regression coefficients of the standard deviations for the response and concentrations. See text for the meanings of the letters E, Q and S. OLS WLS BLS b0 b1 b0 b1 b0 b1 Ga 0.0219 0.0026 0.0197 0.0027 0.0163 0.0029 Na2O -0.3243 8.0820 -0.2607 7.9900 -0.1041 8.1178 Nb 0.0998 0.0013 0.0986 0.0013 0.0996 0.0013 Ni 0.0266 0.0020 0.0276 0.0020 0.0283 0.0020 Pb 0.0073 0.0001 0.0072 0.0001 0.0068 0.0001 Rb 0.0013 0.0034 0.0099 0.0033 0.0051 0.0033 Sr 0.1965 0.0043 0.2066 0.0042 0.2253 0.0041 Y -0.1162 0.0050 -0.1161 0.0049 -0.1127 0.0048 Zr 0.2685 0.0050 0.2346 0.0052 0.2096 0.0053 E E E Q E Q Q E Q Standard deviation of x a0 a1 a2 0.5321 0.0601 0.0012 0.0680 4.0448 0.0399 0.0000 0.2809 0.0043 3.3962 0.0634 12.3770 -0.0363 0.0049 379.1300 -3.9932 0.0111 2.9696 0.0561 484.2100 -4.8771 0.0197 Standard deviation of y a0 a1 a2 S 0.0000 9E-12 0.0000 Q 5E-04 -1E-04 6E-06 S 0.0000 3E-11 0.0000 S 2E-15 2E-13 5E-13 E 5E-07 2.3082 S 0.0000 6.00E-10 0.0000 S 0.0000 7.00E-11 0.0000 Q 2E-06 -3E-06 5E-05 S 7E-11 -7E-11 6E-11 Table 2.- Straight line regression coefficients for the three anions by capillary electrophoresis with OLS, WLS and BLS regression techniques, and model regression coefficients of the standard deviations for the response and concentrations. See text for the meanings of the letters E, Q and S. OLS b0 Cl- WLS b1 b0 BLS b1 b0 b1 Standard deviation of x a0 a1 a2 Standard deviation of y a0 a1 a2 212.8475 58.1534 186.3113 56.6524 141.8163 59.1845 Q 0.0138 -0.0004 3E-06 S 0.0000 NO3- 129.4625 30.4011 80.0630 31.1234 68.4495 31.2399 E 0.0270 Q 12.005 0.041 2E-06 SO42- 53.6780 31.1182 32.4993 31.2777 31.8384 31.2883 Q 0.0419 -0.0038 0.0001 S 2279.2 1.4942 0.0015 0.0320 - 2E-05 5E-09 XRF data sets: Table 3 shows the limits of detection of the nine elements (expressed in ppm and calculated with α and β fixed at 5%) for the three regression methods. Table 3.- Detection limits for the nine analytes studied by XRF when α and β errors are 5%. All results are expressed in ppm. α=5/β=5 Ga Na2O Nb Ni Pb Rb Sr Y Zr Range of LOD(OLS) concentrations 5.4 - 27.4 7.8 0.04 - 3.85 0.49 7 - 95 11.5 2.5 - 139 7.5 7.8 - 636 13.5 9.4 - 470 28.5 24.4 - 1107 31.5 9.4 - 67 3.1 70.4 - 490 56.8 LOD(WLS) 6.1 0.48 11.4 8.1 11.4 11.6 16.7 4.6 41.6 LOD(BLS) 5.2 0.24 4.8 2.6 4.7 11.8 24.5 2.0 31.8 The limits of detection of the three methods are different mainly because of the difference in the regression coefficients and experimental variances in predictor and response variables. As the limit of detection is based on the expressions of the prediction intervals, when the slope and intercept of BLS are 155 5. Límites de detección en BLS similar to those of OLS and WLS, the smallest limits of detection are those whose prediction intervals are smaller at levels of concentration near the limit of detection. The classical prediction intervals in OLS increase at small levels of concentration because they correspond to a branch of the hyperbola; this means that the limit of detection is also higher than in BLS. WLS normally provides lower detection limits than OLS because when the individual errors are modeled near the detection limit, the lower branch of the confidence interval (i.e. the branch of the hyperbola near the limit of detection) is lower than in OLS. In calibration the experimental errors in both variables are usually smaller when the level of concentration decreases. So, when errors in both axes are taken into account (i.e. with BLS), the prediction intervals around zero concentration are also usually smaller than at higher levels of concentration.14 Consequently, the limits of detection with BLS are expected to be smaller than with WLS and much smaller than with OLS. 6 5 XRF Response 4 3 2 1 0 WLS: OLS: BLS: 0 500 1000 Concentration (ppm) 1500 Figure 3.- Data pairs and their respective standard deviations (the half of the vertical and horizontal lines that crosses the data pairs) and the OLS, WLS and BLS straight lines for Sr. As we can see in Table 3, the detection limits calculated when errors in both axes are considered, are lower than when only the errors in the y axis. This is to be expected. Only with Sr (Figure 3) is the limit of detection with BLS higher 156 5.2 Anal. Chem., enviado than with WLS. Even so, this difference is considered small, due to the range of concentrations of the samples: the concentration ranges from 24.4 to 1107 ppm and the limit of detection ranges only from 16.7 ppm (WLS) to 24.5 ppm (BLS). These results can be explained because the straight lines obtained with OLS, WLS and BLS are quite different, and because the variances fit poorly to the model at low levels of concentration, which can cause the prediction intervals at the levels of concentration near the limit of detection in the BLS straight line to increase. This makes the limit of detection with BLS higher than with the WLS straight line. 35 30 XRF Response 25 20 15 10 5 0 WLS: OLS: BLS: 0 1 2 3 Concentration (ppm) 4 5 Figure 4.- Data pairs and their respective standard deviations (the half of the vertical and horizontal lines that crosses the data pairs) and the OLS, WLS and BLS straight lines for Na2O. The analysis of Na2O (see Figure 4) is an example of when the three straight lines are very similar and their limits of detection vary according to the regression method. If the straight lines from OLS, WLS and BLS are not similar, the limits of detection will not necessarily follow the order: LOD(BLS) < LOD(WLS) < LOD(OLS) because they are greatly affected by the position of the straight line. With Ga (Figure 5), the OLS limit of detection is smaller than with WLS because 157 5. Límites de detección en BLS the straight lines are different. In any case, for this example the limit of detection is smaller with BLS than with OLS or WLS. 0.1 XRF Response 0.08 0.06 0.04 0.02 WLS: OLS: BLS: 0 5 10 15 20 Concentration (ppm) 25 30 Figure 5.- Data pairs and their respective standard deviations (the half of the vertical and horizontal lines that crosses the data pairs) and the OLS, WLS and BLS straight lines for Ga. Due to the characteristics of the XRF data sets (uncertainties in the concentration are clearly higher than in the response), an inverse regression (i.e. concentrations in the y axis and responses in the x axis) using WLS would provide similar limits of detection to those with BLS. The comparison was therefore made with BLS and WLS inverse regressions, and the limits of detection were considered to be comparable. These results appear to prove that the new method is suitable. Figure 6 shows the characteristic curve of detection21 for a fixed α significance level of 5% for Pb. The limits of detection using the curves from the expressions that consider the errors in both axes are usually different than those from expressions that considering only the errors in the y axis, although the shape of the curves is the same for all the interval. As we have previously stated, the experience confirms that the values obtained with the BLS technique are usually smaller than those obtained with the OLS and WLS techniques. Figure 6 shows 158 5.2 Anal. Chem., enviado that, as expected, the values corresponding to the three curves tend to be most similar when β is increased 100 β-error 80 60 OLS 40 BLS WLS 20 0 0 5 10 15 Limit of detection (ppm) 20 25 Figure 6.- Characteristic curves of detection for α fixed at 5% using the estimates based on BLS, WLS and OLS regression methods for analyzing Pb. Figure 7 shows the BLS characteristic curves of detection for Pb when a sample is analyzed m times. We can see that the higher the number of repetitions, the smaller the detection limit. Figure 7 also shows that the main decrease in the limit of detection is achieved when most replicates are performed when m is low (for example, from m=1 to m=2), but this effect is not significant when m is high. 100 β-error 80 60 m=1,2,3 40 m=∞ 20 0 0 2 4 6 8 10 Limit of detection (ppm) Figure 7.- Characteristic curves of detection for α fixed at 5% and for different number of replicates (m=1,2,3 and m=∞) when analyzing Pb. 159 5. Límites de detección en BLS CE data sets: Table 4 shows the limits of detection for the three anions analyzed using CE. The limits of detection are expressed in ppm and are calculated with α and β fixed at 5%. The limits of detection with BLS are always smaller than with WLS, and are much smaller than with OLS, as we concluded for the data sets analyzed using XRF. Table 4.- Detection limits for the three anions analysed by CE when α and β errors are 5%. All results are expressed in ppm. α=5/β=5 - Cl NO3SO4 2- Range of LOD(OLS) concentrations 10 - 150 11.5 10 - 150 24.3 10 - 400 6.7 LOD(WLS) 4.6 10.3 4.3 LOD(BLS) 4.4 8.2 2.6 This data set is a genuine application in which the limit of detection should be calculated from the BLS expressions, because the structure of the data set does not allow us to perform inverse regression like the data sets from XRF did. In this case the errors in the two axes may be considered to be of the same order of magnitude, although the errors in the response are higher than those in the concentration. From eq. 20 with α and β fixed, the limit of detection can be decreased by minimizing the prediction intervals near the zero concentration level and around the level of the limit of detection, which are directly affected by the errors in the two variables. These intervals can be decreased by obtaining better approaches of the concentration and instrumental response values (and their associated errors) around the limit of detection. This usually implies more replicates in the laboratory (a minimum of ten replicates is recommended) to obtain good models for the experimental errors in both axes. CONCLUSIONS We have developed expressions for calculating the limit of detection in linear regression when the experimental errors in the concentration are taken into account. To show their applicability, the limits of detection have been calculated for a method of analysing nine elements in rocks using XRF and one for analysing 160 5.2 Anal. Chem., enviado three anions in water using capillary electrophoresis. We have compared the limits of detection of the XRF method (due to the structure of the data sets) with those from inverse regression and WLS. Results were identical. The determination of three anions using capillary electrophoresis is given as an example of the applicability of the new expressions when the errors in both variables are of the same order of magnitude. The limits of detection with the BLS method are usually smaller than with the methods developed for the OLS and WLS regression techniques. The process for calculating the limit of detection does not increase calculation time. The only thing that complicates the process is the need to model the errors in both variables. However, an iterative calculation is also needed when the WLS expressions are used, and in this case the calculation time is not significantly smaller than with the BLS expressions. One potential drawback is the fact that replicates in the instrumental responses and concentration are needed. However, when CRMs are used to obtain the calibration curves, the errors in the concentrations of these materials are generally published and known. This method also needs good estimates of the variances in the different levels of concentration of the CRMs (or in the concentration generally), and in the different levels of the variances in the response variable. This is because the variances in both axes are modeled according to generic models. Good estimates of these variances (so more replicates in the instrumental response) are needed for the model to have a good fit. ACKNOWLEDGEMENTS The authors would like to thank Montserrat Baucells of the SCT of the University of Barcelona and the Public Health Laboratories of Valencian Autonomous Government for providing the XRF and CE data, respectively. The Spanish Ministry of Education and Science (DGICyT project no. BP96-1008) is also acknowledged for its financial support. 161 5. Límites de detección en BLS REFERENCES 1.- Sargent M. Anal. Proc., 1995, 32, 201-2. 2.- Currie, L.A. (IUPAC Recomendations 1995) Pure & Appl. Chem., 1995, 67, 1699-723. 3.- Hubaux, A.; Vos, G. Anal. Chem., 1970, 42, 849-55. 4.- Draper, N.; Smith, H. Applied Regression Analysis, 2nd ed.; John Wiley & Sons: New York, 1981; pp 8-70, 108-17. 5.- Massart, D.L.; Vandeginste, B.G.M.; Buydens, L.M.C.; de Jong, S.; Lewis, P.J.; Smeyers-Verbeke, J. Handbook of Chemometrics and Qualimetrics: Part A; Elsevier: Amsterdam, 1997; pp 75-8, 422-35. 6.- Rawlings, J.O. Applied Regression Analysis; Wadsworth & Brooks/Cole: Belmont, 1988; pp 315-8. 7.- Oppenheimer, L.; Capizzi, T. P.; Weppelman, R.M.; Mehta, H. Anal. Chem., 1983, 55, 638-43. 8.- Zorn, M. E.; Gibbons, R.D.; Sonzogni, W. C. Anal. Chem., 1997, 69, 3069-75. 9.- Watters, R.L.; Carroll, R.J.; Spiegelman, C.H. Anal. Chem., 1987, 59, 1639-43. 10.- Clark, R.M. J. R. Statist. Soc. A, 1979, 142, 47-62. 11.- Clark, R.M. J. R. Statist. Soc. A, 1980, 143, 177-94. 12.- Lisý, J.M.; Cholvadová, A.; Kutej, J. Computers Chem., 1990, 14, 189-92. 13.- Riu, J.; Rius, F.X. J. Chemom., 1995, 9, 343-62. 14.- del Río, F.J.; Riu, J.; Rius, F.X. J. Chemom., In press. 15.- Bennett, H.; Oliver, G. XRF Analysis of Ceramics, Minerals and Allied Materials; John Willey & Sons: Chichester, 1992. 16.- Garner, F.C.; Robertson, G.L. Chemom. Intell. Lab. Syst., 1998, 3, 53-9. 17.- Xie, X.; Yan, M.; Li, L.; Shen, H. Geostandards Newsletter, 1985, 9, 83-159. 18.-Xie, X.; Yan, M.; Wang, Ch.; Li, L.; Shen, H. Geostandards Newsletter, 1989, 13, 83-179. 19.- BIPM, IEC, IFCC, ISO, IUPAC, IUPAP, OIML Guide to the expression of uncertainty in measurement. ISO, Geneva, 1993. 20.- Mathworks Inc., Natick, Massachussets, USA. 21.- Liteanu, C.; Rica, I. Statistical Theory and Methodology of Trace Analysis; Ellis Horwood: Chichester, 1980; p 208. 162 5.3 Conclusiones 5.3 Conclusiones Mediante el desarrollo de las expresiones para el cálculo del límite de detección cuando se tienen en cuenta los errores en la concentración, se produce un importante avance en la finalidad de estudiar los parámetros de calidad que se deben estudiar sobre una recta de regresión. De esta forma, se permite avanzar en la validación de metodologías en las que esté involucrado el método de regresión BLS. En este capítulo se ha perfeccionado la aplicabilidad de las expresiones desarrolladas para el cálculo de los intervalos de predicción presentadas en el capítulo anterior, pues se ha introducido la posibilidad de modelar las varianzas de las variables predictora y respuesta. De esta forma, se obtienen unos intervalos de predicción continuos a lo largo de todo el intervalo de concentraciones, en vez de unos intervalos discretos tal como se concluye en el capítulo 4 de esta Tesis Doctoral. Esta ampliación y perfeccionamiento permitirá el uso de los intervalos de predicción, no solo para predecir el valor de una muestra desconocida y su error asociado, sino también para otros procesos que requieren de los intervalos de predicción, como es el presentado en este capítulo, que es el cálculo de los límites de detección. Una vez obtenido el límite de detección, una perspectiva que queda abierta en el estudio de los parámetros cualimétricos de la regresión BLS es el tratamiento de puntos discrepantes, ya que su presencia conduce a resultados erróneos al utilizar la recta BLS, así como tests asociados a la misma. De esta forma, en el próximo capítulo, se tratará la regresión lineal considerando los errores en las variables predictora y respuesta cuando el conjunto de datos inicial presenta puntos discrepantes o sospechosos de serlo. 163 5. Límites de detección en BLS 5.4 Referencias 1.- C.A. Clayton, J.W. Hines, P.D. Elkins, Analytical Chemistry¸59 (1987) 25062514. 2.- L.A. Currie, Analytica Chimica Acta, 391 (1999) 127-134. 3.- L.A. Currie, Ed., Detection in Analytical Chemistry: Importance, Theory, and Practice, cap.9, ACS Sympos. Serie 361, American Chemical Society, Washington (1988). 4.- R.M. Clark, Journal of the Royal Statististical Society, Series A, 142 (1979) 4762. 5.- R.M. Clark, Journal of the Royal Statististical Society, Series A, 143 (1980), 177-194. 6.- H. Bennett, G. Olivier, XRF Analysis of Ceramics, Minerals and Allied Materials, John Wiley & Sons, New York (1992). 7.- M.E. Zorn, R.D. Gibbons, W.C. Sonzogni, Analytical Chemistry 69 (1997) 3069-3075. 164 6 Capítulo Regresión lineal en presencia de puntos discrepantes 6.1 Introducción 6.1 Introducción La regresión lineal es una herramienta estadística ampliamente utilizada en muchos campos de la ciencia. Sin embargo, existe una permanente preocupación por el peligro de llevar a cabo la regresión lineal en presencia de puntos discrepantes. Estos puntos discrepantes pueden ser consecuencia de errores en la medida, en la transcripción de los resultados, errores debido a fenómenos excepcionales, o errores debidos a considerar de la distribución alguna muestra extraviada perteneciente a una distribución diferente. En los análisis reales es muy frecuente la presencia de puntos discrepantes, que pueden fácilmente pasar inadvertidos debido a que los datos se tratan generalmente por ordenadores evitando la inspección visual de los mismos.1 En el contexto de la presente Tesis Doctoral, por el hecho de tener puntos discrepantes en el conjunto de datos, se puede llegar a cometer errores en la aplicación de los tests individuales sobre la ordenada en el origen o la pendiente, en la predicción o en el cálculo del límite de detección. A pesar de que BLS tiene cierto grado de robustez ante puntos discrepantes, debido principalmente a la propia naturaleza del algoritmo de dar más peso a aquellos puntos que tienen menores errores experimentales, hay una serie de puntos discrepantes que BLS es incapaz de detectar y, por tanto, de ignorar. Por este motivo, es importante tratar el tema de la regresión lineal, considerando los errores experimentales individuales cometidos en las variables predictora y respuesta, cuando puntos discrepantes (o sospechosos de serlo) están presentes en el conjunto de datos inicial. Este capítulo se ha dividido en tres partes. La primera de ellas trata del desarrollo de una nueva técnica para la detección de puntos discrepantes en regresión lineal (sección 6.2). En la sección 6.3 se presentará un método de regresión robusta basado en la regresión lineal considerando los errores experimentales cometidos en ambas variables. Por último, la sección 6.4 presenta un trabajo de síntesis en el que se pretende plasmar las diferentes pautas de uso de cada una de las técnicas desarrolladas en este capítulo, con el fin de encontrar la 167 6. Regresión lineal en presencia de puntos discrepantes recta de regresión correcta cuando se consideran los errores cometidos en las dos variables y el conjunto de datos incluye algún punto sospechoso de ser considerado como discrepante. Una vez se encuentra la recta de regresión correcta se tiene más seguridad acerca de la idoneidad de utilizar la recta BLS para realizar tests individuales sobre sus coeficientes de regresión, para realizar predicciones de muestras futuras o para calcular el límite de detección, que son los objetivos propuestos en esta Tesis Doctoral. Siguiendo el esquema de los capítulos previos, las secciones 6.5 y 6.6 incluyen las conclusiones que se extraen de este capítulo y las referencias citadas a lo largo del mismo, respectivamente. 168 6.2 Detección de puntos discrepantes 6.2 Detección de puntos discrepantes 6.2.1 Introducción Una solución ante la problemática debida a la presencia de puntos discrepantes es la utilización de alguna técnica estadística para la detección de los mismos. En el caso de considerar los errores heteroscedásticos individuales cometidos en las variables predictora y respuesta, no existe ningún test estadístico para discernir si un punto sospechoso de ser discrepante se debe considerar como tal o no. Por este motivo se pensó en la posibilidad de generalizar el conocido test de Cook1-5 al caso en que se tienen en cuenta los errores heteroscedásticos individuales cometidos en las variables predictora y respuesta. Con el fin de desarrollar una técnica para la detección de puntos discrepantes en el campo de la regresión lineal considerando los errores en las variables predictora y respuesta, una primera aproximación fue la generalización del test de Cook. El test de Cook está basado en la comparación de los coeficientes de las rectas de regresión obtenidas a partir de un conjunto de datos inicial y el mismo conjunto de datos eliminando los puntos sospechosos de ser considerados como discrepantes, tal como se ve en el apartado 2.7.1 de la presente Tesis Doctoral. Con el fin de generalizar este método al caso en que se tienen en cuenta los errores experimentales cometidos en las dos variables, se introdujo un término de ponderación en la expresión de la distancia al cuadrado de Cook. De esta forma, la expresión de la distancia de Cook, donde se elimina la i-ésima observación, se expresa de la siguiente forma: DiBLS = (b BLS − b iBLS )' ⋅ (X ′ ⋅ W ⋅ X ) ⋅ (b BLS − b iBLS ) 2 ps BLS (6.1) 169 6. Regresión lineal en presencia de puntos discrepantes donde p es el número de parámetros que deben estimarse (en el caso general de la regresión lineal p=2), bBLS es la matriz que incluye los coeficientes de regresión de la recta BLS y biBLS es la matriz que incluye los coeficientes de regresión una vez se ha eliminado el i-ésimo punto. DiBLS se compara con el valor F(p,n-p,1-α) para un valor definido de α; un valor mayor de DiBLS denota que la i-ésima observación se debe considerar como un punto discrepante. En el caso de tener más de un punto sospechoso de ser discrepante, la anterior expresión se generaliza únicamente eliminando el conjunto de observaciones (I) sospechosas en lugar de eliminar una única observación (i). Sin embargo, un estudio en profundidad de la interpretación gráfica de este test generalizado permitió concluir que la comparación que se lleva a cabo se da entre un intervalo de confianza conjunto de la ordenada en el origen y de la pendiente y unos valores (considerados exactos) de los coeficientes de regresión una vez los puntos sospechosos de ser discrepantes son eliminados. Con el fin de superar esta limitación se desarrolló el criterio gráfico que se presenta en el apartado 6.2.2 de esta Tesis Doctoral. En él se presenta el artículo: “ A graphical criterion for the detection of outliers in linear regression taking into account errors in both axes”, que ha sido aceptado para su publicación en la revista Analitica Chimica Acta, donde se presenta un nuevo método de detección de puntos discrepantes cuando se tienen en cuenta los errores en las dos variables. El criterio presentado en el artículo sigue la filosofía propuesta por Cook de comparar los coeficientes de las rectas de regresión obtenidas con y sin los puntos sospechosos de ser discrepantes. Se trata de un criterio gráfico en el que la decisión de considerar algún punto como discrepante o no está basada en la comparación de las elipses de confianza conjuntas de la ordenada en el origen y la pendiente de la recta BLS,6 obtenidas a partir del conjunto de datos inicial y del conjunto de datos una vez eliminados los puntos sospechosos de ser puntos discrepantes. Unas elipses de confianza de tamaño comparable (es decir, con varianzas de los coeficientes de regresión comparables) y con el centro (sus respectivas ordenadas en el origen y pendientes) en lugares cercanos, darían a entender que las dos rectas son comparables y por tanto los puntos eliminados no deben considerarse discrepantes. Sin embargo, en el caso contrario, en que las dos elipses tienen tamaños diferentes o sus centros están alejados, las dos rectas en comparación deberían considerarse 170 6.2 Detección de puntos discrepantes como diferentes y, por lo tanto, la recta de regresión se ve claramente afectada por los puntos inicialmente considerados como sospechosos. En este caso dichos puntos deben considerarse discrepantes. En el apartado 6.2.3 se pretende demostrar la aplicabilidad del criterio gráfico. Para ello se ha partido de un conjunto de datos real extraído de la bibliografía en el que no hay ningún punto discrepante y se han variado los valores experimentales (variables predictora y respuesta, así como sus respectivas varianzas experimentales) en uno de los puntos, con el fin de observar las conclusiones que se extraen mediante el criterio gráfico para la detección de puntos discrepantes desarrollado en el artículo del apartado 6.2.2. 171 6. Regresión lineal en presencia de puntos discrepantes 6.2.2 Outlier detection in linear regression taking into account errors in both axes Analytica Chimica Acta. Aceptado para publicación F. Javier del Río*, Jordi Riu, F.Xavier Rius Department of Analytical and Organic Chemistry. Universitat Rovira i Virgili. Pl. Imperial Tarraco, 1. 43005-Tarragona. Spain. Over the past few years linear regression taking into account the errors in both axes has become increasingly important in chemical analysis. It can be applied for instance in method comparison studies at several levels of concentration (where each of the two methods normally present errors of the same order of magnitude) or at calibration straight lines using reference materials as calibration standards, such as in X-ray fluorescence for analysing geological samples. However, the results obtained by using a regression line may be biased due to one or more outlying points in the experimental data set. These situations can be overcome by robust regression methods or techniques for detecting outliers. This paper presents a graphical criterion for detecting outliers using the bivariate least squares (BLS) regression method, which takes into account the heteroscedastic individual errors in both axes. This graphical criterion is based on a modification of Cook's well-known test for detecting outliers. This new technique has been checked using two simulated data sets where an outlier is added, and one real data set corresponding to a method comparison analysis. Keywords: Outliers; linear regression; errors in both axes; Cook’s test; confidence intervals 172 6.2.2 Analytica Chimica Acta, en prensa INTRODUCTION Linear calibration is widely used in analytical chemistry. It is used, for example, in relating the instrumental response with the analyte of interest and in method comparison studies at several levels of concentration [1]. The most widely used method for finding the coefficients of the straight line is ordinary least squares (OLS), but this considers that the predictor variable (x axis) is error-free and allows constant random errors only in the response variable (y axis). If the random errors in the predictor variable are not constant throughout the regression interval, weighted least squares (WLS) may be used, but this still considers the predictor variable to be error-free. Not taking into account the errors in the predictor variable may in some cases lead to biased results in the coefficients of the straight line. For instance, the instrumental responses may be so stable that the errors in the predictor variable cannot be neglected [2] or when the results of two methods at different concentration levels are compared using linear regression; both methods have associated errors and neglecting the errors in one of them (i.e. using the OLS or WLS regression methods) leads to biased results of the regression line. There are also a number of analytical techniques, e.g. X-ray fluorescence, in which, due to the complexity of the real samples, the calibration line is often built with certified reference materials (CRM), each of which has known errors associated to the predictor variable [3,4]. Here, one should use regression methods that take into account the errors in both axes. The bivariate least square (BLS) method [5,6] calculates the coefficients of the straight line by taking into account the individual heteroscedastic errors in both axes. BLS has been used in method validation studies, for instance, to detect bias in newly developed analytical methods. [1] Once the straight line has been found by any of the regression methods, the results may be biased due to one or more outlying points in the experimental data set. These points may result in poor estimates of the regression coefficients or a high experimental error of the data set (which also increases the variances of the regression coefficients [7]). Outliers can also cause significant bias in a new method in a method comparison study to remain undetected, i.e. they can increase the probability of committing a β error. These situations can be overcome by using techniques for detecting outliers or robust regression methods. In the literature, 173 6. Regresión lineal en presencia de puntos discrepantes there are several techniques for outlier detection (e.g. Cook’s test [8]) or robust regression techniques (e.g., the least median of squares, LMS [9,10]) that deal with regression considering errors only in the response variable, and other methods of robust regression in which the errors in both axes are considered under some restrictions [11,12]. However, there are no tests for detecting outliers and there are no robust regression methods that consider the individual heteroscedastic errors in both axes. In this paper we present a graphical criterion for detecting outliers using the BLS regression method. It is based on the same theoretical basis as Cook’s test, which compares two regression lines: one using the overall data set and the other using the data set without the suspected point. The main difference between the graphical criterion in this paper and Cook’s test is that the former compares the straight lines, not only by considering the regression coefficients, but also by considering their variances. We have used this graphical criterion on two simulated data sets in order to prove its suitability in the presence of outliers, and to two real data set to prove its suitability in chemical situations. BACKGROUND AND THEORY Bivariate least squares. Of the several regression techniques that consider errors in both axes [6], we chose bivariate least squares (BLS) because it can readily provide the regression coefficients as well as their associated variances and covariances, and because programming its algorithm is very simple. This technique assumes that true linear model is: ηi = β 0 + β1ξi (1) where β0 and β1 are the true intercept and slope of the regression line that relates the true predictor (ξi) and response (ηi) variables. The true variables are unobservable and instead, one can only observe the experimental variables: xi = ξ i + δ i 174 (2) 6.2.2 Analytica Chimica Acta, en prensa yi = ηi + γ i (3) Variables δi and γi are random errors committed when measuring the predictor and response variables respectively; where δ i ~ N (0, σ 2xi ) and γ i ~ N (0, σ 2yi ) . If we introduce eqs. 2 and 3 into eq. 1, the relationship between xi and yi is: y i = β 0 + β1 x i + ε i (4) where εi is the ith true residual error [13]. It can be expressed as a function of δi, γi and β1: ε i = γ i − β1 δ i (5) The BLS regression method relates the observed variables xi and yi as follows [14]: yi = b0 + b1 xi + ei (6) where ei is the observed ith residual error. The BLS regression method finds the estimates of the regression line coefficients by minimising the sum of the weighted residuals, S, expressed in eq. 7: S= n ∑ i =1 ( y i − yˆ i ) 2 = wi n ∑ i =1 ( y i − b0 − b1 xi ) 2 = ( n − 2) s 2 wi (7) where n is the number of experimental data pairs, ŷi is the prediction of the experimental variable yi, and wi is the weighting factor that corresponds to the variance of the ith-residual (ei): wi = s e2i = s 2yi + b12 s x2i − 2b1 cov( xi y i ) (8) where s x2i and s 2yi are, respectively, the experimental variances of the ith point for the predictor and response variables of the straight line expressed in eq. 6, and 175 6. Regresión lineal en presencia de puntos discrepantes cov(xi yi) is the covariance between the predictor and the response variable in the ith point, which is normally set to zero. Whenever the variances of the predictor variable are zero and all the variances on the response variable are equal (i.e., all the errors are constant and only due to the experimental measurement in the y axis), the results are identical to those with the ordinary least squares (OLS) method. Since BLS takes into account the errors in both axes and attaches greater importance to the points with small variances (i.e. the regression line fits closer to them), it may be considered to have a certain robustness. However, BLS may have some limitations for obtaining the correct regression line when the data set contains outliers with small variances or when they are placed at the end of the calibration interval (i.e. at points with high leverage). A graphical criterion for detecting outliers by considering errors in both axes. One of the most widely used tests for detecting influential and outlying points in linear regression is Cook’s test [7-9]. Although this test is originally presented in a numerical form, a graphical interpretation checks whether the data pair defined by the intercept and the slope of the regression line once the suspicious points have been removed (b0',b1') falls inside the joint confidence interval of the intercept and the slope (b0,b1) of the overall data set [15] (Figure 1), since the distance of Cook corresponds to the joint confidence interval for the intercept and the slope of the regression line. In the example in Figure 1, no outliers would be detected since the point (b0',b1') falls inside the joint confidence region for the intercept and the slope of the initial data set (i.e., no significant differences would be found between the two regression lines). The drawback of this test is that it looks at the position of the new intercept and slope relative to the initial ones and their confidence interval, but does not take into account the variances of the new regression coefficients once the suspicious points have been removed. While the new regression coefficients may be similar to the initial ones, their variances may be very different. This may provide in similar regression lines but very different results once statistical tests have been applied to the regression line, because these tests normally depend heavily on the variances of the regression coefficients. 176 6.2.2 Analytica Chimica Acta, en prensa α=5% Slope (b0 ' , b1 ' ) (b0 , b1 ) Intercept Figure 1.- Example of an application of Cook’s test. The point (b0,b1) corresponds to the intercept and the slope of the overall data set, and the ellipse is their joint confidence interval for an α level of significance. The point (b0',b1') corresponds to the intercept and the slope of the regression line once the suspicious point have been removed from the initial data set. The method proposed in this paper consists of comparing the joint confidence intervals for the intercept and the slope of two regression lines by considering the errors in both axes; the first one using the overall data set and the second one after removing the suspicious point. The joint confidence interval for the intercept and the slope of the overall data set, which is ellipse in shape, is calculated using the BLS regression method, and its expression is shown in eq. 9 [1]: n ∑ i =1 n 1 (b0 − B0 )2 + 2 xi (b0 − B0 )(b1 − B1 ) + wi i =1 wi ∑ n ∑ i =1 x i2 (b1 − B1 )2 = 2 s 2 F1−α (2,n −2 ) wi (9) where F1-α(2,n-2) is the tabulated F-value at a significance level of α with 2 and n-2 degrees of freedom, and B0 and B1 represent the values of the intercept and the slope that define the bounds of the ellipse. The expression for the joint confidence interval for the intercept and the slope once the suspected point has been removed is: n' 1 ∑ w (b' i =1 i 0 − B0 n' n' 2 )2 + 2∑ xi (b' 0 − B0 )(b'1 − B1 ) + ∑ xi (b'1 − B1 )2 i =1 wi i =1 wi = 2 s' 2 F1−α (2,n ' −2 ) (10) 177 6. Regresión lineal en presencia de puntos discrepantes where n' and s'2 are, respectively, the number of points and the estimate of the experimental error of the regression line once the suspicious point has been removed. The two joint confidence intervals (eqs. 9 and 10) are then compared in terms of the degree of overlapping between their areas. This criterion was chosen because the overlapped area can be seen as a measure of the similarity of the two joint confidence intervals and, consequently, of the regression coefficients and their associated variances at the same time. To find the coincident area between the two ellipses, we compute the ratio between the double of the intersected area (since this area belongs to both ellipses) and the sum of the area of the two ellipses: Coincidence (%) = 2 * Intersected area * 100 Area ellipse 1 + Area ellipse 2 (11) Slope Joint confidence intervals Data set without suspicious points A Overall data set A (b0',b1') (b0,b1) Intercept Figure 2.- The two confidence intervals for the intercept and the slope of the regression line obtained using the BLS regression method, one for the overall data set and the other after removing the suspicious point. A represents the area of intersection of the two ellipses. The figure shows a projection of the ellipse corresponding to the overall data set in order to make it clearer that the area A is doubled. This process is shown in Figure 2, in which one of the ellipses is projected in order to clarify how the double of the intersected area in Equation 11is used. The limit in overlapping for considering that the two straight lines as similar (and therefore that the suspicious point is not an outlier for the chosen α level of significance) is 2/3. This limit is chosen because it means that half of the largest 178 6.2.2 Analytica Chimica Acta, en prensa ellipse is completely intersected by the smallest one. This assures that the centre of each ellipse (the intercept and the slope of each straight line) is within the other joint confidence interval, and that the area of the smallest is at least half that of the largest. In this way, if two straight lines are considered coincident, the areas of the ellipses and the regression coefficients of the two straight lines are definitely similar at the same time. This criterion has been checked in several simulated and real data sets with encouraging results. The main advantages of this method are that it uses all the information about the straight line, and that the experimental points that can be detected as outliers are not only the ones that affect the regression coefficients, but also the ones that influence their variances (e.g. experimental points with high errors or ones that are outside the domain of the data set). EXPERIMENTAL SECTION Data sets. One simulated data set (data set 1) and two real data sets (data sets 2 and 3) were used to check the graphical criterion for detecting outliers we have developed in this paper. The simulated data set is one with quasi perfect fit of the points to the straight line and in which an outlier is introduced at two different locations. One of the two real data sets deals with method comparison studies using linear regression, while the other one is extracted from a calibration line. Data Set 1: This is a simulated data set made up of six data pairs obtained by assuming that five points have a good fit to a straight line, and that the sixth point is an outlier. The five points with good fit to the regression line range from 1 to 5 units in both axes following a straight line with unity slope and zero intercept and whose standard deviations are assumed to be 1 in both axes. The sixth data pair is placed in two different positions with standard deviations in both axes varying from 0.1 to 10 times those for the other five points in the data set. The straight lines resulting from the addition of these suspicious points in each case are shown in Figures 3a and 4a. 179 6. Regresión lineal en presencia de puntos discrepantes Data Set 2: [16] This data derives from comparing the analysis of a certified reference soil using a wet matrix (containing 20% water) and a dry matrix. The certified reference material is SRS 103-100 soil from Fisher Scientific (Fair Lawn, NJ), spiked with PAHs. PAHs were analysed using micro wave-assisted extraction (MAE) to six 5g portions of the reference material extracted simultaneously for 10 min at 115ºC. The extracted recoveries using both matrices were obtained after six determinations of any sample. These ranged from 79.0 to 150. The data set is plotted in Figure 5 where we can see the BLS regression line, and that the horizontal and vertical lines in each point are the double of the experimental standard deviation. 160 Wet matrix 140 120 100 80 60 100 Dry matrix 140 180 Figure 5.- Plot of data set 2 and the BLS regression line. The vertical and horizontal lines in every data pair represent the double of the standard deviations in both axes. Data Set 3: [17] This data set is obtained from the comparison of resist thickness measured using a nanospectometer/AFT (x axis) and an IRRAS spectra (infrared reflection absorption spectroscopy) (y axis) used to determine nine films of commercially available photoresists and silicon dioxide. Three replicates of IRRAS data were collected varying the location on the surface of the wafer, and the resulting thicknesses were averaged. As it is difficult to determine the absolute accuracy of the commercial instruments, uncertainties for all measurements represent the variations in film thickness over the surface of the wafer. The results range from 0.873 to 2.213 µm. The data set is plotted in Figure 6. The horizontal 180 6.2.2 Analytica Chimica Acta, en prensa and vertical lines in each data pair are the double of the experimental standard deviation and the regression line is calculated using the BLS regression method. 10 2.2 9 IRRAS 1.8 8 7 5 1.4 3 6 4 1 2 1 0.6 1 1.5 Nanospectometer/AFT 2 Figure 6.- Plot of data set 3 and the BLS regression line. The vertical and horizontal lines in every data pair represent the double of the standard deviations in both axes. All calculations were performed with customized software using MATLAB [18]. RESULTS AND DISCUSSION Data Set 1: The aim of the simulated data sets is to study the influence of the position and the errors associated with an outlier in the data set, and to prove the suitability of this new graphical criterion for detecting the outlying points. Figures 3a and 4a show the effect of adding a sixth point to a five-point data set of good fit to a straight line of unity slope and zero intercept. In figure 3a, this suspicious point is outside the limits of the interval defined for the other five data pairs, while figure 4a shows the suspicious point in the middle of the interval of the predictor variable with a wrong value in the response variable. 181 6. Regresión lineal en presencia de puntos discrepantes a) (b‘0,b‘1) Slope Response variable 1 4 0.6 2 (b0,b1) 0.1 0.5 1 0.2 5 10 0 1.4 -2 0 2 Predictor variable 4 0 37.22% d) 1.4 (b‘0,b‘1) Slope Slope 1 (b0,b1) 0.6 (b0,b1) 0.6 sxi = 0.5 -2 sxi = 1 0.2 0 2 4 -2 0 2 Intercept 82.92% e) 1.4 (b‘0,b‘1) 1 (b0,b1) 96.03% f) (b‘0,b‘1) 1 (b0,b1) 0.6 0.6 sxi = 10 sxi = 5 0.2 -2 4 Intercept Slope Slope 1.4 2 Intercept (b‘0,b‘1) 1 sxi = 0.1 -2 6 24.27% c) 0.2 11.97% b) 1.4 6 0 2 0.2 -2 Intercept 0 2 Intercept Figure 3.- a) Effect of adding a point with high leverage to the limits of the interval defined for the other five data pairs in the simulated data set defined in data set 1. The standard deviations of the suspicious point vary from 0.1 to 10 times the value of the standard deviation of the other data pairs. b to f) Application of the graphical criterion for detecting outliers in the different cases presented in Figure 3a. In each case the standard deviation of the leverage point, coincidence between two ellipses are presented. 182 s xi , and the percentage of 6.2.2 Analytica Chimica Acta, en prensa 8 6 a) 11.97% 4 Slope 4 Response variable b) 10 5 1 0 (b0,b1) 2 (b‘0,b‘1) 0.5 0 -4 sxi = 0.1 0.1 0 3 2 Predictor variable 4 -2 6 -10 0 10 Intercept c) 3 24.27% 37.22% d) 2 (b0,b1) (b‘0,b‘1) 1 0 Slope Slope 2 0 sxi = 0.5 -8 -4 0 Intercept 1.8 4 -4 -2 0 2 4 Intercept 1.8 1.4 f) 96.03% 1.4 (b0,b1) 1 Slope Slope (b‘0,b‘1) sxi = 1 -6 82.92% e) (b0,b1) 1 (b‘0,b‘1) 0.6 (b0,b1) 1 (b‘0,b‘1) 0.6 sxi = 10 sxi = 5 0.2 -2 0 Intercept 2 -2 -1 0 1 2 3 Intercept Figure 4.- a) Effect of adding an outlier in the middle of the data with an error in the response in the simulated data set defined in data set 1. The standard deviations of the suspicious point vary from 0.1 to 10 times the value of the standard deviation in the other data pairs. b to f) Application of the graphical criterion for detecting outliers in the different cases presented in Figure 4a. In each case the standard deviation of the outlier, s xi , and the percentage of coincidence between two ellipses are presented. 183 6. Regresión lineal en presencia de puntos discrepantes Figures 3b-3f and 4b-4f show the two confidence ellipses corresponding to the two straight lines being compared; one without the added point (b0', b1'), and one with the overall data set (b0, b1). Figures 3b-3d clearly detects the influential point, while in Figures 3e and 3f the variances of the influential point are high enough not to significantly affect the resulting BLS straight line. The same conclusion can be drawn from Figure 4, where the outlier is detected in the three cases with the smallest variances and is not detected in the other two cases. In conclusion, the graphical test for detecting outliers when errors in both axes are taken into account detects the sixth point as an outlier except when the standard deviation of the suspicious point is clearly higher than those of the other data pairs, so it does not significantly affect the regression line and there is therefore no need for the point to be removed. In the first situation (Figures 3b-3f), the outlier basically influences the uncertainties of the regression coefficients of the resulting straight line. For this reason the centres of the two ellipses rapidly get nearer, but there is a small degree of overlapping because of the differences in the uncertainties of the regression coefficients (which clearly affect the area of the two ellipses). The second situation (Figures 4b-4f) is one in which the area and the shape of the two ellipses rapidly converge, but there are different values for the regression coefficients. Data set 2: In this data set, the average recovery of pentachlorophenol (the first data pair) is clearly suspected as an outlier. The effect of this point on the straight line is considerable, and the graphical criterion detects it as an outlier because the coincidence (eq. 11) is 27.25%. This percentage is so small because of the influence of this point on the regression coefficients of the straight line (i.e. all the other points are good aligned, so this point forces the line to deviate from them). This is an example of a real data set with a data pair that clearly influences the straight line due to the closeness of the point to the straight line. When classical tests for detecting outliers (like Cook’s test) are applied to the data set, no outlier is detected in the data. Data set 3: Table 1 shows the results of using the graphical criterion to detect outliers in data set 3. The second and the sixth point are detected as outliers using the graphical criterion. Figure 6 shows that the second point can be 184 6.2.2 Analytica Chimica Acta, en prensa considered an influential point since its experimental variances are so much smaller than those of the other points. The sixth data pair may be also considered an outlier, although it also has small variances too, because its alignment is different from that of the other points in the data set. If we had used Cook’s test to detect the outliers, the conclusion for a 5% α level of significance would be that there was no outlier in the data set. This is because these two points greatly influence the variances of the coefficients of the regression line (not only the coefficients) mainly due to their errors in both axes, which are not detected by traditional tests. 1 Slope 0.96 Overall data set 0.92 0.88 -0.05 Data set without the second point 0 0.05 Intercept 0.1 0.15 Figure 7.- Result of the graphical criterion for detecting outliers over the second point in data set 3. As we have already mentioned, the second data pair is detected using the graphical criterion (Figure 7), but as the percentage of coincidence of the two regression lines for this point (see Table 1) is very close to the threshold level of 66.67%, it may or may not be detected as an outlier, depending on the α level of significance chosen. This is because the significance level affects the size of the joint confidence intervals, and therefore the percentage of coincidence. Figure 7 shows how eliminating this data pair basically affects the variances of the regression coefficients (i.e. the area of the joint confidence interval), as we stated previously. Figure 8 shows the results of using the graphical criterion on the sixth data pair. We may conclude that the main effect of this point being over the regression line is that it also affects the variances of the regression coefficients. The main difference between this figure and Figure 7 is that when the sixth data pair is eliminated, the regression coefficients are also affected (not only their variances). This is because this point is located far from the tendency of the other data pairs. 185 6. Regresión lineal en presencia de puntos discrepantes Table 1.- Percentage of coincidence of all data pairs after applying the graphical criterion to data set 3 with a level of significance of 5%. Data Pair % of coincidence 1 71.66 2 63.91 3 90.92 4 91.60 5 90.10 6 14.11 7 92.12 8 90.71 9 90.70 10 92.79 As this data set has two points that can be considered outliers, we can use multiple case diagnostics to detect both at the same time. Figure 9 compares the initial data set and the data set without the two suspected points. When the number of data pairs in the data set is small, the analyst should consider whether the small coincidence between the ellipses is due to how the number of points affects the variances of the regression coefficients. In this case, however, the small coincidence between the two ellipses (10.46%) is mainly due to the suspected outliers rather than to the smaller number of points in the data set. Figure 9 shows that the regression coefficients are clearly affected by the two suspected points. Therefore, by using the graphical criterion for the multiple case diagnostic, the conclusions are the same as for the single case diagnostic. This is mainly because the number of data pairs (ten data pairs reduced to eight by deleting the outliers) cannot be considered small. 1.1 1.05 1 Slope Overall data set 0.95 0.9 -0.05 Data set without the sixth point 0 0.05 Intercept 0.1 0.15 Figure 8.- Result of the graphical criterion for detecting outliers over the sixth point in data set 3. 186 6.2.2 Analytica Chimica Acta, en prensa 1.05 Slope 1 Overall data set 0.95 Data set without points 2 and 6 0.9 -0.05 0 0.05 Intercept 0.1 0.15 Figure 9.- Result of the graphical criterion for detecting outliers as multiple case diagnostic technique over the second and sixth point in data set 3. Another consequence of having more than one suspected point may be the masking effect between the suspected points. To see the masking effect in this data set, we can check the drop in coincidence when both outliers are detected at the same time (10.46% in the multiple case against 63.31% when the second point is deleted and 14.25% when the sixth one is deleted). CONCLUSIONS In this paper we have developed a graphical criterion for detecting outliers based on the BLS regression method, which takes into account the individual experimental errors in both axes. This new technique has been checked with three data sets (a simulated one and two real data sets taken from the literature) for detecting suspected points in different positions in the data set (with different degrees of leverage). When the α significance level decreases the probability of detecting a point as an outlier increases. If some data pairs have smaller individual experimental variances than the others, they will probably be detected as outliers by the graphical criterion (or in most cases as influential points), even though they were almost perfectly fitted with the other data pairs. In these cases, the causes of the small variances must be carefully studied. If they are due to especially careful measurement, the points 187 6. Regresión lineal en presencia de puntos discrepantes cannot be deleted from the data set. Otherwise, if the variances are extremely low because of an error in measuring or because the number of replicates is small, the points should be deleted from the data set, because the uncertainties of the regression coefficients may then be underestimated. This limitation of the graphical criterion must be overcome by studying of the suspected data pair by means of the analyst. In most cases, this allows us to detect outliers or influential points that would not be detected by classical detection techniques like Cook’s test. Another situation is when a data pair with high uncertainties is far from alignment with the other points of the data set. The graphical criterion may not detect this point, because it does not influence the BLS straight line, which considers those points with higher uncertainties to have minor weight. Otherwise, the graphical criterion is more sensitive to detecting points that are different very much from the other data pairs than the classical tests (especially when the suspected point has small variances). The main limitation of the graphical criterion its use in data sets with a small number of points (i.e. less than four or five data pairs). This is because the straight line is heavily affected (especially the variances of the regression coefficients) after a data pair has been removed, since a small number of data points provides little information, and an experimental point may be detected as an outlier when really it is not. Using the graphical criterion to detect more than one outlier is equivalent to the single case diagnostic. In this case, the analyst must be careful with the influence of the number of points in the data set. If a data set has many data pairs, more than one outlier can be detected by using the graphical criterion for the multiple case, because the difference between the number of points in the initial data set and the number of points in the final one is small. If the data set has a small number of data pairs, the multiple case diagnostic increases the risk of considering points as outliers when they are not. 188 6.2.2 Analytica Chimica Acta, en prensa ACKNOWLEDGEMENTS The authors thank the Spanish Ministry of Education and Science (DGICyT project no. BP96-1008) for their financial support. REFERENCES [1].- J. Riu, F.X. Rius, Anal. Chem. 68 (1996) 1851. [2].- R.L. Watters, R.J. Carroll, C.H. Spiegelman, Anal. Chem. 59 (1987) 1639. [3].- K. Govindaraju, I. Roelandts, Geostandards Newsletter 13 (1989) 5. [4].- X. Xie, M. Yan, L. Li, H. Shen, Geostandards Newsletter 9 (1985) 83. [5].- J.M. Lisý, A. Cholvadová, J. Kutej, Computers Chem. 14 (1990) 189. [6].- J. Riu, F.X. Rius, J. Chemom. 9 (1995) 343. [7].- S. Weisberg, Applied Linear Regression, John Wiley & Sons, 2nd edition, 1985, New York, p 119. [8].- R.D. Cook, Technometrics 19 (1977) 15. [9].- D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics: Part A, Elsevier, Amsterdam, 1997, p 203, 300. [10].- P.J. Rousseeuw, A.M. Leroy, Robust Regression & Outlier Detection, John Willey & Sons, New York, 1987. [11].- C. Hartmann, P. Vankeerberghen, J. Smeyers-Verbeke, D.L. Massart, Anal. Chim. Acta 344 (1997) 17. [12].- M.L. Brown, Journal of the American Statistical Association 377 (1982) 71. [13].- P. Sprent, Models in Regression and Related Topics, Methuen & Co. Ltd., London, 1969. [14].- G.A.F. Seber, Linear Regression Analysis, John Wiley & Sons, New York, 1977 p 160. [15].- J. Mandel, F.J. Linnig Anal. Chem. 29 (1957) 743. [16].- V. Lopez-Avila, R. Young, W.F. Beckert, Anal. Chem. 29 (1994) 1097. [17].- C.J. Gamski, G.R. Howes, J.W. Taylor Anal. Chem. 66 (1994) 1015. [18].- Mathworks Inc., Natick, Massachussets, USA. 189 6. Regresión lineal en presencia de puntos discrepantes 6.2.3 Comprobación de la aplicación del criterio gráfico Con el fin de comprobar la aplicabilidad del criterio gráfico presentado en el apartado anterior, se planteó la posibilidad de estudiar cómo varían las conclusiones que se extraen del mismo al variar ligeramente las condiciones de un conjunto de datos. Para llevar a cabo este estudio, se partió de un conjunto de datos obtenido de la comparación del contenido de aminas biogénicas en anchoas frescas antes (eje de abscisas) y después de almacenarlas congeladas durante dos días (eje de ordenadas).7 Para llevar a cabo esta comparación se analizó la concentración de diez aminas en el músculo del pescado, una vez eliminadas la cabeza, las espinas y las tripas, utilizando como técnica analítica la cromatografía líquida. Los resultados están expresados en mg/kg y sus valores están comprendidos entre los 0.10 y los 6.55 mg/kg. Una representación de este conjunto de datos, así como la recta de regresión de BLS, se presenta en la figura 6.1, donde las líneas verticales y horizontales representan el doble de la desviación estándar experimental en cada punto. 8 Dos días de almacén 6 4 2 Punto estudiado 0 0 4 Antes de almacenar 8 Figura 6.1.- Representación del conjunto de datos utilizado para la comprobación de la aplicabilidad del criterio gráfico para la detección de puntos discrepantes. 190 6.2.3 Comprobación de la aplicación del criterio gráfico Este conjunto de datos se escogió de entre los presentes en la bibliografía debido a la aparente ausencia de puntos que puedan considerarse discrepantes. Sobre él se escogió el quinto punto (el más próximo a poder ser considerado como sospechoso de ser discrepante), y se variaron sus valores con el fin de simular errores en la medida o en la toma de resultados. De esta forma, se variaron sus valores de la variable predictora y respuesta así como de sus respectivas varianzas experimentales. En la figura 6.2 se representa la variación de la coincidencia obtenida mediante el criterio gráfico para la detección de puntos discrepantes (cuando se considera un nivel de significancia del 5%) presentado en el apartado anterior. Se observa como al aumentar su valor rápidamente se debería considerar dicho punto como discrepante. Sin embargo, al disminuir su valor, la resistencia del punto a ser considerado como discrepante aumenta. Esta conclusión es lógica si se observa que inicialmente el punto está a la derecha de la recta de regresión. % coincidencia 100 90 80 Punto no discrepante 70 60 50 40 30 20 10 0 Punto discrepante Valor inicial -3 -2 -1 0 1 x5 2 3 4 5 Figura 6.2.- Representación del porcentaje de coincidencia al variar el valor de la variable predictora. 100 90 80 Punto no discrepante % coincidencia 70 60 50 Punto discrepante 40 30 20 Valor inicial 10 0 -4 -2 0 2 4 y5 6 8 10 12 Figura 6.3.- Representación del porcentaje de coincidencia al variar el valor de la variable respuesta. 191 6. Regresión lineal en presencia de puntos discrepantes En la figura 6.3 se observa que al modificar la variable respuesta las conclusiones son idénticas a las obtenidas al variar la variable predictora. En ambos casos el porcentaje de coincidencia entre las dos elipses aumenta a medida que el punto se cerca a la recta de regresión, excepto en el momento en que el punto pasa de estar de un lado al otro de la recta. En este momento, la coincidencia presenta una ligera disminución (que en ningún caso afecta a las conclusiones del criterio gráfico), debida a un ligero descenso del área de la elipse que no considera el punto sospechoso de ser discrepante, que a su vez se debe, principalmente, al efecto de la covarianza entre los coeficientes de la recta de regresión. Esta disminución se observa en los mínimos relativos de las figuras 6.2 y 6.3. 100 90 Punto no discrepante 80 % coincidencia 70 60 Punto discrepante 50 40 30 20 Valor inicial 10 0 0 0.5 1 var(x5) 1.5 2 2.5 Figura 6.4.- Representación del porcentaje de coincidencia al variar el valor de la varianza de la variable predictora. 100 90 80 Punto no discrepante % coincidencia 70 60 50 40 30 20 Valor inicial 10 0 0 0.2 0.4 0.6 var(y5) 0.8 1 1.2 Figura 6.5.- Representación del porcentaje de coincidencia al variar el valor de la varianza de la variable respuesta. 192 6.2.3 Comprobación de la aplicación del criterio gráfico Las siguientes figuras 6.4 y 6.5 representan el mismo estudio en que se varían las varianzas de la variable predictora y respuesta respectivamente. El efecto de variar las varianzas es mucho menor pues, si bien al disminuir la varianza de la variable predictora, el punto se acaba considerando como discrepante, al variar la varianza de la variable respuesta el criterio gráfico siempre detecta el punto sospechoso como no discrepante. La principal conclusión extraída de las figuras 6.4 y 6.5 es que la probabilidad de un punto de ser considerado como discrepante aumenta cuando disminuyen las varianzas experimentales (tanto de la variable predictora como de la variable respuesta). Es por este motivo que hay que tener un especial cuidado con aquellos puntos cuyas varianzas experimentales son extremadamente pequeñas. Sin embargo, la importancia de este análisis radica en que haciendo el mismo estudio de puntos discrepantes mediante el test de Cook, el punto en cuestión se considera no discrepante en todos los casos estudiados. De esta manera se comprueba la mayor sensibilidad del criterio gráfico ante la presencia de puntos discrepantes. Nº punto % de coincidencia 1 71.66 2 63.91 3 90.92 4 91.60 5 90.10 6 14.11 7 92.12 8 90.71 9 90.70 10 92.79 Tabla 6.1.- Porcentaje de coincidencia para todos los puntos pertenecientes al tercer conjunto de datos de la sección 6.2.2, utilizando un nivel de significancia del 5%. Sobre el tercer conjunto de datos de los presentados en el apartado 6.2.2,8 se ha realizado un estudio correspondiente a la variación de la coincidencia al variar el nivel de significancia (α) en el criterio gráfico. Para ello, en la tabla 6.1, están representadas las coincidencias, entre las dos elipses comparadas por el criterio gráfico, obtenidas para cada uno de los puntos del conjunto de datos cuando el nivel de significancia se supone del 5%. Se observa que el segundo y el sexto puntos tienen una coincidencia que hacen que la conclusión del criterio gráfico es considerarlos como puntos discrepantes. Por este motivo se seleccionó el 193 6. Regresión lineal en presencia de puntos discrepantes segundo de ellos para representar la coincidencia frente al nivel de significancia, tal como se puede observar en la figura 6.6. En la figura 6.6 se observa como el porcentaje de coincidencia entre las dos elipses comparadas disminuye cuando aumenta el nivel de significancia, tal como cabía esperar. En el caso estudiado, se puede comprobar que las probabilidades de considerar el segundo punto como discrepante aumentan cuando lo hace el nivel de significancia, dejando de ser considerado como un punto discrepante cuando el nivel de significancia disminuye del 3.5% aproximadamente. Estos resultados se pueden considerar como una prueba más de la bondad del funcionamiento del criterio gráfico presentado en la sección 6.2.2, pues sus resultados concuerdan con el comportamiento esperado de que las probabilidades de considerar un punto como discrepante aumenten al hacerlo el nivel de significancia (α). 80 % de coincidencia 75 Valor umbral 70 65 60 55 0 2 4 6 8 Nivel de significancia (%) 10 Figura 6.6.- Efecto de variar el nivel de significancia α en el proceso de detección de puntos discrepantes mediante el criterio gráfico sobre el segundo punto del tercer conjunto de datos de la sección 6.2.2. . 194 6.3 Regresión robusta 6.3 Regresión robusta 6.3.1 Introducción A lo largo de los años, muchos autores han criticado las técnicas de detección de puntos discrepantes,9-12 pues con su uso se corre el riesgo de eliminar puntos que contienen información debida a la singularidad de los resultados analíticos implicados, si bien admiten que estos puntos no deben influir en la recta de regresión.1 Para superar esta limitación, se han desarrollado las técnicas de regresión robusta. Estas técnicas encuentran una recta de regresión que minimiza el efecto de los puntos discrepantes, pero sin eliminarlos. De esta forma la limitación anteriormente mencionada de estos tests de detección de puntos discrepantes queda subsanada. Sin embargo, estos métodos de regresión robusta incluyen una serie de inconvenientes derivados del algoritmo de cálculo, tales como la propia complicación de los algoritmos, como la dificultad de utilizar tests asociados a la recta de regresión robusta, que en muchos casos no se han podido desarrollar. En el siguiente apartado de esta Tesis Doctoral, se presenta el artículo: “Robust linear regression taking into account errors in both axes”, que se ha enviado para su publicación en la revista Analyst en el que se presenta una aproximación robusta de la recta de regresión que considera los errores cometidos en las dos variables. Esta técnica de regresión robusta, llamada regresión bivariante por mínima mediana de los cuadrados (bivariate least median of squares, BLMS), es una generalización de la regresión por mínima mediana de los cuadrados (least median of squares, LMS) desarrollada por Rousseeuw y Leroy,13 donde se ha añadido un proceso de simulación, con el fin de salvar la limitación de LMS que impone que la recta de regresión robusta pase exactamente por dos puntos del conjunto de datos inicial. 195 6. Regresión lineal en presencia de puntos discrepantes En el apartado 6.3.3 se presenta la comparación de los dos métodos de simulación propuestos en el algoritmo de cálculo de la recta de regresión robusta, mientras que el apartado 6.3.4 presenta un estudio de la robustez de BLS. 196 6.3.2 Analyst, enviado 6.3.2 Robust linear regression taking into account errors in both axes Analyst. Enviado para publicación F. Javier del Río*, Jordi Riu, F.Xavier Rius Department of Analytical and Organic Chemistry. Universitat Rovira i Virgili. Pl. Imperial Tarraco, 1. 43005-Tarragona. Spain. In this paper we have developed a robust regression technique. It is a generalization of the LMS technique to the field in which the errors in both axes are taken into account. This simple generalization is limited in the sense that the resulting straight line is found by using only two points from the initial data set. In this way a simulation step is added by using the Monte Carlo method to generate the best robust regression line. We have called this new technique “bivariate least median of squares” (BLMS), following the notation of the LMS method. We checked the robustness of our new regression technique by calculating its breakdown point, which was 50%. This confirms the robustness of the BLMS regression line. In order to show its applicability to the chemical field we tested it on simulated data sets and real data sets with outliers. The BLMS robust regression line was not affected by many types of outlying points in the data sets. Keywords: Outliers; linear regression; errors in both axes; robust regression; least median squares 197 6. Regresión lineal en presencia de puntos discrepantes INTRODUCTION Linear calibration is widely used in analytical chemistry, for instance, for relating the instrumental response with the analyte of interest, or in method comparison studies at several levels of concentration.1 The method that is widely used for finding the coefficients of the straight line is ordinary least squares (OLS), but this considers that the predictor variable (x axis) is error-free and only allows constant random errors in the response variable (y axis). If the random errors in the predictor variable are not constant throughout the regression interval, weighted least squares (WLS) may be used, but this still considers that the predictor variable is error-free. Not taking into account the errors in the predictor variable may sometimes lead to biased results in the coefficients of the straight line. For instance, the instrumental responses are sometimes so stable that the errors in the predictor variable cannot be neglected.2 Similarly, when the results of two methods at different concentration levels are compared by linear regression3 and both methods have associated errors, neglecting the errors in one of them (i.e. using the OLS or WLS regression methods) may lead to biased results in the regression line. Also there are some analytical techniques, e.g. X-ray fluorescence,4 in which due to the complexity of the real samples to be analyzed, the calibration line is often built with certified reference materials (CRM) of the analyte of interest, each one of which has known errors associated to the predictor variable.5,6 In these cases, one should use regression methods that take into account the errors in both axes. The bivariate least square (BLS) method7,8 calculates the coefficients of the straight line by taking into account the individual heteroscedastic errors in both axes. BLS has been used, for example, in method validation studies to detect bias in new analytical methods.1 Once the straight line is found by any regression method that considers errors in both axes, the results derived may be biased because of one or more outlying points in the experimental data set. These points may cause, for example, a shift in the regression coefficients or a high experimental error associated with the regression line (which also increases the variances in the regression 198 6.3.2 Analyst, enviado coefficients9). Any significant bias in a new method may therefore not be detected in a method comparison study, i.e. the probability of committing a β error may increase. These problems may be overcome by techniques for detecting outliers or robust regression methods. The literature contains several techniques for detecting outliers (e.g., Cook’s test10) and some robust regression techniques (e.g., least median of squares, LMS3,11), that consider only errors in the response variable, and others methods of robust regression that consider errors in both axes are under some restrictions.12,13 Most authors recommend robust techniques rather than techniques for detecting outliers.14-16 In particular, Huber17 emphasizes that robust regression can smooth the transition from accepting to rejecting a suspected point in a data set. Furthermore, the advantage of using robust regression techniques when there is more than one outlier has been proved, because the one outlier can be hidden by another. Moreover, by rejecting a suspected point that is not an outlier, other points which were not initially suspected may appear as outliers. In this paper we present a new robust regression technique (BLMS, bivariate least median of squares), that follows the principles of the LMS technique and takes into account the individual experimental errors in both axes. We have calculated the breakdown point for BLMS to prove its robustness, and compared the result with the breakdown point of BLS, calculated over the same simulated data set. To check the goodness and applicability of the new robust regression technique, we used it on a simulated data set containing a point with high leverage and uncertainties values and on a real data set from the bibliography. BACKGROUND AND THEORY Bivariate least squares (BLS). Of the several regression techniques that consider errors in both axes,8 we chose BLS because it can readily provide the regression coefficients and their associated variances and covariances, and because programming its algorithm is simple. This technique assumes that the true linear model: 199 6. Regresión lineal en presencia de puntos discrepantes ηi = β 0 + β1ξi (1) where β0 and β1 are the true intercept and slope of the regression line that relates the true predictor (ξi) and response (ηi) variables. The true variables are unobservable; one can only observe the experimental variables: xi = ξ i + δ i (2) yi = ηi + γ i (3) where variables δi and γi are random errors made when measuring the predictor variable and response variable, respectively, where δ i ~ N (0, σ 2xi ) and γ i ~ N (0, σ 2yi ) . So, if we introduce eqs. 2 and 3 into eq. 1, variables xi and yi are related as follows: y i = β 0 + β1 x i + ε i (4) where β0 and β1 are the true values of the intercept and the slope, respectively, and εi is the ith true residual error,18 which can be expressed as a function of δi, γi and β1: ε i = γ i − β1 δ i (5) The BLS regression method relates the observed variables xi and yi as follows: yi = b0 + b1 xi + ei (6) where ei is the observed ith residual error. The BLS regression method finds the estimates of the regression line coefficients by minimising the sum of the weighted residuals, S, expressed in eq. 7: S= n ∑ i =1 200 ( y i − yˆ i ) 2 = ( n − 2) s 2 wi (7) 6.3.2 Analyst, enviado where s2 is the estimate of the experimental error, n is the number of experimental data pairs, ŷi is the prediction of the experimental variable yi and wi is the weighting factor that corresponds to the variance of the ith-residual (ei): wi = s e2i = s 2yi + b12 s x2i − 2b1 cov( xi y i ) (8) where s x2i and s 2yi are, respectively, the experimental variances of the ith point for the predictor and response variables of the straight line expressed in the eq. 1, and cov(xi yi) is the covariance between the predictor and the response variable in the ith point, which is normally set to zero. It is interesting that whenever the variances of the predictor variables are zero and all the variances on the response variable are equal (i.e., all the errors are constant and only due to the experimental measurement in the y axis), the results are identical to those of the ordinary least squares method (OLS). Since BLS takes into account the errors in both axes and attaches a greater importance to the points with small variance (i.e. the regression line fits them more closely), it can be considered to have some degree of robustness. However, BLS may have some limitations in obtaining the correct regression line when the data set contains outliers with small variances, or when they are located at the limits of the calibration interval (i.e. they have high leverage). Least median of squares (LMS).11 For a more robust regression technique than OLS, the Least Median of Squares technique replaces the “sum of squares” with the “median of squares” in the minimization process. In this way, the LMS regression line is found by minimizing the median of the sum of the squared residuals of the experimental data pairs to the robust regression line. This estimator is very robust with respect to outliers in x and y. Breakdown Point. Depending on how robust it is, an outlier can affect an estimator in several ways. The concept of the breakdown point was introduced by Hodges19 and generalized by Hampel20. It is a criterion for classifying the estimators according to their robustness. Donoho and Huber21 define it as the minimum percentage of the initial data set that can be contaminated (i.e. the minimum percentage of points that can be outliers) without the regression 201 6. Regresión lineal en presencia de puntos discrepantes coefficients being greatly affected. An estimator with a breakdown point of around 50% is considered robust, and an estimator whose breakdown point is around 0% is non robust. Rousseeuw and Leroy11 calculated the breakdown point for a series of estimators in linear regression methods, and concluded that OLS estimators are immediately affected when an outlier is introduced. The breakdown point for OLS depends on the number of points in the data set and is equal to 1/n.21 A breakdown point above this value is possible when systematic errors affect the data pairs. If there are a lot of data pairs, the breakdown point in OLS will be around 0%. LMS may be considered a robust regression technique because its breakdown point is 50%. Bivariate Least Median Squares (BLMS). To find a robust regression method that takes into account the errors in both variables, we followed the robust strategy when only the errors in the response variable were considered (i.e. the LMS method), and applied it to the BLS case. In this way, the straight lines between all the combinations of two data pairs of the initial data set were calculated using the BLS regression method: using a data set with n points, n(n1)/2 regression lines and therefore n(n-1)/2 estimates for the slope and intercept are found. For each of these regression lines, the median† of the n weighted residuals of the experimental points to the regression line is calculated, and the straight line with the minimum median of the weighted residuals is chosen. This regression line may be considered a robust regression line. So far, this technique is the analogue of LMS when the individual errors in both axes are considered. This strategy’s main limitation is that it (the same as LMS) forces the regression line to fit two points of the initial data set exactly. One way to solve this problem is to use a simulation method like Monte Carlo simulation method.22 With a simulation method, new data sets based on the initial one are generated by adding a random error based on the individual errors in both axes to each experimental point. In this way, and starting from the initial data set, m new data sets are generated. For each of these (m) new data sets, the straight lines between all the † where the median is defined as the ([n/2]+1)nth ranked value and [n/2] denotes the integer part of n/2 202 6.3.2 Analyst, enviado combinations of two data pairs of the initial data set are calculated by the BLS regression method. We therefore obtain n(n-1)/2 regression lines for each new data set. From each of these m sets of n(n-1)/2 regression lines, the regression line with minimum median of the squared weighted residuals is selected. Finally, of all these m robust regression lines, the one whose median of weighted residuals is the minimum is considered to be the BLMS regression line (this does not need to fit two points of the initial data set exactly). Figure 1 shows a scheme of this procedure for obtaining the robust regression straight line with the BLMS technique. In further calculations, the BLMS straight line was found with 100 iterations for the Monte Carlo simulation stage (i.e. m=100). We chose this number because we noticed that a higher number of iterations did not significantly improve the coefficients of the regression line for all the tested data sets, and may significantly increase the calculation time. n(n-1)/2 straight lines 1 1st robust straight line n(n-1)/2 straight lines 2nd robust straight line Initial data set Monte Carlo Minimum weighted residual 2 3 m n(n-1)/2 straight lines BLMS robust straight line 3rd robust straight line ·· · n(n-1)/2 straight lines ·· · mth robust straight line Figure 1 Steps followed to obtain the robust regression line using the BLMS regression technique. From the initial data set, m new data sets are generated using the Monte Carlo simulation method and varying all the initial experimental points. For each one of these new m data sets, the n(n-1)/2 straight lines through all the combinations of two points are found, and is chosen for each one the regression line with minimum median of the squared weighted residuals. Of these m BLMS straight lines, the one with the minimum median of weighted residuals is chosen as the correct robust regression line. We must point out that, depending on how the regression line is used in future, this robust method may have some disadvantages, since information about the variances of the regression coefficients is difficult to find and is not normally accurate (which means that developing future statistical tests over the regression coefficients may be difficult or inexact). This lost of information is due to the 203 6. Regresión lineal en presencia de puntos discrepantes algorithm of the method, which only uses two points to find the final straight line. With LMS an approximate value of the variances and covariances of both the intercept and the slope may be obtained using a sophisticate algorithm,11 but their values are never mathematically exact. Logically, there may be a similar with BLMS because the straight line is also obtained by using only two points, and because BLS is also a least squares technique. EXPERIMENTAL SECTION Data sets. We used extensive calculations on two simulated data sets to check the usefulness of the BLMS regression technique and to calculate its breakdown point and check its robustness. A real data set, from a method comparison study using linear regression, is also used as an example. Simulated data set 1: This simulated data set was obtained following the instructions of Rousseeuw and Leroy11 to check the breakdown point of several estimators. A data set of ninety data pairs was generated; thirty had a predictor variable from 1 to 3.9 at equally spaced 0.1 units, and their response variable followed the straight line: yi = 1xi + 2 + ri (9) where ri is obtained as a random number between -0.2 and 0.2. The uncertainties of these 30 data pairs (expressed as variances) are taken as a random number between 0 and 0.1 multiplied by the value of the predictor variable at each point. The other sixty data pairs were considered to be outlier points generated with a predictor variable of 7 and a response variable of 2, both of which had a random error of between –1 and +1. The experimental simulated variances were generated by multiplying a random value of between –0.1 and 0.1 with the value of the predictor or the response variable, respectively. All random values introduced to generate of the simulated data set were considered to be from a normal distribution so that the real conditions of a data set could be reproduced better. A plot of the data set is shown in Figure 2. 204 6.3.2 Analyst, enviado 6 y axis Data pairs generated with quasi-perfect fit 4 Outliers 2 0 0 2 4 x axis 6 8 Figure 2 The first simulated data set. The crosses represent twice the standard deviations in both the x and y axes. Simulated data set 2: This data set is made up of six points. Five of these data pairs are generated along a straight line, with added random errors, and the sixth pair is generated to be an outlier. The variances in both axes were considered constant and equal to one in the first five data pairs, and the variances of the sixth point changed from almost zero to ten times the value of the variances of the other points in the data set. The aim of this data set is to check the applicability of the robust regression technique when there is an outlier in the data set, and to check how an outlier with small and high variances affects the regression line. A plot of this data set is shown in Figure 3. 205 6. Regresión lineal en presencia de puntos discrepantes 6 y axis 4 2 BLS 0 BLMS -2 0 x axis 2 4 6 Figure 3 The second simulated data set. The lines at each point represent twice the standard deviation in both the x and y axes. The BLS and the BLMS straight lines are also plotted. Real data set: This is a method comparison study for determining As3+ in natural water using continuous selective reduction and atomic absorption spectrometry (AAS) on the x axis, and reduction, cold trapping and atomic emission spectrometry (AES) on the y axis.23 It consisted of 30 points ranging between 0 and 19.3 mg/l. The errors were proportional to the concentration in both methods. A plot of this data set is shown in Figure 4. 25 BLS 20 OLS LMS 15 AES BLMS 10 5 0 0 5 10 AAS 15 20 25 Figure 4 The OLS, LMS, BLS and BLMS regression lines for data set 2. The vertical and horizontal lines that cross every experimental point represent twice of the standard deviation in each experimental point. 206 6.3.2 Analyst, enviado All calculations were made using customized software with MATLAB 4.0 for Microsoft Windows.24 RESULTS AND DISCUSSION We must point out that another method, which is in fact a slight modification of the initial one, can also be followed to find the BLMS regression line. It consists of applying the Monte Carlo simulation method to the two experimental points that define the first robust regression line to obtain m new regression lines. Of these m new regression lines, the one whose median of weighted residuals is minimum will be the correct regression line. The only change from the first method is that the Monte Carlo simulation process is applied at a further stage, when the first robust regression line has been chosen, but the method remains the same (i.e. it is only a matter of calculation). Other approaches, such as sweeping the slope and intercept to find which straight line has the minimum median of residuals, would need considerable calculation time, and the resulting straight line would be no better than those from the two above methods. We compared the results obtained with the method outlined in the 'Background and Theory' section with those obtained with the second method, alongside with their calculation time, using the real data set. To summarize, both straight lines were similar and the time spent in calculating them (with a PC Pentium II with a 450 MHz processor) was of the same order of magnitude. In further calculations in this paper, we will therefore use the method in the Background and Theory section. Calculating the breakdown point: The first simulated data set was used to calculate the breakdown point. The results are shown in Figure 5, which plots the slope of the BLS and BLMS methods against the percentage of contamination with outlying points in the simulated data set. The Figure shows that adding an outlier to the BLS straight line affects the slope almost immediately. In fact, the BLS breakdown point is around 4.75% contamination (this is found from the inflexion point in the graph). Sometimes (e.g. when the uncertainties of outliers are similar to those of the other data pairs), we assume that the theoretical value of the 207 6. Regresión lineal en presencia de puntos discrepantes breakdown point for BLS is similar to that for OLS (1/n=3.33%), because BLS is also a least squares method. This value can be slightly higher when the data set is corrupted, i.e. when a systematic error is added21 as in this example. We may therefore conclude that the BLS regression technique is not robust for the simulated data set used in this paper. However, BLS has sometimes proved to be more robust, as when the outlying points have higher experimental variances than the other data pairs. The BLMS regression technique can be considered robust because its breakdown point is exactly 50%, as we can see in Figure 5, in which the BLMS straight line is not affected by outliers until contamination reaches 50% of the experimental points, as happens with the LMS straight line. BREAKDOWN POINT 1.5 BLMS 1 Slope 0.5 0 BLS -0.5 -1 -1.5 0 10 20 30 40 50 60 % of contamination Figure 5 Breakdown point of the BLS and BLMS regression techniques calculated over the first simulated data set. BLMS in a simulated data set: We used second simulated data set to check the applicability of the new robust regression technique when there is an outlier with different associated errors in both axes. In Figure 6 the slopes of the regression lines from BLS and BLMS are plotted when the variance of the outlier is varied from almost 0 to 10 times the variance of the other data pairs. The slope of the robust straight line is roughly constant when the variance of the outlier is varied (the small variations are due to the iterative process for finding the final regression line). This is important because it proves that the robust regression line is not affected by the outlier or the size of the variances in the variables. The BLS 208 6.3.2 Analyst, enviado straight line is affected by the outlier but, depending on the variance of the outlier, this effect is minimised. Figure 3 plots the BLS and BLMS straight lines when the variances of the outliers are the same as those of the other pairs. 1.2 1 BLMS Slope 0.8 BLS 0.6 0.4 0.2 0 0 2 4 6 Variance of the outlier 8 10 Figure 6 The change in the slope of the BLS and BLMS straight lines when the variances of the outlier in the second simulated data set are varied. BLMS in a real data set: Figure 4 shows the straight lines obtained when the OLS, BLS, LMS and BLMS regression techniques are used. The BLS straight line is mainly affected by the first data pair in the data set because their experimental errors are extremely small (the variances are over a thousand times lower than the smallest variances of the other data pairs), while the robust regression line (BLMS) tends not to fit this data pair or the others at the end of the experimental domain so closely, but to fit the other data pairs better. Extremely small variances must be treated with caution, because although they may be obtained by very accurate measurement on the part of the analyst, they may also be obtained if the sample is very close to the detection limit, when an instrumental error is made when measuring the sample or if other mistakes are made when handling the data. In any case, analysts should pay attention to these points because normally robust regression techniques tend not to consider them (due to the uniqueness of their information) concentrating instead on the other points to find the robust regression line. Therefore, if these special points are the result of some mistake, the robust regression line is the correct one, but if they have some chemical meaning, a robust regression method may not be the best option. The OLS and LMS straight lines are different to those that consider the errors in both axes because they do not consider the associated experimental errors. 209 6. Regresión lineal en presencia de puntos discrepantes CONCLUSIONS In this paper we have adapted the LMS regression technique to find a new way of obtaining a robust regression straight line when individual experimental errors in both axes are taken into account. This new technique includes a simulation step by the Monte Carlo method that increases the generality of the BLMS straight line since the final straight line does not fit two points of the initial data set exactly, as LMS does. We have used the breakdown point (50%) to check the robustness of the regression line obtained with the BLMS technique. Robust regression techniques are usually recommended above techniques for detecting outliers, which can present problems if there is more than one suspected point in the data set; this is because one outlier can hide the effect of another. On the other hand, the disadvantage of robust techniques is that the uncertainties of the regression coefficients are unknown or difficult to find (e.g. with LMS11) This makes it more difficult to use statistical tests on the regression coefficients. We also applied the BLMS technique to two data sets: a simulated one to show the behaviour of the robust straight line when there is an outlier in the data set, and a real one to check its applicability in the chemical field. Although BLS is fairly robust, there are cases when it is not (e.g. the example given in this paper). In conclusion, when BLS does not detect the outliers, the robust BLMS straight line does. The analyst must be wary of correct experimental points with extremely small variances, since the robust regression line will normally detect them as influential points. If the very small uncertainties are due to accurate measurement, this point must be considered highly relevant to the straight line, and the robust regression technique is not appropriate. On the other hand, if they are due to other reasons, such as a measurement near the detection limit, an small replicate measurement or an error in the measurement, the point should not be considered, and the robust regression line is a good solution. 210 6.3.2 Analyst, enviado ACKNOWLEDGEMENTS The authors thank the Spanish Ministry of Education and Science (DGICyT project no. BP96-1008) for their financial support. REFERENCES 1.- J. Riu and F. X. Rius, Anal. Chem., 1996, 68, 1851. 2.- R. L. Watters, R. J. Carroll and C. H. Spiegelman, Anal. Chem., 1987, 59, 1639. 3.- D. L. Massart, B. G. M. Vandeginste, L. M. C. Buydens, , S. de Jong, P. J. Lewi and J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics: Part A; Elsevier, Amsterdam, 1997, pp. 358-361, 379-414. 4.- H. Bennett and G. Olivier, XRF Analysis of Ceramics, Minerals and Allied Materials, Wiley, New York, 1992. 5.- K. Govindaraju and I. Roelandts, Geostand. Newsl., 1989, 13, 5. 6.- X. Xie, M. Yan, L. Li and H. Shen, Geostand. Newsl., 1985, 9, 83. 7.- J. M. Lisý, A. Cholvadová and J. Kutej, Comput. Chem., 1990, 14, 189. 8.- J. Riu, and F. X. Rius, J. Chemom., 1995, 9, 343. 9.- S. Weisberg, Applied linear regression, Willey, New York, 2nd edn, 1985, pp. 114-118. 10.- R. D. Cook, Technometrics, 1977, 19, 15. 11.- P. J. Rousseeuw and A. M. Leroy, Robust regression & outlier detection, Willey, New York, 1987, pp. 9-19, 30, 130. 12.- C. Hartmann, P. Vankeerberghen, J. Smeyers-Verbeke and D. L. Massart, Anal. Chim. Acta, 1997, 344, 17. 13.- M. L. Brown, J. Am. Stat. Assoc., 1982, 377, 71. 14.- C. L. Cheng and J. W. Van Ness, Technometrics, 1997, 39, 401. 15.- D. J. Cummings and C. W. Andrews, J. Chemom., 1995, 9, 489. 16.- F. R. Hampel, E. M. Ronchetti, P. J. Rousseeuw and W. A. Stahel, Robust Statistics, Willey, New York, 1986. 17.- P. J. Huber, Robust Statistics, Willey, New York ,1981. 18.- P. Sprent, Models in Regression and Related Topics, Methuen & Co. Ltd., London, 1969. 19.- J. L. Hodges Jr., Proc. Fifth Berkeley Symp. Math. Stat. Probab., 1967, 1, 163. 211 6. Regresión lineal en presencia de puntos discrepantes 20.- F. R. Hampel, Ann. Math. Stat., 1971, 42, 1887. 21.- D. L. Donoho and P. J. Huber, The notion of breakdown point, in A Festschrift for Erich Lehmann, edited by P. Bickel, K. Doksum and J. L. Hodges Jr., Wadsworth, Belmont, 1983. 22.- P.C. Meier and R.E. Zünd, Statistical Methods in Analytical Chemistry, Wiley, New York, 1993, pp. 145-150. 23.- B. D. Ripley and M. Thompson, Analyst, 1987, 112, 377. 24.- Mathworks Inc., Natick, Massachussets, USA. 212 6.3.3 Comparación de diversos algoritmos de cálculo de la recta BLMS 6.3.3 Comparación de diversos algoritmos de cálculo de la recta BLMS Tal como se ha explicado a lo largo del apartado anterior, el algoritmo de cálculo de la recta de BLMS incluye un proceso de simulación. Concretamente, en el artículo se citan dos propuestas de simulaciones orientadas a superar la limitación del método de LMS que fuerza a la recta de regresión a pasar por dos de los puntos del conjunto de datos (lo que implica una pérdida de generalidad de la recta de regresión). Las dos propuestas se basan en la simulación por el método de Monte Carlo,14-17 que se ha explicado en la sección 2.8 de la presente Tesis Doctoral, y consisten en generar m conjuntos de datos a partir de los valores experimentales y sus respectivas varianzas. La primera de ellas obtiene estos m conjuntos de datos a partir de variar los n puntos del conjunto de datos inicial, y encontrar las rectas de regresión robusta sobre cada uno de ellos, mientras que la segunda propone hacerlo variando únicamente aquellos dos puntos que definen la recta de regresión robusta en la primera iteración del algoritmo. Con el fin de seleccionar una de las dos técnicas basadas en la simulación utilizando el método de Monte Carlo, se llevó a cabo una comparación de los residuales obtenidos mediante cada una de ellas y del tiempo de cálculo utilizado por un ordenador con un procesador Pentium II a 350 MHz. En la tabla 6.2 se representan los resultados de aplicar las dos técnicas sobre un conjunto de datos real extraído de la bibliografía.18 BLMS (variando todos los puntos) BLMS (variando sólo un punto) Número de iteraciones Residual mínimo Tiempo (s) Residual mínimo Tiempo (s) 10 100 100 100 200 0.0682 0.0595 0.0559 0.0551 0.0568 18.40 121.05 119.74 119.35 265.68 0.0612 0.0568 0.0587 0.0559 0.0557 19.55 119.90 118.36 126.50 230.74 Tabla 6.2.- Comparación de los resultados de calcular la recta BLMS utilizando los dos algoritmos propuestos. 213 6. Regresión lineal en presencia de puntos discrepantes En la tabla 6.2 se observa que los resultados obtenidos mediante las dos propuestas pueden considerarse del mismo orden, tanto en lo que se refiere al valor de los residuales como en lo referente al tiempo de cálculo. Por este motivo la elección de uno u otro método de simulación es indiferente. En el artículo presentado en la sección anterior se ha utilizado el primero de los métodos propuestos, donde se ha considerado suficiente hacer 100 iteraciones, debido a que aumentando el número de iteraciones, se minimizan muy sensiblemente los residuales de la recta de regresión aumentando notablemente el tiempo de cálculo. Estas propuestas son una particularización de la metodología de hacer un barrido para generar pares de ordenadas en el origen y pendientes y seleccionar el que minimice los residuales de los puntos experimentales a la recta de regresión. Sin embargo, esta última técnica incluiría una disminución de la robustez de la recta de regresión, además de aumentar la complejidad del algoritmo y el tiempo de cálculo. 6.3.4 Robustez de la recta BLS A lo largo del capítulo se ha mencionado que el método de regresión de BLS tiene cierto grado de robustez debido a que ignora aquellos puntos con errores experimentales elevados. Sin embargo, el punto de ruptura de BLS para el conjunto de datos utilizado en el artículo presentado en el apartado 6.3.2 es del orden del 4.75%, por lo que se deduce la falta de robustez del método. Sin embargo, este valor del punto de ruptura puede cambiar drásticamente cuando los errores experimentales asociados a cada uno de los puntos o la distribución de los mismos varía. Para comprobar esta hipótesis, en la figura 6.7 se presentan cuatro curvas para el cálculo del punto de ruptura en BLS. Una de estas cuatro curvas coincide con la aparecida en el artículo anteriormente mencionado y las otras tres son las curvas obtenidas al modificar las varianzas experimentales del conjunto de datos. Estas modificaciones suponen, en el primero de los casos disminuir su valor diez veces y en los otros dos casos multiplicar su valor por diez y cien unidades respectivamente. 214 6.3.4 Robustez de la recta BLS 1.5 Pendiente 1 0.5 0 -0.5 -1 -1.5 0 *0.1 *1 20 *10 40 60 % de contaminación *100 80 100 Figura 6.7.- Variación del punto de ruptura del método BLS al modificar las varianzas experimentales de los puntos discrepantes. Observando los puntos de inflexión de la figura se pueden calcular los puntos de ruptura para todos los casos presentados. De esta forma se observa como para el caso en que las varianzas han sido disminuidas el punto de ruptura obtenido es del 1.6%, mientras que al aumentar las varianzas de los puntos discrepantes, el punto de ruptura aumenta hasta el 32.5% en el caso de multiplicar por un factor de 10 e incluso superar el 50% (llegando al 84.45%) al multiplicar las varianzas por un factor de 100. De esta manera se comprueba que el método BLS tiene cierto carácter robusto, que se ve acentuado cuando las varianzas de los puntos discrepantes son grandes. Por otro lado se comprueba que pierde sentido fijar el máximo teórico del punto de ruptura en el 50% al considerar los errores individuales en las variables predictora y respuesta, a pesar de que este valor es efectivamente un máximo en aquellos métodos que no incorporan la ponderación de los puntos experimentales en su algoritmo. En la figura 6.7 también se observa que si los puntos discrepantes tienen varianzas pequeñas, la pendiente vuelve a cambiar drásticamente cuando el porcentaje de contaminación se acerca al 90%. Esto se debe a que el método BLS tiende a ajustar en ese momento a los puntos discrepantes sin tener en cuenta los puntos inicialmente alineados. Es de suponer que en el resto de situaciones (con varianzas mayores) esta situación se repita cuando el punto de ruptura se acerque al 215 6. Regresión lineal en presencia de puntos discrepantes 100%. Sin embargo no ha sido posible observarlo debido a las limitaciones del software utilizado. 216 6.4 Protocolo de actuación en regresión lineal en presencia de puntos discrepantes 6.4 Protocolo de actuación en regresión lineal en presencia de puntos discrepantes 6.4.1 Introducción En los apartados 6.2 y 6.3 de la presente Tesis Doctoral se han desarrollado sendas técnicas para detectar y discriminar los puntos discrepantes en regresión lineal considerando los errores en ambas variables. Además se ha mostrado que el método BLS tiene cierto grado de robustez cuando los puntos discrepantes tienen unas determinadas características. Por todos estos motivos se presenta la necesidad de desarrollar un protocolo para la obtención de la mejor recta de regresión cuando en el conjunto de datos inicial hay algún punto sospechoso de ser discrepante. En la sección 6.4.2 se presenta el artículo titulado: “Linear regression taking into account errors in both axes in presence of outliers”, enviado para su publicación en la revista Analytical Letters. En este artículo se dan una serie de pautas para obtener la recta de regresión correcta, a partir de los datos experimentales obtenidos. En cada caso se explica cuál de las técnicas desarrolladas en los apartados anteriores debe utilizarse. En el proceso de búsqueda de la recta de regresión correcta cuando se tienen en cuenta los errores cometidos en las dos variables, surge la necesidad de hacer un análisis previo de los datos. Por este motivo, en el artículo citado se introduce una nueva técnica, necesaria para el estudio de los puntos discrepantes, que es el gráfico de residuales ponderados. Este método gráfico se ha adaptado a la situación en que se tienen en cuenta los errores cometidos en las variables predictora y respuesta, de manera que pueda utilizarse como etapa previa al cálculo de la recta de regresión. 217 6. Regresión lineal en presencia de puntos discrepantes 6.4.2 Linear regression taking into account errors in both axes in presence of outliers Analytical Letters. Enviado para publicación F. Javier del Río*, Jordi Riu, F.Xavier Rius Department of Analytical and Organic Chemistry. Universitat Rovira i Virgili. Pl. Imperial Tarraco, 1. 43005-Tarragona. Spain. This paper presents guidelines for obtaining the correct regression line by taking into account the errors in both axes when there are outliers in the data set. We have adapted the weighted residual plots to take into account the experimental errors in both axes, and we have combined it with robust regression methods and methods for detecting outliers. The protocol has been checked with real data sets from the literature to show how it can be used to find the best regression line when there are outliers in the data set. In all cases the errors in both axes are taken into account. Keywords: Outliers; linear regression; errors in both axes; robust regression; weighted residual plot 218 6.4.2 Analytical Letters, enviado 1. INTRODUCTION Linear regression is widely used in analytical chemistry, for example in calibration stages and when comparing two analytical methods at several concentrations (1). To find the coefficients of the regression straight line, the ordinary least squares (OLS) method is normally used. The disadvantage of this method is that it considers the predictor variable (the x variable, which is normally the concentration in calibration stages or the reference method in method comparison studies) to be error free and only allows constant random errors in the response variable (the y variable, which is normally the instrumental response in calibration stages or the method being tested in method comparison studies). An improvement on OLS is the weighted least squares method (WLS). This allows non-constant random errors in the response variable, but still considers the predictor variable to be error-free. Sometimes the errors in the response variable should not be neglected; for example in method comparison studies, where the two methods normally have errors of the same order of magnitude, or in calibration stages when certified reference materials (CRM) are used, each with uncertainties in the concentration of the analyte of interest. In such cases, one should use regression methods that take into account the errors in both axes, like the bivariate least square (BLS) method (2,3), which calculates the coefficients of the straight line by taking into account the individual heteroscedastic random errors in both axes. When the straight line is found by any of the regression methods, the results, due to the presence of one or more outlying points in the experimental data set, may be biased. This may cause a shift in the regression coefficients or a high experimental error associated to the regression line (which also increases the variances in the regression coefficients (4)). These effects may significantly affect further statistical tests over the regression coefficients leading to incorrect results. These problems can be overcome with techniques for detecting outliers or with robust regression methods. In the literature there are several methods of detecting outliers (e.g. Cook’s test (5)) or robust regression techniques (e.g. the least median of squares, LMS (6,7)). These deal with regression by considering only errors in the response variable. Other robust regression methods consider errors in both axes 219 6. Regresión lineal en presencia de puntos discrepantes under some restrictions (8,9). In the last few months, however a robust regression technique (10) and a graphical criterion for detecting outliers (11) have been developed. Both are based on the BLS method and therefore take into account the individual experimental errors in both axes. Several authors recommended using robust regression techniques rather than tests for detecting outliers (12-15) because with such tests, points with a great deal of information may be deleted. However, robust regression techniques also have their limitations. These derive from the difficulty in finding the variances associated to the regression coefficients (and hence the difficulty in deriving statistical tests based on the robust regression line). For this reason, in this paper we present guidelines for finding the correct regression line when there are one or more outliers in the data set in a regression procedure that should take into account errors in both axes. We have also used the plot of the weighted residuals taking into account the errors in both axes, and we have combined this with the robust regression technique and graphical criterion for detecting outliers to find the correct regression line. We have applied these guidelines to several real data sets from the literature that illustrate situations that analysts may find in their laboratory work. 2. BACKGROUND AND THEORY 2.1.- Bivariate Least Squares Of the regression techniques that consider errors in both axes (3), bivariate least squares (BLS) more readily provides the regression coefficients, as well as their associated variances and covariances. The BLS regression method relates the observed variables xi and yi as follows: yi = b0 + b1 xi + ei 220 (1) 6.4.2 Analytical Letters, enviado where ei is the observed ith residual error. The BLS regression method finds the estimates of the regression line coefficients by minimising the sum of the weighted residuals, S, expressed in eq. 2: S= n ∑ i =1 ( yi − yˆ i ) 2 = ( n − 2) s 2 wi (2) where n is the number of experimental data pairs, ŷi is the prediction of the experimental variable yi, s2 is the estimate of the experimental error and wi is the weighting factor that corresponds to the variance of the ith-residual: wi = s e2i = s 2yi + b12 s x2i − 2b1 cov( xi y i ) (3) where s x2i and s 2yi are, respectively, the experimental variances of the ith point for the predictor and response variables of the straight line expressed in eq. 1, and cov(xi yi) is the covariance between the predictor and the response variable in the ith point, which is normally set at zero. Since BLS takes into account the errors in both axes and, through the weighting factor, attaches greater importance to the points with small variance (i.e. the regression line fits them closer), it may be considered to have a certain degree of robustness. However, BLS may not obtain the correct regression line when the data set contains outliers with small variances or when they are outside the calibration interval. 2.2.- Detection of Outliers A graphical criterion for detecting outliers and influential points and taking into account the errors in both axes was developed by del Río et al. (11). This compares two joint confidence intervals associated to the regression coefficients: one that corresponds to the regression coefficients of the regression line of the overall data set and one that corresponds to the regression coefficients of the regression line without the suspected point(s). The comparison is made to find 221 6. Regresión lineal en presencia de puntos discrepantes out whether the suspected point(s) have a strong effect on the regression straight line. When comparing the confidence intervals (both of which are elliptical) two important aspects needs to be checked: whether the areas of the ellipses are similar (which would imply that the variances of the regression coefficients were the same size), and how close the centres of the ellipses are to each other (which indicates the coincidence of the regression coefficients of the straight lines). The criterion for deciding whether one or more data pairs are considered as outliers is whether the coincidence (expressed in percentage of area) between the ellipses is less than 66.67%. 2.3.- Bivariate Least Median Squares (BLMS) An alternative techniques for detecting outlying points are robust regression methods. Following the same strategy as when considering only errors in the response variable (i.e. the least median of squares method, LMS (7)), the BLMS robust technique (10) obtains a robust straight line by taking into account the individual experimental errors in both axes. In this method an iterative process is performed with the Monte Carlo simulation method (16) to obtain the BLMS straight line as the best line of a group of robust straight lines generated by taking into account the errors in both axes. In further calculations in this paper, 100 iterations were chosen for the Monte Carlo simulation stage to attain the BLMS robust regression line (i.e. m=100). Depending on how the regression line will be used, the BLMS method may have disadvantages because information about the variances of the regression coefficients is difficult to find and is usually non exact (so future statistical tests associated to the regression coefficients may be difficult to find or inexact). This loss of information is due to the method’s algorithm, which uses only two points to find the final straight line. With LMS the variances and covariances of both the intercept and the slope may be estimated using a complicated algorithm (7), but their values are not exact in any case. It is normal to suppose that BLMS has a similar problem because the straight line is also obtained with only two points and the BLS method is also a least squares method. 222 6.4.2 Analytical Letters, enviado 2.4.- Weighted Residual Plots The graphical analysis of residuals obtained by taking into account the errors in both axes may help the analyst to decide which is the correct regression line to use. This plots the weighted residuals (ei, eq. 1) against the experimental value of the predictor or response variable. The advise and warning levels are fixed, respectively at distances equal to two and three times the standard deviation of the weighted residuals ( se ) above and below the mean. Many problems can be detected by analysing the shape of the points. When there are outliers in a data set, an abnormal situation is usually detected when the weighted residual plot is used on the BLS straight line. Usually, however, we cannot deduce which points in the initial data set are the outliers. This is because the BLS straight line fits the points with the lowest variances more closely. In this way, two situations may be especially important. First, if the outliers have small variances, their weighted residuals will also be small because the straight line is close to this point. Second, if the outliers have large variances, their weighted residuals will probably be small because their values are divided by the weighting factor (proportional to the variances). The main advantage of the weighted residual plot that takes into account the errors in both axes appears when it is used on a robust straight line (e.g. with BLMS), where the point with the largest weighted residual has the greatest probability of being an outlier. This is because the robust regression method obtains the straight line without considering the outliers, and these will probably be away from the regression line (although their variances are small). If any weighted residual is greater than the advise level of the weighted residual plot using BLMS regression, the point is suspected as being an outlier. However, if any weighted residual is higher than the warning level of the weighted residual plot, this point should usually be considered to be an outlier. This interpretation is similar to when the straight line is obtained using OLS. A data set in which the points fit the straight line well will show a pattern in which the points are equally and randomly distributed up and down the mean, as in Figure 1a. A U-shaped weighted residuals 223 6. Regresión lineal en presencia de puntos discrepantes plot results from fitting a straight line to a data set that would be better fitted by a curve (Figure 1b). Figure 1c plots a data set in which the weighted residuals vary according to the predictor variable. This technique should only be used as a preliminary criterion for ascertaining whether there is a suspected point in the data. +3se +3se a) +2se +2se Mean Mean -2se -2se -3se -3se +3se b) c) +2se Mean -2se -3se Figure 1 Three examples of residual patterns, in which the weighted residuals that take into account the errors in both axes are plotted against the predictor or response variable: a) the experimental points have a good fit to the straight line, b) the experimental points do not fit to a straight line and c) the weighted residuals vary according to the predictor variable. 2.5.- Protocol to Obtain the Correct Regression Line in the Presence of Outliers The first step is a preliminary visual study of the experimental data set in the plot of the predictor and responses variables. One can find a data pair in a data set far from the tendency of the other points, or a data pair with their experimental variances very different from the others. These data pairs are suspected outliers. If some suspected points in the data set have been detected by visual analysis, the next step is to use the weighted residual plot taking into account the errors in both axes over the robust regression line (BLMS). If there are no suspected points 224 6.4.2 Analytical Letters, enviado outside the advise and warning levels (the plot is equivalent to those that fit the straight line well, as we can see in Figures 1a and 1c), the BLS regression line should be used as the best straight line INITIAL DATA SET Visual No suspected BLS CORRECT analysis for points REGRESSION LINE suspected points Suspected points Weighted residual plot over BLMS No suspected points Suspected points No statistical tests FUTURE USE BLMS CORRECT REGRESSION LINE Statistical tests (i.e. prediction, checking bias ...) Outliers detection No Outliers BLS CORRECT REGRESSION LINE Outliers REMOVE OUTLIERS Figure 2 Protocol for finding the correct regression line. If the user detects potential outliers with the weighted residual plot (or data pairs near the limit are suspected outliers), there are two possible solutions, depending on how the straight line will be used in future. If no information about the variances of the regression coefficients is needed, the robust regression line, which minimizes the effect of having outliers in the data set should be used. However, if information about the variances of the regression coefficients is 225 6. Regresión lineal en presencia de puntos discrepantes needed (e.g. for future tests over the straight line), the graphical criterion for detecting outliers together with the BLS regression method should be used. If after the graphical criterion has been used to detect outliers, some outlier must be deleted, the protocol should begin again to determine whether there are any others. After this protocol, the straight line is considered to be the best that can be obtained by taking into account the errors in both axes. These guidelines are summarized in Figure 2. 3. EXPERIMENTAL SECTION 3.1.- Data Sets The above protocol was applied to three real data sets to clarify how it can be used when some points are suspected as outliers in the data set. These data sets are concerned with method comparison studies using linear regression. 3.1.1.- Data sets 1 and 2 (17) These data sets were from the comparison of the analysis of organic compounds in two certified reference soils using a wet matrix (20% water) and a dry matrix, plotted on the x and y axis, respectively. The SRS 103-100 certified reference soil was analysed in the first data set (Figure 3a). The 15 organic compounds were analysed by microwave-assisted extraction (MAE) with six replicates of 5-g portions extracted simultaneously for 10 min at 115ºC from the reference material for each experimental point. The recoveries were obtained after six determinations of each sample, and ranged from 79.0 to 150%. The second data set (Figure 5a) was obtained from an equivalent comparison study that analysed 20 organic compounds in the certified reference material with lot number 321 from the Environmental Resource Associates (ERA). The number of replicates was six for the dry matrix and five for the wet matrix. All were extracted simultaneously for 10 minutes at 115ºC. The recoveries varied from 17.7 to 117%. 226 6.4.2 Analytical Letters, enviado 3.1.2.- Data set 3 (18) This data set was from the analysis, using a liquid chromatographic method (Figure 6a), of ten biogenic amines in fresh fish. The predictor and response variables were the recoveries for determining the ten biogenic amines using the standard addition procedure, in which two levels of addition were performed for each amine. The recoveries that used the smallest level of addition were assigned as the predictor variable and are plotted on the x axis, while recoveries that used the highest level are plotted on the y axis. The measurements are expressed in mg/kg and their values ranged from 14.54 to 320.67 mg/kg for the smallest level of addition and from 28.71 to 444.38 mg/kg for the highest level of addition. 3.2.- Results and Discussion 3.2.1.- Data set 1 Figure 3a shows a clearly suspected outlier. According to our proposed protocol, the first step is to use the weighted residual plot taking into account the errors in both axes over the BLMS robust straight line. This is shown in Figure 3b, which shows that the suspected point is clearly detected as an outlier. If future tests have to be used over the straight line, the next step should be to use the graphical criterion to detect outliers. Figure 3c shows the results of this graphical criterion. The coincidence between the ellipses is 27.54% when the α level of significance is 1%. As this coincidence is smaller than the proposed 66.67% limit, the suspected point should is considered to be an outlier. Once this point has been detected as an outlier, the next step is to use the BLS straight line without the outlier (Figure 4a). On the other hand, if information about the variances of the regression coefficients is not needed, the BLMS regression line should be used without the graphical criterion. 227 6. Regresión lineal en presencia de puntos discrepantes (a) 160 (b) 2 140 Residuals Wet matrix 1 120 0 -1 100 -2 80 60 100 Dry matrix 140 80 100 120 Recovery (%) 140 180 (c) Slope 1.2 1 0.8 -40 -20 0 Intercept 20 Figure 3 a) Regression line found using the BLS method for the first data set. The crosses on the experimental points are the associated errors (twice the standard deviations) in each axis b) weighted residual plot for the first data set and c) joint confidence interval for the intercept and the slope for the initial data set (solid line) and for the initial data set once the suspected points have been removed (dashed line). If the graphical criterion is used once the first outlier has been removed, we must check whether there is another outlier in the data set. This data set does not seem to have any other outlier (Figure 4a). However, we repeated the study to show the situation when there are no outliers. The weighted residual plot of the new data set (data set 1 without the previously detected outlier) is shown in Figure 4b. Although no outlier is detected using the weighted residual plot, there is one point whose weighted residual is almost detected as an outlier. This is why it is important to continue to consider whether this point is an outlier. To do this, we use the graphical criterion for detecting outliers. The result are shown in Figure 4c. The coincidence is 67.60% (α=1%), so we can conclude that this point is not an outlier. In any case, the difference between the coincidence and the proposed limit is so small that these conclusions may be different if a different level of significance is chosen. If this point is finally considered not to be an outlier, the BLS straight line (Figure 4a) should be used. 228 6.4.2 Analytical Letters, enviado (a) 160 (b) 0.4 0.2 Residuals Wet matrix 140 120 0 -0.2 100 -0.4 80 80 60 100 1.15 Dry matrix 140 160 100 120 Recovery (%) 140 180 (c) 1.1 Slope 1.05 1 0.95 0.9 -20 -10 Intercept 0 10 Figure 4 a) Regression line found using the BLS method for the first data set without the previously detected outlier. The crosses on the experimental points are the associated errors (twice the standard deviations) in each axis b) weighted residual plot for this data set and c) comparison of the two joint confidence intervals for the slope and the intercept using the overall data set (solid line) and the same data without the suspected point (third point of the data set, dashed line). 3.2.2.- Data set 2 This data set (Figure 5a) appears similar to the previous one. However, there is a big difference: the variances of the suspected outlier are higher than those in the first data set. If we look at the weighted residual plot over the BLMS robust regression line (Figure 5b), we can see that no points are suspected outliers. This is due to the high variances of the initially suspected point. However, if it were considered as an outlier, its influence on the BLS straight line would be minimum. We ought to conclude that the BLS straight line (Figure 5a) should be used. To show that this is correct we have plotted the result of using the graphical criterion for detecting outliers when the most suspected point in the data set is deleted (Figure 5c). We can see that the ellipses are practically identical, and that the coincidence is 93.92% when the significance level is 1%. 229 6. Regresión lineal en presencia de puntos discrepantes (a) 2 120 (b) Residuals Wet matrix 1 80 0 -1 40 -2 0 0 40 80 Dry matrix 20 40 60 80 Recovery (%) 100 120 120 (c) 1.4 Slope 1.3 1.2 1.1 -25 -20 -15 -10 Intercept -5 0 Figure 5 a) Regression line found using the BLS method for the second data set. The crosses on the experimental points are the associated errors (twice the standard deviations) in each axis b) weighted residual plot for the second data set and c) result of the comparison of the two joint confidence intervals for the slope and the intercept using the overall data set (solid line) and the same data without the suspected point (dashed line). 3.2.3.- Data set 3 This data set (Figure 6a) also presents a suspected point, but now the number of points is clearly smaller than in the other two data sets. After the weighted residual plot has been applied over the BLMS robust straight line (Figure 6b), we can see that there is one point near the advise level. This must be studied carefully. Figure 6c shows the plot of the graphical criterion detecting outliers, which must be applied if further statistical test are to be done over the regression line. The coincidence is 28.48% when the α level of significance is 1%. In this case the suspected point should be deleted because it is considered as an outlier (its coincidence is clearly smaller than the fixed limit of 66.67%). If we had used the graphical criterion, the next step would be to make sure that no more outliers were present in the data set. This study is not shown, but the data set was found to have 230 6.4.2 Analytical Letters, enviado only one outlier. In conclusion, the BLS straight line (after deleting the detected outlier) or the BLMS straight line (Figure 6d) can be used in this case, depending on how the straight line will be used in the future. 500 (a) 15 400 (b) 10 5 Residuals Highest level 300 200 0 -5 100 -10 0 -15 0 100 200 Smallest level 300 100 200 Recovery (mg/kg) 300 400 500 (d) 400 (c) 1.5 300 Highest level Slope 0 1.4 200 100 1.3 0 -10 0 10 Intercept 20 0 100 200 Smallest level 300 Figure 6 a) Regression line found using the BLS method for the third data set. The crosses on the experimental points are the associated errors (twice the standard deviations) in each axis b) weighted residual plot for the third data set c) comparison of the two joint confidence intervals for the slope and the intercept using the overall data set (solid line) and the same data without the suspected point (first point of the data set, dashed line) and d) regression line found using the robust regression method (BLMS) for the third data set after 100 iterations of Monte Carlo. 4. CONCLUSIONS In this paper we have presented guidelines for obtaining the correct regression line when taking into account the errors in both axes and when there may be outlying points in the experimental data set. Several situations that may be found in real data analysis are discussed by applying the protocol to three real data sets from the literature. In all cases, the best regression straight line has been found. 231 6. Regresión lineal en presencia de puntos discrepantes In obtaining the best straight line, we have explained the weighted residual plot, which takes into account the errors in both axes. Since no tests are involved, some experience may be needed to interpret the plots. We have explained how to interpret these plots when the BLS and the BLMS robust regression lines are used, although their main use is with the BLMS robust regression line. In order for it to work in the presence of points that are suspected outliers, we propose the BLMS robust straight line and a graphical criterion for detecting outliers. Experimental points with extremely small variances in the data set must be carefully studied, because they tend to be considered outliers if they are not very close to the regression line. If these extremely small variances are due to an accurate analysis, they should not be considered as outliers, and the BLS straight line should be used. If they are due, for instance, to errors in measurement, a small number of replicates, or a measurement near the detection limit, these points should be considered as outliers and should be deleted from the data set. 5. ACKNOWLEDGEMENTS The authors would like to thank the DGICyT (project num. BQU20001256) for financial support. 6. REFERENCES 1.- Riu, J.; Rius, F.X. Univariate regression models with errors in both axes. J. Chemom. 1995, 9, 343-362. 2.- Lisý, J.M.; Cholvadová, A.; Kutej, J. Multiple straight-line least-squares analysis with uncertainties in all variables. Computers Chem. 1990, 14, 189192. 3.- Riu, J.; Rius, F.X. Assessing the accuracy of analytical methods using linear regression with errors in both axes. Anal. Chem. 1996, 68, 1851-1857. 4.- Weisberg, S. Applied linear regression, 2nd Ed.; John Willey & Sons: Toronto, 1985, 114-118. 232 6.4.2 Analytical Letters, enviado 5.- Cook, R.D. Detection of Influential Observation in Linear Regression. Technometrics 1977, 19, 15-18. 6.- Massart, D.L.; Vandeginste, B.G.M.; Buydens, L.M.C.; de Jong, S.; Lewis, P.J.; Smeyers-Verbeke, J. Handbook of Chemometrics and Qualimetrics: Part A, Elsevier: Amsterdam, 1997, 339-377. 7.- Rousseeuw, P.J.; Leroy, A.M. Robust regression & outlier detection, Willey: New York, 1987, 1-18, 112-143. 8.- Hartmann, C.; Vankeerberghen, P.; Smeyers-Verbeke, J.; Massart, D.L. Robust orthogonal regression for the outlier detection when comparing two series of measurement results. Anal. Chim. Acta 1997, 344, 17-28. 9.- Brown, M.L. Robust line equation with errors in both variables. Journal of the American Statistical Association 1982, 377, 71-79. 10.- del Río, F.J.; Riu, J.; Rius, F.X. Robust Linear Regression Taking into Account Errors in Both Axes. Submitted for publication 11.- del Río, F.J.; Riu, J.; Rius, F.X. A Graphical Criterion for the Detection of Outliers in Linear Regression Taking into Account Errors in Both Axes. Analytica Chimica Acta. In Press 12.- Cheng, C.L.; Van Ness, J.W. Robust Calibration. Technometrics 1997, 39, 401-411. 13.- Cummings, D.J.; Andrews, C.W. Iteratively Reweighted partial Least Squares: a Performance Analysis by Monte Carlo Simulation. Journal of Chemometrics 1995, 9, 489-507. 14.- Hampel, F.R.; Ronchetti, E.M.; Rousseeuw, P.J.; Stahel, W.A. Robust Statistics: the Approach Based on Influence Functions, John Willey & Sons: New York, 1986. 15.- Huber, P.J. Robust Statistics, John Willey & Sons: New York, 1981. 16.- Meier, P.C.; Zünd, R.E. Statistical Methods in Analytical Chemistry, John Wiley & Sons: New York, 1993, 145-50. 17.- Lopez-Avila, V.; Young, R.; Beckert, W.F. Microwave-assisted extraction of organic compounds from standard reference soils and sediments. Anal. Chem. 1994, 29, 1097-1106. 18.- Veciana, M.T.; Hernández, T.; Marine, A.; Vidal, M.C. Liquid Chromatographic Method for Determination of Biogenic Amines in Fish and Fish Products. Journal Of AOAC International 1995, 78, 1045-1050. 233 6. Regresión lineal en presencia de puntos discrepantes 6.5 Conclusiones En este capítulo se han desarrollado una nueva técnica para la detección de puntos discrepantes y un método de regresión robusta donde se consideran los errores experimentales cometidos en las variables predictora y respuesta. En el apartado 6.2.2 se presenta una técnica para la detección de puntos discrepantes. Se trata de un criterio gráfico que compara las rectas de regresión obtenidas antes y después de eliminar del conjunto de datos inicial los puntos sospechosos de ser discrepantes. Para ello considera las incertidumbres asociadas a la ordenada en el origen y la pendiente de las dos rectas de regresión (la obtenida a partir del conjunto de datos inicial y a partir del mismo conjunto de datos sin los puntos sospechosos de ser discrepantes). Mediante la utilización del criterio gráfico para la detección de puntos discrepantes, presentado en la sección 6.2.2, se garantiza que cuando un punto se considera discrepante es porque éste afecta, no solo a los coeficientes de regresión, sino también a sus varianzas y covarianzas asociadas, tal como se concluye de la sección 6.2.3. Además se ha comprobado que la sensibilidad del criterio gráfico supera la que ofrecen técnicas de detección de puntos discrepantes clásicas como el test de Cook, pues permite detectar puntos discrepantes que utilizando el test de Cook no se detectan. También se observa que la sensibilidad del criterio gráfico aumenta cuando disminuye la varianza experimental de los puntos sospechosos de ser discrepantes. Por este motivo hay que tener un especial cuidado al tratar puntos con varianzas experimentales extremadamente pequeñas, intentando conocer el motivo de estas varianzas. Así, por ejemplo, unas varianzas extremadamente pequeñas debidas a un exhaustivo proceso de análisis o a un elevado número de réplicas, hacen pensar que el punto no debe considerarse discrepante debido a la gran cantidad de información que contiene. Sin embargo, si estas varianzas extremadamente pequeñas se deben a un análisis con pocas réplicas, a un análisis cercano al límite de detección, o a algún error en la transcripción de los resultados, el punto deberá considerarse discrepante. 234 6.5 Conclusiones En el apartado 6.3.2 se ha presentado el método de regresión robusta de BLMS. Este método robusto está basado en el de LMS desarrollado por Rousseeuw y Leroy, adaptado para la situación en que se consideran los errores cometidos en las dos variables. Para ello se introduce un factor de ponderación que depende de las varianzas experimentales en cada una de las variables. Se ha utilizado un proceso iterativo mediante el método de Monte Carlo para generalizar la metodología y encontrar una mejor recta de regresión robusta, de manera que se evite la necesidad de que la recta de regresión robusta resultante pase exactamente por dos puntos del conjunto de datos inicial. Esta técnica de regresión se ha validado y probado sobre una serie de conjuntos tanto reales como simulados donde se sospecha de la presencia de puntos discrepantes. Se observa en todos ellos como la recta de regresión ajusta a la mayor parte de puntos dando menor importancia a los puntos discrepantes. La utilización del método de regresión de BLMS tiene asociada una serie de inconvenientes. Entre ellos cabe destacar el aumento de la complejidad en el algoritmo de cálculo de la recta de regresión, con respecto a la recta BLS, y la dificultad (si no imposibilidad) de conocer las varianzas asociadas a los coeficientes de regresión de la recta de regresión robusta (lo que impide la utilización de tests sobre los coeficientes de la recta de regresión robusta). En este capítulo se ha propuesto, además, una nueva técnica para el estudio de los datos, previa a la obtención de la recta de regresión. Se trata de una generalización del gráfico de residuales ponderados al caso en que se consideran los errores individuales cometidos en las variables predictora y respuesta. En el apartado 6.4.2 se explica su funcionamiento, tanto sobre la recta de regresión robusta (BLMS) como sobre la recta BLS. Una vez presentada esta nueva técnica, en el mismo apartado se propone un protocolo de actuación en el caso de tener puntos discrepantes en el conjunto de datos. Para ello se han utilizado una serie de casos reales extraídos de la bibliografía que representan cada uno de los supuestos realizados en el protocolo. En cada caso se ha obtenido la mejor de las rectas de regresión que se puede conseguir a partir de los datos experimentales y teniendo en cuenta los errores cometidos en las dos variables. 235 6. Regresión lineal en presencia de puntos discrepantes El principal problema presentado a lo largo de este capítulo se corresponde con la situación en que el conjunto de datos contiene puntos con varianzas experimentales extremadamente pequeñas. Estos puntos son los que incluyen una mayor información en regresión lineal considerando los errores cometidos en las dos variables. El problema de estos puntos es que los tests y técnicas desarrollados tienden fácilmente a considerarlos como puntos discrepantes cuando en realidad pueden no serlo (únicamente si se encuentran muy próximos a la recta de regresión no serán considerados como puntos discrepantes). Por este motivo, el analista deberá tener un especial cuidado con este tipo de observaciones, debiendo analizar en profundidad la causa de estas varianzas experimentales extremadamente pequeñas. Así, por ejemplo, si se concluye que dichas varianzas se deben a un minucioso proceso de análisis, a múltiples réplicas o a análisis a concentraciones pequeñas, estos puntos no deben considerarse discrepantes. Sin embargo, si el origen de que las varianzas sean extremadamente pequeñas es un análisis cerca del límite de detección, errores en el proceso de medida, análisis con un número de réplicas muy bajo, o errores de transcripción en cualquier momento del proceso, estos puntos deberán considerarse puntos discrepantes. 6.6 Referencias 1.- P.J. Rousseeuw, A.M. Leroy, Robust Regression & Outlier Detection, John Willey & Sons, New York (1987). 2.- R.D. Cook, Technometrics, 19 (1977) 15-18. 3.- F.X. Rius, J. Smeyers-Verbeke, D.L. Massart, Trends in Analytical Chemistry, 8 (1989) 8-11. 4.- D.L. Massart, B.G.M. Vandeginste, L.M.C. Buydens, S. de Jong, P.J. Lewi, J. Smeyers-Verbeke, Handbook of Chemometrics and Qualimetrics: Part A, Elsevier, Amsterdam (1997). 5.- S. Weisberg, Applied Linear Regression, 2nd Ed., John Wiley & Sons, New York (1985). 6.- J. Riu, F.X. Rius, Analytical Chemistry, 68 (1996) 1851-1857. 7.- M.T. Veciana, T. Hernández, A. Marine, M.C. Vidal, Journal Of AOAC International, 78 (1995) 1045-1050. 8.- C.J. Gamski, G.R. Howes, J.W. Taylor, Anal. Chem., 66 (1994) 1015-1020. 236 6.6 Referencias 9.- C.L.Cheng, J.W. Van Ness, Technometrics, 39 (1997) 401-411. 10.- D.J. Cummings, C.W. Andrews, Journal of Chemometrics, 9 (1995) 489-507. 11.- F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, W.A. Stahel, Robust Statistics, John Willey & Sons, New York (1986). 12.- P.J. Huber, Robust Statistics, John Willey & Sons, New York (1981). 13.- P.J. Rousseeuw, J. Am. Stat. Assoc., 79 (1984) 871-880. 14.- I.E. Frank, R. Todeschini, The Data Analysis Handbook, Elsevier, Amsterdam (1994). 15.- P.C. Meier, R.E. Zünd, Statistical Methods in Analytical Chemistry, John Wiley & Sons, New York (1993). 16.- O. Güell, J.A. Holcombe, Analytical Chemistry, John Wiley & Sons, New York (1993). 17.- H.A. Meyer (editor), Symposium on Monte Carlo Methods, Willey, Chichester, New York, 1956. 18.- B.D. Ripley, M. Thompson, Analyst, 112 (1987) 377-383. 237 7 Capítulo Conclusiones 7.1 Conclusiones 7.1 Conclusiones A lo largo de la presente Tesis Doctoral se han presentado varias aportaciones a la regresión lineal considerando los errores cometidos en las dos variables, y concretamente sobre el método de regresión de BLS. De esta forma, se consigue aumentar la aplicabilidad de este método de regresión en el campo de la química analítica. Una de las principales conclusiones que se extraen de la utilización de estas técnicas sobre el método de BLS, es la necesidad de conocer los errores experimentales asociados a cada punto experimental. El proceso seguido para encontrar una buena estimación de estos errores suele añadir laboriosidad al proceso de análisis de las dos variables (si bien hay muchos casos en que el error experimental en las dos variables se obtiene directamente del análisis), ya que una buena estimación de estos errores se suele basar en un aumento del número de réplicas. A continuación se presentan las conclusiones que se extraen de analizar esta Tesis a partir de los objetivos propuestos en la sección 1.1: 1.- Estudio y caracterización de las distribuciones de los coeficientes de regresión (ordenada en el origen y pendiente) encontrados mediante el método BLS con el fin de conocer qué tipo de tests estadísticos derivados se deben aplicar en el campo de la química analítica. Se ha conseguido concluir que los coeficientes de regresión de BLS siguen una distribución que difiere estadísticamente de la distribución normal. Sin embargo esta diferencia se ha comprobado que es suficientemente pequeña, de manera que el error que se comete al utilizar la hipótesis de normalidad en los coeficientes de regresión puede considerarse despreciable. Este error se ha comparado con el cometido al utilizar los métodos de regresión que consideran los errores cometidos únicamente en la variable respuesta (es decir OLS y WLS) llegándose a la conclusión de que, a pesar de cometer un error debido a la asunción errónea de normalidad en las distribuciones de los coeficientes de regresión de 241 7. Conclusiones BLS, se produce una sustancial mejora en la determinación de los coeficientes de regresión. 2.- Desarrollo de las expresiones para el cálculo de las varianzas asociadas a la predicción tanto de la variable predictora como de la variable respuesta utilizando los errores cometidos en ambas variables. Se han desarrollado las expresiones para el cálculo de la varianza asociada a la predicción de la variable respuesta a partir de una valor dado de la variable predictora y viceversa, cuando se consideran los errores en las dos variables. La validación de las mismas se ha llevado a cabo a partir de una comparación interna y utilizando la simulación de la predicción sobre varios conjuntos de datos reales extraídos de la bibliografía. Estas expresiones se han utilizado para representar los intervalos de predicción tanto de la variable respuesta como de la variable predictora. A su vez, estos intervalos de predicción han permitido comprobar la invariabilidad del método de BLS ante un intercambio de ejes. Esta afirmación es muy importante pues permite concluir que es indiferente cual de las variables sea considerada como variable predictora y cual como variable respuesta. Un ejemplo donde este efecto es importante es la comparación de métodos analíticos en la que debería ser indiferente la ubicación de los resultados de utilizar cada uno de los dos métodos pues sus errores experimentales son generalmente del mismo orden de magnitud. 3.- Cálculo del límite de detección de una metodología analítica en que la recta de calibración se construye mediante el método de BLS. Se han desarrollado las expresiones para el cálculo del límite de detección en regresión lineal considerando los errores cometidos en las variables predictora y respuesta. Para ello se han utilizado los intervalos de predicción del capítulo anterior, sobre los que se añade el modelado de los errores de las dos variables, con el fin de subsanar la limitación de no conocer el intervalo de predicción en aquellos valores de la concentración de los que no se dispone de valores experimentales. Si bien el límite de detección se ha utilizado, básicamente, sobre casos de calibración, en otros campos de la ciencia hay otras aplicaciones en que su utilidad 242 7.1 Conclusiones está fuera de dudas y en las cuales deben considerarse los errores en las dos variables. En todos estos casos se puede calcular el límite de detección sin variar las expresiones presentadas en el capítulo 5. 4.- Establecer el procedimiento que se ha de seguir ante la posible presencia de puntos discrepantes en una recta de regresión considerando los errores en las variables predictora y respuesta, desarrollando para ello un método de regresión robusto y un criterio gráfico para la detección de puntos discrepantes. Con el fin de tratar los posibles puntos discrepantes que contiene un conjunto de datos a la hora de hacer una regresión lineal considerando los errores cometidos en las dos variables, se han desarrollado una serie de técnicas de detección y tratamiento de los mismos. Estas técnicas son: • Un criterio gráfico para la detección de puntos discrepantes basado en la comparación de las dos elipses de confianza conjunta de los coeficientes de regresión, de las rectas obtenidas a partir del conjunto de datos inicial con y sin los puntos sospechosos de ser discrepantes. Este criterio gráfico se ha probado sobre varios conjuntos de datos reales extraídos de la bibliografía, verificándose la bondad de sus resultados. Su principal aportación es que considera las varianzas y covarianzas asociadas a los coeficientes de regresión, con lo que se puede considerar como punto discrepante uno que varíe significativamente las varianzas de los coeficientes de regresión aunque no lo haga sobre el valor medio de los coeficientes de regresión. • Un método de regresión robusta (BLMS) que considera los errores experimentales individuales cometidos en las dos variables. Este método de regresión se ha probado sobre una serie de conjuntos de datos reales y simulados, y se ha comprobado su robustez mediante el cálculo del punto de ruptura (breakdown point). • Una generalización del gráfico de residuales al caso en que se consideran los errores en las variables predictora y respuesta, explicando su aplicación sobre la recta de regresión robusta (BLMS) y sobre la recta BLS. Este gráfico de residuales ponderados se utiliza como una técnica de estudio previo de los datos, antes de utilizar las técnicas descritas anteriormente. 243 7. Conclusiones Como última aportación de este apartado, se ha propuesto un protocolo de actuación en presencia de puntos discrepantes. Este protocolo se ha probado sobre una serie de conjuntos de datos reales del campo de la química analítica, sobre los que se ha encontrado la mejor recta de regresión, con los datos experimentales disponibles, teniendo en cuenta los errores en las variables predictora y respuesta y la posible presencia de puntos discrepantes. 7.2 Perspectivas futuras Una vez presentados los resultados y las conclusiones, se introducen una serie de temas sobre los que se podría profundizar, o incluso nuevas líneas de investigación que quedan abiertas. A continuación se citan algunas de ellas: • Cálculo de los límites de cuantificación en regresión lineal considerando los errores cometidos en la concentración, lo que supondría una ampliación en el campo del cálculo de los límites de detección. • Desarrollar las expresiones para el cálculo de las varianzas de los coeficientes de regresión de la recta obtenida a partir el método BLMS, y estudiar la distribución que tienen asociada dichos coeficientes. De esta forma se solventaría la limitación descrita a lo largo de la Tesis Doctoral derivada de la dificultad (o en muchos casos imposibilidad) de realizar tests tanto individuales como conjuntos sobre los coeficientes de regresión de la recta de regresión robusta. • Desarrollo del uso del criterio gráfico para la detección de puntos discrepantes, propuesto en el capítulo sexto de esta Tesis Doctoral, en el caso en que se utilizan otros métodos de regresión tales como OLS, WLS o CVR, por ejemplo. Este desarrollo tiene una gran importancia pues utilizando estos métodos de regresión no existe ningún criterio de detección de puntos discrepantes que utilice la información derivada de las varianzas y covarianzas de la recta de regresión. Una segunda aplicación de este criterio gráfico es la comparación de dos rectas, donde se quieran tener en cuenta las varianzas y covarianzas de los coeficientes de regresión, habiéndose encontrado dichas 244 7.2 Perspectivas futuras rectas de regresión a partir de cualquiera de los métodos propuestos a lo largo de esta Tesis Doctoral (OLS, WLS, BLS, etc.). • Estudio de la regresión no lineal considerando los errores en las variables predictora y respuesta. En este campo se deberían desarrollar los intervalos de predicción, los límites de detección y el tratamiento de puntos discrepantes entre otras aplicaciones. • Mejora del algoritmo del método BLS en su extensión al campo multivariante, en el método de mínimos cuadrados multivariantes (multivariate least squares, MLS), que considera los errores cometidos en todas las variables, con el fin de asegurar la obtención de un mínimo global en el cálculo del hiperplano de regresión. Sobre dicho hiperplano de regresión se deberían desarrollar los intervalos de predicción, los límites de detección y la detección de puntos discrepantes, de igual forma a como se ha llevado a cabo en esta Tesis Doctoral en el campo de la regresión lineal univariante con errores en las dos variables. Otra de las actuaciones que quedan abiertas es el desarrollo y divulgación de un programario donde se incluyan las aplicaciones y tests que se han presentado a lo largo de la presente Tesis Doctoral. 245 8 Capítulo Anexos 8.1 Anexo 1. Comparación de los métodos OLS, WLS y BLS 8.1 Anexo 1. Comparación de los métodos OLS, WLS y BLS 8.1.1 Comparación de las rectas de regresión obtenidas con los métodos OLS, WLS y BLS Tal como se ha explicado a lo largo de la presente Tesis Doctoral, la recta obtenida mediante el método de OLS minimiza los residuales de todos los puntos experimentales respecto a la recta, pero no tiene en cuenta los errores experimentales individuales asociados a la variable predictora ni los errores experimentales individuales asociados a la variable respuesta. Por otro lado, la recta obtenida a partir del método de WLS considera los errores individuales asociados a la variable respuesta, aunque sigue sin considerar los errores asociados a la variable predictora, y otorga un mayor peso en la regresión a los puntos experimentales cuyo error en la variable respuesta es menor, con lo que la recta WLS tenderá a acercarse más a estos puntos, independientemente de cómo sean los errores en la variable predictora. El método BLS, por el hecho de considerar los errores individuales en las variables predictora y respuesta, da una mayor importancia a aquellos puntos cuyas varianzas en ambas variables son menores. Un ejemplo de comparación de las rectas obtenidas a partir de los tres métodos descritos se encuentra en la figura 8.1, donde se representan los resultados de analizar la composición en seis elementos químicos de dos grupos diferentes de restos arqueológicos encontrados en Israel.1 En la figura se representan, además de los puntos experimentales (xi, yi), las desviaciones estándar asociadas a cada uno de ellos. Concretamente las líneas verticales y horizontales en cada punto experimental representan el doble de la desviación estándar en cada una de las dos variables. En la figura 2.4 se observa que en la recta obtenida mediante el método de OLS todos los puntos experimentales tienen igual importancia. La recta WLS pondera en la variable respuesta, por lo que se ajustan mejor los puntos del inicio, cuyos errores asociados son menores. De entre los puntos más influyentes para la 249 8. Anexos recta WLS se destaca el tercer punto experimental (correspondiente al análisis del Sc) pues es el punto con menor error asociado a la variable respuesta. Sin embargo, al representar la recta BLS, y por el hecho de considerar los errores en las dos variables, el tercer punto experimental pierde importancia pues su error asociado a la variable predictora es grande en relación a los puntos experimentales que le rodean. También se observa como el último punto (correspondiente al análisis del Cr), que es el que tiene mayores errores asociados tanto a la variable respuesta como a la variable predictora, por lo que la recta BLS prácticamente no tiene en cuenta este punto a la hora de ajustar los puntos experimentales y de calcular los coeficientes de regresión, de igual forma que ocurría con el método de WLS, si bien por la estructura del resto del conjunto de datos la recta BLS se ajusta mejor a este punto que la recta WLS. Variable respuesta 160 BLS 120 OLS WLS 80 40 0 0 40 80 Variable predictora 120 Figura 8.1.- Comparación de las rectas de regresión de los métodos de OLS, WLS y BLS. Las líneas horizontales y verticales representan el doble de la desviación estándar experimental de cada punto. 8.1.2 Comparación de los métodos OLS, WLS y BLS Una de las principales características del método de BLS, es que engloba tanto a OLS como a WLS, es decir: al considerar las varianzas asociadas a la variable predictora nulas y las varianzas asociadas a la variable respuesta como 250 8.1 Anexo 1. Comparación de los métodos OLS, WLS y BLS constante, la expresión para el cálculo de la recta de regresión utilizando BLS coincide con la obtenida por el método de OLS, mientras que al considerar la heteroscedasticidad en la variable respuesta, la recta de BLS (incluyendo las varianzas de los coeficientes de regresión) coincide con la obtenida con el método de WLS. Para demostrar esta afirmación, a continuación se presenta la transformación de las expresiones de cálculo de la recta BLS en las utilizadas por WLS y OLS, al suponer, en primer lugar, varianzas nulas en la variable predictora y a continuación imponiendo que varianzas en la variable respuesta sean constantes. Para ello se parte de la ecuación para el cálculo de los coeficientes de regresión de la recta BLS (ecuaciones 2.33 y 2.34), ahora renombradas como 8.1 y 8.2 respectivamente, y de la definición del factor de ponderación (ecuación 2.31), ahora renombrada como 8.3: n i =1 n i =1 n ∑ 1 wi ∑ ∑ xi wi ∑ i =1 n i =1 2 n yi + 1 ei ∂ wi xi wi b0 i =1 wi 2 wi ∂b0 × = xi2 b1 n x y 1 e 2 ∂ w i i i + i wi 2 wi ∂b1 i =1 wi ∑ (8.1) ∑ R ⋅b = g wi = se2i = s 2yi + b12 s x2i − 2b1 cov( xi , yi ) (8.2) (8.3) Al considerar las varianzas en la variable predictora nulas, y suponiendo nula la covarianza entre las variables respuesta y predictora, la ecuación 8.3 queda de la siguiente forma: wi = s e2i = s y2i (8.4) Estas condiciones son las requeridas por el método WLS para obtener la recta de regresión. De la expresión 8.4 se observa que las derivadas parciales del factor de ponderación respecto a cada uno de los coeficientes de regresión son nulas. De esta forma, la ecuación 8.1 se ve reducida a la siguiente: 251 8. Anexos n i =n1 i =1 xi n yi b0 i =1 wi i = 2 × xi b1 n xi y i i =1 w wi i n 1 ∑w ∑w ∑ i =1 n i xi wi ∑ (8.5) ∑ ∑ i =1 Para encontrar los coeficientes de regresión se debe invertir la matriz R de la ecuación 8.2, tal como se observa en la ecuación 8.6: b = R −1 ⋅ g (8.6) Introduciendo la matriz invertida, los coeficientes de regresión se obtienen a partir de la siguiente ecuación: b0 b = 1 n ∑ i =1 n 1 xi2 wi − x 2 i ∑w ∑w i =1 i n xi i =1 i 2 n n 1 x 1 wi n ∑ ∑ i =1 i =1 xi2 − wi 2 i ∑ w ∑ w ∑ w i =1 i =1 i i n ∑ n xi ∑w i =1 − i =1 i n xi − i =1 wi n n ∑ i =1 n ∑ i =1 xi wi 2 n n 1 wi ∑ ∑ i =1 i =1 i − 1 wi xi2 − wi n xi ∑w i =1 i 2 n yi × i =1 wi (8.7) n xi y i i =1 wi 2 ∑ ∑ n xi ∑w i =1 i Multiplicando las dos matrices se obtiene: n ∑ i =1 n b0 b = 1 ∑ i =1 n ∑ i =1 xi2 ⋅ wi n ∑ i =1 n yi wi x xi − i =1 wi i =1 wi n xi n xi y i − ⋅ i =1 wi i =1 wi ∑ ∑ n xi2 − wi 1 ⋅ wi 1 ⋅ wi n ∑ ∑ i =1 2 i n ∑ n ∑ i =1 xi wi 2 − ∑ i =1 n ∑ i =1 2 + xi ⋅ wi ∑ i =1 yi ∑w i =1 i x xi − i =1 wi i =1 wi n 1 n xi y i ⋅ i =1 wi i =1 wi 2 2 1 ⋅ wi n ∑ ∑ n n 1 ⋅ wi 2 i n ∑ (8.8) ∑ n ∑ i =1 xi2 − wi n ∑ i =1 xi wi Agrupando los valores de la segunda matriz se obtienen las expresiones de la ordenada en el origen y la pendiente obtenidas mediante el método WLS: 252 8.1 Anexo 1. Comparación de los métodos OLS, WLS y BLS xi2 n i =1 b0 = n yi n ∑ i =1 i =1 i n ∑ 1 ⋅ wi 1 ⋅ wi n i =1 b1 = n n xi yi ∑ w ⋅∑ w − ∑ w ⋅∑ w n i =1 ∑ i =1 ∑ i =1 n ∑ i =1 i =1 i x − wi 2 i n ∑ i =1 n xi y i − wi 1 ⋅ wi ∑ i =1 i n ∑ i =1 x − wi 2 i n n ∑ i =1 xi wi ∑ i =1 xi wi xi ⋅ wi i (8.9) 2 xi y i wi (8.10) 2 que coinciden con las ecuaciones 2.18 y 2.19 que definen los coeficientes de regresión obtenidos mediante el método de WLS. En el caso de considerar homoscedasticidad en la variable respuesta (condiciones de trabajo del método OLS), la ecuación 8.4 se transforma en un valor constante (w) y, por tanto, las ecuaciones 8.9 y 8.10 se expresan de la siguiente forma: b0 = b1 = 1 w n ∑x ⋅ i =1 1 w 1 w 2 i n ∑ 1 w ∑y 1 1⋅ w i =1 ∑ 1 w i 1 w − i =1 n 1⋅ i =1 n 1 w n ∑ n ∑ i =1 n 1 1⋅ w i =1 ∑ n ∑ i =1 i =1 n 1 w n 1 i 1 xi2 − w xi y i − i =1 n ∑x ⋅ w∑ y ∑ n ∑ i =1 xi ⋅ i =1 1 x − w 2 i n i =1 (8.11) xi 1 w ∑ i i =1 2 n ∑x y i i =1 2 xi i (8.12) de donde se obtienen las expresiones de la ordenada en el origen y la pendiente de la recta de regresión de OLS, y que coinciden con las ecuaciones 2.13 y 2.14: n n 2 i b0 = n n ∑x ∑y −∑x ∑x y i =1 i i =1 n n ∑ i =1 i i =1 xi2 − n ∑ i =1 i i =1 2 xi i (8.13) 253 8. Anexos n n b1 = n i i =1 i i i =1 n n ∑ i =1 8.1.3 n ∑x y −∑x ∑y xi2 − i i =1 n ∑ i =1 xi 2 Referencias 1.- J. Yellin, Trends in Analytical Chemistry, 14 (1995), 37-44. 254 (8.14) 8.2 Anexo 2. Presentaciones en congresos 8.2 Anexo 2. Presentaciones en congresos En esta sección se presentan diferentes colaboraciones, surgidas directamente del trabajo realizado en esta Tesis Doctoral, en diferentes congresos. El primero de ellos es una colaboración en forma de póster en el IV Colloquium Chimiometricum Mediterraneum, que se celebró en Burgos (España) entre el 8 y el 11 de junio de 1998. Esta colaboración trata sobre el desarrollo de los tests individuales para los dos coeficientes de regresión de la recta BLS. Dentro de este póster, se incluye el estudio y la evaluación de las distribuciones de los coeficientes de regresión de la recta BLS, que se han desarrollado en el capítulo 3 de esta Tesis Doctoral. A continuación se presentaron dos pósters presentados en el VII congreso internacional Chemometrics in Analytical Chemistry, celebrado en Amberes (Bélgica) entre el 16 y el 20 de octubre de 2000. El primero de ellos trata sobre el desarrollo de las expresiones para el cálculo de los límites de detección mediante el método BLS (desarrollado en el capítulo 5 de la presente Tesis Doctoral), mientras que el segundo consiste en el desarrollo del criterio gráfico para la detección de puntos discrepantes, desarrollado en el apartado 6.2 de la presente Tesis Doctoral. Además de las aportaciones en Congresos en forma de pósters, en el IV Colloquium Chimiometricum Mediterraneum, se participó con una presentación oral (Intervalos de confianza en regresión lineal considerando los errores en dos ejes) y una conferencia plenaria (Uncertainty and bias, two faces of the same analytical result) extraídas total o parcialmente del trabajo llevado a cabo en esta Tesis Doctoral. 255 Índice temático Índice temático A Análisis químicos APM 139 44 B BLMS 167, 195–214, 217, 234, 235, 243, 244 BLS 3, 4, 9, 26–28, 29, 67, 96, 163, 167, 170, 235, 241, 244, 249–254, 255 Bootstrap 44 C Calibración lineal 29, 40, 67, 101, 133, 134, 140 Coeficiente de aplastamiento 33, 35, 38 Coeficiente de asimetría 32, 35, 38 Coeficiente de fiabilidad 20, 22, 23 Coeficientes de Fisher 35, 36 Coeficientes de Pearson 35, 36 Comparación de métodos 28, 29–30, 40, 43, 67, 68, 96, 101, 133, 134 Covarianza 26, 27, 192 Criterio gráfico para la detección de puntos discrepantes 170, 171, 189–194, 234, 243, 255 CVR 23, 24, 45 D Detección de puntos discrepantes 3, 4, 53, 54, 167, 169–194 Distribución de una población Distribución normal 96, 241 DR 34, 36, 38, 58, 56 E EPM 44 Errores α y β 48, 68, 134 Estimaciones por máxima verosimilitud 25, 55, 57 Estimaciones por mínimos cuadrados 26 F Función de probabilidad 24, 34 G Gráfico de residuales ponderados 217, 235, 244 Gráficos de probabilidad normal 38–39 H Hipótesis alternativa Hipótesis nula 48 48 I Intervalo de confianza conjunto para la ordenada y la pendiente 54, 170 Intervalos de predicción 101, 102, 133, 134, 141, 163, 167, 242, 255 K 3 Kurtosis Ver Coeficiente de aplastamiento 259 Índice temático L Límite de detección 3, 5, 47–52, 167 Límite de detección en BLS 9, 133, 137–164, 242, 243, 255 Límites de detección 4 LMS 56, 57, 195, 213, 235 M Modelado de las varianzas experimentales 133, 141 Modelo estructural 21, 57 Modelo funcional 21, 22, 57 Modelo ultraestructural 21, 57 Momento 31 Momento centrado 31, 32, 35 Momento centrado adimensional 31, 33 Monte Carlo 4, 57–59, 103, 195, 213, 235 N Nivel de significancia 193, 194 Normalidad de los coeficientes de la recta BLS 4, 5, 9, 65–97, 241 O ODR 23 OLS 16–18, 28, 40, 42, 43, 53, 55, 96, 102, 141, 241, 249–254 OR 23 P Predicción en BLS 4, 5, 9, 99–135, 242 Predicción en regresión lineal 3, 39–46 Profundidad 56 260 Punto de ruptura Puntos discrepantes 217–233, 234, 243 56 5, 163, 167, R Regresión 13 Regresión lineal 9, 12–30, 51, 167 Regresión robusta 3, 4, 53, 55–57, 195 Robustez de BLS 167, 214–216, 217 S Skeewness asimetría Ver Coeficiente de T Teoría de propagación de los errores 102 Test conjunto para la ordenada y la pendiente 68, 96 Test de Cook 169 Test de Kolmogorov 37–38 Test en Cetama 35–37 Tests individuales para la ordenada y la pendiente 67, 167, 255 TLS 23 V Validación de metodologías 163 Valor crítico 49, 50, 51 W WLS 18–19, 28, 43, 96, 102, 141, 241, 249–254 Índice ÍNDICE 1 2 Introducción 1 1.1 Objetivos y justificación 3 1.2 Estructura de la Tesis 3 Fundamentos teóricos 2.1 7 Notación 2.1.1.1 Símbolos del alfabeto latino 9 10 2.1.1.2 12 Símbolos del alfabeto griego 2.2 Regresión lineal 12 2.2.1 Métodos que consideran los errores en una sola variable 15 2.2.1.1 Mínimos cuadrados ordinarios (OLS) 15 2.2.1.2 Mínimos cuadrados ponderados (WLS) 18 2.2.2 Métodos que consideran los errores en dos variables 19 2.2.2.1 Estimaciones por máxima verosimilitud 21 2.2.2.2 Estimaciones por mínimos cuadrados 25 2.2.2.3 Método de mínimos cuadrados bivariantes (bivariate least squares, BLS). 26 2.2.3 Aplicaciones de la regresión lineal considerando los errores en las variables predictora y respuesta 28 2.2.3.1 Calibración lineal 29 2.2.3.2 Comparación de métodos 29 2.3 Distribución de la población de una medida experimental 2.3.1 Distribución normal o Gaussiana 30 33 2.4 Tests estadísticos para la comprobación de la normalidad de una distribución 34 2.4.1 Test de normalidad en Cetama 34 2.4.2 Test de Kolmogorov 36 2.4.3 Gráficos de probabilidad normal 37 2.5 Predicción en regresión lineal 39 XI Índice 2.5.1 Intervalos de predicción considerando solamente los errores en la variable respuesta 39 2.5.2 Intervalos de predicción considerando los errores en las variables predictora y respuesta 44 3 2.6 Límites de detección 2.6.1 Test de hipótesis 2.6.2 Etapa de decisión 2.6.3 Etapa de detección 45 47 47 48 2.7 Regresión lineal en presencia de puntos discrepantes 2.7.1 Técnicas de detección de puntos discrepantes 2.7.2 Robustez en regresión lineal 51 52 53 2.8 Simulación de Monte Carlo 56 2.9 Referencias 57 Normalidad de los coeficientes de regresión 3.1 Introducción 3.2 Detecting proportional and constant bias in method comparison studies by using linear regression with errors in both axes 4 65 67 69 3.3 Conclusiones 96 3.4 Referencias 96 Predicción en BLS 4.1 Introducción 99 101 4.2 Prediction intervals in linear regression taking into account errors on both axes 104 5 4.3 Conclusiones 133 4.4 Referencias 134 Límite de detección en BLS 5.1 XII Introducción 137 139 Índice 5.2 concentration 6 Limits of detection in linear regression with errors in the 142 5.3 Conclusiones 163 5.4 Referencias 164 Regresión lineal en presencia de puntos discrepantes 6.1 Introducción 6.2 Detección de puntos discrepantes 6.2.1 Introducción 6.2.2 Outlier detection in linear regression taking into account errors in both axes 6.2.3 Comprobación de la aplicación del criterio gráfico 165 167 169 169 172 190 6.3 Regresión robusta 195 6.3.1 Introducción 195 6.3.2 Robust linear regression taking into account errors in both axes 6.3.3 BLMS 6.3.4 197 Comparación de diversos algoritmos de cálculo de la recta 213 Robustez de la recta BLS 214 6.4 Protocolo de actuación en regresión lineal en presencia de puntos discrepantes 217 6.4.1 Introducción 217 6.4.2 Linear regression taking into account errors in both axes in presence of outliers 218 7 6.5 Conclusiones 234 6.6 Referencias 236 Conclusiones 239 7.1 Conclusiones 241 7.2 Perspectivas futuras 244 XIII Índice 8 Anexos 247 8.1 Anexo 1. Comparación de los métodos OLS, WLS y BLS 249 8.1.1 Comparación de las rectas de regresión obtenidas con los métodos OLS, WLS y BLS 249 8.1.2 Comparación de los métodos OLS, WLS y BLS 250 8.1.3 Referencias 254 8.2 Anexo 2. Presentaciones en congresos Índice temático XIV 255 257 UNIVERSITAT ROVIRA I VIRGILI Departament de Química Analítica i Química Orgànica PARÁMETROS CUALIMÉTRICOS DE MÉTODOS ANALÍTICOS QUE UTILIZAN REGRESIÓN LINEAL CON ERRORES EN LAS DOS VARIABLES Tesis Doctoral F RANCISCO J AVIER DEL R ÍO B OCIO Tarragona, 2001 Parámetros Cualimétricos de Métodos Analíticos que Utilizan Regresión Lineal con Errores en las Dos Variables Tesis Doctoral U NIVERSITAT ROVIRA I V IRGILI UNIVERSITAT ROVIRA I VIRGILI Departament de Química Analítica i Química Orgànica Àrea de Química Analítica PARÁMETROS CUALIMÉTRICOS DE MÉTODOS ANALÍTICOS QUE UTILIZAN REGRESIÓN LINEAL CON ERRORES EN LAS DOS VARIABLES Memoria presentada por Francisco Javier del Río Bocio para conseguir el grado de Doctor en Química Tarragona, 2001 Prof. FRANCESC XAVIER RIUS I FERRÚS, Catedrático del Departament de Química Analítica i Química orgánica de la Facultat de Química de la Universitat Rovira i Virgili, y el Dr. JORDI RIU I RUSELL, Becario post doctoral del mismo Departamento, CERTIFICAN: Que la presente memoria que tiene por título: “PARÁMETROS CUALIMÉTRICOS DE MÉTODOS ANALÍTICOS QUE UTILIZAN REGRESIÓN LINEAL CON ERRORES EN LAS DOS VARIABLES”, ha sido realizada por FRANCISCO JAVIER DEL RÍO BOCIO bajo nuestra dirección en el Área de Química Analítica del Departament de Química Analítica i Química Orgánica de esta Universidad y que todos los resultados presentados son fruto de las experiencias realizadas por dicho doctorando. Tarragona, marzo de 2001 Prof. F. Xavier Rius i Ferrús Dr. Jordi Riu i Rusell AGRADECIMIENTOS Soy consciente de que los siguientes párrafos van a ser los más leidos de la Tesis. Por este motivo voy a aprovechar y mostrar mi gratitud hacia todas aquellas personas que de una manera u otra me han ayudado a poder llegar a este momento tan esperado. En primer lugar me gustaría agradecer a F. Xavier Rius el empujón que me dio en su día para entrar en este mundillo de la investigación cuando yo había dejado de creer en la química. Muchas gracias por eso y por la ayuda que me has prestado en todos estos años de trabajo. También me gustaría darle las gracias a Jordi Riu. Muchas gracias por tu ayuda, por tu colaboración pero, sobretodo, muchas gracias por ofrecerme tu amistad. Espero que te vaya muy bien en el post-doc y que a tu vuelta triunfes tanto como investigador como ... bueno, como en todo lo demás. Muchas gracias a mis compañeros del grupo de Quimiometría. Quiero empezar por los que me han acompañado en el labo 9 desde el primer día, y que me han aguantado en mis buenos y en mis malos días. Muchas gracias a Jaume (los del Burger echarán de menos al consumidor de Long Chicken, ¿eh?) y a Santi (siempre disponible para ayudar y resolver dudas en cualquier momento ...). No quiero olvidar al resto de compañeros del grupo, empezando por Ángel que es con el que he trabajado más (¡aúpa BLS!). Alicia Pulido (... anda que no hemos pasado ratos criticando a troche y moche en el pasillo, ¿eh?), a la otra Alicia (otra que tal, ¿eh?), Enric (anímate y hazte merengue, que tendrás menos disgustos, ¡hombre!), a Mari, a Toni, a Josep Lluís, a Floren, a Joan, a Ricard, a Pilar, a Marisol, a Iciar, y a todos los que han pasado por el grupo y que ya no están. De estos me gustaría hacer mención especial a Sara y Barbara; estuvisteis poco tiempo, pero habéis dejado huella, ¿eh?. No me quiero olvidar (porque no sería justo) de mis amigos. Dentro de este apartado me gustaría mencionar muy especialmente a Noe (a pesar de haberme viciado con los talladets y la carmanyola he disfrutado mucho de ellos en compañía de una gran Amiga), a Pepe (esas comidas juntos no se olvidan fácilmente, ¿eh?. Por cierto, mucha suerte en tu nueva vida) y a Fernando (¡vaya ratos hemos pasado sentados en la escalera frente a orgánica!). Entre los tres habéis aguantado todos mis malos momentos en Tarragona y me habéis ayudado a superarlos. Tampoco me quiero olvidar de Juan Antonio, Jorge, Jordi, Merche, Eva, Núria y Olga (¡ese equipazo de enólogas! que siempre me han ayudado cuando lo he necesitado), Joan (¡firrrmes!) y Eva, ni tampoco de Vanessa y otros tantos que no enumeraré porque necesitaría demasiado espacio para no dejarme a nadie. Muchas gracias a todos por ser mis amigos. No me quiero olvidar de los momentos buenos y de ocio que he pasado durante este periodo de tiempo, así que también quiero agradecer los buenos ratos que he pasado en los tres coros (el de la URV, el Mare Nostrum y el de los Paúles), tocando la flauta o en el cine. Muchas gracias a los responsables de que me queden estos buenos recuerdos: Mònica, Marisol, Arancha, Quim, Laura, ... y un muy largo etcétera. Por último quiero agradecer muchísimo el apoyo y la ayuda de toda mi familia. Empezando por la más cercana: Papá, Mamá, Carlos, Inma, Marga y Yaya, y siguiendo por los tíos y primos. Muchas gracias a todos por ser como sois, por aguantarme y por ayudarme a llegar a esto. Sólo vosotros sabéis cuánto os agradezco todo lo que me habéis dado. A la hora de agradecer normalmente se piensa en toda la gente que te ha ayudado. Sin embargo cinco años son muchos y mi memoria demasiado flaca como para estar seguro de que no me he dejado a nadie. Por este motivo, quiero dar las gracias a todos aquellos que en algún momento han pensado en mi o me han querido ayudar. Muchas gracias a todos “Pedí a Dios de todo para disfrutar de la vida y Él me dio la vida para disfrutar de todo” A Papá, Mamá, Yaya, Carlos, Inma y Marga Os quiero muchísimo