Apuntes de Regulación Automática Ingenierı́a Electrónica Javier Aracil Fabio Gómez-Estern Contenido 1 Introducción a los sistemas de control. 1 1.1 Noción de control automático. . . . . . . . . . . . . . . . . . . . . 1 1.2 Necesidad del modelo matemático del sistema. . . . . . . . . . . . 3 1.3 Idea de realimentación. . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Realimentación, retardos y oscilación. . . . . . . . . . . . . . . . . 6 1.5 Sensibilidad y realimentación. . . . . . . . . . . . . . . . . . . . . 7 1.6 Las Matemáticas y el control automático. . . . . . . . . . . . . . . 9 1.7 Señales y sistemas. . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.8 Servomecanismos y reguladores. . . . . . . . . . . . . . . . . . . . 13 1.9 Bosquejo histórico del control automático. . . . . . . . . . . . . . 15 1.9.1 17 Control, informática y telecomunicaciones. . . . . . . . . . 2 Introducción a los sistemas realimentados 19 2.1 Servomecanismo de posición . . . . . . . . . . . . . . . . . . . . . 19 2.2 Acción proporcional más derivada (PD). . . . . . . . . . . . . . . 21 2.3 Acción proporcional más integral (PI). . . . . . . . . . . . . . . . 22 i Contenido ii 3 Sistemas dinámicos lineales 3.1 28 Transformación de Laplace . . . . . . . . . . . . . . . . . . . . . . 28 3.1.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.2 Resumen de Propiedades . . . . . . . . . . . . . . . . . . . 29 3.1.3 Calculo de antitransformadas . . . . . . . . . . . . . . . . 33 3.2 Noción de sistema dinámico. . . . . . . . . . . . . . . . . . . . . . 38 3.3 Formas de las relaciones entrada-salida en sistemas. . . . . . . . . 39 3.3.1 Sistemas estáticos. . . . . . . . . . . . . . . . . . . . . . . 39 3.3.2 Sistemas dinámicos . . . . . . . . . . . . . . . . . . . . . . 40 Descripción externa de los sistemas dinámicos. . . . . . . . . . . . 42 3.4.1 Respuesta impulsional. . . . . . . . . . . . . . . . . . . . . 42 3.4.2 Función de transferencia. . . . . . . . . . . . . . . . . . . . 44 Sistemas de control realimentados . . . . . . . . . . . . . . . . . . 46 3.4 3.5 4 Interpretaciones de la función de transferencia 50 4.1 Transformación de Fourier . . . . . . . . . . . . . . . . . . . . . . 50 4.2 Función de transferencia en el dominio de la frecuencia . . . . . . 54 5 Sistemas dinámicos lineales de primer orden 56 5.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.2 Solución de la ecuación diferencial de primer orden . . . . . . . . 57 5.2.1 Señal de entrada nula . . . . . . . . . . . . . . . . . . . . . 57 5.2.2 Señal de entrada no nula . . . . . . . . . . . . . . . . . . . 59 5.2.3 Respuestas a señales de entrada especiales . . . . . . . . . 61 Contenido 5.2.4 iii Respuesta armónica . . . . . . . . . . . . . . . . . . . . . . 69 5.3 Ejemplos de sistemas de primer orden . . . . . . . . . . . . . . . 72 5.4 El sistema de primer orden como integrador . . . . . . . . . . . . 77 6 Sistemas dinámicos lineales de segundo orden y de orden y superior 79 6.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Respuesta de un sistema de segundo orden a una entrada en escalón . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.1.2 Respuesta en frecuencia de un sistema de segundo orden . 91 6.1.3 Ecuaciones diferenciales de orden n . . . . . . . . . . . . . 92 7 Representación gráfica de la función de transferencia 7.1 7.2 7.3 79 98 Diagramas más comunes . . . . . . . . . . . . . . . . . . . . . . . 98 7.1.1 Diagrama de polos y ceros: caso racional . . . . . . . . . . 98 7.1.2 Diagrama de Nyquist . . . . . . . . . . . . . . . . . . . . . 99 7.1.3 Diagrama logarı́tmico o de Bode . . . . . . . . . . . . . . . 100 7.1.4 Diagrama de Black . . . . . . . . . . . . . . . . . . . . . . 101 Diagrama de Bode . . . . . . . . . . . . . . . . . . . . . . . . . . 101 7.2.1 Diagrama de Bode de una constante . . . . . . . . . . . . 103 7.2.2 Diagrama de Bode de una integración pura . . . . . . . . . 103 7.2.3 Diagrama de Bode de un sistema de primer orden . . . . . 103 7.2.4 Diagrama de Bode de una diferenciación pura . . . . . . . 105 7.2.5 Diagrama de Bode del término asociado a un cero . . . . . 106 Sistemas de fase mı́nima . . . . . . . . . . . . . . . . . . . . . . . 106 Contenido iv 7.4 Cı́rculos M y N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 7.5 Relación entre las constantes de error y los polos y ceros. . . . . . 112 7.5.1 Seguimiento de posición. . . . . . . . . . . . . . . . . . . . 113 7.5.2 Seguimiento de velocidad. . . . . . . . . . . . . . . . . . . 116 7.5.3 Seguimiento de aceleración . . . . . . . . . . . . . . . . . . 118 7.5.4 Sistemas con error nulo . . . . . . . . . . . . . . . . . . . . 119 8 Estabilidad de los sistemas dinámicos 122 8.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 8.2 Criterios de estabilidad relativos a la descripción externa . . . . . 123 8.3 8.2.1 Criterio de Routh-Hurwitz . . . . . . . . . . . . . . . . . . 128 8.2.2 Matriz de Hurwitz . . . . . . . . . . . . . . . . . . . . . . 133 Criterio de Nyquist . . . . . . . . . . . . . . . . . . . . . . . . . . 134 8.3.1 Grado de estabilidad e interpretación del criterio de Nyquist 141 9 Compensación de sistemas realimentados 143 9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 9.2 Análisis en el dominio de la frecuencia de la red PD . . . . . . . . 147 9.3 Análisis en el dominio de la frecuencia de la red PI . . . . . . . . 150 9.4 Acción proporcional, integral y diferencial (PID) . . . . . . . . . . 153 9.5 Compensación por avance de fase . . . . . . . . . . . . . . . . . . 155 9.6 Efecto en el dominio de la frecuencia . . . . . . . . . . . . . . . . 157 9.7 Método práctico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Contenido v 10 Representación matemática de sistemas 10.1 Introducción 162 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.1.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Descripción interna de los sistemas dinámicos . . . . . . . . . . . 163 10.2.1 Sistemas de estados finitos . . . . . . . . . . . . . . . . . . 166 10.2.2 Sistemas dinámicos lineales en tiempo continuo . . . . . . 167 10.2.3 Función de transición de los sistemas dinámicos lineales . . 177 10.2.4 Sistemas dinámicos lineales en tiempo discreto . . . . . . . 181 10.2.5 Muestreo de sistemas en tiempo contı́nuo . . . . . . . . . . 182 10.2.6 Sistemas no-lineales: linealización . . . . . . . . . . . . . . 185 10.2.7 Depósito mezclador . . . . . . . . . . . . . . . . . . . . . 187 11 Controlabilidad y observabilidad de sistemas dinámicos 191 11.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 11.2 Controlabilidad de sistemas dinámicos lineales . . . . . . . . . . . 192 11.2.1 Estados alcanzables . . . . . . . . . . . . . . . . . . . . . . 192 11.2.2 Estados controlables . . . . . . . . . . . . . . . . . . . . . 193 11.2.3 Estados conectados . . . . . . . . . . . . . . . . . . . . . . 194 11.3 Controlabilidad de los sistemas en tiempo discreto . . . . . . . . . 195 11.3.1 Ejemplos de introducción . . . . . . . . . . . . . . . . . . . 196 11.3.2 Controlabilidad de sistemas en tiempo continuo . . . . . . 202 11.3.3 Criterio de controlabilidad . . . . . . . . . . . . . . . . . . 203 11.3.4 Ejemplos de controlabilidad . . . . . . . . . . . . . . . . . 206 Contenido vi 11.4 Notas sobre controlabilidad . . . . . . . . . . . . . . . . . . . . . 209 11.4.1 Controlabilidad de sistemas monovariables . . . . . . . . . 209 11.4.2 Transformación de la matriz de Controlabilidad . . . . . . 210 11.4.3 Forma simplificada del criterio de controlabilidad . . . . . 210 11.4.4 La controlabilidad como propiedad genérica . . . . . . . . 211 11.5 Descomposición del espacio de estados en sus partes controlables y no controlables . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 11.6 Observabilidad de sistemas dinámicos lineales . . . . . . . . . . . 218 11.6.1 Introducción a la observabilidad . . . . . . . . . . . . . . . 218 11.6.2 Observabilidad . . . . . . . . . . . . . . . . . . . . . . . . 220 11.6.3 Reconstructibilidad . . . . . . . . . . . . . . . . . . . . . . 221 11.6.4 Criterio de observabilidad . . . . . . . . . . . . . . . . . . 221 11.7 Sistemas continuos . . . . . . . . . . . . . . . . . . . . . . . . . . 223 11.8 Pérdida de observabilidad por muestreo . . . . . . . . . . . . . . . 225 11.8.1 Notas sobre observabilidad . . . . . . . . . . . . . . . . . . 227 11.9 Descomposición del espacio de estados en sus partes observables y no-observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 11.10Descomposición canónica del espacio de estados . . . . . . . . . . 229 11.11Formas canónicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 11.11.1 Forma canónica de observación . . . . . . . . . . . . . . . 239 12 Sı́ntesis de sistemas de control por variables de estado 242 12.1 Ley de Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 12.1.1 Interpretación por diagramas . . . . . . . . . . . . . . . . 245 Contenido vii 12.1.2 Interpretación algebraica . . . . . . . . . . . . . . . . . . . 246 12.1.3 Determinación de la ley de control . . . . . . . . . . . . . 248 12.2 Observadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 12.2.1 Sistemas monovariables . . . . . . . . . . . . . . . . . . . . 252 12.3 Sı́ntesis del sistema en bucle cerrado . . . . . . . . . . . . . . . . 262 12.3.1 Método práctico de sı́ntesis . . . . . . . . . . . . . . . . . 270 12.3.2 Sı́ntesis algebraica directa (Sı́ntesis externa directa) . . . . 275 13 Sistemas no lineales 283 13.1 Método del primer armónico . . . . . . . . . . . . . . . . . . . . . 283 13.1.1 Ejemplo introductorio . . . . . . . . . . . . . . . . . . . . 283 13.1.2 Principios del método . . . . . . . . . . . . . . . . . . . . 289 13.1.3 Transformación de Fourier . . . . . . . . . . . . . . . . . . 289 13.2 Algunas funciones descriptivas . . . . . . . . . . . . . . . . . . . . 291 13.2.1 Saturación . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 13.2.2 Relé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 13.2.3 Holgura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 13.2.4 Determinación experimental de la función descriptiva . . . 297 13.3 Análisis de sistemas no lineales mediante la función descriptiva . . 298 13.3.1 Una ampliación del criterio de Nyquist . . . . . . . . . . . 299 13.3.2 Oscilaciones de un servomecanismo no lineal . . . . . . . . 300 13.3.3 Función descriptiva independiente de la frecuencia . . . . . 302 13.3.4 Función descriptiva dependiente de la frecuencia . . . . . . 302 Contenido viii 13.3.5 Estabilidad de los ciclos lı́mite . . . . . . . . . . . . . . . . 304 13.3.6 Fiabilidad del análisis mediante funciones descriptivas . . . 309 13.4 Criterios de estabilidad relativos a la descripción interna . . . . . 311 13.4.1 Teorı́a de Lyapunov . . . . . . . . . . . . . . . . . . . . . . 311 13.4.2 Un ejemplo introductorio . . . . . . . . . . . . . . . . . . . 311 13.4.3 Noción de estabilidad en el sentido de Lyapunov . . . . . . 314 13.4.4 Teorema de Lyapunov . . . . . . . . . . . . . . . . . . . . 315 13.4.5 Aplicación del método de Lyapunov a sistemas lineales . . 318 13.5 Construcción de funciones de Lyapunov con formas cuadráticas . 323 13.5.1 Método de Krasovkii . . . . . . . . . . . . . . . . . . . . . 327 14 Introducción a la optimización de sistemas dinámicos 331 14.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 14.2 Optimización Estática. . . . . . . . . . . . . . . . . . . . . . . . . 332 14.2.1 Minimización de funciones . . . . . . . . . . . . . . . . . . 332 14.3 Introducción al control óptimo . . . . . . . . . . . . . . . . . . . . 336 14.3.1 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 14.3.2 Ejemplo de ı́ndice de funcionamiento cuadrático . . . . . . 341 14.4 Problema general del control óptimo . . . . . . . . . . . . . . . . 345 14.5 Cálculo de variaciones . . . . . . . . . . . . . . . . . . . . . . . . 346 14.5.1 Funcionales y sus variaciones . . . . . . . . . . . . . . . . . 346 14.5.2 Ecuaciones de Euler . . . . . . . . . . . . . . . . . . . . . 352 14.5.3 Estado final variable . . . . . . . . . . . . . . . . . . . . . 359 Contenido ix 15 Métodos Variacionales en Control Optimo 368 15.1 Aplicación del cálculo de variaciones a la resolución del problema del Control Optimo . . . . . . . . . . . . . . . . . . . . . . . . . . 368 15.1.1 Se puede eliminar u . . . . . . . . . . . . . . . . . . . . . . 368 15.1.2 No se puede eliminar u . . . . . . . . . . . . . . . . . . . 373 15.1.3 Introducción de un término de control terminal . . . . . . 382 16 Principio del Mı́nimo de Pontriagin 393 16.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393 16.2 Control óptimo por conmutación . . . . . . . . . . . . . . . . . . 408 16.2.1 Control en tiempo mı́nimo de un sistema de segundo orden 408 16.2.2 Ejemplo 4: Problema del alunizaje suave . . . . . . . . . . 412 17 Principio de optimalidad de Bellman 417 17.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 17.1.1 Ejemplo de un sistema binario en tiempo discreto . . . . . 421 17.1.2 Programación dinámica en tiempo discreto y Principio de Optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . . 423 17.2 Programación dinámica y ecuación de Hamilton-Jacobi-Bellman . 424 17.2.1 Relación entre la programación dinámica y la formulación Hamiltoniana del problema de control óptimo . . . . . . . 433 17.3 Control de sistemas dinámicos lineales con criterio cuadrático . . . 434 17.3.1 Breve reseña histórica . . . . . . . . . . . . . . . . . . . . 434 17.3.2 Problema LQR . . . . . . . . . . . . . . . . . . . . . . . . 436 17.4 Ecuación de Riccati en el dominio de la frecuencia . . . . . . . . . 446 Contenido x 17.5 Resolución del problema LQR . . . . . . . . . . . . . . . . . . . . 450 18 Estimación del estado 452 18.1 Noción de señal aleatoria . . . . . . . . . . . . . . . . . . . . . . . 452 18.1.1 Descripción estadı́stica de las señales aleatorias . . . . . . 453 18.2 Transmisión de señales aleatorias a través de sistemas lineales: descripción interna . . . . . . . . . . . . . . . . . . . . . . . . . . . 456 18.3 El problema de la observación: Filtro de Kalman . . . . . . . . . 458 18.3.1 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 18.4 Método LQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466 Tema 1 Introducción a los sistemas de control. 1.1 Noción de control automático. De una manera intuitiva se concibe el control automático, como la rama de la técnica que tiene por objeto concebir ingenios que funcionen autónomamente, es decir, y hablando llanamente, que funcionen solos. Esta noción intuitiva requiere unas ciertas matizaciones, pero es válida como punto de partida. Bajo cierto punto de vista se puede considerar que en todo proceso industrial intervienen por una parte la información (órdenes) y por otra la potencia. Bajo este mismo punto de vista cabe considerar el funcionamiento de un proceso como la adopción de las acciones necesarias frente al mismo (señales de mando o control) para la conveniente dosificación de la energı́a en los distintos puntos del proceso para que el funcionamiento del conjunto sea el conveniente. En todo proceso, sea la fabricación de un producto, un avión en vuelo, una máquina funcionando, etc.., se realizan una serie de acciones que presuponen la dosificación de la aplicación de energı́a en determinados puntos, bien bajo la acción de unas órdenes que se suministran al mismo, bien de una manera aleatoria por parte del medio en el que se halla inmerso. Se puede representar un proceso de esta naturaleza, al que a partir de ahora denominaremos sistema por medio de un bloque, o rectángulo, tal como el representado en la figura 1.1. A la izquierda de este bloque se han representado unas 1 Introducción a los sistemas de control. 2 flechas que se han denotado por u1 , u2 ... y que representan las distintas acciones que se pueden ejercer sobre el proceso; se denominarán en lo que sigue señales de control, mando, o entrada. A la derecha del bloque se han representado otras flechas, como saliendo del mismo, que se han denotado por y1 , y2 , ... y que representan los productos que produce el proceso. Tanto las acciones sobre el sistema como los productos del mismo generalmente varı́an con el tiempo, por lo que se hablará de secuencias temporales, o más formalmente de señales; sobre el carácter de estas señales se volverá más adelante. u1 u2 un q q q Sistema a controlar - - y1 - y2 - ym q q q Figura 1.1: Sistema dinámico Obsérvese que este esquema, al nivel que se ha desarrollado hasta ahora, tiene una amplı́sima aplicación. Por ejemplo la conducción de un automóvil por una carretera puede considerarse como un proceso sistema representado con un diagrama similar al de la figura 1.1 siendo u1 la posición del volante; u2 la dirección del viento respecto a la del automóvil, etc.., y siendo y1 la velocidad del automóvil; y2 la separación del mismo de la cuneta, etc. De una manera intuitiva se entiende que un proceso está automatizado cuando funciona solo, es decir, sin intervención del ser humano. Por ejemplo, un automóvil completamente automatizado serı́a aquél que funcionase completamente solo. Aunque este ejemplo trivial pueda asociarse al dominio de la ciencia ficción, recientes avances en disciplinas como la la visión artificial y el aprendizaje automático, auguran su inminente viabilidad técnica. Volviendo al problema original, se puede decir que el funcionamiento del proceso se hará a partir de la serie de señales ui que se le aplique. El problema de controlar (gobernar) el proceso, se reduce al de establecer las señales de entrada (órdenes), a que deberá ser sometido para que su funcionamiento sea el apetecido. Por lo tanto, el problema de controlar el funcionamiento de un proceso queda reducido al de la toma de decisión de la secuencia temporal de valores que deben Introducción a los sistemas de control. 3 tomar las señales de mando del mismo. Es decir, volviendo al ejemplo trivial de la conducción del automóvil, la decisión de las maniobras que debe efectuar el conductor (sobre el volante, sobre el freno, sobre el acelerador...) para que el funcionamiento del automóvil sea el adecuado. 1.2 Necesidad del modelo matemático del sistema. Se ha visto en el apartado anterior cómo el gobierno de un proceso se reducı́a al establecimiento de la secuencia de acciones de mando que debe aplicársele para que el funcionamiento sea el apetecido. Se va a considerar ahora un primer aspecto del establecimiento de esta secuencia. La toma de decisión sobre la señal que debe aplicarse al sistema implica que existan distintas alternativas. Es decir, que existan distintas acciones posibles cada una de las cuales darı́a un resultado distinto. El problema se reduce al de elegir entre estas señales, aquellas cuyo resultado sea el apetecido. Al existir distintas opciones respecto a la acción a tomar para gobernar el proceso, para realizar la elección conveniente de la señal de entrada que determine un funcionamiento apetecido, es necesario que se sepa predecir qué resultados se obtendrá de cada una de las posibles acciones. Es decir, quien tome la decisión respecto a cuál de las posibles acciones a tomar debe adoptarse, debe predecir in mente, las acciones que resultarán de cada una de sus posibles opciones, con el fin de escoger aquella señal de entrada a la que corresponda un resultado que sea el buscado. Por lo tanto, se requiere el conocimiento exhaustivo de las relaciones que existen entre las posibles acciones a tomar sobre el sistema, y los resultados que determinarán cada una de ellas. Esto es lo que se llama un modelo del proceso; aunque existen diversos tipos de modelos, (descripciones verbales, prototipos, tablas), nos interesamos en texto por los matemáticos, que están constituidos por las relaciones formales que ligan a las señales ui e yi . El conductor del automóvil, que es quien toma la decisión del posicionamiento de los distintos órganos que tiene a su alcance (volante, frenos, acelerador...) lo que hace en todo instante es prever cuál será el resultado de las decisiones tomadas con el fin de mantener el proceso que gobierna (el automóvil), en un estado de marcha y funcionamiento apetecido. Introducción a los sistemas de control. 4 Para construir un modelo matemático de un proceso, se requiere establecer de una forma precisa, las magnitudes que lo definen (señales de entrada y de salida) ası́ como las relaciones formales que ligan a estas magnitudes. En la vida ordinaria, cuando se construyen modelos, de una manera subconsciente, para la toma de decisiones, éstos no tienen el nivel de formalidad que se acaba de indicar. Sin embargo, cuando se quiere automatizar un proceso, es indispensable la construcción de estos modelos formales con el fin de poder trasladar el proceso de toma de decisión a una máquina construida al efecto, ası́ que determinará las acciones a tomar precisamente a partir del modelo del sistema del que disponga. La posibilidad de construir un modelo del proceso que se esté considerando, constituye una de las mayores limitaciones a priori respecto a la posibilidad de automatizar un determinado proceso. Considérese, por ejemplo, el problema del establecimiento de un tratamiento por un médico para uno de sus enfermos. En la medida en que fuese posible en primer lugar definir una serie de magnitudes que caracterizasen el estado del enfermo (temperatura, tensión arterial, concentraciones en sangre de principios activos...) y de las relaciones formales que ligan a estas magnitudes, serı́a posible automatizar completamente el problema del establecimiento de un tratamiento, que no es sino determinar la acción a seguir sobre el enfermo para conseguir que la evolución del mismo estado de salud se realice en forma apetecida. En ciertos casos es posible establecer un modelo matemático del proceso que ligue de una manera unı́voca a cada una de las acciones que se tomen un único resultado. Se tiene entonces un sistema determinista. En otros casos, para cada una de las acciones posibles, no se tiene sino una predicción estadı́stica de posibles resultados; se tienen entonces los llamados sistemas estocásticos. 1.3 Idea de realimentación. El conocimiento del modelo matemático del sistema sobre el que se debe tomar una decisión para gobernar su funcionamiento, no es suficiente para la toma de esta decisión. Se requiere además información sobre lo que, de una forma intuitiva de momento se puede denominar estado actual del mismo. Es fácil encontrar ejemplos que ilustren este punto. Supóngase, por ejemplo, un automóvil que debe hacer el recorrido Sevilla - Cádiz. Supóngase que se dispone de un modelo matemático del funcionamiento del automóvil ası́ como Introducción a los sistemas de control. 5 un trazado minucioso de la autopista que une las dos ciudades Parece posible, en principio, concebir un programa de ordenador extraordinariamente detallado que permitiese realizar la toma de decisiones sobre la conducción del automóvil. Un programa que serı́a algo ası́ como una secuencia de instrucciones del tipo: avanzar en lı́nea recta 150 m, realizar un giro a la derecha, con radio de giro de 1 km.,.... Sin embargo parece claro que en principio no quepa augurar un feliz resultado a la empresa. Este tipo de programa darı́a lugar a un control en en el que no se tiene información externa sobre la situación actual, situación que recibe el la denominación de se denomina control en bucle abierto. Pese a sus limitaciones, tiene su aplicación en ciertos contextos, por ejemplo una lavadora automática basada en secuencias de trabajo prefijadas en el tiempo. El conductor del automóvil no hace sino desde su posición de gobierno, introducir en su sistema de decisión neuronal, especialmente por medio de sus ojos, información sobre el estado actual del automóvil, permitiendo de esta forma el que la toma de decisión respecto a la condición del mismo, adquiera un grado de eficacia realmente fiable. Este ejemplo, pese a su aparente artificiosidad es similar al que se presenta cuando se trata de enviar una cápsula a la luna. Debe notarse que la necesidad de la realimentación surge como consecuencia de la aparición de perturbaciones aleatorias que modifican el funcionamiento del sistema de acuerdo con un plan previsto, o sencillamente por la imperfección del modelo del sistema que le impide una predicción exacta, a largo plazo, del funcionamiento del mismo. Desde un punto de vista general, cabe decir que los sistemas con realimentación son aquéllos en los que la adopción de decisiones cara al futuro está completamente influenciada por los efectos de las previamente adoptadas. Dicho con otras palabras, son los sistemas en los que si la acción que se lleva a efecto persigue una determinada meta, es la diferencia entre la precisión alcanzada en la aproximación a esta meta, y ella misma, la que determina las acciones posteriores. Este tipo de actuaciones son las que se denominan control en bucle cerrado o control por realimentación. En la figura 1.2 se representa en forma de diagrama de bloques lo anterior. En dicha figura se representa por un lado el Sistema, cuya variable de Salida pretendemos controlar de forma que siga a la Entrada. Para ello se dispone de un Elemento de medición, que nos proporciona el valor de la señal de salida y posteriormente una vez comparada con la señal de entrada se toma la decisión correspondiente para actuar sobre el sistema. Conviene recordar que, en general, los sistemas fı́sicos poseen memoria del Introducción a los sistemas de control. Entrada - Toma de decisión 6 Salida - Planta - 6 Elemento de medición ¾ Figura 1.2: Realimentación pasado; por ello la salida del sistema en un instante dado no es función exclusivamente de la entrada en ese mismo instante: depende de toda la historia pasada de las entradas. Por esta razón la estructura realimentación es un objeto complejo en cuanto a su comprensión y diseño. 1.4 Realimentación, retardos y oscilación. La existencia de retardos en un circuito (bucle) de realimentación, conduce a la aparición de fenómenos oscilatorios en el comportamiento dinámico del mismo. Este hecho tiene una importancia capital al considerar el comportamiento dinámico de los sistemas realimentados y gran parte del problema de diseño de los mismos reside en el amortiguamiento (o anulación) de estas oscilaciones. Con el fin de ilustrar de una manera intuitiva este hecho, considérese a un conductor que conduce un automóvil, proceso que se puede interpretar con un bucle de realimentación tal como el de la figura 1.3. Entre la detección de un obstáculo, y la acción correctora consiguiente (girar el volante, actuar sobre los frenos...), se produce un cierto retardo que el conductor experimentado tiene perfectamente asimilado, y no constituye un obstáculo para una conducción normal. Supóngase que se trata de mantener el coche en lı́nea recta sobre una superficie completamente llana, sin ningún obstáculo. Sobre el automóvil sólo actúan las pequeñas perturbaciones (baches) del terreno y el conductor puede conseguir su Introducción a los sistemas de control. 7 Perturbaciones Referencia - ? Ojos (Sentidos) - Conducción - ? Coche ? Posición - 6 Figura 1.3: Ejemplo de realimentación objetivo con relativa facilidad. Supóngase ahora que el conductor debe realizar su cometido con los ojos cerrados, llevando a su lado un copiloto que es el que le va transmitiendo las indicaciones respecto a las desviaciones de la lı́nea recta que se trata de seguir. El circuito de realimentación se modifica, en este caso, al de la figura 1.4, con ello lo que se ha introducido es de una manera artificiosa un notable retardo en el bucle de realimentación. Es fácil comprender, que en este segundo caso, y debido precisamente al retraso que se introduce en el bucle de realimentación, la conducción será fuertemente oscilante. Un hecho importante que ilustra también el anterior ejemplo es que cuanto mayor sea la velocidad a la que pretende conducirse el automóvil, mayores serán los efectos de oscilación que se han indicado. El dilema entre velocidad de respuesta (precisión) y estabilidad (ausencia de oscilaciones), constituye una de las constantes que aparecen en el estudio de sistemas realimentados. 1.5 Sensibilidad y realimentación. Un sistema se dice sensible a la variación de un determinado parámetro cuando éste influye de forma importante en el comportamiento del mismo. Por ejemplo, la conducción de un automóvil es extraordinariamente sensible al estado del firme Introducción a los sistemas de control. 8 Perturbaciones Ref. - ? ? ? Ojos (Sentidos) -Transmisión oral -Conducción - Coche Posición - 6 Figura 1.4: Sistema con retardo de la carretera. Más adelante se dará una definición precisa de este concepto; aquı́, de momento, con esta noción intuitiva es suficiente. Los sistemas realimentados son enormemente menos sensibles a las perturbaciones que los sistemas sin realimentar. En efecto, un ejemplo trivial ayudará a fijar esta idea. Considérese que se trata de preparar una ducha de agua templada. El sistema se puede considerar en bucle abierto, es decir, sin realimentación, si una vez realizado el ajuste de las proporciones de agua frı́a y caliente, éste permanece inalterado durante toda la ducha. Si aparece cualquier perturbación, por ejemplo, que en otro lugar de la casa se abra un grifo de agua caliente, lo que influye en la mezcla, las consecuencias desagradables para el que se ducha no se pueden atenuar. El sistema es enormemente sensible. Por el contrario, si se puede actuar sobre los grifos durante todo el proceso, entonces se tiene un sistema en bucle cerrado en el que la persona que se ducha puede tomar las decisiones oportunas, y actuar sobre el sistema a través de los grifos, para corregir cualquier perturbación que se pueda producir. El sistema, en conjunto, ha atenuado las posibles perturbaciones exteriores, por lo tanto ha disminuido su sensibilidad sobre las mismas. Este ejemplo ayuda también a poner de manifiesto uno de los problemas más importantes que se pueden producir como consecuencia de la introducción de la realimentación. Considérese que: • Los grifos se encuentran alejados del depósito de agua caliente; y Introducción a los sistemas de control. 9 • Una pequeña variación de cualquiera de los grifos influye sensiblemente en la temperatura del agua. Es claro que en tales condiciones se producirán oscilaciones de la temperatura del agua, puesto que será enormemente difı́cil ajustar la misma. Ello es debido a que cualquier acción que se tome tarda un cierto tiempo en detectarse (en la espalda del que se ducha que es el órgano de medida), y por lo tanto éste posiblemente se pase en la corrección. El sistema se convierte entonces en un sistema inestable, y la corrección de ese tipo de inestabilidad constituye uno de los primeros problemas con los que se enfrenta el diseñador de sistemas realimentados. Ello se pondrá ampliamente de manifiesto a lo largo de este curso. 1.6 Las Matemáticas y el control automático. Las matemáticas tienen un doble empleo en las ciencias empı́ricas y aplicadas. • Las matemáticas pueden usarse como lenguaje cuando se pretende formular los problemas con la ayuda de conceptos matemáticos buscando con ello la precisión y claridad. • Las matemáticas pueden emplearse como herramientas cuando una vez planteado el problema en términos matemáticos se resuelven las ecuaciones que resultan (analı́ticamente o por simulación). Por otra parte, cabe considerar que la ingenierı́a puede describirse como una mezcla de sentido común y ciencia. Se trata de recurrir a planteamientos teóricos que permitan profundizar en los problemas que se estén tratando, pero sin perder de vista que en último extremo de lo que se trata es de conseguir algo que funcione. Estas consideraciones previas deben hacerse por cuanto que, como es lógico según lo que se ha visto en los apartados anteriores, las matemáticas juegan un papel fundamental en la moderna teorı́a del control automático. Tan es ası́ que en algún sentido puede considerarse la teorı́a del control automático como una rama de las matemáticas aplicadas. En la figura 1.5 se tiene un sencillo diagrama en el que se pretende expresar las fases del método en control automático. Estas fases pueden resumirse en: Introducción a los sistemas de control. 10 1. A partir del proceso, por abstracción, se construye el modelo matemático del mismo. Esta primera fase no es especı́fica del especialista en control, y requiere del concurso del especialista en el proceso a controlar. 2. Una vez obtenido el modelo matemático, se determina qué tipo de acción debe efectuarse sobre el mismo para que su comportamiento se adecúe a las metas propuestas. Se trata de determinar, lo que más adelante se denominará ley de control. 3. Por último, se trata de realizar fı́sicamente, la ley de control determinada en el punto anterior para lo que se requiere el concurso de instrumentos electrónicos y fı́sicos que realicen esta función. En esta última fase se requiere de nuevo el concurso del especialista en el proceso a controlar (en forma de instrumentista). Modelo Matemático 6 - Ley de Control 6 Abstracción Implementación ? Sistema Fı́sico ? Sistema de Control Figura 1.5: Fases del Método de Control De las tres fases anteriores, la especı́fica del especialista en sistemas de control es la segunda, que tiene un carácter fundamental matemático. Se ha llegado incluso a decir que el especialista en control en realidad no trata con los sistemas fı́sicos, sino exclusivamente con sus modelos matemáticos. Introducción a los sistemas de control. 11 Por lo tanto, el terreno en que se mueve el especialista en control automático, está fuertemente influido por las matemáticas aplicadas, aunque nunca debe olvidarse las consideraciones hechas más arriba respecto a la labor del ingeniero. 1.7 Señales y sistemas. En el estudio de los sistemas de control es fundamental adquirir previamente una idea clara de los conceptos de señal y sistema. Se entiende por señal, en un sentido amplio, toda magnitud fı́sica que evoluciona en el tiempo. En un sentido más restringido se requiere además que esta señal tenga cierto contenido informacional, es decir que sea significativa en cierto aspecto, los tipos de señales generalmente empleados en sistemas de Control son tensiones o corrientes eléctricas, desplazamientos mecánicos y presiones neumáticas o hidráulicas, si bien en principio no hay ningún incoveniente en incluir otro tipo de señales. Se empleará aquı́ la notación habitualmente empleada en matemáticas para referirse a una magnitud fı́sica X que, en cada instante t, toma un cierto valor. La definición de sistema es más ambigua. Se entiende por sistema un conjunto de partes entrelazadas operativamente de manera que unas actúen sobre otras y que en conjunto formen un todo. Un ejemplo de sistema de acuerdo con esta definición lo constituye el Sistema Económico Nacional, en el que salarios, nivel de precios, ahorro, etc, interaccionan entre sı́. Aquı́ interesará la consideración de sistemas más simples en los que los elementos interactuantes son fı́sicos y, de hecho, puedan definirse magnitudes fı́sicas que describan su comportamiento. Un sistema puede también definirse como un procesador de señales, en el sentido de que excitado con determinadas señales responde con otras. Es por lo tanto evidente que la consideración del comportamiento dinámico de un sistema tendrá un papel preponderante, por cuanto que una señal es una magnitud fı́sica que evoluciona en el tiempo, y un sistema es un procesador de señales. Normalmente, los sistemas que interesan en Automática, tendrán puntos de acceso llamados entradas, por los que pueden ser excitados por señales llamadas señales de entrada. Ası́ mismo tendrán otros accesos en los que la evolución de ciertas magnitudes fı́sicas podrá leerse. Estos puntos se llamarán salidas y las magnitudes a ellos ligadas señales de salida. La voz punto, empleada en las anteriores definiciones de entrada y salida, debe tomarse en un sentido amplio Introducción a los sistemas de control. 12 y no geométrico. Los sistemas se representan por medio de bloques tal como se indica en la figura 1.6. potencia perturbaciones Señales de entrada u(t) Señales de salida y(t) Figura 1.6: Sistema dinámico Juntamente con las señales de entrada y salida interesa considerar que un sistema puede estar sometido a otro tipo de entradas como son las de suministro de potencia o las perturbaciones. Pero con el fin de poder estudiar en su comportamiento ciertas regularidades, que permitan su estudio matemático, se considerará que estas, o bien se mantienen constantes (potencial), o bien sufren sólo variaciones despreciables (perturbaciones), de manera que el valor de la señal de salida pueda considerarse función exclusivamente del conjunto de valores tomados por la señal de entrada. Por lo tanto normalmente la representación de un sistema se hará como indica la figura 1.1. Como ejemplo de lo dicho se puede considerar un motor eléctrico en el cual el campo se mantiene constante y se varı́a la velocidad actuando sobre la corriente de inducido. (Figura 1.7) Intensidad de inducido Excitación Constante velocidad Figura 1.7: Motor eléctrico Desde el punto de vista que se está considerando se dirá que el motor es un sistema que, a una señal de entrada u(t) (intensidad de inducido), da una señal Introducción a los sistemas de control. 13 de salida y(t) (velocidad del motor). Se puede, en cierto aspecto, prescindir de la consideración del campo. 1.8 Servomecanismos y reguladores. La automática es un campo vastı́simo. En él se entrelazan aspectos teóricos y tecnológicos de suerte que es difı́cil establecer en el mismo sistematizaciones de cara a su estudio. Sin embargo atendiendo a su desarrollo histórico y al interés de ciertas aplicaciones a las que, por otra parte, se ha podido aplicar una teorı́a sencilla y fecunda, es posible extraer de todo el complejo mundo de la automática campos de estudio concretos como son los servomecanismos y los reguladores. Un servomecanismo es un ingenio con el que se pretende controlar una posición. Ejemplos de servomecanismos se encuentran en campos tan variados como son los posicionamientos de los timones de un barco, posicionamiento de las antenas de radar, posicionamiento de las ruedas de un camión en una servodirección, posicionamiento de la herramienta en un torno automatizado, posicionamiento de la pluma en un registrador de precisión, etc... El control de la posición se puede hacer de acuerdo con un sencillo esquema de realimentación como el de la figura 1.8. e + y amplificador u motor - Figura 1.8: Servomecanismo de posición Siempre que la posición de salida no se encuentre en la posición requerida por la referencia aparece un error que actuando sobre el servomotor determina que éste actúe corrigiendo el error. La única posición de equilibrio es aquélla en que la posición de salida es igual a la referencia1 . Por lo tanto un servomecanismo es, esencialmente, un sistema seguidor o re1 Esta afirmación se restringe a una clase de sistemas mecánicos lineales. Introducción a los sistemas de control. 14 productor en el que la posición de salida sigue o reproduce a la señal de entrada (referencia). Una caracterı́stica esencial, que justifica las aplicaciones de los servomecanismos es que el nivel de potencia de la señal de salida puede ser muy superior al de la señal de entrada. En el esquema anterior se ve cómo lo que posiciona es el servomotor, que viene actuado por una potencia externa al conjunto (el campo) y una señal que viene del servoamplificador y que es la que realmente corrige (alimentación del inducido). Obsérvese que la misma señal que viene del servoamplificador ha recibido, en ésta, potencia del exterior. Por lo tanto un servomecanismo es un ingenio que reproduce señales de posición a un nivel de potencia superior. El precio de esta mayor potencia en la posición de la salida es una pérdida de calidad en la señal, es decir, de una cierta distorsión. Precisamente las técnicas de diseño de servomecanismos tratan de conseguir que esta pérdida de calidad de la señal sea mı́nima. Un problema, aunque desde un punto de partida distinto al de los servomecanismos pero que conduce a planteamientos semejantes, es el de los reguladores. Una determinada magnitud fı́sica se dice que está regulada si está provista de un sistema que reaccione frente a los cambios del medio externo que afecten a esta magnitud, de suerte que se mantenga en un valor aproximadamente constante. Un ejemplo trivial de ello lo suministra un sistema de regulación de temperatura en una habitación. El sistema calefactor, a través de un termostato, debe reaccionar a las variaciones del medio (aperturas de puertas, entrada de más o menos gente, pérdidas naturales distintas en el dı́a que en la noche, etc...) de suerte que la temperatura se mantenga constante. Ta a K b Kc Kp c Ti + V Kt - + Vt + Vr - - Figura 1.9: Regulador de temperatura El esquema que permite la regulación de temperatura es esencialmente el mismo de un servomecanismo, tal y como se ve en la figura 1.9. Sin embargo, deben notarse las diferencias, desde un punto de vista fı́sico, entre ambos sistemas. 1. En el servomecanismo, la entrada (referencia) es variable y se pretende que Introducción a los sistemas de control. 15 la salida siga a la entrada. Mientras que en el regulador la entrada es constante. 2. En el servomecanismo la fuente de error es la variación de la referencia. En el regulador la fuente de error son perturbaciones exteriores que separan el sistema del estado requerido. 3. En el servomecanismo, la potencia de la señal de salida, que es lo que interesa, es muy superior a la de la entrada de referencia (véase el ejemplo de la amplificación de fuerza del conductor en la servodirección de un coche). En el regulador, la señal de salida en sı́ no interesa, sino que sólo es una medida de algo que sucede en la planta controlada, que es lo que realmente interesa. Junto a estas diferencias y a otras que pudieran establecerse se presenta la profunda semejanza entre ambos problemas, ya que los dos conducen al mismo diagrama de bloques realimentado que se muestra en las figuras 1.8 y 1.9. Basándose en esta semejanza es por lo que el estudio de ambos problemas se hace simultáneo pero no debe olvidarse nunca que fı́sicamente se trata de dos problemas diferentes. 1.9 Bosquejo histórico del control automático. A lo largo de la historia de la técnica se encuentran múltiples ingenios en cuya concepción interviene la idea de realimentación. Uno de los primeros ingenios de esta naturaleza es el llamado reloj de agua (clepsidra). Según algunos autores, su origen es chino y se remonta a la dinastı́a Chen (siglos XI - XII a.C.), y según otros al mecánico griego Ktesibios (siglo XIII a.C.). En cualquier caso su antigüedad e ingeniosidad son innegables. El primer trabajo significativo en control automático fué el regulador centrı́fugo de James Watt. Se trata de un regulador de bolas de una máquina de vapor. En el regulador de Watt se regula la velocidad de una máquina de vapor por medio de un sencillo artificio consistente en dos bolas metálicas de cierta masa sobre las que actúan las fuerzas centrı́fugas al girar el eje del que son solidarias a través de unos brazos (figura 1.10). Estos brazos están articulados de manera que la fuerza centrı́fuga que actúa sobre las bolas puede determinar, a través de dichas articulaciones, una mayor o menor apertura de la válvula de alimentación de la máquina. Se tiene por lo tanto una cadena cerrada de acciones tal como la que se indica en el diagrama de la figura 1.11. Introducción a los sistemas de control. 16 Caldera ω :velocidad del eje. vapor eje de la máquina. válvula Cilindro Figura 1.10: Regulador centrı́fugo de Watt ωc + Transmisión válvula Máquina de vapor - ω bolas Figura 1.11: Diagrama de bloques: Regulador de Watt ω Introducción a los sistemas de control. 17 El interés que suscita en su tiempo la máquina de Watt es grande, puesto que en ella se presentan los problemas de estabilidad a los que se aludı́a en los apartados 1.4 y 1.5. Tan es ası́ que James Clerk Maxwell, uno de los mayores fı́sicos teóricos del siglo XIX se siente atraı́do por el problema y publica un trabajo titulado On governors que constituye uno de los trabajos pioneros de la moderna teorı́a del control. Sin embargo, aparte de este trabajo, y algún otro de Routh a finales de siglo, no es hasta los años 30 del siglo pasado, cuando se acomete de una manera sistemática el estudio de las técnicas matemáticas que permitan estudiar y diseñar sistemas realimentados. Durante la Segunda Guerra Mundial, la necesidad de construir sistemas de control altamente sofisticados para fines militares, condujo al desarrollo tanto en los Estados Unidos como en la antigua Unión Soviética, de lo que hoy se conviene en llamar teorı́a clásica de los servomecanismos, y que se estudiará más adelante en este curso. En aquellos años Norbert Wiener publica la importante obra Cibernetics, en la que se recalca el carácter fundamental de la noción de realimentación como concepto cientı́fico. La teorı́a clásica de los servomecanismos tiene enormemente limitadas su posibilidades de aplicación por cuanto que la clase de sistemas a las que se aplica es reducida. En ello determinó la realización de estudios teóricos que permitiesen construir una teorı́a de sistemas que abarcarse una clase más amplia de los mismos. Con ello se ha llegado al desarrollo de la teorı́a moderna del control, basada sobre la noción de estado, y que se estudiará con detenimiento a lo largo de este curso. 1.9.1 Control, informática y telecomunicaciones. A menudo se confunden las disciplinas de control automático e informática, habiendo visiones superficiales que consideran el control como una aplicación de las tecnologı́as de la información y comunicaciones. La raı́z de esto se halla en las siguientes razones: • El sistema de decisión que diseñan los ingenieros de control para el gobierno de los sistemas fı́sicos es un procesador de señales, y por tanto un procesador de información, como son las computadoras. • El advenimiento del microprocesador en los años 70 del siglo pasado y posteriormente de los más compactos microcontroladores, ha alterado significativamente los métodos del control automático, de modo que apenas se hace control sin la intervención de las computadoras: tanto en la fase del análisis matemático como en la concepción de los instrumentos encargados Introducción a los sistemas de control. 18 del control. De hecho, una ley de control, en muchos casos, se especifica en forma de algoritmo, que se traduce a su vez en una lista de instrucciones o programa ejecutándose en la unidad central de una computadora industrial. • Las teorı́as para el modelado matemático y diseño de sistemas de control han sufrido una gran transformación en las últimas décadas, con el fin incorporar el potencial, las particularidades y limitaciones de las computadoras. En este sentido, conceptos como sistemas operativos de tiempo real, concurrencia de procesos, planificación de tareas, velocidad de proceso, algoritmos en tiempo discreto, lenguajes, etc., se han convertido en términos de uso común en control. • Conceptos tradicionalmente asociados a las telecomunicaciones como los sistemas distribuidos, redes inalámbricas, ruido, capacidad de transmisión, teorı́a de la información, etc. cobran una importancia creciente en el núcleo de la teorı́a del control. Otro hecho relevante es que la teorı́a moderna del control surgida en los años 30 tiene su base en el invento del amplificador realimentado que impulsó el desarrollo de la telefonı́a a gran distancia. Sin embargo es conveniente recordar, como se desprende del apartado anterior, que el control realimentado es anterior a la invención de la computadora digital y, con anterioridad a ella, se han implementado controladores con circuitos analógicos y otras tecnologı́as. De hecho en la actualidad se implementan sistemas de control realimentado carentes de elementos de computación, como son los termostatos. Afirmar que el control es una aplicación de las tecnologı́as de información serı́a invertir el sentido de las cosas y exigirı́a decir lo mismo de la arquitectura o la medicina. Sucede simplemente que todas las actividades de carácter técnico o cientı́fico han evolucionado y se han beneficiado enormemente de la magnı́fica herramienta que es la informática. En cualquier caso, la teorı́a del control automático se desarrolla en buena parte al margen de los dispositivos fı́sicos donde se van a implementar, y a menudo los métodos del control sobreviven a las computadoras y lenguajes concretos empleados en su realización. Tema 2 Introducción a los sistemas realimentados 2.1 Servomecanismo de posición Vamos a dedicar esta sección a analizar un tipo de sistema realimentado que presenta particular interés: el servomecanismo de posición. Con él se trata de posicionar un eje, que está asociado al eje de un motor, y que constituye la señal de salida del sistema. La señal de entrada es otra posición, que se pretende que reproduzca el eje de salida del sistema. Se dispone de un mecanismo que permite detectar la discrepancia entre las posiciones de entrada y de salida. Esta discrepancia o error es amplificada convenientemente para activar el motor que, actuando sobre el eje de salida, determina su movimiento hasta anular el error; es decir, hasta conseguir alinear el eje de salida en la dirección indicada por el eje de entrada. J f y(t) u(t) amplificador Figura 2.1: Bucle abierto de un servomecanismo de posición 19 Introducción a los sistemas realimentados 20 En la figura 2.1 se muestra el bucle abierto de un servomecanismo. En ella se pone de manifiesto cómo, mediante una amplificador la señal u(t) adquiere el nivel adecuado para actuar sobre un motor, cuyo eje representa la posición de salida del servomecanismo. Este eje es solidario con una inercia J y una fricción f. En la figura 2.2 se muestra el bucle cerrado del servomecanismo. Al esquema de la figura 2.1 se ha añadido una señal de referencia r(t) que se compara con la salida del motor, y cuya discrepancia da lugar al error e, a partir del cual se obtiene la señal u(t). J f r(t) + e(t) K u(t) amplificador y(t) - Figura 2.2: Bucle cerrado de un servomecanismo de posición En la figura 2.1 se puede hacer la hipótesis de que el par del motor es proporcional a la señal eléctrica de alimentación del amplificador u(t). Con este supuesto se puede escribir que la posición del motor y(t) viene dada por la ecuación diferencial: J d2 y dy +f = u(t) 2 dt dt siendo en este caso y(t) el ángulo girado por el motor, J la inercia del conjunto motor-carga, y f el coeficiente de fricción viscosa del mismo conjunto. Para que un sistema de control realimentado actúe aceptablemente, necesita satisfacer unas determinadas especificaciones de funcionamiento, tanto para su régimen permanente como para su transitorio que, normalmente, no se consigue con los elementos que consituyen el bucle de control. Hay veces en que un simple aumento de la ganancia estática es suficiente para lograr precisión, sin que se afecte demasiado a las caracterı́sticas en estado transitorio. No obstante, como lo normal es que éstas se vean empeoradas con una actuación de este tipo, o en el mejor de los casos, no se consigan exactamente las Introducción a los sistemas realimentados 21 que se pretende que tenga el sistema, es por lo que se desarrollaran a continuación los procedimientos de compensación que se han dado en llamar en llamar clásicos ya que fueron los primeros que se utilizaron. Se emplean tres tipos de acciones: • Acción proporcional más derivada (PD); • Acción proporcional más integral (PI) y • Acción proporcional más integral y más derivada (PID). 2.2 Acción proporcional más derivada (PD). Tiene lugar cuando la señal de mando del sistema es la suma de los términos, proporcional y derivado de la señal de error. En este caso se dice que la compensación es del tipo PD. Considérese el servomecanismo elemental descrito en el párrafo anterior. Se va estudiar el caso en que la señal de mando sea proporcional al error y a su derivada, es decir el caso en que se tenga una acción PD. La señal de mando será, por lo dicho, de u(t) = K e + Kd dt quedando d2 y dy de J 2 +f = Ke + Kd (2.1) dt dt dt y como e = r − y J d2 y dy dr dy + f = Kr − Ky + K − K d d dt2 dt dt dt J d2 y dy dr + (f + K ) + Ky = Kr + K d d dt2 dt dt (2.2) La ecuación 2.1 muestra que el sistema es excitado ahora por la señal de error y por un impulso. La consecuencia inmediata es que el efecto corrector (inversión del par motor) se aplica antes que cuando el control era sólo proporcional, como se muestra en la figuras 2.3.a y 2.3.b. En efecto, con control proporcional solamente, Introducción a los sistemas realimentados 22 el error cambia de signo en el punto f de la figura 2.3.b mientras que si la señal de error es del tipo PD indicado, el cambio de signo se verifica en el instante g de la figura 2.3.d, es decir, el par corrector se aplica antes de que la señal de salida llegue al valor de la de referencia. En consecuencia, la sobreoscilación será menor. La red PD tiene ası́ un caracter anticipativo, ya que en cierta manera se anticipa a lo que va a ocurrir. Esta misma consecuencia se pone de manifiesto en la ecuación 2.2, que muestra la ecuación diferencial del sistema en bucle cerrado. En ella se aprecia que el coeficiente de la primera derivada se ha incrementado en el valor Kd , es decir, el efecto ha sido aumentar la fricción del sistema primitivo y, por tanto, hacer que el conjunto tenga una respuesta temporal con menor sobreoscilación. Por otro lado, también en la ecuación 2.2 se aprecia que la parte no homogenea de la ecuación diferencial no es un escalón, sino un escalón más un impulso. Ello determina que el sistema responda más rápidamente ya que no sólo es sensitivo a la referencia, sino que también lo es a su variación. Todo se pone de manifiesto observando las figuras 2.4. De lo anterior se desprenden las dos caracterı́sticas esenciales de una acción PD : 1. Disminución de la sobreoscilación 2. Disminución del tiempo de subida Estos efectos se han considerado para un caso particular y especialmente simple, el de un servomecanismo elemental de posición. Sin embargo son igualmente válidos, en general, para una amplia variedad de sistemas fı́sicos. 2.3 Acción proporcional más integral (PI). En este caso, la señal de mando es la suma de un término proporcional y otro integral, de la señal de error. u(t) = K e + Ki Z t 0 e dt Sea un sistema como el de la figura 2.5, al que se le ha incorporado una acción integral en paralelo con la acción proporcional, es decir, se le ha dotado de una acción PI. Introducción a los sistemas realimentados 23 y y r (a) t e (b) f t de dt (c) t e+ de dt (d) g y t y r (e) t Figura 2.3: Compensación con PD. Introducción a los sistemas realimentados 24 respuesta a Kr y r (a) respuesta a Kd dr dt t y respuesta a Kr + Kd dr dt r (b) t Figura 2.4: Respuesta temporal con red PD. Ki + R + e − G(s) K θ + Figura 2.5: Diagrama de un sistema con regulación PI Introducción a los sistemas realimentados 25 Supóngase que a dicho sistema, en un régimen estacionario, se le aplica un par externo Pe sobre la carga, es decir, sobre el eje de salida. El sistema reaccionará tratando de anular dicho par puesto que la aplicación del mismo, determina la aparición de un error, el cual alimenta al motor y le obliga a sumintrar un par creciente con el tiempo. Si la acción de la red fuese sólo proporcional, es claro que el equilibrio se alcanzaria cuando el par generado por el motor fuese igual al aplicado externamente. Interesa ver con cierto detenimiento lo que ocurre cuando la acción de mando es del tipo PI. Para ello, en primer lugar, se establecen las ecuaciones que rigen la evolución del sistema y que resultan ser J Z t d2 y dy + f + P = Ke + K e dt e i dt2 dt 0 siendo Pe el par externo aplicado y e = r − y Eliminado y se tiene Z t d2 r d2 e dr de Pe + J 2 − J 2 + f −f = Ke + Ki e dt dt dt dt dt 0 Z t d2 r dr d2 e de Pe + J 2 + f = J 2 + f + K e + Ki e dt dt dt dt dt 0 Si la referencia es un escalón, se tendrá que dr =0 dt y d2 r =0 dt2 En el régimen permanente, cuando t → ∞, si la introducción del integrador no ha hecho inestable al sistema, se tendrá que de =0 dt y con lo cual, Pe = K ep + Ki d2 e =0 dt2 Z ∞ 0 e dt Introducción a los sistemas realimentados 26 Como Pe es finito, la única formaR de que se cumpla la ecuación anterior es que ep = 0 ya que en caso contrario, 0∞ edt → ∞. En consecuencia, el sistema reacciona eliminando el error en regimen permanente (ep ). Por lo dicho, una red PI mejora considerablemente el régimen permanente, no sólo de una manera cuantitativa, sino esencialmente cualitativa por cuanto que cambia el tipo del sistema, es decir, no es que el sistema se mejore, sino que se convierte en otro, de caracterı́sticas distintas. La interpretación fı́sica del fenómeno es muy simple. La aplicación del par externo Pe , tiende a separar la posición del eje de salida del valor en que la ha fijado la señal de referencia (figura 2.6.a). Ello trae consigo la aparición del consiguiente error (figura 2.6.b). Si la señal de actuación sobre el sistema es proporcional al error, más su integral, se aplica una señal tal como la que se muestra en la figura 2.6.d. El fenómeno que se produce entonces puede interpretarse diciendo que el par del motor empezará a crecer hasta que vence al que se aplica exteriormente. La evolución del error y de la señal de salida se muestran en las figuras 2.6.e y 2.6.f. Obsérvese cómo es el elemento integrador el que mantiene la señal sobre el motor para que éste venza al par exterior. Introducción a los sistemas realimentados 27 r θ a) t e b) z t R edt c) t e+ R edt d) t R e edt e) z t r θ f) t Figura 2.6: Respuesta temporal a red PI Tema 3 Sistemas dinámicos lineales 3.1 Transformación de Laplace En esta sección vamos a repasar la transformada de Laplace que suministra una herramienta de gran interés para el estudio de los sistemas cuya descripción matemática viene dada por ecuaciones lineales invariantes en el tiempo. 3.1.1 Definición El método de la transformada de Laplace es un método opcional que puede utilizarse con ventaja para la resolución de ecuaciones diferenciales lineales. La transformada de Laplace se define como: L [f (t)] = F (s) = Z ∞ 0 f (t)e−st dt f (t) es una función del tiempo tal que f (t) = 0 para t < 0, s = σ + jw una variable compleja y L un simbolo operacional. La existencia de la transformada F (s) está condicionada a la convergencia de la integral. Si existe una constante real y positiva σ tal que para σ > σc , e−σt | f (t) | tiende a cero cuando t → ∞, mientras que para σ < σc tiende a infinito. El valor σc recibe el nombre de abscisa de convergencia. La integral converge, y por tanto existe la transformada de Laplace, si la parte real de s, (σ) es mayor que la 28 Sistemas dinámicos lineales 29 abscisa de convergencia σc . En término de los polos de la función F (s), la abscisa de convergencia σc , corresponde a la parte real del polo más alejado hacia la derecha en el plano s. A la función f (t) se la conoce como la anti-transformada de Laplace, F (s) y se expresa ası́, f (t) = L−1 [F (s)] En la tabla siguiente se tienen las transformadas de Laplace de las funciones más usuales en automática. Tabla de Transformadas de Laplace Señal Impulso Escalon Rampa Parábola Rampa de orden n Decrecimiento exponencial Onda sinusoidal Onda cosenoidal Sinusoide con decrecimiento exponencial Cosenoide con decrecimiento exponencial 3.1.2 f (t) δ(t) 1 (t ≥ 0) t(t ≥ 0) 2 t (t ≥ 0) tn (t ≥ 0) e−αt senωt cosωt −αt e senωt e−αt cosωt F (s) 1 1 s 1 2 s 2 s3 n! sn 1 (s+α) ω (s2 +ω 2 ) s (s2 +ω 2 ) ω ((s+α)2 +ω 2 ) s+α ((s+α)2 +ω 2 ) Resumen de Propiedades F1 (s)+ 1. Linealidad: Si F1 (s) y F2 (s) son las transformadas de f1 (t) y f2 (t), F2 (s) es la transformada de Laplace de f1 (t) + f2 (t), según se desprende de la definición. 2. Derivación real: Si L [f (t)] = F (s), entonces " # df (t) = sF (s) − f (0) L dt Sistemas dinámicos lineales 30 R∞ En efecto, como F (s) = haciendo 0 f (t) e−st , realizamos la integración por partes Z 1 e−st dt = − e−st y dv = e−st dt s 0 u = f (t) ; du = f (t) dt ; v = Z Z u dv = uv − vdu por lo que resulta, Z ∞ 0 F (s) = " −st f (t) e f (t)e−st dt = − s #∞ f (0) 1 Z ∞ 0 + f (t) e−st dt, s s 0 − Z ∞ 0 1 − e−st f 0 (t)dt =⇒ s 0 Z ∞ pero f 0 (t) e−st dt = L [f 0 (t)] 0 luego: L [f 0 (t)] = sF (s) − f (0) c.q.d. 3. Integración real: Si L [f (t)] = F (s), L ·Z t ¸ F (s) f (τ ) dτ = + s 0 Si en la expresión F (s) = R∞ 0 R f (0) dt s f (t) e−st dt se hace: u = e−st ; du = −se−st dt Z v= f (t) dt; dv = f (t)dt se tiene que, F (s) = Z ∞ 0 · st ¸∞ Z −st f (t)e dt = e f (t)dt − 0 Z =− f (0)dt + s Z ∞ ·Z 0 Z ∞ 0 ·Z −st −se ¸ f (t)dt e−st dt ; ¸ f (t)dt dt = Sistemas dinámicos lineales y como 31 Z ∞ ·Z ¸ f (t)dt e 0 ·Z ·Z −st dt = L ¸ F (s) f (t)dt = + s L R ¸ f (t)dt =⇒ f (0)dt c.q.d. s 4. Teorema del valor final: Hay veces en que hechas las operaciones precisas con la ecuación transformada, interesa conocer el valor de la función f (t) cuando t → ∞, que en el caso de un servosistema, corresponderı́a al régimen permanente. El procedimiento consistirı́a en hallar la antitransformada y hacer que t → ∞. El procedimiento es laborioso y resulta mucho más cómodo verificar el valor de la variable sobre la propia ecuación transformada. Supondremos que existe L [f (t)] y L [f 0 (t)] y demostraremos que, lim f (t) = lim sF (s) t→∞ s→0 Sabemos que Z ∞ 0 f 0 (t)e−st dt = sF (s) − f (0) lim Z ∞ s→0 pero lim s→0 Z ∞ 0 0 haciendo que s → 0 f 0 (t)e−st dt = lim [sF (s) − f (0)] (3.1) s→0 f 0 (t)e−st dt = Z ∞ 0 f 0 (t)dt = lim Z t t→∞ 0 = lim [f (t) − f (0)] t→∞ y sustituyendo en 3.1, se tiene, lim [f (t) − f (0)] = lim [sF (s) − f (0)] t→∞ s→0 y como f (0) no depende de t ni de s, queda, lim f (t) = lim sF (s) c.q.d. t→∞ s→0 f 0 (τ )dτ = Sistemas dinámicos lineales 32 5. Teorema del valor inicial: Si lo que nos interesa conocer del sistema es su comportamiento cuando t → 0, que corresponderı́a en un servosistema a conocer su comportamiento transitorio, se puede hallar también sobre la ecuación transformada, ya que lim f (t) = s→∞ lim sF (s) t→0 Al igual que antes, en la expresión L [f 0 (t)] = Z ∞ f 0 (t)e−st dt = sF (s) − f (0) hacemos que s → ∞ 0 lim Z ∞ f 0 (t)e−st dt = lim [sF (s) − f (0)] s→∞ s→∞ 0 y como el primer miembro es cero, lims→∞ sF (s) = lims→∞ f (0) = f (0) ya que f (0) no depende de s y como f (0) es limt→0 f (t) quedará lim f (t) = lim sF (s) c.q.e. s→∞ t→0 6. Integral de Convolución: Sean F1 (s) = L [f1 (t)] y F2 (s) = L [f2 (t)] El producto de ambas, F1 (s) ∗ F2 (s) = = Z ∞ 0 f1 (t)e Z ∞ Z ∞ 0 0 −st dt Z ∞ 0 f2 (τ )e−sτ dτ = (3.2) f1 (t)f2 (τ )e−s(t+τ ) dt dτ Haciendo el cambio de variables, t = u−v τ = v v = τ u = t+τ el Jacobiano de la transformación vale, ¯ ¯ t, τ ¯ J( ) = ¯¯ u, v ∂t ∂u ∂τ ∂u ∂t ∂v ∂τ ∂v ¯ ¯ ¯ ¯ ¯ 1 −1 ¯ ¯ ¯ ¯ ¯=¯ ¯=1 ¯ ¯ 0 1 ¯ (3.3) Sistemas dinámicos lineales 33 Como t > 0, u > v luego v viariará de 0 a u. La ecuación 3.3 queda F1 (s) ∗ F2 (s) = = Z ∞ Z u Z0∞ ·Z0 u 0 f1 (u − v) f2 (v)e−su dv du = ¸ f1 (u − v) f2 (v)dv e−su du 0 luego F1 (s) ∗ F2 (s) = L ·Z u 0 ¸ f1 (u − v) f2 (v) dv La expresión encerrada en el corchete se conoce como integral de convolución y representa la antitransformada del producto de dos transformadas. 3.1.3 Calculo de antitransformadas Con el cálculo de antitransformadas se pretende determinar a partir de la transformada de Laplace F(s) la correspondiente antitransformada; es decir, f (t) = L−1 [F (s)] La transformada posee sólo polos reales y simples Supongase que el denominador de la función de la que se quiere hallar la antitransformada, F (s), es de la forma d(s) = (s + p1 )(s + p2 ) . . . (s + pn ) de modo que los diferentes pi son reales y diferentes entre si. En tal caso la función F (s) admite una descomposición en fracciones simples de la forma F (s) = n(s) a1 a2 an = + + ... + d(s) s + p1 s + p2 s + pn los coeficientes ai reciben la denominación de residuos de F (s) en s = −pi . Multiplicando los dos miembros de la expresión anterior por (s+pi ) y haciendo s = −pi se tiene Sistemas dinámicos lineales 34 " n(s)(s + pi ) ai = d(s) # s=−pi puesto que se sabe, de la tabla de transformadas, que " L −1 # ai = = ai e−pi t (s + pi ) se tiene que f (t) = a1 e−p1 t + a2 e−p2 t + . . . an e−pn t En esta expresión se pone de manifiesto que a cada pi se asocia una función (una trayectoria o un comportamiento) de la forma e−pi t . Estas funciones reciben la denominación de modos naturales del sistema. Se dice que un modo natural es asintóticamente estable si pi ≥ 0. Ejemplo Sea la transformada de Laplace F (s) = (s + 3) (s + 1)(s + 2) se tiene que los residuos resultan ser " (s + 3) a1 = (s + 2) " (s + 3) a2 = (s + 1) # =2 s=−1 # = −1 s=−2 luego f (t) = 2e−t − e−2t t ≥ 0 La transformada posee polos complejos Supongamos ahora que la transformada de Laplace posee un par de polos complejos conjugados p1 y p¯1 . En tal caso la descomposición en fracciones simples tomará la forma: Sistemas dinámicos lineales F (s) = 35 n(s) α1 s + α2 a3 an = + + ... + d(s) (s + p1 )(s + p̄1 ) s + p3 s + pn Si se multiplican los dos miembros de esta expresión por (s + p1 )(s + p¯1 ), y se hace s = −p1 , se tendrá: " (α1 s + α2 )s=−p1 n(s)(s + p1 )(s + p̄1 ) = d(s) # s=−pi Esta expresión permite determinar α1 y α2 igualando partes reales e imaginarias. Para hallar la antitransformada correspondiente al término asociado al par complejo basta recordar que: " L1 " L1 # ω = e−αt senωt ((s + α)2 + ω 2 ) # s+α = e−αt cosωt ((s + α)2 + ω 2 ) En concreto, si se supone: p1 = a + jω y p¯1 = a − jω se tendrá α1 s + α2 α1 s + α2 = = (s + p1 )(s + p̄1 ) (s + a + jω)(s + a − jω) " # " # s+a (α2 − α1 a) ω α1 + ((s + a)2 + ω 2 ) ω ((s + α)2 + ω 2 ) Ejemplo Sea la transformada de Laplace F (s) = (s + 1) s(s2 + 2s + 2) Sistemas dinámicos lineales Se tiene: 36 " (s + 1) a3 = 2 (s + 2s + 2) # = s=0 1 2 Por tanto, 11 1 s − 2 2 s 2 s + 2s + 2 11 1 s = − 2 s 2 (s + 1)2 + 1 11 1 s+1 1 1 = − + 2 2 s 2 (s + 1) + 1 2 (s + 1)2 + 1 F (s) = De donde se tiene, f (t) = 1 1 −t 1 − e cosωt + e−t senωt t ≥ 0 2 2 2 La transformada posee polos múltiples Supóngase que una de las raices del polinomio del denominador de la transformada de Laplace es múltiple. Por ejemplo, supóngase que la raiz p1 tiene multiplicidad r. En tal caso el denominador admitirá la descomposición: d(s) = (s + p1 )r (s + p2 ) . . . (s + pn ) En tal caso, la transformada de Laplace admite la descomposición: F (s) = n(s) br br−1 b1 a2 an = + + ... + + + ... + r r−1 d(s) (s + p1 ) (s + p1 ) s + p1 s + p2 s + pn Si se multiplican los dos miembros de esta expresión por (s + p1 )r se tendrá: " n(s)(s + p1 )r bi = d(s) # s=−p1 Obsérvese que r r−1 (s+p1 ) F (s) = br +br−1 (s+p1 )+. . .+b1 (s+p1 ) an (s + p1 )r a2 (s + p1 )r +. . .+ + s + p2 s + pn derivando esta expresión con respecto a s se tiene Sistemas dinámicos lineales 37 d [(s + p1 )r F (s)] = br−1 + 2br−2 (s + p1 ) . . . + (r − 1)b1 (s + p1 )r−2 + ds " # " d a2 (s + p1 )r d an (s + p1 )r + ... + ds s + p2 ds s + pn # y haciendo en esta expresión s = −p1 se tiene d [(s + p1 )r F (s)]s=−pi = br−1 ds Derivando de nuevo con respecto a s y procediendo análogamente se tiene br−2 = 1 d2 [(s + p1 )r F (s)]s=−p1 2 ds2 En general se tendrá br−j 1 dj = [(s + p1 )r F (s)]s=−p1 j j! ds Ejemplo Sea F (s) = s2 + s + 2 (s + 1)3 que se desconpone F (s) = b3 b2 b1 + + 3 2 (s + 1) (s + 1) (s + 1) Se tendrá b3 = [s2 + s + 2]s=−1 = 2 b2 = [2s + 1]s=−1 = −1 b1 = 1 Por tanto F (s) = 2 1 1 − + (s + 1)3 (s + 1)2 (s + 1) De donde se tiene, f (t) = (t2 − t + 1)e−t Sistemas dinámicos lineales 3.2 38 Noción de sistema dinámico. Uno de los conceptos básicos empleados en automática es el de sistema. En el lenguaje ordinario se entiende por sistema una colección de objetos unidos por cierta forma de interacción o interdependencia. En el contexto de la automática el concepto de sistema adquiere un significado más preciso. Considérese un objeto fı́sico, α, por ejemplo un motor eléctrico, al cual aparecen asociadas una serie de magnitudes, como pueden ser su velocidad de giro, la intensidad que alimente el inducido, etc. Desde el punto de vista que interesa en automática lo que conviene de α son las relaciones matemáticas entre las distintas magnitudes m1 (t), m2 (t)...mn (t) que se asocian a dicho objeto fı́sico. Estas relaciones constituyen un objeto abstracto, por abstracción de unas caracterı́sticas de un objeto fı́sico. En automática los objetos fı́sicos que intervienen son tales que las magnitudes fı́sicas que a ellos se asocian se pueden clasificar en dos grupos: 1. magnitudes cuyo valor puede ser variado directamente desde el exterior del objeto fı́sico, que reciben el nombre de señales de entrada, de control, de mando o estı́mulos; y 2. magnitudes cuyo valor puede ser medido pero cuya variación es indirecta, a través de las señales de entrada, y que reciben el nombre de señales de salida, de observación o respuestas. Para denotar a las señales de entrada se emplea u(t), y para las señales de salida se emplea y(t), siendo, en general, u(t) e y(t) vectores. P Se entiende por sistema el objeto abstracto formado por las relaciones que ligan las señales u(t) e y(t). Un sistema se presenta en forma esquemática como se hace en la figura 3.1, representación que recibe el nombre de diagrama funcional del sistema. Definido ası́ un sistema representa una formalización del uso vulgar de este término. El problema de la representación matemática de los sistemas se reduce a encontrar la forma matemática, bien sea una ecuación o, de forma más general, un algoritmo, que permita generar los pares de señales u(t), y(t) que definen el sistema. Las señales u(t) e y(t) pueden registrarse o bien de una manera contı́nua en el Sistemas dinámicos lineales 39 Σ u(t) y(t) Figura 3.1: Sistema dinámico tiempo, o bien de una forma discontı́nua, es decir tomando medidas cada cierto intervalo de tiempo. En el primer caso se tienen los llamados sistemas en tiempo contı́nuo y en el segundo los sistemas en tiempo discreto. Estos últimos tienen un particular interés práctico cuando se emplean computadores puesto que estas máquinas trabajan de una forma discreta. 3.3 Formas de las relaciones entrada-salida en sistemas. Se ha indicado en la sección 3.2, que un sistema está formado por las relaciones matemáticas que ligan las señales u(t) e y(t) que lo definen. En esta sección se van a considerar algunas formas matemáticas de las relaciones que ligan a las señales u(t) e y(t) en tipos de sistemas comúnmente encontrados en la práctica. Sin embargo, en el resto de estos apuntes sólo se estudiará una de las clases consideradas en esta sección. Una posible primera clasificación elemental de las relaciones que ligan a las señales de entrada y salida de los sistemas, es en sistemas estáticos y sistemas dinámicos. 3.3.1 Sistemas estáticos. El caso más simple de relación entre las señales u(t) e y(t) es aquél en que ésta se reduce a una ecuación algébrica. Por una consideración elemental de realizabilidad fı́sica es claro que en tal caso se podrá escribir: y(t) = F {u(t)} (3.4) en donde, para los casos de interés práctico F{.} es una función uniforme. Los sistemas que admiten esta forma de representación reciben el nombre de sistemas Sistemas dinámicos lineales 40 estáticos, y son aquéllos en los que el valor que toma la señal de salida y(t), en un cierto tiempo t depende exclusivamente del valor tomado por la señal de entrada u(t) en dicho instante de tiempo t, y no de los valores tomados por u(t) en el pasado. Los sistemas lógicos combinacionales, constituyen un ejemplo de sistemas estáticos definidos por la propiedad de que las señales de entrada u(t) y salida y(t) toman sus valores del conjunto finito U = Y = {0, 1}. Para la representación matemática de los sistemas lógicos combinacionales se recurre a tablas en las que se indican para cada combinación posible de los valores de las señales de entrada, los correspondientes de la señales de salida. Desde un punto de vista matemático estas tablas constituyen una de las formas más simples de representar una función. 3.3.2 Sistemas dinámicos Normalmente las relaciones que ligan las magnitudes fı́sicas que definen un sistema no son ecuaciones algebraicas, que conducen a sistemas estáticos, sino ecuaciones diferenciales. Ello es debido a que la mayor parte de las leyes de la fı́sica se expresan por medio de esta clase de ecuaciones. Aquı́ se considerarán exclusivamente las ecuaciones diferenciales de la forma, dn y dy dn u + ... + a + a (t)y = b (t) + ... + bn (t)u n−1 n 0 dtn dt dtn (3.5) llamadas ecuaciones diferenciales lineales. El hecho de limitarse a esta clase de ecuaciones diferenciales es debido a: 1. sólo para esta clase de sistemas es posible establecer, en la actualidad, una teorı́a que sea a la vez general y simple; y 2. al menos en una primera aproximación, gran parte de los sistemas encontrados en la práctica admiten esta forma de representación. Cabe considerar que la teorı́a de sistemas lineales es a la teorı́a de sistemas nolineales, como la geometrı́a euclidea es a las formas de geometrı́a no-euclidea. Es sabido que la geometrı́a euclı́idea es un útil de un interés práctico incuestionable; lo mismo sucede con la teorı́a de los sistemas lineales. Otra relación entre la entrada y salida de un sistema es la que presentan las ecuaciones en diferencias finitas. De ellas las que mayor interés tienen son, por Sistemas dinámicos lineales 41 consideraciones semejantes a las realizadas más arriba respecto a las ecuaciones diferenciales lineales, las ecuaciones en diferencias finitas lineales cuya forma general es, y(t+n)+...+am−1 y(t+1)+am y(t) = b0 u(t+n)+...+bn−1 u(t+1)+bm u(t) (3.6) Los sistemas descritos por las ecuaciones en diferencias finitas son sistemas en tiempo discreto, en los que la escala de tiempos toma sólo una serie de valores discretos. Esta forma de relación se presenta en aquellas aplicaciones en las que se emplean computadores. Por último cabe recordar como otra forma de relación entre las señales de entrada y salida de un sistema la que ofrecen los diagramas de estados de los circuitos lógicos secuenciales (o, más general, de los autómatas). En dichos diagramas se tenı́a representada la evolución de las señales de entrada u(t) y de salida y(t) de un sistema cuya caracterı́stica adicional es que las señales de entrada y de salida sólo podrı́an tomar sus valores de un conjunto finito. Los sistemas descritos por ecuaciones diferenciales, por ecuaciones en diferencias finitas, o por diagramas de estados reciben la denominación de sistemas dinámicos y en ellos el valor tomado por la señal de salida y(t), en un cierto instante de tiempo t depende del valor tomado por u(t), no sólo en el instante t (como sucedı́a en los estáticos), sino en todos los instantes anteriores a t. En ellos, por lo tanto, la consideración del tiempo juega un papel esencial. De ahı́ la denominación de dinámicos. Obsérvese que los sistemas estáticos pueden considerarse como una forma particular y degenerada de los dinámicos por lo que son estos últimos los únicos que se consideran en lo que sigue. En estos apuntes no se tratarán explı́citamente, los sistemas lógicos secuenciales. No obstante si éstos son lineales son susceptibles de ser estudiados con las técnicas aquı́ desarrolladas. Sin embargo, ello no se hará aquı́ de forma explı́cita. La forma de representación de los sistemas dinámicos por ecuaciones diferenciales, o por ecuaciones en diferencias finitas, no tiene interés práctico para el desarrollo de la automática. Para el estudio de los sistemas dinámicos se han desarrollado dos formas peculiares de representación, que son la descripción externa y la descripción interna que se pasan a estudiar a continuación. Sistemas dinámicos lineales 3.4 42 Descripción externa de los sistemas dinámicos. Puesto que las señales que definen un sistema dinámico son las de entrada u(t) y las de salida y(t) interesa disponer de una relación explicita directa entre ambas. Esta relación la suministra la descripción externa que se define por una función de entrada-salida F tal que hace corresponder al conjunto de valores tomados por la señal de entrada u en un cierto intervalo (t0 , t), el valor tomado por la salida y(t) en el instante t. Formalmente se puede escribir, y(t) = F (u[t0 , t]) (3.7) en donde F (.) es un funcional, es decir una función cuyo argumento lo constituye el conjunto de valores tomados por u(t) en el intervalo (t0 , t). Desde el punto de vista de la descripción externa un sistema dinámico lineal se define cono áquel que cumple la propiedad de linealidad, en virtud de la cual, F (α1 u1 [t0 , t] + α2 u2 [t0 , t]) = α1 F (u1 [t0 , t]) + α2 F (u2 [t0 , t]) en donde α1 , α2 son números reales arbitrarios. Esta propiedad recibe también, impropiamente, la denominación de principio de superposición. Habitualmente se emplean dos formas de descripción externa: la respuesta impulsional y la función de transferencia. 3.4.1 Respuesta impulsional. Una forma de escribir la solución a una ecuación diferencial como la de la expresión (3.5) es la siguiente: y(t) = Z t −∞ h(t, τ )u(τ )dτ (3.8) en donde h(t, τ ) recibe el nombre de respuesta impulsional del sistema. La expresión (3.8) es una forma de descripción externa de un sistema dinámico ya que corresponde al caso de una función lı́neal. La respuesta impulsional de un sistema puede tener las siguientes propiedades: Sistemas dinámicos lineales 43 1. Propiedad de causalidad o realizabilidad, en virtud de la cual un efecto no puede preceder a una causa, lo que implica que h(t, τ ) = 0 para t<τ 2. Propiedad de estabilidad, en virtud de la cual la estabilidad del sistema exige la convergencia de (3.8), lo que se traduce en lim h(t, τ ) = 0 t→∞ 3. Propiedad de estacionaridad, en virtud de la cual el sistema es invariante con el tiempo, lo que se traduce en que h(t, τ ) = h(t − τ, 0) = h(t − τ ) Ejemplo: Sea el sistema dinámico descrito por la ecuación diferencial, dy + ay = bu dt En donde a y b son dos números reales. La solución de esta ecuación de la forma de la expresión (3.8) es la siguiente, y(t) = Z t −∞ e−a(t−τ ) b u(τ )dτ En donde la respuesta impulsional h(t, τ ) = be−a(t−τ ) , es claro que cumple las propiedades de causalidad, estabilidad y estacionaridad. La respuesta impulsional admite un significado adicional muy preciso. Supóngase un sistema con una sola entrada y una sola salida. Supóngase, además, que dicho sistema se somete a la siguiente señal de entrada: u(t) = δ(t1 ) en donde δ(t) es la función de Dirac. En tal caso se tiene que, y(t) = h(t, t1 ) 44 y(t) Sistemas dinámicos lineales t Figura 3.2: Respuesta Impulsional si el sistema no es estacionario o y(t) = h(t − t1 ) si el sistema es estacionario. En la figura 3.2 se muestra la respuesta impulsional del sistema del ejemplo anterior. De lo anterior se desprende que la respuesta impulsional de un sistema es determinable experimentalmente en la medida en que se pueda realizar fı́sicamente una señal de entrada u(t) = δ(t). Es sabido que esta última no tiene significado fı́sico, pero sin embargo se pueden concebir aproximaciones aceptables. Debe añadirse que en la práctica como realmente se miden las respuestas impulsionales es por las técnicas de correlación que no se van a tratar aquı́. Para sistemas multivariables, con m entradas y p salidas, la respuesta impulsional es una matriz, de dimensión p × m, cuyo término hi,j representa la respuesta del i-esimo canal de salida, cuando se aplica una entrada u(t) = δ(t) al canal j-esimo, siendo nulas el resto de las entradas. 3.4.2 Función de transferencia. Para los sistemas lineales estacionarios existe una forma de descripción externa muy empleada en la práctica: la función (matriz) de transferencia. Se puede Sistemas dinámicos lineales 45 definir la función de transferencia como la transformada de Laplace de la respuesta impulsional de un sistema. H(s) = Z ∞ 0 h(τ )e−τ s dτ (3.9) Aplicando la transformación de Laplace a la expresión (3.8), para el caso de un sistema estacionario, se tiene Y (s) = H(s) U (s) (3.10) en donde Y (s) y U (s) son, respectivamente, las transformadas de Laplace de las señales de entrada y salida. En la práctica la función de transferencia se determina directamente a partir de la ecuación diferencial. Un punto muy importante a considerar es que esta determinación se hace suponiendo condiciones iniciales nulas para las señales u(t) e y(t). Ejemplo: Sea el sistema descrito por la ecuación diferencial, d2 y dy + a + a2 y = bu 1 dt2 dt La transformada de Laplace de los distintos términos de la ecuación es la siguiente, s2 Y (s) + a1 sY (s) + a2 Y (s) = bU (s) Con lo que se tiene, b Y (s) = H(s) = 2 U (s) s + a1 s + a2 es decir que la transformación de Laplace de la respuesta impulsional es la función de transferencia. Para el caso de sistemas multivariables con m entradas y p salidas la función de transferencia se convierte en una matriz cuyo término Hij representa el cociente Sistemas dinámicos lineales 46 entre la transformada de Laplace de la señal de salida que se obtiene por el canal i y la transformada de Laplace de la señal de entrada que se aplica al canal j, supuestas nulas las otras señales de entrada. 3.5 Sistemas de control realimentados Un sistema de control realimentado se representa esquemáticamente como se indica en la figura 3.3. Sobre este esquema vamos a recordar una serie de conceptos que consideramos de interés. r(t) + º· e ¡ -@ @¡ ¡ @ ¡ @ ¹¸ − 6m u K y(t) - H(s) G(s) - ¾ Figura 3.3: Sistema de Control realimentado • Cadena directa o de acción, es la que une los elementos comprendidos entre la señal de error y la de salida. Ambas señales están relacionadas por la expresión, Y (s) = KG(s) E(s) siendo G(s) la función de transferencia del sistema considerado. • Cadena de realimentación, es la que une la señal de salida con la de información m(t), que es comparada con la de referencia. Ambas señales se relacionan ası́, Sistemas dinámicos lineales 47 M (s) = H(s) Y (s) En este caso H(s) es la función de transferencia de la cadena de realimentación. • Se llama bucle abierto, al conjunto de elementos que constituyen todo el sistema, si este se abriese por el punto m(t), es decir, como si la señal de entrada fuese e(t) y la de salida m(t). La función de transferencia del conjunto ası́ dispuesto serı́a M (s) = KG(s)H(s) E(s) • Se llama bucle cerrado, al sistema conectado como se indica en la figura 3.3. Las señales y(t) y r(t) se relacionan por la conocida fórmula, fácil de deducir, Y (s) KG(s) = R(s) 1 + KG(s)H(s) Obsérvese que, en este caso, la señal de actuación sobre el sistema es proporcional a la señal de error. Se trata pues de un control proporcional (P). El valor de la ganancia K del amplificador será, por tanto, un parámetro susceptible de ser variado de acuerdo con las necesidades del problema. En lo que sigue se supondra siempre que la cadena de realimentación es unitaria, con lo que el esquema fundamental quedará de la forma que se indica en figura 3.4 y quedando la función de transferencia en bucle cerrado reducida a Y (s) KG(s) = R(s) 1 + KG(s) Naturalmente en este caso cadena de acción y bucle abierto son dos conceptos coincidentes. Por el hecho de introducir una compensación sobre el bucle antes mencionado, el esquema se modifica de alguna manera, como se muestra más adelante. Se distinguen dos tipos de compensación: Sistemas dinámicos lineales 48 r(t) + º· e u ¡ @¡ -@ ¡@ ¡ @ ¹¸ − 6m y(t) - K - G(s) Figura 3.4: Sistema de Control realimentado unitariamente • Compensación en serie: Cuando el elemento corrector se coloca en cascada, en la cadena de acción; y • Compensación por realimentación: Cuando el elemento corrector constituye una segunda cadena de realimentación, en el bucle de control. Los esquemas básicos para uno y otro caso se muestran, respectivamente, en las figuras 3.5 y 3.6. u0 r(t) + ¶³ e µ´ − 6m Gr (s) - u K - y(t) G(s) Figura 3.5: Compensación en serie Como ya se ha indicado, en el caso de la compensación en serie, la red correctora se coloca en cascada con los elementos de la cadena de acción, y delante del - Sistemas dinámicos lineales 49 r(t) + º· e º· ¡ -@ ¡ -@ @¡ @¡ ¡@ ¡@ ¡ @ ¡ @ ¹¸ ¹¸ 6 − 6m u K y(t) - Gr (s) G(s) ¾ Figura 3.6: Compensación por realimentación amplificador para que el nivel de potencia a que trabaje sea el del error, es decir, bajo. - Tema 4 Interpretaciones de la función de transferencia 4.1 Transformación de Fourier Dada una función del tiempo periódica fT (t) de periodo T , se puede desarrollar en serie de Fourier, de la forma: fT (t) = a0 + ∞ X (an cos wn t + bn sen wn t) n=1 donde wn = 2πn y los coeficientes vienen dados por: T 2 Z T /2 an = fT (t)cos wn tdt T −T /2 bn = 2 Z T /2 fT (t)sen wn tdt T −T /2 n = 0, 1, 2, ... n = 1, 2, ... supuesto que dichas integrales sean finitas. Los coeficientes an y bn son funciones de wn , pero no del tiempo, por lo que fT (t) queda definida mediante los módulos de los componentes armónicos 50 Interpretaciones de la función de transferencia 51 que lo integran; ahora bien, tomando como parámetros, por agrupación de las componentes en seno y coseno de igual frecuencia los valores: à q cn = ϕn = tag −1 a2n + b2n bn an ! cada término puede expresarse como an cos wn t + bn sen wn t = cn sen(wn t + ϕn ) Por lo tanto, para definir fT (t) basta con especificar la amplitud y el desfase que corresponde a cada frecuencia fundamental: fT (t) = a0 + ∞ X cn sen(wn t + ϕn ) n=1 Una vez que se ha mostrado como fT (t) queda completamente definida con a0 , cn y ϕn , pueden considerarse las relaciones, cosα = ejα + e−jα ; 2 senα = ejα − e−jα 2j Entonces, volviendo a tomar las ecuaciones de definición, an cos wn t + bn sen wn t = an = ejwn t + e−jwn t ejwn t − e−jwn t + bn = 2 2j (an − jbn ) jwn t (an + jbn ) −jwn t e + e 2 2 y efectuando análogas consideraciones con las integrales de definición de an y bn 1 Z T /2 an − jbn = fT (t)e−jwn t dt 2 T −T /2 Interpretaciones de la función de transferencia 52 an + jbn 1 Z T /2 = fT (t)ejwn t dt 2 T −T /2 n n Es decir an −jb tiene una expresión idéntica a an +jb sin más que cambiar wn 2 2 por − wn , esto es, n por -n, luego sustituyendo en el desarrollo en serie, puede escribirse # "Z ∞ T /2 1 X −jwn t fT (t)e dt ejwn t fT (t) = T n=−∞ −T /2 La cantidad entre corchetes representa una función compleja que tiene como parámetro el valor imaginario j wn , toda vez que el tiempo desaparece al integrar. Esta función recibe el nombre de Transformada de Fourier de la función temporal periódica fT (t): F (jwn ) = Z T /2 −T /2 fT (t)e−jwn t dt Es inmediato ver que, igual que cn y ϕn definı́an completamente fT (t), esta función queda completamente definida conociendo F (jwn ), con lo que basta una magnitud compleja para cada frecuencia: fT (t) = ∞ 1 X F (jwn )ejwn t T n=−∞ Ahora bien, como wn = luego 2πn ; T wn+1 − wn = 2π = ∆wn T ∞ 1 X fT (t) = F (jwn )ejwn t ∆wn 2π n=−∞ Si se hace crecer el periodo indefinidamente, T → ∞, el sumatorio tiende a la integral, ∆wn → dw, por lo que puede escribirse, finalmente, para una función no periodica (Transformación de Fourier o Integral de Fourier): F (jw) = Z ∞ −∞ f (t)e−jwt dt Interpretaciones de la función de transferencia f (t) = 53 1 Z∞ F (jw)ejwt dw 2π −∞ Supuesto que la integral de Fourier sea convergente, para lo cual debe cumplirse la condición de convergencia absoluta Z ∞ | f (t) | dt < ∞ −∞ Esta transformación o integral de Fourier permite expresar de forma análitica muchas funciones no periódicas, y de interés especial, que no son expresables mediante series de Fourier. Tal es, por ejemplo, el caso de la función ( f (t) = e−at t > 0 (a > 0) 0 t<0 La convergencia está asegurada por: Z ∞ −∞ | f (t) | dt = Z t 0 " −at e −e−at dt = a #∞ = 0 1 <∞ a y la transformada: F (jw) = Z ∞ −∞ f (t)e −jwt dt = Z ∞ 0 e−(a+jw)t dt = 1 a + jw Sin embargo, y aunque en muchos casos la Transformada de Fourier es suficiente, en otros casos de interés tales como funciones de tipo polinómico en t no son convergentes; por ejemplo, para el escalón unitario ( f (t) = u0 (t) = 1 0 t>0 t<0 la convergencia resulta: Z ∞ −∞ | u0 (t) | dt = Z ∞ 0 dt = ∞ Interpretaciones de la función de transferencia 54 y la transformada, F (jw) = Z ∞ 0 " e −jwt e−jwt dt = − jw #∞ 0 que sólo es convergente para w > 0. 4.2 Función de transferencia en el dominio de la frecuencia Si en la función de transferencia se hace s = jw ésta se convierte en una expresión compleja H(jw) que tiene la notable propiedad de que, para un cierto valor de la pulsación w, su módulo | H(jw) | y su argumento 6 H(jw) representan precisamente la atenuación y el desfase que sufre una señal sinusoidal de frecuencia f = 2π/w. Este hecho se ilustra en la figura 4.1. H(jω) =| H | 6 ϕ y(t) ϕ u(t) |H|A A t Figura 4.1: Respuesta en frecuencia Ejemplo: Considérese el sistema descrito por la ecuación diferencial, dy + ay = bu dt t Interpretaciones de la función de transferencia 55 sometido a una señal sinusoidal, de pulsación w y de amplitud unitaria. Es sabido que esta señal se puede representar en forma compleja u(t) = ejwt . La respuesta del sistema, en régimen estacionario, a la anterior señal de entrada es la solución particular de la anterior ecuación diferencial la cual se comprueba fácilmente que es, y(t) = b ejwt (jw) + a Esta notable propiedad de la función de transferencia es la que ha justificado el amplio uso de la misma en el análisis y diseño de servomecanismos y reguladores elementales. Nótese que esta propiedad lleva implı́cito un método experimental de medida de la función de transferencia de un sistema dinámico. Este método consiste, sencillamente, en la aplicación de señales sinusoidales de distintas frecuencias, y en la medida, para cada una de ellas, de la atenuación y del desfase que sufren al atravesar el sistema. La medida de la atenuación y del desfase suministran el módulo y el argumento de H(jw) para el valor de w correspondiente. Existen unos equipos comerciales, denominados servoanalizadores, concebidos para realizar esta función de medición de los sistemas dinámicos. No debe, sin embargo, olvidarse que H(s) suministra información tanto sobre el comportamiento en el dominio del tiempo (empleando las tablas de la transformada de Laplace) como de la frecuencia (gracias a la propiedad expuesta). De ahı́ que la denominación representación frecuencial no sea del todo apropiada, o en cualquier caso debe tomarse de forma matizada. Tema 5 Sistemas dinámicos lineales de primer orden 5.1 Introducción Se denomina sistema lineal diferencial de primer orden de entrada u(t) y salida y(t) al sistema regido por una ecuación diferencial de la forma dy + ay = bu dt (5.1) en donde a y b son dos constantes, denominadas coeficientes de la ecuación; u(t) es una señal denominada señal de entrada o excitación; e y(t) es otra señal denominada señal de salida del sistema. El conjunto se interpreta con un diagrama de bloques tal como el de la figura 5.1. La ecuación diferencial anterior admite una solución única siempre que se fije el valor inicial de y(t). Este valor inicial se denotará en lo que sigue por ξ. La ecuación (5.1) establece que la pendiente de y(t) en cada instante de tiempo, es una combinación lineal de los valores que toma en este instante u(t) e y(t). En la figura 5.2 se muestran las evoluciones de u(t) e y(t). En la práctica se presentan múltiples sistemas que pueden ser representados por una ecuación diferencial de primer orden. De hecho es una de las aproximaciones más sencillas que se pueden hacer del comportamiento dinámico de un sistema. En el apartado 5.3 se presentan distintos sistemas que pueden ser 56 Sistemas dinámicos lineales de primer orden 57 representados por una ecuación diferencial de primer orden. u(t) y(t) Figura 5.1: Sistema de primer orden (1) 5.2 Solución de la ecuación diferencial de primer orden Para el estudio de la solución de la ecuación diferencial de primer orden, conviene distinguir dos casos: 5.2.1 Señal de entrada nula En el supuesto de que la señal de entrada u(t) sea nula para todo t, la ecuación diferencial de primer orden se convierte en dy = −ay dt y(0) = ξ (5.2) lo que constituye la parte homogénea de la ecuación diferencial de primer orden de (5.1). La solución de esta ecuación puede obtenerse por integración directa haciendo, dy = −a dt y cuya integración conduce a, ln y(t) − ln y(0) = −at Sistemas dinámicos lineales de primer orden 58 u u(t) t y dy(t) dt y(t) t ξ Figura 5.2: Sistema de primer orden (2) Sistemas dinámicos lineales de primer orden 59 lo que, teniendo en cuenta que y(0) = ξ, puede escribirse, yh (t) = ξe−at El subı́ndice h se refiere a que esta solución lo es de la parte homogénea de (5.1). Las figuras 5.3 y 5.4 muestran la forma general de la evolución de yh (t) según que a sea, respectivamente, negativa o positiva. Estas figuras muestran cómo se comporta un sistema en ausencia de excitación. Aparece una clara distinción entre dos formas de comportamiento que permiten una primera clasificación de los sistemas en estables o inestables, según que la evolución libre de los mismos tienda a una estado de reposo o no. y(t) ξ t Figura 5.3: Primer orden divergente 5.2.2 Señal de entrada no nula Se trata de resolver la ecuación diferencial (5.1) en el caso en que u(t) no sea idénticamente nula. Para simplificar la notación se escribirá v(t) = b0 u(t), con lo que la ecuación (5.1) se convierte en dy + ay = v dt (5.3) Sistemas dinámicos lineales de primer orden 60 y(t) ξ t Figura 5.4: Primer orden convergente Se trata de determinar qué función w(t) debe sumarse a la solución homogénea yh (t) para obtener la solución de la ecuación (5.3). Es decir, se supone que y(t) se descompone en, y(t) = yh (t) + w(t) (5.4) lo que llevado a la ecuación (5.3) resulta, d(yh + w) + a(yh + w) = v dt yh (0) + w(0) = ξ dyh dw + ayh + + aw = v dt dt w(0) = ξ − yh (0) es decir, que, habida cuenta de la expresión (5.2), se puede escribir, dw +aw =v dt w(0) = 0 (5.5) Por lo tanto la ecuación diferencial que satisface w(t) es exactamente la (5.1), pero con una notable diferencia, y es que las condiciones iniciales para w(t) son 0. Sistemas dinámicos lineales de primer orden 61 Es decir, la señal w(t) constituye la respuesta del sistema ante la señal de entrada u(t) a partir del reposo. La discusión anterior permite interpretar la expresión (5.4) diciendo que la respuesta y(t) de un sistema dinámico lineal a una señal de entrada u(t) a partir de un valor inicial y(0) puede considerarse como la suma de la respuesta del sistema, a partir del valor inicial y(0), ante una señal de entrada nula más la respuesta del sistema a la señal de entrada u(t) a partir del reposo. Es fácil ver que w(t) viene dada por, −at w(t) = e Z t o eaζ v(ζ)dζ (5.6) En efecto, en primer lugar es inmediato ver que w(0) = 0. Además sustituyendo la expresión (5.6) en la (5.5) se tiene que, Z t dw d Z t aζ = −a e−at eaζ v(ζ)dζ + e−at e v(ζ) dζ = −a w + v dt dt o o Combinando los anteriores resultados se tiene que la respuesta de un sistema regido por una ecuación diferencial lineal de la forma (5.1) ante una señal de entrada u(t) viene dada por, −at y(t) = e −at ξ+e Z t o eaζ b u(ζ) dζ (5.7) A este mismo resultado se puede llegar empleando las técnicas basadas en la transformada de Laplace, con las cuales se puede demostrar directamente de una forma muy sencilla la expresión (5.6). Además, en las aplicaciones prácticas, es de esta última forma como se procede. Sin embargo para un planteamiento teórico más general, conviene desarrollar el estudio de los sistemas lineales como se ha hecho anteriormente. 5.2.3 Respuestas a señales de entrada especiales Se discuten a continuación las respuestas de un sistema diferencial lineal de primer orden a señales de entrada que presentan especial interés en las aplicaciones como son las señales en escalón, en rampa y sinusoidal. Sistemas dinámicos lineales de primer orden 62 Señal de entrada en escalón Se dice que un sistema se somete a una señal de entrada en escalón en el instante inicial t = 0, si en dicho instante se somete el sistema a una variación brusca de la señal de entrada permaneciendo ésta en un valor u(t) = constante. En la figura 5.5 se representa una señal de entrada de esta forma. Si se supone y(0) = ξ, u = 1, y teniendo en cuenta la expresión (5.7), se tendrá, " y(t) = e −at # b b ξ + (eat − 1) = e−at ξ + (1 − e−at ) a a (5.8) u t Figura 5.5: Entrada en escalón En la figura 5.6 se representa la respuesta de un sistema lineal de primer orden a una entrada en escalón. y ξ t Figura 5.6: Respuesta al escalón Sistemas dinámicos lineales de primer orden 63 Para estudiar la respuesta en el tiempo de un sistema lineal de primer orden a una entrada en escalón, es interesante escribir la ecuación diferencial de primer orden de la forma siguiente: τ dy + y = Ku dt (5.9) en donde τ = 1/a y K = b/a. Si se supone además, para simplificar, que ξ = 0 se tendrá que la expresión (5.8) se puede escribir, t y(t) = K(1 − e− τ ) (5.10) La constante K recibe la denominación de ganancia estática del sistema, puesto que representa la relación entre la señal de salida (y(t)) y la señal de entrada (u(t)) para t → ∞. La constante τ que tiene una dimensión de tiempo, se llama constante de tiempo del sistema. El resultado (5.10) puede obtenerse de una forma más sencilla empleando la transformada de Laplace. En efecto, la ecuación diferencial de un sistema de primer orden viene dada por la expresión (5.1), y puesto que la transformada de Laplace de una señal escalón es: U (s) = 1 s se tiene que la de la señal de salida será, Y (s) = K A B = + s(1 + τ s) s 1 + τs Las constantes A y B resultan ser: ¯ K ¯¯ A= ¯ =K (1 + τ s) ¯s=0 ¯ y K¯ B = ¯¯ = −Kτ s s=− τ1 con lo que se tiene Y (s), cuya antitransformada de Laplace resulta ser, y(t) = L−1 [Y (s)] = K(1 − e−t/τ ) Sistemas dinámicos lineales de primer orden 64 es decir la expresión (5.1) En la figura 5.7 se representa la respuesta a una entrada en escalón de un sistema de primer orden de ganancia K y constante de tiempo τ . 1.0 0.9 0.8 0.7 y(t)/K 0.637 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.4 0.8 1.2 1.6 2.0 1/τ 2.4 2.8 3.2 3.6 4.0 Figura 5.7: Respuesta a un escalón unitario de un sistema de primer orden de ganancia K y de constante de tiempo τ . La constante de tiempo τ caracteriza la velocidad de respuesta del sistema, es decir, la duración del régimen transitorio. Ello se pone de evidencia por las dos consideraciones siguientes. 1. Existe una relación entre la constante de tiempo y la tangente y(t) en el origen. En efecto de la expresión (5.10) se tiene, dy K −t = e τ dt τ (5.11) dy K (0) = dt τ (5.12) haciendo t = 0 se tiene, lo cual puede interpretarse tal como se hace en la figura 5.8. Recuérdese que se ha hecho u = 1. Sistemas dinámicos lineales de primer orden 65 tgα = K K τ α τ Figura 5.8: Relación constante amplificación y tang. 2. haciendo t = τ se tiene que la constante de tiempo es el tiempo al cabo del cual la señal de respuesta alcanza la fracción 1− 1 2 ≈ 0.632 ≈ e 3 del valor final (figura 5.9) K 0.64K τ Figura 5.9: Relación constante de tiempo y amplificación Sistemas dinámicos lineales de primer orden 66 Observando la figura 5.7 se tiene que la respuesta de un sistema de primer orden en una entrada en escalón alcanza su valor final con un error menor del 5 % para un tiempo ≈ 3τ . En la figura 5.10 se representan las señales de respuesta a una entrada en escalón para distintos sistemas lineales con diferentes constantes de tiempo. τ2 τ3 τ3>τ2 Figura 5.10: Diferentes constantes de tiempo En la práctica se presenta el problema de determinar el modelo matemático de un sistema a partir del conocimiento de la respuesta del sistema a una entrada en escalón. En el caso de un sistema de primer orden, la determinación de los parámetros K y τ que aparecen en la ecuación diferencial (5.9), resulta extremadamente sencilla a partir de la respuesta del sistema a una entrada en escalón. En efecto, de acuerdo con la figura 5.7 el valor de la constante de tiempo τ se determina midiendo la abscisa correspondiente a la ordenada que sea el 63,2% del valor alcanzado por el sistema en régimen estacionario. La constante estática K es sencillamente el cociente entre el valor alcanzado por la respuesta en régimen estacionario y la amplitud de la entrada en escalón. Señal de entrada en rampa Supóngase una señal de entrada en rampa, es decir, una señal de entrada cuyos valores crecen lineal con el tiempo, u = ωt, tal como la que se representa en la figura 5.11. Se supondrá además, para simplificar, que ξ = 0. De acuerdo con la expresión (5.7) se tiene que, y(t) = wbe −at Z t o e aτ wb τ dτ = a à 1 e−at t− + a a ! (5.13) esta última expresión introduciendo la ganancia K y la constante de tiempo Sistemas dinámicos lineales de primer orden 67 τ , puede escribirse, t y(t) = wK(t − τ + τ e− τ ) (5.14) Este mismo resultado se puede obtener con ayuda de la transformada de Laplace. En efecto, para el caso de una entrada en rampa, se tiene u u = ωt t Figura 5.11: Entrada en rampa U (s) = con lo que , Y (s) = ω s2 ωK A1 A2 B = 2 + + + τ s) s s 1 + τs s2 (1 siendo, " A1 1 ωK = 0! (1 + 2s) " A2 # = wK s=0 ωK 1 d = 1! ds (1 + τ s) · B = ωK s2 # = −τ ωK s=0 ¸ s=− τ1 = ωKτ 2 de donde se desprende que y(t) tendrá la forma (5.14). En la expresión (5.14) se observa que el tercer término del paréntesis del segundo miembro tiende a cero cuando el tiempo tiende a infinito. Este término Sistemas dinámicos lineales de primer orden 68 constituye el régimen transitorio de la respuesta total. Una vez desaparecido el régimen transitorio, la respuesta en régimen permanente será, yrp (t) = ωK(t − τ ) (5.15) Para interpretar esta respuesta cabe distinguir dos casos: 1. K = 1. En tal caso se tiene que la respuesta viene dada por yrp = ω(t − τ ) (5.16) es decir, en el instante t la salida es igual a la entrada en el instante t − τ . La salida se encuentra retardada τ segundos con respecto a la entrada. En la figura 5.12 se representa la expresión (5.14) para K = 1. Se observa en esta figura cómo la señal de salida se encuentra retardada con respecto a la señal de entrada. El error en régimen permanente es igual a ωτ . Este error recibe la denominación de error de arrastre. u(t) y(t) ωτ u(t1 − τ ) y(t1 ) τ Figura 5.12: Respuesta a rampa. Respecto al régimen transitorio se tiene que para t = τ y(τ ) = Kωτ Kωτ ≈ e 3 (5.17) es decir, que el sistema ha respondido sólo en un tercio del valor alcanzado por la señal de entrada. En la figura 5.12 se interpreta este resultado. Sistemas dinámicos lineales de primer orden 69 La consideración del error de arrastre en la respuesta de un sistema de primer orden, es sumamente importante en ciertos casos como por ejemplo cuando el sistema en cuestión es un aparato de medida. Supóngase un globo en el que se encuentra un termómetro de mercurio. Se supone que la temperatura varı́a linealmente con la altura; se tiene entonces que el termómetro se encuentra sometido a una señal de entrada en rampa. Las lecturas del termómetro, según las consideraciones anteriores, presentan un error de arrastre. 2. K 6= 1. La salida y entrada divergen, por lo que el error de arrastre se hace infinito. 5.2.4 Respuesta armónica Si la señal de entrada es sinusoidal, es decir, u = senωt y suponiendo ξ = 0, se tiene que la respuesta del sistema, de acuerdo con la expresión (5.7), viene dada por " −at y(t) = e # wb b ξ+ 2 (a senw t − w coswt) − 2 2 a +w a + w2 (5.18) En la figura 5.13 se muestra una forma tı́pica de esta respuesta. Figura 5.13: Respuesta armónica. Para t → ∞, es decir un tiempo suficientemente grande, el primer término del segundo miembro se anula, por lo que la respuesta en régimen permanente resulta ser Sistemas dinámicos lineales de primer orden yrp (t) = a2 70 b (a senwt − w coswt) + w2 (5.19) Esta expresión se puede escribir de una forma más sencilla haciendo, cosϕ = √ a2 a + w2 senϕ = − √ w + w2 a2 (5.20) con lo que 5.19 puede escribirse, y(t) = Y sen(wt + ϕ) (5.21) tagϕ = −w/a = −wτ b K Y = √ 2 =√ 2 a +w 1 + τ 2 w2 (5.22) siendo, (5.23) La expresión (5.21) puede interpretarse diciendo que la respuesta de un sistema lineal a una señal sinusoidal, es otra señal sinusoidal de la misma frecuencia cuya amplitud ha variado en una relación Y , y que ha adquirido un desfase ϕ. Tanto la relación de amplitudes Y como el desfase ϕ, son función de la frecuencia angular w de la entrada. En la figura 5.14 se representa Y (ω) y ϕ(ω). Otra forma de representar gráficamente la respuesta en frecuencia de un sistema lineal es por medio de un diagrama polar en el que se representa vectores cuyos módulos y argumentos son respectivamente Y (ω) y ϕ(ω). Haciendo variar ω se obtiene un lugar geométrico, en el que ω es el parámetro. En la figura 5.15 se representa la respuesta en frecuencia correspondiente a un sistema lineal de primer orden. El lugar está graduado en frecuencias reducidas (normalizadas) u = ωϕ. Existen otras formas de representar gráficamente la respuesta en frecuencia de un sistema lineal que serán estudiadas más adelante. Filtrado con un sistema lineal. Si la señal de entrada a un sistema lineal es una señal arbitraria, la reproducción de la misma a la salida será muy fiel si la constante de tiempo del sistema es suficientemente pequeña. Es decir, si la constante de tiempo del sistema es Relacion de Amplitudes 0.9 0.8 Sistemas dinámicos lineales de primer orden 71 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.2 0.4 0.6 0.8 1.0 ω 1.2 1.4 1.6 1.8 2.0 0.2 0.4 0.6 0.8 1.0 ω 1.2 1.4 1.6 1.8 2.0 -10 Fase(grados) -30 -50 -70 -90 -110 -130 0.0 Figura 5.14: Amplitud y fase. ω=0 ω=∞ ϕ Y Figura 5.15: Respuesta en frecuencia. Sistemas dinámicos lineales de primer orden 72 menor que las más rápidas variaciones que se produzcan en esta señal de entrada. Lo que a su vez se puede interpretar en el dominio de la frecuencia diciendo que la constante de tiempo sea lo suficientemente pequeña como para que el ancho de banda sea lo suficientemente grande para permitir el paso de todos los armónicos de la señal de entrada, (recordar la figura 5.13). La figura 5.16 ilustra este hecho. τ pequeño a) τ grande b) Figura 5.16: Filtrados. Por el contrario si la constante de tiempo es grande, la respuesta del sistema es lenta, por lo que el sistema no puede seguir las variaciones rápidas de la señal de entrada resultando de ello que éstas desaparecen de la señal de salida. El sistema actúa como limando las asperezas de la señal de entrada. La figura 5.16 ilustra este hecho que recibe la denominación de filtrado de la señal de entrada. Se puede dar del mismo una interpretación en el dominio de la frecuencia similar a la dada más arriba para el caso de una constante de tiempo pequeña. De hecho, el concepto de filtrado de una señal es enormemente importante y lo único que se ha hecho hasta aquı́ ha sido introducirlo, ilustrando una forma de comportamiento de los sistemas dinámicos lineales de primer orden. 5.3 Ejemplos de sistemas de primer orden • Circuito eléctrico LR. El circuito representado en la figura 5.17 está regido por una ecuación diferencial de la forma L dI E +I = R dt R Sistemas dinámicos lineales de primer orden 73 considerando la señal de entrada, la tensión aplicada al sistema y la señal de salida a la intensidad que recorre el circuito, se tiene un sistema de primer orden. La ganancia estática es 1/R y la constante de tiempo es L/R. L R E Figura 5.17: Circuito RL. • Circuito eléctrico RC. El circuito de la figura 5.18 es un circuito clásico de carga de un condensador a través de una resistencia, siendo la ecuación diferencial que rige el proceso la siguiente: RC dq + q = CE dt La ganancia estática es C, puesto que Q/E es, en régimen permanente, la capacidad del condensador. La constante de tiempo es RC. R C E q Figura 5.18: Circuito RC. • Termómetro de mercurio. E(t) R, C q(t) Sistemas dinámicos lineales de primer orden 74 Un termómetro puede considerarse como un sistema en el que la señal de entrada u es la temperatura del medio en el que se encuentra inmerso y la señal de salida y, es la temperatura indicada por el mismo. Si se denota por Q la cantidad de calor intercambiada entre el medio y el termómetro, y por C la capacidad calorı́fica de la ampolla, se tendrá que dy dQ =C dt dt Por otra parte el flujo de calorı́as que entra en el mercurio se aporta fundamentalmente por conducción. De acuerdo con la ley de Newton es aproximadamente proporcional a la diferencia de temperatura entre el medio y el mercurio. dQ = k(u − y) dt Se concluye de las dos ecuaciones anteriores que un termómetro de mercurio puede considerarse como un sistema lineal de primer orden. Obsérvese que, como corresponde a un sistema de medición, la ganancia estática es k = 1. Temperatura indicada (y) Temperatura (u) Figura 5.19: Termómetro de mercurio. • Reacción quı́mica. Supóngase la descomposición espontánea de una molécula A en dos moléculas B y C: A → B+C la cual se efectúa de manera que la velocidad de reacción es proporcional al número de moléculas A presentes. Sistemas dinámicos lineales de primer orden 75 Si se denota por y la concentración de la sustancia A, se tiene − dy = ky dt es decir, 1 dy +y =0 k dt Se trata de un sistema lineal de primer orden autónomo de constante de tiempo 1/k. El parámetro k se denomina por los quı́micos constante de velocidad de la reacción, y en la práctica presenta una gran dependencia de la temperatura. • Dinamómetro. Se trata de medir la fuerza u por el desplazamiento y que imprime a un dinamómetro de coeficiente de elasticidad k y de coeficiente de viscosidad α, figura 5.20. α u k Figura 5.20: Dinamómetro Según las leyes de la Mecánica se tiene u = ky + α dy dt Por lo tanto un dinamómetro es un sistema de medida lineal de primer orden. Sistemas dinámicos lineales de primer orden 76 • Mezcla de dos fluidos. Supóngase un recipiente (figura 5.21) en el que se contiene una masa m del lı́quido que contiene una fracción Cr de un componente A, y supóngase que el recipiente se alimenta por un caudal Q de un lı́quido en el que la fracción de componente A es Ce . Se supone que la mezcla es instantánea, es decir, que la composición es la misma en todo instante en todo el recipiente. Se supone además que el flujo de entrada es igual al de salida, con lo que la masa contenida en el recipiente es constante. Es fácil ver que en estas condiciones se tiene, Ce Q dt = Cr Q dt + M dCr es decir, M dCr + Cr = Ce Q dt Ce M Cr Cr Figura 5.21: Mezcla de Fluidos. Se trata por lo tanto de un sistema de primer orden. • Motor eléctrico de corriente continua. Supóngase el motor eléctrico de corriente continua cuyo diagrama se ha representado en la figura 5.22. El par motor supuesto el flujo φ constante, viene dado por Sistemas dinámicos lineales de primer orden 77 P = kφ I Por otra parte la intensidad I de inducido y la tensión que alimenta al inducido u (señal de entrada), están relacionadas por la siguiente ecuación. u = RI + L dI + Kω dt De acuerdo con las leyes de la Mecánica el par motor P y la velocidad de salida del motor ω, están ligados por la ecuación, P =J dω + Bω dt L R Φ ω J B Figura 5.22: Motor eléctrico. De las tres ecuaciones anteriores se obtiene, J dω φ φ + (B + kK )ω = k u dt R R es decir, considerando como señal de entrada la tensión aplicada al inducido y como señal de salida la velocidad de giro del motor, se tiene un sistema de primer orden. 5.4 El sistema de primer orden como integrador En los apartados anteriores se ha considerado un sistema lineal de primer orden como el regido por una ecuación diferencial de la forma 5.1. Esta misma ecuación puede escribirse también de la forma siguiente: Sistemas dinámicos lineales de primer orden y(t) = y(0) + Z t 0 78 (bu − ay)dt (5.24) La consideración de esta segunda forma de escribir la ecuación que rige el comportamiento de un sistema lineal de primer orden es sumamente interesante, por cuanto que su sentido fı́sico es más claro. La acción del sistema puede descomponerse en dos partes: • Una parte estática (sin memoria) en la que se determina f = bu − ay (5.25) • Los valores de f determinados para cada instante de tiempo t se van acumulando (integrando) dando con ello lugar a la variable de salida y. En la figura 5.23 se tiene representado un esquema en el que se distinguen la parte estática del integrador. La parte estática puede ser no lineal, sin que por ello se alteren las anteriores consideraciones. Esta manera de interpretar el funcionamiento de un sistema lineal de primer orden, es más intuitiva desde un punto de vista fı́sico por cuanto que en la naturaleza es más fácil interpretar los procesos en términos de integraciones que de diferenciaciones. De hecho la integración (acumulación) es un proceso normal del que es muy sencillo encontrar ejemplos, mientras que la diferenciación es enormemente más artificiosa. No debe olvidarse sin embargo, que la resolución de una ecuación diferencial es más simple que la de una ecuación integral, y es por ello que en cualquier caso el planteo por ecuaciones diferenciales es más frecuente que el que aquı́ se presenta. u K + 1 τS - Figura 5.23: Integrador. y Tema 6 Sistemas dinámicos lineales de segundo orden y de orden y superior 6.1 Definición Se define un sistema lineal de segundo orden como el regido por una ecuación diferencial de la forma, d2 y dy du + a1 + a2 y = b0 + b1 u 2 dt dt dt (6.1) En lo que sigue se considerará únicamente el caso en que b0 = 0 y b1 = β, dejándose para más adelante el estudio del caso general. El problema del estudio de un sistema de segundo orden queda reducido a la resolución de la anterior ecuación diferencial cuando la señal de entrada u(t) se particulariza en una cierta función del tiempo. Para que la solución esté completamente determinada se requiere el conocimiento de los valores iniciales de y(t) y de dy/dt. En esta sección se puede hacer un desarrollo completamente paralelo al realizado en la sección anterior para los sistemas de primer orden. La complejidad de tratamiento algebraico que esto requiere es grande, y es por ello por lo que se va a estudiar sencillamente los casos simplificados que ofrecen mayor interés práctico. En este sentido, y como primera hipótesis simplificadora, se va a suponer 79 Sistemas dinámicos lineales de segundo orden y de orden y superior 80 siempre que se trabaja con unas condiciones iniciales nulas. La ecuación diferencial de un sistema de segundo orden que se va a considerar aquı́ es, d2 y dy + a1 + a2 y = β u (6.2) 2 dt dt La ecuación caracterı́stica de un sistema de segundo orden se define como: r2 + a1 r + a2 = 0 (6.3) la cual se puede escribir también, en el supuesto de que sus raices sean −p1 y −p2 , de la forma siguiente, (r + p1 ) (r + p2 ) = 0 (6.4) Otra forma frecuente de escribir la ecuación diferencial de un sistema de segundo orden es la siguiente, d2 y dy + 2 δ ω + ωn2 y = ωn2 k u(t) n dt2 dt (6.5) Esta forma es especialmente útil cuando se trata con sistemas cuyas raices de la ecuación caracterı́stica son complejas. Los parámetros que intervienen en esta forma reciben una denominación especial. • El parámetro k recibe la denominación de ganancia estática, y es una constante que carece de dimensiones. • El parámetro ωn recibe el nombre de frecuencia propia no amortiguada y se expresa en radianes por segundo. • El parámetro δ recibe el nombre de factor de amortiguamiento, y es un número sin dimensiones. Las relaciones que ligan a los parámetros de la forma (6.2) con los de la forma (6.5) son las siguientes. Sistemas dinámicos lineales de segundo orden y de orden y superior s ωn = 1 a2 k= β ωn2 δ= a1 2ωn 81 (6.6) Los parámetros k, ωn y δ son, normalmente, positivos. Una ecuación diferencial de orden n puede descomponerse en n ecuaciones diferenciales de primer orden. Este es un resultado conocido que por otra parte será estudiado con detalle en un capı́tulo posterior. Aquı́ se va a estudiar el caso n = 2; introduciendo las variables adicionales x1 y x2 , y siendo p1 y p2 las raices de la ecuación caracterı́stica, es fácil ver que una ecuación diferencial de segundo orden del tipo 6.2 se puede escribir, ẋ1 = −p1 x1 + u ẋ2 = −p2 x2 + u y = c1 x1 + c2 x2 siendo c1 = β p2 + p1 y c2 = (6.7) (6.8) β p1 − p2 (6.9) Para comprobar este resultado basta proceder por sustitución, lo que se invita a hacer al lector. Más adelante se estudiará el procedimiento general que permite este tipo de descomposiciones. Empleando el cálculo matricial, las expresiones 6.7, 6.8 y 6.9 pueden escribirse de la forma siguiente, ẋ = Ax + Bu y = Cx (6.10) en donde " A= −p1 0 0 −p2 # " B= 1 1 # C = [c1 c2 ] (6.11) La ecuación diferencial de la expresión 6.10 es de la misma forma de la 5.1, con la diferencia de que mientras allı́ se trataba con escalares aquı́ se trata con vectores y matrices. Por lo tanto, el desarrollo realizado al estudiar los sistemas de primer orden, puede generalizarse al de los sistemas de segundo orden, sin más Sistemas dinámicos lineales de segundo orden y de orden y superior 82 observación que tener presente que la diferencia básica que existe entre el álgebra de los números reales y la de las matrices, es que esta última no es conmutativa. La respuesta de un sistema de segundo orden ante una señal de entrada u(t), a partir del estado x(t), vendrá dada por, · y(t) = CeAt ξ + Z t 0 ¸ e−Aζ B u(ζ) dζ (6.12) En esta expresión aparece la exponencial eAt , cuyo significado será discutido más adelante. A partir de la expresión 6.12 se puede estudiar la respuesta de un sistema de segundo orden ante distintos tipos de señales de entrada, tal como se hizo anteriormente para los sistemas de primer orden. En lo que sigue se estudiará exclusivamente la respuesta de un sistema de segundo orden a una entrada en escalón, por ser la que más interés tiene desde un punto de vista práctico. La respuesta para otro tipo de entradas, como la entrada en rampa o la entrada sinusoidal, pueden ser obtenidas de forma análoga a como se obtiene la respuesta a una entrada en escalón. 6.1.1 Respuesta de un sistema de segundo orden a una entrada en escalón Se supondrá que las condiciones iniciales son nulas, ξ = 0. A partir de la expresión 6.12 se tendrá, Z t y(t) = C eAt 0 e−Aζ B u(ζ)dζ (6.13) La entrada en escalón es constante desde t = 0 hasta infinito. Por lo tanto se tendrá que, u(ζ) = u = const (6.14) A partir del concepto de función de una matriz diagonal se puede escribir, " e −At = ep1 t 0 0 ep2 t # (6.15) Sistemas dinámicos lineales de segundo orden y de orden y superior 83 con lo que se tiene, Z t 0 " e −Aζ B u(ζ) dζ = − pu1 (1 − ep1 t ) − pu2 (1 − ep2 t ) # (6.16) Recordando la expresión 6.8 se tiene, y(t) = C1 u u (1 − e−p1 t ) + C2 (1 − e−p2 t ) p1 p2 " (6.17) # βu βu y= (1 − e−p2 t ) (1 − e−p1 t ) + p1 (p2 − p1 ) (p1 − p2 )p2 Haciendo, sin pérdida de generalidad, u = 1 y tras una serie de manipulaciones algébricas, se puede escribir, y(t) = β β β − e−p1 t − e−p2 t p1 p2 (p2 − p1 )p1 p2 (p1 − p2 ) (6.18) Si se escribe la ecuación diferencial de segundo orden en la forma dada por la expresión 6.5 se tendrá que las raices de la ecuación caracterı́stica p1 y p2 vendrán dadas por: √ p1 = −δωn − ωn δ 2 − 1 √ p2 = −δωn + ωn δ 2 − 1 (6.19) Obsérvese que, p1 p2 = ωn2 β = ωn2 p2 − p1 = 2ωn √ δ2 − 1 (6.20) Este mismo resultado se puede alcanzar con mayor sencillez operativa empleando la transformada de Laplace. En efecto, teniendo en cuenta que la transformada de Laplace de una entrada en escalón es U (s) = 1/s, se tiene que, de acuerdo con la expresión 5.2, la transformada de Laplace de la salida y(t) resulta Y (s) = 1 s ωn2 s2 + 2δωn s + ωn2 Sistemas dinámicos lineales de segundo orden y de orden y superior 1 u(t) y(t) a) ωn t 1 u(t) y(t) b) ωn t 1.38 y(t) 1 u(t) c) ωn t 3.3 Figura 6.1: Respuesta sistema de segundo orden 84 Sistemas dinámicos lineales de segundo orden y de orden y superior 85 cuya antitransformada de Laplace resulta ser, e−δωn t y(t) = 1 − √ sen (ω0 t + ϕ) 1 − δ2 siendo, ω0 = ωn √ √ 1− δ2 ϕ= t−1 g 1 − δ2 δ factor de amortiguamiento δ En el estudio de la respuesta a una señal de entrada en escalón de un sistema de segundo orden pueden distinguirse tres casos según que el factor de amortiguamiento δ sea mayor, menor o igual que uno. 1. Factor de amortiguamiento mayor que la unidad A partir de la expresión 6.18 teniendo en cuenta las expresiones 6.20 se tiene que, √ h i−1 √ 2 y(t) = 1 + 2(δ 2 − δ δ 2 − 1 − 1) e−(δ− δ −1)ωn t √ h i−1 √ 2 + 2(δ 2 + δ δ 2 − 1 − 1) (6.21) e−(δ+ δ −1)ωn t Esta expresión suministra la forma analı́tica de la respuesta de un sistema de segundo orden, con factor de amortiguamiento mayor que la unidad, a una entrada en escalón. En la figura 6.1 se representa la forma general de esta respuesta; desde un punto de vista cualitativo la caracterı́stica esencial de esta respuesta es su carácter de lentitud en alcanzar el valor y = 1. 2. Factor de amortiguamiento menor que la unidad Si el factor de amortiguamiento δ es menor que la unidad, es decir, δ < 1, entonces sucede que las raices p1 y p2 son complejas. En la figura 6.2 se representa la situación de las raices p1 y p2 en el plano complejo. La consideración del ángulo α, tal como se ha indicado en la figura 6.2 permite escribir, √ (6.22) cosα = −δ senα = 1 − δ 2 Escribiendo las expresiones 6.19 y 6.20, empleando en las mismas el ángulo α, se tiene: p1 = ωn e−jα p2 p1 = 2ωn jsenα (6.23) Sistemas dinámicos lineales de segundo orden y de orden y superior 86 Im √ jωn 1 − δ 2 ωn α −δωn Re √ −jωn 1 − δ 2 Figura 6.2: Raices complejas La expresión 6.18 se puede escribir, teniendo en cuenta la expresión 6.23 de la forma siguiente, e−jα −(δωn −jωn √1−δ2 )t e 2jsenα ejα −(δωn −jωn √1−δ2 ) t − e 2jsenα y(t) = 1 + (6.24) Esta expresión puede escribirse en forma más compacta como sigue: √ e−δωn t y(t) = 1 + √ sen(ω 1 − δ 2 t − α) n 2 1−δ (6.25) Esta expresión suministra la forma analı́tica en la respuesta de un sistema de segundo orden, con factor de amortiguamiento menor que la unidad, a una respuesta en escalón. La forma general de la respuesta se tiene en la figura 6.1, en la que se observa que el comportamiento de un sistema de segundo orden con factor de amortiguamiento menor que la unidad está caracterizado por la presencia de oscilaciones. Esta forma de respuesta, que se caracteriza por una sinusoide exponencialmente amortiguada, se dice que es subamortiguada. Sistemas dinámicos lineales de segundo orden y de orden y superior 87 El valor del primer pico de sobreoscilación, y el instante de tiempo en que se produce, son dos tipos de caracterı́sticas muy interesantes para definir el comportamiento de un sistema de segundo orden. De la observación de la expresión 6.25 se desprende que la frecuencia de oscilación del sistema viene dada por, ωp = ωn √ 1 − δ2 (6.26) La frecuencia ωp se denomina frecuencia propia del sistema. El periódo de oscilación del sistema viene dado por Tp = 2π √ ωn 1 − δ 2 (6.27) Instante de tiempo al cual se produce el primer pico de oscilación del sistema, puede obtenerse, de una forma analı́tica, derivando y(t) con relación al tiempo, e igualando esta derivada a cero. En efecto, se tiene: √ √ dy(t) δωn e−δωn t 2 t−α)+ω e−δωn t cos(ω =− √ sen(ω 1 − δ 1 − δ 2 t−α) = 0 n n n dt 1 − δ2 (6.28) Esta derivada se anulará cuando, ωn √ 1 − δ 2 t = 0, π, 2π, .. por lo tanto, el primer pico de oscilación se producirá cuando , tp = π √ ωn 1 − δ 2 (6.29) El tiempo tp recibe la denominación de tiempo de pico. Llevando el valor de tp a la expresión 6.25 se tiene, √ 2 e−δπ/ 1−δ sen(π − α) ymax (t) = 1 + √ 1 − δ2 (6.30) la cual, habida cuenta de que, sen(π − α) = senα y puede escribirse, senα = ³ ymax (t) = 1 + e √ 1 − δ2 (6.31) ´ − √ δπ 1−δ 2 (6.32) Sistemas dinámicos lineales de segundo orden y de orden y superior 88 Normalmente se expresa la amplitud de la primera oscilación en % del valor del escalón de entrada. Genéricamente se suele denominar sobreoscilación a este tanto por ciento. Por lo tanto se puede escribir: ³ SO = 100 e ´ − √ δπ (6.33) 1−δ 2 En la figura 6.3 se representa la sobreoscilación, en función del factor de amortiguamiento, para sistemas de segundo orden. Es interesante considerar el problema de determinar los parámetros a1 , a2 y β de la ecuación 6.2 a partir del conocimiento de la respuesta del sistema a una entrada en escalón especialmente en el caso de un sistema subamortiguado. 3. Factor de amortiguamiento igual a la unidad En el caso de que el factor de amortiguamiento sea igual a la unidad, es decir δ = 1, se tendrá que las dos raices de la ecuación caracterı́stica serán iguales entre sı́, es decir, p1 = p2 es una raiz doble de la ecuación caracterı́stica. En tal caso, las constantes c1 y c2 que aparecen en la expresión 6.8 no están definidas, como se concluye observando las expresiones 6.9. Es decir, que la anterior discusión sólo era válida cuando las dos raices p1 y p2 eran distintas. Para poder aplicar el anterior razonamiento al caso de que las dos raices sean iguales, se procede a suponer, en principio, que éstas son diferentes entre sı́ en una pequeña cantidad ε, que posteriormente se hace tender a cero. Supóngase, por lo tanto que las dos raices son: p1 = p p2 = p + ε Llevando estos dos valores a los términos segundo y tercero, del segundo miembro, de la expresión 6.18 se tiene, b β pt e − e(p+ε)t = βept εp ε(p + ε) " 1 eεt − εp (p + ε) # (6.34) Interesa determinar el lı́mite de esta expresión cuando ε tiende a cero. Para ello se procede, por ejemplo, a desarrollar en serie eεt y tras una serie de sencillas manipulaciones se obtiene, " lim ε→0 # eεt 1 − tp 1 − = εp ε(p + ε) p2 (6.35) Sistemas dinámicos lineales de segundo orden y de orden y superior 89 Con este resultado es inmediato obtener que la respuesta a una entrada en escalón del sistema con factor de amortiguamiento igual a la unidad, viene dada por, y(t) = 1 − ωn te−ωn t − e−ωn t (6.36) Esta respuesta se ha representado en la figura 6.1. Esta respuesta se dice que está crı́ticamente amortiguada. 100 Sobreoscilacion 80 60 40 20 0 0 0.1 0.2 0.3 0.4 0.5 δ 0.6 0.7 0.8 0.9 1.0 Figura 6.3: Sobreoscilación en función del factor de amortiguamiento En la figura 6.4 se representan las respuestas a una entrada en escalón para distintos valores del factor amortiguamiento. Se observa como factores de amortiguamiento inferiores a la unidad, se tiene un comportamiento oscilatorio, el cual es más oscilante cuanto menor es el valor de δ. Por otra parte, para valores del amortiguamiento mayor que la unidad, se tienen respuestas sin sobreoscilación, pero que son considerablemente más lentas. Esto último hace que las aplicaciones prácticas se tienda siempre a tener respuestas amortiguadas, puesto que son más rápidas, aunque siempre manteniendo oscilaciones dentro de unos lı́mites razonables. Sistemas dinámicos lineales de segundo orden y de orden y superior 90 2.0 1.8 δ=0.1 1.6 1.4 y(t) 1.2 0.5 0.7 1.0 1.0 1.2 1.5 2.0 0.8 0.6 5.0 0.4 0.2 0.0 0.0 1.2 2.4 3.6 4.8 6.0 ωnt 7.2 8.4 9.6 10.8 12.0 Figura 6.4: Respuesta ante escalón en función del factor de amortiguamiento Sistemas dinámicos lineales de segundo orden y de orden y superior 6.1.2 91 Respuesta en frecuencia de un sistema de segundo orden Si se aplica una señal sinusoidal a un sistema de segundo orden, es decir, si u(t) = Vo senωt, la determinación de la señal de salida y(t) se puede hacer procediendo en forma similar a como se hizo en el apartado anterior. Aquı́ sin embargo se procederá exclusivamente a estudiar el régimen transitorio que resulta de la aplicación de la señal sinusoidal. Es decir, se va a determinar exclusivamente la solución particular de la completa cuando en la expresión 6.2 se hace u = Vo senωt. Se tiene que y(t) será de la forma, y(t) = Yo sen(ωt + ϕ) (6.37) siendo Vo Yo = q (a2 − ω)2 + a21 ω 2 h i ϕ = tg−1 −a1 /(a2 − ω 2 ) (6.38) (6.39) Este resultado se puede comprobar por sustitución. Se ha tomado como señal de entrada una señal sinusoidal de amplitud unitaria para que la amplitud de la señal de salida suministrase directamente la relación de amplitudes entre las señales de entrada y salida. En las figuras 6.5 y 6.6 se representan las relaciones de amplitudes y los desfases correspondientes a distintos valores del factor de amortiguamiento. Se observa como la forma de la respuesta en frecuencia del sistema de segundo orden depende del factor de amortiguamiento. Cuanto menor es éste, mayor es el pico de resonancia que presenta la respuesta en frecuencia. El efecto de resonancia indica que para determinada frecuencia la amplitud de la señal sinusoidal correspondiente, en el espectro de frecuencias, sufre una amplificación al atravesar el sistema. El valor máximo de la amplitud de la respuesta en frecuencia, recibe la denominación de factor de resonancia. Es fácil demostrar que el factor de resonancia viene dado por, Q= 2δ √ 1 1 − δ2 (6.40) Sistemas dinámicos lineales de segundo orden y de orden y superior 92 La frecuencia a la que se produce este máximo, que recibe la denominación de frecuencia de resonancia, viene dada por, ωR = ωn √ 1 − 2δ 2 (6.41) Se observa que cuando el factor de amortiguamiento es nulo la frecuencia de resonancia coincide con la frecuencia propia no amortiguada del sistema. De ahı́ la denominación de ésta última. 5 δ=0.1 RELACION DE AMPLITUDES 4 3 0.2 2 0.3 0.4 0.5 1 5.0 0 0.0 2.0 0.5 1.0 0.707 1.0 1.5 PULSACION ω/ωn 2.0 2.5 Figura 6.5: Amplitudes correspondientes a distintos factores de amortiguamiento. 6.1.3 Ecuaciones diferenciales de orden n Una vez estudiado los sistemas de primero y segundo orden, conviene recordar los resultados correspondientes a sistemas de orden n. Supóngase que el modelo Sistemas dinámicos lineales de segundo orden y de orden y superior 93 0 0. 2 0.1 0. 0.3 5 0. 70 7 0.4 1. 0 2. 0 -30 -60 DESFASE δ= 5. 0 δ=5. 0 -90 2.0 -120 -150 -180 0.0 0.1 0.5 1.0 0.7 1.0 07 0.5 0 0. 0.2 .3 4 1.5 2.0 2.5 PULSACION ω/ωn 3.0 3.5 Figura 6.6: Desfases correspondientes a distintos factores de amortiguamiento. 4.0 Sistemas dinámicos lineales de segundo orden y de orden y superior 94 matemático del sistema que se está considerando tiene la forma, dn y dn−1 y dy dm u + a + · · · + a + a y = b + · · · + bm u 1 n−1 n o dtn dtn−1 dt dtm (6.42) en donde, por razones de realizabilidad fı́sica que se considerarán más adelante, n > m. Si las condiciones iniciales son nulas, su transformada de Laplace es Y (s)(sn + a1 sn−1 + · · · + an−1 s + an ) = U (s) (bo sm + b1 sm−1 + · · · + bm ) (6.43) por lo tanto, la transformada de Laplace de la salida del sistema y(t), correspondiente a una entrada u(t), cuya transformada es U (t) = L [u(t)] resulta ser bo sm + b1 sm−1 + · · · + bm Y (s) = n U (s) s + a1 sn−1 + · · · + an−1 s + an (6.44) Puesto que U (s) se supone conocido, el problema es el de determinar Y (s), problema que se reduce al cálculo de la antitransformada de Y (s). Para las funciones normalmente empleadas en Automática U (s) es el cociente de dos polinomios en s, por lo que Y (s) será a su vez el cociente de dos polinomios, es decir, Y (s) = Q(s) Q(s) = P (s) (s − p1 )n1 (s − p2 )n2 . . . (s − pq )np (6.45) El polinomio del denominador U (s) se ha factorizado, siendo pi las raices de la ecuación P (s) = 0, que recibe la denominación de polos de Y (s). Para mayor generalidad, se ha supuesto que cada uno de los polos tiene una multiplicidad ni aunque normalmente ni = 1, para todo i. El cociente de polinomios Y (s) se puede descomponer en fracciones simples, escribiéndose, q X ni X cik Y (s) = (6.46) k i=1 k=1 (s − pi ) en donde los coeficientes cik reciben la denominación de residuos de Y (s) en el polo pi . Los residuos se calculan con ayuda de la expresión Sistemas dinámicos lineales de segundo orden y de orden y superior 1 cik = (ni − k)! à !¯ i ¯ dni−k h ¯ ni (s − pi ) Y (s) ¯¯ ni−k ds s=pi 95 (6.47) Si todos los polos son simples, es decir, si todos los valores de ni son igual a la unidad, entonces la expresión 6.46 se escribe Y (s) = q X i=1 ci1 s − pi (6.48) y los residuos se determinan por la expresión cik = ci1 = (s − pi ) Y (s) |s=pi (6.49) expresiones que no son sino particularizaciones para ni = 1 de las correspondientes expresiones 6.46 y 6.47. En el caso de polos simples, los residuos pueden determinarse de forma gráfica sobre el plano complejo. Para ello, en primer lugar, considérese que Y (s) puede escribirse Y (s) = k Πm i=1 (s − zi ) n Πi−1 (s − pi ) (6.50) en donde se ha factorizado también el polinomio del numerador. Por zi se denotan las raices de la ecuación P (s) = 0 y estas raices se denominan ceros del sistema. Puesto que Y (s) es, en general, una función compleja, se puede escribir, Y (s) =| Y | ejφ =| Y | 6 φ (6.51) en donde | Y (s) | es el módulo (valor absoluto) de Y (s) y φ es el argumento de Y (s), siendo # " Im{Y (s)} −1 φ = tan Re{Y (s)} La expresión compleja Y (s), de acuerdo con la expresión 5.8, puede escribirse Sistemas dinámicos lineales de segundo orden y de orden y superior k Qm Y (s) = Qni=1 i=1 m n X | s − zi | X 6 ( φiz − φip ) | s − pi | i=1 i=1 96 (6.52) es decir, puesto que Y (s), de acuerdo con la expresión 6.52, se determina como el cociente de dos expresiones complejas, cada una de las cuales es a su vez el producto de términos elementales de la forma (s − pi ) el módulo de Y (s) será el cociente de los productos de los respectivos módulos, mientras que el argumento será la diferencia de las sumas de los correspondientes argumentos. Interesa por tanto, representar en el plano complejo, los componentes elementales (s − zi ) y (s − pi ) con el fin de determinar sus módulos y argumentos para poder realizar con ellos las operaciones de multiplicación y adición a las que se acaba de aludir. En la figura 6.1.3 se muestra la representación gráfica del vector asociado a (s − zi ) y a (s − pi ). En el caso de (si − zi ) se tiene un vector que va desde el cero, zi al punto s, y análogamente para pi . Im s − Pi Pi s s s − Zi Zi Re Figura 6.7: Vectores asociados El residuo ci1 = ci , correspondiente al polo pi , resulta ser de acuerdo con la expresión 6.49, ¯ ci = (s − pi ) Y (s) |s=pi ¯ k(s − pi ) Πm i=1 (s − zi ) ¯ = ¯ ¯ Πni=1 (s − pi ) s=pi Sistemas dinámicos lineales de segundo orden y de orden y superior 97 cuya determinación gráfica puede hacerse siguiendo los siguientes pasos: 1. dibujar en el plano complejo los ceros, ci y los polos pi de Y (s). 2. dibujar los vectores desde todos los polos y ceros al polo pi en el que se está determinando el residuo. 3. determinar el módulo del residuo | ci | multiplicando los módulos de todos los vectores desde los ceros y dividiendolos por el producto de los módulos de todos los vectores desde los polos. 4. determinar el argumento del residuo 6 ci sumando los argumentos de los vectores desde los ceros y restándole la suma de los argumentos de los vectores desde los polos. Tema 7 Representación gráfica de la función de transferencia Es usual emplear representaciones gráficas de la función de transferencia. Ello es especialmente patente en los métodos clásicos, en los que se trabaja en el dominio de la frecuencia. Vamos a ver algunas de las formas de representación gráficas más usuales. 7.1 7.1.1 Diagramas más comunes Diagrama de polos y ceros: caso racional Sea la función de transferencia G(s) = K(s + c1 ) . . . (s + cm ) (s + p1 ) . . . (s + pn ) Se puede representar G(s) indicando la posición de sus ceros −ci y de sus polos −pi en el plano de la variable compleja s (fig. 7.1). 98 Representación gráfica de la función de transferencia 99 Im K Re Figura 7.1: Diagrama de polos y ceros 7.1.2 Diagrama de Nyquist La función de transferencia G(s) se representa mediante una curva en un diagrama polar. Esta curva se construye representando para cada valor de ω el módulo y el argumento de la expresión compleja que resulta de hacer s = jω en G(s). Como se sabe, el módulo y el argumento de G(jω) representan la amplificación (o atenuación) y el desfase de una señal sinusoidal que atraviese el sistema. En la figura 7.2 se representa un diagrama de esta naturaleza. Conviene observar que ω varı́a de 0 a ∞. Im ω=0 ω=∞ Re ω = 100 ω=1 ω = 10 Figura 7.2: Diagrama de Nyquist El diagrama de Nyquist es por tanto una curva parametrizada en ω que, para cada punto (es decir, para cada frecuencia), da el módulo y el argumento de la función de transferencia. Representación gráfica de la función de transferencia 7.1.3 100 Diagrama logarı́tmico o de Bode En este caso, la función de transferencia G(s) se representa mediante el conjunto de las dos curvas siguientes (fig. 7.3): log |G(jω)| log ω Arg G(jω) log ω o -180 Figura 7.3: Diagrama logarı́tmico • Curva de amplitud: log |G(s)| en función de log ω; • Curva de fase: arg G(s) en función de log ω. El empleo de logaritmos para representar los módulos permite facilitar la combinación de funciones de transferencia en serie, ya que en tal caso el producto de los módulos se convierte en la suma de sus logaritmos. Conviene recordar que la medida logarı́tmica de la relación entre dos señales A se expresa en • decibelios (dB), 20 log10 A • décadas log10 A • octavas log2 A Representación gráfica de la función de transferencia 101 Este conjunto de curvas, como veremos a continuación, es el más utilizado en la práctica para representar gráficamente la función de transferencia. 7.1.4 Diagrama de Black En este diagrama se representa la función de transferencia G(s) mediante una curva parametrizada en ω en un plano cuyos ejes de coordenadas están definidos por arg(G(jω)) y 20 log10 A (fig: 7.4). log|G(jω)| ω=1 o -180 o -90 0 Arg G(jω) Figura 7.4: Diagrama de Black 7.2 Diagrama de Bode Como se ha indicado más arriba, el diagrama de Bode consiste en la representación gráfica de la función de tranferencia mediante dos curvas, una relativa a la amplitud y la otra a la fase. En ambas curvas, en abcisas se representa el logaritmo de ω. En coordenadas se representa en un caso la relación de amplitudes en escala logarı́tmica, mientras que en el segundo la fase en escala natural (en grados o en radianes). La representación de una función de transferencia G(s) en el diagrama de Bode se hace mediante unas aproximaciones asintóticas que simplifican enorme- Representación gráfica de la función de transferencia 102 mente su trazado. Para estudiar estas aproximaciones consideremos la función de transferencia k(jω + c1 )(jω + c2 ) . . . G(jω) = (jω)N (jω + p1 )(jω + p2 ) . . . La denominada forma de Bode de esta función de tranferencia es la siguiente µ ¶µ ¶ jω jω Πci 1+ 1+ ... k Πpj c1 c2 ! à ! à G(jω) = jω jω 1+ ... (jω)N 1 + p1 p2 (7.1) en donde la denominada ganancia de Bode viene dada por kB = k Πci Πpj La expresión (7.1) es una expresión compleja en función de ω. Es decir, para cada valor de ω tomará un valor complejo y, por tanto, tendrá un módulo y un argumento. El módulo será tal que si tomamos su logaritmo se podrá escribir ¯µ ¶¯ ¯ jω ¯¯ ¯ 20 log |G(jω)| = 20 log |kB | + 20 log ¯ 1 + ¯ + ... c 1 ¯ ¯ ¯ 1 ¯ 1 ¯ ¯ !¯ + . . . +20 log ¯ ¯ + 20 log ¯¯Ã N ¯ (jω) ¯ jω ¯¯ ¯ ¯ 1+ ¯ ¯ p1 ¯ (7.2) mientras que el argumento será µ 20 arg G(jω) = 20 arg kB + 20 arg 1 + +20 arg ¶ jω + ... c1 1 1 ! + ... + 20 arg à N (jω) jω 1+ p1 (7.3) Obsérvese que mediante la adopción de una escala logarı́tmica para el módulo se ha descompuesto aditivamente en las aportaciones de cada uno de los elementos que aparecen en (7.1). Esta descomposición aditiva, junto con la que se da de una manera natural para el argumento, permite que se obtenga la representación gráfica en el diagrama de Bode a partir de la representación gráfica de cada uno de los elementos que aparecen en (7.1). Vamos a ver a continuación cómo se representa gráficamente cada uno de estos elementos. Representación gráfica de la función de transferencia 7.2.1 103 Diagrama de Bode de una constante La representación en el diagrama de Bode de una constante es inmediata y se tiene en la figura 7.5. K>1 Amplitud(dB) 20logK 0 K<1 -20logK K(numero positivo) Fase(grados) 0.0 -90.0 K(numero negativo) -180.0 ω(rad/s) Figura 7.5: Diagrama de Bode de una constante 7.2.2 Diagrama de Bode de una integración pura El diagrama de Bode de una integración pura G(jω) = 1 jω viene dada por una recta de pendiente -20 decibelios por década (o -6 decibelios por octava) y con un desfase constante igual a -90 grados 7.2.3 Diagrama de Bode de un sistema de primer orden Sea el sistema de función de transferencia 1 1+ jω p Representación gráfica de la función de transferencia 104 Amplitud (dB) 20 0 -20dB/dec -20 -40 Fase(grados) 90 0 -90 -180 -1 10 0 1 10 10 2 10 ω(rad/s) Figura 7.6: Diagrama de Bode de una integración pura Para estudiar su representación en el diagrama de Bode consideraremos, en primer lugar, dos situaciones extremas: • ω¿p En tal caso se tendrá que 1 20 log | 1+ jω p | ≈ 20 log 1 = 0dB • ωÀp en cuyo caso 20 log | 1 jω 1+ p | ≈ 20 log | 1 ω | = −20 log jω p p Por tanto, la representación gráfica del módulo de G presenta dos ası́ntotas. Para valores bajos de ω la ası́ntota es sencillamente la recta horizontal trazada en 0 dB; mientras que para valores altos de la frecuencia la ası́ntota es una recta de pendiente -20 dB/década. Estas dos ası́ntotas se cortan en el punto ω = p. Para completar la curva podemos considerar dos puntos interesantes: Representación gráfica de la función de transferencia 105 Amplitud(dB) 20 0 1dB -20 3dB 1dB -40 Fase(grados) 0 -45 -90 -1 10 0 1 10 10 2 10 ω(rad/s) Figura 7.7: Diagrama de Bode de un sistema de primer orden • para ω/p = 0.5 se tiene |G(jω)| = −1 dB. • para ω/p = 1 se tiene |G(jω)| = −3 dB. Por lo que respecta a la fase no es posible hacer unas aproximaciones asintóticas como las que acabamos de ver para la amplitud. No obstante, se dispone de una plantilla que permite trazar la curva de fase correspondiente. 7.2.4 Diagrama de Bode de una diferenciación pura El diagrama de Bode de un diferenciador puro G(jω) = jω se obtiene de forma similar al de un integrador puro. En la figura 7.8 se representa el diagrama correspondiente. En este caso la curva de amplitud tiene pendiente positiva y la de fase es positiva. Representación gráfica de la función de transferencia 106 Amplitud(dB) 40 20 +20dB/dec 0 -20 Fase(grados) 90 45 0 -1 10 0 1 10 10 2 10 ω(rad/s) Figura 7.8: Diagrama de Bode de una diferenciación pura 7.2.5 Diagrama de Bode del término asociado a un cero El término asociado a un cero G(jω) = jω +1 p conduce, por consideraciones análogas a las que se han hecho para un sistema de primer orden (asociado a un polo), tiene la forma que se muestra en la figura 7.9. Combinando todo lo que se acaba de ver, y teniendo en cuenta las expresiones (7.2 y (7.3), se puede obtener la representación gráfica de la función de transferencia del sistema cuya función de transferencia viene dada por la expresión (7.1). 7.3 Sistemas de fase mı́nima Un sistema con un cero con parte real positiva recibe la denominación de sistema de fase no mı́nima, mientras que si todos ceros tienen parte real negativa recibe la denominación de sistema de fase mı́nima. En los sistemas de fase no mı́nima el valor que toma la fase es mayor, para un mismo valor de la frecuencia, que Representación gráfica de la función de transferencia 107 Amplitud(dB) 40 +20dB/dec 20 1dB 3dB 1dB 0 Fase(grados) 90.0 67.5 45.0 22.5 0.0 -1 10 0 1 10 2 10 10 ω(rad/s) Figura 7.9: Diagrama de Bode del término asociado a un cero si todos los polos y ceros estuvieran en el semiplano de la izquierda (el sistema fuera de fase mı́nima). Im Im ω −p ω G2 (s) G1 (s) 0 z Re −z −p 0 Re Figura 7.10: Diagrama de polos y ceros de G1 y de G2 Con el fin de ilustrar el concepto de sistema de fase mı́nima considérense los sistemas de función de transferencia: G1 (s) = s−z s+p (7.4) G2 (s) = s+z s+p (7.5) y Vamos a comparar los diagrams de Bode de estas dos funciones de transferencia. Representación gráfica de la función de transferencia 108 Para ello considérese la figura 7.10. Es claro que | G1 (jω) |=| G2 (jω) | ∀ω ≥ 0 y, por tanto, las curvas de amplitud en el diagrama de Bode serán las mismas para las dos funciones de transferencia. Sin embargo, por la que respecta a los argumentos es claro que se tendrá: arg G1 (jω) ≥ arg G2 (jω) ∀ω ≥ 0 En la figura 7.11 se tienen las correspondientes curvas de fase. Se comprende la denominación de sistema de fase mı́nima para G2 . o θ 180 o 90 G1(jω) 1 -1 10 0 10 10 2 10 ω G2(jω) o -90 Figura 7.11: Curvas de fase en el diagrama de Bode de G1 y de G2 7.4 Cı́rculos M y N Para proceder al diseño de sistemas realimentados, mediante métodos gráficos, es necesario disponer de un método gráfico que permita pasar de la función de transferencia en bucle abierto G(s) a la correspondiente a bucle cerrado T (s). Como se sabe la expresión que liga a estas dos funciones de transferencia es la siguiente G(s) T (s) = 1 + G(s) Representación gráfica de la función de transferencia 109 Si se interpreta vectorialmente esta expresión se tendrá que el vector T (jω) tendrá como módulo el cociente de los vectores G(jω) y 1 + G(jω), y como argumento la diferencia de los argumentos de estos dos vectores. En la figura 7.12 se tienen Im (−1 + j0) A β 1+G 0 φ G α Re P Figura 7.12: Diagrama polar de la función de transferencia, con vectores asociados representados los correspondientes vectores. A partir de esta figura resulta que para cada valor de ω el módulo de T (jω) se determinarı́a mediante el cociente de las medidas de los segmentos OP y AP , y el argumento de T (jω) vendrı́a dado por la expresión arg C/R = α − β (7.6) Con el fin de facilitar la aplicación práctica de este método gráfico se procede a definir en el plano polar un sistema de coordenadas curvilineas que permita resolver gráficamente la determinación del módulo y el argumento de T (jω). Para ello se procede a dibujar el lugar geométrico de los puntos para los que el módulo (respectivamente el argumento) de T (jω) sea constante. Sea (x, y) un punto genérico del plano complejo (figura 7.13). A partir de las figuras 7.12 y 7.13 se puede escribir q OP = x2 + y 2 q AP = (1 + x)2 + y 2 √ 2 OP x + y2 M= =q AP (1 + x)2 + y 2 Elevando al cuadrado esta expresión, y tras algunas manipulaciones algebráicas, se tiene M2 M2 y 2 + x2 + 2x 2 =− 2 M −1 M −1 Representación gráfica de la función de transferencia 110 Figura 7.13: Plano complejo Sumando y restando a esta expresión à M2 M2 − 1 !2 se tiene à M2 M2 y 2 + x2 + 2x 2 + M −1 M2 − 1 !2 à = M2 M2 − 1 !2 − M2 M2 − 1 de donde se concluye à M2 y + x+ 2 M −1 2 !2 = M2 M2 − 1 Esta expresión indica que el lugar geométrico en el plano complejo de los puntos para los que el módulo de T (jω) es constante viene dado por un cı́rculo de centro c=− y de radio ¯ M2 M2 − 1 ¯ ¯ M ¯ ¯ r = ¯¯ 2 M − 1¯ La familia de cı́rculos correspondientes a diferentes valores de M se tiene en la figura 7.14. Esta figura admite una facil interpretación. Si en ella se dibuja la función de transferencia en bucle abierto G(jω) entonces leyendo esta misma curva en el sistema de coordenadas curvilı́neas definido por los cı́rculos M se tiene el módulo de la función de transferencia en bucle cerrado T (jω). Por lo que respecta a las fases, se puede proceder de manera análoga a como se ha hecho con los módulos. En este caso se tiene que, de acuerdo con la expresión (7.6) Representación gráfica de la función de transferencia 111 Im Re Figura 7.14: Cı́rculos M 0 −1 + j0 α 1+G G φ Figura 7.15: Cı́rculos N Representación gráfica de la función de transferencia 112 el argumento de T (jω) viene dado por el ángulo AP O en la figura 7.12. En la figura 7.15 se representa el lugar geométrico de todos los ángulos AP O de valor constante. Este lugar geométrico resulta ser un cı́rculo, de acuerdo con una bien conocida propiedad de la geometrı́a, y el valor de este ángulo está perfectamente definido en el cı́rculo y resulta ser de α/2, de acuerdo con la figura 7.15. Es decir arg G α 1/2 = φ = = arctan 1+G 2 y siendo G 2 tan(φ) De este modo se tiene definida otra familia de cı́rculos, los cı́rculos N , en los que se puede leer la fase del sistema en bucle cerrado si se dibuja en coordenadas polares la función de transferencia en bucle abierto. y= En la práctica no se emplean los cı́rculos M y N en el diagrama polar, sino su traslación a un diagrama de coordenadas rectangulares, en el que se representa en abcisas el logaritmo de ω y en coordenadas la relación de amplitudes en decibelios. Este diagrama recibe la denominación de ábaco de Black, en libros europeos, mientras que en libros americanos es frecuente que se denomine ábaco de Nichols. 7.5 Relación entre las constantes de error y los polos y ceros. Sea G(s) la función de transferencia en bucle abierto de un sistema con realimentación unitaria. La función de transferencia en bucle cerrado correspondiente Td (s) será: Td (s) = Y (s) G(s) = R(s) 1 + G(s) (7.7) y la relación entre la señal de error y la referencia vendrá dada por 1 E(s) = R(s) 1 + G(s) (7.8) Supóngase que los polos de Td (s) se denotan por −pi y que los ceros se hacen por −ci . En tal caso se tiene: Representación gráfica de la función de transferencia Td (s) = 113 k(s + c1 ) (s + c2 ) · · · (s + cm ) (s + p1 ) (s + p2 ) · · · (s + pn ) (7.9) Por otra parte desarrollando en serie E(s) /R(s) se tiene: E(s) = eo + e1 s + e2 s2 + · · · R(s) (7.10) Se van a estudiar a continuación las relaciones entre las constantes de posición kp , velocidad kv , y aceleración ka y los polos y ceros de Td (s). 7.5.1 Seguimiento de posición. Supóngase una entrada en escalón de posición, de manera que R(s) = 1/s. En tal caso (7.10) se convierte en E(s) = eo + e1 + e2 s + ... s (7.11) Es decir que sE(s) = eo + e1 s + e2 s2 + ... (7.12) Por lo tanto aplicando el teorema de valor final, el valor del error en régimen permanente erp será: erp = limt → ∞ e(t) = lims → 0 sE(s) = lims → 0 1 = eo 1 + G(s) (7.13) Definiendo la constante de error de posición kp como kp = lims → 0 G(s) se tiene que e0 viene dado por (7.14) Representación gráfica de la función de transferencia eo = 1 1 + kp 114 (7.15) Por otra parte puesto que E(0) 1 = lim R(0) s → 0 1 + G(s) (7.16) Y considerando (7.10), es decir e0 = E(0) / R(0), se tendrá que E(0) 1 = R(0) 1 + kp (7.17) Y (s) E(s) =1− R(s) R(s) (7.18) Además se sabe que A partir de (7.17) y (7.18), haciendo s = 0, se obtiene Y (0) kp = R(0) 1 + kp (7.19) de donde, resolviendo para kp , se tiene kp = Y (0) / R(0) 1 − Y (0) / R(0) (7.20) Por otra parte se tiene que haciendo s = 0 en (7.7) se llega a cj k Πm Y (0) = n j=1 R(0) Πj=1 Pj en donde (7.21) Representación gráfica de la función de transferencia 115 Πm j=1 Cj = producto de ceros Πnj=1 Pj = producto de polos Llevando (7.21) a (7.20) se tiene la siguiente expresión en donde kp está expresada en función de los polos y ceros. kp = k Πm j=1 Cj n Πj=1 Pj − kΠm j=1 Cj (7.22) En la práctica tiene un especial interés la consideración de los sistemas de tipo 1 en bucle abierto. Este caso se presenta cuando se estudian los servomecanismos de posición. Para los sistemas de tipo uno, o superior, recordando la expresión (8), es inmediato que kp tiende a infinito. En tal caso, y de acuerdo con (9) es claro que e0 = 0. Por ello considerando (7.10) y (12) se tendrá que Y (s) E(s) =1− = 1 − e1 s − e2 s2 R(s) R(s) (7.23) Obsérvese que haciendo s = 0 se tiene Y (0) =1 R(0) (7.24) lo que significa que en régimen permanente no existe error de seguimiento, cosa que era sabida para los sistemas de tipo uno. Haciendo s = 0 en la expresión (7.9), y teniendo en cuenta (7.24) se tendrá que 1= k × c1 ......cm p1 p2 ......pn (7.25) Esta expresión muestra la relación existente entre los polos ceros y la constante k de un sistema en bucle cerrado para que el error de seguimiento en posición sea nulo. La constante de posición kp es adimensional. Representación gráfica de la función de transferencia 7.5.2 116 Seguimiento de velocidad. Sea un sistema con error de seguimiento en posición nulo (eo = 0) y supóngase que se le aplica una entrada en rampa de manera que R(s) = 1/s2 . En tal caso se tiene que E(s) vendrá dado por E(s) = 1/s2 e1 = + e2 + .... 1 + G(s) s (7.26) Aplicando el teorema del valor final se tendrá que el error en régimen permanente a una rampa será erp = lim e(t) = lim sE(s) t→∞ s→0 1 s→0 s + sG(s) 1 = lim = e1 s→0 sG(s) = lim Se define la constante de error de velocidad kv como kv = lims → 0 sG(s) (7.27) de manera que e1 vendrá dada por e1 = 1 kv (7.28) La constante de seguimiento en velocidad kv tiene un valor finito para sistemas en bucle abierto de tipo 1, es decir, para sistemas con una integración pura. En tal caso se tiene que e0 = 0, con lo que se tiene, habida cuenta de la expresión (7.10). Y (s) = 1 − e1 s − e2 s2 − .... R(s) Derivando esta expresión con relación a s, y haciendo s = 0, se tiene Representación gráfica de la función de transferencia à d Y (s) ds R(s) ! = −e1 = − s=0 117 1 kv (7.29) Si, además se tiene presente que para sistemas de tipo 1 à Y (s) R(s) ! = s=0 Y (0) =1 R(0) a partir de las dos expresiones anteriores 1 = kv − ³ d ds (Y (s)/R(s)) ´ (Y (s)/R(s))s=0 s=0 à d Y (s) =− ln ds R(s) ! (7.30) s=0 Llevando la anterior expresión a (7.10) se tiene que à ! 1 d =− (ln k + ln(s + c1 ) + .. − ln(s + p1 ) − ..) kv ds s=0 (7.31) lo que puede escribirse 1 1 1 = −( + .... − − ...)s = 0 kv s + c1 s + p1 o de forma más compacta n m X X 1 1 1 = − kv i=1 pi j=1 cj (7.32) Por consiguiente 1/kv es igual a la suma de los inversos de los polos menos la suma de los inversos de los ceros, todo en bucle cerrado. Si se quiere que el error de seguimiento en velocidad sea nulo se requerirá que kv tienda a infinito, en cuyo caso se tendrá que Representación gráfica de la función de transferencia n X 1 j=1 pj = m X 1 j=1 cj 118 (7.33) Ejemplo. Sea un sistema de segundo orden cuya función de transferencia en forma normalizada se escribe ωn2 Y (s) = 2 R(s) s + 2δωn s + ωn2 Este sistema presenta un error de seguimiento en posición igual a cero, es decir Y (0)/R(0) = 1. Por lo tanto interesa calcular kv en función de los parámetros ωn y√δ. Los polos de la anterior función de transferencia serán p1,2 = −δωn ± jωn 1 − δ 2 y por lo tanto aplicando la expresión (7.32) se tendrá que kv = ωn 2δ (7.34) La constante de velocidad kv tiene dimensión de seg −1 . En efecto erp = ω kv y como erp se mide en metros (o radianes) y ω en metros por segundo (o rad / seg) se tendrá que kv vendrá dada por seg −1 . 7.5.3 Seguimiento de aceleración Sea un sistema con errores de seguimiento de posición y velocidad nulos. Para el estudio de un seguimiento en aceleración se procede de forma similar a como se ha hecho anteriormente. Si se supone una entrada en aceleración se tendrá que R(s) = 1/s3 , con lo que el valor de E(s) será E(s) = e2 + e3 + s e4 + ... s (7.35) Representación gráfica de la función de transferencia 119 Aplicando nuevamente el teorema del valor final se tendrá que el error de seguimiento en aceleración cuando el tiempo tiende a infinito será erp = lims→0 s E(s) = e2 Y definiendo la constante de error en aceleración ka como ka = lims→∞ s2 G(s) se tendrá que e2 = 1 ka Tomando la segunda derivada de (29) se tendrá que à d2 Y (s) ln 2 ds R(s) ! à (Y /R)” (Y /R)1 = − Y /R Y /R !2 de donde es fácil de deducir haciendo s = 0, que m n X X 2 1 1 1 − = 2+ − 2 2 ka kv j=1 pj j=1 cj expresión que permite calcular la constante de velocidad ka . La constante de aceleración ka tiene dimensión seg −2 . 7.5.4 Sistemas con error nulo Supóngase que la función de transferencia de un sistema en bucle cerrado viene dada, en forma normalizada, por la expresión siguiente bo sm + · · · + bm−1 s + bm Y (s) = n R(s) s + a1 sn−1 + · · · + an−1 s + an (7.36) Representación gráfica de la función de transferencia 120 Esta expresión, considerada como cociente de dos polinomios, puede desarrollarse en serie, de la forma siguiente: bo sm + · · · + bm−1 s + bm Y (s) = n R(s) s + a1 sn−1 + · · · + an−1 s + an = co + c1 s + c2 s2 + · · · La determinación de los coeficientes ci del desarrollo en serie, puede hacerse fácilmente multiplicando ese desarrollo en serie por el denominador de la función de transferencia, e igualando coeficientes entre ambos miembros. Con ello se obtiene que co = c1 = bm an (7.37) bm−1 co − an−1 bm Recordando la expresión (7.10) se tiene que el error vendrá dado por E(s) T (s) =1− R(s) R(s) Si se supone una entrada en escalón R(s) = 1/s, entonces es evidente que el error será nulo en régimen permanente si c0 = 1, es decir, si an = bm . Por consiguiente es necesario que bm = an para que el error en régimen estacionario sea nulo, cuando se aplica como señal de entrada una señal en escalón. Para obtener un error de seguimiento en posición nulo, para un sistema cuya función de transferencia sea de la forma (30), existen distintas formas posibles. Si el numerador consiste únicamente en una constante, entonces la forma que se obtiene es única y es la siguiente an Y (s) = n R(s) s + · · · + an−1 s + an (7.38) Representación gráfica de la función de transferencia 121 Supóngase que c0 = 1. En tal caso, c1 se convierte en c1 = bm−1 − an−1 bm (7.39) Ahora suponiendo una entrada en rampa, el error tendrá un valor nulo en régimen permanente si an−1 = bm−1 . En tal caso una forma posible para la función de transferencia en bucle cerrado es Y (s) an−1 s + an = n n−1 R(s) s + a1 s + · · · + an−1 s + an (7.40) Estas expresiones se pueden generalizar para entradas de orden superior. El interés de las mismas radica en que permite especificar el numerador, a partir de consideraciones de comportamiento en régimen permanente, partiendo del denominador, obtenido por consideraciones de comportamiento transitorio. Tema 8 Estabilidad de los sistemas dinámicos 8.1 Introducción La estabilidad es una propiedad cualitativa de los sistemas dinámicos a la que cabe considerar como la más importante de todas. Ello es debido a que, en la práctica, todo sistema debe ser estable. Si un sistema no es estable, normalmente carece de todo interés y utilidad. El estudio de la estabilidad de los sistemas dinámicos ocupa un lugar primordial en el análisis y en la sı́ntesis de los sistemas realimentados. De hecho, la sı́ntesis de un sistema de control estará presidida por un imperativo de estabilización del sistema realimentado que resulte. El presente capı́tulo se va a dedicar al análisis de la estabilidad de los sistemas dinámicos, es decir, a establecer criterios que permitan discernir si un determinado sistema dinámico, dado en una cierta forma de representación matemática, es estable o no. En capı́tulos posteriores se estudiarán las modificaciones a introducir en los sistemas dinámicos para modificar su estabilidad. El estudio de la estabilidad de los sistemas dinámicos, se hará atendiendo a la forma de representación adoptada; en este sentido se estudiará en primer lugar la estabilidad de los sistemas dinámicos dados por su descripción externa, y luego se hará el estudio para la descripción interna de los mismos. 122 Estabilidad de los sistemas dinámicos 123 Al mismo tiempo se verá a lo largo de este capı́tulo cómo existen distintas definiciones de estabilidad, lo que da lugar a distintos criterios, asociados a las distintas definiciones. No obstante, se verá que pese a la aparente diversidad de definiciones y criterios, existe una profunda unidad subyacente en todo el tema. 8.2 Criterios de estabilidad relativos a la descripción externa Una forma intuitiva de afrontar el problema de la estabilidad de un sistema es considerar que éste será estable si las distintas magnitudes que lo definen no alcanzan valores infinitos. Basados en esta idea intuitiva se puede dar la siguiente definición precisa de estabilidad. Definición Un sistema, inicialmente en reposo, se dice estable si ante cualquier señal de entrada acotada, es decir, que no alcanza valores infinitos, responde con una señal de salida acotada. Formalmente se dice de una señal x(t), definida en un cierto intervalo (t0 , t1 ), que está acotada en dicho intervalo, si para todo t ε (t0 , t1 ) existe un valor k < ∞ tal que |x(t)| < k De una forma más compacta puede decirse que un sistema es estable si, señal de entrada acotada ⇒ señal de salida acotada. Desde un punto de vista intuitivo esta definición de estabilidad es satisfactoria; tiene, además, la ventaja adicional de que conduce a resultados matemáticos interesantes, según se verá en lo que sigue. Para el caso de sistemas multivariables esta definición es igualmente válida, sustituyendo las señales de entrada y de salida por los vectores de señales de entrada y de salida. En los libros anglosajones a la estabilidad anteriormente definida se la llama ”estabilidad BIBO” (bounded-input bounded-output). Estabilidad de los sistemas dinámicos 124 Si se adopta la forma de descripción externa dada por la integral de convolución, es decir, si la relación entre la señal de entrada u(t) y la señal de salida y(t) está dada por una expresión de la forma, y(t) = Z t −∞ h(t, τ ) u(τ ) dτ (8.1) entonces el criterio de estabilidad de un sistema viene dado por el siguiente teorema. Teorema Un sistema, inicialmente en reposo, representado por una expresión de la forma (8.1) es estable si y sólo si existe un número finito k tal que para todo t, Z t −∞ | h(t, τ ) | dτ ≤ k < ∞ (8.2) Demostración 1. Suficiencia Se trata de demostrar que si se cumple la condición (8.2), entonces ante una señal de entrada acotada, | u(t) |< k1 para todo t, la señal de salida y(t) es también acotada. En efecto, se tiene: | y(t) |=| Z t −∞ h(t, τ ) u(τ )dτ |≤ ≤ k1 Z t −∞ Z t −∞ | h(t, τ ) | u(τ ) | dτ | h(t, τ ) | dτ ≤ kk1 2. Necesidad Se trata de demostrar que si las señales de entrada u(t) y de salida y(t) son acotadas, entonces siempre se cumple la expresión 8.2. Ello es equivalente a demostrar que si no se cumple la expresión 8.2 entonces pueden existir señales de salida y(t) que no esten acotadas aunque lo esté la señal de entrada u(t). Supóngase que la expresión (8.2) no se cumple, es decir Estabilidad de los sistemas dinámicos Z t −∞ 125 | h(t1 , τ ) | dτ = ∞ Si a este sistema se le aplica la siguiente señal de entrada se tiene una salida no acotada. En efecto, sea u(t) = sgn[h(t1 , τ )] en donde, 0 si x = 0 1 si x > 0 −1 si x < 0 sgn x = Es claro que u(t) es acotada. Sin embargo la señal de salida del sistema no lo es, y(t1 ) = Z t1 −∞ h(t1 , τ ) u(τ ) dτ = Z t1 −∞ | h(t1 , τ ) | dτ = ∞ Queda demostrado la necesidad de que se cumpla la expresión (8.2) para que el sistema sea estable. Para sistemas multivariables el anterior resultado se generaliza diciendo que un sistema será estable si la propiedad de la expresión (8.2) se cumple para cada uno de los elementos de la matriz H(t, τ ). Para sistemas invariantes en el tiempo la expresión (8.1) se convierte en y(t) = Z t 0 h(t − τ ) u(τ ) dτ (8.3) Y la expresión (8.2) se convierte en, Z ∞ 0 | h(τ ) | dτ < k < ∞ (8.4) Para sistemas invariantes en el tiempo, la forma de descripción externa usualmente empleada es la función de transferencia. Interesa enunciar un criterio de Estabilidad de los sistemas dinámicos 126 estabilidad en términos de dicha función de transferencia. Es lo que se hace en el siguiente teorema. Teorema Un sistema lineal y estacionario, representado por una función racional propia G(s) es estable si y sólo si, todos los polos de G(s) están situados en el semiplano izquierdo abierto del plano s. Una forma equivalente de expresar lo anterior es decir que los polos de G(s) tienen la parte real negativa. En el semiplano izquierdo abierto, a que se alude en el anterior teorema, se excluye el eje imaginario. Si se incluye este eje imaginario se habla del semiplano izquierdo cerrado. Demostración Si G(s) es una función racional propia entonces puede desarrollarse en fracciones parciales, de manera que se descompone en la suma de un número finito de términos de la forma, K (s − pi )l Y además, posiblemente, una constante pi denota un polo de G(s). Al hallar la antitransformada de Laplace de G(s) se tiene que g(t) es la suma de un número finito de términos de la forma t`−1 epi t y, además, una posible función δ de Dirac. Es fácil demostrar que t`−1 epi t es absolutamente integrable si y sólo si pi tiene la parte real negativa. Por lo tanto el sistema G(s) será estable si y sólo si todos los polos de G(s) tienen la parte real negativa. • Ejemplo 1 Sea el sistema cuya función de transferencia es G(s) = 1/s. Este sistema no es estable, de acuerdo con las anteriores definiciones. En efecto, considérese una señal de entrada en escalón U (s) = 1/s. Se tendrá que la señal de salida será Y (s) = 1/s2 . Por lo tanto y(t) = L−1 (1/s2 ) = t la señal de salida y(t) no es acotada y por lo tanto el sistema no es estable. Estabilidad de los sistemas dinámicos 127 • Ejemplo 2 Según la definición anterior un oscilador simple es un sistema inestable. En efecto, considérese el sistema cuya función de transferencia es G(s) = 1/(1+ s2 ) que corresponde a un oscilador. La respuesta impulsional correspondiente es g(t) = sen t, la cual se representa en la figura 8.1 (a). Supóngase ahora que se aplica a dicho sistema una señal de entrada periódica rectangular, de amplitud unidad y de periódo el mismo del oscilador, tal como la de la figura 8.1 (b). La señal de salida viene dada por la expresión 8.3. Supóngase ahora que en la expresión 8.3 se hace t = 0. El producto de señales g(−τ ) u(τ ) está representado en la figura 8.1 (c). Es claro que y(0) es precisamente el área cubierta por dicha curva, cuando τ tiende a infinito. Por lo tanto y(0) = ∞. Es decir, el sistema es inestable. A este mismo resultado se llega inmediantamente considerando los polos de la función de transferencia, que resultan estar situados en el eje imaginario. Para sistemas multivariables se generalizan inmediatamente los anteriores resultados diciendo que un sistema multivariable definido por una matriz de transferencia G(s) será estable si cada uno de sus elementos satisface el anterior teorema. Sea la función de transferencia de la forma: H(s) = b(s) b0 sm + b1 sm−1 + · · · + bm = n n−1 s + a1 s + · · · + an a(s) (8.5) Figura 8.1: Para determinar si H(s) es estable o no, es necesario: 1. comprobar si m < n; 2. determinar si las raices de a(s) están situadas en el semiplano abierto negativo. Para comprobar si las raices de un determinado polinomio se encuentran en el semiplano abierto negativo, se aplica el criterio de Routh-Hurwitz que se estudia en el apartado siguiente. Estabilidad de los sistemas dinámicos 8.2.1 128 Criterio de Routh-Hurwitz Una función de transferencia T (s) representa a un sistema estable si sus polos se encuentran en el semiplano izquierdo negativo. Por lo tanto el problema del análisis de la estabilidad de un sistema se reduce al del análisis de los ceros del polinomio del denominador. Un polinomio se denomina un polinomio de Hurwitz si todas sus raices tienen la parte real negativa. Por lo tanto el problema de la estabilidad se reduce al de determinar si el polinomio del denominador es, o no, un polinomio de Hurwitz. El método directo de comprobar si un determinado polinomio es o no un polinomio de Hurwitz consiste en determinar todas las raices de dicho polinomio. Este procedimiento puede ser, además de excesivamente laborioso, inútil por cuanto que suministra una información superior a la que se requiere. No se trata de saber cuales son las raices, sino, simplemente, si su parte real será negativa o no. El método de Routh-Hurwitz, permite determinar si las partes reales de las raices serán negativas o no sin necesidad de determinarlas. Considérese un polinomio como el siguiente: sn+1 + a1 sn + · · · + an (8.6) Para determinar si el anterior polinomio tiene raices con parte real negativa se procede como sigue: 1. Si algún coeficiente del polinomio es negativo o cero, entonces existe al menos una raiz en el semiplano cerrado derecho. El sistema es, por lo tanto, inestable. 2. En el caso de que no se cumplan los supuestos de 1), se procede a construir la siguiente tabla: ¯ n + 1 ¯¯ 1 a2 a4 . . . ¯ n ¯ a1 a3 a5 . . . ¯ n − 1 ¯¯ β1 β2 β3 (8.7) n − 2 ¯¯ γ1 γ2 γ3 ¯ . . . ¯¯ . . . ¯ ρ1 1 en donde la generación de las distintas filas se hace como sigue, a partir de los elementos de las dos anteriores Estabilidad de los sistemas dinámicos β1 = 129 a1 a2 − a3 · 1 a1 (8.8) β2 = a1 a4 − a5 · 1 a1 La tabla anterior recibe la denominación de tabla de Routh, y el algoritmo que permite su construcción se denomina algoritmo de Routh. Independientemente de los trabajos de Routh, que publicó originalmente el algoritmo que conduce a la construcción de la tabla anterior, Hurwitz publicó un criterio de estabilidad, que se estudiará en una sección posterior de este tema, que esencialmente coincide con el de Routh. Por ello el criterio lleva conjuntamente el nombre de los dos autores. Toda fila depende de las dos filas precedentes. Se procede sucesivamente a determinar filas hasta que se determine una cuyos elementos sean todos 0. Para un polinomio de orden n se determinan n + 1 filas. El criterio de estabilidad de Routh-Hurwitz dice que el polinomio tiene sus raices en el semiplano abierto negativo si todos los elementos de la primera columna son positivos y no nulos. El número de cambios de signo en la primera columna es igual al número de raices del polinomio (8.6) en el semiplano positivo abierto. Ejemplo Sea el polinomio s4 + 5s3 + 3s2 + s + 2 = 0. Para determinar el número de raices en el semiplano positivo, se construye la tabla de Routh y se tiene, 4 3 2 1 0 ¯ ¯ 1 ¯ ¯ ¯ 5 ¯ ¯ 14/5 ¯ ¯ ¯ −36/14 ¯ ¯ 2 3 2 1 0 2 0 como hay dos cambios de signo en la primera columna existirán dos raices en el semiplano derecho. Por consiguiente el sistema es inestable. En la práctica el criterio de Routh-Hurwitz se aplica para determinar si el sistema es estable o no y, en general, no interesa saber el número de raices en el Estabilidad de los sistemas dinámicos 130 semiplano positivo abierto. Por lo tanto, cuando lo único que interese sea conocer si el sistema será estable o no, se procederá a construir la tabla de Routh hasta encontrar un elemento de la primera columna que sea negativo o cero. Cuando aparezca un elemento negativo o nulo, se suspenderá la construcción de la tabla, y se dictaminará que el sistema es inestable. En el caso de que interesase conocer cuantas raices existirán en el semiplano positivo, o en el eje imaginario, se procede a construir la tabla de Routh completa. En la construcción de la tabla de Routh, para el caso en que interese completarla aún cuando aparezcan elementos nulos en la primera columna, se presentan los dos casos singulares siguientes : 1. Aparece un 0 en la primera columna, siendo no nulos los otros elementos de la misma fila. 2. Aparece una fila con todos los elementos nulos, antes de llegar a la fila n+2. En el primer caso se sustituye el 0 por un número arbitrariamente pequeño ε. Se completa la tabla y se calcula el lı́mite de los elementos en los que aparezca haciendo ε → 0. Ejemplo Considérese el polinomio: s4 + s3 + 2s2 + 2s + 3 Al construir la tabla de Routh se encuentra un cero en la primera columna, en la fila dos. Se sustituye este cero por ε y se procede a completar la tabla, que resulta la siguiente: ¯ 4 ¯¯ 1 2 3 ¯ 3 ¯¯ 1 2 ¯ 2 ¯ 0→ε 3 1 ¯¯ 2ε−3 ¯ ε 0 ¯ 3 Una vez construida la tabla se determina el lı́mite de aquellos elementos en la primera columna en los que aparezca ε, cuando ε → 0. El elemento correspondiente a la fila 1 tiene el siguiente lı́mite, lim ε→0 2ε − 3 = −∞ ε Estabilidad de los sistemas dinámicos 131 Por lo tanto, la primera columna queda como sigue: 1 1 0 −∞ 3 Se presentan dos cambios de signo en la primera columna, y por consiguiente el sistema tiene dos raices en el semiplano derecho, y es inestable. El segundo caso particular más arriba enunciado, es decir, el caso en que se presente toda una fila de ceros, indica que el polinomio tiene, al menos, un factor par. Es decir, que existe un par de raices reales simétricas con respecto al eje imaginario, que existen dos raices imaginarias puras conjugadas, o que existen cuatro raices complejas situadas simétricamente con relación al origen. Cuando esto sucede se procede a formar una ecuación subsidiaria a partir de los coeficientes de la fila anterior a aquella en la que todos los elementos sean nulos. La expresión ası́ obtenida resulta ser el factor par del polinomio. Para obtener la fila siguiente, en la tabla de Routh, se procede a derivar esta expresión una vez con respecto a s y situar sus coeficientes en la fila cuyos elementos se habı́an anulado. A partir de esta sustitución se prosigue la construcción de la tabla de Routh normalmente. Un ejemplo ayudará a fijar ideas. Ejemplo Considérese el siguiente polinomio: s4 + 3s3 + 3s2 + 3s + 2 Si se construye la tabla de Routh correspondiente al llegar a la fila 1, se encuentra que todos los elementos son ceros. En efecto 4 3 2 1 ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ 1 3 2 0 3 2 3 0 2 0 La ecuación subsidiaria que se obtiene empleando los coeficientes de la segunda fila es la siguiente: 2s2 + 2 = 0 Estabilidad de los sistemas dinámicos 132 que corresponde al factor par s2 + 1. La derivada de la ecuación subsidiaria es 4s. Por lo tanto la tabla se completa como sigue 4 3 2 1 0 ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ 1 3 2 4 2 3 0 3 0 2 0 De la observación de esta tabla se desprende que el polinomio considerado no tiene raices en el semiplano positivo. La factorización del polinomio anterior conduce a, (s2 + 1) (s + 2) (s + 1) El anterior ejemplo muestra qué sucede cuando el polinomio en cuestión tiene raices en el eje imaginario. En tal caso estas raices dan lugar a un factor par, de la forma del que aparece en el ejemplo, que se pone de manifiesto al aparecer una fila de ceros en la tabla de Routh. Procediendo como se ha hecho en el ejemplo, se elimina la fila de ceros y se tiene una tabla de Routh que indica, por medio de los cambios de signos si existen raices en el semiplano derecho. Obsérvese que aunque no existan raices en el semiplano derecho, como sucede en el ejemplo anterior, el sistema será inestable, puesto que existen raices en el eje imaginario. La aplicación de las dos reglas anteriores, a los dos casos singulares que se acaban de discutir, debe tomarse con ciertas reservas. En particular, la aplicación de la primera regla (introducción de pequeños parámetros ε) sólo está justificada cuando el polinomio no tiene raices sobre el eje imaginario. En el libro Theorie des matrices de Gantmacher, pág. 181, se tiene un ejemplo de un caso al que la aplicación de las reglas no es válida. Ello, sin embargo, no debe preocupar puesto que lo que normalmente interesa de la aplicación del criterio de Routh-Hurwitz es, sencillamente, determinar si el sistema será estable o no, lo cual puede hacerse en todo caso sin ninguna ambiguedad, detectando si existe algún cero o algún cambio de signo en la primera columna de la tabla de Routh. El criterio de Routh-Hurwitz suministra una determinación rápida de la estabilidad absoluta de un sistema. Sin embargo no suministra ninguna indicación respecto a la posibilidad de alterar la situación de las raices. Su principal interés reside en su empleo como un paso previo, antes de aplicar otros métodos. Estabilidad de los sistemas dinámicos 8.2.2 133 Matriz de Hurwitz El criterio de Routh-Hurwitz, objeto del apartado anterior, en realidad fue desarrollado originalmente por Routh. Sin embargo es completamente análogo al desarrollado por Hurwitz, al que se va a dedicar este apartado. Sea un polinomio a(s) tal como: a(s) = sn + a1 sn−1 + · · · + an−1 s + an (8.9) Se define la matriz de Hurwitz como la matriz formada por los coeficientes del anterior polinomio, siguiente: H= a1 a3 1 a2 0 a1 0 1 .. .. . . 0 0 a5 a4 a3 a2 .. . ... ... ... ... 0 0 0 0 .. . 0 0 0 0 .. . 0 . . . an−2 an (8.10) El criterio de estabilidad de Routh-Hurwitz se puede enunciar diciendo que el polinomio a(s) es un polinomio de Hurwitz si y sólo si los menores principales diagonales de H son todos positivos. Los menores principales diagonales de H son los siguientes: H1 = a1 à H2 = det a1 a3 1 a2 H3 ! a1 a3 a5 = det 1 a2 a4 0 a1 a3 (8.11) Hn = det H Si en la tabla de Routh los elementos de la primera columna se denotan por α1 , β1 , γ1 . . . p1 , entonces es posible demostrar, después de algunas manipulaciones Estabilidad de los sistemas dinámicos 134 algébricas, que, H1 = α1 H2 = α1 β1 H3 = α1 β1 γ1 (8.12) Por ello es evidente que el procedimiento de determinar H1 , H2 , . . . , Hn y ver si son positivos no nulos es equivalente al de construir la tabla de Routh. Los determinantes H1 , H2 , . . . reciben la denominación de determinantes de Hurwitz. Para aplicaciones prácticas se recomienda emplear el método tabular de Routh, por ser más simple que la determinación de las matrices de Hurwitz. 8.3 Criterio de Nyquist El criterio de Routh permite analizar la estabilidad de un sistema lineal a partir de los coeficientes de la ecuación caracterı́stica. El criterio de Nyquist (1932) permite realizar un análisis de la misma naturaleza a partir de la representación gráfica de la función de tranferencia. Este criterio está basado en un teorema de Cauchy. Consideres una función racional F (s) (formada por un cociente de polinomios en s). Si s representa a la variable compleja s = σ + jω entonces F (s) aplica el plano complejo s sobre un plano complejo definido por las partes reales e imaginaria de F (s) (figura 8.2), ImF (s) jω C F (C) Z=3 P =1 σ ReF (s) Figura 8.2: Teorema de Cauchy de modo que a cada ”vector” de s se corresponde un vector de F (s). Conviene Estabilidad de los sistemas dinámicos 135 recordar que el argumento del vector F (s) se forma de la manera siguiente. En el plano s se definen los vectores que unen los polos y ceros de F (s) con el punto genérico s. Pues bien, es facil ver que el argumento de F (s) se forma sumando los argumentos de los vectores desde los ceros y restando los argumentos de los vectores desde los polos (figura 8.3). Figura 8.3: Aplicación del contorno C1 : (a) C1 no rodea ningún polo ni cero; (b) C1 rodea un polo Supóngase ahora que se define una curva cerrada C en el plano s y la correspondiente curva imagen F (C) en el plano F (s). Supóngase, además, que la curva C se recorre en un determinado sentido (por ejemplo, el de las agujas del reloj). A la curva imagen F (C) se asociará tambien un sentido. El teorema de Cauchy establece que el número de veces que la curva F (C) rodea al origen (tomando el sentido positivo el de las agujas del reloj) es igual a la diferencia entre el número de ceros y el de polos que encierra la curva C en el plano s. Es decir, N =Z −P en donde N es el número de veces que la curva F (C) rodea al origen, y Z y P representan, respectivamente, el número de ceros y de polos contenidos en la curva C en el plano s. Nyquist basó su criterio en una aplicación muy ingeniosa del teorema de Cauchy. Consideró un sistema realimentado con realimentación unitaria, como el de la figura 8.4. La función de transferencia del sistema en bucle cerrado correspondiente viene dado por la expresión T (s) = G(s) 1 + G(s) Estabilidad de los sistemas dinámicos U + 136 Y H(s) - Figura 8.4: Sistema realimentado con realimentación unitaria de esta expresión resulta claro que los polos de T (s) son los ceros de 1 + G(s). Para estudiar la estabilidad de un sistema en bucle cerrado Nyquit propuso definir en el plano s la curva cerrada C que se muestra en la figura 8.5, y que recibe la denominación de contorno de Nyquist. Este contorno rodea el semiplano de parte real positiva del plano complejo. Es decir, la región del plano complejo en la que no debe haber polos de la función de transferencia en bucle cerrado, si se quiere que el sistema sea estable. jω ImH(s) A H(s) C H(C) 1 + H(s) R=∞ −1 0 σ ReH(s) B Figura 8.5: Contorno de Nyquist C para estudiar la estabilidad Hemos visto que los polos de la función de transferencia en bucle cerrado T (s) son los ceros de 1 + G(s). Por tanto, la estabilidad del sistema en bucle cerrado estará garantizada si no existe ceros de 1 + G(s) en el interior del contorno de Nyquist. Estabilidad de los sistemas dinámicos 137 Veamos ahora cómo se construye la función G(s). Para ello basta observar que el contorno de Nyquist se compone de tres partes. La recta OA que corresponde al eje imaginario del plano complejo y que, por tanto, corresponde a la función de transferencia G(jω) para valoreS positivos de ω. La recta BO correspondiente a la parte negativa del eje imaginario. Y, por último, a la curva que une AB, que se encuentra situada en el infinito del semiplano positivo del plano s. Por tanto, al recorrer OA, se está recorriendo G(jω) para valores de ω de cero a infinito. Análogamente, al recorrer BO se está recorriendo G(jω) desde menos infinito a cero. Por último, al recorrer de A a B se está en valores de s con módulo infinito. En este último caso, si G(jω) es tal que elgrado del polinomio del numerador es menor que el del denominador, esta función tomará el valor cero. Aplicando el teorema de Cauchy, para el caso F (s) = 1 + G(s), se puede decir que un sistema realimentado, con realimentación unitaria, es estable si y sólo si G(C) rodea al punto crı́tico s = −1, en el sentido de las agujas del reloj, un número de veces igual al número de polos inestables de la función de tranferencia G(s). Conviene observar que la parte de G(C) correspondiente al semieje imaginario [0, j∞] es, en realidad, la representación polar de la función de transferencia G(s). Ası́ mismo, la parte correspondiente al semieje imaginario negativo [−j∞, 0] es simétrica con relación a esa representación polar. Por lo que respecta a la parte correspondiente al semicı́rculo de radio infinito (y eventualmente a un semicı́rculo infinitesimal que rodee al origen) es evidente que si la función de transferencia es tal que el grado del numerador es inferior a del denominador, se reduce a un punto. Por todo ello, el trazado de G(C) es inmediato conociendo la representación polar de la función de transferencia G(jω). Por ejemplo, en 8.6a se tiene la representación de la función de transferencia G(s) = 1 (1 + τ s) A partir de esta representación gráfica, se desprende que G(C) tendrá la forma que se indica en la figura 8.6b. Aplicando el criterio de Nyquist se tiene que este sistema es estable (lo que sucede para todos los sistemas de primer orden cuya función de transferencia sea de la forma 8.6). En la figura 8.7 se tiene otro ejemplo de aplicación del criterio de Nyquist, el correspondiente a la función de transferencia G(s) = 1 s(1 + τ s) Estabilidad de los sistemas dinámicos 138 ImH(s) ω<0 −1 ω = −∞ ω=∞ ReH(s) ω>0 Figura 8.6: Diagrama polar y contorno G(C) para un sistema de primer orden ImH(s) jω ω− C H(C0 ) R=∞ R=∞ C0 −1 σ ω = −∞ ω=∞ ReH(s) ω+ Figura 8.7: Contorno de Nyquist y G(C) para un sistema con un polo en el origen Estabilidad de los sistemas dinámicos 139 en este caso se tiene que la función de transferencia G(s) presenta un polo en el origen, el cual debe ser evitado por el contorno de Nyquist, por lo que se recurre a modificarlo ligeramente añadiendo el contorno infinitesimal C0 que se muestra en la figura 8.7. Es facil ver que la adición de este contorno no modifica el planteamiento anterior. Un último ejemplo que vamos a considerar es el siguiente G(s) = s+1 s s( − 1) 10 (8.13) En este caso se tiene que el sistema presenta un polo inestable. En la figura 8.8 se tiene el trazado G(C) correspondiente. Im ω>0 Re ω<0 ω≈0 Figura 8.8: Diagrama de Nyquist del sistema del ejemplo En el diagrama de la figura 8.8 el punto crı́tico se ha representado en función de la ganancia K. Obsérvese que la pequeña desviación C0 alrededor del polo s = 0 (figura 8.9) da lugar a un gran arco en el infinito. Este arco se situa en el semiplano izquierdo, ya que atraviesa el eje real negativa debido a la contribución de fase de 180 grados del polo en el semiplano de la derecha. Estabilidad de los sistemas dinámicos 140 Im −180o Re Figura 8.9: Contorno C0 para el sistema del ejemplo Para valores grandes de K (Kg en la figura 8.8) se observa que G(C) rodea al punto crı́tico en el sentido contrario de las agujas del reloj; es decir, N = −1. Por otra parte P = 1, debido al polo en el semiplano de la derecha, por lo que Z =N +P =0 donde se concluye que no hay raices inestables en el sistema. Para valores pequeños de K (Kp en la figura 8.8) la curva G(C) rodea al punto crı́tico en el sentido positivo de las agujas del reloj, por lo que N = +1 y Z = 2, por lo que el sistema posee dos raices con parte real negativa y es inestable. De los anteriores ejemplos se desprende que la aplicación del teorema de Nyquist hay que tener especial cuidado en los dos puntos siguientes: • Tener en cuenta la posible presencia de polos inestables en bucle abierto; • La evaluación del número de vueltas en torno al punto crı́tivo -1 en el caso en el que haya ramas infinitas (ver el último ejemplo). Sin embargo, para los sistemas de fase mı́nima, es posible enunciar la siguiente regla práctica: Estabilidad de los sistemas dinámicos 141 Regla práctica de Nyquist Un sistema realimentado es estable en el caso en el que recorriendo el trazado polar de la función de transferencia en el sentido de las ω crecientes el punto crı́tico -1 quede a la izquierda. 8.3.1 Grado de estabilidad e interpretación del criterio de Nyquist Según se acaba de enunciar en la regla práctica del criterio de Nyquist se tiene que la estabilidad depende de la posición del punto crı́tico con relación al trazado polar de la función de transferencia (figura 8.10). Este hecho sugiere la conveniencia de introducir una medida de la distancia de G(C) a este punto crı́tico, por lo que se define grado de estabilidad del sistema realimentado por • El margen de ganancia Gm = 20 log10 A1 , siendo A la ganancia correspondiente a la fase de 180 grados; • El margen de fase Φm , que es el desfase del punto correspondiente a la ganancia unidad. ImH(jω) A −1 Φm ReH(jω) 1 Figura 8.10: Grado de estabilidad En la figura 8.10 se representan Gm y Φm . La estabilidad equivale entonces a una de las condiciones siguientes: Estabilidad de los sistemas dinámicos 142 • Para el vector en bucle abierto correspondiente a un módulo unidad el desfase es superior a -180 grados. • Para una fase de 180 grados el módulo del vector de la función de transferencia en bucle abierto debe ser inferior as la unidad. De este modo, los márgenes de fase y de ganancia establecen las posibles variaciones de la función de transferencia G(s) debidas a perturbaciones eventuales que no afecten a la estabilidad del sistema. En la práctica se considera que un margen de fase de 50 grados y un margen de ganancia de 10 dB son satisfactorios. Un margen de ganancia por debajo de los 30 grados no suele ser aceptable. Tema 9 Compensación de sistemas realimentados 9.1 Introducción. Un sistema de control realimentado se representa esquemáticamente como se indica en la figura 9.1. Sobre este esquema vamos a recordar una serie de conceptos que consideramos de interés. r(t) + º· e ¡ -@ @¡ ¡ @ ¡ @ ¹¸ − 6m u y(t) - K H(s) G(s) ¾ Figura 9.1: Sistema de Control realimentado 143 - Compensación de sistemas realimentados 144 • Cadena directa o de acción, es la que une los elementos comprendidos entre la señal de error y la de salida. Ambas señales están relacionadas por la expresión, Y (s) = KG(s) E(s) siendo G(s) la función de transferencia del sistema considerado. • Cadena de realimentación, es la que une la señal de salida con la de información m(t), que es comparada con la de referencia. Ambas señales se relacionan ası́, M (s) = H(s) Y (s) En este caso H(s) es la función de transferencia de la cadena de realimentación. • Se llama bucle abierto, al conjunto de elementos que constituyen todo el sistema, si éste se abriese por el punto m(t), es decir, como si la señal de entrada fuese e(t) y la de salida m(t). La función de transferencia del conjunto ası́ dispuesto serı́a M (s) = KG(s)H(s) E(s) • Se llama bucle cerrado, al sistema conectado como se indica en la figura 9.1. Las señales y(t) y r(t) se relacionan por la conocida fórmula, fácil de deducir, Y (s) KG(s) = R(s) 1 + KG(s)H(s) Observese que, en este caso, la señal de actuación sobre el sistema es proporcional a la señal de error. Se trata pues de un control proporcional (P). El valor de la ganancia K del amplificador será, por tanto, un parámetro susceptible de ser variado de acuerdo con las necesidades del problema. En lo que sigue se supondrá siempre que la cadena de realimentación es unitaria, con lo que el esquema fundamental quedará de la forma que se indica en figura 9.2 y quedando la función de transferencia en bucle cerrado reducida a Compensación de sistemas realimentados 145 Y (s) KG(s) = R(s) 1 + KG(s) Naturalmente en este caso cadena de acción y bucle abierto son dos conceptos coincidentes. r(t) + º· e ¡ -@ @¡ ¡ @ ¡ @ ¹¸ − 6m u y(t) - K G(s) - Figura 9.2: Sistema de Control realimentado unitariamente • Por último, en algunas ocasiones se recurrirá a algún servosistema fı́sico, concretamente al conocido servomecanismo elemental de posición, que responde en bucle abierto a una ecuación diferencial lineal de la forma J d2 y dy +f = u(t) 2 dt dt siendo en este caso y(t) un ángulo (θ), J la inercia del conjunto motor-carga y f el coeficiente de fricción viscosa del mismo conjunto. Para que un sistema de control realimentado actúe aceptablemente, necesita satisfacer unas determinadas especificaciones de funcionamiento, tanto para su régimen permanente como para su transitorio que, normalmente, no se consigue con los elementos que consituyen el bucle de control. Hay veces en que un simple aumento de la ganancia estática es suficiente para lograr precisión, sin que se afecte demasiado a las caracterı́sticas en estado Compensación de sistemas realimentados 146 transitorio. No obstante, como lo normal es que éstas se vean empeoradas con una actuación de este tipo, o en el mejor de los casos, no se consigan exactamente las que se pretende que tenga el sistema, es por lo que se desarrollaran a continuación los procedimientos de compensación que se han dado en llamar Clásicos en razón de ser los primeros que se utilizaron. Por el hecho de introducir una compensación sobre el bucle antes mencionado, el esquema se modifica de alguna manera, como se muestra más adelante. Se distinguen dos tipos de compensación: • Compensación en serie: Cuando el elemento corrector se coloca en cascada, en la cadena de acción; y • Compensación por realimentación: Cuando el elemento corrector constituye una segunda cadena de realimentación, en el bucle de control. Los esquemas básicos para uno y otro caso se muestran, respectivamente, en las figuras 9.3 y 9.4. r(t) +²¯ e - ±° − 6m - Gr (s) u0 - u K - G(s) y(t) - Figura 9.3: Compensación en serie Como ya se ha indicado, en el caso de la compensación en serie, la red correctora se coloca en cascada con los elementos de la cadena de acción, y delante del amplificador para que el nivel de potencia a que trabaje sea el del error, es decir, bajo. Ası́ mismo, se distinguiran tres tipos de acciones: • Acción proporcional más derivada (PD); • Acción proporcional más integral (PI) y • Acción proporcional más integral y más derivada (PID). Compensación de sistemas realimentados r(t) +²¯ e ²¯ - ±° ±° − 6m 6 147 u K - Gr (s) G(s) y(t) - ¾ Figura 9.4: Compensación por realimentación 9.2 Análisis en el dominio de la frecuencia de la red PD Tiene lugar cuando la señal de mando del sistema es la suma de los términos, proporcional y derivado de la señal de error. En este caso se dice que la compensación es del tipo PD. La función de transferenia de una red de este tipo es de la forma, Gr(s) = K (1 + τ s) La discusión del caso general se hará en el dominio de la frecuencia, en donde los resultados adquieren mayor generalidad y sencillez. Para ello se estudiará en primer lugar la respuesta en frecuencia de un corrector P D. Su representación en Bode es la que se indica en la Fig. 9.5. Vemos pues que la red, a frecuencias mayores que τ1 aumentará la fase y la magnitud de la cadena de acción del sistema en el que se introduce. Para frecuencias algo menores que despreciable para frecuencias bajas. 1 τ el efecto es menos notorio llegando a ser En el diagrama de Bode, que se representa en la figura 9.6, se obsevan dos efectos fundamentales sobre la respuesta en frecuencia de un sistema: 1. Aumento del ancho de banda: contrapartida, en el dominio de la frecuencia, de la disminución del tiempo de subida en la respuesta temporal del sistema. Amplitud(dB) Compensación de sistemas realimentados 148 +20dB/dec 1/τ ω(rad/s) Fase(grados) -260 -310 -360 1/τ Figura 9.5: Diagrama de Bode para red PD Este efecto es más notable en el diagrama de Black, como se verá un poco más adelante, ya que alli se trata la respuesta del sistema en bucle cerrado. 2. Aumento del margen de fase: contrapartida, en el dominio de la frecuencia, de la disminución de la sobreoscilación en el dominio del tiempo. Las figuras 9.7 y 9.8 muestran la variación de la función de transferencia en bucle abierto de un sistema en el diagrama de Black, al introducir un corrector PD. Si se elige τ1 < wR , se consiguen dos efectos: 1. Disminuir el pico de resonancia (Mr ) del sistema en bucle cerrado y 2. Aumentar la frecuencia de resonancia. Estos efectos de la red PD en el diagrama de Black tienen sus correspondientes en el dominio del tiempo, a saber: • Aumento de la frecuencia de resonancia equivale a decir aumento del ancho de banda del sistema en bucle cerrado; por tanto, el sistema deja pasar un espectro mayor de frecuencias. La consecuencia inmediata es una respuesta más rápida y, en consecuencia, un menor tiempo de subida. • Disminuir el pico de resonancia, tiene como consecuencia un aumento del margen de fase, y se sabe que este efecto va muy ligado a una disminución de la sobreoscilación del sistema en bucle cerrado. Compensación de sistemas realimentados 149 Amplitud(dB) Compensada 0 dB Fase(grados) Sin compensar Compensada MF2 o -180 MF1 Sin compensar ω(rad/s) Figura 9.6: Bode sistema con compensación PD Amplitud(dB) 60 30 0 -360 -270 -180 Fase(grados) -90 Figura 9.7: Diagrama de Black red PD 0 Compensación de sistemas realimentados 150 100 Sin compensar Amplitud(dB) 50 0 Compensado -50 -100 -300 -240 -180 Fase(grados) -120 -60 Figura 9.8: Diagrama de Black sistema con comp. PD Queda añadir, finalmente, que las redes PD, son irrealizables fisicamente, porque el grado de su polinomio numerador es mayor que el grado de su polinomio denominador. No obstante, en un sistema eléctrico, sı́ se puede conseguir una red de este tipo utilizando elementos activos, aunque aún en este caso, la solución no tiene interés práctico ya que estas redes presentan un comportamiento muy malo frente a los ruidos. 9.3 Análisis en el dominio de la frecuencia de la red PI En este caso, la señal de mando es la suma de un término proporcional y otro integral, de la señal de error. u(t) = K e + Ki Z t 0 e dt La compensación es denominada PI y la función de transferencia de una red de este tipo será: 1 1 + τs Gr(s) = K(1 + ) = K( ) τs τs El efecto sobre el sistema es, pues, añadir un polo en el origen (cambia el tipo del mismo) y una acción derivada. Compensación de sistemas realimentados 151 Amplitud(dB) La respuesta en frecuencia de un corrector PI se muestra en la figura 9.9. Se ve que su acción consiste en disminuir la fase del sistema original, aumentando simultáneamente la ganancia en bajas frecuencias. Para altas frecuencias, no modifica la respuesta. -20dB/dec 1/τ Fase(grados) 0 -45 -90 1/τ ω(rad/s) Figura 9.9: Respuesta en frecuencia Red PI El efecto de una red PI sobre un sistema puede verse en la figura 9.10. La figura 9.10, muestra que τ1 debe elegirse menor que wR para afectar solamente la respuesta del sistema a bajas frecuencias y aumentar la precisión del mismo, ya que si por el contrario, se elige τ1 > wR aumentará el pico de resonancia, pudiendo llegarse a inestabilizar el sistema original, como muestra la figura 9.10. La acción PI se utiliza cuando se quiere mejorar el régimen permanente de un sistema, es decir, cuando se quiere disminuir el error de seguimiento, y cuando se quiere que el sistema en cuestión sea insensible a variaciones en la carga. La introdución de una red PI es causa de que el sistema, en bucle cerrado, tenga peor régimen transitorio. Se puede dar una interpretación fı́sica de ello muy simple, y que servirá para comparar el efecto de esta red, con el que proporciona una red PD. La figura 2.6 muestra en diferentes pasos, cómo en este caso, la inversión del par corrector se realiza con posterioridad al alineamiento de ambos ejes. La consecuencia de ello es que aumentará la sobreoscilación y disminuirá el tiempo de subida, y el sistema será más inestable. Amplitud(dB) Compensación de sistemas realimentados 152 Compensado 0 dB Sin compensar Fase(grados) Sin compensar MF1 o -180 MF2 Compensado ω(rad/s) Figura 9.10: Efecto Red PI Amplitud(dB) 50 25 0 -100 -80 -60 -40 Fase(grados) -20 Figura 9.11: Respuesta PI.(Black) 0 Compensación de sistemas realimentados 153 En resumen una red PI: • Cambia el tipo del sistema (añade un polo en el origen), • Aumenta la sobreoscilación y disminuye el tiempo de subida de la respuesta temporal en bucle cerrado. • Aumenta la precisión estática, compensando las variaciones de la carga a la salida. La red PI se encuentra en el mercado con facilidad, llevando normalmente incorporado el comparador, con lo que el conjunto forma lo que se llama un regulador de acción PI. 9.4 Acción proporcional, integral y diferencial (PID) Como fácilmente se comprende, en este caso, la señal de mando contiene tres términos, de tal suerte que la función de transferencia del compensador que recibe el nombre de PID es: u(t) = K e + Ki Gr(s) = K (1 + Z t 0 e dt + Kd de dt 1 K + τ2 s) = (1 + τ1 s + τ1 τ2 s2 ) τ1 s τ1 s Se ve pues que, con una acción PID, al sistema se le añade un polo en el origen (se cambia el tipo), una acción derivada primera, y una acción derivada segunda. Tomando τ1 = τ2 = τ el diagrama de Bode queda como indica la figura 9.12 y su efecto sobre un sistema se muestra en la figura 9.13. Si se elige τ1 < ωR (que era condición para el caso de correctores PD y PI) se pueden conseguir buenas caracterı́sticas, tanto en el régimen transitorio como en el permanente, es decir, es posible beneficiarse de los efectos de ambos tipos de redes. Amplitud(dB) Compensación de sistemas realimentados 154 -20dB/dec 20dB/dec 1/τ ω(rad/s) Fase(grados) 90 0 -90 1/τ ω(rad/s) Figura 9.12: Respuesta en frecuencia Red PID 100 Amplitud(dB) 50 0 -50 -100 -300 -240 -180 Fase(grados) -120 -60 Figura 9.13: Diagrama de Black sistema con comp. PID Compensación de sistemas realimentados 9.5 155 Compensación por avance de fase Como se ha visto en el tema anterior una red PD aumenta la fase de la función de transferencia del sistema a corregir para frecuencias próximas a τ1 y superiores, es decir, aumenta el margen de fase (disminuye la sobreoscilación) y aumenta el ancho de banda (disminuye el tiempo de subida). También se ha dicho que una red PD es irrealizable fı́sicamente. No obstante, es posible conseguir elementos correctores que constituyen una aproximación a una red PD, en el rango de frecuencias en que los efectos son interesantes. Estas redes reciben el nombre de redes de adelanto de fase. Las redes de adelanto de fase tienen una función de transferencia de la forma: Gr(s) = 1 + τs ; 1 + ατ s α<1 =⇒ 1 1 < τ ατ cuya representación gráfica se tiene en la figura 9.14. Amplitud(dB) |20logα| 0 dB 1/τ ω(rad/s) 1/at 1/τ ω(rad/s) 1/at Fase(grados) -300 -330 -360 Figura 9.14: Respuesta en frecuencia Red de adelanto de fase La forma de la gráfica justifica ampliamente la denominación de red de adelanto de fase. Su efecto constituye una aproximación excelente a una red PD. En efecto, la acción de una red de adelanto de fase sobre la función de transferencia del sistema en bucle abierto se muestra en la figura 9.15; si se compara ésta con la figura 9.6, se observará que los efectos sobre el ancho de banda y el margen de fase Compensación de sistemas realimentados 156 son prácticamente los mismos que los que produce una red PD. La diferencia entre ambas redes radica en el término (1 + ατ s) cuyo efecto sobre el ancho de banda y sobre el margen de fase es prácticamente despreciable si se elige convenientemente el valor de 1/ατ . Este valor, como es natural, debe elegirse notablemente superior al de la frecuencia para la cual la ganancia es 0dB, con objeto de que su efecto sea despreciable. Los criterios que presidirán la elección de estos valores se verán más adelante, al considerar los métodos de diseño. Lo que aquı́ interesa resaltar es el caracter de aproximación a la red PD que presenta la red de adelanto de fase. Amplitud(dB) Compensado 0 dB Fase(grados) Sin compensar Compensado MF2 o -180 Sin compensar -1 10 0 1 10 10 ω(rad/s) 2 10 3 10 Figura 9.15: Efecto Red de adelanto de fase En el mercado se pueden encontrar redes de adelanto de fase de tipo neumático, hidráulico o eléctrico, por ejemplo. A continuación se propone una red para un servosistema de tipo eléctrico, de fácil realización, y que se muestra en la figura 9.16. En ésta se tiene: ei = jZ + eo con e0 = jR0 siendo Z= 1 R jwC R+ 1 jwC = R 1 + jwCR eo e0 e0 R eo R + R0 + jwCRR0 0 0 ei = 0 Z + e0 = 0 (Z + R ) = 0 ( +R)= 0 R R R 1 + jwCR R 1 + jwCR Compensación de sistemas realimentados 157 R C R0 ei es Figura 9.16: Realización de una red de avance e0 R0 (1 + jwCR) R0 1 + jwCR = = . RR0 0 0 0 ei R + R + jwCRR R + R 1 + jwC. R+R 0 y llamando R0 R+R0 G0 r(s) = = α y τ = CR queda 1 + jwτ e0 =α ei 1 + jwατ ; Gr(s) = 1 0 es 1 + jwτ G r(s) = = α ei 1 + jwατ como función de transferencia de la red. 9.6 Efecto en el dominio de la frecuencia La respuesta en frecuencia de esta red eléctrica de adelanto de fase, se muestra en la figura 9.15. De la expresión de la función de transferencia se puede ver que el desfase que produce la red propuesta es: wτ − wτ α 1 + αw2 τ 2 y la frecuencia a la cual se produce el máximo: tan Φ = s w = wm = 1 1 1 = τ τα τ s 1 α Compensación de sistemas realimentados 158 el valor de Φ = Φm es máximo, wm τ (1 − α) wm τ (1 − α) 1−α √ tan Φm = = = 2 τ2 1 + αwm 1+1 2 α y de aquı́ 1−α √ 1−α tan Φm 1−α 2 α q sen Φm = = =√ = 2 2 1 + tan Φm 1+α 4α + 1 + α2 − 2α 1 + (1−α) 4α relación ésta más manejable que la anterior y que da el valor de para el margen de fase apetecido, Φm . El valor de τ se deducirá de la expresión s √ 1 1 1 wm = =⇒ = wm α τ α τ sustituyendo wm por la pulsación para la cual queremos que se produzca el máximo adelanto de fase. Debe hacerse notar que para que la ganancia estática del sistema no quede afectada, hay que aumentar la ganancia del amplificador en el valor α1 , siendo α la atenuación que produce la red a bajas frecuencias. La figura 9.17. muestra el efecto de una red de adelanto de fase sobre la respuesta en bucle cerrado del sistema, en el plano de Black. Puesto que se pretende un efecto del tipo PD, se comprende fácilmente que la frecuencia wR debe situarse en las proximidades de la frecuencia de resonancia del sistema wR 0 para que de esta forma la nueva frecuencia de resonancia wR sea menor que wR . Asimismo, el pico de resonancia M 0 será menor que el anterior, M . NOTA: Otros autores utilizan como expresión de la función de transferencia de la red la siguiente expresión 1 1 + τ 0 as a 1 + τ 0s siendo las equivalencias entre ésta y la estudiada anteriormente, las siguientes: 1 1 a−1 =α τ wm = √ τ 0 = ατ sen Φm = a a a+1 9.7 Método práctico Para ver el método práctico de compensación mediante una red de avance, lo haremos con la ayuda de un ejemplo. Dicho ejemplo consiste en compensar el sistema cuya función de transferencia en bucle abierto es: Compensación de sistemas realimentados 159 50 ωm1 Amplitud(dB) Mm ωm2 Sin compensar -50 Compensada -150 -300 -240 -180 Fase(grados) -120 -60 Figura 9.17: Diagrama de Black sistema con Red de adelanto de fase G(s) = K s(1 + s)(1 + 0.0125s) para que cumpla las siguientes especificaciones: 1. Margen de fase > 50◦ , 2. Error de seguimiento para una entrada u(t) = t, menor que el 1 %. Resolución: • Para cumplir la especificación de régimen permanente, Kv = K = 1 R = = 100 E 0.01 • Las dos frecuencias de esquina son 1 y 1 0.0125 = 80 • En Bode se ve que el sistema es inestable. El margen de fase es de unos −2◦ aproximadamente. • Se compensará el sistema mediante una red de adelanto. Compensación de sistemas realimentados 160 • Para el cálculo de α, se toma un ángulo Φm algo mayor que el mı́nimo requerido, por ejemplo 55◦ y se tendrá que, sen 55◦ = 1−α = 0.82 de donde α ≈ 0.1 1+α Para hallar τ se procede ası́: 1. Se calcula la atenuación total de la red, que será: 20 log α = 20 log 0.1 = −20 dB 2. Se busca la frecuencia para la cual la atenuación del sistema es la mitad que la de la red, es decir, −10 dB, y se elige aquella como la frecuencia para la que se quiere la máxima desviación de fase. Con ello, en el nuevo punto de corte (que estará desplazado ligeramente hacia la derecha con respecto al anterior), se tendrá el margen de fase buscado. Por lo dicho, luego 1 wm = √ = 18 rad/seg τ α √ 1 = wm α = 5.7 rad/seg. τ 1 wm w2 = = √ = 57 rad/seg. ατ α w1 = Ası́ la función de transferencia de la red será G0 r(s) = α 1 s 1 + 5.7 1 + τs = 0.1 1 1 + ατ s 1 + 57 s ó Gr(s) = 1 + 0.1754s 1 + 0.01754s Para que la ganancia a bajas frecuencias no se altere, ha de introducirse una ganancia adicional de Ka = 1/α = 10, con lo que el sistema, una vez corregido, tendrá como función de transferencia: G0 (s) = 1 s) 100(1 + 5.7 s(1 + s)(1 + 0.0125s)(1 + 1 s) 57 Con este ejemplo se han ilustrado los pasos necesarios para la colocación de una red de avance de fase, de forma que su aprovechamiento sea el máximo posible. Amplitud(dB) Compensación de sistemas realimentados 0dB 161 ω1 ωm -10dB -1 10 0 10 1 10 ω(rad/s) Figura 9.18: ω2 2 10 3 10 Tema 10 Representación matemática de sistemas 10.1 Introducción 10.1.1 Generalidades El objeto de los Sistemas de Control es la concepción de unos ingenios que conectados a un proceso real sean capaces de gobernarlo de manera autónoma, es decir, sin la intervención (o con una intervención mı́nima) del ser humano. Dado un determinado proceso industrial, o un cierto ingenio como un barco o un avión, se trata de diseñar un aparato que le suministre las señales de mando oportunas para que su funcionamiento sea el requerido. El sistema de control, a partir de la información que le suministra el proceso a controlar, determina qué acciones deberán tomarse para que el funcionamiento de éste sea el requerido. El funcionamiento requerido de un determinado proceso implica un comportamiento dinámico. Por lo tanto el estudio del comportamiento dinámico de los procesos, o en general de los objetos fı́sicos, tiene un interés primordial en Automática. Por otra parte, en cierta medida, se puede considerar a un sistema de control como un sistema de toma de decisiones. Es decir, el sistema de control toma las decisiones de las acciones a tomar sobre el proceso para que su evolución sea la requerida. Para esta toma de decisiones se requiere que el sistema de control 162 Representación matemática de sistemas 163 conozca el comportamiento dinámico del proceso a controlar. Es decir, se requiere que el sistema de control conozca cómo reaccionará el proceso ante las posibles señales de excitación que este le suministre. De nuevo se tiene la necesidad del conocimiento del comportamiento dinámico del sistema a controlar. De lo anterior se desprende que en Automática el estudio del comportamiento dinámico de los sistemas tiene un interés primordial. Este estudio se concreta en el de los sistemas dinámicos, que se va a considerar a continuación. 10.2 Descripción interna de los sistemas dinámicos La descripción externa, según se ha visto en la sección anterior, suministra una relación explı́cita directa entre las señales de entrada y de salida. Esta relación no es satisfactoria en ciertos casos. Por ejemplo, supóngase que se está realizando la simulación de un sistema dinámico con ayuda de un computador digital. Es claro que al ser el valor de la señal de salida, en cada instante, función de todos los valores de la señal de entrada, en instantes anteriores, se presentarán dos notables problemas al realizar la simulación: 1. la memoria deberá registrar los valores de la señal de entrada, lo cual requerirá un gran volumen de la misma con el agravante de ir creciendo con el tiempo; y 2. el número de cálculos a efectuar crecerá con el tiempo alcanzado, con ello, valores prohibitivos. Los problemas del tipo de los anteriores se solucionan con ayuda de la denominada descripción interna que no es sino una relación explı́cita indirecta entre las señales de entrada y de salida. La relación se dice que es indirecta puesto que u(t) e y(t) no están relacionadas directamente sino a través de otra variable x(t) llamada estado del sistema dinámico, que juega un papel primordial en esta forma de descripción. Se entiende por estado de un sistema dinámico la menor colección de variables cuyo valor, en un cierto instante de tiempo t, resume el pasado dinámico del sistema hasta dicho instante y es suficiente para predecir la futura evolución del sistema a partir del mencionado tiempo t. El estado se representa, normalmente, por la letra x, y el conjunto de todos los estados por X. Un ejemplo lo Representación matemática de sistemas 164 suministra, en mecánica racional, el conjunto de valores tomados por la posición y velocidad de una partı́cula, cuyo conocimiento, en cierto instante, resume el pasado dinámico de la partı́cula y permite prever la futura evolución de la misma. Debe notarse que, tal como se ha definido, el estado de un sistema dinámico representa una magnitud abstracta sin ninguna referencia, en principio, a magnitudes fı́sicas medibles. Ello, no obstante, no se opone a que en alguna circunstancia el estado de un sistema dinámico pueda ser asimilado a conjuntos de magnitudes susceptibles de interpretación fı́sica e incluso medibles, como sucedı́a en el ejemplo más arriba mencionado del estado de una partı́cula en mecánica racional. La descripción interna está basada en la existencia de las dos funciones siguientes: 1. La función de transición que describe el cambio de estado que experimenta el sistema entre dos instantes de tiempo t0 y t1 como consecuencia de la aplicación de una señal u[t0 , t1 ]. Formalmente se escribe, x(t1 ) = φ(t1 , t0 , x0 , u) (10.1) en donde φ representa la función de transición, x0 el estado en el instante t0 y u la señal de entrada aplicada entre t0 y t1 La función de transición debe satisfacer las propiedades: (a) Causalidad: para todo u1 y u2 tales que u1 (t) = u2 (t), t0 < t1 se tendrá, φ(t1 , t0 , x0 , u1 ) = φ(t1 , t0 , x0 , u2 ) lo que se puede expresar diciendo que a la misma causa sigue el mismo efecto. (b) Consistencia: φ((t0 , t0 , x0 , u) = x0 (c) Composición: Para t2 > t1 > t0 se tiene, φ(t2 , t0 , x0 , u) = φ(t2 , t1 , x1 , u) x1 = φ(t1 , t0 , x0 , u) La interpretación de las anteriores propiedades es evidente. 2. La función de lectura o de salida que suministra el valor de la señal de salida en el instante de tiempo t cuando el sistema se encuentra en el citado Representación matemática de sistemas 165 x(t) y está sometido a un valor de la señal de entrada u(t). Formalmente se escribe, y(t) = η[t, x(t), u(t)] (10.2) en donde η representa la función de lectura. Con el fin de establecer una definición formal de un sistema dinámico se denotará por T el conjunto de instantes de tiempo considerados, por X el conjunto de estados, por U el conjunto de valores de la señal de entrada, por U = {| T → U } el conjunto de valores de entrada aceptables, por Y el conjunto de valores posible para la señal de salida, y por Y = {y | T → Y } el conjunto de señales de salida. Con estas notaciones se puede definir formalmente un sistema dinámico como sigue: Definición Un sistema dinámico es el objeto matemático constituido por el quı́ntuplo, (U, Y, X, φ, η) en donde la función de transición φ cumple las propiedades a), b), c), más arriba indicadas. Debe observarse que, tal como se indicaba al principio de esta sección, la relación entre la señal de entrada u(t) y la señal de salida y(t) se hace indirecta y se realiza a través del estado x(t). Es decir, que ası́ como en la descripción externa la función F determina y(t), a partir de u[t0 , t], en la descripción interna, a partir de u[t0 , t], y por medio de la función de transición, se genera el estado x(t), y es a partir del estado y de la función de la lectura como se tiene el valor de la señal de salida y(t). La mayor complejidad que aparentemente presenta este segundo camino se ve ampliamente compensada por la mayor simplicidad conceptual y facilidad operativa que se obtiene con él. Ello se pondrá de manifiesto en lo que sigue. A continuación se estudia la descripción interna de los sistemas más corrientemente encontrados en la práctica de la automática y que son aquellos cuyos tipos de relación entre la entrada y la salida se consideró en la sección 3.3. Representación matemática de sistemas 10.2.1 166 Sistemas de estados finitos Son aquellos en que el estado sólo puede formar un conjunto finito de valores. Igualmente las señales de entrada y salida sólo pueden tomar sus valores de un conjunto finito. En tal caso las funciones de transición y de lectura pueden ser tabuladas. Estos sistemas se estudian en cursos sobre sistemas lógicos o sobre teorı́a de autómatas y aquı́ se mencionan a tı́tulo de ejemplo y para mostrar la profunda unidad del concepto de sistema dinámico. Ejemplo 1/0 2 0/0 1/0 1 0/0 0/1 1/1 3 Figura 10.1: Diagrama de estados Considérese el sistema representado por el diagrama de la figura 10.1. En él es claro que, X = {1, 2, 3} U = {0, 1} Y = {0, 1} U e Y son secuencias de 1 y 0. ¯ ¯ En cuanto a φ y η pueden representarse en forma tabular como sigue, Representación matemática de sistemas φ 0 1 1 2 1 3 1 1 1 3 2 167 η 0 0 1 0 1 0 1 0 Debe observarse que al estudiar los sistemas de estados finitos el estado es un objeto matemático de carácter general, que, en principio, no tiene porque ser un vector como sucederá en las clases de sistemas que se considerarán más abajo. 10.2.2 Sistemas dinámicos lineales en tiempo continuo Una amplia clase de sistemas dinámicos lineales en tiempo continuo admite una representación matemática de la forma ẋ = A(t)x + B(t)u y = C(t)x + D(t)u (10.3) en donde x, y e u son vectores de dimensión n, p y m respectivamente y A,B,C y D ¯ ¯ ¯ ¯ son matrices¯ de dimensión n × n, n × m, p × n ¯y p × m respectivamente. El vector x es el vector de estado del sistema. En la mayor de las aplicaciones D = 0, por lo que en lo sucesivo y mientras no se indique lo contrario, se prescindirá de la matriz D. La escritura de las ecuaciones diferenciales que rigen la evolución de un sistema dinámico según las expresiones 10.3 recibe el nombre de representación por variables de estado o por vector de estado del mismo. En lo que sigue se tratarán únicamente los sistemas dinámicos invariantes en el tiempo con lo que, teniendo en cuenta además que D = 0, las ecuaciones 10.3 se emplearán en la forma ẋ = Ax + Bu y = Cx (10.4) En donde A, B y C son matrices cuyos elementos son numéricos. Se hablará P indistintamente de un sistema dinámico y de la terna (A, B, C) que lo representa. Representación matemática de sistemas 168 Los sistemas dinámicos lineales que admiten una representación matemática tal como la de las expresiones 10.3 reciben la denominación de sistemas lineales diferenciales de dimensiones finitas, haciendo alusión con esta denominación a que el vector de estado es un vector de dimensión n. Existen otras clases de sistemas dinámicos lineales, como son los (sistemas de parámetros distribuidos) en los cuales el vector de estado tiene una dimensión infinita. De estos últimos no nos ocupamos en estos apuntes. Obtención de la representación por variables de estado Todo sistema dinámico descrito por ecuaciones diferenciales de la forma de la expresión (3.5) admite una representación por variables de estado de la forma de las expresiones 10.3. Aquı́ se discutirá exclusivamente el caso de que la ecuación diferencial sea de coeficientes constantes, y que u(t) e y(t) sean escalares(sistemas con una entrada y una salida). Para un sistema dinámico dado, existen infinitas formas de representación de la descripción interna. Es decir, existen infinitas ternas(A, B, C) que caracterizan a un mismo sistema. Todos estas ternas están ligadas entre sı́ por unas relaciones algebraicas que se estudiarán más adelante en esta sección. Se estudiarán a continuación las formas más usuales de representación interna de los sistemas dinámicos lineales. Forma canónica de control Sea el sistema descrito por la ecuación diferencial, dn y dn−1 y + a + ... + an y = u 1 dtn dtn−1 (10.5) Se definen, xi = di−1 y dti−1 i = 1, ...n (10.6) La anterior ecuación diferencial de orden n se puede escribir como un sistema de n ecuaciones diferenciales de primer orden. Es decir Representación matemática de sistemas 169 ẋ1 = x2 ẋ2 = x3 .. .. .. . . . ẋn = −an x1 − ... − a1 xn + u y = x1 (10.7) Lo cual se puede escribir en la forma de las expresiones 10.3 definiendo, xT = A= ³ x1 x2 · · · xn ´ 0 1 0 0 0 1 . . . . . . . . . 0 0 0 −an −an−1 −an−2 . . . . . . ³ ´ BT = C= ³ 0 0 . . . . . . 1 . . . −a1 0 0 ··· 1 1 0 ··· 0 ´ (10.8) (10.9) (10.10) Para el caso en que la ecuación (10.5) tome la forma más general siguiente: dn−1 y dn−1 u dn y + a1 n−1 + ... + an y = b1 n−1 + ... + bn u dtn dt dt (10.11) o, lo que es lo mismo, el sistema tiene la función de transferencia: G(s) = n(s) b1 sn−1 + b2 sn−2 + ... + bn = n n−1 s + a1 s + ... + an d(s) (10.12) Representación matemática de sistemas u 170 v 1 d n y Figura 10.2: Factorización del sistema en el sistema de función de transferencia en serie. Supóngase que se introduce la nueva variable v(t), tal que: 1 v(s) = u(s) d(s) (10.13) es decir d(s)v(s) = u(s) Por otra parte, n(s)v(s) = y(s) (10.14) La introducción de la variable v equivale a factorizar el sistema (10.12) en el sistema de función de transferencia (10.13) en serie con el de (10.14), tal como se indica en la figura 10.2. Obsérvese que el sistema (10.13) tiene la misma forma que el (10.5), por lo que haciendo x1 = v x2 = ẋ1 = v̇ ... x2 = ẋ1 = v n−1 (10.15) se tiene que el par (A, B) para ese sistema será el dado por la expresiones (10.810.9). Además, llevando (10.15) a (10.14) se tiene y = bn v + bn−1 v̇ + ... + b2 v n−2 + b1 v n−1 = bn x1 + bn−1 x2 + ... + b2 xn−1 + b1 xn = [bn bn−1 ... b2 b1 ]x Por tanto, las expresiones (10.8) y (10.9) son igualmente válidas pero la (10.10) toma la forma más general, C= ³ bn bn−1 · · · b1 ´ (10.16) En la figura 10.3 se muestra el diagrama interno de bloques del sistema dinámico, descrito por la ecuación (10.11), correspondiente a la estructura de la forma canónica de control. Representación matemática de sistemas 171 + + + b1 u + ẋn R + b2 R xn xn−1 + bn−1 R y + x2 bn R x1 - a1 a2 an−1 + + Figura 10.3: Diagrama interno de bloques an Representación matemática de sistemas 172 Ejemplo Sea el sistema descrito por la ecuación diferencial, d3 y d2 y dy du + 4 + 3 + 2y = 3u + 2 3 2 dt dt dt dt Las matrices A, B y C en la forma canónica de control serán las siguientes: 0 1 0 0 1 A= 0 −2 −3 −4 0 B= 0 1 C= ³ 3 2 0 ´ Forma canónica de observación La obtención de la forma canónica de observación ilustra otro método general de obtención de la representación por variables de estado de un sistema dinámico. Consiste este procedimiento en determinar, en primer lugar, el diagrama interno de bloques para luego asignar a la salida de cada integrador una variable de estado y ası́ construir las matrices A, B y C. Sea la ecuación diferencial con coeficientes constantes, dn y dn−1 y dn−1 u + a + ... + a y = b + ... + bn u 1 n 1 dtn dtn−1 dtn−1 (10.17) cuya descripción por variables de estado, en la forma canónica de observación, se quiere determinar. Para obtener un diagrama interno de bloques se procede como sigue. Llamando D al operador dtd , la expresión (10.17) se puede escribir: Dn y + Dn−1 (a1 y − b1 u) + ... + D(an−1 y − bn−1 u) + an y − bn u = 0 Dividiendo por Dn y despejando y se tiene: y= 1 1 1 (b1 u − a1 y) + ... + n−1 (bn−1 u − an−1 y) + n (bn u − an y) D D D (10.18) Representación matemática de sistemas 173 La expresión (10.18) conduce a un diagrama de bloques como el de la figura 10.4. u bn b1 bn−1 ẋ1 R x1 ẋ2 R x2 ẋn−1 R x n−1 ẋn R xn y −an −an−1 −a1 Figura 10.4: Forma canónica de observación De la observación de la figura 10.4 se desprende: ẋ1 = −an xn + bn u ẋ2 = −an−1 xn + x1 + bn−1 u ... ẋn−1 = −a2 xn + xn−2 + b2 u ẋn = −a1 xn + xn−1 + b1 u y = xn Las anteriores ecuaciones pueden escribirse en forma compacta empleando la notación matricial en cuyo caso se tienen dos ecuaciones como las 10.3 (Ao = ATc ) con, Representación matemática de sistemas A= 0 1 0 . . 0 0 0 0 1 . . 0 0 174 0 ... −an 0 ... −an−1 . . 1 . . . . 0 ... −a2 0 1 −a1 (10.19) B T = (bn bn−1 . . . b1 ) (10.20) C = (0 0 . . . 1) (10.21) Ejemplo Sea el sistema descrito por la ecuación diferencial, d3 y d2 y dy du + 4 + 3 + 2y = 3u + 2 3 2 dt dt dt dt cuya forma canónica de control se determinó anteriormente. En su forma canónica de observación las matrices A, B y C serán: 0 0 −2 A = 1 0 −3 0 1 −4 3 B= 2 0 C= ³ 0 0 1 ´ Para un mismo sistema dinámico existen diferentes formas de representación por variables de estado. Nótese que, de hecho, los diagramas de las figuras 10.3 y 10.4 servirán para simular el sistema en un computador digital o bien en un calculador analógico. Ello pone de manifiesto como la descripción interna suministra un modelo de máquina que realiza el sistema, mientras que la descripción externa se limita a describir lo que sucede en la salida por efecto de la acción que se realice a la entrada. La descripción externa muestra qué hace el sistema mientras que la interna indica cómo lo hace (al menos una forma de hacerlo) Representación matemática de sistemas 175 Representaciones equivalentes Se ha visto en el apartado anterior cómo un mismo sistema admitı́a distintas representaciones. Se van a estudiar en este apartado las formas equivalentes de representación de un mismo sistema. Para ello interesa introducir los conceptos de equivalencia y de similaridad. Dos sistemas dinámicos se dicen equivalentes si ante la misma señal de entrada responden con la misma señal de salida. Dos sistemas serán equivalentes si tienen la misma representación externa. El concepto de equivalencia entre sistemas tiene una cierta sutileza que se pone de manifiesto en el ejemplo siguiente. Ejemplo Sean dos sistemas dinámicos cuyas funciones de transferencia son las siguientes: T1 (s) = 1 s+1 T2 (s) = s2 s+2 s+2 = + 3s + 2 (s + 1)(s + 2) Las dos funciones de transferencia representan al mismo sistema. Sin embargo obsérvese que si se obtienen las descripciones interna de cada una de estas funciones de transferencia, se obtendrán distintas dimensiones para el vector de estado. Un concepto más restrictivo que el de equivalencia entre sistemas, es el de similaridad. Dos sistemas se dicen similares si además de ser equivalentes, dan lugar a realizaciones con la misma dimensión para el vector de estados. Por ejemplo, si a partir de una cierta función de transferencia se obtienen las formas canónicas de control y observación, estas dos formas de representación constituyen dos formas similares. Sean (A1 , B1 , C1 ) y (A2 , B2 , C2 ) dos representaciones por variables de estado de un mismo sistema. Es fácil ver que existe una transformación no singular T tal que A2 = T A1 T −1 B2 = T B 1 C2 = C1 T −1 En efecto si, ẋ = A1 x + B1 u (10.22) Representación matemática de sistemas 176 y = C1 x y x = T x, (T no singular), se tiene que, T1 ẋ = A1 T −1 x + B1 u lo que premultiplicado por T resulta ẋ = T A1 T −1 x + T B1 u y = C1 T −1 x de donde resultan las expresiones (10.22). Ejemplo En el sistema dinámico cuyas formas canónicas de control y de observación se han determinado anteriormente se comprueba que, 5 12 3 T = 12 11 2 3 12 0 cumple las anteriores relaciones. La equivalencia entre sistemas está relacionada con la descripción externa de los mismos, mientras que la similaridad lo está con la descripción interna. La equivalencia entre sistemas para el caso de una entrada y una salida, puede parecer un concepto trivial. No lo es cuando se aplica a sistemas multivariables La similaridad entre sistemas, o entre dos formas de representación de un mismo sistema, es un concepto extraordinariamente fecundo como se verá en lo que sigue. De hecho, en el estudio de los sistemas diferenciales lineales por variables de estado, lo que se va buscando es la forma de representación que más convenga al problema que se está tratando de resolver, y por medio de transformaciones de similaridad como las descritas por las ecuaciones (10.22), determinar estas formas de representación. Debe notarse que la transformación de similaridad en representaciones de sistemas dinámicos equivale a una transformación lineal del vector de estados, es decir a un cambio de bases en la representación del mismo. Representación matemática de sistemas 10.2.3 177 Función de transición de los sistemas dinámicos lineales Se va a considerar con detalle únicamente el caso de sistemas invariantes en el tiempo. Sean las expresiones 10.4. ẋ = Ax + Bu y = Cx (10.23) en el caso en que las matrices (A, B, C) no dependan del tiempo, es decir estén formadas por números. Se trata de resolver, de una manera general, las anteriores ecuaciones diferenciales, en particular la primera, para ver que conduce a una función de transición entre estados de la forma definida al principio de esta sección. (recuérdese la expresión 10.1). Para resolver la ecuación 10.23 se va a emplear el método de Laplace según el cual se puede escribir, sX(s) − x(0) = AX(s) + BU (s) de donde se puede despejar X(s), (sI − A)X(s) = x(0) + BU (s) Llamando φ(s) = (sI − A)−1 se tiene, X(s) = φ(s)x(0) + φ(s)BU (s) (10.24) cuya antitransformada de Laplace es x(t) = φ(t)x(0) + Z t 0 φ(t − τ )Bu(τ )dτ (10.25) en donde φ(t) = L−1 [φ(s)]. La matriz φ(t) recibe el nombre de matriz de transición Representación matemática de sistemas 178 La expresión (10.25) es de la misma forma que la expresión (10.1) y representa la transición entre los estados x(0) y x(t) como consecuencia de la aplicación de una señal de entrada u en el intervalo (0, t). Puede comprobarse fácilmente que la expresión (10.25) cumple las propiedades de causalidad, consistencia y composición exigidas a la función de transición entre estados. La existencia de (10.25) para todo sistema descrito por ecuaciones de la forma (10.23) permite establecer, que todo sistema dinámico cuyas ecuaciones diferenciales pueden escribirse en la forma 10.23 admite una descripción interna de acuerdo con la definición dada al principio de esta sección. Obsérvese que la función de lectura viene dada por la segunda de las expresiones (10.23). Se dice que al pasar de la descripción externa a la interna lo que se hace es factorizar la función que representa la descripción externa en las funciones de lectura y de transición entre estados. Esto se puede interpretar con el siguiente diagrama, u B x φ(s) C y Para el caso de sistemas que varı́en con el tiempo la expresión (10.25) toma la forma más general, x(t) = φ(t, t0 )x(t0 ) + Z t 0 φ(t, τ )B(τ )u(τ )dτ (10.26) Volviendo al caso invariante en el tiempo y suponiendo un vector de estado de dimensión n = 1 se tendrá, haciendo A = [a] φ(s) = 1 s−a es decir φ(t) = eat El anterior resultado se puede generalizar por una dimensión del vector de estado arbitraria (aunque finita) y hacer, Representación matemática de sistemas 179 φ(t) = eAt (10.27) en donde φ(t) = eAt = I + At + ... + Ak tk + ... k! (10.28) Esta forma de escribir la matriz de transición tiene un indudable interés en desarrollos formales y en el estudio de propiedades de los sistemas dinámicos lineales invariantes en el tiempo. Para determinar la matriz de transición se puede emplear varios métodos pero aquı́ se considerarán sólo dos: 1. empleo de la expresión (10.28) y 2. determinación de su transformada de Laplace según φ(s) = (sI − A)−1 y posteriormente haciendo su antitransformada: h φ(t) = L−1 (sI − A)−1 i Ejemplo Sea un sistema dinámico cuya matriz A es la siguiente à A= 1 1 0 1 ! Se trata de determinar la matriz de transición φ(t) por los dos métodos indicados más arriba. 1. Para emplear el desarrollo en serie (10.28) se tendrá que, à 2 A = Luego 1 2 0 1 ! à 3 ; A = P k t ∞ k k k! X A t eAt = = k! k=0 0 1 3 0 1 P ! à k ; ··· A = tk (k−1)! P tk k! = à 1 k 0 1 et tet 0 et ! ! Representación matemática de sistemas 180 2. Para determinar φ(s) se procede como sigue: " −1 φ(s) = (sI − A) = s − 1 −1 0 s−1 #−1 1 = 4 " s−1 1 0 s−1 # siendo 4 = (s − 1)2 . Hallando la antitransformada de φ(s) se tendrá, à φ(t) = L−1 [φ(s)] = et tet 0 et ! Se tiene el mismo resultado que en 1. Llevando a la expresión (10.23) el valor de x(t) que da la expresión (10.26) se tiene, y(t) = C(t)φ(t1 , t0 )x(t0 ) + C(t) Z t t0 φ(t1 , τ )B(τ )u(τ ) dτ (10.29) Suponiendo que el instante inicial se estima en el pasado remoto (−∞) en que el sistema se encontraba en reposo, se puede escribir y(t) = Z t −∞ C(τ )φ(t1 , τ )B(τ )u(τ )dτ (10.30) Comparando las expresiones (10.30) y (3.8) se tiene que la respuesta impulsional del sistema en función de F , G y H se puede escribir, h(t1 , τ ) = C(t)φ(t1 , τ )B(τ ) (10.31) Por otra parte, y para sistemas invariantes en el tiempo, a partir de las expresiones (28) y (15) se puede escribir H(s) = Y (s) = C(sI − A)−1 B U (s) (10.32) en donde se ha tenido en cuenta que al determinar la función de transferencia se parte de x(0) = 0, pues ésta se define para condiciones iniciales nulas. La expresión (35) permite determinar la función de transferencia a partir de las matrices A, B y C. Representación matemática de sistemas 181 El problema inverso del anterior, es decir, el problema de determinar las matrices A, B y C a partir de la matriz de transferencia, ya ha sido considerado anteriormente, en la sección 10.2.2, para el caso de sistemas con una entrada y una salida. Para sistemas multivariables el problema puede adquirir una notable complejidad adicional si se trata de obtener una representación con una dimensión del vector de estado mı́nima. Este problema recibe el nombre de problema de realización y se estudiará más adelante. 10.2.4 Sistemas dinámicos lineales en tiempo discreto Para los sistemas dinámicos lineales en tiempo discreto se tienen resultados análogos a los obtenidos en la sección 10.2.2 para los sistemas lineales en tiempo contı́nuo. Para estos últimos la descripción por variables de estado toma la forma siguiente: x(k + 1) = Φ(k)x(k) + Γ(k)u(k) y(k) = C(k)x(k) + D(k)u(k) (10.33) (10.34) En donde las matrices y vectores que aparecen tienen una interpretación análoga a la de las matrices y vectores de las expresiones 10.3. Igual que allı́, habitualmente, D = 0 y el caso de mayor interés es aquel en que las matrices Φ(k), Γ(k)yC(k) no dependen de k. Es decir, en lo que sigue se tendrá, x(k + 1) = φx(k) + Γu(k) y(k) = Cx(k) (10.35) (10.36) Para obtener la representación por variables de estado de un sistema descrito por ecuaciones en diferencias finitas se procede en forma análoga a la empleada para los sistemas descritos por ecuaciones diferenciales, teniendo presente que a la derivada allı́, aquı́ corresponde el adelanto un perı́odo elemental, a la integral el retraso, y a la transformada en s la transformada en z. Ejemplo Sea el sistema dinámico cuya ecuación en diferencias es la siguiente: Representación matemática de sistemas 182 y(t + 3) + 4y(t + 2) + 3y(t + 1) + 2y(t) = 3u(t) + 2u(t + 1) Este sistema admite las mismas formas canónicas de control y de observación que los ejemplos tratados en sistemas contı́nuos. Se define la matriz de transferencia ψ(k) de manera que, ψ(0) = I ψ(k + 1) = Φψ(k) Es claro que a partir de (10.35) se puede escribir x(n) = ψ(n − k)x(k) + n−1 X ψ(n − j − 1)Bu(j) j=k Esta expresión es análoga a la (10.25) y se puede hacer aquı́ las consideraciones que allı́ se hicieron. Obsérvese que, ψ(k) = Φk expresión correspondiente a la (10.27) La respuesta impulsional, en función de Φ Γ y H, se puede escribir, h(k) = CΦ(k)B y la función de transferencia, H(z) = 10.2.5 Y (z) = C(zI − A)−1 B U (z) Muestreo de sistemas en tiempo contı́nuo Sea un sistema dinámico descrito por, (10.37) Representación matemática de sistemas 183 ẋ = Ax + Bu y = Cx Supóngase que el anterior sistema se somete a una señal de entrada escalonada, es decir a una señal de entrada tal que, u(t) = u(kT ) para kT ≤ t ≤ (k + 1)T en donde k = 0, 1, 2, .... Una señal arbitraria u(t) puede convertirse en una señal escalonada por medio de unos circuitos retenedores (sample - hold). En la figura 8 se ilustra el proceso de escalonamiento de una señal u(t). Al ser excitado el sistema 10.38 con una señal escalonada u(t) se obtendrá una señal de salida y(t). Supóngase que de esta señal se miden solamente los valores que toma en el conjunto discreto de tiempos t = kT para k = 0, 1, 2, ... Es decir la señal de salida se muestrea de manera periódica, con un perı́odo T . La evolución del estado del sistema 10.38 vendrá dada de acuerdo con (10.25), por la expresión x(t) = φ(t − t0 )x(t0 ) + Z t t0 φ(t − τ )Bu(τ )dτ Si se hace t0 = kT y t = T (k + 1) se tendrá, x((k + 1)T ) = φ(T )x(kT ) + Z (k+1)T kT φ((k + 1)T − τ )Bu(kT )dτ En la integral del segundo miembro se puede hacer el cambio de variables α = (k + 1)T − τ con lo cual la anterior expresión queda, ÃZ x(k + 1 T ) = Φ(T )x(kT ) + Llamando, ÃZ Γ= 0 T 0 T ! Φ(α)Bdα u(kT ) ! Φ(α)Bdα ; Φ(T ) = Φ Representación matemática de sistemas 184 y prescindiendo de T, para simplificar la notación, se puede escribir x(k + 1) = Φx(k) + Γu(k) (10.38) expresión que, unida a y(k) = Cx(k) , permite decir que el muestreo de un sistema dinámico en tiempo contı́nuo da lugar a un sistema lineal en tiempo discreto. Obsérvese que la matriz Φ es precisamente el valor de la matriz de transición del sistema en tiempo contı́nuo para un valor del tiempo de T segundos. Ejemplo Sea el sistema cuya ecuación diferencial es d2 y dy du + = + 2u 2 dt dt dt El cual admite una forma canónica de control à A= 0 1 0 −1 ! à ; B= 0 1 ! ; C = (2 1) y cuya función de transferencia es, Y (s) s+2 = U (s) s(s + 1) Supóngase que este sistema se somete a una entrada escalonada y que su salida se muestrea, ambos procesos con periodo t = T seg. Se trata de determinar el sistema en tiempo discreto equivalente (ver figura 9). Se tendrá " φ(s) = (sI − A)−1 = Por tanto, s −1 0 s+1 #−1 = 1 s(s + 1) " s+1 1 0 s # 1 s = 0 1 s(s + 1) 1 (s + 1) Representación matemática de sistemas à φ(t) = luego à Φ= 185 1 1 − e−t 0 e−t 1 0.428 0 0.572 ! ! Por otra parte Γ= !à ! Z 1à 1 1 − e−α 0 0 0 e−α 1 dα = C = (2 ! Z 1à 1 − e−α 0 e−α à dα = 0.572 0.428 ! 1) El proceso de muestreo al que se ha dedicado este apartado es un modelo del que se realiza cuando se introduce un computador en un proceso 10.2.6 Sistemas no-lineales: linealización Existen muchos problemas prácticos en que los sistemas encontrados no admiten una descripción por medio de ecuaciones diferenciales lineales. En tal caso no es posible, en principio, tener unas expresiones de la forma 10.3. Sin embargo, si la ecuación diferencial es de orden n, supóngase que puede escribirse como n ecuaciones diferenciales de primer orden, de la forma ẋ = f (x, u, t) (10.39) en donde f (.,.) es una función no-lineal de x y u, que se supondrá, en lo que sigue, diferenciable con respecto a sus argumentos. Obsérvese que la expresión (10.38) es un caso particular de la (10.39). En tal caso se puede concebir un sistema lineal que represente el comportamiento dinámico del sistema para pequeñas perturbaciones en torno a una trayectoria previamente determinada, llamada trayectoria nominal. Sea esta trayectoria nominal x∗ (t) se tendrá Representación matemática de sistemas 186 ẋ∗ = f (x∗ , u∗ , t) Por otra parte la trayectoria real será la indicada por (10.39). Si las variaciones de la trayectoria real con relación a la nominal son pequeñas se podrá escribir, llamando δx = x − x∗ y δu = u − u∗ y empleando la formula de Taylor, " ∂f (δ ẋ) = f (x, u, t) − f (x∗ , u∗ , t) = ∂x # " x = x∗ u = u∗ ∂f δx + ∂u # x = x∗ u = u∗ δu (10.40) Con ello se tiene el comportamiento lineal de las pequeñas perturbaciones en torno a la trayectoria nominal. Para fijar ideas supóngase que la dimensión del vector x es 2. Las ecuaciones (10.39) toman la forma ẋ1 = f1 (x1 , x2 , u, t) ẋ2 = f2 (x1 , x2 , u, t) y supóngase que la trayectoria nominal viene dada por x∗1 (t), x∗2 (t) y u∗ (t). En tal caso se tendrá que las ecuaciones (10.40) tomaran la forma à δ ẋ1 δ ẋ2 ! ∂f1 ∂x 1 = ∂f2 ∂x1 ∂f1 ∂x2 ∂f2 ∂x2 à x∗1 (t) x∗2 (t) ∗ x1 = x2 = u = u (t) δx1 δx2 Ejemplo Sea el sistema no-lineal descrito por ẋ1 = x2 ẋ2 = au − bx22 ! ∂f1 ∂u δu + ∂f2 x1 = x∗1 (t) ∂u x2 = x∗2 (t) u = u∗ (t) Representación matemática de sistemas 187 c1 c2 q1 q2 h V, c q Figura 10.5: Diagrama de un depósito mezclador. y sea la trayectoria nominal, αt2 2 = αt 1 = (α + bα2 t2 ) a x∗1 = x∗2 u∗ Aplicando el método antes desarrollado se tiene, à 10.2.7 δ ẋ1 δ ẋ2 ! à = 0 1 0 −2bαt ! à δx1 δx2 ! à + 0 a ! δu Depósito mezclador En la figura 14.3 se muestra un esquema elemental de un proceso de mezcla de dos fluidos en un depósito. Este depósito de volumen V y altura h está alimentado por los caudales q1 y q2 , cada uno de los cuales con concentración c1 y c2 de un determinado producto quı́mico. La concentración de este producto en el depósito es c. El depósito evacua por un conducto situado en su parte baja mediante un caudal q. Se supone que la homogeneización de las concentraciones de los caudales de entrada se produce instantáneamente gracias a la acción de unas Representación matemática de sistemas 188 palas batidoras. Se supone, ası́ mismo, que la densidad es constante en el interior del depósito. Las ecuaciones del balance de masas son las siguientes: dv(t) = q1 (t) + q2 (t) − q(t) dt (10.41) d[c(t)v(t)] = c1 (t)q1 (t) + c2 (t)q2 (t) − c(t)q(t) dt (10.42) El flujo de salida del depósito viene dado por q q(t) = k h(t) = k s v(t) a (10.43) En donde k es una constante y a es el área del depósito. De modo que v = ha. Supóngase un estado estacionario de funcionamiento en el que se produce un equilibrio entre las entradas y salidas del depósito, para los siguientes valores de los flujos de entrada y salida, ası́ como del volumen en el depósito v0 y de su concentración c0 . q1 (0) = q10 , q2 (0) = q20 , q(0) = q0 , v(0) = v0 , c(0) = c0 Convienen observar que las concentraciones de entrada c1 y c2 se establecen en la etapa anterior del proceso. En estas condiciones de régimen estacionario, las ecuaciones (14.5, 14.6,14.7) toman la forma: 0 = q10 + q20 − q0 0 = c1 q10 + c2 q20 − c0 q0 r v0 q0 = k a Se trata de determinar las ecuaciones lineales que rigen el comportamiento del sistema en torno a este estado estacionario en el supuesto de que se trate de perturbaciones suficientemente pequeñas como para justificar la linealización. Conviene observar que el proceso que se está considerando es un proceso no lineal; es decir, la ecuaciones que gobiernan su comportamiento son no lineales. Esta no linealidad tienen un doble origen. Por una parte, la ecuación (14.6) es no lineal ya que en ella aparecen producto de variables. Por otra parte, la expresión (14.7) liga q con v (o con h) mediante una relación no lineal (la raı́z cuadrada). Representación matemática de sistemas 189 Las variaciones de las distintas variables con respecto a los valores tomados en régimen estacionario se denotarán mediante un tilde sobre la variable correspondiente. Es decir, q̃(t) = q(t) − q0 representa la variación del caudal q respecto al valor estacionario q0 . Análogamente se definen el resto de las variables ṽ(t) = v(t) − v0 q1 (t) = q10 + q̃1 (t) q2 (t) = q20 + q̃2 (t) c(t) = c0 + c̃(t) Si las variaciones son suficientemente pequeñas, entonces la expresión no lineal (14.7) se puede linealizar en torno al valor correspondiente por régimen estacionario, de acuerdo con q k ∂ v(t) q(t) − q0 = √ |v=v0 (v(t) − v0 ) a ∂v(t) Es decir k q̃(t) = 2v0 r v0 ṽ(t) a (10.44) De este modo la relación entre la variación q̃(t) del caudal con respecto al valor en régimen estacionario, y la correspondiente al volumen ṽ(t), queda linealizada. Llevando las definiciones de las variaciones ṽ(t), q̃1 (t), q̃2 (t) y c̃(t) a las expresiones (14.5) y (14.6) y tendiendo en cuenta la definición del régimen estacionario y (14.8) se tiene que dṽ(t) 1 q0 = q̃1 (t) + q̃2 (t) − ṽ(t) dt 2 v0 dṽ(t) 1 c 0 q0 dc̃(t) v0 + c0 = c1 q̃1 (t) + c2 q̃2 (t) − ṽ(t) − q0 c̃(t) dt dt 2 v0 τ= v0 q0 Representación matemática de sistemas 190 Si se escribe x1 x2 u1 u2 y1 y2 = = = = = = y τ= ṽ c̃ q̃1 q̃2 q̃ c̃ v0 q0 se tiene que las ecuaciones del sistema dinámico linealizado pueden escribirse de la forma siguiente: à ẋ1 ẋ2 ! 1 − 2τ = 0 1 0 x + c1 − c0 1 − v0 τ 1 c2 − c0 u v0 Sistema dinámico lineal que describe el comportamiento del sistema perturbado en torno al régimen estacionario. Tema 11 Controlabilidad y observabilidad de sistemas dinámicos 11.1 Introducción La descripción interna de un sistema dinámico lineal suministra modelos para la representación de una amplia clase de sistemas dinámicos encontrados en la práctica. Esta descripción reposa sobre la existencia de la terna (A, B, C) que caracteriza completamente su comportamiento dinámico. Asociados a la descripción interna de un sistema lineal emergen dos conceptos que tienen una importancia capital y cuya sola existencia justifica la adopción de la descripción interna frente a la externa. Son los conceptos de controlabilidad y de observabilidad. Su formulación da respuesta precisa a dos cuestiones fundamentales: 1. ¿Se puede determinar el estado de un sistema a partir de la observación de la salida?. 2. ¿Se puede determinar una señal de entrada que transfiera el sistema de un estado a otro? La controlabilidad y la observabilidad son propiedades de la descripción interna de los sistemas dinámicos. Estas propiedades se refieren, respectivamente, a la influencia de la entrada sobre el estado y del estado sobre la salida. 191 Controlabilidad y observabilidad de sistemas dinámicos 192 No es necesario insistir aquı́ sobre el interés de esos conceptos puesto que quedará ampliamente puesto de manifiesto en todo lo que sigue. Históricamente ambos conceptos no aparecieron a la vez. El de controlabilidad, más antiguo, fue empleado por Pontryagin en sus trabajos sobre el principio del máximo. Sin embargo corresponde a Kalman el primer tratamiento sistemático de ambos, ası́ como el establecimiento de las relaciones entre ellos (dualidad), y sobre todo su amplia difusión, por lo que es frecuente leer que ha sido Kalman el introductor de estos conceptos. En lo que sigue se estudiará la controlabilidad y la observabilidad de los sistemas lineales invariantes en el tiempo. Se estudiarán a su vez criterios para determinar si un sistema dinámico lineal es, o no, controlable u observable. De todo ello se extraerán conclusiones prácticas para abordar el problema de sı́ntesis que será tratado en el capı́tulo siguiente. Se verá como todo ello se reduce a propiedades algebraicas de la terna (A, B, C). 11.2 Controlabilidad de sistemas dinámicos lineales El concepto de controlabilidad pretende dar un significado preciso a la idea de transición entre estados. Dada la importancia del concepto de estado en la descripción de los sistemas dinámicos, interesa estudiar bajo qué condiciones será posible ”conducir” un determinado sistema a un cierto estado. De manera intuitiva la noción de ”conducir” el sistema a un determinado estado es equivalente a la de ”controlarlo”. De una manera general se dirá que un sistema es controlable si para cada transición entre estados que se desee realizar existe una señal de control que la realice. El tiempo de la transición entre estados se supone finito y la señal de control se supone sin ninguna clase de restricciones. Para precisar los conceptos se introducen las siguientes definiciones. 11.2.1 Estados alcanzables El conjunto de estados alcanzables desde el estado x, Ax , está formado por los elementos x1 ²X para los que existe una señal de entrada u(t), definida en un Controlabilidad y observabilidad de sistemas dinámicos 193 cierto intervalo (t0 , t1 ) tal que φ(t1 , t0 , x, u(t0 , t1 )) = x1 El espacio de estados X de un sistema dinámico x si Ax = X. P se dice alcanzable desde En la figura 11.1 se ilustra el concepto de conjunto de estados alcanzables desde x. Normalmente el estado que se toma de referencia para definir el conjunto de estados alcanzables es el estado de reposo x = 0. x=0 u1 u2 Ax u3 Figura 11.1: Ax = Conjunto de estados alcanzables desde x = 0 La alcanzabilidad exige que la aplicación φ(., t0 , x, .) sea suprayectiva. El concepto de controlabilidad se tiene como contra parte del de alcanzabilidad invirtiendo el tiempo. 11.2.2 Estados controlables Se define el conjunto de estados controlables a x, Cx , como el formado por los elementos x1 ²X para los que existe una señal de entrada u(t), definida en un cierto intervalo (t0 , t1 ) tal que φ(t1 , t0 , x1 , u(t0 , t1 )) = x Un sistema dinámico se dice controlable a x si Cx = x. Un sistema dinámico se dice controlable si es controlable al origen. Controlabilidad y observabilidad de sistemas dinámicos 194 Las consideraciones hechas más arriba respecto al concepto de alcanzabilidad son válidas aquı́ respecto al de controlabilidad. En la figura 11.2 se ilustra el conjunto Cx . u1 Cx x=0 u2 u3 Figura 11.2: Cx = Conjunto de estados controlables a x En algunos casos se define la controlabilidad a la señal de salida además de a los estados, sin embargo, en estos apuntes el concepto de controlabilidad que se manejará es el definido más arriba. 11.2.3 Estados conectados El espacio de estados X de un sistema dinámico se dice conectado, si para cada par de estados x0 , x1 , ²X existe una señal u(t), definida en un cierto intervalo (t0 , t1 ) tal que φ(t1 , t0 , x0 , u(t0 , t1 )) = x1 Es evidente que si el espacio de estados está conectado, el sistema será alcanzable y controlable. Es decir, que conexión ⇒ alcanzabilidad + controlabilidad Los conceptos de alcanzabilidad, controlabilidad y conexión entre estados, son equivalentes entre sı́ para los sistemas dinámicos lineales estacionarios. Este hecho justifica el que en lo que sigue se hable exclusivamente del concepto de controlabilidad. Ejemplo Controlabilidad y observabilidad de sistemas dinámicos 195 Sea el sistema de la figura 11.3. Para su descripción interna se requieren dos variables de estado x1 y x2 , que se puedan identificar con las cargas de cada uno de los condensadores. Si la señal de entrada es la tensión que se aplica a las formas correspondientes, es claro que se puede transferir a x1 ó a x2 a cualquier valor; sin embargo, no se puede transferir a x1 y a x2 a un par de valores arbitrarios. Por lo tanto la ecuación que describe el comportamiento de este sistema no es controlable. Los conceptos de controlabilidad, alcanzabilidad y conexión se refieren a las posibles transferencias en el espacio de estados que resultan de la aplicación de señales de entrada. El concepto de controlabilidad se refiere a la transferencia de un estado inicial arbitrario a una trayectoria deseada. Normalmente la trayectoria deseada es un punto de equilibrio. Este es el caso que se ha considerado aquı́, tomándose además el elemento cero de X para representar este equilibrio. C C x1 x2 u R R Figura 11.3: Ejemplo de sistema no controlable 11.3 Controlabilidad de los sistemas en tiempo discreto Aunque en este curso nos ocupamos fundamentalmente de sistemas en tiempo continuo, la introducción del concepto de controlabilidad se hace de forma mucho más sencilla en el caso de los sistemas dinámicos en tiempo discreto. Por ello, en primer lugar nos vamos a ocupar de la controlabilidad de un sistema de este tipo. Controlabilidad y observabilidad de sistemas dinámicos 11.3.1 196 Ejemplos de introducción • Sistema controlable. Sea el sistema de posicionamiento de un cilindro, de inercia unitaria, sometido a un par u(t), suponiendo que el rozamiento sea despreciable. Este sistema representa una versión idealizada del problema del posicionamiento de un satélite en un plano. Sus ecuaciones se pueden escribir " ẋ = 0 1 0 0 # " x+ 0 1 # u es decir: " A= 0 1 0 0 # " B= 0 1 # se tiene: " (sI − A)−1 = s −1 0 s #−1 = 1 s2 " s 1 0 s # 1 s = 0 1 s2 1 s por tanto " φ(t) = 1 t 0 1 # " φ(T ) = 1 T 0 1 # Conviene recordar que la matriz de transición entre estados en un sistema en tiempo discreto viene dada por: Γ = Z (k+1)T kt φ ((k + 1)T − τ ) Bdτ σ = τ − kT Γ = Z T 0 φ(t − σ)B = dσ θ = T −σ Γ = Z T 0 φ(θ)Bdθ De acuerdo con lo cual, la matriz de transición entre estados para el sistema en tiempo discreto de posicionamiento del cilindro resulta ser: Controlabilidad y observabilidad de sistemas dinámicos Γ= Z T 0 φ(t−τ )Bdτ = # # " Z T" 0 1 τ 0 1 0 1 dτ = 197 # Z T" τ 0 1 " dτ = T 2 /2 T # Por tanto el sistema en tiempo discreto (también llamado sistema muestreado) será: " xk+1 = Axk + Buk = 1 T 0 1 # " xk + T 2 /2 T # u Supongamos que se aplica una señal uo , en el instante t = 0, con las condiciones iniciales xo = [α β]T , lo que hace que en el primer instante de muestreo se alcance el estado x1 = Ax0 + Bu0 x1,1 = α + T β + (T 2 /2) u0 x2,1 = β + T u0 Si con la señal uo que hemos aplicado pretendiésemos transferir el estado inicial [αβ] al origen del espacio de estado; es decir si quisiésemos x1,1 = x2,1 = 0 entonces tendrı́amos: α + T β + (T 2 /2) u0 = 0 es decir u0 = −(α + T β) T 2 /2 Pero también se ha de cumplir: β + T u0 = 0 u0 = − β T Controlabilidad y observabilidad de sistemas dinámicos 198 Por tanto, para que exista una señal uo que transfiera en un solo paso el estado [α, β] al origen se requiere que este estado no sea uno cualquiera, sino que esté situado en la región del espacio de estados definida por la expresión: β= α + Tβ T /2 T β = 2α + 2T β 2α + T β = 0 En consecuencia, no es posible transferir un estado arbitrario del espacio de estados, en un sólo paso, al origen. Veamos que sucede si en lugar de considerar un solo paso, consideramos dos; es decir una secuencia de señales sucesivas uo , u1 . En tal caso se tendrá: x2 = A2 x0 + ABu0 + Bu1 es decir x2,1 = α + 2T β + (3T 2 /2)u0 + (T 2 /2)u1 x2,2 = β + T u0 + T u1 Si, como en el caso anterior, se pretende llevar un estado arbitrario [αβ] al origen; es decir para x2,1 = x2,2 = 0 (3T 2 /2) u0 + (T 2 /2)u1 = −α − 2T β T u0 + T u1 = −β Se trata de resolver este sistema de ecuaciones en uo y u1 . Para que ese sistema lineal de ecuaciones tenga solución se requiere que el determinante de la matriz de la parte izquierda del sistema sea no singular, lo que efectivamente sucede en este caso. " det 3T 2 /2 T 2 /2 T T # T3 T3 − = T 3 6= 0 =3 2 2 Controlabilidad y observabilidad de sistemas dinámicos 199 Por tanto, para una posición arbitraria del estado [αβ] existe una secuencia de señales de actuación sobre el sistema uo u1 que transfiere ese estado arbitrario al origen. En tal caso estamos autorizados para decir que el sistema es controlable al origen, de acuerdo con la definición que hemos introducido más arriba. • Sistema no controlable. Consideremos ahora el sistema definido por las ecuaciones: " xk+1 = Axk + Buk = 1 1 0 2 # " xk + 1 1 # uk Y como se ha hecho en el caso anterior supóngase que se trata de transferir un estado inicial arbitrario [αβ] al origen. En primer lugar, considérese el caso de un solo paso, en el que se aplica la señal uo . x1 = Ax0 + Bu0 El estado que se alcance después de aplicar esta señal será: x1,1 = α + β + u0 x2,1 = 2β + u0 Si se quiere que este estado alcanzado sea precisamente el origen, es decir, si se quiere que x1,1 = x2,1 = 0 entonces es fácil ver que ello solo será posible si α = β. Es decir, existe un subespacio del espacio de estados, formado por la recta que define la bisectriz del primer cuadrante, tal que si el estado inicial se encuentra sobre esta recta entonces con un solo paso es posible llevar ese estado al origen. Esta recta representa lo que se conoce como subespacio controlable del sistema. x1,1 = x2,1 = 0 ⇔ α = β lo que define el subespacio controlable en un solo paso. Veamos ahora que sucede si aplicamos una secuencia de dos pasos uo u1 . En tal caso se tiene que el estado alcanzado es: Controlabilidad y observabilidad de sistemas dinámicos 200 x2 = A2 x0 + ABu0 + Bu1 es decir x2,1 = α + 3β + 2u0 + u1 x2,2 = 4β + 2u0 + u1 De nuevo queremos transferir el estado [αβ] al origen; es decir, se quiere que x2,1 = x2,2 = 0. En tal caso se tiene que los valores tomados por la señal de entrada uo y u1 deberán satisfacer el sistema de ecuaciones lineales: 2u0 + u1 = −α − 3β 2u0 + u1 = −4β Pero este sistema de ecuaciones carece de solución, puesto que: " det 2 1 2 1 # =0 El sistema sólo es controlable si se cumple a la vez α + 3β = 4β ⇔ α = β Es decir, de nuevo nos encontramos en la misma condición que se habı́a encontrado para el caso de un solo paso. El subespacio controlable sigue siendo exclusivamente la bisectriz que atraviesa el primer y tercer cuadrantes. Si en lugar de considerar dos pasos, consideramos tres mediante la frecuencia uo u1 u2 , entonces el estado alcanzado ser: " x3 = α + 7β + 4u0 + 2u1 + u2 8β + 4u0 + 2u1 + u2 # Controlabilidad y observabilidad de sistemas dinámicos 201 El lector comprobará fácilmente que nuevamente esta ecuación solo tiene solución si α = β. Nos encontramos, por tanto, en este segundo ejemplo con un sistema del que no podemos decir que sea controlable; es decir, del que dado un estado inicial arbitrario no podemos determinar una secuencia de entrada que lo transfiera al origen. solamente, si el estado inicial se encuentra en una cierta región privilegiada, que denominamos subespacio controlable, es posible esta transferencia. Lo que se acaba de ver para estos dos ejemplos concretos es fácilmente generalizable para un sistema cualquiera en tiempo discreto: xk+1 = Axk + Buk En tal caso, para una secuencia de entrada de p se tendrá que el estado que se alcanza ser: xp = Ap x0 + Ap−1 Bu0 + Ap−1 Bu1 + · · · + ABup−2 + Bup−1 es decir Ap−1 Bu0 + Ap−2 Bu1 + · · · + ABup−2 + Bup−1 = −Ap x0 Para el caso p = n se tendrá: −An x0 = An−1 Bu0 + An−2 Bu1 + · · · + ABun−2 + Bun−1 Lo que se puede escribir, con notación matricial . . . −An x0 = [An−1 B .. · · · ..AB ..B] u0 u1 ... un−1 Para que este sistema de ecuaciones tenga solución, de modo que dado un estado inicial arbitrario xo se pueda determinar una secuenciauo u1 u2 . . . un−1 se requiere que la matriz C sea de rango completo. Controlabilidad y observabilidad de sistemas dinámicos 11.3.2 202 Controlabilidad de sistemas en tiempo continuo La controlabilidad de los sistemas en tiempo continuo aunque conceptualmente sea la misma que la de los sistemas en tiempo discreto, sin embargo resulta un poco más difı́cil de analizar. Vamos a considerar algún ejemplo introductorio que nos allane el camino. Ejemplo Sea el sistema definido por las ecuaciones ẋ1 = u ẋ2 = ax2 y = x1 + x 2 cuya representación en forma de diagrama de bloques se tiene en la figura 11.4 De la observación de la figura se desprende claramente que x2 es una variable de estado no controlable. u x1 y x2 a Figura 11.4: Diagrama de bloques de un sistema no controlable Sin embargo, la variable de estado x1 sı́ es controlable; es decir, cualquiera que sea el valor que tome esta variable de estado x1 puede ser llevada al origen (x = 0) en un tiempo finito. Basta para ello encontrar una trayectoria x1 (t) que una x1 (0) con x1 (τ ) = 0, en donde τ es el tiempo finito de transición entre estados. Por ejemplo si se adopta una recta, tal como se hace en la figura 11.5, entonces la Controlabilidad y observabilidad de sistemas dinámicos 203 señal de entrada u(t) que debe aplicarse en el intervalo (0, τ ), se calcula fácilmente de acuerdo con u(t) = d x1 (t) dt para t ∈ [0, τ ] x1 τ seg t Figura 11.5: Trayectoria de x1 Debe observarse que aunque la variable x2 no sea controlable, sin embargo sı́ afecta a la salida, hasta el extremo de que si a es negativa, el sistema será inestable. 11.3.3 Criterio de controlabilidad Para sistemas estacionarios, que son los que se considerarán en estos apuntes, existe un criterio muy simple que permite establecer si un cierto sistema dinámico es controlable o no. Este criterio se basa en unas propiedades algebraicas del par (A, B). Este criterio se establece con el siguiente teorema. Teorema Un sistema P es controlable si y sólo si rango C = n µ ¶ . . . en donde C ≡ B ..AB .......An−1 B y n = dim X. Controlabilidad y observabilidad de sistemas dinámicos 204 La matriz C recibe el nombre de matriz de controlabilidad. Demostración 1. Necesidad Se trata de demostrar que si el sistema es controlable entonces se cumple que el rango de la matriz de controlabilidad es n. (sistema controlable ⇒ rango C = n) Se sabe x(t1 ) = e At1 x(0) + Z t1 0 eA(t−τ ) Bu(τ ) dτ (11.1) Se toma según la definición de controlabilidad, x(t1 ) = 0. Luego, 0 = eAt1 x(0) + Z t1 0 eA(t1 −τ ) Bu(τ ) dτ Premultiplicando por e−At1 se tiene, x(0) = − Z t1 e−Aτ Bu(τ ) dτ 0 Por otra parte, recuérdese que Aτ e = ∞ X Ai ti i=0 i! además, φ(s) = (sI − A)−1 , luego φ(A) = 0 y, por tanto, An + a1 An−1 + ... + an−1 A + an I = 0 es decir, An es combinación lineal de las n − 1 potencias de A. Combinando estos dos resultados, se tiene que eAτ = n−1 X αi (τ )Ai i=0 luego x(0) = − n−1 X i=0 i AB Z t1 0 αi (−τ )u(τ ) dτ (11.2) Controlabilidad y observabilidad de sistemas dinámicos 205 se definen las funciones auxiliares νi (0, t1 ) = Z t1 0 αi (−τ )u(τ ) dτ con lo que (11.2) puede escribirse x(0) = − n−1 X Ai Bνi (11.3) i=0 es decir: x(0) = h B AB AB 2 ... A n−1 i B ν0 ν1 .. . νn−1 Puesto que x(0) es arbitrario la anterior expresión implica que debe ser posible representar cualquier vector como una combinación lineal de las columnas de C. Luego, según la definición de controlabilidad, que el sistema sea controlable implicará (es necesario) que rango C = n. 2. Suficiencia Se trata de demostrar que si el rango de C es n, entonces el sistema es controlable, es decir, existe una señal de entrada que lo transfiere al origen. Formalmente, rango C = n ⇒ sistema controlable Sea rango C = n Si se aplica al sistema una señal u(t) = u0 δ(t) + u1 δ (1) (t) + · · · + un−1 δ (n−1) (t) (11.4) en donde ui son vectores de dimensión n y δ (k) (t) representa la derivada k - ésima de δ(t) y que tiene la propiedad Z ∞ −∞ δ (k) (t − τ ) f (τ ) dτ = x(0) = C u0 u1 .. . un−1 dk f (t) dtk Controlabilidad y observabilidad de sistemas dinámicos 206 Luego si rango C = n, entonces admite solución el anterior sistema de ecuaciones lineales con n incógnitas, que son los valores de ni para i = 0, n = 1. Es decir, si rango C = n el sistema es controlable ya que es posible construir una (al menos) señal de entrada tal como la de la expresión (2) que transfiera al sistema desde un estado arbitrario x(0) al origen x(t1 ) = 0. 11.3.4 Ejemplos de controlabilidad Se presentan en este apartado algunos ejemplos de aplicación del criterio de controlabilidad que, además ayuden a captar el sentido fı́sico de este concepto. Ejemplo 1 Sea el sistema de la figura 11.6, al que corresponden las ecuaciones: x1 -1 u +1 x2 -2 Figura 11.6: Diagrama de bloques del ejemplo 1 ẋ1 = −x1 + u ẋ2 = x1 − 2x2 + u Controlabilidad y observabilidad de sistemas dinámicos 207 es decir " A= −1 0 1 −2 # " B= 1 1 # Si se aplica el criterio de controlabilidad a este sistema se tiene que: " C= 1 −1 1 −1 # det C = 0 Por tanto el sistema no es controlable. Este es un ejemplo de un sistema que aparentemente es controlable, ya que al observar la figura del diagrama parece que tanto x1 como x2 son accesibles desde la entrada u, pero que luego se comprueba que no lo es. Este ejemplo nos pone en alerta sobre una interpretación intuitiva de la controlabilidad basada en los diagramas de la descripción interna. Ejemplo 2 Recordando el ejemplo de un deposito en el que se mezclaban dos fluidos con caudales Q1 Q2 , de un fluido con una cierta sustancia en disolución. Sucede que si estos dos caudales tienen la misma concentración; es decir C1 = C2 = Cc entonces el sistema deja de ser controlable. En efecto, las ecuaciones correspondientes son 1 − 2τ x(t) = 0 0 −1 x(t) + τ " 1 1 0 0 # u(t) El diagrama correspondiente se tiene en la figura 11.7 la entrada (en realidad las dos entradas) u(t) afecta únicamente a la variable x1 (t), es decir el incremento de volumen. La variable x2 (t), el incremento de concentración, no tiene conexión con la entrada, y por tanto no puede ser afectado por ella. Es decir, es imposible “mover” x2 (t) desde un estado inicial arbitrario x2 (to ) a un estado determinado x2 (t1 ) en un intervalo de tiempo finito (to , t1 ). En este ejemplo se ve fı́sicamente el significado de controlabilidad. Si C1 6= C2 entonces el sistema es completamente controlable, como puede verificar fácilmente el lector. Ejemplo 3: La varilla vertical Controlabilidad y observabilidad de sistemas dinámicos s−1 208 x2 (0) x1 (0) s−1 s−1 x̂2 (s) s−1 −1 τ x̂1 (s) −1 2τ û1 (s) û2 (s) Figura 11.7: Diagrama de bloques del ejemplo 2 Considérese una varilla de longitud L cuya masa M está concentrada en su parte superior, tal como se indica en la fig.11.8. A partir de las leyes de Newton se sabe que el sistema está gobernado por la ecuación x M θ L u Figura 11.8: Varilla vertical ü(t)cos θ(t) + Lθ̈(t) = g sen θ(t) en donde g es la constante de gravitación. Por otra parte se tiene también la relación x(t) = u(t) + L sen θ(t) Controlabilidad y observabilidad de sistemas dinámicos 209 Si la varilla se encuentra muy próxima a la posición vertical (es decir θ muy pequeño) las dos ecuaciones anteriores pueden reescribirse en función de x(t) como sigue: ẍ(t) = g [x(t) − u(t)] L Para simplificar la ecuación se hace L = 1. El anterior sistema se puede escribir en el espacio de estados, llamando x1 = x(t) y x2 = ẋ(t). " ẋ1 ẋ2 # " = 0 1 g 0 # " x1 (t) x2 (t) # " + g 0 −1 # u(t) siendo la matriz de controlabilidad " C=g 0 −1 −1 0 # puesto que C es no-singular, el sistema es completamente controlable, lo que coincide con nuestra experiencia. Este ejemplo representa una versión simple de un problema más general que presentan muchos sistemas mecánicos en los que aparecen problemas de balanceo tales como el mantenimiento de un satélite en su órbita, el control de un helicóptero o un cohete cuando asciende verticalmente. 11.4 Notas sobre controlabilidad 11.4.1 Controlabilidad de sistemas monovariables Sea el sistema P descrito por la ecuación diferencial (sn + sn−1 a1 + · · · + an )y = (b0 sm + · · · + bm )u d(s)y = n(s)u Controlabilidad y observabilidad de sistemas dinámicos 210 P Entonces es controlable si y sólo si los polinomios n(s) y d(s) no tienen factores comunes. Se puede dar un razonamiento intuitivo a lo anterior: si n(s) y d(s) tienen un P P factor común, entonces existe un , equivalente (externamente) a , y tal que es de orden menor que n. 11.4.2 Transformación de la matriz de Controlabilidad Al cambiar de bases el vector de estados x, la matriz de controlabilidad se transforma como sigue x = Tx es decir b = Tb A = T AT −1 luego C=T C 11.4.3 Forma simplificada del criterio de controlabilidad Si el rango B = r el criterio de controlabilidad se simplifica a µ rango ¶ . . . B ..AB .......An−r B = n La demostración del anterior criterio simplificado está basada en el siguiente lema. Controlabilidad y observabilidad de sistemas dinámicos 211 Lema Si k es un entero tal que µ rango ¶ µ ¶ . . . . . . B ..AB .......Ak−1 B = rango B ..AB .......Ak B = p entonces µ rango ¶ . . . B ..AB .......Ae B = p para todo e ≥ k − 1 Demostración El hecho de que µ rango ¶ . . . B ..AB .......Ak−1 B = rango µ . . . B ..AB .......Ak B ¶ significa que toda columna de la matriz Ak B es linealmente dependiente de las columnas de las matrices B, ...Ak−1 B. Por lo tanto todas las columnas de Ak + 1B son linealmente dependientes de las columnas de AB, ..., Ak B. Procediendo de esta manera y por inducción se completa la demostración. Por el anterior lema, el rango de la matriz C debe incrementarse en, al menos, una unidad cuando se añade un nuevo término, hasta que se alcanza el rango máximo n. Por lo tanto si rango B = r entonces es suficiente incluir a lo sumo n−r términos de la forma AB, ...An−r B para ver si el rango máximo de C puede ser alcanzado. 11.4.4 La controlabilidad como propiedad genérica Supóngase que se tiene una clase SR de sistemas dinámicos indicados por un parámetro r ∈ R. Supóngase además que un sistema Sr posee una determinado propiedad. Esta propiedad se dice que es genérica en R si Sr posee esta Controlabilidad y observabilidad de sistemas dinámicos 212 propiedad para todo r ∈ R, siendo R un conjunto abierto y denso en R. Las propiedades genéricas son muy importantes ya que si R es el conjunto de valores de los parámetros en los que se toman las aproximaciones hechas en el modelado de un sistema, debido a la falta de conocimiento preciso de los valores de los parámetros, es claro que sólo las propiedades genéricas tendrán una interpretación real. Puesto que el ser de rango completo es una propiedad genérica de las matrices escogidas al azar en Rn×n , es claro que la controlabilidad es una propiedad genérica. Sin embargo en la práctica esta cuestión no resulta tan simple ya que b (y C más adelante cuando se hable de observabilidad) en la práctica describen conexiones que existen entre el sistema y el mundo exterior. Si la conexión no existe, entonces el elemento correspondiente de b es exactamente 0 y no tiene sentido el plantearse su perturbación infinitesimal para obtener un incremento de rango. Por lo tanto, la genericidad debe realmente definirse separadamente para cada sistema y la cuestión de la controlabilidad es genuinamente importante. 11.5 Descomposición del espacio de estados en sus partes controlables y no controlables P El hecho de que el espacio de estados X de un sistema dinámico no sea controlable, no implica que algún subespacio de X no lo pueda ser. Es decir, el hecho de que todas las componentes del vector de estados no puedan ser transferidas al origen en un tiempo finito, por aplicación de una señal de control conveniente, no implica que determinadas de éstos componentes no puedan ser transferidas. El problema de la descomposición del espacio de estado en sus partes controlables y no controlables, reside, precisamente, en la determinación de qué componentes del vector de estados son controlables. Con ello se subdivide el espacio de estados en dos subespacios, el uno de estados controlables y el otro el de estados no controlables. Sea el sistema P ẋ = Ax + Bu y = Cx Cuya matriz de controlabilidad será: Controlabilidad y observabilidad de sistemas dinámicos ³ C = B AB ... An−1 B 213 ´ tal que rango C = n1 < n En tal caso existe una transformación no singular T tal que à TC = C1 0 ! en donde C1 : n1 ×nm y rango C1 = n1 . La obtención T se hace determinando una matriz equivalente a la (C I) de manera que .. C . 1 ³ ´ .. .. ∼ C . I ··· . T . 0 .. La matriz T tiene la notable propiedad de que transforma el espacio de estados de suerte que los subespacios controlables y no controlables son evidentes. En efecto, si x = Tx la matriz de controlabilidad será à C = TC = à = = ³ C1 0 ! = C11 C12 ... Cn 0 0 0 ! = B AB · · · An−1 B ´ Por otra parte la matriz se descompone en dos bloques (11.5) Controlabilidad y observabilidad de sistemas dinámicos à B= B1 B2 214 ! (11.6) siendo B1 de dimensión n1 × m y B 2 de dimensión (n − n1 ) × m. Por inspección, observando C y B, es claro que B = 0. Se descompone à A= ! A11 A12 A21 A22 (11.7) en donde A11 = n1 × n1 y el resto de los bloques tienen las dimensiones correspondientes. Se tiene que à AC = A11 A12 A21 A22 Por otra parte AC = ³ ! à C1 0 ! à = A11 C1 A21 C1 AB A2 B ... An B ! (11.8) ´ (11.9) A partir de la expresión (3), se sabe que las (n−n1 ) últimas filas de C son igual n a cero. Por otra parte se sabe que A puede expresarse como una combinación lineal de = Ai , para i − 1...n − 1, según n A = n−1 X i αi A i=0 De lo anterior se desprende: • los n − 1 primeros bloques en que se ha particionado AC en (7) son tales que tienen las (n − n1 ) últimas filas nulas. n−1 • por lo que respecta al último de los bloques, es decir, A B, sus (n − n1 ) últimas filas también nulas, debido a que este bloque puede considerarse una combinación lineal de los anteriores. Controlabilidad y observabilidad de sistemas dinámicos 215 Por lo tanto si las (n − n1 ) últimas filas de AC son igual a cero, se concluye observando (6) que A21 = 0, puesto que C 1 no es nulo. Luego à A= A11 A12 0 A22 ! à B= B1 0 ! Lo anterior conduce a descomponer el espacio de estados X en dos subespacios X1 y X2 , tales que X = X1 ⊕ X2 siendo la dim x1 = n1 y dim x2 = n − n1 . El subespacio X1 representa los estados controlables y el subespacio X2 los no controlables. En efecto, ẋ1 = A11 x1 + A12 x2 + B 1 u ẋ2 = A22 x2 y = c 1 x1 + c 2 x2 Las anteriores expresiones se pueden interpretar con ayuda de un diagrama como se hace en la fig.11.9. En este diagrama se observa claramente cómo las variables de estado comprendidas en x1 son accesibles a partir de la señal de mando u, mientras que la x2 no lo son. Debe observarse que las variables de estado no controlables afectan no sólo a la salida, sino también a la propia parte controlable del sistema P La función de transferencia de depende exclusivamente de (A11 B 1 , c1 ) ya que, por definición de F de T , esta se obtiene considerando condiciones iniciales nulas y para x2 (0) = 0 se tendrá x2 (t) = 0 para todo valor de t > 0. Es decir, a partirse condiciones iniciales nulas los estados no controlables permanecen en reposo. Ejemplo Sea el sistema 1 0 0 1 2 B= 1 A= 1 1 −1 0 −1 −1 Controlabilidad y observabilidad de sistemas dinámicos Σ1 u 216 x1 x̄1 = Ā11 x̄1 + Ā12 x̄2 + B̄1 u C1 C2 y + x2 Σ2 x̄2 = Ā22 x̄2 Figura 11.9: Diagrama de bloques de un sistema no controlable Su matriz de controlabilidad será 1 1 1 1 C= 1 0 −1 0 −1 Para determinar T se hace 1 1 1 1 0 0 1 1 1 1 0 0 1 0 1 0 (C I) = 1 0 ∼ 0 −1 0 −1 1 0 ∼ −1 0 −1 0 0 1 0 1 0 1 0 1 1 1 1 1 0 0 0 −1 0 −1 1 0 0 0 0 0 1 1 Luego Controlabilidad y observabilidad de sistemas dinámicos 217 1 0 0 T = −1 1 0 0 1 1 Para determinar T −1 se hace 1 0 0 1 0 0 1 0 0 1 0 0 (T I) = −1 1 0 0 1 0 ∼ 0 1 0 1 1 0 ∼ 0 1 1 0 0 1 0 1 1 0 0 1 1 0 0 1 0 0 0 1 0 1 1 0 0 0 1 −1 −1 1 Luego T −1 1 0 0 1 0 = 1 −1 −1 1 A partir de T y T −1 se tendrá A = T A T −1 1 0 2 = −1 −1 2 0 0 1 1 B=TB= 0 0 Es decir 1 0 0 1 ẋ = −1 −1 2 x + 0 u 0 0 1 0 El subsistema controlable será Controlabilidad y observabilidad de sistemas dinámicos d dt 11.6 à x1 x2 ! à = 1 0 −1 −1 ! à x1 x2 ! 218 à + 1 0 ! u Observabilidad de sistemas dinámicos lineales El concepto de estado tiene una importancia capital al considerar la descripción interna de los sistemas dinámicos. Sin embargo, se recordará que el concepto de estado ha sido introducido como un objeto abstracto, sin ninguna referencia, en principio, a magnitudes fı́sicas medibles. Es decir, en un sistema las señales que son medibles son las de entrada u y las de salida y, siendo el estado x un concepto abstracto que se introduce para simplificar el tratamiento formal de los sistemas dinámicos. Por lo tanto un problema de interés básico será el de determinar a partir de las señales que son accesibles, es decir, las señales de entrada y de salida del sistema, el estado en una de las representaciones. Observabilidad La observabilidad se refiere a la posibilidad de reconstrucción del estado a partir de la medida de las señales de salida y de entrada. Sin embargo, se pueden considerar dos problemas separados a la hora de considerar la reconstrucción del estado. Uno de ellos trata de deducir el valor del estado en el instante presente a partir de las observaciones pasadas, y el otro trata de deducir el valor del estado en un instante determinado a partir de observaciones posteriores. Con el fin de precisar estos conceptos se establecen las siguientes definiciones. 11.6.1 Introducción a la observabilidad 1. Sistemas en tiempo discreto Ejemplo Sea el sistema autónomo (es decir, el sistema con u(t) = 0): x1 (k + 1) = x1 (k) + x2 (k) x2 (k + 1) = 2x2 (k) x(k + 1) = Ax(k) Controlabilidad y observabilidad de sistemas dinámicos y(k) = x1 (k) " A= C= h 1 1 0 2 1 0 # i Se mide el sistema en los k = 0 y k = 1. y(0) = Cx(0) = x1 (0) y(1) = Cx(1) = CAx(0) = x1 (0) + x2 (0) luego y(0) = x1 (0) y(1) = x1 (0) + x2 (0) x1 (0) = y(0) x2 (0) = y(1) − y(0) 2. Sistema no observable Sea A como antes pero y(k) = x2 (k) C= h 0 1 i entonces se tendrá y(0) = x2 (0) y(0) = Cφx(0) = 2x2 (0) 219 Controlabilidad y observabilidad de sistemas dinámicos 220 luego x2 (0) = y(0) = 1 y(1) 2 pero no se puede determinar x1 (0). El sistema no es observable [debido a la dependencia lineal entre C y CA ]. 3. Caso general xk+1 = Axk yk = Cxk xk = Ak x0 y(k) = CAk x0 y0 = Cx0 y1 = CAx0 .. . = yn−1 = CAn−1 x0 y0 y1 .. . = C CA .. . x0 CAn−1 yn−1 O= C CA ... CAn−1 se requiere que O sea una matriz de rango completo. 11.6.2 Observabilidad P Definición Un sistema se dice observable en el instante t0 , si y sólo si para todo estado x(t0 )²X, existe un tiempo t > t0 tal que el conocimiento de u(t0 , t), de y(t0 , t) y de (A, C) basta para determinar x(t0 ). Controlabilidad y observabilidad de sistemas dinámicos 11.6.3 221 Reconstructibilidad P Definición Un sistema se dice reconstructible en t0 , si y sólo si ∀x(t0 ) ∈ X, t < t0 tal que el conocimiento de u[t, t0 ], de y[t, t0 ] y de (A, C) basta para determinar x(t0 ). De las anteriores definiciones se desprenden los siguientes problemas: Problema de observación: El estado actual x(t) debe determinarse a partir de las entradas y salidas futuras u(τ ), y(τ ) : τ ≥ t. Problema de la reconstrucción El estado actual x(t) debe determinarse a partir de las entradas y salidas pasadas u(τ ), y(τ ) : τ :≥ t. Por la propia definición de invariancia en el tiempo es claro que para sistemas invariantes en el tiempo ambos problemas son equivalentes, es decir, Observabilidad ⇔ reconstructibilidad En lo que sigue se considerará únicamente el problema de la observación. 11.6.4 Criterio de observabilidad Para los sistemas lineales invariantes en el tiempo existe un criterio algebraico que permite discernir si el sistema será observable o no. Ese criterio está basado en la determinación del rango de una matriz que depende exclusivamente del par (A, C). El criterio se establece por medio del siguiente teorema. Teorema Un sistema P es observable si y sólo si rango O = n ³ en donde O = C T AT C T ... (An−1 )T C T ´T y n = dim x. La matriz O recibe el nombre de matriz de observabilidad Demostración 1. Necesidad Controlabilidad y observabilidad de sistemas dinámicos 222 Se trata de demostrar que si el sistema es observable, entonces el rango O = n. Ello es equivalente, por contradicción, a decir que si el rango O < n entonces el sistema es no observable. En efecto supóngase rango O < n y u(t) = 0 Para todo t ∈ [t0 , t1 ], se sabe que y(t) = CeAt x(t0 ) = n−1 X αi (t)CAi x(0) (11.10) i=0 Es sabido que el rango de una matriz es el mismo que el de su transpuesta. Es decir, que si el rangoO = n1 < n, entonces el rango OT = n1 . El hecho de que rango OT = n1 < n implica que las columnas de OT no generan el espacio de n dimensiones, es decir no generan X = Rn . El hecho de que las columnas de OT no generen Rn implica que existe un vector υ²Rn , υ 6= 0, tal que es ortogonal a las columnas de OT , es decir, ³ (AK )T C T ´ O T = C AK υ = 0 De (8) se tiene que para todo estado inicial x(t0 ) = KυKεR, la salida será y(t) = 0 lo que significa que existen estados iniciales x(t0 ) 6= 0 (todos los que de la forma Kυ) los cuales no pueden determinarse (distinguirse por observación de la señal de salida y(t) ante una entrada nula u[t0 , t1 ] = 0. Ello está en P contradicción con la hipótesis de que sea observable. 2. Suficiencia Se trata de demostrar que si el rango O = n entonces el sistema es observable, o lo que es lo mismo, por contradicción, que el hecho de que el sistema sea no observable, implica que el rango O < n. P Supóngase que no es observable. Entonces deben existir al menos dos estados x1 y x2 tales que x1 6= x2 y x1 indistinguible de x2 . Es decir CeAT x1 ≡ CeAT x2 Sea x0 = x1 − x2 ; entonces la respuesta de P para u = 0 a partir de x0 será Controlabilidad y observabilidad de sistemas dinámicos y(t) = CeAT x0 ≡ 0 223 (11.11) es decir que el estado x0 es indistinguible del estado de reposo. Derivando (11.11) n − 1 veces se tiene CeAt x0 = 0 CAeAt x0 = 0 An−1 eAt x0 = 0 Cx0 = 0 CAx0 = 0 .. . CAn−1 x0 = 0 es decir C CA .. . x0 = 0 CAn−1 Ox0 = 0 lo que implica rango O < n, ya que x0 6= 0. Por lo tanto que el sistema sea no observable implica que rango O < n. 11.7 Sistemas continuos Sea el cilindro con inercia unitaria, y sin rozamiento que hemos visto en los ejemplos de introducción. Controlabilidad y observabilidad de sistemas dinámicos 224 1. Supongamos, en primer lugar, que la salida del sistema es la posición angular del cilindro. En tal caso, la descripción interna del sistema viene dada por " ẋ = 0 1 0 0 # " x+ 0 1 # u es decir: " A= 0 1 0 0 # " B= 0 1 # y = [1 0]x Si se deja evolucionar libremente, a partir de unas condiciones iniciales x1 (0), x2 (0) el cilindro girar a velocidad constante. Si se registra la salida en el perı́odo (0, T ) se obtendrá una recta inclinada como la de la figura 11.10. De este registro se puede obtener fácilmente: y x1 (0) x2 (0) t T Figura 11.10: Trayectoria del sistema (a) La velocidad inicial, que es la pendiente de la recta. (b) La posición inicial, que es la coordenada en el origen. Por tanto a partir del registro de la salida y(t) es posible reconstruir el estado inicial del sistema. El sistema es por tanto observable. 2. Supongamos ahora que la salida, en lugar de ser la posición, es la velocidad de salida del sistema. En tal caso la ecuación de transición entre estados será la misma : " ẋ = 0 1 0 0 # " x+ 0 1 # u Controlabilidad y observabilidad de sistemas dinámicos 225 pero la función de salida se convertirá, en este caso, en: y = [0 1]x Si se registra ahora la salida se obtendrá una recta horizontal, ya que en virtud del principio de inercia la velocidad de rotación del cilindro permanece constante. Se tendrá, entonces, la evolución de la salida que se indica en la figura 11.11. De esta figura se obtiene inmediatamente la velocidad inicial del cilindro, que es la ordenada de la recta. Pero no se puede obtener su posición. Del sistema, en este caso, no es observable. y x2 (0) t T Figura 11.11: Evolución de la velocidad del sistema 11.8 Pérdida de observabilidad por muestreo Sea el sistema [oscilador lineal no amortiguado]. ÿ + a2 y = a2 u " A= 0 1 −a2 0 # " b= 0 a2 y = x1 ẏ = x2 Este sistema es claramente observable # c= h 1 0 i Controlabilidad y observabilidad de sistemas dinámicos " O= 1 0 0 1 226 # Supongamos que se muestrea " sI − A = φ(s) = (sI − A)−1 s −1 a2 s 1 = 2 s + a2 s s2 + a2 = a2 − 2 s + a2 # " 1 + s a2 s 2 s + a2 s 1 −a2 s # luego 1 cos (aT ) sin(aT ) φ(t) = a −a sin(aT ) cos (aT ) se tendrá O= 1 cos (aT ) 0 1 sin(aT ) a El sistema será no observable si sin(aT ) = 0 T = kπ a (k entero) Por tanto, para determinados valores del perı́odo del muestreo T el sistema pierde su observabilidad. Controlabilidad y observabilidad de sistemas dinámicos 11.8.1 227 Notas sobre observabilidad Se pueden hacer consideraciones semejantes a las desarrolladas en la sección respecto a la controlabilidad. En particular, y relativo a un cambio de base en X, se tiene que si x = T x, se tendrá que OT = O El resto de las notas se extienden ”mutatis mutandis” a la observabilidad. 11.9 Descomposición del espacio de estados en sus partes observables y no-observables De manera completamente similar a como se hizo en la sección 4 se puede descomponer el espacio de estados en sus partes observable y no-observable. Al igual que se hizo allı́ supóngase Σ = (A, b, c). Si rango O = n1 < n entonces existe una transformación no singular T tal que O1 T T T OT = . . . 0 ³ en donde O1 T : n1 × np. La determinación de O1 se hace a partir de OT I obteniendo una matriz equivalente ´ Controlabilidad y observabilidad de sistemas dinámicos ³ O1 Si se hace x = T −1 T . O T .. 1 ´ .. .. T . I ∼ ··· . T . 0 .. 228 x es fácil ver que à A11 0 A21 A22 A= à B= C= ³ B1 B2 ! ! C1 0 ´ La demostración es, en todo, excepto el detalle antes indicado, similar a la vista en la sección de controlabilidad. Se invita al lector a desarrollarla él mismo. En las bases que resultan de la anterior transformación, el sistema Σ puede escribirse como sigue: ẋ = A11 x1 + B 1 u ẋ2 = A21 x1 + A22 x2 + B 2 u y = C 1 x1 Esta forma de escribir el sistema puede representarse como se hace en el diagrama de bloques de la figura 11.12, en donde es aparente que sólo el subespacio x1 es observable, es decir, solo este subespacio influye sobre la salida. Además, es evidente que la función de transferencia del sistema considerado depende exclusivamente de la terna (A11 , B1 , C1 ), es decir, que un sistema con esta última terna tiene la misma función de transferencia que el sistema original. Controlabilidad y observabilidad de sistemas dinámicos C1 x̄1 = Ā11 x̄1 + B̄1 u 229 y x2 = A21 x1 + A22 x2 + B2 u Figura 11.12: Diagrama de bloques de un sistema no observable 11.10 Descomposición canónica del espacio de estados Por aplicación sucesiva de las transformaciones indicadas en las secciones de descomposición en partes obs. y control. o no, se pueden extraer las partes controlable y observable de un sistema dinámico lineal. El resultado se puede enunciar como sigue: Sea Σ = (A, B, C). Si rango OC = n1 < n entonces existe Σ = (A, B, C) tal que: 1. Σ ∼ Σ 2. A11 0 A13 A = A21 A22 A23 0 0 A33 B1 B= B2 0 C= ³ C1 0 C3 ´ Se dice que (A11 , B 1 , C 1 ) es el subsistema controlable y observable de Σ. Controlabilidad y observabilidad de sistemas dinámicos 230 La función de transferencia del sistema (A, B, C, ) es la misma que la del sistema (A11 , B1 , C1 ). Es decir, que solo las partes controlables y observables de un sistema influyen en su función de transferencia, o sea, en su descripción externa. Este resultado será tratado con detenimiento en el capı́tulo del problema de la realización mı́nima, que es aquella que dando lugar a la misma función de transferencia, o descripción externa, tiene una dimensión del vector de estados X mı́nima. Ejemplo: Se trata de extraer la parte controlable y observable del sistema cuyo terna (A, B, C) es el siguiente: 1 0 0 1 ³ ´ A= 1 1 2 B= 1 C= 1 1 1 −1 0 −1 −1 La matriz de controlabilidad es 1 1 1 C= 1 0 1 −1 0 −1 cuyo rango es 2. Por lo tanto la dimensión del subespacio controlable es 2. 1 1 1 1 0 0 1 0 1 0 1 0 (C I) = ∼ −1 0 −1 0 0 1 1 1 1 1 0 0 ∼ 0 −1 0 −1 1 0 ∼ 0 1 0 1 0 1 1 1 1 1 0 0 ∼ 0 −1 0 −1 1 0 0 0 0 0 1 1 luego Controlabilidad y observabilidad de sistemas dinámicos 1 0 0 T = −1 1 0 0 1 1 y T −1 1 0 0 1 0 = 1 −1 −1 1 Por lo tanto A = T AT −1 1 0 0 = −1 −1 2 0 0 1 1 B = TB = 0 0 C = CT −1 = ³ 1 0 1 Luego la parte controlable de (A, B, C) es à Ac = 1 0 −1 −1 à Bc = Cc = ³ 1 0 ! ! 1 0 ´ La matriz de observabilidad de (Ac , Bc , Cc ) es à Oc = 1 0 1 0 ! ´ 231 Controlabilidad y observabilidad de sistemas dinámicos 232 cuyo rango es 1. Una atenta observación de (Ac , Bc , Cc ) pone de manifiesto que, casualmente, no es necesario aplicar el algoritmo de descomposición puesto que ya es aparente. En efecto el subsistema observable de (Ac , Bc , Cc ) es Am = 1 bm = 1 cm = 1 La parte observable y controlable de un sistema recibe el nombre de realización mı́nima del mismo. En general la terna (Ac , Bc , Cc ) necesitará ser sometida al algoritmo de descomposición para la extracción de su parte observable. Se va a comprobar que la función de transferencia de (Am , Bm , Cm ) es la misma que la de (A, B, C). En primer lugar se calcula (sI − A)−1 . para ello se aplica el algoritmo de Leverrier (Wiherg, pag. 102). 1 0 0 A= 1 1 2 −1 0 −1 F1 = I a1 = −r̃ AF1 /1 = −1 0 0 0 F2 = AF1 + a1 I = 1 0 2 a2 = r̃AF2 /2 = −1 −1 0 −2 −1 0 0 F3 = AF2 + a2 I = −1 −1 −2 a3 = −r̃AF3 /3 = 1 1 0 1 luego Controlabilidad y observabilidad de sistemas dinámicos (sI − A)−1 233 s2 − 1 0 0 1 2s − 2 = s − 1 s2 − 1 ∆(s) 2 −s + 1 0 s − 2s + 1 siendo ∆(s) = s3 − s2 − s + 1. Es fácil ver que T (s) = c(sI − A)−1 b = (s2 − 1) s2 − 1 1 = = 3 2 2 s −s −s+1 (s − 1)(s − 1) s−1 que es la misma función de transferencia que se obtiene de la terna (Am , Bm , Cm ). 11.11 Formas canónicas Las expresiones estudiadas permiten transformar la terna (A, B, C) en otra forma de representación, de manera que se siga representando el mismo sistema dinámico. Desde un punto de vista del espacio de estados ello es equivalente a que el vector de estados se puede representar en distintas bases. Debe resaltarse, sin embargo, que el vector de estados es un objeto abstracto, sin ninguna referencia, en principio, con magnitudes fı́sicas medibles. Es decir, no existe una base ”natural” para representar a X. Ello hace que según la naturaleza del problema a tratar se adopten unas bases para el vector de estado que hagan que la forma que toma en ellas la terna (A, B, C) sea lo más cómoda posible para la resolución del problema en cuestión. En ello reside una de las grandes ventajas del uso de la descripción interna, ya que ésta permite escoger la forma de representación de la terna (A, B, C) más cómoda en cada caso. Aunque se pueden concebir múltiples formas para la terna (A, B, C) existen dos especialmente interesantes para las aplicaciones prácticas a problemas de control. Son estas: La forma canónica de control y la forma canónica de observación. Cada una de ellas está relacionada con los problemas de control y de observación según se verá en lo que sigue. En otro apartado se introdujeron las formas canónicas de control y observación, al obtener la representación por variables de estado, de una forma in- Controlabilidad y observabilidad de sistemas dinámicos 234 tuitiva. Aquı́ se introducirán estas formas canónicas bajo una óptica algebraica que permita tanto su generalización cómoda a sistemas multivariables como su aplicación práctica. Formas canónicas de control d(s)y = n(s)u Sea la nueva variable v tal que d(s)v = u luego d(s)y = n(s)d(s)v es decir y = n(s)v Sea x1 = v x2 = ẋ1 .. .. . . xn = ẋn−1 = v̇ .. . = v (n−1) d(s)v = u ⇒ ẋn = an x1 − an−1 x2 − · · · + u y = n(s)v ⇒ y = b1 v (n−1) + b2 v (n−2) + · · · + bn−1 v̇ + bvn = bn x1 + bn−1 x2 + · · · b1 xn En resumen Controlabilidad y observabilidad de sistemas dinámicos ẋ1 ẋ2 ẋ3 .. . ẋn−1 0 0 = 0 −an 1 0 0 1 0 0 −an 1 −an−1 ... 0 ... 0 ... 1 ... −a1 ẋn 235 x1 x2 ... ... ... xn + 0 0 ... ... ... 1 n Sistemas monovariables Sea el sistema Σ = (A, B, C), cuya matriz de controlabilidad es ³ C = B AB ... An−1 B ´ Si se cambia de base al vector x de manera que x = Tc x se tendrá (apartado 4.2). Tc = CC −1 Todo sistema monovariable controlable se puede representar en unas bases x tales que 0 0 0 .. . A= 1 0 0 .. . 0 1 0 .. . ... ... ... 0 0 1 .. . −an −an−1 −an−2 ... −a1 T B = C= ³ ³ 0 0 0 ... 1 ´ bn bn−1 bn−2 ... b1 siendo la función de transferencia del sistema ´ Controlabilidad y observabilidad de sistemas dinámicos 236 b1 sn−1 + b2 sn−2 + · · · + bn G(s) = n s + a1 sn−1 + a2 sn−2 + · · · + an Al par (A, b) corresponde una matriz de controlabilidad C cuya forma es: 0 0 .. . C= 0 0 0 0 .. . 0 0 .. . ··· ··· .. . 0 1 .. . 1 β1 .. . βn−2 (11.12) 0 1 ··· ··· 1 β1 · · · βn−3 1 β1 β2 · · · βn−2 βn−1 En donde los elementos β, se generan de acuerdo con la recurrencia βi = ³ −an −an−1 0 0 .. . ´ βo ... −a1 . .. βi−2 βi−1 siendo βo = 1. Es decir C puede construirse a partir del conocimiento de los coeficientes del denominador de G(s) o del polinomio caracterı́stico de A. Es fácil ver también que C basta comprobar que CC −1 −1 = an−1 an−2 an−2 an−3 ... a1 1 1 0 ... a1 1 ... 1 0 ... ... 0 0 0 (11.13) 0 = I. De todo lo anterior se concluye que a partir de la terna (A, B, C), en forma arbitraria, es posible determinar una transformación Tc que transforme dicha Controlabilidad y observabilidad de sistemas dinámicos 237 terna en la forma canónica de control. Para determinar Tc se procede como sigue: 1. Se determina C a partir de (A, B) y se invierte. Se tiene C −1 . 2. Se determina C a partir del polinomio caracterı́stico de A (recordar (10)). 3. Se hace Tc = CC −1 . Una forma alternativa de proceder es la siguiente: 1. Se determina C a partir de (A, B). 2. Se determina C −1 a partir del polinomio caracterı́stico de A (recordar (11)). 3. Se hace Tc−1 = CC −1 Como siempre se requiere Tc y Tc−1 el segundo procedimiento evita una inversión de matrices. Ejemplo Sea el sistema dinámico cuya terna (A, B, C) es la siguiente: 1 1 0 1 A = 0 1 −1 B = 1 2 3 1 −1 C= ³ 0 1 2 ´ Se trata de determinar su forma canónica de control. La matriz de controlabilidad es 1 2 4 C = 1 2 −2 −1 4 14 Controlabilidad y observabilidad de sistemas dinámicos 238 y el polinomio caracterı́stico de A es ϕ(A) = s3 − 3s2 + 6s − 2 Luego (expresión (2)) C −1 6 −3 1 = −3 1 0 1 0 0 Tc−1 = CC −1 4 −1 1 = −2 −1 1 −4 7 −1 0, 1667 −0, 1667 0 0 0, 1667 Tc = 0, 1667 0, 5 0, 6667 0, 1667 La forma canónica de control es x = T x A = Tc ATc−1 0 1 0 = 0 0 1 2 −6 3 0 B = Tc B = 0 1 C = CTC−1 = ³ −10 13 −1 ´ Obsérvese que para determinar A y B basta con conocer el polinomio caracterı́stico de A; por lo tanto no se necesita emplear las expresiones anteriores, ni se requiere el conocimiento de Tc , ni de Tc−1 . Para lo que si es indispensable la determinación de Tc−1 es para calcular C. Pero, obsérvese, que solo para este último caso se necesita conocer Tc−1 , de modo que puede evitarse el determinar Tc , evitando ası́ el tener que invertir la matriz Tc−1 . Es decir, la determinación de la terna (A, B, C) a partir de la (A, B, C), puede hacerse sin tener que recurrir Controlabilidad y observabilidad de sistemas dinámicos 239 a ninguna inversión inicial, ya que la determinación de Tc−1 , de acuerdo con el segundo de los métodos antes propuestos, puede hacerse sin necesidad de invertir ninguna matriz. Este hecho es de gran importancia en las aplicaciones prácticas por evitar una operación que tantas dificultades comporta. A partir de la terna (A, B, C) es inmediato escribir la función de transferencia del sistema que en este caso resulta ser G(s) = −s2 + 13s − 10 s3 − 3s2 + 6s − 2 Por lo tanto, la determinación de la terna (A, B, C) suministra un método indirecto para determinar la función de transferencia asociada a una terna (A, B, C). 11.11.1 Forma canónica de observación Sistemas monovariables En forma completamente similar a como se hizo en la forma canónica de control se puede determinar la transformación T0 tal que x = T0 x. A= T B = ³ 0 1 0 .. . 0 ... 0 −an 0 ... 0 −an−1 1 ... 0 −an−2 .. .. .. .. . . . . 0 0 ... 1 −a1 bn bn−1 bn−2 ... b1 C= ³ 0 0 ... 1 ´ ´ Según se vio la terna (A, B, C) recibe el nombre de forma canónica de observación. Si x = T0 x se tendrá −1 T0 = O O Controlabilidad y observabilidad de sistemas dinámicos 240 Procedimiento en forma similar a como se hizo en la forma canónica de control, se puede ver que O −1 = an−1 an−2 an−2 an−3 ...a1 1 1 0 ... a1 ... 1 ... 0 ... 0 1 0 0 0 Se puede concebir un procedimiento para obtener la forma canónica de observación similar al desarrollo en la forma canónica de control. Para determinar T0 se procede como sigue: 1. A partir de (A, C) se determina O. −1 2. A partir del polinomio caracterı́stico de A se determina O . −1 3. Se hace T0 = O O. Ejemplo Sea el sistema considerado en el ejemplo de la forma canónica de control. Se trata de determinar su forma canónica de observación. Se tiene O −1 6 −3 1 = −3 1 0 1 0 0 y 0 1 2 O= 4 7 1 6 14 −6 luego Controlabilidad y observabilidad de sistemas dinámicos 241 −6 −1 3 −1 4 −5 T0 = O O = 4 0 1 2 T0−1 0, 2241 −0, 0862 0, 1207 0, 2069 0, 3103 = 0, 1379 −0, 0690 −0, 1034 0, 3448 Es decir A = T0 AT0−1 0 0 2 = 1 0 −6 0 1 3 −10 B = T0 B = 13 −1 C = CT0−1 = ³ 0 0 1 ´ Tema 12 Sı́ntesis de sistemas de control por variables de estado 12.1 Ley de Control Al definir el estado de un sistema dinámico, se ha visto como éste resume el pasado dinámico del sistema, y es cuanto se necesita para predecir la futura evolución del mismo. Es decir, conocido el estado de un sistema en un instante determinado, está completamente determinada la evolución del sistema a partir de dicho instante. Con otras palabras, conocido el estado en un instante determinado, los valores que toma la señal de salida a partir de dicho instante, dependen exclusivamente de la señal de entrada que se aplique a partir del instante en el que se ha definido el estado. Al diseñar un sistema de control lo que se pretende es conseguir para el sistema una evolución preestablecida. Se trata de determinar las señales de entrada que hay que aplicar al sistema para que la evolución del mismo sea la requerida. Puesto que el estado es cuanto se necesita conocer para predecir la futura evolución de un sistema, es claro que cuanto se necesitará saber para poder adoptar una decisión respecto a qué señales aplicar al sistema será, precisamente, el estado. Es decir, una ley de control (polı́tica de mando) es una relación que liga la señal de mando que se aplica al sistema y el estado en que éste se encuentra, supuesto definida previamente una meta de la acción. 242 Sı́ntesis de sistemas de control por variables de estado 243 El principio en virtud del cual los valores de la señal de entrada deben calcularse a partir del estado, fue enunciado por Richard Bellman a mediados de la década de los cincuenta, y puede considerarse como la idea fundamental de la teorı́a moderna de control. El punto principal reside en que el estado incorpora toda la información necesaria para determinar las acciones de control que deben ser tomadas, puesto que la evolución futura del sistema está completamente determinada por el estado presente y los valores futuros de la señal de entrada. Cuando la meta es la reproducción a la salida de una señal de referencia r se podrá escribir la ley de control en la forma u = f (x, r) que se puede interpretar gráficamente en la figura 12.1. u ẋ B R x C y a) Sistema en bucle abierto A ẋ B R x C y A REGULADOR b)Sistema en bucle cerrado Figura 12.1: Sistema de control por variables de estado Debe notarse, que en el esquema de la figura 12.1-b se supone que los compo- Sı́ntesis de sistemas de control por variables de estado 244 nentes del vector de estado se pueden identificar con magnitudes fı́sicas medibles y que son estas magnitudes las que definen las señales que se realimentan. El caso en que la anterior identificación no sea posible se discutirá más adelante. En lo que sigue se considerarán leyes de control lineales de la forma u = k (r − (k1 x1 + k2 x2 + · · · + kn xu )) = k (r − K x) (12.1) siendo K = (k1 k2 ... ku ) La representación gráfica de una ley de control lineal para sistemas monovariables se tiene en la figura 12.2. u ẋ B X + R x A - C y PLANTA K REGULADOR Figura 12.2: Control lineal La introducción de una ley de control lineal da lugar, en bucle cerrado, al siguiente sistema: • en bucle abierto se tiene: ẋ = Ax + Bu Sı́ntesis de sistemas de control por variables de estado 245 si se hace u = k (r − Kx) se tendrá : • en bucle cerrado ẋ = Ax + kB (r − Kx) = (A − kBK)x + Bkr y = Cx (12.2) (12.3) cuya función de transferencia es Y (s) = C(sI − A + kBK)−1 Bk R(s) (12.4) Para aclarar el efecto de la ley de control lineal se puede recurrir a dos interpretaciones. Estas interpretaciones se hacen, sin pérdida de generalidad, para n = 2. 12.1.1 Interpretación por diagramas Sea el sistema dinámico descrito por la ecuación diferencial ÿ + a1 ẏ + a2 y = u (12.5) cuya función de transferencia es 1 Y (s) = 2 U (s) s + a1 s + a2 (12.6) y cuyo diagrama se tiene en la figura 12.3 a). u = k (r − k1 x1 − k2 x2 ) (12.7) Sı́ntesis de sistemas de control por variables de estado 246 se tendrá el sistema cuyo diagrama se tiene en la figura 12.3 b), que a su vez puede simplificarse al de la figura 12.3 c). De la figura 12.3 c) se desprende fácilmente que la función de transferencia en bucle cerrado será Y (s) k = 2 R(s) s + (a1 + kk2 )s + (a2 + kk1 ) 12.1.2 (12.8) Interpretación algebraica El sistema dinámico ÿ + a1 ẏ + a2 y = u (12.9) admite una representación por variables de estado cuya forma canónica de control es à A= ! 0 1 −a2 −a1 à B= C= ³ 0 1 ! 1 0 ´ Si se le aplica una ley de control de la forma u = kr − k (k1 k2 ) x Se tendrá à ẋ = 0 1 −a2 −a1 ! à x− 0 1 ! ³³ kk1 kk2 ´ x+kr ´ Sı́ntesis de sistemas de control por variables de estado u x2 1 s x1 1 s 247 1 y −a1 a) −a2 −K k1 −K k2 r u K x2 1 s x1 1 s −a1 y 1 b) −a2 r K u x2 1 s 1 s x1 1 y −(a1 + Kk2 ) c) −(a2 + Kk1 ) Figura 12.3: Control por variables de estado de un sistema de segundo orden Sı́ntesis de sistemas de control por variables de estado à ẋ = 0 1 −a2 kk1 −a1 − kk2 y= ³ 1 0 ! ´ à x+ 248 0 k ! r x Cuya función de transferencia es Y (s) k = 2 R(s) s + (a1 + kk2 ) s + (a2 + kk1 ) que coincide con la expresión (9) obtenida más arriba. Como resumen de lo anterior cabe decir que por una conveniente elección de la ley de control puede alterarse arbitrariamente el denominador de la función de transferencia en bucle cerrado del sistema, dejando inalterado el numerador excepto en la constante k. Normalmente, en lo que se sigue, se hará k = 1. 12.1.3 Determinación de la ley de control Sistemas monovariables Se supondrá k = 1. En caso contrario los coeficientes de la ley de control vendrán afectados por la constante k. Es decir la ley de control que se adopta es de la forma u = r − Kx siendo K = (k1 k2 ... kn ) Supóngase que A (en bucle abierto) tiene un polinomio caracterı́stico. Sı́ntesis de sistemas de control por variables de estado 249 ϕ(A) = sn + a1 sn−1 + · · · + an (12.10) Y supóngase que se quiere tener en bucle cerrado una matriz A∗ tal que ϕ(A∗ ) = sn + α1 sn−1 + · · · + αn (12.11) Este polinomio será, precisamente, el denominador de la función de transferencia en bucle cerrado. Si el sistema se escribe en la forma canónica de control la ley de control tendrá unos coeficientes K = (αn − an αn−1 − an−1 ... α1 − a1 ) (12.12) En efecto, es inmediato comprobar que escribiendo (A, B) en la forma canónica de control se tiene ∗ A = A − BK = 0 0 .. . 1 0 .. . 0 1 .. . ... ... 0 0 .. . 1 0 0 0 ... −αn −αn−1 −αn−2 α1 Para un par (A, B) arbitrario se puede establecer el siguiente procedimiento sistemático para la determinación de la ley de control. Se parte de (A, B) y de ϕ(A∗ ): 1. se determina ϕ(A) a partir de A. 2. Se determina C a partir de los coeficientes ai de ϕ(A). 3. Determinar C a partir de (A, B). y se invierte para tener C −1 . 4. Determinar K a partir de ϕ(A) y de ϕ(A∗ ) de acuerdo con (12.12). ³ ´ 5. Determinar K = K CC −1 . Sı́ntesis de sistemas de control por variables de estado 250 La justificación del anterior procedimiento es muy simple y se deja como ejercicio al lector. En esencia consiste en determinar la ley de control en las bases correspondientes a la forma canónica de control K , de acuerdo con la expresión (12.12), y posteriormente transformar esta ley a las bases del par original K. Ejemplo Sea el sistema dinámico lineal cuyo par (A, B) es el siguiente: 1 0 2 1 0 B= 2 A = 0 −1 1 0 −1 1 Se pide la ley de control para que el sistema realimentado tenga un polinomio caracterı́stico. ϕ(A∗ ) = (s2 + s + 1) (s + 10) Procediendo como se indica más arriba se tiene 1. Se calcula el polinomio caracterı́stico de A. ϕ(A) = (s2 − 3) (s + 1) = s3 + s2 − 3s − 3 Obsérvese que el sistema es inestable. 2. Se determina C . β1 = ³ 3 3 −1 ´ β2 = luego ³ 3 3 −1 ´ 0 0 = −1 1 0 1 =4 −1 Sı́ntesis de sistemas de control por variables de estado 251 0 0 1 1 −1 C= 0 1 −1 4 3. Se determina C que resulta ser: 1 3 3 2 −2 2 C= 1 0 3 cuya inversa es C −1 0, 5 0, 75 −1 0 −0, 333 = 0, 333 −1, 667 −0, 25 0.6667 4. A partir de ϕ(A) y de ϕ(A∗ ) se obtiene k K = (10 − (−3) 11 − (−3) 11 − 1) = (13 14 10) 5. Se obtiene ³ ´ K = K CC −1 = (0, 1680 − 2, 25 14.6681) Se invita al lector a que compruebe que ϕ(A − BK) = s3 + 11s2 + 11s + 10 12.2 Observadores Según se ha visto en la sección 1 de la ley de control es función de las variables de estado del sistema. En consecuencia, para realizar fı́sicamente una ley de control es necesario disponer de unas señales que reproduzcan a las componentes del vector de estado. Sin embargo al introducir la noción de estado se ha visto que éste es un concepto abstracto sin, en principio, ninguna realidad fı́sica subyacente. Sı́ntesis de sistemas de control por variables de estado 252 Es decir, que si bien en determinados casos será posible identificar a los componentes del vector de estados con magnitudes fı́sicas medibles, este no será el caso más general. En el caso en que las variables de estado puedan identificarse con magnitudes fı́sicas medibles se dirá que el vector de estado es accesible. En el caso contrario, es decir en el caso de que el vector de estado no sea accesible, para poder aplicar una ley de control hay que recurrir a un camino indirecto para obtener el estado. Consiste en diseñar un sistema dinámico, denominado observador, tal que alimentado por las señales accesibles (de entrada y/o salida) suministre a su salida unas señales, que se denotan por x̂, que reproduzcan la evolución del estado del sistema original. En otra sección , se ha definido el problema de la observación, como un problema de reconstrucción del estado a partir de las señales de entrada y de salida. En consecuencia, el observador, como sistema dinámico, no es sino una solución mecanizada del problema de la observación. En consecuencia, el problema no tendrá solución más que cuando el sistema sea observable; es decir, será posible sintetizar un observador solamente para un sistema observable. Planteado ası́, el problema de la sı́ntesis de un observador, tiene una gran generalidad. En lo que sigue se concretarán las soluciones de mayor interés. 12.2.1 Sistemas monovariables Observador en bucle abierto Es la solución más simple al problema de la observación del estado. Consiste, sencillamente, en una realización fı́sica (analógica) de la ecuación diferencial. ẋ = Ax + Bu (12.13) la cual permite tener en determinados puntos las señales que reproducen al estado. Su diagrama se tiene en la figura 12.4. Los inconvenientes que presenta este observador son los siguientes: 1. Para que funcione correctamente se requiere el conocimiento del estado Sı́ntesis de sistemas de control por variables de estado u ẋ x R b 253 y c A SISTEMA ORIGINAL R b A OBSERVADOR Figura 12.4: Observador en bucle abierto x̂ Sı́ntesis de sistemas de control por variables de estado 254 inicial. 2. Es muy sensible a los errores en la estimación de los parámetros que intervienen en A y B. En particular si algún auto valor de A es positivo, el más mı́nimo error (siempre existente en la práctica) en la evaluación del mismo, o en la sı́ntesis del observador, produce la inestabilidad del conjunto. Observador asintótico Con el observador asintótico se pretende tener la garantı́a de que, aunque se produzcan problemas del tipo de los aludidos al final de la sección anterior siempre cumplirá la condición siguiente lim (x̂ − x) = 0 t→∞ (12.14) es decir que la señal de salida del observador x̂ converge al estado real del sistema x, al menos para t → ∞. El que se cumpla la propiedad de la expresión 12.14 se consigue muy fácilmente con una ligera modificación del observador en bucle abierto (figura 12.4) para convertirlo en un observador en bucle cerrado. La modificación parte de una idea muy simple que consiste en comparar la señal de salida y(t) del sistema real con la señal de salida ŷ que se obtiene a partir de la señal x̂ de salida, del observador de acuerdo con la expresión: ŷ = C x̂ El error entre ŷ e y se emplea para corregir el funcionamiento del conjunto. Una solución que explota la anterior idea es la de la figura 12.5. Este observador recibe el nombre de observador de Luenberger. Obsérvese en la figura 12.5 que: x̂˙ = Ax̂ + L(y − C x̂) + Bu es decir (12.15) Sı́ntesis de sistemas de control por variables de estado u ẋ SISTEMA ORIGINAL x R B 255 y C A + ` - ŷ C R B A OBSERVADOR Figura 12.5: Observador asintótico x̂ Sı́ntesis de sistemas de control por variables de estado 256 x̂˙ = (A − LC)x̂ + Ly + Bu (12.16) x̃ = x̂ − x (12.17) x̃˙ = (A − LC) x̃ (12.18) Si se define Restando (16) de (14) se tiene Si los autovalores de (A − LC) son negativos se tendrá que lim x̃ = 0 t→∞ es decir x̂ converge a x. El problema de la sı́ntesis de un observador se reduce a una conveniente elección de L para que (A − LC) tenga unos autovalores apropiados. Se discuten a continuación dos posibles soluciones al problema. Observador asintótico del mismo orden Según se ha visto , todo sistema observable puede escribirse en la forma canónica de observación: ẋ = 0 0 ... 0 −an 1 0 ... 0 −an−1 0 1 ... 0 −an−2 ... 0 0 ... 1 −a1 y= ³ bn bn−1 x+ . u . . 0 0 ... 1 b1 ´ x (12.19) Sı́ntesis de sistemas de control por variables de estado 257 Si se hace LT = (l1 l2 ... ln ) (12.20) Se tiene A − LC = 0 1 0 ... 0 0 0 1 ... 0 ... ... ... ... ... 0 −an − l1 0 −an−1 − l2 0 −an−2 − l3 ... ... 1 −a1 − ln (12.21) Como los elementos de la última columna de A − LC determinan su ecuación caracterı́stica, ésta podrá elegirse arbitrariamente mediante una adecuada selección de L. Obsérvese la dualidad entre el problema de determinar la ley de control y el de sintetizar un observador asintótico del mismo orden. Observador asintótico de orden mı́nimo En el observador del mismo orden no se ha tenido en cuenta que en la forma canónica de observación y = xn , y por lo tanto la señal de salida (que es obviamente accesible) reproduce el elemento xn del vector de estado. En consecuencia es posible concebir, en principio, un observador cuya salida sean las (n − 1) componentes restantes de x. Este observador recibe el nombre de observador mı́nimo, pues su orden es n − 1. Supóngase que se tiene el par (A, B) correspondiente a un sistema del que se quiere construir un observador. Para fijar ideas supóngase n = 3. En la ecuación que rige el comportamiento dinámico del sistema, se pueden particionar los bloques que se indican en la expresión siguiente: ẋ1 ẋ2 ··· ẋ3 = . a11 a12 .. a13 . a21 a22 .. a23 ··· ··· . ··· . a31 a32 .. a33 x1 x2 ··· x3 + b1 b2 ··· b3 u Sı́ntesis de sistemas de control por variables de estado 258 Para diseñar el observador de orden mı́nimo se adopta una expresión como la anterior haciendo y = x3 . Llamando x̂1 y x̂2 a las observaciones del estado, obtenidas del observador, se tiene que la ecuación dinámica del mismo puede escribirse como sigue: à ˆ1 ẋ ˆ2 ẋ à ! = a11 a12 a21 a22 ! à x̂1 x̂2 ! à + a13 a23 ! à y+ b1 b2 ! u En donde se ha prescindido de la tercera lı́nea, la correspondiente a x3 , por ser innecesaria. Se tiene en la expresión anterior un sistema dinámico que alimentado por las señales de entrada u y de salida y, permite obtener las componentes del vector de estado x̂1 y x̂2 . Se ha resuelto con ello el problema de obtener un observador de orden mı́nimo, es decir, un observador cuyo orden sea n − 1. Sin embargo, el observador anterior puede adolecer del defecto de que su comportamiento dinámico no sea satisfactorio. Puede, incluso, ser inestable. Ello es debido a que la submatriz (n − 1) × (n − 1) superior izquierda de A, tendrá unos autovalores arbitrarios que, para una forma cualquiera de A, escapan de la decisión del diseñador del observador. Afortunadamente, es posible tener la matriz A en una forma tal que el bloque superior izquierdo que interesa para la sı́ntesis del observador, tenga unos autovalores previamente especificados. Ello se consigue con la transformación T1 que se estudia a continuación. Sea x el vector de estado en la base correspondiente a la forma canónica de observación. Se aplica a x la transformación T1 , de manera que x = T1 x, estando T1 definido por T1 = 1 0 .. . 0 ... 0 −γn−1 1 ... 0 −γn−2 .. . .. . . .. . 0 0 ... 1 −γ1 0 0 ... 0 1 (12.22) en donde el significado de los coeficientes γi se verá más abajo. Es fácil ver que Sı́ntesis de sistemas de control por variables de estado −1 T1 = 1 0 .. . 0 ... 0 γn−1 1 ... 0 γn−2 .. . .. . . .. . 0 0 ... 1 γ1 0 0 ... 0 1 259 (12.23) Se tendrá A = 0 1 0 .. . 0 ... 0 γn−1 µ1 0 ... 0 −γn−2 µ2 1 ... 0 −γn−3 µ3 .. .. .. .. . . . . 0 0 ... 1 −γ1 µn−1 0 0 ... 0 1 µn B = bn − γn−1 b1 bn−1 − γn−2 b1 .. . b2 − γ1 b1 b1 (12.24) siendo los coeficientes µi función γi y de ai . La forma obtenida para la matriz A es tal que la submatriz (n−1)×(n−1) que se denotará por A11 superior izquierda tiene el siguiente polinomio caracterı́stico: ϕ(A11 ) = sn−1 + γ1 sn−2 + · · · + γn−2 s + γn−1 Por lo tanto, eligiendo convenientemente los valores de los coeficientes γi de este polinomio, que determinan la matriz T1 , se puede tener un comportamiento arbitrario para el observador. La ecuación que regirá el comportamiento dinámico del observador será la siguiente: Sı́ntesis de sistemas de control por variables de estado d dt x1 x̂2 .. . x̂n−1 = 0 0 ... 0 −γn−1 1 0 ... 0 −γn−2 0 1 ... 0 −γn−3 ... 0 0 ... 1 −γ1 µ1 µ2 .. . + 260 x̂ x̂2 .. . (12.25) x̂n−1 y + b.u µn−1 lo que permite diseñar un observador de orden mı́nimo con la estructura de la figura 12.6. En este diagrama la transformación T es la que permite obtener la forma canónica de observación. Los parámetros γi son los coeficientes del polinomio caracterı́stico del observador. Σ y ¯n y = x̄ OBSERVADOR ASINTOTICO MINIMO ˆ¯ x̄ T1−1 ˆ x̄ x̂ T −1 Figura 12.6: Observador asintótico mı́nimo Un problema importante, respecto al que en la actualidad no existe una solución completamente satisfactoria, es el de la elección de los parámetros γi que aparecen en el polinomio caracterı́stico del observador. Este polinomio caracterı́stico es el responsable del comportamiento dinámico del observador, y por lo tanto estos coeficientes deben determinarse de suerte que el seguimiento de los valores reales del estado por la salida del observador sea adecuado al comportamiento global del sistema. Es decir, deben determinarse para que el observador sea ”más rápido” en la respuesta que el propio sistema. Sin embargo, aparte de esta idea intuitiva y clara que debe presidir la elección del polinomio caracterı́stico, no existen criterios generales para la determinación del mismo. Los Sı́ntesis de sistemas de control por variables de estado 261 únicos criterios analı́ticos que se han publicado para la elección de estos coeficientes, lo han sido dentro del marco de la teorı́a del control óptimo. Es de resaltar, por último, el carácter asintótico del observador mı́nimo. Se invita al lector a que compruebe por sı́ mismo directamente este punto. Ejemplo Sea el sistema cuya forma canónica de observación se determinó en el ejemplo de sistemas monovariables en forma canónica de observación. Supóngase que se quiere diseñar un observador tal que sus autovalores sean λ1 = −4 λ2 = −5 es decir, el polinomio caracterı́stico del observador será ϕ(obs.) = (s + 4) (s + 5) = s2 + 9s + 20 según (23) y (24) se tiene 1 0 −20 T1 = 0 1 −9 0 0 1 T1−1 1 0 20 = 0 1 9 0 0 1 Se toma Ao y B o en la forma canónica de observación, y se tiene A = T1 Ao T1−1 0 −20 −238 = 1 −9 −94 0 1 12 −30 B = T1 bo = 22 1 Sı́ntesis de sistemas de control por variables de estado 262 Por lo tanto la ecuación dinámica del observador resulta ser à ˆ = ẋ 0 −20 1 −9 ! à x̂ + −238 −94 ! à y+ ! 30 22 u Con una conversión a las bases originales a la forma x1 −02241 −0, 0862 −5, 1371 −1 −1 0, 2069 4, 9304 x2 x̂ = To T1 x̂ = 0, 1379 0, 0690 0, 1039 1, 9658 y 12.3 Sı́ntesis del sistema en bucle cerrado En la sección 1 se ha considerado la determinación de la ley de control para el caso en que las variables de estado fuesen accesibles. En la sección 2 se han estudiado los observadores que permiten observar (evaluar) el estado cuando este no es accesible. La solución inmediata a la sı́ntesis de un sistema de control cuando el sistema no es accesible es aplicar la ley de control a las señales obtenidas a la salida del observador, que reproducen el estado de un sistema, de acuerdo con el diagrama de la figura 12.7. r u Σ y x̄ OBSERVADOR LEY DE CONTROL Figura 12.7: Sistema de control por variables de estado con observador Para estudiar el sistema conjunto se procede como sigue: Sea el sistema en bucle abierto Sı́ntesis de sistemas de control por variables de estado ẋ = Ax + Bu y = Cx 263 (12.26) (12.27) Y supóngase que se ha determinado una ley de control u = r − Kx (12.28) siendo la ecuación del observador asintótico x̂˙ = Ax̂ + L(y − C x̂) + Bu (12.29) La ley de control se aplica sobre la estimación del estado x̂. Es decir, en realidad la expresión de la ley de control toma la forma u = r − K x̂ (12.30) La evolución del sistema en bucle cerrado vendrá regida por las ecuaciones (12.26), (12.29) y (12.30). Llevando (12.30) a (12.26) y a (12.29) se tiene ẋ = A x − B k x̂ + Br x̂˙ = Ax̂ − LC(x̂ − x) + Br − Bkx̂ (12.31) (12.32) Llamando x̃ = x̂ − x, la expresión (12.31) se puede escribir ẋ = (A − BK)x − BK x̃ + Br (12.33) Por otra parte restando (12.33) de (12.32) se tiene x̃˙ = (A − LC) x̃ (12.34) Sı́ntesis de sistemas de control por variables de estado 264 Las expresiones (12.33) y (12.34) se pueden escribir de una forma compacta como sigue : d dt à x x̃ ! à = A − BK −BK 0 A − LC y= ³ C 0 ´ à ! à x x̃ x x̃ ! à + B 0 ! r ! (12.35) De un atento análisis de la expresión (35) se desprenden dos conclusiones: 1. Los autovalores del sistema en bucle cerrado son la unión de los correspondientes a (A − BK) y los correspondientes a (A − LC). Esta propiedad recibe el nombre de propiedad de separación y es análoga a la que se presenta en los sistemas estocásticos al combinar un filtro de Kalmanœ[222z con una ley de control óptima. 2. Llamando ϕ11 (s) = (sI − A + BK)−1 se tendrá que Y (s) = Cϕ11 (s)B R(s) Es decir que el observador no influye en la función de transferencia en bucle cerrado, puesto que esta función de transferencia es la misma que se obtiene sin observador, cuando las variables de estado son accesibles. Obsérvese que esta conclusión, pese a su carácter sofisticado, es intuitiva ya que el observador reproduce exactamente las variables de estado si el valor inicial de estas es el mismo del que parte el observador, y ello es lo que sucede cuando se parte del reposo. Es decir, al partir del reposo, los valores que toman la variable de estado son nulos; estos mismos valores son lo que inicialmente suministra el observador si a su vez parte del reposo. Por lo tanto, inicialmente, el observador suministra el valor real del estado. Ejemplo Sea el sistema formado por dos integradores que se indica en la figura 12.8, cuya descripción externa vendrá dada por la función de transferencia 1 Y (s) = 2 U (s) s Sı́ntesis de sistemas de control por variables de estado 265 y cuya descripción interna vendrá dada por ẋ1 = x2 ẋ2 = u es decir à A = u 0 1 0 0 ! à B = 0 1 ! C = x2 1 s ³ 1 0 ´ x1 1 s Figura 12.8: Doble integrador Supóngase que se quiere obtener en bucle cerrado un polinomio caracterı́stico dado por ϕ(s) = s2 + a1 s + a2 Habida cuenta de la expresión (11) se tendrá que K= ³ a2 a1 ´ Si las variables de estado son accesibles se tiene el diagrama de la figura 12.9. Si x2 no es accesible, debe procederse a diseñar un observador. Para ello se escribe (A, B, C) en la forma canónica de observación. Se tiene à Ao = 0 0 1 0 ! à Bo = 1 0 ! Co = ³ 0 1 ´ La ley de control, en estas bases del vector de estado, vendrá dada por Ko = ³ a1 a2 ´ Sı́ntesis de sistemas de control por variables de estado r + + x2 1 s - 266 1 s x1 a1 + a2 Figura 12.9: Sistema controlado Se quiere tener un observador asintótico de orden mı́nimo. El orden del observador será uno, por ser el sistema de orden dos. Si se denota por s + γ el polinomio caracterı́stico del observador, se tendrá de acuerdo con las expresiones (12.22) y (12.23). à T1 = 1 −γ 0 1 à T1−1 = 1 γ 0 1 ! ! y, por lo tanto, à A= T1 Ao T1−1 = −γ −γ 2 1 γ à B = T 1 Bo = 1 0 ! ! El observador viene dado por el diagrama de bloques de la figura 12.10. La ley de control en la base del vector de estado correspondiente a X vendrá dada por Sı́ntesis de sistemas de control por variables de estado 267 u y −γ 2 + x̂1 1 s - γ x̂2 Figura 12.10: Diagrama del observador k = Ko T −1 = ³ a1 a1 γ + a2 ´ Por lo tanto el conjunto formado por el sistema original y el compensador será el representado en la figura 12.11. Supongamos ahora que se trata de un problema de regulación con r = 0. En tal caso es relativamente sencillo determinar el diagrama que representa la descripción interna del controlador, entendido como el subsistema que a partir de la señal de salida de la planta a controlar y produce la señal control u. En la figura 12.12 se representa el diagrama del controlador. Si el problema de diseño se hubiese resuelto mediante los métodos clásicos de control, el controlador vendrı́a especificado mediante su función de transferencia. Para comparar los resultados se puede determinar la función de transferencia del controlador que se acaba de obtener. Esta función de transferencia viene dada por (a1 γ + a2 )(s + a1 ) + a2 γ U (s) = C(s) = Y (s) s + a1 + γ a2 γ s + a1 + a1 γ + a2 = (a1 γ + a2 ) s + a1 + γ Sı́ntesis de sistemas de control por variables de estado r + u a1 x̄1 1 s y 1 s2 - + 268 + + −γ 2 - + γ a1 γ + a2 OBSERVADOR Figura 12.11: Sistema de control por variables de estado con observador que se puede escribir de forma más compacta C(s) = k s + α1 s + α2 k, α1 , α2 > 0 α1 < α2 (12.36) y que resulta ser lo que en los métodos clásicos se conoce como una red de avance de fase. De este modo se ha conseguido resolver el problema de la sı́ntesis de un controlador sin ninguna preconcepción con relación a su estructura. Si se quiere dar un paso más, supongamos que en bucle cerrado se pretende tener un comportamiento caracterizado por ϕc (s) = s2 + 2δωn s + ωn2 en donde 2δωn = a1 y √ ωn2 = a2 . Un valor razonable para el coeficiente de amortiguamiento es δ = 1/ 2, en cuyo caso se tiene que los distintos parámetros de la red de avance (12.36) vienen dado por √ k = ω( 2γ + ω) √ ! à 3γ + 2ω α1 = ω √ 2γ + ω √ α2 = γ + 2ω Sı́ntesis de sistemas de control por variables de estado 269 Conviene observar que la teorı́a clásica del control no ha sido capaz de proporcionar fórmulas explı́cita como las anteriores, aún para un ejemplo tan simple como el anterior. Los métodos clásicos están basados en aproximaciones gráficas y reglas prácticas, lo que constituye una clase de matemáticas aplicadas relativamente anticuadas. Sin embargo, estos comentarios no descalifican los métodos clásicos, que como se verá más adelante, continúan teniendo un gran interés, ya que suministran ı́ndices de robustez que poseen un gran interés práctico. r + u y - + a1 x̄1 1 s + + −γ 2 - + γ a1 γ + a2 OBSERVADOR Figura 12.12: Controlador para le planta 1/s2 . Del atento análisis de este ejemplo se desprende que la teorı́a moderna del control, basada en el empleo de las variables de estado, permite resolver el problema de la sı́ntesis de un sistema realimentado sin ninguna hipótesis previa respecto a la forma del regulador que se trata de determinar. Ello permite un planteo analı́tico del problema de la sı́ntesis de sistemas de control que representa una notable alternativa al que proponen los métodos clásicos, basados éstos en métodos cuya justificación se encuentra más en una experiencia acumulada que en una visión teórica global. A continuación se expone un método general de sı́ntesis de un sistema de control. Sı́ntesis de sistemas de control por variables de estado 12.3.1 270 Método práctico de sı́ntesis Problema Dado un sistema de control monovariable cuya función de transferencia en bucle abierto sea G(s) = b1 sn−1 + b2 sn−2 + · · · + bn sn + a1 sn−1 + · · · + an Se quiere tener en bucle cerrado un sistema cuya función de transferencia sea tal que el numerador permanezca invariable y el denominador sea sn + α1 sn−1 + · · · + αn Para su resolución se procede a seis pasos: 1. A partir de la función de transferencia se obtiene la forma canónica de control. Ac = 0 0 0 0 −an −an−1 0 ... 0 1 ... 0 ... 0 ... 1 ... −a1 ³ ´ BcT = Cc = ³ 1 0 0 0 ... 1 bn bn−1 ... b1 ´ 2. Se determina la ley de control de la forma u = −Kx + r. −K = ³ an − αn an−1 − αn−1 · · · a1 − α1 ´ Obsérvese que los valores numéricos de esta ley de control corresponden a la representación del sistema en la forma canónica de control. Sı́ntesis de sistemas de control por variables de estado 271 3. Se determina la forma canónica de observación, lo que se hace a partir de la función de transferencia. Ao = BoT = 0 0 ... 0 −an 1 0 ... 0 −an−1 0 1 ... 0 −an−2 ... 0 0 ... 1 −a1 ³ Co = bn bn−1 ... b1 ³ 0 0 ... 1 ´ ´ Aunque la forma canónica de observación se puede obtener directamente de la función de transferencia, debido al uso que posteriormente se hará de ella interesa obtener la transformación T que permite pasar de las bases a la forma canónica de control a la de observación. T = an−1 an−2 ... a1 an−2 an−3 ... 1 .. .. .. . . . a1 1 .... 0 1 0 .... 0 1 0 .. . 0 C CA .. . C An−2 0 CAn−1 4. A partir de la forma canónica de observación se procede a construir el observador mı́nimo. Para ello se define la transformación T1 tal que T1 = 1 0 .. . 0 ... 0 −γn−1 1 ... 0 −γn−2 .. . .. . .... .. . 0 0 ... 1 −γ1 0 0 ... 0 1 en donde sn−1 + γ1 sn−2 + · · · + γn−1 es el polinomio deseado para el observador. Obsérvese que Sı́ntesis de sistemas de control por variables de estado −1 T = 1 0 .. . 0 ... 0 γn−1 1 ... 0 γn−2 .. . .. . ... .. . 0 0 ... 1 γ1 0 0 ... 0 272 Se tiene que −1 A = T1 Ao T1 = 0 1 0 .. . 0 ... 0 −γn−1 β1 0 ... 0 −γn−2 β2 1 ... 0 −γn−3 β3 .. .. .. .. . . . . 0 0 ... 1 γ1 βn−1 0 0 ... 0 1 βn B = T 1 Bo C= ³ 0 0 ... 1 ´ es decir que y = xn . El observador tiene como matriz dinámica el bloque (n − 1) × (n − 1) superior izquierdo de A y está excitado por u a través de los (n−1) primeros elementos de B y de y a través de (β1 ... βn−1 ) x̂˙ 1 = A11 x1 + A12 y + B u siendo A11 : (n − 1) × (n − 1) y estando B formado por los n − 1 primeros elementos de B. 5. Se obtiene la matriz de transformación de x̂ a x̂ (correspondientes a la forma canónica de control en que se ha determinado la ley de control x̂ = T −1 T1−1 x̂ 6. A partir de todo lo anterior la matriz del compensador es inmediata u = −K x̂ + r u = −KT −1 T1−1 x̂ + r Sı́ntesis de sistemas de control por variables de estado 273 Ejemplo Sea el sistema cuya función de transferencia en bucle abierto es s+2 s(s + 1) G(s) = Se quiere tener un bucle cerrado el comportamiento representado por la función de transferencia Gd (s) = s+2 s2 + 2s + 3 La aplicación de los seis pasos anteriores conduce a lo siguiente 1. à Ac = 0 1 0 −1 ! BcT = 2. K= 3. à Ao = 0 0 1 −1 ³ ! T Bo = ³ 3 1 ³ ´ 0 1 Cc = ³ 2 1 ´ 2 1 ´ Co = ³ 0 1 siendo à T = 1 1 1 0 !à à T −1 = 2 1 0 1 ! à = −1/2 1 1 −1 2 2 2 1 ! ! 4. Adoptando ϕobs (s) = s + 3 se tiene que à T1 = y por lo tanto 1 −3 0 1 ´ à ! T1−1 = 1 3 0 1 ! ´ Sı́ntesis de sistemas de control por variables de estado à A= T1 Ao T1− 1 = à B = T 1 Bo = C= ³ 0 1 274 −3 −6 1 2 −1 1 ! ! ´ Estando el observador dado por x̂˙1 = −3x̂1 − 6x̂2 − u = −3x̂1 − 6y − u 5. 1 1 − − x̂ = T −1 T1−1 x̂ = 2 2 x̂ 1 2 6. u = −KT −1 T1−1 x̂ + r = ³ −3 −1 Es decir U (s) = − ´ −u − 6y 1 1 −2 −2 s + 3 + r 1 2 y U (s) s+9 − Y (s) + R(s) 2(s + 3) 2(s + 3) (12.37) lo que se puede interpretar gráficamente como se hace en la figura 12.13. Comprobación Para comprobar basta determinar la función de transferencia en bucle cerrado y verificar que es la deseada. En el ejemplo anterior se comprueba que ası́ sucede. En efecto, la expresión (12.37) se puede escribir, llevando todos los términos en U (s) al primer miembro: U (s) (2s + 7) (s + 9) = −Y (s) + R(s) 2(s + 3) 2(s + 3) Sı́ntesis de sistemas de control por variables de estado Como U (s) = Y (s) 275 s(s + 1) s+2 se tiene à s+9 (2s + 7) s(s + 1) Y (s) + × 2(s + 3) 2(s + 3) (s + 2) ! = R(s) Es decir Y 2(s + 2)(s + 3) s+2 (s) = 3 = R 2s + 10s2 + 18s + 18 s2 + 2s + 3 Debe notarse que el observador no aparece de ninguna forma en la función de transferencia en bucle cerrado. 12.3.2 Sı́ntesis algebraica directa (Sı́ntesis externa directa) En el apartado anterior se ha determinado la compensación de un determinado sistema por medio de un observador y una ley de control. Al aplicar al sistema original el observador y la ley de control en el ejemplo considerado en el apartado anterior, se ha obtenido el diagrama de la figura 12.13. Ello sugiere adoptar el diagrama de bloques de la figura 12.14,como diagrama básico para la sı́ntesis de sistemas de control. Tomando el diagrama de la figura 12.14 como punto de partida para la sı́ntesis de un sistema de control, se identifican en él los siguientes elementos. La función de transferencia T (s) es la función de transferencia del sistema en bucle abierto. El polinomio q(s) caracteriza el comportamiento dinámico del observador y por tanto, se establece a priori, de la misma manera que se adoptaban unos valores para el comportamiento dinámico del observador en el apartado anterior. El problema de sı́ntesis queda reducido a determinar los polinomios k(s) y h(s). El objeto de este apartado es precisamente, determinar los polinomios k(s) y h(s) directamente sin necesidad de determinar que la ley de control y el observador, que es lo que se hacı́a en el apartado anterior. El problema se suele plantear en los términos siguientes. Sea un sistema cuya función de transferencia es T (s) = n(s)/d(s), y supóngase que se quiere obtener en bucle cerrado un comportamiento representado por Td (s). Adoptando Sı́ntesis de sistemas de control por variables de estado u v + 276 y s+2 s(s+1) - s+9 2(s+3) 1 2(s+3) + + Figura 12.13: Diagrama de bloques simplificado del sistema controlado por variables de estado con observador u v + y T (s) - h(s) q(s) k(s) q(s) + + Figura 12.14: Diagrama de bloques simplificado del sistema controlado por variables de estado con observador Sı́ntesis de sistemas de control por variables de estado 277 la configuración de la figura 12.14, se trata de determinar los polinomios k(s) y h(s) para que la función de transferencia resultante sea precisamente Td (s). Para estudiar el problema se procede, en primer lugar, a particionar T (s) tal como se hace en la figura 12.15. u z 1 d(s) N (s) y Figura 12.15: Factorización del sistema De la observación de las figuras 12.14 y 12.15 se tiene lo siguiente. d(s)Z(s) = U (s) (12.38) Y (s) = n(s)Z(s) (12.39) 1 (k(s)U (s) + h(s)Y (s)) q(s) 1 = R(s) − (k(s)d(s) + h(s)n(s)) Z(s) q(s) U (s) = R(s) − (12.40) (12.41) Un conocido resultado del álgebra de polinomios establece que, dados dos polinomios primos entre sı́ n(s) y d(s), y un polinomio arbitrario ϕ(s), existen dos polinomios k(s) y h(s), tales que n(s)h(s) + d(s)k(s) = ϕ(s) (12.42) Este resultado se estudiará con detalle, en un teorema, posteriormente. Supóngase aquı́ que ϕ(s) = q(s) × f (s), en donde el significado de f (s) se determinará más abajo. Se tendrá que la expresión (12.40) se convertirá en U (s) = R(s) − f (s)Z(s) (12.43) Sı́ntesis de sistemas de control por variables de estado 278 R(s) = U (s) + f (s)Z(s) = (d(s) + f (s)) Z(s) (12.44) luego, Y (s) n(s) = R(s) d(s) + f (s) (12.45) Esta expresión indica que la función de transferencia Td (s) debe tener el mismo numerador que T (s) y, al mismo tiempo, indica cómo se puede modificar el denominador. Esta modificación se hacer por adición de f (s), cuyo significado es ahora claro. El anterior desarrollo lleva implı́cito un método de sı́ntesis. Los pasos de este método son: 1. A partir de d(s) y del denominador de Td (s) se determina f (s). 2. Por consideraciones fı́sicas se adopta q(s), (equivale a ϕobs (s)). 3. Se determina ϕ(s) = q(s)×f (s) y se resuelve la ecuación polinomial (12.42), con lo que se obtienen h(s) y k(s). Debe notarse que el problema es trivial si ϕ (n(s)) = 0, es decir si n(s) es una constante n0 . En efecto, en tal caso la expresión (12.42) se convierte en ϕ(s) = k(s)d(s) + h(s) × n0 Para la determinación de k(s) y h(s) se divide ϕ(s) por d(s). El cociente de dicha división es k(s) y el resto h(s) × n0 El problema queda reducido, por lo tanto, a la resolución de la ecuación polinomial (12.42). Método del sistema de ecuaciones lineales Sea la expresión (12.42) en la que a partir de n(s), d(s) y ϕ(s) se trata de determinar h(s) y k(s). Sı́ntesis de sistemas de control por variables de estado 279 Los grados de los polinomios n(s), d(s) y ϕ(s), son: grado (ϕ) = q ≤ 2n − 2 grado (n) = m ≤ n − 1 grado (d) = n Los grados de h(s) y k(s) serán grado (h) = n − 1grado (k) = m − 1 La determinación de h(s) y k(s) se hace considerando como incógnitas sus coeficientes y obteniendo las ecuaciones que resultan de igualar coeficientes de términos de igual exponente de s en la expresión (12.42). Con ello se obtiene un sistema de ecuaciones lineales que admite solución, y ésta es única, si los polinomios n(s) y d(s) son primos entre sı́ (no tienen factores comunes). Considérese, sin pérdida de generalidad, n = 3 y m = 2, es decir, d(s) = s3 + d1 s2 + d2 s + d3 n(s) = n0 s2 + n1 s + n2 h(s) = h0 s2 + h1 s + h2 k(s) = k0 s + k1 ϕ(s) = ϕ0 s4 + ϕ1 s3 + ϕ3 s + ϕ4 Se tendrá, Sı́ntesis de sistemas de control por variables de estado 280 n(s)h(s) = n0 h0 s4 + (n0 h1 + n1 h0 )s3 + +(n0 h2 + n1 h1 + n2 h0 )s2 + +(n1 h2 + n2 h1 )s2 + n2 h2 d(s)k(s) = k0 s4 + (k1 + d1 k0 )s3 + +(d1 k1 + d2 k0 )s2 + (d2 k1 + d3 k0 )s + d3 k1 Al igualar en ambos miembros de (12.42) términos en la misma potencia de s, se tendrá, escrito en forma compacta n2 0 0 d3 0 h2 h1 n1 n2 0 d2 d3 n0 n1 n2 d1 d2 h0 = 0 n0 n1 1 d1 k1 0 0 n0 0 1 k0 ϕ4 ϕ3 ϕ2 ϕ1 ϕ0 es decir MC = ϕ (12.46) La anterior ecuación en C admite solución, y ésta es única, si M −1 existe. Ahora bien, la matriz M tiene como determinante el resultante R(n, d), de los dos polinomios n(s) y d(s). El resultante de dos polinomios es no nulo si éstos no tienen factores comunes. Ello es lo que sucede cuando el sistema a controlar es controlable y observable. Por lo tanto, la anterior ecuación tendrá solución, y esta será única, si n(s) y d(s) no tienen factores comunes. El inconveniente que presenta este método es que requiere la inversión de una matriz cuya dimensión, para problemas de un cierto orden, puede ser elevada. Este método, por lo tanto, no es el adecuado cuando se trata de resolver el problema con papel y lápiz. Sin embargo, es más simple. Sı́ntesis de sistemas de control por variables de estado 281 Ejemplo Sea el sistema considerado en el ejemplo 2 del apartado anterior y cuyas funciones de transferencia en bucle abierto y en bucle cerrado son las siguientes. T (s) = Td (s) = s2 s3 s+2 + 2s + 3s s+2 + 3s2 + s + 2 Se tiene que n(s) = s + 2 d(s) = s3 + 2s2 + 3s ϕ(s) = q(s) × f (s) = s4 − s2 + 2s + 2 Se adopta k(s) = k0 s + k1 h(s) = h0 s2 + h1 s + h2 El sistema de ecuaciones (44) resulta ser 2 1 0 0 0 0 2 1 0 0 cuya solución conduce a 0 0 2 1 0 0 3 2 1 0 0 0 3 2 1 h2 h1 h0 k1 k0 = 2 2 −1 0 1 Sı́ntesis de sistemas de control por variables de estado 282 h2 = 1 h1 = 0 h0 = −14/6 k1 = 1/3 k0 = 1 lo cual coincide con lo obtenido por el método anterior. Debe resaltarse que para aplicar este método se requiere el concurso de un computador, cosa que con el anterior, aunque aparentemente más complejo, no sucedı́a. Tema 13 Sistemas no lineales 13.1 Método del primer armónico Los métodos clásicos de sistemas realimentados lineales están basados en el empleo de la función de transferencia, que posee una interpretación en el dominio de la frecuencia de gran interés para el análisis y la concepción de esos sistemas realimentados. Sin embargo, el concepto de función de transferencia está basado en la propiedad de linealidad (suma de causas produce suma de efectos) que no poseen, por su propia naturaleza los sistemas no lineales. Sin embargo, como vamos a ver en lo que sigue, es posible aplicar una versión ampliada del método de la respuesta en frecuencia a sistemas no lineales mediante el método de la función descriptiva. Con este método, como vamos a ver, es posible adaptar los métodos de diseño de sistemas lineales en el dominio de la frecuencia, empleando los diagramas de Bode y similares, al caso de los sistemas no lineales, si bien en este último caso los resultados son exclusivamente aproximados. 13.1.1 Ejemplo introductorio Los sistemas no lineales pueden presentar oscilaciones de amplitud y periodo fijos sin excitación exterior. Esas oscilaciones se denominan ciclos lı́mites u oscilaciones autoexcitadas. Una de la primeras ecuaciones propuestas para estudiar este fenómeno se debe al ingeniero eléctrico holandés Balthasar Van der Pol. Esta 283 Sistemas no lineales 284 ecuación es la siguiente: ẍ + α(x2 − 1)ẋ + x = 0 (13.1) vamos a emplear esta ecuación como ejemplo introductorio al método del primer armónico. Para ello, vamos a suponer que existe un ciclo lı́mite de amplitud y frecuencia no determinadas, y vamos a ver que restricciones impone la ecuación anterior a esta amplitud y frecuencia. Elemento no lineal (−ẋx2 ) Elemento Lineal s 0 + −x - v α s2 −αs+1 x (.)2 Figura 13.1: Diagrama de bloques del oscilador de Van der Pol Puesto que el análisis de la ecuación de Van der Pol lo estamos haciendo como introducción al estudio de sistemas realimentados no lineales conviene que representamos la ecuación (13.1) mediante un diagrama de bloques como el de la figura 13.1. En esta figura se tiene un sistema realimentado, con realimentación unitaria, en cuya cadena directa aparece un bloque no lineal y uno lineal. Como veremos luego, esta será la forma que tomaran los sistemas realimentados no lineales a los que se aplica el método del primer armónico. Para justificar el diagrama de la figura 13.1 basta reescribir la expresión (13.1) de la forma ẍ − αẋ + x = −αx2 ẋ Se define v = −x2 ẋ, con lo que la anterior expresión se convierte en ẍ − αẋ + x = αv cuya función de transferencia es x α (s) = 2 v s − αs + 1 Sistemas no lineales 285 Supongamos que el sistema de la figura 13.1 oscila, de modo que la señal x evoluciona de la forma x(t) = A sen ωt (13.2) en donde A es la amplitud del ciclo lı́mite y ω su frecuencia. En este caso se tiene ẋ(t) = Aω cos ωt por consiguiente, la salida del bloque no lineal de la figura 13.1 viene dada por v = −x2 ẋ = A2 sen 2 ωtAω cos ωt A3 ω = − (1 − cos 2ωt) cos ωt 2 A3 ω = − ( cos ωt − cos 3ωt) 4 (13.3) (13.4) (13.5) El paso de (13.3) a (13.4) se basa en que 2 sen 2 ωt = 1 − cos 2ωt ya que cos 2ωt = cos 2 ωt − sen 2 ωt = 1 − 2 sen 2 ωt Por otra parte, el paso de (13.4) a (13.5) es un poco máás elaborado. Para demostrarlo se parte de cos 3ωt = = = = = cos cos cos cos cos 2ωt cos ωt − sen ωt sen 2ωt ωt(1 − 2 sen 2 ωt) − 2 sen 2 ωt cos ωt ωt(1 − 4 sen 2 ωt) ωt(1 − 2 + 2 cos 2ωt) ωt(2 cos 2ωt − 1) de donde se tiene que 1 cos ωt − cos ωt cos 2ωt = ( cos ωt − cos 3ωt) 2 En la expresión (13.5) se observa que la señal v contiene un armónico de tercer orden. Sin embargo, sucede que la parte lineal se comporta como un filtro paso bajo, de modo que se puede suponer razonablemente que este armónico de tercer orden resulta suficientemente atenuado por el bloque lineal y que puede, en una primera aproximación despreciarse. Con estos supuestos, la señal v toma la forma aproximada A2 d A3 ω ( cos ωt) = (−A sen ωt) (13.6) v≈− 4 4 dt Sistemas no lineales 286 Aproximación cuasi lineal r=0 + −x - A2 s 4 v α s2 −αs+1 x Figura 13.2: Aproximación lineal del oscilador de Van der Pol De este modo el bloque no lineal de la figura 13.1 puede representarse en forma aproximada como se hace en la figura 13.2. El bloque no lineal de la figura 13.1 se describe de forma aproximada, mediante una función de transferencia como la que se indica en la figura 13.2. Conviene observar que esta “función de transferencia” depende de la amplitud de la señal de entrada A, lo que no sucede en ningún caso con una función de transferencia de un sistema lineal. En general, podemos escribir que las señales de salida v del bloque no lineal de la figura 13.2 vienen dadas por v = N (A, ω)(−x) (13.7) en donde N juega el mismo papel que la función de transferencia en un sistema lineal, aunque en este caso con la propiedad adicional de depender no solamente de la frecuencia ω, sino también de la amplitud A. A la función N la denominaremos función descriptiva del elemento no lineal correspondiente y constituye una generalización del concepto de función de transferencia al estudio de los sistemas no lineales (aunque aquı́ con un carácter aproximado ya que para llegar a ella se han despreciado los armónicos de orden superior al primero, a partir de la consideración del carácter del filtro paso bajo del bloque lineal). En el caso que nos ocupa la función descriptiva toma la forma A2 (13.8) 4 es decir el bloque no lineal se puede aproximar por la función de respuesta en frecuencia N . De acuerdo con la cadena directa del sistema de la figura 13.2, se puede escribir N (A, ω) = jω x = A sen ωt = G(jω)v = G(jω)N (A, ω)(−x) (13.9) Sistemas no lineales 287 Se sabe que una señal senoidal se puede escribir en forma compleja mediante la exponencial x = Aejωt con lo que la anterior expresión (13.9) puede escribir Aejωt = G(jω)N (A, ω)(−Aejωt ) de donde se tiene 1 + G(jω)N (A, ω) = 0 (13.10) esta expresión, en realidad, es una forma de escribir la expresión (13.1), es decir la ecuación del sistema, habida cuenta de la simplificación que ha permitido pasar de la expresión (13.3) a la (13.6). La resolución de esta ecuación en la amplitud A y la frecuencia ω permite determinar la amplitud y frecuencia a la que oscila el sistema. En el caso concreto que nos ocupa, la expresión (13.10) se convierte en α A2 1+ jω = 0 (13.11) (jω)2 − α(jω) + 1 4 que conduce a 4((jω)2 − α(jω) + 1) + αA2 jω = 0 cuya parte real es −4ω 2 + 4 = 0 cuya solución conduce a ω = 1, y cuya parte imaginaria es −4α + αA2 = 0 por lo que A = 2. Por tanto el sistema admite una solución en forma de oscilación con amplitud A = 2 y frecuencia ω = 1. Conviene observar que la expresión (13.11) escrita en forma de Laplace toma la forma α A2 s 1+ 2 =0 s − αs + 1 4 que es la ecuación caracterı́stica en bucle cerrado del sistema de la figura 13.2. Los autovalores de esta ecuación son λ1,2 1 = − α(A2 − 4) ± 8 s 1 2 2 α (A − 4)2 − 1 64 (13.12) en los que haciendo A = 2 se obtienen los autovalores λ1,2 = ±j; es decir existe un ciclo lı́mite de amplitud 2 y frecuencia 1. Conviene observar que ni la amplitud ni la frecuencia obtenidas dependen del parámetro α. Sistemas no lineales 288 Elemento no lineal r(t) = 0 + x(t) v = f (x) Elemento lineal v(t) G(s) y(t) - Figura 13.3: Sistema no lineal r(t) = 0 + x(t) G1 (s) v(t) u(t) Gp (s) y(t) - G2 (s) Figura 13.4: Sistema de control con una no linealidad Sistemas no lineales 13.1.2 289 Principios del método Supuestos básicos del método: 1. Hay un único componente no lineal. 2. Ese componente es invariante en el tiempo. 3. La parte lineal se comporta como un filtro paso-bajo. 4. La no linealidad es simétrica, de modo que no aparece en la salida un señal de continua. Debido a estas limitaciones, el método de la función descriptiva se utiliza fundamentalmente para el análisis de estabilidad y no suele aplicarse a problemas de diseño óptimo de sistemas. 13.1.3 Transformación de Fourier La salida v(t) de un elemento no lineal, en respuesta a una señal sinusoidal, de amplitud A y frecuencia ω, es una señal periódica de la misma frecuencia, que se puede desarrollar en serie de Fourier, de la forma: v(t) = a0 + ∞ X (an cos (nωt) + bn sen (nωt)) n=1 1Zπ a0 = v(t)d(ωt) n = 0, 1, 2, ... π π El término independiente es el valor medio de la señal en un perı́odo. Para una señal sin componente de continua este valor es cero; es decir a0 = 0 (recuérdese el supuesto 4 de 13.1.2). 1Zπ an = v(t) cos (nωt)d(ωt) π π n = 0, 1, 2, ... (13.13) 1Zπ v(t) sen (nωt)d(ωt) π π n = 0, 1, 2, ... (13.14) bn = Casos de interés: Sistemas no lineales 290 • v(t) es impar [v(ωt) = −v(−ωt)], entonces an = 0, n = 0, 1, 2, ..., y en desarrollo solo tiene términos en senos (figura 13.5a). • v(t) es alternada [v(ωt + π) = −v(ωt)], entonces el desarrollo solo tiene términos impares (figura 13.5b). v(x) v(x) x+π −x x x v(−x) v(x + π) a) b) Figura 13.5: Señales impar (a) y alternada (b) En el supuesto de que se considere únicamente la componente fundamental del desarrollo en serie, y recordando que a0 = 0, se tiene que la expresión se convierte en v(t) = v1 (t) = a1 cos (ωt) + b1 sen (ωt) = M sen (ωt + φ) (13.15) En la figura 13.6 se representa un elemento no lineal y su representación mediante Asen(ωt) w(t) N.L. Asen(ωt) N (A, ω) M sen(ωt + φ) Figura 13.6: Elemento no lineal y función descriptiva la función descriptiva. De la expresión (13.15) se tiene µ q M (A, ω) = a21 + b21 φ(A, ω) = tag −1 a1 b1 ¶ En la figura 13.6 se muestra como la componente fundamental de la salida de un sistema no lineal a una señal sinusoidal de entrada, es otra señal sinusoidal de la misma frecuencia pero de amplitud M y desfase φ. Empleando una representación compleja la sinusoide puede escribirse v1 = M ej(ωt+φ) = (b1 + ja1 )ejωt Sistemas no lineales 291 Con los anteriores elementos ya estamos en posición de definir la función descriptiva de un elemento no lineal como el cociente complejo entre la componente fundamental del elemento no lineal y la señal sinusoidal de entrada A sen ωt; es decir M ej(ωt+φ) M jφ 1 N (A, ω) = = e = (b1 + ja1 ) (13.16) jωt Ae A A Es decir, la función descriptiva N (A, ω) es una función compleja cuyo módulo y argumento representan la amplificación y el desfase del primer armónico de la salida v(t) de un sistema no lineal ante una entrada sinusoidal de amplitud A y frecuencia ω. El concepto de función descriptiva puede, por tanto, ser considerado como una ampliación de la noción de respuesta frecuencial de los sistema lineales. Las diferencias entre ambos conceptos se limitan a que la función descriptiva de un elemento no lineal depende de la amplitud, mientras que la función de transferencia de un elemento lineal no depende de ella. Sin embargo, con vistas a las aplicaciones al diseño de sistemas realimentados pueden tratarse de forma análoga. En general, por tanto, la función descriptiva depende de la frecuencia y la amplitud de la señal de entrada. Existen, sin embargo, algunos casos especiales. Cuando la no linealidad es uniforme (es decir, su caracterı́stica es una función que asigna a cada valor de la señal de entrada un único valor de la señal de salida) la función descriptiva N es real e independiente de la frecuencia de entrada. El carácter real de N se debe a que a1 = 0, debido a que la señal de salida del elemento no lineal es impar, y en ese caso, como hemos recordado antes, todos los términos ai se anulan. Además, la salida es siempre alternada, por lo que los términos pares desaparecen. Por tanto ante una no-linealidad uniforme se tendráá v(t) = b1 sen ωt + b3 sen 3ωt + b5 sen 5ωt + ... 13.2 Algunas funciones descriptivas La determinación de la función descriptiva se puede hacer básicamente de dos formas: por cálculo analı́tico o por determinación experimental. Por lo que respecta al método analı́tico vamos a presentar un par de ejemplos para ilustrar su aplicación. El primero de los ejemplos es una saturación que aporta un ejemplo de un sistema no lineal con caracterı́stica estática. También se presenta un ejemplo de un relé con holgura, cuya caracterı́stica es dinámica. Sistemas no lineales 13.2.1 292 Saturación v saturación v(t) salida no saturada salida saturada k 0 ka a 0 x 0 γ ka ωt A x(t) γ π/2 entrada sinusoidal ωt Figura 13.7: Caracterı́stica de una saturación. En la figura 13.7 se muestra la caracterı́stica de una saturación. Para valores de x < a el elementos no lineal transmite la señal de forma lineal, con una amplificación. Para valores de x > a la señal de entrada queda truncada por efecto de la no linealidad. En la figura 13.7 se muestra el efecto de la saturación sobre una señal de entrada de amplitud mayor que a, para el caso en que A sea mayor que a. En tal caso se tiene que la señal de salida del elemento no lineal vendrá dada por ( v(t) = siendo γ = sen −1 kA sen (ωt) 0 ≤ ωt ≤ γ ka γ ≤ ωt ≤ π/2 (a/A) a1 = 0 obsérvese que el carácter impar de v(t) implica que a1 = 0 y que la simetrı́a de la señal sobre los cuatro cuadrantes en que se puede considerar Sistemas no lineales 293 dividido un periodo indica que b1 4 Z π/2 = v(t) sen ωtd(ωt) π 0 4Zγ 4 Z π/2 = kA sen 2 ωtd(ωt) + ka sen ωtd(ωt) π 0 π γ (13.17) s a a2 2kA γ+ 1 − 2 = π A A por consiguiente, la función descriptiva resulta ser s b1 2k a a2 N (A) = = γ+ 1 − 2 A π A A (13.18) En la figura 13.8 se representa la función descriptiva de una saturación. 1.2 Rango lineal 1.0 N(A)/k 0.8 0.6 0.4 0.2 0.0 0 1 5 10 A/a Figura 13.8: Función descriptiva de una saturación. 13.2.2 Relé La caracterı́stica no lineal de un relé se muestra en la figura 13.9. Si se compara con la caracterı́stica de una saturación, que se vio en la figura 13.7 se tiene que la no linealidad de un relé corresponde a un caso lı́mite de una saturación definido por a → 0, k → ∞ Sistemas no lineales 294 2.0 v a infinito encendido 1.6 0 x -M N(A)/M M 1.2 0.8 0.4 a cero apagado 0.0 0 5 10 A Figura 13.9: Caracterı́stica de un relé siendo ka = M . Por tanto, b1 puede obtener de la expresión (13.18) calculando el lı́mite. Sin embargo se obtiene más fácilmente calculándolo directamente de acuerdo con 4 Z π/2 4M b1 = (13.19) M sen ωtd(ωt) = π 0 π por lo que la función descriptiva de un relé viene dada por N (A) = 4M πA (13.20) En la figura 13.9 se representa la función descriptiva de un relé. Puede compararse esa función descriptiva con la de la saturación que se vio en la figura 13.8. 13.2.3 Holgura En la figura 13.10 se muestra la caracterı́stica de una holgura, que se presenta a menudo en los sistemas de transmisión mecánica mediante engranajes. Como consecuencia de la holgura, cuando el engranaje primario gira un ángulo menor que b, el secundario no se mueve, como corresponde a la zona muerta (segmento OA en la figura 13.10); después de establecido el contacto en engranaje secundario sigue la rotación del primario de manera lineal (segmento AB). Si se invierte el sentido de giro del engranaje primario entonces durante un ángulo 2b el secundario no se mueve, de acuerdo con el segmento BC de la figura 13.10. Cuando se restablece el contacto entre los dos engranajes el secundario sigue al primario en la dirección opuesta (segmento CD). Por consiguiente, si el engranaje primario Sistemas no lineales 295 Engranaje secundario ángulo salida Engranaje primario C B b -b A 0 D b ángulo entrada E Figura 13.10: Caracterı́stica de una holgura. está sometido a un movimiento periódico el secundario recorrerá el camino cerrado EBCD, de la figura 13.10. Conviene observar que los puntos B, C, D y E de la figura dependen de la amplitud de la seńal sinusoidal de entrada. La holgura suministra un ejemplo de no linealidad con memoria, en la que el valor de la salida en un instante de tiempo determinado, no depende exclusivamente del valor de la entrada en ese instante, sino de la historia previa de las señales de entrada que afectan al sistema. El cálculo de la función descriptiva resulta en este caso más complejo que en el de la no linealidades sin memoria. En la figura 13.11 se muestra como se genera la señal de salida para una señal sinusoidal de entrada. La señal de salida v(t), en un periodo, se determina dividiendo este periodo en las cuatro partes correspondientes a los cuatro tramos que aparecen en el romboide de la caracterı́stica. Se tiene π v(t) = (A − b)k ≤ ωt ≤ π − γ 2 v(t) = A( sen ωt + b)k π − γ ≤ ωt ≤ 3π 2 3π v(t) = −(A − b)k ≤ ωt ≤ 2π − γ 2 v(t) = A( sen ωt − b)k 2π − γ ≤ ωt ≤ 5π 2 donde γ = sen −1 (1 − 2b/A). En este caso la caracterı́stica no es uniforme y la componente fundamental de la señal de salida presenta variación de amplitud y de fase. Se tiene à ! 4kb b −1 a1 = π A b1 = Ak π − sen π 2 à −1 ! à v !u u t 2b 2b −1 − −1 A A 1− à !2 2b −1 A Sistemas no lineales 296 v k(A − b) v(t) 3π/2 -b b π/2 x ωt −k(A − b) -A A x(t) π/2 π−γ entrada sinusoidal 3π/2 2π − γ ωt Figura 13.11: Generación de la seńal de salida para una señal sinusoidal de entrada en una holgura. Sistemas no lineales 297 es decir, la función descriptiva de una holgura viene dada por 1q 2 | N (A) |= a + b21 A 1 µ ¶ a1 b1 En las figuras 13.12 y 13.13 se representan la amplitud y desfase, respectivamente, de la función descriptiva de una holgura. Obsérvese que en este caso la función 6 N (A) = tan−1 1.0 Amplitud 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 b/A Figura 13.12: Amplitud de la función descriptiva de una holgura. descriptiva depende exclusivamente de la amplitud de la seńal de entrada, como sucedı́a en las no linealidades sin memoria (como la saturación y el relé) que se han visto anteriormente. Sin embargo, en este caso la función descriptiva tiene módulo y argumento (amplitud y desfase), mientras que en los casos de no linealidades sin memoria la función descriptiva posee únicamente amplitud, y no desfase. 13.2.4 Determinación experimental de la función descriptiva En lo ejemplos que se acaban de ver, se ha determinado la función descriptiva mediante la aplicación de métodos matemáticos. Ello es posible cuando la formulación matemática del problema es aceptablemente sencilla. Cuando no es ası́, se procede de manera experimental con ayuda de un analizador armónico. Se excita Sistemas no lineales 298 Desfase 0 -30 -60 -90 0.0 0.2 0.4 0.6 0.8 1.0 b/A Figura 13.13: Desfase de la función descriptiva de una holgura. el sistema no lineal cuya descripción descriptiva se quiere determinar, con señales sinusoidales, y la salida se analiza mediante el analizador armónico, de modo que se discrimine el primer armónico. Comparando las amplitudes y fases de la señal de entrada y del primer armónico se puede determinar experimentalmente la función descriptiva. Conviene observar que, en este caso, y al contrario de lo que sucede con los sistemas lineales, el análisis debe realizarse para señales de entrada de diferente amplitud; es decir, el ensayo debe realizarse variando tanto la amplitud como la frecuencia de la señal de entrada. De este modo se determinan los datos que permiten establecer la función N (A, ω). Estos datos se procesaran normalmente mediante tablas, y no mediante expresiones analı́ticas. 13.3 Análisis de sistemas no lineales mediante la función descriptiva En las secciones anteriores hemos visto como se determina la función descriptiva de un elemento no lineal. Además en la sección 13.1.1 se presentó un ejemplo introductorio que permitı́a analizar la existencia de ciclos lı́mites en un sistema no lineal mediante la función descriptiva. En esta sección vamos a generalizar el método allı́ presentado. Para ello, en primer lugar, conviene recordar el criterio de Nyquist. Sistemas no lineales 299 + G(s) - H(s) Figura 13.14: Sistema lineal realimentado. +∞ G(s)H(s) plano s -1 −∞ ω → +∞ Figura 13.15: Criterio de Nyquist. 13.3.1 Una ampliación del criterio de Nyquist Sea el sistema lineal de la figura 13.14, cuya ecuación caracterı́stica resulta ser 1 + G(s)H(s) = 0 (13.21) como se recordará el criterio de Nyquist permite conocer el número de raices de la ecuación caracterı́stica con parte real negativa. Para ello basta dibujar la aplicación C del contorno de Nyquist en un plano complejo apropiado, determinar el número N de veces que este contorno C rodea al punto (-1,0) y aplicar la conocida expresión Z =N +P en donde P es el número de polos inestables de la función de transferencia en bucle abierto GH. Entonces Z es el número de polos inestables del sistema en bucle cerrado (con sólo que haya uno, el sistema es inestable). Sistemas no lineales 300 Im 0 + k G(s) - G(s)H(s) -1 Re H(s) −1/k Figura 13.16: Ampliación del criterio de Nyquist. Función descriptiva r(t) = 0 + x(t) N (A, ω) Elemento lineal v(t) G(jω) y(t) - Figura 13.17: Sistema no lineal. El criterio de Nyquist se amplia formalmente para el caso en el que una constante k, que consideraremos que puede ser un número complejo, se incluye en la cadena directa de la figura 13.16. En tal caso la ecuación caracterı́stica resulta ser 1 + kG(s)H(s) = 0 (13.22) y por tanto, 1 (13.23) k Es fácil ver que en este caso el criterio de Nyquist se aplica igual que en el caso anterior (de la figura 13.15) con la diferencia de que ahora N representa el número de veces que el contorno de Nyquist de GH rodea al punto −1/k, lo que se ilustra en la figura 13.16. G(s)H(s) = − 13.3.2 Oscilaciones de un servomecanismo no lineal Considérese el sistema no lineal de la figura 13.17. Diremos que este sistema presenta una oscilación automantenida si para r = 0 el sistema presenta un Sistemas no lineales 301 comportamiento oscilatorio. Supongamos que esta oscilación viene dada por la expresión x(t) = A cos ωt (13.24) El componente fundamental de la señal de salida del elemento no lineal v(t) resulta ser v(t) =| N (A, ω) | A cos (ωt + φ(A, ω)) (13.25) Es sabido que (13.24) y (13.25) pueden escribirse de la forma x(t) = <{Aejωt } v(t) = <{| N (A, ω) | Aej(ωt+φ(A,ω)) } Empleando esta última forma de representar un comportamiento oscilatorio, se tiene que la salida del elemento lineal vendrá dada por y(t) = <{| N (A, ω) | A | G(jω) | ej(ωt+φ+α) } siendo α = 6 G(jω). Para que la oscilación sea automantenida, en ausencia de señal de excitación r, se requiere que: −Aejωt =| N (A, ω) | A | G(jω) | ej(ωt+φ+α) Es decir, ³ ´ Aejωt | N (A, ω) || G(jω) | ej(φ+α) + 1 = 0 La anterior expresión se debe satisfacer para todo t, por lo que se tendrá | N (A, ω) || G(jω) | ej(φ+α) + 1 = 0 es decir, N (A, ω)G(jω) + 1 = 0 y por tanto, G(jω) = − 1 N (A, ω) (13.26) (13.27) y cualquier par de valores de A y ω que satisfaga la anterior ecuación puede dar lugar a un ciclo lı́mite. De aquellos valores que satisfagan esta ecuación, solo dará lugar a un ciclo lı́mite aquellos para los que la oscilación periódica sea estable. Sistemas no lineales 302 G(jω) Im ω L Re A −1/N (A) Figura 13.18: Determinación de un ciclo lı́mite. 13.3.3 Función descriptiva independiente de la frecuencia Considérese el caso en el que la función descriptiva N es únicamente función de la amplitud A. Este caso incluye todas las no linealidades cuya caracterı́stica es uniforme y algunas no linealidades biformes interesantes como la holgura. En este caso la expresión (13.27) se convierte en G(jω) = − 1 N (A) (13.28) En la figura 13.18 se han representado la función de transferencia de la parte lineal G(jω) (parametrizado en ω) y la curva correspondiente a la inversa de la función descriptiva, con el signo cambiado, (parametrizada en A) en el plano complejo. Si estas dos curvas se cortan, entonces los valores de A y de ω correspondientes al punto de intersección son soluciones de la ecuación 13.28, y en consecuencia, pueden existir ciclos lı́mites. Por ejemplo, en la figura 13.18 las dos curvas se cortan en el punto L. Conviene recordar que para no-linealidades uniformes N es siempre real y por consiguiente el trazado de (13.28) siempre está situado sobre el eje real. 13.3.4 Función descriptiva dependiente de la frecuencia En el caso general la función descriptiva depende tanto de la amplitud de la señal de entrada como de su frecuencia y, en consecuencia el método que se acaba de ver en el apartado anterior, adquiere mayor complejidad. En tal caso la expresión en el segundo miembro de (13.27) da lugar a una familia de curvas en el plano Sistemas no lineales 303 −1/N (A, ω) Im G(jω) ω4 A ω3 ω2 Re ω1 ω Figura 13.19: Determinación de ciclos lı́mite con funciones descriptivas dependientes de la frecuencia. A1 A2 A3 A4 -1 ω G(jω)N (A, ω) Figura 13.20: Resolución gráfica de la ecuación N (A, ω)G(jω) + 1 = 0. complejo con A como parámetro y ω permaneciendo constante en cada curva, como se muestra en la figura 13.19. De todas las intersecciones entre la familia de curvas 1/N (A, ω) y la curva G(jω) solamente aquellos puntos de intersección en los que coincidan los valores de ω constituyen soluciones de la ecuación (13.27), y son, por tanto, candidatos a ciclos lı́mites. Existe otro procedimiento gráfico para resolver la expresión (13.27). Consiste en considerar la representaciones gráficas de G(jω)N (A, ω). Dando a A un valor constante y variando ω de 0 a infinito, se obtiene una curva que representa a G(jω)N (A, ω). Procediendo con diferentes valores de A se obtiene una familia de curvas, como la que se muestra en la figura 13.20. La curva de esta familia que pase por el punto (-1,0) en el plano complejo suministra una solución de la expresión (13.27) . Sistemas no lineales 304 Im G(jω) ω L2 L”1 −1/N (A, ω) Re L01 L1 Figura 13.21: Estabilidad de ciclos lı́mite. 13.3.5 Estabilidad de los ciclos lı́mite Con los ciclos lı́mites sucede lo mismo que con los equilibrios: que pueden ser estables o inestables. Las soluciones de la ecuación (13.27) deben someterse a un análisis de estabilidad, para determinar cuales de ellas son estables y cuales no. El criterio de Nyquist ampliado que hemos visto en la sección 13.3.1, permite analizar esa estabilidad. Considérese la figura 13.21 en la que se muestran las intersecciones entre la función de transferencia de la parte lineal y la inversa de la función descriptiva de la parte no lineal. Estas dos curvas presentan dos puntos de intersección, L1 y L2 , por lo que el sistema presenta dos ciclos lı́mites. Obsérvese que el valor de A correspondiente al punto L1 es menor que el de A correspondiente a L2 . Supóngase que la función de transferencia de la parte lineal G(jω) no posee polos inestables. Vamos a analizar primero la estabilidad del ciclo lı́mite correspondiente al punto L1 . Considérese que el sistema se encuentra inicialmente operando en el punto L1 , con un ciclo lı́mite de amplitud A1 y cuya frecuencia en ω1 . Debido a una pequeña perturbación, la amplitud de la señal de entrada al sistema no lineal se incrementa ligeramente, y el punto de operación del sistema se mueve de L1 a L01 . Puesto que el nuevo punto L01 se encuentra a la derecha de la curva G(jω), de acuerdo con el criterio de Nyquist ampliado que se ha visto en la sección 13.3.1, el sistema es inestable, en este punto de operación, y las amplitudes del sistema tienden a crecer. Por consiguiente, el punto de operación seguirá creciendo a lo largo de curva −1/N (A, ω) hasta el punto L2 . Por otra parte, si el sistema se perturba de modo que la amplitud A decrece, entonces el punto de operación se moverá al punto L001 . En este caso el punto L001 queda a la izquierda de G(jω) y Sistemas no lineales 305 el criterio de Nyquist ampliado garantiza la estabilidad del sistema, por lo que las amplitudes tenderán a decrecer y el punto de operación se alejara cada vez más del punto de equilibrio L1 . De todo lo anterior se desprende que una ligera perturbación destruye la oscilación en el punto L1 y que, por consiguiente, que este ciclo lı́mite es inestable. Un análisis similar puede desarrollarse para el punto L2 con la conclusión de que ciclo lı́mite en ese caso es estable. El anterior razonamiento no es del todo convincente, y debe considerarse como una forma intuitiva de presentar un resultado que, por otra parte es correcto, como se verá a continuación. Una forma máás rigurosa de abordar el estudio de la estabilidad de las oscilaciones es el siguiente. Sea x = Aejωt el primer armónico de la oscilación automantenida que se perturba ligeramente hasta que su amplitud toma el valor A + ∆A y su frecuencia ω + ∆ω. Después de la perturbación, x(t) ya no es una función periódica, sino que posee un pequeño amortiguamiento δ, positivo o negativo. Es decir, después de la perturbación la señal se convierte en: x(t) = (A + ∆A)e−δt ej(ω+∆ω)t (A + ∆A)ej(ω+∆ω+jδ)t (13.29) Por otra parte, la expresión (13.26) se puede escribir X(A, ω) + jY (A, ω) = 0 (13.30) agrupando los términos correspondientes a sus partes real e imaginaria. Por otra parte, la soluciónó(13.29) debe satisfacer también la anterior ecuación dando lugar a: X(A + ∆A, ω + ∆ω + jδ) + jY (A + ∆A, ω + ∆ω + jδ) = 0 (13.31) Desarrollando en serie de Taylor esta expresión, y tomando úúnicamente los términos de primer orden en ∆A, ∆ω y δ, se tiene: ∂X ∆ω + ∂ω ∂Y ∆ω + ∂ω ∂X ∂Y ∆A − δ = 0 ∂A ∂ω ∂Y ∂X ∆A + δ = 0 ∂A ∂ω Eliminando ∆ω: à ∂X ∂ω !2 à ∂Y + ∂ω !2 à ! ∂Y ∂X ∂Y ∂X δ = − ∆A ∂A ∂ω ∂A ∂ω Sistemas no lineales 306 Para que la oscilación sea estable es necesario que δ y ∆A sean del mismo signo, lo que exige que: à ∂X ∂Y ∂Y ∂X − ∂A ∂ω ∂A ∂ω ! >0 (13.32) En el caso de una no linealidad uniforme se tiene, N (A, )G(jω) + 1 = 0 Haciendo G(jω) = U (ω) + jV (ω) 1 C(A) = − = P (A) + jQ(A) N (A) se tiene X(A, ω) = U (ω) − P (A) Y (A, ω) = V (ω) − Q(A) Por lo que la expresión (13.32) se escribe en este caso à ∂Q ∂U ∂P ∂V − ∂A ∂ω ∂A ∂ω ! >0 El primer miembro de esta desigualdad es un producto vectorial lo que puede escribirse dG(jω) dC(A) × >0 dω dA Este producto vectorial permite la interpretación geométrica que se muestra en la figura 13.21. De acuerdo con ella, un ciclo limite será estable si recorriendo G(jω) en el sentido de las ω crecientes, en el punto de corte con C(A), se deja a la izquierda el sentido de las A crecientes, en la curva de C(A) = −1/N (A). figura: Criterio de estabilidad de ciclos lı́limite. De este modo se ha demostrado con rigor el resultado que previamente se habı́a obtenido por consideraciones un tanto laxas con respecto al criterio de Nyquist. Sistemas no lineales 307 r=0 + G(s) - Figura 13.22: Sistema con un relé y realimentación. Ejemplo Sea el sistema realimentado de la figura 13.22, que incluye un relé en la cadena directa. Supongamos, en primer lugar, que la función de transferencia de la parte lineal es: K G1 (s) = s(s + 2) Se trata de estudiar las posibles oscilaciones del sistema y su estabilidad. Recordando la expresión (13.20) se tiene que la función descriptiva de un relé viene dada por 4M N (A) = πA En este caso se supone que M = 1. Según lo que se ha visto, el sistema será oscilatorio si existe una solución a la ecuación 1 G1 (ω) = − N (A) Esta ecuación, en este caso, conduce a K πA =− jω(jω + 2) 4 Es decir 4K = −πAjω(jω + 2) Igualando sus partes reales e imaginarias se tiene: 4K = πAω 2 −2πAjω = 0 Sistemas no lineales 308 De donde se desprende que ω = 0, y por lo tanto el sistema no oscilará, pues no existe ninguna frecuencia para la que se tenga una solución oscilatoria. A la misma conclusión se llega empleando métodos gráficos, y comprobando que la representación gráfica de la función de transferencia de la parte lineal y de la función descriptiva sólo se cortan en el origen. Supongamos ahora que la ecuación de la parte lineal es G2 (s) = K s(s + 2)(s + 5) En ese caso la ecuación de oscilación se convierte en K πA =− jω(jω + 2)(jω + 5) 4 es decir 4K = −πAjω(jω + 2)(jω + 5) = 7Aω 2 + Aj(ω 3 − 10ω) Con lo que igualando partes reales e imaginarias se tiene 4K = 7πAω 2 ω 3 − 10ω = 0 Por lo tanto, en este caso el sistema oscila con una frecuencia ω = amplitud A = 2K/35π. √ 10 y una Para estudiar la estabilidad del oscilador se recurre al diagrama de Nyquist que se muestra en la figura 13.23. El punto de oscilación corresponde al punto P de esta figura. Para estudiar la estabilidad del ciclo lı́mite, supongamos, en primer lugar, una perturbación que haga que la entrada al elemento no lineal se incremente a un nuevo valor, de modo que el punto de operación se desplace a P 0 . Puesto que P 0 se encuentra en la región de operación estable, la amplitud de la entrada al elemento no lineal tiende a decrecer y por tanto el punto de operación se mueve de nuevo a P . De forma análoga, si la perturbación hace decrecer la amplitud de la entrada al sistema no lineal entonces se produce un desplazamiento del punto de operación a P 00 , que se encuentra situado en la región de operación inestable. La amplitud de la entrada, en este caso, se incrementa de modo que el punto de operación vuelve de nuevo a P . Por consiguiente el sistema tiene un ciclo lı́mite estable en P . Sistemas no lineales 309 Im G2 (jω) A P0 P P” Re Figura 13.23: Estudio de la estabilidad de un sistema no lineal con un relé. 13.3.6 Fiabilidad del análisis mediante funciones descriptivas Cuando se emplea el método de la función descriptiva conviene no olvidar nunca el carácter aproximado de esa función, lo que conduce a resultados que tienen también una naturaleza aproximada. Este carácter aproximado afecta no sólo a los valores numéricos de las amplitudes y frecuencias de las oscilaciones de los ciclos lı́mites, sino también a la propia existencia de estos. Conviene recordar una de las hipótesis sobre las que está basado el método: el carácter de filtro paso bajo del sistema lineal. Además, la propia expresión (13.27) puede ser sensible a las aproximaciones que comporta el método. Con carácter general se puede decir que las conclusiones del método serán tanto más sólidas cuanto más neta sea la intersección de las curvas que representan la parte lineal y la inversa de la parte no lineal en la resolución gráfica del método. En la figura 13.24 se muestran dos situaciones extremas posibles. En la figura 13.24a se presenta un caso en el que el sistema muestra una gran sensibilidad, lo que hace temer que las conclusiones del método se puedan ver fuertemente afectadas. Por otra parte, la figura 13.24b muestra un caso en el que las conclusiones son altamente fiables. Cabe decir, que cuanto más perpendicular es la intersección entre las curvas G(jω) y −1/N (A, ω), más fiables son los resultados del método. Sistemas no lineales 310 a) Figura 13.24: b) Sistemas no lineales 311 13.4 Criterios de estabilidad relativos a la descripción interna 13.4.1 Teorı́a de Lyapunov El estudio de la estabilidad de los sistemas en torno a los puntos de equilibrio se puede hacer con gran sencillez y elegancia con ayuda de la teorı́a de Lyapunov. La utilidad del método de Lyapunov reside en el hecho de que su teorı́a establece una condición suficiente para la estabilidad de un sistema dinámico. El establecimiento de esta suficiencia consiste en la determinación de una función de energı́a, llamada función de Lyapunov, la cual puede determinarse sin el conocimiento explı́cito de la solución de la ecuación diferencial del sistema. 13.4.2 Un ejemplo introductorio Sea el sistema de la figura 13.25, constituido por una masa (m = 1), que se desplaza sobre una lı́nea recta, y que está unida a una pared por medio de un resorte y de un amortiguamiento. Se supone que el resorte y el amortiguamiento son no lineales. El resorte ejerce una fuerza k(x) que depende del desplazamiento x de la masa de la posición de equilibrio. La forma de k(x) se representa en la figura 13.26. El amortiguador ejerce una fuerza proporcional al valor instantáneo de la velocidad dx/dt de la masa, de manera que el factor de proporcionalidad esté dado por h(x). El balance de fuerzas sobre el sistema conduce a la siguiente ecuación. d2 x dx + h(x) + k(x) = 0 (13.33) 2 dt dt Esta ecuación puede escribirse, empleando las variables de estado x1 = x y x2 = dx/dt, como sigue, ẋ1 = x2 ẋ2 = −k(x1 ) − x2 h(x1 ) (13.34) La energı́a total del sistema V está formada por la energı́a cinética de la masa en movimiento y la energı́a potencial almacenada en el resorte, y viene dada por, V (x1 , x2 ) = x22 Z x1 + k(x1 )dx 2 0 (13.35) Sistemas no lineales 312 x k(x) h(x) Figura 13.25: Sistema formado por una masa unida a un soporte De la observación de la anterior expresión se desprende que V satisface las dos condiciones matemáticas siguientes: V (x) > 0 para x 6= 0 V (0) = 0 (13.36) lo que, dicho en palabras, significa que la energı́a del sistema es siempre positiva excepto cuando el sistema está en reposo. Interesa ahora averiguar cómo evoluciona la energı́a del sistema con el tiempo. Para ello se determina la derivada total de V con respecto al tiempo que resulta ser, dV ∂V dx1 ∂V dx2 = + (13.37) dt ∂x1 dt ∂x2 dt de donde se obtiene, teniendo presente 13.34 y 13.35, dV = k(x1 )x2 + x2 [−k(x1 ) − x2 h(x1 )] = −x22 h(x1 ) dt (13.38) Se supondrá que h(x) > 0 para todo x. Fı́sicamente, ello representa un amortiguamiento positivo, es decir, que la fuerza que ejerce el amortiguador se opone siempre al movimiento. En consecuencia, dV /dt es negativa, excepto en los puntos en donde la velocidad sea nula en los cuales dV /dt es, a su vez, nula. En consecuencia, la energı́a del sistema no puede aumentar ni puede permanecer constante excepto en el estado de equilibrio; por consiguiente, la energı́a debe siempre decrecer hasta alcanzar el estado de equilibrio, en donde permanece constantemente igual a cero. Obsérvese que lo que sucede es que el sistema pierde progresivamente su energı́a, suma de la cinemática y la potencial, en un proceso disipativo debido al amortiguamiento Sistemas no lineales 313 k(x) x Figura 13.26: Fuerza estática que ejerce el soporte V3 V2 V1 V3 > V 2 > V 1 Figura 13.27: Las trayectorias cortan transversalmente las curvas equipotenciales Sistemas no lineales 314 representado por h(x). Si no existiese este amortiguamiento, y fuese h = 0, entonces en la expresión (13.38) se tendrá dV /dt = 0. Para el caso de que el resorte y el amortiguador sean lineales, se tendrá que k(x) = kx y h(x) = h, en donde k y h son constantes. En tal caso 13.35 se convierte en, kx21 + hx22 V (x1 , x2 ) = (13.39) 2 La evolución del sistema puede, en este caso, ser objeto de una interpretación geométrica. La evolución de las variables de estado x1 y x2 pueden interpretarse gráficamente en un plano llamado el plano de estado. En este plano las superficies V = const, dan lugar a elipses, tal como se indica en la figura 13.27. La evolución del sistema, es decir, una solución de la ecuación 13.33, se representa en el plano de estado por medio de una trayectoria, tal como la que se indica en la figura 13.27. Puesto que la energı́a debe siempre decrecer, la trayectoria debe atravesar las elipses desde el exterior hacia el interior. De este modo, la trayectoria se aproxima progresivamente al origen, que es el estado de equilibrio. Debe notarse que las conclusiones relativas a la estabilidad del sistema, aún en el caso de que el resorte y el amortiguador sean no lineales, se obtienen sin necesidad de resolver la ecuación diferencial 13.33. Es decir, de la observación de la expresión 13.38 se concluye que siempre que el amortiguamiento sea positivo, el sistema evolucionará hacia una posición de equilibrio. Este ejemplo muestra la esencia del método de Lyapunov, el cual consiste en la determinación de una función, que juega el mismo papel que la función V (t) en este ejemplo, y en el estudio de la evolución con el tiempo de la misma. En las secciones siguientes se estudia con detenimiento este método. 13.4.3 Noción de estabilidad en el sentido de Lyapunov Antes de proceder al estudio de la estabilidad de un sistema representado por su descripción interna, conviene introducir las siguientes definiciones: 1. Estado de equilibrio Un estado xe de un sistema dinámico se dice que es un estado de equilibrio si, xe = φ(t, t0 , xe , 0) (13.40) Sistemas no lineales 315 para algún t0 y para todo t > t0 . La anterior definición indica que si el sistema se encuentra en el estado de equilibrio y no se le aplica ninguna señal de entrada, permanece indefinidamente en dicho estado. Formalmente, un estado de equilibrio es una solución del sistema de ecuaciones, xe = φ(t, t0 )xe (13.41) Es claro que el estado 0 es un estado de equilibrio de un sistema dinámico. 2. Estabilidad en el sentido de Lyapunov Un estado de equilibrio xe se dice estable en el sentido de Lyapunov si, y sólo si, para todo número positivo ε existe un número positivo δ(ε) tal que, (k x0 − xe k≤ δ) ⇒ (φ(t, t0 , x0 , 0) k≤ ε) para un cierto valor de t0 y para todo t > t0 . De una manera intuitiva se puede decir que un estado de equilibrio xe es estable en el sentido de Lyapunov si la trayectoria del estado a partir de un estado suficientemente cercano a xe no se separa significativamente del estado de equilibrio. En la 13.28 se ilustra el concepto de estabilidad en el sentido de Lyapunov. 3. Estabilidad asintótica en el sentido de Lyapunov Un estado de equilibrio xe se dice que es asintóticamente estable, si es estable en el sentido de Lyapunov, y además todas las trayectorias del estado que se inicien suficientemente cerca de xe convergen a xe cuando t → ∞. Formalmente se puede interpretar este resultado como sigue. Para todo número real µ > 0, existe una constante real δ > 0 tales que les corresponde un número real T (µ, δ) > 0 tal que, [k x0 − xe k≤ δ] ⇒ [k φ(t, t0 , x0 , 0) − xe k≤ µ] (13.42) para todo t > t0 + T. 13.4.4 Teorema de Lyapunov Antes de proceder a enunciar el teorema de Lyapunov conviene introducir el concepto de función definida positiva. Sistemas no lineales 316 V (x) = k δ x0 ε Figura 13.28: Estabilidad en el sentido de Liapunov Una función escalar V (x), de n variables, se dice que es definida positiva en una región R alrededor del origen si, 1. V (x) es continuamente diferenciable en IR. 2. V (0) = 0. 3. V (x) > 0 para todo x 6= 0 perteneciente a IR. Si la condición (3) de la definición anterior se cambia a V (x) ≥ 0 para todo x perteneciente a R, entonces se dice de V (x) que es positiva semidefinida. Si V (x) < 0, entonces V (x) es definida negativa; y, por último, si V (x) ≤ 0 entonces V (x) se dice semidefinida negativa. Con la ayuda de estos conceptos se puede proceder a enunciar el siguiente teorema, debido a Lyapunov. Teorema El estado de equilibrio xe = 0 de un sistema autónomo es estable si existe una función definida positiva V (x), tal que su derivada total con relación al tiempo dV (x)/dt a lo largo de toda trayectoria del sistema, es semidefinida negativa. Sistemas no lineales 317 Demostración Una función V (x) tal que satisfaga las condiciones del teorema anterior, recibe la denominación de función de Lyapunov. La existencia de una función de Lyapunov garantiza la estabilidad de un sistema. En efecto, considérese el espacio bidimensional que se muestra en la figura 13.28. Considérese además, sin pérdida de generalidad, que el origen es un estado de equilibrio, cuya estabilidad se quiere analizar. Para que el sistema sea estable, debe demostrarse que dado un cierto ε > 0, entonces existe δ > 0 tal que (k x0 k< δ) ⇒ (k φ(t, t0 , x0 , 0) k< ε) (13.43) para todo t > t0 . Sea ε tal como se muestra en la figura 13.28. Puesto que existe una función de Lyapunov V (x), esta función será tal que V (x) > 0 para todo x 6= 0. Considérese el contorno de V (x) = k, para todo x ≤ ε. Se elige un valor de δ tal que sea la menor distancia entre el estado de equilibrio y la curva V (x) = k. Considérese cualquier x0 situado en el interior del circulo definido por el radio δ. Se tendrá que V (x0 ) < k. El anterior teorema puede modificarse para el caso de la estabilidad asintótica, sencillamente cambiando la condición de que V̇ (x) sea semidefinida negativa, por la de que sea definida negativa. La demostración del teorema, con esta modificación, es muy simple. Ejemplo Considérese el sistema no-lineal descrito por , ẋ1 = x2 − x1 (x21 + x22 ) ẋ2 = −x1 − x2 (x21 + x22 ) Si se adopta V (x) = x21 + x22 Se tendrá V̇ (x) = −2(x21 + x22 )2 La cual es negativa excepto para x1 = x2 = 0. Es decir, V̇ es decreciente a lo largo de cualquier solución y, por lo tanto, V es una función de Lyapunov. Se concluye que el sistema es asintóticamente estable. Sistemas no lineales 13.4.5 318 Aplicación del método de Lyapunov a sistemas lineales Supóngase un sistema caracterizado por la terna (A, b, c). Se trata de establecer criterios que permitan discernir si un sistema será estable o no a partir del conocimiento de las matrices que constituyen la anterior terna. Para un sistema lineal, la transición entre estados puede descomponerse en una transición con entrada nula, y una transición a partir del estado nulo, de acuerdo con la siguiente expresión: x(t) = φ(t1 , t0 , x0 , u) = φ(t1 , t0 , x0 , 0) + φ(t1 , t0 , 0, u) (13.44) Ello es una consecuencia inmediata de la propiedad de superposición. Para el estudio de la estabilidad tiene un gran interés la anterior descomposición. De hecho, se procede a estudiar por separado la estabilidad de cada uno de los términos de la expresión 13.44. Combinando los resultados de estabilidad de cada una de las partes, se obtiene la estabilidad del sistema. Sea xe un estado de equilibrio. Se puede escribir, x(t) − xe = φ(t) (x0 − xe ) = eAt (x0 − xe ) (13.45) y definiendo δx = x − xe se tiene que: δx(t) = eAt δx(0) (13.46) La estabilidad en el sentido de Lyapunov tal como se ha definido anteriormente, exige que |δx(t)| < k, para todo t. De la observación de la expresión 13.46, se tiene que el que |δx(t)| < k es equivalente a que k eAt k< k, en donde k eAt k representa la norma de la matriz eAt . Por otra parte se sabe que A se puede escribir, A = P A P −1 (13.47) en donde P es una matriz no singular y A es la forma de Jordan de la matriz A. Es sabido que, (13.48) eAt = P eAt P −1 Sistemas no lineales 319 luego, de las propiedades de la norma de una matriz, se tiene que, k eAt k=k P k · k eAt k · k P −1 k (13.49) De la expresión (13.49) se desprende el hecho de que k eAt k esté, a su vez, acotada. Por lo tanto el estudio de las condiciones que debe cumplir k eAt k para que esté acotada, se puede reducir al de k eAt k. Ahora bien eAt está acotada si y sólo si lo están todos los elementos de esa matriz. Estos elementos son de la forma tk eλi t en donde λi = αi + jwi es un autovalor de A. Si αi es negativo, es inmediato que tk eλi t está acotado solo si k = 0, es decir, el autovalor imaginario puro es un cero simple del polinomio mı́nimo de A. Teorema El estado de reposo de ẋ = Ax, considerado como estado equilibrio, es asintóticamente estable si y sólo si todos los autovalores de A tienen la parte real negativa. Demostración Siguiendo la misma lı́nea de la demostración del teorema anterior, se tiene que el estado de reposo será asintóticamente estable, si además de k eAt k ser acotada, se exige que eAt tienda a cero cuando t → ∞. Razonando como se hizo en la demostración del anterior teorema se tiene que ello sólo será posible si todos los autovalores de A tienen la parte real negativa. Para estudiar la estabilidad de la respuesta del sistema a partir del reposo, debe recordarse que la respuesta de un sistema a partir del reposo viene dada por: y(t) = Z t t0 g(t, τ ) u(τ ) dτ (13.50) Por otra parte, la respuesta de un sistema a una entrada nula, viene dada por la solución del sistema de ecuaciones diferenciales siguiente, ẋ = Ax (13.51) Sistemas no lineales 320 a partir de un estado inicial arbitrario. Esta respuesta viene dada por, x(t) = φ(t, t0 ; x0 , 0) = φ(t, t0 )x0 (13.52) Para estudiar las aplicaciones del método de Lyapunov al estudio de la estabilidad de sistemas lineales, estacionarios, conviene introducir previamente la noción de matriz definida positiva. Una matriz Q se dice definida positiva si la forma cuadrática xT Qx es positiva definida. Se escribe entonces Q > 0. De forma análoga se define una matriz semidefinida positiva, definida negativa y semidefinida negativa (y se escribe Q ≥ 0, Q < 0, y Q ≤ 0, respectivamente). Para determinar si una matriz Q es definida positiva , se aplica el criterio de Sylvester, el cual establece que la matriz Q es definida positiva si se cumple que à q11 > 0, det q11 q12 q21 q22 ! > 0, q11 q12 q13 det q21 q22 q23 > 0, q31 q32 q33 ··· Considérese un sistema lineal autónomo, ẋ(t) = Ax(t) (13.53) Para estudiar si el origen es un estado de equilibrio asintóticamente estable, se establece el siguiente teorema. Teorema Si el sistema (13.53) es asintóticamente estable, entonces para toda matriz definida positiva P la ecuación AT Q + QA = −P (13.54) tiene una solución (única) Q definida positiva. Inversamente, si para una matriz P arbitraria definida positiva, la ecuación (13.54) tiene una solución Q definida positiva, entonces el sistema (13.53) es asintóticamente estable. Sistemas no lineales 321 Demostración 1. Necesidad Supóngase que 13.53 es asintóticamente estable. Entonces para cualquier P > 0 se define Q como, Q= Z ∞ 0 eAτ P eAτ dτ que está completamente definida si A es asintóticamente estable. En tal caso T A Q + QA = = Z ∞³ Z0∞ 0 T T ´ AT eA τ P eAτ + eA τ P eAτ A dτ ³ T ´ d eA τ P eAτ = −P Es decir, si el sistema es asintóticamente estable para cualquier P > 0 existe Q tal que satisface (13.54). 2. Suficiencia Supóngase que para un cierto P > 0, la expresión (13.54) tiene una solución Q > 0. Entonces se define la función de Lyapunov V (x) = xT Qx cuya derivada total es dV (x) = ẋT Qx + xT Qẋ dt = xT AT Qx + xT QAx = −xT P x < 0 es decir, el sistema es asintóticamente estable. Puesto que la matriz P es arbitraria aunque simétrica, en las aplicaciones prácticas se hace P = I. Ejemplo Sistemas no lineales 322 Supongamos que el sistema de la expresión (13.33) se adopta en forma lineal y se hace h = 1 y k = 2. Se tiene entonces el sistema lineal siguiente: ẍ + ẋ + 2x = 0 cuya descripción interna, haciendo x = x1 y ẋ = x2 viene dada por: ẋ1 = x2 ẋ2 = −2x1 − x2 El estado de equilibrio es el origen x = 0. Se trata de estudiar la estabilidad de este equilibrio empleando el método que se acaba de estudiar. Haciendo P = I se tiene que la ecuación (13.54) se convierte en, AT Q + QA = −I la cual, particularizando los valores de A, se convierte en: à 0 −2 1 −1 !à q11 q12 q12 q22 ! à + q11 q12 q12 q22 !à 0 1 −2 −1 ! à = −1 0 0 −1 ! en donde se ha tenido en cuenta que q21 = q12 . La anterior ecuación se puede escribir en forma de un sistema de ecuaciones en q11 , q12 y q22 , las cuales resultan ser las siguientes: −4q12 = −1 q11 − q12 − 2q22 = 0 2q12 − 2q22 = −1 Estas ecuaciones admiten la solución q11 = 7 4 por lo tanto, q12 = à Q= 1 4 q22 = 7/4 1/4 1/4 3/4 3 4 ! Esta matriz, aplicando el criterio de Sylvester, resulta ser definida positiva. De ello se concluye que el sistema es asintóticamente estable en torno al origen. La función de Lyapunov correspondiente es 7 1 3 V (x) = x21 + x1 x2 + x22 4 2 4 Sistemas no lineales 323 y V̇ viene dada por, V̇ = −x21 − x22 que es definida negativa, luego el sistema es estable. Obsérvese que si se adoptase la energı́a como función de Lyapunov (recordando la expresión (13.35)) se tendrá V = x21 + x22 y que V̇ = −x22 Lo que se ha querido es mostrar una función de Lyapunov general, que no se corresponda con la energı́a. Por otra parte, este ejemplo sólo pretende ilustrar el método anterior. Estaá claro que la determinaciónóde la estabilidad del equilibrio se hace de forma más sencilla calculando los autovalores del sistema y comprobando que los dos tienen parte real negativa. 13.5 Construcción de funciones de Lyapunov con formas cuadráticas Sea el sistema no lineal, con equilibrio en el origen: ẋ = f (x) f (0) = 0 (13.55) Supóngase que la dependencia funcional de f con relación a las variables x1 , x2 , ...xn , se puede descomponer aditivamente; es decir, fi = n X fij (xj ) (13.56) j=1 Este supuesto puede parecer restrictivo, pero en realidad está implı́cito en el tipo de sistemas considerados hasta ahora, en los que se tenı́an no linealidades dependientes de una única variable conectadas entre sı́ mediante módulos aditivos. En los ejemplos que veremos más abajo, quedará claro este hecho. La expresión (13.56) puede escribirse fi = n X fij (xj ) j=1 xj xj Sistemas no lineales 324 vamos a hacer la hipótesis adicional de que existe el lı́mite fij (xj ) xj →0 xj lim lo cual significa que cada función fij (es decir, cada caracterı́stica no lineal del sistema) tiene en el origen una pendiente no nula. Todas las caracterı́sticas que se han visto hasta ahora cumplen esta propiedad. En consecuencia, la expresión (13.55) puede escribirse ẋ = F (x)x (13.57) siendo à F (x) = fij (xj ) xj ! obsérvese que (13.57) recuerda formalmente a un sistema lineal como el de la expresión 17.20, con la diferencia de que aquı́ la matriz A depende del estado x (por eso el sistema es no lineal). Vamos a ver que gracias precisamente a la forma que tiene la expresión (13.57) es posible ampliar el método aplicado a los sistemas lineales, a esta clase de sistemas no lineales. En efecto, considérese una función de Lyapunov de la forma: V (x) = xT Qx QT = Q derivando esta función de Lyapunov con respecto al tiempo, y recordando (13.57), se tiene V̇ (x) = ẋT Qx + xT Qẋ ³ ´ = xT F T (x)Q + QF (x) x De donde se concluye que si Q es definida positiva y si P , definida por ³ ´ P (x) = − F T (x)Q + QF (x) es también definida positiva, entonces se cumplen las condiciones suficientes para garantizar que el sistema (13.55) es asintóticamente estable. Ejemplo Sea el sistema representado en la figura 13.29. Este sistema está formado por una parte lineal y un bloque no lineal, que posee la caracterı́stica h. Se supone que la referencia es u = 0, y que la caracterı́stica es tal que h(0) = 0. Se trata de estudiar su estabilidad. Sistemas no lineales u + 325 + - x2 + 5 x1 y - - z = h(y) Figura 13.29: Para ello, en primer lugar se escribe su descripción interna ẋ1 = −x1 + 5x2 ẋ2 = −h(x1 ) − x2 + u que, a su vez, se puede reescribir de la forma (13.57). à ẋ1 ẋ2 ! à ! à ! −1 5 0 x1 = h(x1 ) + u x2 1 −1 − x1 siendo (13.58) −1 5 F (x) = h(x1 ) − −1 x1 Puesto que u = 0 la expresión (13.58) es de la forma (13.57). (13.59) Se adopta la siguiente función de Lyapunov V (x) = ³ x1 x2 ´ à q1 0 0 q2 !à x1 x2 ! Recordando la expresión (13.5) se tiene ³ ´ 2q1 P (x) = − F T (x)Q + QF (x) = q2 h(x1 ) − 5q1 x1 h(x1 ) q2 − 5q1 x1 2q2 La estabilidad del sistema (13.57) estará garantizada siempre que P (x) sea definida positiva. Para ello se requiere que q1 > 0 Sistemas no lineales 326 h(x) Figura 13.30: à h(x1 ) 4q1 q2 − q2 − 5q1 x1 !2 >0 La segunda de estas desigualdades requiere un análisis detenido. Supóngase que los parámetros q1 y q2 toman dos valores concretos; por ejemplo, q = 14 y q2 = 1. En este caso la segunda desigualdad se convierte en à h(x1 ) 5 1− − x1 4 !2 >0 que conduce a 9 h(x1 ) 1 > > 4 x1 4 Esta desigualdad se puede interpretar gráficamente como se hace en la figura 13.30. De acuerdo con esta figura la caracterı́stica del sistema no lineal H debe estar comprendida entre las rectas de pendientes 9/4 y 1/4. Si la caracterı́stica H cumple esta condición el sistema tiene garantizada su estabilidad. Esta forma de establecer el criterio de estabilidad, mediante la definición de un sector en el que se confina la caracterı́stica no lineal del sistema tiene un gran interés en las aplicaciones y aporta un instrumento para caracterizar la estabilidad de sistemas no lineales de gran interés y posibilidades. Sistemas no lineales 13.5.1 327 Método de Krasovkii El método de Krasovkii permite determinar la función de Lyapunov de un sistema no lineal de la forma ẋ = f (x) f (0) = 0 (13.60) ∂fi tal que ∂x existe en la región de interés. De acuerdo con este método se adopta j como función de Lyapunov V (x) = kẋk2 = f T (x)f (x) ≥ 0 (13.61) En tal caso se tiene à V̇ = ∂f ẋ ∂x !T f (x) + f T (x) ∂f ẋ ∂x = f T (x)[F T (x) + F (x)]f (x) = −f T (x)P (x)f (x) siendo F (x) = ∂f ∂x (13.62) y P (x) = −[F T (x) + F (x)] (13.63) Si la matriz P (x) = F T (x) + F (x) es definida positiva entonces se cumplen las condiciones suficientes para que (13.60) sea estable. Para que sea asintóticamente estable se requiere que P (x) sea definida positiva. Obsérvese que si P es definida positiva, entonces V̇ < 0, ya que esto último es cierto para cualquier x y por tanto paraf . Ejemplo Sea el sistema dinámico ẋ1 = −ax1 + x2 ẋ2 = x1 − x2 − x32 tal que a > 1. Su único equilibrio en x = 0. Sistemas no lineales 328 De acuerdo con (13.62) se tiene que à F (x) = −a 1 1 −1 − 3x22 ! y recordando (13.63) à P (x) = 2a −2 −2 2 + 6x22 ! para que P (x) sea definida positiva se tiene que cumplir a>0 y además 4a + 12ax22 − 4 > 0 Puesto que a > 1 las dos desigualdades se cumplen y el sistema es asintóticamente estable. Ejemplo Sea el sistema dinámico de la figura 13.5.1, en el que se tienen dos señales de entrada u1 y u2 , dos señales de salida y1 y y2 , y dos no linealidades cuyas caracterı́sticas vienen dadas por g1 y g2 . Se trata de estudiar la estabilidad de este sistema. Las ecuaciones del sistema dinámico correspondiente resultan ser ẋ1 = −g1 (x1 ) + g2 (x2 ) + u1 ẋ2 = x1 − ax2 + u2 Se supone que u1 = u2 = 0 con lo que el sistema anterior se convierte en un sistema autónomo. Se supone además que g1 (x1 ) = 0 y g2 (x2 ) = 0. Recordando la expresión (13.62) se tiene ∂g1 − F (x) = ∂x1 1 ∂g2 ∂x2 −a Sistemas no lineales 329 u1 = 0 + + y1 x1 - + z1 = g1 (y1 ) z2 = g2 (y2 ) u2 = 0 + x2 + + y2 - a Figura 13.31: Diagrama de bloques de un sistema no lineal. Con lo que, de acuerdo con (13.63) P (x) = à ∂g2 ∂g1 2 − 1+ ∂x2 à ∂x1 ! ∂g2 − 1+ 2a ∂x2 ! Para que este sistema sea asintóticamente estable se requiere 1. a > 0, 2. ∂g1 > 0, ∂x1 à ∂g2 ∂g1 − 1+ 3. 4a ∂x1 ∂x2 !2 > 0. La condición 2 se interpreta mediante la figura 13.32 en la que se pone de manifiesto que la caracterı́stica g1 debe ser siempre monótona creciente. Sistemas no lineales 330 La condición 3 conduce a las regiones de estabilidad que se indican en la figura 13.33. g1 (x1 ) pendiente siempre positiva x1 Figura 13.32: Condición 2 para la estabilidad del sistema. ∂g1 a ∂x 1 Estable Inestable -1 ∂g2 (x2 ) ∂x2 Figura 13.33: Condición 3 para la estabilidad del sistema. Tema 14 Introducción a la optimización de sistemas dinámicos 14.1 Introducción La optimización es un concepto que se emplea habitualmente en la vida ordinaria. Cada vez que ante un determinado problema existen múltiples soluciones, se adopta aquella que, bajo un cierto punto de vista, se considera la ”mejor”. Este concepto se puede formalizar, siempre que se puedan definir el conjunto U de soluciones posibles, y exista una función J(u) que permita medir el grado de bondad de cada una de las soluciones, habida cuenta del punto de vista adoptado. En lo que sigue, se considerará la mejor solución aquella para la que la función J(u) adquiera el valor mı́nimo. En tal caso, el problema de optimización puede expresarse formalmente como el de encontrar el valor u∗ perteneciente a U tal que: J(u∗ ) ≤ J(u) ∀u ∈ U La forma del conjunto U de soluciones posibles permite una primera clasificación de los problemas de optimización. • Los elementos que constituyen el conjunto U pueden ser números reales, entre los que hay que elegir el valor más conveniente para que J(u) tome un valor mı́nimo. En tal caso, el problema de optimización recibe la denominación de optimización estática, puesto que se trata de determinar el valor 331 Introducción a la optimización de sistemas dinámicos 332 que debe tomar un cierto parámetro, o conjunto finito de parámetros, para que se obtenga la mejor solución posible. • Los elementos que constituyen el conjunto U pueden ser los valores que toma una función del tiempo u(t) para t ∈ [0, T ]. En tal caso se tiene la denominada optimización dinámica. El problema de la optimización estática se reduce al de la determinación de los mı́nimos (o máximos) de una función escalar. El problema que se estudiará aquı́ es el de la optimización dinámica, especialmente en su aplicación a la teorı́a del control óptimo. 14.2 Optimización Estática. La optimización estática se reduce a la aplicación de los métodos de máximos y mı́nimos de funciones ordinarias, que vamos a repasar en esta sección. 14.2.1 Minimización de funciones Sea D un subconjunto de números reales x, dado por D = {x | x0 < x < x1 } y sea f una función real tal que f : D → R. Se dice que f tiene un mı́nimo local (relativo) en x∗ si existe un entorno N de x∗ tal que ∆f = f (x) − f (x∗ ) ≥ 0, ∀x ∈ N en tal caso se tiene, ∆x = (x − x∗ ) > 0, ∆f > 0, =⇒ ∆f >0 ∆x ∆f <0 ∆x Estos conceptos se ilustran en la figura 14.1. Es sabido que la condición necesaria para tener un mı́nimo es: df =0 dx Mientras que la suficiente es: d2 f >0 dx2 ∆x = (x − x∗ ) < 0, ∆f > 0, =⇒ Introducción a la optimización de sistemas dinámicos 333 f ∆f xo x x∗ x x1 Figura 14.1: Mı́nimo de una función ordinaria f df dx d2 f dx2 x x x Figura 14.2: Derivadas sucesivas en un mı́nimo Introducción a la optimización de sistemas dinámicos 334 En la figura 14.2 se ilustran gráficamente estas condiciones. Los anteriores resultados se generalizan para funciones multivariables. En efecto, sea x ∈ Rn , f : Rn → R, (y = f (x1 , ..., xn )). Se supone: • f (x) es continua para todo x. • El vector gradiente " ∂f ∂f = ∂x ∂xi # es continuo para todo x. • La matriz hessiana H es continua para todo x " ∂ 2f H= ∂xi ∂xj # En estas condiciones, la condición necesaria para un mı́nimo en x∗ resulta ser ∂f =0 ∂x mientras que la suficiente es que la matriz hessiana " ∂2f H= ∂xi ∂xj # sea definida positiva en x∗ . Restricciones o Ligaduras Supóngase que se trata de minimizar f (x) con la condición adicional de que el mı́nimo esté localizado en el subespacio definido por g(x) = 0 g : Rn → Rm Método particular: eliminar m de las variables x1 , ..., xn en g(x) = 0 y sustituir en f (x). Se tiene entonces una función de (n − m) variables que se resuelve como más arriba. Esto no siempre es posible. En tal caso se emplea el método de los multiplicadores de Lagrange. Introducción a la optimización de sistemas dinámicos 335 Vamos a considerar el caso en el que n = 2 y m = 1. Es decir, se trata de minimizar una función f (x1 , x2 ) de dos variables x1 y x2 , sometida a una restricción g(x1 , x2 ) = 0. La condición de mı́nimo es df (x) = ∂f ∂f dx1 + dx2 = 0 ∂x1 ∂x2 además la restricción g(x1 , x2 ) = 0 implica que ∂g ∂g dx1 + dx2 = 0 ∂x1 ∂x2 Se tiene, formalmente, o sea que las fracciones y ∂f ∂g dx2 ∂x ∂x =− 1 =− 1 ∂f ∂g dx1 ∂x2 ∂x2 ∂f ∂x1 ∂f ∂x2 ∂g ∂x1 ∂g ∂x2 deben ser proporcionales para un valor de x(t) candidato al mı́nimo (o máximo). Sea λ esta constante de proporcionalidad ∂f ∂f ∂x1 ∂x2 −λ = = ∂g ∂g ∂x1 ∂x2 Si se define la lagrangiana L(x, λ) = f (x) + λg(x) se tiene que ∂L =0 ∂x es equivalente a (14.1), mientras que: ∂L =g=0 ∂λ (14.1) Introducción a la optimización de sistemas dinámicos 336 es la restricción. En general, para un problema de dimensiónón n arbitraria, la lagrangiana se define: L(x, λ) = f (x) + λT g(x) Ejemplo Determinar un punto, en un espacio tridimensional, que minimice la función f (x1 , x2 , x3 ) = x21 + x22 + x23 y que esté situado en la intersección de la superficies x3 = x1 x2 + 5 x1 + x2 + x3 = 1 Se define la lagrangiana L = x21 + x22 + x23 + λ1 (x1 x2 + 5 − x3 ) + λ2 (x1 + x2 + x3 − 1) lo que conduce a las ecuaciones para el mı́nimo ∂L ∂x1 ∂L ∂x2 ∂L ∂x3 ∂L ∂λ1 ∂L ∂λ2 = 2x1 + λ1 x2 + λ2 = 0 = 2x2 + λ1 x1 + λ2 = 0 = 2x3 − λ1 + λ2 = 0 = x1 x2 + 5 − x3 = 0 = x1 + x2 + x3 − 1 = 0 La solución está formada por los dos equilibrios (2, −2, 1) y (−2, 2, 1). 14.3 Introducción al control óptimo Sea un sistema dinámico descrito por una ecuación diferencial de la forma: ẋ = f (x, u) (14.2) Introducción a la optimización de sistemas dinámicos 337 En donde el punto sobre la x representa su derivada con relación al tiempo ( dx ≡ ẋ). El sistema dinámico descrito por la ecuación anterior debe seguir dt una determinada trayectoria a partir del estado x(0), durante un intervalo de tiempo [0, T ]. Se trata de determinar la señal u(t) que deberá aplicarse durante este intervalo de tiempo para que en su evolución se minimice el funcional: J= Z T 0 L(x, u, t)dt + S(x(T )) (14.3) en donde las funciones de penalización L(x, u, t) y de coste terminal S(x(T )) son en general funciones no negativas de x y de u, tales que L(0, 0, t) = 0 y S(0) = 0. De todas las señales de mando u(t) ∈ U que pueden aplicarse al sistema descrito por la ecuación (14.2) durante el intervalo [0, T ], existirá una u∗ (t) tal que: J(u∗ (t)) ≤ J(u(t)) ∀u(t) ∈ U (14.4) La señal u∗ (t) recibe la denominación de señal de control óptima. Esta señal constituye una prescripción del conjunto de valores que debe tomar la señal de entrada (de control) u durante el intervalo [0, T ]. En algunos problemas interesa en lugar de disponer de la señal de control óptima u∗ (t), tener una expresión que permita calcular el valor de la señal de entrada u en función del estado x en que se encuentre el sistema. Es decir, determinar una expresión de la forma u∗ (x). En tal caso se dice que se dispone de una ley de control óptima. La solución es una solución realimentada en la que el valor que toma en cada instante, del intervalo [0, T ], por la señal de entrada u está determinada a partir del estado x en que se encuentra el sistema. Las señales de entrada u(t) normalmente no pueden exceder unos determinados lı́mites. Una señal de entrada (control) que satisfaga unas ciertas restricciones en el control durante todo el intervalo de operación (0, T ) se denomina una señal admisible de control (o control admisible). Se denota por U el conjunto de todos los valores de la señal u(t) admisibles. u(t) es admisible si: u(t) ∈ U ∀ t ∈ [0, T ] También pueden darse restricciones sobre x(t). Una trayectoria del estado x(t) que satisfaga las restricciones sobre el estado durante todo el intervalo de operación [0, T ] se denomina una trayectoria admisible. Si X denota el conjunto de los valores admisibles, se dice que x(t) es admisible si: x(t) ∈ X ∀t ∈ [0, T ] Los requerimientos sobre el funcionamiento de la planta se representan matemáticamente mediante un criterio o ı́ndice de funcionamiento. Introducción a la optimización de sistemas dinámicos 14.3.1 338 Ejemplos El problema del control óptimo está formado básicamente por un sistema dinámico de la forma (14.2) y por un criterio a optimizar de forma (14.3). Vamos a dedicar esta sección a presentar algunos ejemplos de criterios de funcionamiento de la forma (14.3). Problema del tiempo mı́nimo Se da el tiempo t = 0 y el estado inicial x(0) = x0 . El estado final se requiere que se encuentre en una cierta región S ⊂ X × T . S es el conjunto objetivo (si el estado final está fijado de antemano, el conjunto S es una recta). El objetivo del problema es transferir el estado del sistema desde x0 a S en un tiempo mı́nimo. El criterio de funcionamiento es: J = T = Z T 0 dt Problema de la energı́a mı́nima Se trata de transferir el estado de un sistema desde x0 hasta S con un gasto mı́nimo de energı́a. Normalmente u2 (t) es una buena medida del flujo de gasto de energı́a, de modo que para minimizar este gasto se puede adoptar el ı́ndice: J= Z T t0 u2 (t)dt Si el sistema posee varias señales de control se tiene J= Z T t0 uT (t)u(t)dt Para permitir mayor generalidad se puede considerar una matriz definida positiva R de modo que Z J= T t0 uT (t)Ru(t)dt Normalmente R es diagonal (si es definida positiva todos sus elementos son positivos). Los distintos valores de diag(R) representan el peso relativo que se asigna a cada variable de control en el gasto de energı́a. Introducción a la optimización de sistemas dinámicos 339 Problema del mı́nimo combustible La tasa de consumo de combustible suele ser proporcional al empuje por lo que se puede escribir Z T J= 0 | u(t) | dt (siendo u la tasa de flujo del combustible - empuje del cohete), (o del vehı́culo espacial que se está maniobrando). Si existen varios propulsores J= Z T 0 (k1 | u(t) | +k2 | u(t) | +... + km | u(t) |)dt siendo ki factores de peso (ponderación) no negativos. Problema del regulador del estado Se trata de transferir un sistema desde un estado inicial x0 a un estado deseado xf (normalmente el estado de equilibrio del sistema) con un valor mı́nimo del valor cuadrático medio del error. Con relación a xf el valor de x(t) − xf se puede considerar como el error instantáneo del sistema. Si se cambia de coordenadas, de modo que xf = 0, entonces x(t) es el mismo error. Z T J= xT (t)x(t)dt 0 En general J= Z T 0 xT (t)Qx(t)dt siendo Q una matriz real, simétrica, semidefinida positiva y constante. La forma más simple de Q es Q = diag [qi ] en donde qi representa el peso que se asigna a la componente xi del vector de estados a la hora de evaluar su contribución a J. Cuanto mayor es qi mayor es el esfuerzo de control dedicado a regular (llevar a cero) a xi . Para minimizar la desviación del estado final x(T ) del sistema del estado deseado xf = 0, se adopta el ı́ndice J = xT (T )Hx(T ) Introducción a la optimización de sistemas dinámicos 340 siendo H real, simétrica, semidefinida positiva y constante. El ı́ndice conjunto es J = xT (T )Hx(T ) + Z T 0 xT (t)Qx(t)dt que puede resultar aún insatisfactorio. Es más realista añadir un término que penalice la acción de control u(t). Se tiene entonces T J = x (T )Hx(T ) + Z T 0 [xT (t)Qx(t) + uT (t)Ru(t)]dt Problema del regulador del estado en tiempo infinito J= Z ∞ 0 [xT (t)Qx(t) + uT (t)Ru(t)]dt La restricción terminal en este caso no es necesaria. En el problema del regulador del estado se trata de mantener el estado pequeño (lo más próximo posible a xf = 0). Problema del regulador de la salida Supuesta ajustada la salida del sistema a un valor de referencia, en una escala, en que sea yref = 0, se trata de mantener y(t) lo más próxima posible a cero. T J = y (T )Hy(T ) + Z T 0 [y T (t)Qy(t) + uT (t)Ru(t)]dt Problema del seguimiento (tracking) Se trata de mantener el estado del sistema x(t) lo más cercano posible al estado deseado r(t) en [0, T ]. T J = e (T )He(T ) + siendo e = x − r. Z T 0 [eT (t)Qe(t) + uT (t)Ru(t)]dt Introducción a la optimización de sistemas dinámicos c1 341 c2 q1 q2 h V, c q Figura 14.3: Diagrama de un depósito mezclador. 14.3.2 Ejemplo de ı́ndice de funcionamiento cuadrático Considérese un mezclador de fluidos como el que se muestra en la figura 14.3, en la que se tiene un esquema elemental de un proceso de mezcla de dos fluidos en un depósito. Este depósito de volumen V y altura h está alimentado por los caudales q1 y q2 , cada uno de los cuales con concentración c1 y c2 de un determinado producto quı́mico. La concentración de este producto en el depósito es c. El depósito evacua por un conducto situado en su parte baja mediante un caudal q. Se supone que la homogeneización de las concentraciones de los caudales de entrada se produce instantáneamente gracias a la acción de unas palas batidoras. Se supone, ası́ mismo, que la densidad es constante en el interior del depósito. Las ecuaciones del balance de masas son las siguientes: dv(t) = q1 (t) + q2 (t) − q(t) dt (14.5) d[c(t)v(t)] = c1 (t)q1 (t) + c2 (t)q2 (t) − c(t)q(t) dt (14.6) El flujo de salida del depósito viene dado por q q(t) = k h(t) = k s v(t) a (14.7) En donde k es una constante y a es el área del depósito. De modo que v = ha. Introducción a la optimización de sistemas dinámicos 342 Supóngase un estado estacionario de funcionamiento en el que se produce un equilibrio entre las entradas y salidas del depósito, para los siguientes valores de los flujos de entrada y salida, ası́ como del volumen en el depósito v0 y de su concentración c0 . q1 (0) = q10 , q2 (0) = q20 , q(0) = q0 , v(0) = v0 , c(0) = c0 Convienen observar que las concentraciones de entrada c1 y c2 se establecen en la etapa anterior del proceso. En estas condiciones de régimen estacionario, las ecuaciones (14.5, 14.6,14.7) toman la forma: 0 = q10 + q20 − q0 0 = c1 q10 + c2 q20 − c0 q0 r v0 q0 = k a Se trata de determinar las ecuaciones lineales que rigen el comportamiento del sistema en torno a este estado estacionario en el supuesto de que se trate de perturbaciones suficientemente pequeñas como para justificar la linealización. Conviene observar que el proceso que se está considerando es un proceso no lineal; es decir, la ecuaciones que gobiernan su comportamiento son no lineales. Esta no linealidad tienen un doble origen. Por una parte, la ecuación (14.6) es no lineal ya que en ella aparecen producto de variables. Por otra parte, la expresión (14.7) liga q con v (o con h) mediante una relación no lineal (la raı́z cuadrada). Las variaciones de las distintas variables con respecto a los valores tomados en régimen estacionario se denotarán mediante un tilde sobre la variable correspondiente. Es decir, q̃(t) = q(t) − q0 representa la variación del caudal q respecto al valor estacionario q0 . Análogamente se definen el resto de las variables ṽ(t) = v(t) − v0 q1 (t) = q10 + q̃1 (t) q2 (t) = q20 + q̃2 (t) c(t) = c0 + c̃(t) Si las variaciones son suficientemente pequeñas, entonces la expresión no lineal (14.7) se puede linealizar en torno al valor correspondiente por régimen estacionario, de acuerdo con Introducción a la optimización de sistemas dinámicos 343 q k ∂ v(t) q(t) − q0 = √ |v=v0 (v(t) − v0 ) a ∂v(t) Es decir r k v0 q̃(t) = ṽ(t) (14.8) 2v0 a De este modo la relación entre la variación q̃(t) del caudal con respecto al valor en régimen estacionario, y la correspondiente al volumen ṽ(t), queda linealizada. Llevando las definiciones de las variaciones ṽ(t), q̃1 (t), q̃2 (t) y c̃(t) a las expresiones (14.5) y (14.6) y tendiendo en cuenta la definición del régimen estacionario y (14.8) se tiene que dṽ(t) 1 q0 ṽ(t) = q̃1 (t) + q̃2 (t) − dt 2 v0 dc̃(t) dṽ(t) 1 c 0 q0 v0 + c0 = c1 q̃1 (t) + c2 q̃2 (t) − ṽ(t) − q0 c̃(t) dt dt 2 v0 v0 τ= q0 Si se escribe x1 x2 u1 u2 y1 y2 = = = = = = ṽ c̃ q̃1 q̃2 q̃ c̃ y v0 q0 se tiene que las ecuaciones del sistema dinámico linealizado pueden escribirse de la forma siguiente: τ= à ẋ1 ẋ2 ! 1 − 2τ = 0 1 0 x + c1 − c0 1 − v0 τ 1 c2 − c0 u v0 Sistema dinámico lineal que describe el comportamiento del sistema perturbado en torno al régimen estacionario. Introducción a la optimización de sistemas dinámicos 344 Supóngase ahora que se trata de establecer un criterio cuadrático como ı́ndice de funcionamiento de este sistema. Sean las condiciones estacionarias para el depósito v0 = 1500 litros c0 = 15 gr-mol/litro y los correspondientes flujos de entrada son q10 = 10 litros/seg. q20 = 20 litros/seg. Se trata de construir un ı́ndice de la forma J= Z ∞ 0 (xT Qx + uT Ru)dt en el que las matrices Q y R son de la forma à Q= q1 0 0 q2 ! à R= r1 0 0 r2 ! Supóngase que se produce una variación del 1% en torno al valor estacionario, lo que en volumen corresponde a 15 litros, mientras que 1% de variación en concentración corresponde a 0,15. Supóngase que 1% de cambio en concentración se penaliza de la misma manera que un 1% de cambio en volumen. En tal caso se tendrı́a que q1 (15)2 ≈ q2 (0.15)2 o lo que es lo mismo q2 100 ≈ q1 0.01 Por tanto se tiene que à Q= 0.01 0 0 100 ! Se procede de forma similar con R. A un 1corresponde 0.1 litros/segundo y un 10,2 litros/segundos. Si ambos términos deben contribuir por igual al ı́ndice de funcionamiento se tendrá r2 (0.2)2 ≈ r1 (0.1)2 Es decir 0.5 r2 ≈ r1 2 y por tanto à R= 2 0 0 0.5 ! Introducción a la optimización de sistemas dinámicos 14.4 345 Problema general del control óptimo Resumiendo lo anterior se puede decir que el problema del control óptimo o de optimización dinámica, consiste en: • un sistema dinámico descrito por una ecuación diferencial de la forma, ẋ = f (x, u) (14.9) en donde x es el vector de estado de dimensión n, y u es el vector de control de dimensión m, cuyos valores en todo instante deben tomarse de un conjunto cerrado u(t) ∈ U . • unas condiciones iniciales y finales que normalmente son las siguientes: – el instante inicial 0 y el estado inicial x(0) están fijados. – el estado y el instante final están definidos por un par (x(T ), T ) de la trayectoria del sistema, que pertenezca a un conjunto dado S ⊂ X ×T . • un criterio de funcionamiento dado por un funcional de la forma J= Z T 0 L(x, u, t)dt + S(x(T ), T ) (14.10) El problema de optimización dinámica consiste en buscar la señal u(t), t ∈ [0, T ] que minimice a J de entre todas las señales posibles que transfieran el sistema de (0, 0) a (x(T ), T ). Obsérvese que en el criterio de funcionamiento de la expresión (14.10) aparece un término adicional que no estaba en la expresión (14.3). En los criterios de funcionamiento del problema del regulador del estado, del regulador de la salida y del seguimiento, que se han visto en la sección anterior, aparecı́an términos de esta naturaleza. En el apartado 15.1.3 volveremos sobre este término. Para el problema ası́ planteado pueden existir, en principio, dos soluciones de distinta naturaleza: • u∗ = u∗ (t): control en bucle abierto. • u∗ = u∗ (x): control en bucle cerrado (ley de control). Introducción a la optimización de sistemas dinámicos 346 En el primer caso se tiene una señal u∗ (t) que se aplica al sistema en el intervalo [0, T ]. La aplicación de esta señal se hace sin requerir información sobre la evolución del estado (en general, del sistema), por lo que se trata de una señal de control en bucle abierto. Por el contrario, en el segundo caso se tiene una solución al problema del control óptimo en la que la señal de control u∗ es función, en cada instante de tiempo, del estado del sistema. Se trata, por tanto, de un control por realimentación; es decir, en bucle cerrado. La solución del problema de control más interesante es la segunda, por incluir la estructura de realimentación, con las conocidas ventajas que esta estructura comporta. Sin embargo, como veremos luego, este segundo tipo de soluciones es considerablemente más difı́cil de alcanzar que el primero. De hecho, sólo existe una solución general para el problema de control en bucle cerrado para sistemas lineales con criterio cuadrático. Sin embargo, si existe una amplia clase de problemas que admiten solución en bucle abierto. Una posible solución en la práctica es determinar el control en bucle abierto, y linealizar en torno a esta trayectoria óptima, aplicando entonces el control en bucle cerrado. Para determinar el control en bucle abierto se emplean el cálculo de variaciones y el principio del mı́nimo de Pontriagin. Para la determinación de la ley de control óptima se aplica la programación dinámica y las variantes derivadas de este método. Por otra parte, el cálculo de variaciones permite la solución del problema del control óptimo cuando no existen restricciones, mientras que la programación dinámica y el principio del mı́nimo de Pontriagin permiten incorporar restricciones en U. 14.5 Cálculo de variaciones El cálculo de variaciones es la rama de las matemáticas que se ocupa de determinar las trayectorias que minimizan o maximizan un funcional. Conviene que dediquemos algún espacio al concepto de funcional. 14.5.1 Funcionales y sus variaciones Sea X una clase de funciones x(t) definidas en el intervalo [0,t]. Si a toda función x(t) ∈ X se asocia, de acuerdo con una regla, un número J se dice que en la clase X está definido el funcional J y se escribe J = J[x(t)]. La clase X se denomina campo de definición del funcional. Para nosotros, la clase de funciones X será la Introducción a la optimización de sistemas dinámicos 347 clase de señales x(t) definidas en el intervalo [0, T ]. En la figura 14.5 se ilustra como a cada señal x(t) definida en [0, T ] corresponde un valor de J, que es un número real. Ejemplo Sea X = C[0, T ] el conjunto de todas las funciones contı́nua x(t) definidas en el intervalo [0, 1] y sea el funcional J[x(t)] = Z 1 0 x(t)dt Es decir J = J[x(t)] es un funcional de x(t), ya que a toda función x(t) ∈ C[0, T ] le corresponde un valor determinado de J = J[x(t)]. Por ejemplo, si x(t) = 1 se tiene Z 1 J[x(t)] = dt = 1 0 x o si x(t) = e , se tiene J[x(t)] = Z 1 0 ex dt = e − 1 2 Ejemplo Sea X = C1 [a, b] la clase de funciones x(t) que tiene derivada contı́nua ẋ en el intervalo [a, b]. Entonces la funcional J[x(t)] = Z b√ a 1 + ẋ2 dt tiene una interpretación geométrica, ya que representa la longitud del arco de la curva x = x(t) cuyos extremos son los puntos A (a, x(a)) y B (b, x(b)) . 2 El concepto de funcional tiene un gran interés ya que permite asociar a señales, que representan trayectorias y por tanto comportamientos, valores numéricos que sirven para medir determinadas propiedades de esas señales. El funcional J[x(t)] se dice que es lineal si satisface las condiciones: Introducción a la optimización de sistemas dinámicos 348 x M (1, 1) 0 1 t Figura 14.4: señales x(t) = t y x1 (t) = t2 . 1. J[cx(t)] = cJ[x(t)], 2. J[x1 (t) + x2 (t)] = J[x1 (t)] + J[x2 (t)], en donde c es una constante cualquiera y x1 (t) ∈ X y x2 (t) ∈ X. Por ejemplo, el funcional Z b J[x(t)] = (ẋ + x)dt a es lineal. Interesa introducir conceptos que permitan formalizar la proximidad entre señales. Se dice que las señales x(t) y x1 (t) definidas en el intervalo [a, b] son cercanas con proximidad de orden nulo si el valor de |x(t) − x1 (t)|, que mide la distancia entre ellas para cada valor de t, es pequeño en todo el intervalo [a, b]. Desde un punto de vista geométrico esto significa que las dos señales toman valores cercanos en cada instante de tiempo del intervalo considerado. Análogamente, se define la distancia entre dos señales x(t) y x1 (t) (a ≤ t ≤ b) como el número no negativo ρ igual al máximo del módulo |x1 (t) − x(t)|; es decir, ρ = ρ[x1 (t), x(t)] = max |x1 (t) − x(t)| a≤t≤b Ejemplo Determinar la distancia ρ entre las señales x(t) = t y x1 (t) = t2 (figura 14.4). De acuerdo con la definición ρ = max |t2 − t| 0≤t≤1 = max (t − t2 ) 0≤t≤1 Introducción a la optimización de sistemas dinámicos 349 Por tanto, se tiene que determinar el máximo de la función x = t − t2 , que se tiene para t = 1/2, de modo que ρ = 1/4. 2 Por otra parte, se dice que las señales x(t) y x1 (t) definidas en el mismo intervalo, son cercanas con proximidad de primer orden si las magnitudes |x(t) − x1 (t)| y |ẋ(t)− ẋ1 (t)| son pequeñas en el intervalo considerado. Geométricamente, esto significa que tanto los valores tomados por las dos señales, como los de sus tangentes (sus derivadas), son cercanos para todo instante de tiempo. Por último, las dos señales consideradas se dice que son cercanas con proximidad de orden k sin son pequeños los valores tomados por |x(t) − x1 (t)|, |ẋ(t) − ẋ1 (t)|,..., |xk (t) − xk1 (t)|. Basado en ello, se define la distancia de orden n entre dos señales x = x(t) y x = x1 (t) como el mayor de los máximos de las expresiones |x(t) − x1 (t)|, |ẋ(t) − ẋ1 (t)| ,..., |xn (t) − xn1 (t)|, es decir ρn = ρn [x1 (t), x(t)] = max max |xk1 (t) − xk (t)| 0≤k≤n a≤t≤b Se denomina variación o incremento δx(t) del argumento x(t) de un funcional J[x(t)] a la diferencia entre dos señales x(t) y x0 (t) pertenecientes a la clase X de funciones considerada; es decir δx(t) = x(t) − x0 (t) Se define el entorno ² de orden n de una señal x = x1 (t) como el conjunto de las señales x = x(t) cuyas distancias de orden n a la señal x1 (t) son menores que ²; es decir ρn = ρn [x1 (t), x(t)] < ² Definido el concepto de entorno de una señal, es posible introducir el de continuidad de un funcional. Un funcional J[x(t)] definida en la clase de funciones X se llama contı́nua en x = x0 (t) si para todo ² > 0 existe η > 0 tal que la desigualdad J[x(t)] − J[x0 (t)] < ² se satisface para todas las señales que satisfacen ρn = ρn [x(t), x0 (t)] < η Sea J[x(t)] un funcional, se define el incremento de J[x(t)] como ∆J = ∆J[x(t)] = J[x(t) + δx(t)] − J[x(t)] siendo δx(t) = x̃(t) − x(t) x(t) ∈ X, x̃(t) ∈ X Introducción a la optimización de sistemas dinámicos 350 supongamos que ∆J puede escribirse de la forma ∆J = G[x(t), δx(t)] + H[x(t) + δx(t)]||δx|| (14.11) en donde G[x(t), δx(t)] es un funcional lineal con relación a δx y H[x(t)+δx(t)] → 0 cuando ||δx|| → 0. En tal caso, la parte del incremento lineal con relación a δx, es decir G[x, δx] se llama variación del funcional y se representa por δJ. En ese caso se dice que el funcional J[x(t)] es diferenciable para la señal x(t). Ejemplo Sea el funcional J[x(t)] = Z b xdt a su incremento vendrá dado por ∆J = J[x(t) + δx(t)] − J[x(t)] = = Z b a Z b a (x + δx)dt − Z b a xdt δxdt R Es decir, ∆J = ab δxdt. Esta expresión es, a su vez, un funcional lineal respecto a δx. R Por tanto, el funcional es diferenciable para todo x(t) y su variación es δJ = ab δxdt. 2 Ejemplo Sea el funcional J[x(t)] = Z b a x2 dt Se tiene que ∆J = = = Z b a Z b a 2 (x + δx) dt − 2xδxdt + Z b a Z b a x2 dt (δx)2 dt Introducción a la optimización de sistemas dinámicos 351 En la expresión anterior, la primera integral representa el funcional lineal respecto a δx, mientras la segunda integral conduce a Z b a 2 (δx) dt = Z b a |δx|2 dt ≤ ( max |δx|)2 Z b a≤t≤b a dt = (b − a)||δx||2 = [(b − a)||δx||]||δx|| y para ||δx|| → 0, se tiene que (b − a)||δx|| → 0 Es decir, el incremento ∆J del funcional es la suma de G[x, δx] y un término de segundo orden con relación a ||δx||. Recordando la expresión (14.11) se tiene que el funcional considerado es diferenciable para todo x(t) y su variación es δJ = 2 Z b a xδxdt 2 Un funcional J[x(t)] se dice que alcanza su máximo para la señal x = x0 (t) si los valores que toma el funcional para cualquier señal próxima a x0 (t) no son mayores que J[x0 (t)]; es decir si ∆J = J[x(t)] − J[x0 (t)] ≤ 0 Si ∆J ≤ 0 ∀x(t) 6= x0 (t) y ∆J = 0 solo para x = x0 (t), se dice que se alcanza un máximo estricto para x = x0 (t). Para todas las señales próximas a x = x0 (t) se tiene que ∆J ≤ 0. Ejemplo Sea el funcional J[x(t)] = Z 1 0 (x2 + t2 )dt Es fácil ver que se alcanza un mı́nimo estricto para la señal x(t) ≡ 0. En efecto, se tiene que ∆J = J[x(t)] − J[0] = Z 1 0 (x2 + t2 )dt − Z 1 0 t2 dt = Z 1 0 x2 dt ≥ 0 Introducción a la optimización de sistemas dinámicos 352 Por lo que el signo de igualdad se da sólo para x(t) ≡ 0. 2 Un ejemplo de funcional que emplearemos en la sección siguiente lo suministra la expresión Z J= T 0 L(x, ẋ, t)dt J x J(x) 0 T t Figura 14.5: Un funcional J asigna a cada señal x(t) un número real. Las técnicas de estudio de máximos y mı́nimos de funciones, pueden extenderse al estudio de funcionales. En tal caso, se trata de determinar una señal x(t) tal que el valor (un número real) tomado por el funcional, sea mı́nimo (o máximo). Para el estudio de la optimización de funcionales se emplea el cálculo de variaciones. Consiste éste en el estudio de cómo varı́a un funcional cuando varı́a x(t). Una variación de x(t), por ejemplo, δx(t) = x1 (t) − x0 (t) se interpreta gráficamente tal como se hace en la figura 14.6. La variación de J correspondiente será ∆J(x, δx) = J(x1 ) − J(x0 ) = J(x0 + δx) − J(x0 ) En donde ∆J(x, δx) representa el incremento de J debido a la variación δx(t) entorno a x(t). 14.5.2 Ecuaciones de Euler Las ecuaciones de Euler permiten resolver el problema de optimización funcional siguiente: Introducción a la optimización de sistemas dinámicos 353 xo (t) x1 (t) δx (t) T Figura 14.6: Ilustración de la variación δx(t) de una función x(t). Problema Determinar los valores de x(t), en el periodo [0, T ] que minimicen (o maximicen) el funcional J= Z T 0 L(x, ẋ, t)dt estando sujetos a las condiciones de contorno fijas x(0) = a x(T ) = b Para resolver el anterior problema se procede a estudiar la variación de J, e igualarla a cero. Supóngase que el mı́nimo de J se produce para la trayectoria x0 (t). Si esta trayectoria x0 (t) se somete a una variación δx se tendrá la nueva trayectoria x(t) = x0 (t) + δx(t) esta nueva señal se supone para satisfacer las condiciones del problema, que cumple las restricciones de contorno, es decir δx(0) = δx(T ) = 0 La variación total de J será ∆J(x, δx) = Z T 0 [L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt Si se desarrolla la función L(x, ẋ, t) en serie de Taylor en torno a x(t) y ẋ(t), se tendrá à L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t) = ! ∂L ∂L δx + δ ẋ + R(x, ẋ, δx, δ ẋ, t) ∂x ∂ ẋ Introducción a la optimización de sistemas dinámicos luego ∆J(x, δx) = Z Tà ∂L 0 354 ! Z T ∂L δx + δ ẋ dt + R(x, ẋ, δx, δ ẋ, t)dt ∂x ∂ ẋ 0 Esta expresión tiene la misma forma que (14.11). En efecto, el primer término del segundo miembro es lineal en δx, δ ẋ. El segundo, está formado por términos de orden superior al primero. Por tanto, se tendrá que la variación de primer orden de J vendrá dada por Z T" ∂L δJ(x, δx) = 0 # ∂L δx + δ ẋ dt ∂x ∂ ẋ (14.12) Esta variación representa la parte lineal del incremento ∆J. Integrando por partes el segundo miembro de (14.12), se obtiene δJ(x, δx) = Z T" ∂L # d ∂L ∂L − δxdt + δx |T0 ∂x dt ∂ ẋ ∂ ẋ 0 y puesto que de momento estamos considerando condiciones de contorno fijas, se tendráá que δx(0) = δx(T ) = 0, por lo que δJ(x, δx) = # Z T" ∂L 0 d ∂L − δxdt ∂x dt ∂ ẋ (14.13) Esta expresión da la variación de primer orden en J, cuando la señal x(t) sufre una variación δx(t). Si existe un valor de x∗ (t) tal que para este valor de x(t) el funcional J toma un valor mı́nimo (o máximo), entonces sucederá que δJ(x, δx) = 0 este resultado es análogo a la condición necesaria para la minimización (o maximización) de funciones ordinarias y se conoce como la condición necesaria fundamental del cálculo de variaciones. Llevando este resultado a (14.13) se tiene la variación de primer orden de J. Es decir, Z T" ∂L 0 # d ∂L − δxdt = 0 ∂x dt ∂ ẋ Puesto que la anterior expresión debe satisfacerse para cualquier variación δx(t) de x(t), ello sólo será posible si d ∂L ∂L − =0 ∂x dt ∂ ẋ La solución de esta ecuación diferencial en x es x∗ (t). Esta ecuación recibe la denominación de ecuación de Euler. Introducción a la optimización de sistemas dinámicos 355 Como hemos recordado en la sección anterior, en el estudio de los máximos y los mı́nimos de una función ordinaria L(u) se tiene una ecuación algébrica dL/du = 0, cuya solución en u permite determinar el valor de u que minimiza (o maximiza) a esta función. La ecuación de Euler juega el mismo papel que esta ecuación cuando el problema de optimización es funcional. En tal caso, no se trata de determinar el valor de una variable, sino el conjunto de valores tomados por una señal en un determinado intervalo, y en lugar de una simple ecuación algébrica, se tiene una ecuación diferencial. La ecuación de Euler es una condición necesaria pero no suficiente para determinar un mı́nimo. Las condiciones de mı́nimo o máximo se determinan por el estudio de las variaciones segundas. Este estudio es relativamente complejo y no se realizará aquı́. Debe observarse que la ecuación de Euler es una ecuación de segundo orden y por lo tanto en su solución aparecen dos constantes arbitrarias. Para determinar estas constantes se requieren dos ecuaciones adicionales. Estas ecuaciones vienen dadas precisamente por las condiciones de contorno. x(0) = a x(T ) = b A partir de estas dos ecuaciones se pueden determinar las dos constantes que aparecen en la solución de la ecuación de Euler. En el desarrollo anterior se ha considerado que x era un escalar. Los resultados obtenidos se generalizan con toda facilidad para el caso en que x sea un conjunto de n señales. El funcional a optimizar es de la forma J(x) = Z T 0 L(x, ẋ, t)dt (14.14) en donde x es un vector de dimensión n. Las ecuaciones de Euler toman la forma " # ∂L d ∂L − =0 ∂xi dt ∂ ẋi para i = 1, 2, ..., n. Obsérvese que se tiene un conjunto de n ecuaciones diferenciales. Su solución comportará 2n constantes, para cuya determinación se necesitarán 2n ecuaciones, que vendrán dadas por las condiciones de contorno. En el caso de funcionales que implican n funciones independientes se tienen n ecuaciones de Euler; cada ecuación es, en general, una ecuación diferencial Introducción a la optimización de sistemas dinámicos 356 ordinaria, de segundo orden y no lineal, con condiciones de contorno separadas, que suele ser difı́cil de resolver. Esta situación se complica además por el hecho de que las n ecuaciones de Euler son simultáneas. Se emplean normalmente soluciones numéricas. Sin embargo, la integración numérica presenta a su vez problemas ya que para integrar numéricamente se requiere tener la condiciones de contorno definidas para uno de los extremos de integración (las condiciones iniciales o las finales). Sin embargo, las ecuaciones diferenciales de Euler presentan condiciones de contorno iniciales y finales a la vez. Se tienen entonces problemas de contorno con dos extremos cuya resolución numérica requiere un tratamiento especı́fico. Ejemplo Determinar las trayectorias óptimas que minimicen los funcionales siguientes: a) sea el funcional J= Z b a (2x1 x2 − 2x21 + x˙1 2 − x˙2 2 )dt es decir L = 2x1 x2 − 2x21 + x˙1 2 − x˙2 2 se tiene, ∂L ∂x1 ∂L ∂x2 ∂L ∂ x˙1 ∂L ∂ x˙2 = 2x2 − 4x1 = 2x1 = 2x˙1 = −2x˙2 Las ecuaciones de Euler en este caso dan lugar al siguiente sistema de ecuaciones diferenciales: d2 x1 2x2 − 4x1 − 2 2 = 0 dt 2 d x2 2x1 + 2 2 = 0 dt Introducción a la optimización de sistemas dinámicos 357 cuya resolución conduce a d4 x2 d2 x2 + 2 + x2 = 0 dt4 dt2 cuya ecuación caracterı́stica es r4 + 2r2 + 1 = 0 r = ±j(dobles) por lo tanto x2 (t) = c1 tejt + c2 ejt + c3 te−jt + c4 e−jt por otra parte, x1 (t) = − d2 x2 dt2 2 Ejemplo: Distancia mı́nima entre dos puntos Vamos a aplicar las ecuaciones de Euler para demostrar un resultado bien conocido: que la distancia más corta entre dos puntos es la lı́nea recta. Supongamos una curva x(t) que une los puntos x(a) = A y x(b) = B. El parámetro t es un parámetro arbitrario que sirve para especificar la familia de curva que une los puntos del plano (a, A) y (b, B), tal como se indica en la figura 14.7. La longitud de una curva particular x(t) viene dada por J= Z b√ a 1 + ẋ2 dt (14.15) La determinación de la curva x(y) que minimice la distancia entre (a, A) y (b, B) se reduce a determinar la curva x∗ (t) que minimice (14.15). Ese problema se puede resolver mediante la ecuaciones de Euler. Se tiene √ L(x, ẋ) = 1 + ẋ2 Introducción a la optimización de sistemas dinámicos 358 x B A a b t Figura 14.7: Distanciaı́mı́nima entre dos puntos por lo que ∂L =0 ∂x ∂L ẋ =√ ∂ ẋ 1 + ẋ2 por lo tanto, la ecuación de Euler, en este caso, se reduce a: d ẋ √ =0 dt 1 + ẋ2 ecuación diferencial que, a su vez, se reduce a d2 x =0 dt2 cuya integración conduce a x∗ (t) = c1 t + c2 que, aplicando las condiciones de contorno, se convierte en x(t) = (A − B)t + (aB − bA) a−b con lo que queda demostrado lo que ya sabı́amos: que la distancia mı́nima entre dos puntos es una recta. Restricciones o ligaduras Supóngase que existen unas determinadas ligaduras (o restricciones) en las trayectorias posibles de x(t). Es decir, de todas las trayectorias posibles que unan el Introducción a la optimización de sistemas dinámicos 359 estado inicial con el estado final, sólo son admisibles aquellas que, además, satisfagan una ecuación de la forma g(x, ẋ, t) = 0 (14.16) En este caso se tiene un problema de optimización con restricciones. En el estudio de los máximos y mı́nimos de funciones ordinarias se aplicaba el método de Lagrange para resolver el problema. En el estudio de la optimización funcional, se aplica igualmente una generalización del método de Lagrange. La demostración de esta generalización no se hará aquı́, pero sin embargo sı́ se enunciará el método. Supóngase que se trata de optimizar un funcional tal como el de la expresión (14.14), en donde x(t) está sometido a las restricciones dadas por la expresión (14.16). Entonces se puede formar el funcional (funcional aumentado) J0 = Z T 0 [L(x, ẋ) + λg(x, ẋ)] dt en donde el multiplicador de Lagrange λ(t) es una función del tiempo. El problema queda reducido a optimizar el nuevo funcional J 0 con relación a x y a λ. El método se generaliza fácilmente para el caso en que x sea un vector, y el número de restricciones sea un número finito m. 14.5.3 Estado final variable En el apartado anterior se ha considerado el caso de la optimización funcional cuando el estado inicial y el estado final estaban perfectamente determinados. En esta sección se va a estudiar el caso en el que el estado final no está completamente determinado. Por ejemplo, se va a estudiar el problema de determinar las trayectorias que une un punto a una curva tal como se representa en la figura 14.8. Es decir, se trata de determinar x∗ (t) tal que minimice el funcional J= Z T 0 L(x, ẋ, t)dt de manera que x(0) tome un valor previamente determinado, y x(t) sea tal que se encuentre sobre una determinada trayectoria. Es decir, ni x(T ) ni T están fijados de antemano, sino que ambos están ligados por una determinada expresión. Introducción a la optimización de sistemas dinámicos 360 x(0) 0 Figura 14.8: Conjunto de trayectorias que se inician en el estado x(0) y que finalizan sobre una curva. Es obvio que la trayectoria óptima x∗ (t) debe satisfacer las ecuaciones de Euler. En efecto, considérese el problema completamente resuelto y supóngase determinado el estado final alcanzado por dicha trayectoria óptima x∗ (T ). Se puede entonces considerar el problema como un problema con el estado final fijo al que hay que aplicar las ecuaciones de Euler. Es decir, si x∗ (t) minimiza a J en el caso de estado final variable, lógicamente minimizará a J para el caso más restringido de estado final fijo. Por lo tanto, el problema de determinar x∗ (t) para el caso de estado final variable, conduce a la resolución de las ecuaciones diferenciales de Euler. Sin embargo, el problema se plantea a la hora de establecer las ecuaciones auxiliares que permiten determinar las constantes que aparecen en la resolución de la ecuación de Euler. Al estudio de este problema se va a dedicar el resto de la sección. δx (T ) ẋ(Tf )δT T ∆xf T + δT Figura 14.9: Trayectoria x(t) y su variación en el caso de extremo final libre. Introducción a la optimización de sistemas dinámicos 361 En la figura 14.9 se representa una trayectoria x(t), y una variación de la misma x(t) + δx(t), cuyo punto inicial es común con la primera, pero cuyo punto final no coincide. La variación de J correspondiente a estas dos trayectorias será la siguiente ∆J = J(x + δx) − J(x) = Z T +δT 0 L(x + δx, ẋ + δ ẋ, t)dt − Z T 0 L(x, ẋ, t)dt lo cual puede reescribirse como sigue ∆J = Z T +δT T L(x+δx, ẋ+δ ẋ, t)dt+ Z T 0 [L(x+δx, ẋ+δ ẋ, t)−L(x, ẋ, t)]dt (14.17) Se supone que δT es suficientemente pequeño, de manera que se pueda aplicar el teorema del valor medio a la primera de las integrales anteriores, con lo que se obtiene Z T +δT L(x + δx, ẋ + δ ẋ, t)dt ∼ (14.18) = L(x, ẋ, t) |T δT T Por otra parte, el segundo término de la expresión (14.17), despreciando términos de orden superior al primero (análogamente a como se hizo para deducir las ecuaciones de Euler), puede escribirse: Z T 0 # Z T" ∂L ∂L δx + δ ẋ dt [L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼ = 0 ∂x ∂ ẋ En donde el signo ∼ = denota la aproximación de primer orden. Integrando por partes el segundo término del segundo miembro de la anterior expresión, se tiene, Z T 0 # Z T" ∂L d ∂L ∂L [L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼ − δxdt + δx |T0 = 0 ∂x dt ∂ ẋ ∂ ẋ Si x(t) es una trayectoria óptima, entonces se satisfacerá la ecuación de Euler, y por lo tanto, el primer término del segundo miembro de la anterior expresión, será idénticamente nulo. En efecto, sea x∗ (t) una trayectoria óptima, del caso en el que T y x(T ) no están fijados. Se tendrá que x(T ) = x∗ (T ). Por tanto, se puede plantear el problema de control óptimo con condiciones finales fijas (x(T ), T ) cuya solución satisfacerá las ecuaciones de Euler. Es decir, la trayectoria x∗ (t) es óptima para un problema de control óptimo con condiciones de contorno fijas, y, en consecuencia satisfacerá las ecuaciones de Euler. Por tanto, se podrá escribir: Z T 0 ∂L [L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼ δx |T0 = ∂ ẋ (14.19) Introducción a la optimización de sistemas dinámicos 362 Habida cuenta de las expresiones (14.18) y (14.19) modificadas, se tendrá que la expresión (14.17) se puede escribir ∂L ∆J ∼ δx |T0 +L(x, ẋ, t) |T δT = ∂ ẋ (14.20) Expresión que representa la variación de J cuando se perturba una trayectoria óptima y el extremo final no está fijado. Obsérvese que puesto que δx(0) = 0 sucede que ∆J depende exclusivamente de lo que sucede en el extremo final en el que se produce la variación. En este extremo, con ayuda de la figura 14.9 se tiene, xf + ∆xf = x(T + δT ) + δx(T + δT ) = x(T ) + ẋ(T )δT + δx(T ) + ... ∼ = xf + ẋ(T )δT + δx(T ) o sea, δx(T ) = ∆xf − ẋ(T )δT (14.21) lo que llevado a (14.20) conduce a ∆J = ∂L |T [∆xf − ẋ(T )δT ] + L(x, ẋ, t) |T δT ∂ ẋ y puesto que ∆J = 0, se tiene " # ∂L ∂L |T δT = 0 |T ∆xf + L(x, ẋ, t) − ẋ ∂ ẋ ∂ ẋ (14.22) Esta expresión recibe la denominación de condición de transversalidad, y permite establecer una ecuación algébrica adicional para la determinación de las constantes en la solución de la ecuación de Euler. En la aplicación práctica de la condición de transversalidad se pueden dar tres casos. 1. Supóngase que el instante final T está fijado de antemano, pero no ası́ el estado alcanzado. En tal caso, el estado final debe estar situado en una recta vertical tal como la de la figura 14.10. Analı́ticamente se tendrá que δT = 0, y la expresión (14.22) se convierte en ∂L |T = 0 ∂ ẋ Introducción a la optimización de sistemas dinámicos 363 x(0) 0 T Figura 14.10: Trayectorias con el tiempo final T fijo y el estado final x(T ) libre. x(T ) x(0) Figura 14.11: Trayectorias con el estado final x(T ) fijo y el tiempo final T libre. Introducción a la optimización de sistemas dinámicos 364 2. Si el estado final está determinado, pero no el instante en el que se alcanza, el punto final deberá estar situado en una lı́nea horizontal tal como la de la figura 14.11. En tal caso se tendrá que ∆xf = 0, con lo que la expresión (14.22) se convierte en: " # ∂L L(x, ẋ, t) − ẋ |T = 0 ∂ ẋ 3. Si el estado final y el instante final están ligados a una expresión analı́tica de la forma x(t) |T = y(t) |T se tendrá que ∆xf = ẏ(T )δT (ver figura 14.12), con lo que la ecuación (14.22) se convierte en " # ∂L L(x, ẋ, t) + (ẏ − ẋ) |T δT = 0 ∂ ẋ y 0 (T ) y(t) x(0) T T + δT Figura 14.12: Trayectorias con el estado final definido sobre la curva y(t). Introducción a la optimización de sistemas dinámicos Cuadro resumen de condiciones de contorno en cálculo variacional. Descripción Condiciones del problema de contorno Notas 1. T, x(T ) fijos x∗ (t0 ) = x0 x∗ (T ) = xf 2n condiciones para 2n constantes de integración 2. T fijo y x∗ (t¯0 ) = x0 ∂L ¯¯ ¯ =0 ∂ ẋ ¯T 2n condiciones para 2n constantes x∗ (t0 ) = x0 x"∗ (T ) = xf 2n + 1 condiciones para 2n constantes x(T ) libre 3. T libre y x(T ) fijo ∂L L(x, ẋ) − ẋ ∂ ẋ 4. T y x(T ) libres, pero ligadas por x(T ) = θ(T ) x∗ (t0 ) = x0 x"∗ (T ) = θ(T ) de integración #¯ ¯ ¯ ¯ =0 ¯ de integración y T T ∂L L(x, ẋ) + (ẏ − ẋ) ∂ ẋ #¯ ¯ ¯ ¯ =0 ¯ T 2n + 1 condiciones para 2n constantes de integración y T . 365 Introducción a la optimización de sistemas dinámicos 366 Ejemplo 3 Considérese una variante del ejemplo 2, en la que se trata de determinar la trayectoria mı́nima entre el origen y la recta y(t) = 2 − t (figura 14.13). Del ejemplo y 2 2 t Figura 14.13: Trayectoria mı́nima entre el origen y la recta y(t) = 2 − t. 2 se sabe que las soluciones del problema de Euler viene dadas por la familia de rectas: x∗ = c1 t + c2 Para la determinación de las constantes c1 y c2 se recurre a las condiciones de contorno 4 del cuadro adjunto. Puesto que x(0) = 0, se tiene que c2 = 0. Por otra parte, la condición de contorno final conduce a: q 1+ ẋ∗ (T )2 +q ẋ∗ (T ) 1 + ẋ∗ (T )2 [ẏ(T ) − ẋ∗ (T )] = 0 Puesto que ẋ∗ (T ) = c1 e ẏ(T ) = −1, se tiene q c1 1 + c21 − q 1 + c21 [1 + c1 ] = 0 De donde se obtiene c1 = 1 por lo que la trayectoria mı́nima viene dada por x∗ = t Introducción a la optimización de sistemas dinámicos El valor de T se determina mediante la ecuación x∗ (T ) = y(T ) lo que da T = 1. 367 Tema 15 Métodos Variacionales en Control Optimo 15.1 Aplicación del cálculo de variaciones a la resolución del problema del Control Optimo Sea el sistema dinámico ẋ = f (x, u) (15.1) y supóngase, además, un ı́ndice de funcionamiento dado por J= Z T 0 L(x, u)dt (15.2) Se trata de determinar la señal de control óptima u∗ (t) en el intervalo (0, T ). Se pueden presentar dos casos, según que se pueda o no dejar explı́cita u en la expresión (15.1). 15.1.1 Se puede eliminar u Supóngase que en la expresión (15.1) es posible dejar explı́cita u. En tal caso se podrá escribir u = g(x, ẋ, t) 368 Métodos Variacionales en Control Optimo 369 lo que se le podrá llevar a la expresión (15.2) obteniéndose J= Z T 0 L(x, g(x, ẋ, t), t)dt Z T J= 0 L0 (x, ẋ, t)dt (15.3) (15.4) con lo que el problema se ha reducido a uno de cálculo variacional, para cuya solución se emplean las ecuaciones de Euler. Ejemplo 1 Sea el sistema descrito por la ecuación: ẋ = −x + u se trata de determinar u(t) que minimice J= Z 1 0 (x2 + u2 )dt De la ecuación del sistema se tiene que u = ẋ + x, y sustituyendo en la expresión de J, se tiene J= Z 1 0 (x2 + (ẋ + x)2 )dt = Z 1 0 (2x2 + 2xẋ + (ẋ)2 )dt es decir, L = 2x2 + 2xẋ + (ẋ)2 Recordando la ecuación de Euler: ∂L d ∂L − =0 ∂x dt ∂ ẋ En este caso se tiene ∂L = 4x + 2ẋ ∂x ∂L d ∂L dx d2 x = 2x + 2ẋ ⇒ =2 +2 2 ∂ ẋ dt ∂ ẋ dt dt Por lo tanto la ecuación de Euler resulta ser d2 x − 2x = 0 dt2 Métodos Variacionales en Control Optimo 370 La integración de esta ecuación diferencial determina la trayectoria óptima de x(t): √ √ x(t) = C1 e− 2t + C2 e 2t √ √ √ √ ẋ(t) = − 2C1 e− 2t + 2C2 e 2t Por tanto la trayectoria óptima de la señal de mando es: u(t) = x(t) + ẋ(t) √ √ √ √ = C1 (1 − 2)e− 2t + C2 (1 + 2)e 2t Las constantes C1 y C2 se determinan en función de los estados inicial y final del sistema. Suponiendo x(0) = 1; x(1) = 0; se tiene C1 = 1.0628 C2 = −0.0628 Ejemplo 2 Para un integrador simple ẋ = u encontrar la entrada de control u(t) que conduzca al sistema desde cierto estado inicial x(0) al estado final x(t) de manera que se minimice la integral, Z J= T 0 (x2 + u2 )dt sujeta a cada una de las condiciones siguientes: a) x(0) = 1, x(T ) = 0 y T = 1. b) x(0) = 1, x(T ) sin especificar y T = 1. c) x(0) = 1, x(T ) = 0 y T sin especificar. Calcular el valor de la integral correspondiente a cada caso. Resolución. En este caso L = x2 + u2 = x2 + (ẋ)2 Luego, ∂L ∂L = 2x = 2ẋ ∂x ∂ ẋ Métodos Variacionales en Control Optimo 371 La ecuación de Euler en este caso conduce a, d2 x −x=0 dt2 cuya solución general es, x(t) = C1 e−t + C2 et a) Es el caso más simple de aplicación de condiciones de contorno. Estas condiciones conducen a, 1 = C1 + C2 C1 0 = + C2 e e Cuya solución es C1 = 1.157 y C2 = −0.157. Luego, x(t) = 1.157e−t − 0.157et y, u(t) = −1.157e−t − 0.157et El valor de J para este caso resulta ser J = 1.11. b) La condición de transversalidad se escribe en este caso ¯ ∂L ¯¯ ¯ =0 ∂ ẋ ¯T =1 lo que se traduce en ẋ(1) = 0 Por lo tanto las condiciones en los extremos son x(0) = 1 ẋ(1) = 0 lo que conduce a 1 = C1 + C2 C1 0 = − + C2 e e Es decir, C1 = 0.88 y C2 = 0.12. El valor de J resulta ser 0.761. Métodos Variacionales en Control Optimo 372 c) En este caso la condición de transversalidad se convierte, al estar fijo el valor de xf y no el de T en ¯ ¯ ¯ ∂L ¯¯ ¯ ¯L − ẋ ¯ =0 ¯ ∂ ẋ ¯T pues δT , en T es nulo y ∆xf no. Por lo tanto, L − ẋ(T ) ∂L (T ) = 0 ∂ ẋ lo que conduce a ẋ(T ) = 0 Se sabe por lo tanto que x(0) = 1 x(T ) = 0 ẋ(T ) = 0 Se tienen, por tanto, tres ecuaciones con tres incógnitas C1 , C2 y T . Las anteriores ecuaciones se convierten en 1 = C1 + C2 0 = C1 e−T + C2 eT 0 = −C1 e−T + C2 eT Es fácil ver que la solución del anterior sistema de ecuaciones es T = ∞ C1 = 1 C2 = 0 ciñéndonos a valores de t > 0, es decir suponiendo que el sistema evoluciona en el sentido de los tiempos crecientes Luego x(t) = e−t u(t) = −e−t (0 ≤ t < ∞) En este caso J = 1. Métodos Variacionales en Control Optimo 15.1.2 373 No se puede eliminar u Si la eliminación de u en la expresión (15.1) no es posible, entonces se recurre a la aplicación del método de los multiplicadores de Lagrange observando que la ecuación (15.1) puede interpretarse como una restricción de la forma g(x, ẋ) = f (x, u) − ẋ Se tendrá que el funcional modificado que se trata de optimizar será J0 = Z T 0 L0 (x, ẋ, u, λ)dt en donde L0 (x, ẋ, u, λ) = L(x, u) − λ[f (x, u) − ẋ] (15.5) Se considerará en lo que sigue m = 1, n = 1 por razones de simplicidad. La generalización es muy simple y el resultado se presentará al final. El problema queda reducido a determinar los valores de x(t), u(t) y λ(t) que minimicen el funcional J 0 . Para resolver este problema se recurre a las ecuaciones de Euler. El número de estas ecuaciones será tres, correspondiente a las variaciones de cada una de las variables anteriores. Se estudian estas ecuaciones para cada una de las variables x(t), u(t) y λ(t). • Ecuación de Euler con relación a x. Se tendrá ∂ d ∂ [L + (f − ẋ)λ] − [L + (f − ẋ)λ] = 0 ∂x dt ∂ ẋ ∂ d ∂ [L + (f − ẋ)λ] − (−λẋ) = 0 ∂x dt ∂ ẋ ∂ [L + f λ] = −λ̇ ∂x (15.6) • Ecuación de Euler con relación a u ∂ d ∂ [L + (f − ẋ)λ] − [L + (f − ẋ)λ] = 0 ∂u dt ∂ u̇ como L + (f − ẋ)λ no depende de u̇, se tendrá ∂ [L + f λ] = 0 ∂u (15.7) Métodos Variacionales en Control Optimo 374 • Ecuación de Euler con relación a λ f − ẋ = 0 (15.8) Se define la función H(x, u, λ) de acuerdo con H(x, u, λ) = L(x, u) + λf (x, u) esta función recibe la denominación de función de Hamilton o hamiltoniana. Se tendrá que las ecuaciones anteriores pueden escribirse: ∂H = −λ̇ (15.9) ∂x ∂H = 0 (15.10) ∂u ∂H = ẋ (15.11) ∂λ El problema queda reducido a resolver el anterior conjunto de ecuaciones diferenciales para determinar u∗ (t). Un método sistemático para hacerlo es el siguiente: 1. Formar la función de Hamilton o Hamiltoniana H(x, u, λ) = L(x, u) + λf (x, u) 2. Resolver la ecuación algebraica ∂H(x, u, λ) =0 ∂u que permite obtener u∗ (x, λ). 3. Formar la hamiltoniana minimizada, llevando u∗ a H, con lo que se tiene, H ∗ (x, u∗ , λ) 4. Resolver el sistema de ecuaciones diferenciales, ∂H ∗ ∂H ∗ λ̇ = − ∂λ ∂x con las condiciones de contorno x(0) y x(t). ẋ = (15.12) 5. Los valores de x∗ (t) y λ(t), determinados en 4, se llevan a 2, con lo que se tiene u∗ (x∗ (t), λ∗ (t), t) = u∗ (t) En el cuadro se resume el método. Métodos Variacionales en Control Optimo Resumen de la aplicación del Cálculo Variacional a la determinación del Control Optimo Se da el sistema ẋ = f (x, u) Se da el criterio J= Paso 1 Se forma la Hamiltoniana H(x, u, λ) = L(x, u) + λf (x, u) Paso 2 Se determina u∗ (x, λ) admisible tal que ∂H =0 ∂u Paso 3 Se determina la Hamiltoniana mı́nima H ∗ (x, λ) = H(x, u∗ (x, λ), λ) Paso 4 Se resuelve el sistema de 2n ecuaciones ∂H ∗ ẋ = ∂λ RT 0 L(x, u)dt ∂H ∗ ∂x con las condiciones de contorno correspondientes. Se obtiene x∗ (t) y λ∗ (t). λ̇ = − Paso 5 Se determina u∗ (t) = u∗ (x∗ (t), λ∗ (t)) 375 Métodos Variacionales en Control Optimo 376 Ejemplo 3 Para el sistema ẋ = −2x + u con el ı́ndice 1Z 1 2 J= u dt 2 0 determinar la señal de control óptima u(t) tal que conduzca al sistema de x(0) = 1 a x(1) = 0. La resolución del problema se descompone en los siguientes pasos: 1. Se forma la hamiltoniana, que resulta ser H= u2 + (u − 2x)λ 2 2. Se minimiza la hamiltoniana ∂H =u+λ ∂u luego, u∗ = −λ 3. Se forma la hamiltoniana minimizada λ2 − λ2 − 2xλ 2 λ2 = − − 2xλ 2 H∗ = (15.13) (15.14) 4. Se tiene ∂H ∗ ∂H ∗ = −λ − 2x; = −2λ ∂λ ∂x de donde se tienen las ecuaciones diferenciales (4) −2x − λ = ẋ −2λ = −λ̇ (15.15) (15.16) λ̇ − 2λ = 0 λ = k1 e2t (15.17) (15.18) cuya resolución conduce a Métodos Variacionales en Control Optimo 377 es decir, ẋ + 2x = −k1 e2t que constituye la solución general de la homogénea xg = k2 e−2t . La solución particular de la completa toma la forma xp = Ae2t . en donde, 2Ae2t + 2Ae2t = −k1 e2t luego k1 4 La solución de las ecuaciones diferenciales anteriores, será de la forma, A=− x=− k1 2t e + k2 e−2t 4 Aplicando las condiciones de contorno se tiene k1 + k2 4 k1 0 = − e2 + k2 e−2 4 1 = − Eliminando k2 se tiene k1 = 1 4 4 e 1 − e−4 luego, λ= e4 (1 4 e2t − e−4 ) 5. Por lo tanto, u∗ = − e4 (1 4 e2t −4 −e ) Ejemplo 4 Sea la planta x˙1 = x2 x˙2 = u y el ı́ndice de funcionamiento J= 1Z 2 2 u dt 2 0 (15.19) (15.20) Métodos Variacionales en Control Optimo 378 condiciones de contorno x1 (0) = x2 (0) = 1 x1 (2) = x2 (2) = 0 1. Se forma la hamiltoniana 1 H = u2 + λ1 x2 + λ2 u 2 2. Se resuelve la ecuación en u ∂H =0 ∂u que en este caso resulta ser ∂H = u + λ2 = 0 ∂u lo que conduce a u∗ = −λ2 Obsérvese que ∂ 2H =1 ∂ 2u por lo que u∗ minimiza la Hamiltoniana. 3. Se forma la Hamiltoniana optimizada 1 1 H ∗ (x∗ , λ, t) = λ22 + λ1 x2 − λ22 = λ1 x2 − λ22 2 2 4. Se forman las ecuaciones de estado x˙1 = x˙2 = y las de coestado ∂H ∗ = x2 ∂λ1 ∂H ∗ = −λ2 ∂λ2 ∗ ∂H λ˙1 = − =0 ∂x1 ∂H ∗ λ˙2 = − = −λ1 ∂x2 Métodos Variacionales en Control Optimo 379 Las condiciones de contorno son x1 (0) = x2 (0) = 1 x1 (2) = x2 (2) = 0 Resolución del problema de contorno más las ecuaciones de estado x˙1 = x2 x˙2 = −λ2 λ˙1 = 0 λ˙2 = −λ1 (1) λ˙1 = 0 −→ λ1 = k1 (2) λ˙2 = −λ1 −→ λ˙2 = −k1 −→ λ2 = −k1 t + k2 k1 t2 − k2 t + k3 2 t3 t2 −→ x1 (t) = k1 − k2 + k3 t + k4 6 2 (3) x˙2 = −λ2 −→ x˙2 = k1 t − k2 −→ x2 (t) = (4) x˙1 = x2 −→ x˙1 = k1 t2 − k2 t + k3 2 Es decir t2 − k2 t + k3 2 t3 t2 x1 = k1 − k2 + k3 t + k4 6 2 Para t = 0 x1 = x2 = 1, luego k3 = 1, k4 = 1. x2 = k 1 Para t = 2 x1 = x2 = 0, se tiene k1 = 3 k2 = 72 . Luego además 3t2 7t − +1 2 2 t3 7t2 = − +t+1 2 4 x∗2 = (15.21) x∗1 (15.22) 7 2 7 (5) u∗ = −λ∗2 = 3t − 2 λ∗1 = 3 λ∗2 = −3t + Métodos Variacionales en Control Optimo 380 Ejemplo 5 Se trata de regular la temperatura de una habitación con el consumo mı́nimo de energı́a posible. Si θ(t) es la temperatura en la habitación, θa es la temperatura ambiental fuera de la habitación (que se supondrá constante) y u(t) es la tasa de calor que se inyecta en la habitación, se sabe que el proceso viene descrito mediante la ecuación θ̇ = −a(θ − θa ) + bu (15.23) en donde a y b son dos constantes que dependen del aislamiento de la habitación. Se define el estado como x(t) = θ(t) − θa , (15.24) de modo que la ecuación de estado se puede escribir ẋ = −ax + bu (15.25) Puesto que se trata de regular la temperatura en un cierto periodo de tiempo [0, T ] con el mı́nimo suministro de energı́a posible, se define el ı́ndice de funcionamiento J= 1Z T 2 u (t)dt 2 0 (15.26) Se tiene, por tanto, definido un problema de control óptimo mediante las expresiones (15.25) y (15.26). Para su resolución se procede mediante los cuatro pasos anteriores. 1. Se forma la Hamiltoniana H= u2 + λ(−ax + bu) 2 (15.27) 2. se resuelve con respecto a u la ecuación 0= ∂H = u + bλ ∂u (15.28) con lo que se tiene u∗ (t) = −bλ∗ (t) 3. Se forma la Hamiltoniana optimizada H∗ = u2 + λ(−ax − b2 λ) 2 (15.29) Métodos Variacionales en Control Optimo 381 Se forman las ecuaciones de coestado, que resultan ser ẋ = −ax − b2 λ (15.30) λ̇ = aλ (15.31) cuya resolución permitirá obtener λ∗ (t) y la trayectoria de estado óptima x∗ (t). Para integrar las ecuaciones de coestado vamos a proceder como si conociésemos el valor final de λ(T ). En tal caso, la solución de (15.31) es λ∗ (t) = e−a(T −t) λ(T ) (15.32) ẋ = −ax − b2 λ(T )e−a(T −t) (15.33) que llevado a (15.30) da Esta ecuación se puede resolver empleando la transformada de Laplace. En efecto, se tiene x(0) b2 λ(T )e−aT − s + a (s + a)(s − a) ! à x(0) b2 −1/2 1/2 −aT = − λ(T )e + s+a a s+a s−a X(s) = (15.34) De modo que b2 λ(T )e−aT sinhat (15.35) a Las expresiones (15.32) y (15.35) nos dan λ∗ (t) y x∗ (t) en función de el estado inicial x(0) y el valor final de λ(T ). x∗ (t) = x(0)e−at − Supongamos que la temperatura inicial de la habitación es igual a la temperatura exterior θa = 100 . Se hace x(0) = 0 (15.36) Además, supóngase que se trata de que la temperatura final θ(T ) sea 200 al cabo de T segundos. Por tanto, el estado final se pretende que alcance el valor x(T ) = 10 (15.37) Se tiene, por tanto, un problema de control óptimo en el que tanto el estado final como el tiempo final están fijados (aunque de momento no hayamos asignado un valor concreto a T ). Métodos Variacionales en Control Optimo 382 Con ayuda de (15.36) y de (15.37) se puede determinar λ(T ). En efecto, en la expresión (15.35) se tiene x(T ) = x(0)e−aT − b2 λ(T )(1 − e2aT ) 2a (15.38) teniendo en cuenta (15.36) y (15.37) se tiene que λ(T ) = − 20a b2 (1 − e−2aT ) (15.39) lo que llevado a la expresión (15.32) conduce a λ∗ (t) = −e−a(T −t) λ(T ) 20ae−aT = − 2 eat b (1 − e−2aT ) 10a eat = − 2 × aT e − e−aT b 2 10aeat = − bsinhaT (15.40) (15.41) (15.42) (15.43) Recordando que eaT − e−aT 2 Por último, la tasa óptima de inyección de calor en la habitación viene dada por (15.29), es decir 10aeat ∗ (15.44) u (t) = sinhaT y la trayectoria óptima para el estado viene dada por sinhaT = x∗ (t) = 10 sinhat sinhaT (15.45) Obsérvese que x∗ (T ) = 10. 15.1.3 Introducción de un término de control terminal Vamos a considerar ahora el caso, que se presenta a veces en aplicaciones, en el que en el ı́ndice de funcionamiento aparezca un término (o varios) escalar que dependa Métodos Variacionales en Control Optimo 383 del valor alcanzado por el estado en el instante final x(T ) y eventualmente del propio tiempo final T . Es decir, sea un ı́ndice de funcionamiento de la forma J= Z T 0 Ldt + S(x(T ), T ) − S(x(0), 0) (15.46) en donde S(x(T ), T ) representa el llamado término de control terminal. Este caso se puede reducir al estudiado hasta aquı́. En efecto, considérese Z t" J = 0 Z t = es decir J= Z T 0 0 # dS L+ dt dt (15.47) dS (15.48) Ldt + Z t 0 Ldt + S(x(T ), T ) − S(x(0), 0) (15.49) Obsérvese que puesto que x(0) y el instante inicial 0 están fijados de antemano, la minimización del ı́ndice (15.49) es equivalente a la minimización del ı́ndice (15.47). (Normalmente S(x(0), 0) = 0) Obsérvese que la expresión (15.47) puede escribirse también: J= Z T" 0 # ∂S ∂S L+ ẋ + dt ∂x ∂t (15.50) Por lo que esta será la forma que se adoptará para el ı́ndice de funcionamiento en lo que sigue. Por tanto, el problema de control con término de control terminal se puede plantear, como se ha hecho hasta ahora modificando la función L(x, u) para convertirla en Z J0 = T 0 La (x, ẋ, u, t)dt (15.51) con este planteamiento se puede aplicar el cálculo de variaciones, tal como se ha hecho anteriormente. Recordando la expresión, se tiene que de la aplicación del método de los multiplicadores de Lagrange se desprende que en este caso L0 = La + λ(f − ẋ) ∂S ∂S ẋ + + λ(f − ẋ) = L+ ∂x ∂t (15.52) (15.53) Vamos a comprobar que la introducción de un término de control terminal no altera el planteamiento Hamiltoniano que se ha presentado en la sección anterior, Métodos Variacionales en Control Optimo 384 excepto en lo que respecta a las condiciones de transversalidad, como veremos luego. Para presentar el método de Hamilton de resolver el problema de control óptimo se ha partido de la expresión (15.5). Ahora debemos partir de la (15.53). La ecuación Euler con relación a x conduce a ∂ d ∂ [La + λ(f − ẋ)] − [La + λ(f − ẋ)] = 0 ∂x dt ∂ ẋ (15.54) desarrollando el primer miembro del primer término se tiene " # ∂ 2S ∂ ∂S ∂S ∂ ∂ 2S ẋ + L+ ẋ + + λ(f − ẋ) = [L + f λ] + ∂x ∂x ∂t ∂x ∂x2 ∂x∂t Por otra parte se tiene " # ∂ ∂S ∂S ∂S L+ ẋ + + λ(f − ẋ) = −λ ∂ ẋ ∂x ∂t ∂x (15.55) por lo que el segundo término de (15.54) será " # d ∂S −λ dt ∂x teniendo en cuenta que " # " # " ∂ dS ∂ ∂S d ∂S ∂S = = ẋ + dt ∂x ∂x dt ∂x ∂x ∂t # se tendrá que (15.54) se puede escribir ∂ [L + f λ] = −λ̇ ∂x que resulta ser la misma expresión que se tenı́a en (15.6). Es decir, la ecuación de Euler con relación a x es la misma se tenga o no término de control terminal. Es inmediato comprobar que sucede lo mismo con las ecuaciones de Euler con relación a u y a λ dadas en las expresiones (15.7 y 15.8). El tiempo final T y el estado que se alcance en dicho instante x(T ) pueden estar fijados de antemano o no. En este segundo caso, que por otra parte es el más frecuente en los problemas con término de control terminal, hay que recurrir a las condiciones de transversalidad. Vamos, además, a aprovechar esta oportunidad para establecer la condiciones de transversalidad en el planteamiento hamiltoniano. Métodos Variacionales en Control Optimo 385 Recordando la expresión (14.22) se tiene que las condiciones de transversabilidad para este caso vienen dadas por la expresión ¯ #¯ " ∂L0 ¯¯ ∂L0 ¯¯ ¯ δT = 0 ¯ ∆xf + L0 − ẋ ∂ ẋ ¯T ∂ ẋ ¯T (15.56) Es claro que de (15.53) y (15.55) se tiene: ∂L0 ∂S = −λ ∂ ẋ ∂x Por lo que la expresión (15.56) se convierte en " #¯ " à ! # ¯ ∂S ∂S ∂S ¯ f ¯ ∆x + L + ẋ + + λ(f − ẋ) − − λ ẋ δT |T = 0 ¯ ∂x ∂t ∂x ∂S −λ ∂x T lo que se puede escribir " ¯ # " ¯ ∂S ∂S ¯ − λ ∆xf ¯¯ + L + λf + ∂x ∂t T #¯ ¯ ¯ ¯ δT = 0 ¯ T que también puede escribirse " #¯ #¯ " ¯ ∂S ¯¯ ¯ ∗ f ¯ δT = 0 ¯ ∆x + H + ¯ ∂t ¯T T ∂S −λ ∂x (15.57) El punto 4) del procedimiento de resolución implica el resolver las ecuaciones diferenciales (4) ∂H ∗ ẋ = ∂λ ∂H ∗ −λ̇ = ∂x Si la dimensión del vector de estado es n, entonces la resolución del anterior sistema de ecuaciones diferenciales implica la determinación de 2n constantes. Estas constantes se determinarán con ayuda de las condiciones de contorno. Estas condiciones son: 1. Estado inicial x(0) que permite el establecimiento de n ecuaciones. 2. Condiciones finales generalizadas que vienen dadas por la ecuación " ∂S −λ ∂x #¯ #¯ " ¯ ∂S ¯¯ ¯ f ∗ ¯ ∆x + H + ¯ δT = 0 ¯ ∂t ¯T T Métodos Variacionales en Control Optimo 386 si no existe término de control terminal, es decir, si S(x, T ) = 0, se simplifican a −λ|T ∆xf + H ∗ |T δT = 0 Se pueden distinguir dos casos: 1. Estado final impuesto y tiempo final libre. En tal caso ∆xf = 0, y la determinación de las n constantes se hace a partir de à !¯ ∂S ¯¯ ∗ H + ¯ =0 ∂t ¯T 2. Estado final libre y tiempo final T determinado. En tal caso se tiene que δT = 0, por lo que la anterior ecuación implicará que à ! ∂S − λ |T = 0 (15.58) ∂x lo que permite establecer n ecuaciones suplementarias para determinar las n constantes restantes. Si S = 0, se tiene λi (T ) = 0. Las dos situaciones anteriormente consideradas constituyen los dos casos extremos que se pueden dar. Supóngase, que ni el estado final ni el instante final T están dados de antemano, pero sı́ la trayectoria y(t) en la que debe encontrarse el estado final. En tal caso, las condiciones de contorno en el extremo final pueden escribirse −λ(T )∆xf + H ∗ [x(T ), λ(T ), T ]δT = 0 (15.59) Es inmediato ver que dx = y(T )dt, y puesto que dt es arbitrario, es necesario que −λ(T )ẏ(T ) + H0 (T ) + ẏ(t) ∂S ∂S |T + |T = 0 ∂x ∂x (15.60) Esta ecuación, junto con el hecho de que x(T ) = y(T ) especifica completamente la solución. Ejemplo 6 Sea el sistema: ẍ = u(t) (15.61) Métodos Variacionales en Control Optimo 387 que representa un móvil que se acelera, y se trata de maximizar la distancia recorrida en un tiempo determinado, minimizando al mismo tiempo una medida cuadrática de la actuación; es decir, adoptando el ı́ndice J = −x(T ) + 1Z T 2 u dt 2 0 Se pide la señal de control, para el caso x(0) = 0 y ẋ(0) = 0 La descripción interna del sistema (15.61) viene dada por ẋ1 = x2 ẋ2 = u(t) con las condiciones iniciales x(0) = 0 y ẋ(0) = 0. Se construye la Hamiltoniana u2 H = L + λ1 f1 + λ2 f2 = + λ1 x2 + λ2 u 2 Minimizándola con respecto a u se tiene ∂H =0 ∂u Es decir u + λ2 = 0 por lo que la señal de control óptima será u∗ = −λ2 Por tanto, la hamiltoniana óptima vendrá dada por H∗ = − λ22 + λ 1 x2 2 Por los que las ecuaciones de Hamilton pueden escribirse ∂H ∗ = −λ̇1 ∂x1 ∂H ∗ = −λ̇2 ∂x2 (15.62) Métodos Variacionales en Control Optimo 388 es decir −λ̇1 = 0 −λ̇2 = λ1 y, por tanto, λ1 = k1 λ2 = −k1 t + k2 Para determinar las constantes de integración se recurre a las condiciones de contorno que, en este caso, puesto que T es fijo y el estado final x(T ) es libre resultan ser à ! ∂S − λi =0 ∂xi T Por tanto ! à ∂S − λ1 = 0 λ1 (T ) = −1 ⇒ λ1 = −1 ∂x1 T à ∂S − λ2 ∂x2 ! = 0 λ2 (T ) = 0 ⇒ λ2 (t) = −T + t T Se tiene que la señal de control óptimo es u∗ (t) = T − t Por tanto la señal de control óptima es tal que la fuerza aplicada debe de crecer linealmente con el tiempo, hasta anularse para t = T . Este problema puede resolverse también aplicando directamente las ecuaciones de Euler, puesto que estamos en el caso en el que se puede eliminar u que se vio en 15.1.2. En efecto, el ı́ndice (15.62) del problema puede escribirse, eliminado u, e incorporando al integrando el término de control terminal (recordando lo que se hizo en (15.48)), de la forma J= ¶ Z Tµ 1 2 ẋ2 − x2 dt 2 Por tanto se tiene un problema de Euler con 1 L = − ẋ22 + x2 2 con condiciones iniciales x1 (0) = x2 (0) = 0. Para determinar las ecuaciones de Euler se tiene que 0 ∂L = 1 ∂x2 ∂L = −ẋ2 ∂ ẋ2 Métodos Variacionales en Control Optimo 389 Por lo que la ecuación de Euler ∂L d ∂L − =0 ∂x2 dt ∂ ẋ2 se convierte en ẍ2 = 0 2 cuya integración conduce a x2 (t) = − t2 + c1 t + c2 Las condiciones de contorno como, en este caso, puesto que T es fijo, son ∂L |T = −ẋ2 (T ) = −T + c1 ∂ ẋ2 luego c1 = T . Además x2 (0) = c2 = 0. Por tanto, u = ẋ2 = T − t Ejemplo 7 Se trata de determinar la señal de control óptimo para el sistema de primer orden ẋ = −x + u con x(0) = 0 para que se maximice el valor final de x al tiempo que se minimiza R el funcional 21 01 u2 dt. Se supone que la ponderación entre ambos objetivos es ρ de manera que Z 1 1 2 J= u dt − ρx(1) 0 2 Se procede de acuerdo con los pasos siguientes: 1. Se forma la hamiltoniana 1 H = u2 + λ(u − x) 2 2. Se minimiza la hamiltoniana ∂H =u+λ ∂u es decir u∗ = −λ Métodos Variacionales en Control Optimo 390 3. Se forma la hamiltoniana minimizada λ2 λ2 H∗ = − λ2 − λx = − − λx 2 2 4. Se forman las ecuaciones diferenciales (4) ∂H ∗ = −λ ∂x ∂H ∗ = −λ − x ∂λ Que resultan ser λ̇ = λ ẋ = −λ − x De la primera de estas ecuaciones se tiene, λ̇ − λ = 0 −→ λ = k1 et (15.63) De la segunda se tiene ẋ + x = −λ es decir, de ambas, ẋ + x = −k1 et cuya solución es k1 t e 2 Las condiciones de transversalidad son (puesto que el estado final es completamente libre y T = 1) x(t) = k2 e−t − [ como S = −ρx(t) se tiene ∂S − λ]|T =1 = 0 ∂x (15.64) ∂S = −ρ ∂x (15.65) De (15.64) y (15.65) se tiene λ(1) = −ρ Según (15.63), se tiene λ(1) = k1 e es decir k1 = luego λ(1) ρ =− e e ρ u∗ = −λ(t) = et = ρe(t−1) e Métodos Variacionales en Control Optimo 391 Ejemplo 8 En este ejemplo vamos a considerar una variante del ejemplo de la regulación de la temperatura en una habitación que se ha visto al final de la sección anterior. Vamos a suponer que se trata de que la temperatura final alcanzada por la habitación no sea exactamente de 10o (es decir que el estado final x(T ) no sea exactamente 10), sino que se trata de minimizar el ı́ndice 1 1Z T 2 u (t)dt + ρ(x(T ) − 10)2 J= 2 0 2 en donde ρ es un factor de ponderación entre los dos términos que aparecen en el ı́ndice de funcionamiento. El primer término de J mide el coste de la actuación, y es el mismo que se tenı́a en la expresión (15.26). El segundo término es una expresión cuadrática que mide la desviación del estado final x(T ) del valor 10. De acuerdo con este término se trata de penalizar el hecho de que x(T ) no sea igual a 10, pero sin pretender que este sea exactamente el valor alcanzado. Por tanto, el ı́ndice J está formado por dos términos. El primero penaliza el coste de la actuación. Mientras que el segundo se refiere a la meta que se persigue mediante el funcionamiento del sistema: que el estado final alcance un valor lo más cercano posible a 10. Estos dos términos se suman afectando a uno de ellos (en este caso al primero) mediante un factor de peso ρ que mide la importancia relativa que se asigne al comportamiento deseado (primer término) o al coste de alcanzarlo (segundo término). Es decir, si se adopta un valor para ρ muy grande, entonces la solución óptima cumplirá preferentemente la meta de que x(T ) toma un valor próximo a 10, dando poca importancia al coste necesario para alcanzar esta meta. Por el contrario, si ρ es pequeño prácticamente lo único que se tiene presente es el coste y nos encontramos con un problema análogo al discutido anteriormente. Para la resolución del problema se procede en este caso como anteriormente, pero sin embargo en este caso se tiene un término de control terminal y el estado final x(T ) no está dado. Se trata, por tanto, de un problema de control óptimo con término de control terminal, estado final libre y tiempo final T determinado. Las condiciones de contorno en T vienen dadas, en ese caso, por la expresión (15.58), que, en este caso, conduce a λ(T ) = ∂S |T = ρ(x(T ) − 10) ∂x (15.66) Métodos Variacionales en Control Optimo 392 que es la nueva condición final. Esta expresión se puede escribir x(T ) = λ(T ) + 10 ρ (15.67) que llevada a (15.38) y recordando que x(0) = 0 conduce a x(T ) = −20aρ 2a + − e−2aT ) b2 ρ(1 (15.68) llevando, a su vez, esta expresión de λ(T ) a la expresión (15.32) se tiene λ∗ (t) = −10aρeat aeaT + ρb2 sinhaT (15.69) Por último, mediante la expresión (15.29) se tiene u∗ (t) = 10abρeat aeaT + ρb2 sinhaT (15.70) 10ρb2 sinhat aeaT + ρb2 sinhaT (15.71) La trayectoria óptima resulta ser x∗ (t) = Obsérvese que si ρ tiende a infinito la señal de mando (15.70) se convierte en la (15.44) y el resto de las trayectorias tienden a ser las mismas que las determinadas antes. En particular el estado final x∗ (T ) tiende a alcanzar exactamente el valor 10. Tema 16 Principio del Mı́nimo de Pontriagin 16.1 Introducción Al aplicar los métodos variacionales (ecuación de Euler) a la resolución del problema del control óptimo, se pueden presentar los siguientes tipos de dificultades: 1. Los métodos variacionales suministran los máximos y mı́nimos relativos de J(u) y no los absolutos; 2. Las ecuaciones de Euler son, normalmente, no lineales lo que frecuentemente imposibilita la obtención de la solución de forma explı́cita; 3. Normalmente, los valores admisibles para las señales de control están acotados, lo que hace imposible la determinación de la señal de control óptimo por métodos variacionales. Al estudiar en el apartado anterior el problema del control óptimo, se ha considerado que los valores posibles tomados por la señal de entrada no estaban acotados. Es decir, que U = IR. Este caso, obviamente, no es el más general, sino que debe considerarse el caso en que la región de las señales de control admisibles esté acotada; es decir, U esté acotada. Esta última circunstancia, especialmente, tuvo una importancia decisiva para el desarrollo de nuevas ideas en la teorı́a del control óptimo. Las limitaciones que 393 Principio del Mı́nimo de Pontriagin 394 se imponen normalmente a las señales de control son del tipo, | ui |≤ Mi Este tipo de limitaciones son perfectamente naturales en las aplicaciones. Ası́, por ejemplo, los valores que alcanza una magnitud eléctrica, como la tensión o la intensidad, en un determinado circuito, están, en la práctica, limitadas por consideraciones de tipo fı́sico; lo mismo sucede en los equipos mecánicos con las posiciones o las velocidades; y ası́ en cualquier sistema fı́sico. En general, una forma de la evolución de una magnitud fı́sica, y en particular de una señal de mando, en un proceso fı́sico real, toma la forma que muestra la figura 16.1. t Figura 16.1: Según se verá más abajo, para obtener comportamientos óptimos con respecto a determinados criterios se requiere que se mantengan las señales de control en sus valores extremos. Esto sucede especialmente en los problemas de control en tiempo mı́nimo. En 1956, los matemáticos rusos Pontriagin, Boltianskii y Gamkrelidge estudiaron el problema de la optimización dinámica para el caso en que la región de señales de control admisibles U estuviese acotada, y establecieron el famoso principio del mı́nimo (en el trabajo original del máximo) al que se ha unido el nombre del primero de estos tres autores. El principio del mı́nimo de Pontriagin constituye una generalización de los resultados alcanzados con ayuda del cálculo variacional para resolver el problema del control óptimo. La diferencia esencial entre los resultados alcanzados con ayuda del cálculo variacional y aquellos que se obtienen con ayuda del principio del mı́nimo de Pontriagin, reside en que en este último caso se puede definir un espacio de funciones admisibles U(t) para las señales de control u(t). Al mismo tiempo las señales u(t) de control admisibles pueden presentar discontinuidades Principio del Mı́nimo de Pontriagin 395 en un número finito de puntos; con ello se abre la posibilidad de estudiar el control por conmutación, que tanto interés tiene en determinadas aplicaciones prácticas, como se verá más adelante. Recordando el problema del control óptimo, se tiene un sistema cuya evolución viene dada por ẋ = f (x, u) (16.1) siendo conocido x(0). Las señales de control admisibles deben pertenecer a un conjunto cerrado U, es decir, u(t) ∈ U (16.2) El estado y el instante al final del proceso están definidos por un conjunto de pares (x(T ), T ) ∈ B. El criterio a optimizar es de la forma J= Z T 0 L(x, u)dt + S(x(T ), T ) (16.3) Se define, además, la función hamiltoniana de acuerdo con la expresión siguiente H(x, u, λ) = L(x, u) + λf (x, u) (16.4) El principio del mı́nimo de Pontriagin permite establecer las condiciones necesarias para que una señal de control admisible dé lugar a un control óptimo. Sea u(t) una señal de control admisible y x(t) la trayectoria correspondiente, de manera que x(t) esté definida por ẋ = f (x, u) (16.5) x(0) = 0 (16.6) Por otra parte, se definen las ecuaciones adjuntas o de coestado como sigue: dλ ∂f ∂L =− λ− dt ∂x ∂x (16.7) Por último, recordando las expresiones (15.57) las condiciones finales dan lugar a λ(T )∆xf − H(T )δT = ∂S ∂S ∆xf + δT ∂x ∂t (16.8) Con todo los elementos anteriores se puede enunciar el principio del mı́nimo de Pontriagin como sigue: Teorema (Principio del mı́nimo de Pontriagin). Principio del Mı́nimo de Pontriagin 396 Supuesto que existe un vector adjunto λ(t) tal que satisfaga las ecuaciones adjuntas (16.7) y las condiciones finales (16.8) para todo vector (∆xf , δT ) tangente a B en el punto (x(T ), T ), entonces la condición necesaria para la existencia de un mı́nimo es que en todo punto t ∈ (0, T ) la función hamiltoniana H(x, u, λ) alcance su mı́nimo con relación a u. De acuerdo con el principio de Pontriagin la elección del control óptimo u∗ es muy simple: en cada instante de tiempo, u debe seleccionarse de manera que garantice el mı́nimo posible de la hamiltoniana H, teniendo en cuenta las restricciones (limitaciones) impuestas sobre los valores admisibles de u. La función hamiltoniana permite evaluar variaciones del criterio J debido a variaciones admisibles e infinitesimales de la señal de control δu(t). La variación del hamiltoniano H debida a una variación δu se denota por δH, y se escribe, à δH = ! ∂L ∂f +λ δu ∂u ∂u (16.9) Para la demostración del teorema del mı́nimo de Pontryagin interesa establecer en primer lugar el siguiente lema: Lema Sea una trayectoria nominal (o de referencia) x(t) de un sistema dinámico, generada por una señal de mando u(t). La variación del criterio δJ debida a una variación admisible δu de la señal de control óptimo u∗ (que determinará una variación de la trayectoria δx) viene dada por δJ = Z T 0 δH(t)dt (16.10) en el supuesto de que se cumplan las ecuaciones adjuntas (16.7) y las condiciones finales (16.8). Demostración Sea el sistema dinámico ẋ = f (x, u) Principio del Mı́nimo de Pontriagin 397 Debido a la variación de la señal de control δu se produce una variación de la trayectoria δx que vendrá dada por la ecuación diferencial siguiente: ẋ + δ ẋ = f (x + δx, u + δu) es decir ∂f ∂f δx + δu ∂x ∂u Por las razones que se pondrán de manifiesto más abajo interesa calcular la variación con el tiempo de λδx. Se tiene δ ẋ = d(λδx) dλ d(δx) = δx + λ dt dt dt ! à à ! ∂L ∂f ∂f ∂f = − − λ δx + λ δx + δu ∂x ∂x ∂x ∂u ∂L ∂f = − δx + λ δu ∂x ∂u Pasando al primer miembro el primer término del segundo miembro, y sumando a ambos miembros ∂L δu se tiene, recordando (16.9). ∂u d(λδx) ∂L ∂L ∂f ∂L + δx + δu = λ δu + δu dt ∂x ∂u ∂u! à ∂u ∂L ∂f + δu = λ ∂u ∂u = δH Obsérvese que en δH se indica la variación de H debida exclusivamente a la variación de u, supuestos x y λ constantes. Integrando la anterior expresión entre 0 y T , y recordando que δx(0) = 0 se tiene λ(T )δx(T ) + Z Tà ∂L 0 ! Z T ∂L δx + δu dt = δHdt ∂x ∂u 0 (16.11) Por otra parte, de acuerdo con la figura 16.2, se puede aproximar el desplazamiento ∆xf entre la trayectoria nominal y la trayectoria perturbada con la siguiente expresión, (que es la misma que la (14.21)) δx(T ) = ∆xf − ẋ(T )δT (16.12) siendo (∆xf , δT ) tangente a B. Es decir, λ(T )δx(T ) = λ(T )(∆xf − ẋ(T )δT ) (16.13) Principio del Mı́nimo de Pontriagin 398 δx (T ) ẋ(Tf )δT T ∆xf T + δT Figura 16.2: Recordando las condiciones finales (16.8), se tiene, en el caso en que S = 0, λ(T )∆xf = H(T )δT (16.14) Por lo que (16.13) se puede escribir λ(T )δx(T ) = H(T )δT − λ(T )ẋ(T )δT (16.15) Por otra parte, se tiene que H(T ) = λ(T )f (T ) + L(T ) (16.16) λ(T )ẋ(T ) = H(T ) − L(T ) (16.17) lo que se puede escribir lo que llevado a la expresión (16.15) conduce a λ(T )δx(T ) = L(T )δT (16.18) Por otra parte se sabe que δJ = Z Tà ∂L 0 ! ∂L δx + δu dt + L(T )δT ∂x ∂u Z T +δT T Ldt ' L(T )δT (16.19) (16.20) Teniendo en cuenta (16.18) la anterior expresión se reescribe: δJ = Z Tà ∂L 0 ! ∂L δx + δu dt + λ(T )δx(T ) ∂x ∂u (16.21) Principio del Mı́nimo de Pontriagin 399 lo que según (16.11) conduce a: δJ = Z T 0 δHdt (16.22) con lo que queda demostrado el lema. 2 Recuérdese que la variación de H que se considera en la expresión (16.22) es exclusivamente la debida a u. Es decir, la expresión (16.22) se puede escribir δJ = J(u) − J(u∗ ) = Z T 0 (H(x∗ , u, λ) − H(x∗ , u∗ , λ))dt (16.23) Aparentemente no hay nada de extraordinario en el anterior lema. De hecho, la ecuación adjunta y las condiciones de tranversalidad prefiguran el resultado alcanzado. Sin embargo es interesante resaltar el interes de la expresión (16.22), ya que permite evaluar el efecto sobre δJ de una variación local de δu. Esta interpretación conduce al teorema del mı́nimo de Pontriagin. Para enunciar ese teorema se parte del hecho de que toda trayectoria óptima está caracterizada por la condición δJ ≥ 0, ∀δu(t) (16.24) que, de acuerdo con el lema, se convierte en que la condición necesaria para el mı́nimo es Z T δH(t)dt ≥ 0 (16.25) 0 para toda variación infinitesimal admisible δu(t). Considérese variaciones δu(t) tales que, δu(t) = δu τ − ² < t < τ = 0 resto de manera que se cumpla: • u(t) + δu(t) ∈ U • x(t) + δx(t) corta a B La condición de mı́nimo de la expresión (16.25) se convierte en δH(t) ≥ 0 (16.26) Principio del Mı́nimo de Pontriagin 400 para todo 0 < t < T . En efecto, para demostrar la expresión (16.26) se procede por contradicción. Supóngase que existe un valor de ū y uno del tiempo t1 tales que H(x∗ (t1 ), u∗ (t1 ), λ(t1 )) > H(x∗ (t1 ), ū, λ(t1 )) (16.27) es decir, que H(ū) en t1 es menor que H(u∗ ) óptima. Entonces es posible concebir una señal ū(t) tal que coincide con u∗ (t) para todo valor de t excepto en un pequeño entorno de t1 en el que toma el valor ū(t1 ) = ū (figura 16.3). Puesto que ū u∗ ε 0 t1 T t1 T δu 0 Figura 16.3: H es continua con relación a x, y λ (en la medida en que lo son L y f ) se tendrá que en un entorno de t1 se podrá determinar un valor de ²0 tal que H(x∗ (t), u∗ (t), λ(t)) − H(x∗ (t), ū(t), λ(t)) < ²0 (16.28) para todo t tal que t − t1 < ². De lo anterior se desprende δJ = J(ū(t)) − J(u∗ (t)) = Z T 0 (H(x∗ (t), ū(t), λ(t)) − H(x∗ (t), u∗ (t), λ(t)))dt < ²²0 Haciendo ² arbitrariamente pequeño se tiene δJ < 0 (16.29) Principio del Mı́nimo de Pontriagin 401 en contradicción con lo supuesto. Es decir, en el caso en que para un valor u y un tiempo t1 se cumpla la expresión (16.27) puede suceder (16.29). Para que no suceda (16.29) es necesario que (16.27) no suceda. Luego tiene que cumplirse, como establece el teorema que se trataba de demostrar. De hecho el principio del mı́nimo de Pontriagin no hace sino generalizar los resultados alcanzados en el apartado anterior para el caso en que u∗ (t) se encuentre en los lı́mites de U , y no en el interior de esta región. Es decir, el principio del mı́nimo de Pontriagin generaliza al caso en que u esté acotada el resultado demostrado anteriormente según el cual la determinación de la señal de control u∗ que minimiza al funcional J es equivalente a la determinación de la señal u∗ que minimice la función hamiltoniana H. El interés del principio del mı́nimo, como el del cálculo variacional, reside en que el problema inicial de minimizar un funcional J se transforma en una infinidad (para cada valor de t ∈ (0, T )), de problemas de minimización de un escalar H. En el apartado anterior se ha visto que la determinación de u∗ (t) que minimice a H se hacı́a resolviendo la ecuación algébrica ∂H =0 ∂u Esta ecuación permite determinar el mı́nimo de H en el caso en que u∗ se encuentre en el interior de U , lo que siempre sucede en el caso de que u no esté acotada. En el caso en que u esté acotada, la determinación del mı́nimo de H debe hacerse por otro tipo de consideraciones, y no con ayuda de la ecuación anterior. La demostración rigurosa de que u∗ debe elegirse de manera que minimice H es la contribución básica de Pontriagin a la teorı́a del control óptimo. Habida cuenta del principio del mı́nimo de Pontriagin, los cinco pasos enunciados en el apartado anterior para resolver el problema de la determinación de la ley de control óptima mantienen su vigencia, excepto el segundo que toma la forma siguiente: - Determinar u∗ tal que u∗ = arg. min.H en donde ”arg. min.” debe leerse ”obtener el argumento u∗ que minimice H”. Es decir, la hamiltoniana se minimiza en cada punto del tiempo a lo largo de la trayectoria óptima por elección de los valores de u óptimos. Ası́, para cualquier Principio del Mı́nimo de Pontriagin 402 valor de t ∈ [t0 , T ] sucede que o existe una solución interior en la cual ∂H =0 ∂n como sucede en los casos considerados al estudiar el cálculo de variaciones, o se tiene un asolución de contorno en la cual ∂H ≥0 ∂n en donde n es una normal dirigida hacia el exterior sobre el contorno de U. En la figura 16.4 se representan graficamente estas dos posibilidades, para el caso en que la dimensión de u sea 1. H H Ho Ho uo u Ω uo u Ω Solucion interior Solucion de contorno Figura 16.4: En la figura se considera la forma de H, en función de u, para un instante genérico de tiempo t. En el cuadro se resume el método modificado. Principio del Mı́nimo de Pontriagin Resumen de la aplicación del Principio del mı́mimo de Pontriagin a la determinación del Control Optimo Se da el sistema ẋ = f (x, u) Se da el criterio J= Se dan las restricciones | u |≤ Mi Paso 1 Se forma la Hamiltoniana H(x, u, λ) = L(x, u) + λf (x, u) Paso 2 Se determina u∗ (x, λ) admisible tal que minimice H(x, u, λ) con respecto a u Paso 3 Se determina la Hamiltoniana mı́nima H ∗ (x, λ) = H(x, u∗ (x, λ), λ) Paso 4 Se resuelve el sistema de 2n ecuaciones ∂H ∗ ẋ = ∂λ ∗ ∂H λ̇ = − ∂x con las condiciones de contorno correspondientes. Se obtiene x∗ (t) y λ∗ (t). Paso 5 Se determina u∗ (t) = u∗ (x∗ (t), λ∗ (t)) RT 0 L(x, u)dt 403 Principio del Mı́nimo de Pontriagin 404 Debe notarse que el principio del mı́nimo representa exclusivamente una condición necesaria, es decir, que una vez obtenido el valor debe comprobarse que efectivamente corresponde a un mı́nimo. En algunos libros, y especialmente en el original de Pontriagin, el principio del mı́nimo se denomina del máximo. En último extremo ello no es sino un problema de signos en la hamiltoniana que debe ser optimizada. Ejemplo 1 Se trata de trazar una curva x(t), 0 ≤ t ≤ T , que se inicie en x(0) = 0, cuya pendiente en cada punto no sea mayor que 1 y que maximice el valor de x(t) en t = T. El problema puede formularse representando la curva mediante el sistema dinámico: ẋ = u(t) Este curva debe ser tal que x(0) = 0, y además se pide que u(t) ≤ 1. Puesto que se pretende maximizar x(T ) el criterio será: J = x(T ) Se trata, por tanto, de un problema de control óptimo con un término de control terminal tal que S(x(T ), T ) = x(T ). Aplicando el método que se acaba de presentar, se tendrá que en este caso L(x, u) = 0 y f (x, u) = u por lo que la función hamiltoniana será: H = λu Conviene notar que en la función hamiltoniana no aparece el término relativo al control terminal (al estado final). De la expresión de H se desprende que para λ < 0 el valor óptimo de u es −∞ y para λ > 0 es u = 1. Las ecuaciones de Hamilton resultan ser: ∂H ∗ =u ∂λ ∂H ∗ −λ̇ = =0 ∂x ẋ = Integrando (16.31) se tiene λ(t) = k (16.30) (16.31) Principio del Mı́nimo de Pontriagin 405 x(t) x1 (t) T Figura 16.5: Problema de la curva óptima con crecimiento acotado. siendo k una constante. Por otra parte la condición de contorno, puesto que se trata de un problema con estado final libre y tiempo final T determinado, resulta ser, recordando (15.58), λ(T ) = 1. Por tanto k = 1, y λ(t) = 1 > 0. En consecuencia, la señal de control óptima será u = 1. Llevando este valor a (16.30), y recordando que x(0) = 0, se tiene que la curva óptima será x(t) = t Este resultado, que se muestra en la figura 16.5, tiene un contenido muy intuitivo. Ejemplo 2: Control óptimo de un sistema lineal Sea el sistema ẋ = −2x + u con el ı́ndice Z T 0 x2 dt y con la restriccion | u |≤ 1. Se forma la hamiltoniana, H = x2 + λ(u − 2x) Para optimizar la hamiltoniana se observa que la dependencia de esta función de u se limita al término λu. Por tanto, teniendo presentes las restricciones sobre u, es claro el valor óptimo de u será u = +1 si λ < 0 y u = −1 si λ > 0 Ver figura 16.6). Principio del Mı́nimo de Pontriagin 406 H λ>0 +1 −1 λ<0 u H +1 u −1 Figura 16.6: Si se emplea la función ‘sgn (se lee ‘signo) se escribe, u∗ = −sgn (λ) La hamiltoniana óptima será H = x2 − λsgn (λ) − 2xλ La ecuacion adjunta es: λ̇ = −2x + 2λ El conjunto se puede mecanizar interpretar mediante un diagrama como el de la figura 16.7. Obsérvese que puesto que S = 0, la condición de contorno es λ(T ) = 0. Ejemplo 3: Control óptimo de un sistema de dimensión dos Sea el sistema (planta) con ecuaciones de estado x˙1 = x2 x˙2 = −x1 + u Se trata de minimizar el criterio de funcionamiento 1Z T 2 (x1 + u2 )dt J= 2 0 Principio del Mı́nimo de Pontriagin λ 407 x -1 2 -2 -2 Figura 16.7: Diagrama de bloques. Con señales de control admisibles tales que | u(t) |≤ 1 ∀t ∈ [0, T ] Para resolver el problema se procede de acuerdo con los pasos indicados anteriormente. 1. Se forma la hamiltoniana 1 1 H = x21 + u2 + λ1 x2 + λ2 (u − x1 ) 2 2 2. Se minimiza H con relación a todos los valores de u admisibles, para determinar u∗ = u∗ (x, λ, t). En este caso se separan los términos en u de H 1 2 u + λ2 u 2 Si la señal de control no está saturada, el mı́nimo se obtiene haciendo ∂H =0 ∂u lo que da u∗ = −λ2 Por tanto, si | λ2 (t) |< 1 entonces se adopta u∗ = −λ2 ya que con ello se está en la zona no saturada de u). Si | λ2 (t) |> 1 entonces, segun se ha visto en el ejemplo anterior, el valor que minimiza H será u∗ = −sgn (λ2 ) Principio del Mı́nimo de Pontriagin 408 u∗ (t) λ∗2 (t) Figura 16.8: Representación de u∗ Por tanto u∗ tiene la forma que se indica en la figura 16.8. Para determinar λ2 (t) se resuelven las ecuaciones x˙1 x˙2 λ˙1 λ˙2 = = = = x2 −x2 − λ2 −x1 −λ1 con las condiciones de contorno que correspondan. 16.2 Control óptimo por conmutación 16.2.1 Control en tiempo mı́nimo de un sistema de segundo orden Supóngase un móvil sin rozamiento, cuyo movimiento está controlado por una fuerza u que está acotada (|u| < 1). La ecuación dinámica del movimiento es d2 y =u dt2 que admite la representación por variables de estado: x˙1 = x2 x˙2 = u y = x1 Principio del Mı́nimo de Pontriagin 409 El control en tiempo mı́nimo consiste en determinar en cada instante t, la fuerza que hay que aplicar u(t) de manera que evolucione desde un estado inicial (x1 , x2 ) al origen (0, 0), en un tiempo mı́nimo. El ı́ndice de funcionamiento vendrá dado por J= Z T 0 dt = T (16.32) por lo tanto, se tiene que, L(x, u) = 1 (16.33) En primer lugar se procede a formar la hamiltoniana H = 1 + λ1 x2 + λ2 u Es claro que H alcanzará el valor mı́nimo • si λ2 < 0 haciendo u = +1 • si λ2 > 0 haciendo u = −1 es decir, u∗ (t) = −sgn (λ2 (t)) por lo que la hamiltoniana minimizada resultará ser H ∗ = 1 + λ1 x2 − λ2 sgn (λ2 ) Las ecuaciones adjuntas resultan ser en este caso ∗ ∂H λ˙1 = − =0 ∂x1 ∂H ∗ λ˙2 = − = −λ1 ∂x2 cuya integración conduce a λ1 = k1 λ2 = −k1 t + k2 Se observa que λ2 es monótona (creciente o decreciente, según los signos de k1 y k2 ), por lo que cambiará de signo, a lo sumo, una sola vez. Por lo tanto u, o bien tomará solo uno de los valores +1 o −1 hasta alcanzar el origen, o cambiará una sola vez de valor antes de alcanzarlo. Principio del Mı́nimo de Pontriagin 410 En cualquir caso, las únicas señales que se aplicarán al sistema serán + 1 ó 1. Por lo tanto interesa estudiar cómo evoluciona el sistema cuando u = +1, y cuando u = −1. Para u = +1 se tiene, x2 = t + c 1 t2 x1 = + c1 t + c2 2 es decir, x22 = 2x1 + c3 siendo c3 = c21 − 2c2 . La anterior expresión puede representarse gráficamente como se hace en la figura 16.9a. x2 t 0 x1 a) A B u = +1 x2 t 0 x1 u = −1 b) Figura 16.9: La única trayectoria que pasa por el origen es AO, luego será por esta trayectoria por la que deberá alcanzarse el origen. Para u = −1 se demuestra analogamente que las trayectorias vienen dadas Principio del Mı́nimo de Pontriagin 411 por x2 = −2x1 + c4 lo que se representa graficamente en la figura 16.9b. Las mismas consideraciones hechas anteriormente para la trayectoria AO valen aquı́ para la trayectoria BO. Los resultados anteriores pueden resumirse en la figura 16.10. x2 u = −1 B 0 x1 A u = +1 Figura 16.10: Del exámen de esta figura se desprende que, 1. Si el estado inicial se encuentra sobre AO(BO) se aplica u = +1(u = −1) y no se produce ninguna conmutación. 2. Si el estado inicial se encuentra por debajo (por encima) de BOA se aplica u = +1(u = −1) hasta que el estado, recorriendo la parábola correspondiente, alcance la lı́nea BO(AO) en cuyo caso se conmutará la señal de mando haciendo u = −1(u = +1). De acuerdo con lo anterior la curva de conmutación vendrá dada por 1 x 1 = − x2 | x2 | 2 de manera que la ley de control será, u∗ = sgn (²) Principio del Mı́nimo de Pontriagin siendo, 412 1 ² = −x1 − x2 | x2 | 2 Esta ley de control puede realizarse practicamente con un esquema como el de la figura 16.11. yr = 0 + ε +1 u0 1 s -1 - + + 1 s x1 k | x2 | 1 2 x2 x x2 +1 Figura 16.11: Ley de control Debe observarse que, en cierta manera, lo que se ha hecho ha sido determinar una ley de control, puesto que la señal de mando que se aplica en cada instante, a partir de las consideraciones anteriores, depende únicamente del estado del sistema. 16.2.2 Ejemplo 4: Problema del alunizaje suave Determinar la ley de control óptima que transfiera al módulo lunar (figura 16.12) desde una posición inicial (z(0), ż(0), M (0)) a la posición final (0, 0, M (T )) con un consumo mı́nimo de combustible. La señal de control u está acotada por 0 < u < Q. Solución Haciendo x1 = z, x2 = ż, las ecuaciones dinámicas del sistema se transforman en x˙1 = x2 (16.34) Principio del Mı́nimo de Pontriagin 413 ku Mg z Figura 16.12: ”Aterrizaje lunar” ku M x˙2 = −g + (16.35) Observese que M depende del tiempo, de modo que M (t) = M (0) − Se supone que Z t 0 udt ∆M M (T ) − M (0) = M M (0) es muy pequeña, de modo que la expresión (16.35) puede considerarse correcta en primera aproximación. El criterio a minimizar es J= Z T 0 udt por lo que à H = u + λ1 x2 + λ2 es decir à ku −g + M ! kλ2 H = λ1 x2 − λ2 g + u 1 + R M (0) − 0t udt ! Minimizando H respecto a u se observa que el control viene dado por à • u = 0 si kλ2 1+ R M (0) − 0t udt ! >0 Principio del Mı́nimo de Pontriagin à • u = Q si 414 kλ2 1+ R M (0) − 0t udt ! <0 Las ecuaciones adjuntas son ∂H = 0 ⇒ λ1 = k1 λ˙1 = − ∂x1 ∂H λ˙2 = − = −λ1 ⇒ λ2 = −k1 t + k2 ∂x2 El que λ2 crezca (o decrezca) linealmente con el tiempo implica que el signo de à kλ2 1+ R M (0) − 0t udt ! cambie una vez como máximo, y por lo tanto u sólo toma los valores 0 y Q una sola vez en la trayectoria óptima. Cuando u = 0 (caida libre del modelo), las ecuaciones dinámicas toman la forma: x˙1 = x2 x˙2 = −g de donde se tiene x2 = −gt + x2 (0) = −gt + ż(0) (16.36) y t2 + z(0) + ż(0)t 2 De la ecuación (16.36) despejamos el tiempo x1 = −g t= (16.37) ż(0) − x2 g y lo sustituimos en la ecuación (16.37) x1 = z(0) + ż 2 (0) x22 − 2g 2g es decir, x22 = ż 2 (0) + 2g(z(0) − x1 ) esta expresión da la familia de trayectorias en el plano de estado, en función de las condiciones iniciales z(0), ż(0). Principio del Mı́nimo de Pontriagin 415 x2 z(0) x1 ż(0) u=0 Figura 16.13: En la figura 16.13 se representan las trayectorias correspondientes Cuando u = Q ẋ1 = x2 ẋ2 = −g + kQ kQ = −g Rt M (0) − Qt M (0) − 0 udt Integrando la segunda de las anteriores expresiones se tiene x2 − ż(0) = −k (ln(M (0) − Qt) − ln M (0)) − gt lo que llevado a la primera x˙1 = x2 = ż(0) − k ln(M (0) − Qt) + k ln M (0) − gt es decir à ! à ! M (0) Qt Qt t2 1− ln 1 − − g + k ln M (0)t x1 − z(0) = ż(0)t + k Q M (0) M (0) 2 En el último paso se ha tenido en cuenta que Z ln xdx = x ln x − x Las trayectorias en el plano de fase corresponden a curvas de la forma que se indica en la figura 16.14. La única trayectoria que pasa por el origen es la AB, y es por lo tanto la curva de conmutación, como la señal u solo cambiaba de valor una vez en la trayectoria Principio del Mı́nimo de Pontriagin ż(0) 416 z(0) B x1 CHOQUE A u=Q x2 Figura 16.14: óptima, cualquier trayectoria del móvil corresponderá a una caida libre si se encuentra por encima de la trayectoria AB. Las ecuaciones paramétricas de la trayectoria AB corresponden a à g kM (0) Qτ z = − τ 2 − kτ = ln 1 − 2 Q M (0) à ! Qτ ż = gτ + k ln 1 − M (0) ! x2 u=Q Zo d na k=0 ho ec Choque con velocidad x1 Zona de caida libre qu e Linea de conmutacion Figura 16.15: En la figura 16.15 se representa la evolución conjunta de las representadas en las figuras 16.13 y 16.14. Tema 17 Principio de optimalidad de Bellman 17.1 Introducción Dado un criterio de optimalidad, las N señales de mando o decisiones que conducen el sistema del estado A al B, de acuerdo con este criterio, y a través de N pasos sucesivos, son tales que cualquiera que sea el estado C resultado de aplicación de la primera de ellas, las N − 1 señales restantes dan lugar a una trayectoria óptima de C a B. Al cumplirse lo anterior para el primer paso es evidente que se cumple para cualquier paso intermedio. Gráficamente se interpreta en la figura 17.1, diciendo que si la trayectoria AB es óptima, lo mismo lo es la CB. Es decir una trayectoria óptima tiene la propiedad de que cualesquiera que sean el estado inicial y la primera acción tomada sobre el sistema, las restantes acciones deben constituir una trayectoria óptima a partir del estado resultante de la primera acción. Obsérvese que se exige que B sea siempre el estado final. Es decir, que un tramo de la trayectoria AB, que no acabe en B, no puede considerarse óptimo. 417 Principio de optimalidad de Bellman 418 B C A Figura 17.1: Principio de optimalidad: si la trayectoria AB es óóptima, también lo es la CB. Ejemplo Se trata de determinar la trayectoria óptima de A a P , en 6 etapas. Los tramos de cada porción de la primera trayectoria están penalizados con un costo que se representa en la figura 17.2 con un número sobre el correspondiente tramo. El criterio de optimalidad es el minimizar el costo total del recorrido. Se considera en primer lugar la quinta y la sexta etapa (figura 17.3). En cada uno de los nudos se escribe un número rodeado por un circulo que representa el coste mı́nimo del recorrido desde dicho nudo a P , supuesto por la trayectoria óptima. Es evidente que desde N y O, al no haber opción el correspondiente número será el costo de la trayectoria. Lo mismo sucederá desde K y M , desde los que las únicas trayectorias posibles son KN P y M OP , de costos 8 y 9 respectivamente. Sin embargo desde L dos trayectorias son posibles, la IN P y la LOP de costos 7 y 8 respectivamente. Por lo tanto la óptima será la LN P y se encerrará un 7 en el circulo correspondiente. Obsérvese que a lo largo de la trayectoria óptima la diferencia entre los números encirclados es igual al costo del tramo correspondiente. De la misma manera se puede estudiar la 4 etapa (figura 17.4). Debe notarse que en este paso ya se obtiene un notable beneficio de los cálculos anteriores y que al, por ejemplo, calcular la trayectoria óptima desde H, se tiene en cuenta las trayectorias óptimas desde K y desde L, y no se tiene que volver a calcular todo el trayecto. De hecho lo que se hace es decidir entre HK y HL de Principio de optimalidad de Bellman 419 G 6 4 D K 6 9 3 4 N H B 2 2 1 A 7 2 8 E 5 L 3 P 7 3 5 I C 4 3 O 1 5 6 M F 5 9 J 1 2 3 4 5 6 Figura 17.2: Retı́culo de trayectos posibles entre A y P . 8 K 7 5 N P L 9 3 O M Figura 17.3: Las dos últimas etapas para llegar a P . 7 Principio de optimalidad de Bellman 420 14 G 12 H 8 K 7 5 N P 14 I 18 L 9 3 O M J Figura 17.4: Las tres últimas etapas para llegar a P . Principio de optimalidad de Bellman 421 manera que la suma del costo correspondiente al nuevo tramo y el costo óptimo a K o a L (número encirclado), sea mı́nimo. Procediendo de esta manera se llega a cubrir todo el diagrama con los costos mı́nimos desde los correspondientes nudos. De la figura 17.5 y de los anteriormente expuestos, se deduce que la trayectoria óptima es la ABEHKN P . 14 G 18 16 17 B D 12 H 14 8 K 7 5 N P A 17 C E 14 I 15 F 18 L 9 3 O M J Figura 17.5: Trayectoria óptima de A a P . 17.1.1 Ejemplo de un sistema binario en tiempo discreto Sea un sistema que admite una entrada u(k) que toma únicamente los valores 0 y −1, para todo k discreto. La ecuación que gobierna la evolución del mismo es la siguiente: x(k + 1) = x(k) + u(k) (17.1) Se trata de encontrar la secuencia u(k), k = 0, 1, 2, 3 que transfiera el estado del sistema de x(0) = 2 a x(4) = 0 de manera que se minimice la función de costo J= 3 X | 5x(k) − 3 | (17.2) t=0 Para una mejor comprensión del método se empleará un diagrama sobre un plano x − y, en donde en el eje y se representa el estado del sistema (17.1) y en el eje x el ı́ndice k (figura 17.6). En dicho diagrama se tienen unos circulos correspondientes a los distintos pares (x, k) y unas flechas que los unen. Estas últimas llevan asociados números que representan el costo de la transición de un punto a otro, y se calculan según (17.2). Este costo depende exclusivamente del estado previo. Principio de optimalidad de Bellman 7 A 2 13 7 11 9 7 7 x(t) 422 7 2 2 6 1 4 2 2 2 2 6 3 3 3 0 B t 0 1 2 3 4 Figura 17.6: Trayectorias posibles desde A hasta B. En cuando a los circulos, tienen también números cuya generación se va a ver a continuación. Estos números representan Ji∗ (x). En primer lugar, considérese k = 3, y J1∗ . Para los dos valores posibles de x, x = 0 y x = 1 que conducen a B, los valores de J1∗ correspondientes son: J1∗ (0) = 3 J1∗ (1) = 2 Puesto que no hay diferentes rutas desde los dos puntos no se requiere minimización. Sea ahora k = 2. Los puntos en los que se puede iniciar el proceso son en este caso x = 0, 1, 2. Para x = 0, 2 no existe problemas de adopción de ruta pero para x = 1 si es posible aplicar u = 0 ó u = −1. En tal caso se tiene, J2∗ (1, 2) = min[2 + J1∗ ] = 4 u De la misma forma se procede para t=1, resultando J3∗ (0) = 9 J3∗ (1) = 6 J3∗ (2) = 11 y asimismo para k = 0, siendo en ese caso J4∗ (2) = 13 (17.3) (17.4) (17.5) Principio de optimalidad de Bellman 423 Una vez realizados los cálculos anteriores la determinación de la trayectoria óptima es ya un problema trivial. Los distintos tramos de la misma estarán ∗ formados de acuerdo con la regla Ji∗ (x1 ) − Ji−1 (x2 ) = costo de la transición de x1 a x2 . De acuerdo con este criterio, cuya interpretación es obvia, se obtiene la trayectoria de trazo fuerte de la figura 17.7. 7 A 2 7 13 11 9 7 7 x(t) 7 2 2 6 1 4 2 2 2 2 6 3 3 3 0 B t 0 1 2 3 4 Figura 17.7: Trayectoria óptima entre A y B, en trazo grueso. 17.1.2 Programación dinámica en tiempo discreto y Principio de Optimalidad El ejemplo anterior admite la siguiente generalización. Sea un sistema dinámico en tiempo discreto x(k + 1) = f (x(k), u(k), k) (x(T ), T ) ∈ B cuyo funcionamiento se pretende que optimece el criterio J= TX −1 L(x(k), u(k), k) + S(x(T ), T ) (17.6) t0 En lugar de considerar el problema correspondiente con un estado e instante inicial dados (x(t0 ), t0 ), vamos a considerar el problema más general con un estado y condiciones iniciales (x, t) arbitrarias. Para cada uno de estos problemas se define la función V (x, t) = min J Es decir, para cada (x, t) la función V (x, t) nos da el coste óptimo, desde ese estado y tiempo. Si recordamos los dos ejemplos anteriores veremos que la Principio de optimalidad de Bellman 424 función V (x, t) toma, en esos problemas, el valor que se representa en las figuras 17.5 y 17.6 en el interior de un pequeño cı́rculo. Para la aplicación de la programación dinámica, conviene observar, en primer lugar, que el criterio (17.6) es aditivo. Debido precisamente a este carácter aditivo y aplicando el principio de optimalidad de Bellman se tiene que V (x, t) = min u(t),u(t+1),... "T −1 X # L(x(k), u(k), k) + S(x(T ), T ) t = min L(x(t), u(t), t) + u(t) min u(t+1),u(t+2),... TX −1 L(x(k), u(k), k) + S(x(T ), T ) t+1 es decir, el valor de V es el mı́nimo de la suma del primer paso que se toma desde (x, t) más el valor óptimo desde el resultado de ese primer paso. Recuérdese como se calculaban los números encirclados en los dos ejemplos anteriores. La anterior expresión se puede escribir V (x, t) = min [L(x(t), u(t), t) + V (f (x, u, t), t + 1)] u∈U Las condiciones en los lı́mites correspondientes al problema son V (x, T ) = S(x(T ), T ) además, la ley de control óptima se determina en cada etapa mediante la expresión u(x, t) = arg min [L(x(t), u(t), t) + V (f (x, u, t), t + 1)] u∈U Conviene resaltar que este método nos ha conducido de manera natural a que la solución toma la forma de una ley de control, y no de una señal de control como sucedı́a en la solución del control óptimo mediante métodos variacionales. 17.2 Programación dinámica y ecuación de Hamilton-Jacobi-Bellman Para sistemas en tiempo discreto, el principio de optimalidad de Bellman da lugar, de una forma muy sencilla, a recurrencias que permiten determinar la secuencia óptima de señales de control, como hemos visto en los ejemplos anteriores. Para sistemas en tiempo contı́nuo, el anterior principio puede aplicarse también. Con el Principio de optimalidad de Bellman 425 fin de precisar la aplicación del principio de optimalidad de Bellman a sistemas en tiempo continuo supóngase el problema de control óptimo definido por el sistema dinámico: ẋ = f (x, u) (17.7) y el criterio de funcionamiento: J(x, u) = Z T 0 L(x, u)dt + S(x(T ), T ) (17.8) siendo u ∈ U (x(T ), T ) ∈ B (17.9) Para sistemas en tiempo continuo el principio de optimalidad de Bellman puede enunciarse de la forma siguiente: Si u∗ (τ ) es óptimo en el intervalo [t, T ], partiendo del estado x(t), entonces u∗ (τ ) es necesariamente óptimo en el subintervalo [t + ∆t, T ] para cualquier ∆t tal que T − t ≥ ∆t > 0. Graficamente puede interpretarse mediante la figura 17.8, en que se representa la trayectoria óptima que une el estado inicial (x, t) con el estado final (x(T ),T ) por medio de la curva AB. x x(T ) B (x, t) A t C t + ∆t T Figura 17.8: Trayectoria óptima contı́nua de A a B. Si inicialmente el sistema se encuentra en (x, t), al cabo de ∆t unidades de tiempo, el sistema se encontrará en el punto C. Según el principio de optimalidad de Bellman, si AB es una trayectoria óptima, entonces CB será a su vez otra trayectoria óptima. Principio de optimalidad de Bellman 426 Demostración Se procede por contradicción. Supóngase que existe un u∗∗ tal que dé un valor menor para Z T t+∆t L(x, u, τ )dτ + S(x(T )) que el que daba u∗ en el subintervalo [t + ∆t, T ]. Considérese una nueva señal de control u(τ ) dada por ( u(τ ) = u∗ (τ ), u∗∗ (τ ), para para t ≤ τ ≤ t + ∆t t + ∆t ≤ τ ≤ T (17.10) Entonces en el intervalo [t, T ] se tendrá Z t+∆t t < L(x∗ , u∗ , τ )dτ + Z t+∆t t Z T t+∆t Z T L(x∗ , u∗ , τ )dτ + L(x∗∗ , u∗∗ , τ )dτ + S(x∗∗ (T )) t+∆t L(x∗ , u∗ , τ )dτ + S(x∗ (T )) (17.11) Pero se ha partido del supuesto de que u∗ es óptimo en el intervalo [t, T ], y (17.11) implica que u dado por (17.10) da lugar a un valor para J menor que el óptimo. Lo que está en contradicción con el supuesto del que se habı́a partido. Conviene observar que en las expresiones anteriores x∗ denota la trayectoria del estado correspondiente a la señal de control u∗ , x∗∗ la correspondiente a u∗∗ y x∗ = x∗∗ para τ = t + ∆t, puesto que u y u∗ son las mismas en el intervalo [t, T ]. La idea fundamental de la programación dinámica consiste en separar la operación de minimización en dos niveles, separación que es lı́cita por las dos razones siguientes: • el criterio J es aditivo con relación a la trayectoria, • el comportamiento dinámico está representado por una ecuación diferencial de primer orden. Con el fin de aplicar el principio de optimalidad de Bellman conviene definir la función: V (x, t) = J ∗ (x, t) Principio de optimalidad de Bellman 427 siendo J ∗ (x, t) el valor de la funcional J cuando se recorre la trayectoria óptima desde el estado (x, t). Por tanto: ∗ V (x, t) = J (x, t) = umin [t,T ] "Z T t # L(x(τ ), u(τ )) dτ + S(x(T ), T ) con: u[t,T ] = {u(τ )|t ≤ τ < T } es decir, u[t,T ] es el conjunto de todas las acciones de control posibles en el intervalo [t, T ]. Recordando la figura 17.8, tenemos que si el valor del funcional J para la trayectoria óptima que se inicia en (x, t) se representa por V (x, t), entonces el valor de J para la trayectoria CB, vendrá dado por V (x + ∆x, t + ∆t). Es decir, V (x + ∆x, t + ∆t) es el coste mı́nimo del proceso para el intervalo (t + ∆t, T ). Además, por el principio de la optimalidad sabemos que si la trayectoria AB es óptima, también lo será la trayectoria CB. Todo ello permite escribir "Z V (x, t) = min u[t,T ] t+∆t "Z L(x(τ ), u(τ ))dt + min u[t+∆t,T ] t T t+∆t ## L(x, u, t)dt + S(x(T ), T ) (17.12) es decir, "Z V (x(t), t) = min u[t,T ] t+∆t t # L(x(τ ), u(τ ))dτ + V (x(t + ∆t), t + ∆t) (17.13) En esta última expresión se ha tenido en cuenta el que el valor mı́nimo V a partir del estado x(t+∆t) en el tiempo t+∆t viene dado por V (x(t+∆t), t+∆t). Conviene observar que empleando el principio de optimalidad, el problema a determinar el control óptimo sobre el intervalo [t, T ] se ha reducido al de determinar el control óptimo sobre el intervalo reducido [t, t + ∆t]. Aplicando el teorema de la media al primer miembro del segundo término de (17.13), se tendrá Z t+∆t t Ldt ' L∆t (17.14) es decir, V (x, t) = min[L∆t + V (x + ∆x, t + ∆t)] u(τ ) (17.15) siendo u(τ ) la señal óptima en el intervalo t ≤ τ ≤ t + ∆t. Desarrollando en serie V (x + ∆x, t + ∆t) en torno a (x, t) (en el supuesto de que tanto V como f sean Principio de optimalidad de Bellman 428 suficientemente diferenciables ) se tendrá, V (x + ∆x, t + ∆t) = V (x, t) + ∂V ∂V ∆x + ∆t + ... ∂x ∂t (17.16) ∂V ∂V en donde representa el vector gradiente de V con relación a x, y representa ∂x ∂t la derivada parcial de V con relación a t. Llevando (17.16) a (17.15), y despreciando variaciones de orden superior, se tiene " # ∂V ∂V V (x, t) = min L∆t + V (x, t) + ∆x + ∆t (17.17) u(τ ) ∂x ∂t ∂V ∆t no están afectados por la minimización (puesto que ∂t no dependen de u(τ )) por lo que la expresión anterior se puede escribir: Los términos V (x, t) y " # ∂V ∂V min L∆t + ∆x + ∆t = 0 u(τ ) ∂x ∂t (17.18) Dividiendo por ∆t, haciendo ∆t → 0 se tiene: # " ∂V ∂V ẋ + =0 min L(x, u, t) + u(t) ∂x ∂t (17.19) Esta ecuación se conoce bajo el nombre de ecuación de Hamilton-JacobiBellman. Para resolver la ecuación de optimización (17.19) se procede en dos pasos. En el primero se realiza la minimización indicada. Ello conduce a " # ∂V (x, t) u(x, t) = arg min L(x, u, t) + f (x, u, t) u(x,t) ∂x (17.20) Es decir a una ley de control de la forma à ∂V , x, t u =φ ∂x ! ∗ (17.21) El segundo consiste en sustituir (17.21) en (17.19) y resolver la ecuación no lineal en derivadas parciales L(x, φ, t) + ∂V ∂V f (x, φ, t) + =0 ∂x ∂t (17.22) Principio de optimalidad de Bellman 429 con las condiciones de contorno V (x, T ) = S(x(T ), T ) (17.23) sobre B. Observando la expresión (17.22) y recordando la definición hamiltoniana parece apropiado escribir H(x, φ, t) = L(x, φ, t) + ∂V f (x, φ, t) ∂x (17.24) con lo que la expresión (17.22) puede escribirse H(x, φ, t) + ∂V =0 ∂t (17.25) En general no es posible resolver analı́ticamente esta ecuación en derivadas parciales. Sin embargo, en la sección siguiente se presentará un caso general para el que si tiene solución. En el caso de que sea posible esta solución y se determine V , entonces se calcula el gradiente de V con respecto a x y se tiene la ley de control óptima por realimentación del estado à ! ∂V u =φ , x, t = k(x, t) ∂x ∗ (17.26) Debe observarse que la resolución de la ecuación de Hamilton-Jacobi-Bellman es sólo una condición necesaria para la optimización. Con vistas a las aplicaciones el método anteriormente expuesto se puede sintetizar en los siguientes cinco pasos: 1. Formar la hamiltoniana, sustituyendo λ por à ∂V H x, u, ∂x à ∂V . ∂x ! =L+ ∂V f ∂x (17.27) ! ∂V , t con relación a u ∈ U para obtener 2. Minimizar H x, u, ∂x à ∗ u =u ∗ ∂V x, ∂x ! (17.28) Principio de optimalidad de Bellman 430 3. Determinar la hamiltoniana minimizada à H ∗ ∂V x, ∂x ! à ∂V = H x, u , ∂x ∗ ! (17.29) 4. Resolver la ecuación de Hamilton-Jacobi-Bellman que, con la introducción de la hamiltoniana minimizada, queda convertida en, à H ∗ ∂V x, ∂x ! + ∂V =0 ∂t (17.30) Esta ecuación en derivadas parciales recibe la denominación de ecuación de Hamilton-Jacobi. Esta ecuación admite las condiciones de contorno dada por la expresión (17.23). 5. Llevar los resultados de 4 a 2 para obtener la ley de control óptima. Es decir, una vez se ha determinado V (x, t) se puede determinar su gradiente ∂V y llevarlo a la ecuación (17.28) para obtener la ley de control óptima ∂x u∗ (x, t). Estos pasos se resumen en el cuadro siguiente: Resumen de la aplicación del metodo de Hamilton-Jacobi-Bellman a la determinación del Control Optimo Principio de optimalidad de Bellman 431 Se da el sistema ẋ = f (x, u) Se da el criterio J= Paso 1 Se Ãforma la Hamiltoniana ! ∂V ∂V , t = L(x, u) + f (x, u) H x, u, ∂x ∂x RT 0 L(x, u)dt + S(x(T ), T ) à Paso 2 ∗ Se determina u = u à minimice H x, u, ∗ ! ∂V x, , t admisible tal que ! ∂x ∂V , t con respecto a u ∈ U ∂x Paso 3 Se determina mı́nima à !la Hamiltoniana à ! ∂V ∗ ∗ ∂V H x, , t = H x, u , ,t ∂x ∂x Paso 4 Se resuelve el!sistema de ecuaciones en derivadas parciales à ∂V ∂V H ∗ x, ,t + =0 ∂x ∂t con las condiciones de contorno V (x, T ) = S(x(T ), T ). Se obtiene V ∗ (x, t). Paso 5 Se determina u∗ (x) En general, la aplicación del método anterior presenta dos dificultades que limitan grandemente su empleo. En primer lugar, es generalmente imposible resolver la ecuación de Hamilton-Jacobi aún para problemas sencillos, puesto que no se conoce una técnica general de resolución para ese tipo de ecuaciones en derivadas parciales. Por otra parte, aún si la ecuación de Hamilton-Jacobi puede resolverse, la ley de control obtenida es normalmente muy dificil de realizar fı́sicamente. Las anteriores razones hacen que, desde un punto de vista práctico, sea más interesante el principio de Pontriagin que la ecuación de Hamilton-Jacobi-Bellman Principio de optimalidad de Bellman 432 en la resolución del problema de control. Sin embargo, existe un caso para el que el método de Hamilton-Jacobi-Bellman es el idóneo. Es el de la determinación de la ley de control para un sistema dinámico lineal invariante en el tiempo, cuando el criterio de funcionamiento es cuadrático. Este problema es de por sı́ lo suficientemente interesante como para justificar el estudio del método de Hamilton-Jacobi-Bellman. Ejemplo 1 Determinar la ley de control óptimo para el sistema ẋ = u con el ı́ndice Z T J= 0 (x2 + u2 )dt 1. Se forma la hamiltoniana H = x 2 + u2 + ∂V u ∂x 2. Se minimiza la hamiltoniana ∂H ∂V = 2u + =0 ∂u ∂x lo que da u∗ = − 1 ∂V 2 ∂x 3. Se forma la hamiltoniana mı́nima 1 H =x − 4 ∗ 2 à ∂V ∂x !2 4. Se tiene la ecuación de Hamilton-Jacobi-Bellman 1 ∂V + x2 − ∂t 4 à ∂V ∂x !2 Con la condición de contorno V (x(T ), T ) = 0 =0 Principio de optimalidad de Bellman 433 Una forma de resolver la ecuación de Hamilton-Jacobi-Bellman es asumir una solución, y comprobar si satisface la ecuación y las condiciones de contorno. Supóngase una solución de la forma V (x, t) = k(t)x2 en donde k(t) es una función a ser determinada. Se tendrá ∂V = 2k(t)x ∂x ∂V = k̇x2 ∂t Por tanto la ecuación de Hamilton-Jacobi-Bellman se convierte en 1 k̇x2 + x2 − (4k 2 x2 ) = 0 4 es decir k̇ + 1 − k 2 = 0 De V (T ) = 0 se tiene k(T ) = 0. La solución es k(t) = tanh(T − t) y, por tanto, u∗ = − tanh(T − t)x(t) 17.2.1 Relación entre la programación dinámica y la formulación Hamiltoniana del problema de control óptimo Recordemos la ecuación de Hamilton-Jacobi-Bellman " # ∂V ∂V (x, t) + min L(x, u, t) + f (x, u, t) = 0 u(t) ∂t ∂x (17.31) Si V es suficientemente diferenciable y suponiendo que el mı́nimo se alcanza en un punto interior a U, la expresión anterior es equivalente a ∂V L(x, u, t) + f (x, u, t) = 0 ∂x ∂L ∂V ∂f + =0 ∂u ∂x ∂u Principio de optimalidad de Bellman 434 La segunda de estas expresiones caracteriza la ley u(x, t) que minimiza al hamiltoniano. En tal caso la primera de ella equivale a (17.31). ∂V Interesa calcular cómo evoluciona el vector a lo largo de una trayectoria ∂t óptima. Derivando con respecto al tiempo se tiene d ∂V ∂ 2V ∂ 2V = + 2 f (x, u) dt ∂t ∂t∂x ∂ x (17.32) Por otra parte, derivando (17.2.1) con relación a x se obtiene d ∂V ∂ 2V ∂2V ∂L ∂L ∂u ∂f ∂V ∂V ∂f ∂u = + 2 f (x, u) + + + + =0 dt ∂t ∂t∂x ∂ x ∂x ∂u ∂x ∂x ∂x ∂x ∂x ∂x de donde, teniendo en cuenta (17.2.1) y (17.32), se llega a d ∂V ∂f ∂V ∂L =− − dt ∂t ∂x ∂x ∂x Esta expresión es precisamente la ecuación adjunta o de coestado del método de Hamilton. Por tanto, a lo largo de una trayectoria óptima se puede identificar ∂V = λ(t) ∂t con lo que se pone de manifiesto la equivalencia de ambos planteamientos. Esta equivalencia resulta más notable cuando se tiene en cuenta la diferencia de planteamientos de los que se ha partido. 17.3 Control de sistemas dinámicos lineales con criterio cuadrático 17.3.1 Breve reseña histórica El problema del control lineal cuadrático tiene su origen en el trabajo de Norbert Wiener sobre filtrado cuadrático medio para el control de cañones antiaéreos durante la Segunda Guerra Mundial. Wiener empleó métodos basados en el dominio de la frecuencia para resolver este problema. Sin embargo aportó como novedad importante un desarrollo teórico que permitı́a un método analı́tico para resolver el problema de diseño. Este plantemiento analı́tico contrastaba con los métodos Principio de optimalidad de Bellman 435 de ensayos sucesivos con métodos gráficos, basados en el criterio de estabilidad de Niquyst, que entonces se empleaba. El método de Wiener permitı́a además tener en cuenta cuestiones tales como los ruidos de medida y otras perturbaciones de carácter aleatorio. Las ideas de Wiener fueron realaboradas durante los años 50 empleando la descripción interna de los sistemas y condujeron a lo que hoy se conoce como la teorı́a del control lineal cuadrático, que va a ser el objeto de lo que sigue y de los capı́tulos siguientes. De acuerdo con esta teorı́a el objetivo de un sistema de control es el minimizar un ı́ndice de funcionamiento cuadrático. Se trata de mantener a este sistema en un estado lo más cercano al de reposo x = 0. El costo correspondiente a las desviaciones del estado de reposo se expresa por J1 = Z T 0 xT Qxdt + xT (T )Sx(T ) sujeto a las restricciones que representan un sistema lineal ẋ = Ax + Bu Lo que recibe la denominación de problema del regulador lineal cuadrático o problema LQR (acrónimo de Linear Quadratic Regulator). Su solución, como veremos luego, se reduce a la de una ecuación diferencial de Ricatti. Durante el perı́odo 1.960-70 se desarrollaron muchos estudios teóricos sobre este problema. Las ventajas que presenta la solución de este problema sobre las técnicas de diseño clásicas son las siguientes: • Permite la optimización para intervalos de tiempo finito (los métodos en el dominio de la frecuencia de Wiener estaban limitados a intervalos de optimización infinitos); • son aplicables a sistemas que varı́an con el tiempo (los métodos en el dominio de la frecuencia están limitados a sistemas invariantes en el tiempo); y • permiten abordar de forma relativamente simple el problema de los sistemas multivariables. Sin embargo,la teorı́a LQR no aborda dos cuestiones muy importantes que aparecen en el diseño de sistemas de control realimentados: la falta de precisión en el modelo de la planta y los ruidos en los sensores. Además, la teorı́a LQR presupone el conocimiento del estado del sistema que, como ya se puso de manifiesto cuando se postuló la necesidad de los observadores, es frecuente que no esté Principio de optimalidad de Bellman 436 disponible. Como veremos en el capı́tulo siguiente, el problema lineal-cuadrático con perturbaciones aleatorias se reduce a la solución de dos ecuaciones de Riccatti desacopladas, ya que se puede demostrar que es posible separar este problema en dos: el problema del control óptimo con realimentación del estado, tal como se aborda en la teorı́a LQR y el problema de la estimación del estado. Esta separación puede justificar teoricamente en el caso de que las perturbaciones estocásticas sean gausianas, por lo que el problema lineal cuadrático estocástico se conoce comúnmente como el problema lineal-cuadrático-gausiano (LQG). 17.3.2 Problema LQR Sea un sistema dinámico lineal descrito por ẋ = Ax + Bu (17.33) Se trata de mantener a este sistema en un estado lo más cercano al de reposo x = 0. El costo correspondiente a las desviaciones del estado de reposo se expresa por Z J1 = T 0 xT Qxdt + xT (T )Sx(T ) (17.34) Por otra parte, el costo de la aplicación de una señal de mando u viene dado por J2 = Z T 0 uT Rudt (17.35) Las matrices Q y S son matrices semidefinidas positivas, y la matriz R es definida positiva. El problema consiste en determinar la señal u que debe aplicarse en cada instante para que el costo total J1 +J2 sea mı́nimo. Es decir, se trata de minimizar el funcional Z T J= [xT Qx + uT Ru]dt + xT (T )Sx(T ) (17.36) 0 Se supone que T está fijado de antemano, y que el estado final es libre. Q y R son matrices simétricas que representan los costes de la desviación del estado y del esfuerzo de control respectivamente. En la mayorı́a de las aplicaciones serán matrices diagonales, por lo que la funcionales J1 y J2 adoptarán normalmente la forma: J1 = Z T 0 (q1 x21 + q2 x22 + · · · + qn x2n ) dt Principio de optimalidad de Bellman J2 = Z T 0 437 (r1 u21 + r2 u22 + · · · + rm u2m ) dt para un sistema con n variables de estado y m señales de entrada. Si el sistema posee una sóla entrada, entonces la matriz R se convierte en un escalar, como es el caso de la planta que nos ocupa. Por último, pueden existir términos de control terminal, que deberán ser de la forma: xT (T )Sx(T ) siendo S una matriz simétrica. La hamiltoniana correspondiente a este problema es ∂V T H = x Qx + u Ru + (Ax + Bu) ∂x T T Haciendo (17.37) ∂H =0 ∂u se obtiene ∂V + 2Ru = 0 ∂x (17.38) 1 ∂V u∗ = − R−1 B T 2 ∂x (17.39) BT por lo tanto u∗ (x, t) está dado por Llevando este valor de u∗ a la hamiltoniana se tiene la hamiltoniana minimizada que resulta ser, H ∗ = xT Qx + ∂V T 1 ∂V T ∂V Ax − BR−1 B T ∂x 4 ∂x ∂x (17.40) La ecuación de Hamilton-Jacobi-Bellman correspondiente es ∂V ∂V ∂V 1 ∂V T + Ax − BR−1 B T + xT Qx = O ∂t ∂x 4 ∂x ∂x (17.41) con la condición de contorno V (x, T ) = xT Sx (17.42) Para la integración de (17.41) es razonable adoptar (como ya se hizo, con buenos resultados, en el ejemplo 1) una función de la forma: V (x, t) = xT P (t)x (17.43) Principio de optimalidad de Bellman 438 siendo P (t) una matriz real simétrica. Llevando (17.43) a la ecuación de HamiltonJacobi-Bellman (17.41) se tiene: xT Ṗ x + 2xT P Ax − xT P BR−1 B T P x + xT Qx = 0 o lo que es lo mismo ³ ´ xT Ṗ + 2P A − P BR−1 B T P + Q x = 0 (17.44) La matriz entre paréntesis no es simétrica, puesto que P A no lo es. Se sabe que toda matriz M puede escribirse: M = Ms + Ma (17.45) en donde Ms es simétrica (es decir, Ms = MsT ) y Ma es antisimétrica (es decir, Ma = −MaT ). Para demostrar (17.45) basta sumar y restar M T /2 a M , con lo que se tiene M MT M MT M= + + − 2 2 2 2 y comprobar que M MT Ms = + 2 2 es simétrica y M MT Ma = − 2 2 antisimétrica. De (17.45) se tiene que xT M x = xT Ms x + xT Ma x (17.46) Pero, puesto que (17.46) es un escalar, y xT Ma x = xT MaT x = −xT Ma x se tendrá que xT M x = xT Ms x Lo que equivale a decir que la matriz M asociada a una forma cuadrática puede escojerse simétrica. Además, sabemos que la parte simétrica de una matriz M viene dada por: Ms = M + MT 2 Principio de optimalidad de Bellman 439 Por tanto, toda forma cuadrática xT M x puede escribirse: xT M s x = xT M + MT x 2 Aplicando estas consideraciones a (17.44), para el caso M = P A, se llega a la siguiente ecuación: Ṗ + AT P + P A − P BR−1 B T P + Q = 0 (17.47) P (T ) = S que recibe la denominación de ecuación de Riccati. La resolución de esta ecuación permite obtener P (t), o, lo que es lo mismo V (x, t) = xT P (t)x La ecuación (17.47) es simétrica, como también lo es la matriz S que define las condiciones de contorno, por lo que también lo será la solución P (t). Esta simetrı́a sirve para simplificar el cálculo de P (t). En efecto, a primera vista puede parecer que la expresión (17.47) representa un conjunto de n2 ecuaciones diferenciales, ya que P (t) es una matriz n × n. Sin embargo, debido a la simetrı́a de P (t) el número de ecuaciones es en realidad de n(n + 1)/2. Otra propiedad importante de P (t) es su carácter definido positivo. Ello se debe a que para todo u(t) 6= 0 el valor de J (el coste del proceso) debe ser positivo, y por tanto ası́ debe ser V (x, t) = xT P (t)x, lo que impone el carácter definido positivo de P (t). Una vez determinado V (x, t) se procede a determinar la ley de control óptima, que resulta ser: 1 ∂V u∗ (x, t) = R−1 B T = −R−1 B T P x (17.48) 2 ∂x El resultado ha sido pues, una ley de control lineal, que se ha obtenido a partir de la imposición de un criterio de mı́nima varianza en las variables de estado y en el esfuerzo de control. Para encontrar la solución de la ecuación de Riccati será necesario imponer condiciones de contorno en P , que se obtendrán de los términos de control terminal: • Si J posee términos de control terminal, entonces P (T ) = S. • Si no existen dichos términos, entonces P (T ) = 0. Principio de optimalidad de Bellman 440 Un caso especialmente interesante es aquel en que T tienda a ∞. Entonces se dice que el problema tiene horizonte infinito. En tal caso, la matriz P se convierte en constante. En efecto, para cualquier par de instantes iniciales t1 y t2 , los valores tomados por V (x, t1 ) y V (x, t2 ) son iguales. Esto último es evidente ya que tanto el sistema como el ı́ndice de funcionamiento son invariantes en el tiempo, y por consiguiente una traslación finita en la escala de tiempos no debe afectar al problema (nos va a costar tanto llegar al infinito desde ahora que desde dentro de media hoira). Por tanto, la matriz P es constante. La matriz P puede determinarse resolviendo la siguiente ecuación AT P + P A − P BR−1 B T P + Q = 0 (17.49) la cual se obtiene de la expresión (17.47), haciendo Ṗ = 0. Esta ecuación recibe la denominación de ecuación de Riccati degenerada. La solución de la ecuación (17.49) no es única ya que es una ecuación del segundo grado en P . Sin embargo, si se impone la condición de que P sea definida positiva, entonces la solución es única. Tendremos, por tanto, una regulación mediante realimentación de variables de estado, con una ley de control lineal y constante en el tiempo. u = Kc x siendo Kc = −R−1 B T P (17.50) Debe observarse en las expresiones anteriores que la ley de control óptimo que se ha determinado es una ley de control lineal. Este es un resultado que ya se habı́a obtenido, a partir de otros supuestos, al estudiar el control de sistemas lineales para su estabilización. La estructura que se obtiene aquı́, que es la que se representa en la figura 17.9, es la misma que se encontró allı́. Esta identidad de estructuras constituye uno de los puntos más sobresalientes de la moderna teorı́a del control. Ejemplo 2 Ejemplo Supóngase el sistema dinámico ẋ = u Principio de optimalidad de Bellman y el criterio a minimizar J= 441 Z T 0 (x2 + u2 )dt De acuerdo con ello tiene que A = S = [0] B = Q = R = [1] Por lo que la ecuación de Ricati que debe resolverse es Ṗ + 1 − P 2 = 0 P (T ) = 0 Esta ecuación diferencial puede resolverse por separación de variables. Su solución es 1 − e−2(T −t) P (t) = 1 + e−2(T −t) Por lo que la ley de control óptima resulta ser u∗ = −P (t)x(t) Ejemplo 3 Determinar los coeficientes de la ley de control para el sistema ẋ = −3x + u siendo J= Z ∞ 0 (x2 + 0.1u2 )dt Por tanto, se tiene A = −3 B = 1 Q = 1 R = 0.1 luego la ecuación de Ricatti es −6P − 10P 2 + 1 = 0 y, en consecuencia, P = 0.1359 Por otra parte, Kc = −P = −1.359 0.1 luego u = −1.359x Principio de optimalidad de Bellman 442 Ejemplo 3 Determinar los coeficientes de la ley de Control para el sistema " 0 1 −2 −1 ẋ = si J= " T A P = " PA = Z ∞ 0 P BR " x+ 0 2 # u (x21 + u2 )dt −2p12 −2p22 p11 − p12 p12 − p22 −2p12 p11 − p12 −2p22 p12 − p22 " −1 # T B P = " Q= # # 4p212 4p12 p22 4p12 p22 4p222 1 0 0 0 # # La ecuación de Riccati AT P + P A − P B R−1 B T P + Q = 0 da lugar a tres ecuaciones, −2p12 − 2p12 − 4p212 + 1 = 0 (17.51) −2p22 + p11 − p12 − 412 p22 = 0 (17.52) 2(p12 − p22 ) − 4p222 = 0 (17.53) De (17.51) se tiene 4p212 + 4p12 − 1 = 0 cuya única solución positiva es p12 = 0.20710 llevada a (17.53) se tiene 4p222 + 2p22 − 2p12 = 0 cuya única solución positiva es p22 = 0.15311 Principio de optimalidad de Bellman 443 Eliminando p11 de (17.52) se tiene, p11 = 4p12 p22 + 2p22 + p12 = 0.64016 Por tanto, " P = 0.64016 0.20710 0.20710 0.15311 # Kc = R−1 B T P = [0.41420 0.30622] " u = −[0.41420 0.306322] u ẋ B R x1 x2 x # C y A −R−1 B T P Figura 17.9: Estructura de control de un sistema lineal con criterio cuadrático Una notable propiedad que tiene el sistema de control representado en la figura 17.9 es que es estable. En efecto, el sistema en bucle cerrado que resulta de aplicar la ley de control (17.48) viene dado por: ẋ = (A + BKc )x (17.54) ecuación que rige la evolución del estado en bucle cerrado. Es fácil ver que la función V (x) = xT P x (17.55) es una función de Liapunov para este sistema. En efecto, en primer lugar se tiene que puesto que P es definida positiva, V (x) lo será a su vez. Por otra parte se tiene que dV = (ẋT P x + xT P ẋ) (17.56) dt Principio de optimalidad de Bellman 444 teniendo presente las expresiones (17.54) y (17.49) se tiene dV = −xT (Q + P BR−1 B T P )x dt (17.57) es decir que dV /dt < 0 para todo x. Es decir V (x) cumple las propiedades que definen una función de Liapunov y, por lo tanto, el sistema es estable. Puesto que P BR−1 B T P es definida no negativa entonces para que dV /dt < 0 la matriz Q tiene que ser definida positiva. Es decir, si Q es definida positiva entonces la estabilidad asintótica está garantizada. La aplicación del anterior resultado requiere algunas matizaciones. En particular, conviene resaltar el hecho de que se requiere que Q sea positiva definida. Considérese el sistema ẋ = x + u con el ı́ndice de funcionamiento 1Z ∞ 2 J= u dt 2 0 (17.58) En este ı́ndice de funcionamiento conviene observar que no existen términos en x (en tal caso es evidente que Q = 0 por lo que Q no es positiva definida, sino definida no negativa). Quiere ello decir que se pondera únicamente el coste de actuación y no el coste de comportamiento. Este tipo de situación no es común en las aplicaciones. No obstante, y a los efectos formales que aquı́ interesan, vamos a continuar analizando este ejemplo. La solución óptima existe y es obviamente u∗ = 0. Lo cual quiere decir que en un sistema en el que lo único que se penaliza es el coste de actuación, y no se establecen especificaciones respecto al funcionamiento, lo mejor es no hacer nada. Pero siguiendo con los aspectos formales sucede que aplicando esa señal (o ley) de control el sistema en bucle cerrado resulta ser ẋ = x que es inestable. Esta inestabilidad es debida a que la trayectoria inestable et no contribuye al ı́ndice de funcionamiento. Es decir, no se manifiesta en (17.58). Se puede decir que los estados inestables no son observados por el ı́ndice de funcionamiento. Ello es debido aunque el sistema es controlable, no es ni observable ni detectable, ya que el modo inestable et no es observable. Conviene recordar que un sistema se dice detectable si los modos inestables son observables. Si todas las trayectorias, o al menos las inestables, son detectadas en la parte xT Qx del integrando del ı́ndice de funcionamiento, entonces la estabilidad asintótica del sistema de control óptimo realimentado queda a garantizar, ya que si algunas de estas variables de estado no convergen a cero el coste óptimo Principio de optimalidad de Bellman 445 J ∗ serı́a infinito. Todas las trayectorias del sistema se detectarán en xT Qx si Q es definida positiva. Por tanto el caracter definido positivo de Q es una condición suficiente para la estabilidad asintótica del regulador óptimo. Es posible, sin embargo, encontrar una condición menos restrictiva. Supongamos que Q es simplemente definida no negativa (lo que no es extraño en la práctica, como se verá en el ejemplo más abajo). La propiedad de estabilidad asintótica del sistema en bucle cerrado se conservará si todas las trayectorias se detectan en la parte xT Qx del integrando del ı́ndice de funcionamiento. Este recibimiento se cumple si el par (A, D) es completamente observable, en donde D es cualquier matriz tal que DT D = Q. Para que el sistema sea estable se rquiere que V̇ ≤ 0, estando V̇ dado por la ecuación (17.57). Supóngase que V̇ es idénticamente nulo a lo largo de una trayectoria que se inicia en un estado inicial no nulo x(0). Entonces xT Qx y xT P BR−1 B T P x son idénticamente nulos y −R−1 B T P x, el control óptimo para el sistema en bucle cerrado, es también idénticamente nulo. Por consiguiente, las trayectorias del sistema en bucle cerrado son las mismas que las del sistema en bucle abierto, que están dadas por x(t) = eAt x(0) ahora bien T xT Qx = xT (0)eA t QeAt x(0) T = xT (0)eA t DT DeAt x(0) debe ser idénticamente nulo. Esto contradice la hipótesis de que el par (A, D) es completamente observable, ya que la observabilidad de (A, D) implica que DeAt x(0) para algún t ∈ [0, ∞) si y sólo si x(0) = 0. En consecuencia es imposible tener V̇ idénticamente nulo a lo largo de una trayectoria que se inicie en un estado no nulo. Con ello queda garantizada la estabilidad asintótica del sistema en bucle cerrado para este caso. Se define la salida sintética como y = Dx (17.59) La observabilidad del par (A, D) implica que el sistema dado por las ecuaciones (17.33) y (17.59) es completamente observable. Principio de optimalidad de Bellman 446 Ejemplo Sea el sistema " ẋ = 0 1 0 0 # " x+ 0 1 # u que se pretende que minimice el ı́ndice de funcionamiento J= En este caso se tiene " A= 0 1 0 0 # Z ∞ 0 " B= 0 1 (x21 + u2 )dt # " Q= 1 0 0 0 # R = [2] La matriz D es tal que DT D = Q siendo h √ i D= 2 0 Es inmediato comprobar que (A, D) es observable. En consecuencia el sistema óptimo en bucle cerrado será asintóticamente estable. En efecto, resolviendo la correspondiente ecuación de Riccati tiene que # " √ 2 2 √ 2 P = 2 2 2 de modo que la ley de control viene dada por " √ #" # √ 1 2 2 2 x 1 √ u∗ (t) = − [0 1] = −x1 − 2x2 x2 2 2 2 2 que se puede comprobar que efectivamente da lugar a un sistema estable. 17.4 Ecuación de Riccati en el dominio de la frecuencia Vamos a modificar seguidamente la ecuación de Riccati, de forma que los resultados que ésta nos proporcione sean expresiones en términos de función de transferencia. Este planteamiento es totalmente análogo a la forma en que la hemos utilizado anteriormente, y los resultados a los que conduce son equivalentes. Principio de optimalidad de Bellman 447 Sea el sistema ẋ(t) = Ax(t) + Bu(t) dónde u es de dimensión 1, sometido al criterio de funcionamiento: J= Z ∞ 0 (xT Qx + ru2 )dt Suponemos r = 1 sin pérdida de generalidad, ya que podemos englobarlo en los coeficientes de Q. La solución a este problema es una ley de control lineal dada por: u = −kc x siendo kc = B T P (17.60) P se obtiene de la ecuación de Riccati: AT P + P A − P BR−1 B T P + Q = 0 Reordenando esta ecuación y teniendo en cuenta que R = 1: −P A − AT P = Q − P BB T P Sumando y restando P s al primer miembro se tiene: P (sI − A) + (−sI − AT )P = Q − P BB T P Recordando la matriz de transición entre estados Φ(s) = (sI −A)−1 y la expresión (17.60) se tiene: P Φ−1 (s) + (ΦT )−1 (−s)P = Q − kcT kc Premultiplicando por B T ΦT (−s) y postmultiplicando por Φ(s)B: B T ΦT (−s)P Φ−1 (s)Φ(s) B + B T ΦT (−s)(ΦT )−1 (−s) P Φ(s)B = | B T ΦT (−s)[Q − {z } | {z I T kc kc ]Φ(s)B } I T B T ΦT (−s) P B +B |{z} | {zP} Φ(s)B = kcT kc B T ΦT (−s)QΦ(s)B − B T ΦT (−s)kcT kc Φ(s)B La función de transferencia en bucle abierto cuando se aplica la ley de control (figura 17.10) es G(s) = kc Φ(s)B = B T ΦT (s)kcT , luego tenemos: G(−s) + G(s) = B T ΦT (−s)QΦ(s)B − G(−s)G(s) Principio de optimalidad de Bellman B 448 Φ(s) K Figura 17.10: Bucle abierto con realimentación del estado. que se puede reescribir de la forma: [1 + G(s)][1 + G(−s)] = 1 + B T ΦT (−s)QΦ(s)B (17.61) Definimos: F (s) ≡ 1 + G(s). F (s) se conoce como la función de diferencia del retorno. Ahora supongamos el segundo miembro factorizado de la forma: 1 + B T ΦT (−s)QΦ(s)B = ∆(s)∆(−s) (17.62) entonces: F (s)F (−s) = ∆(s)∆(−s) y por tanto: F (s) = ∆(s) llegamos a la expresión que nos da la función de transferencia del sistema con la realimentación de las variables de estado: G(s) = ∆(s) − 1 Debe observarse que mediante la factorización (17.62) se resuelve la ecuación de Riccati, aunque lo que se obtiene ahora es G(s), lo cual es equivalente a determinar kc , ya que ambas vienen relacionadas por la expresión G(s) = kc ΦB. Por tanto, la factorización (17.62) equivale a la resolución de la ecuación de Riccati. Con otras palabras, la factorización (17.62) permite resolver la ecuación de Riccati en el dominio de Laplace. Ejemplo En este ejemplo se va a mostrar el empleo de la ecuación de Riccati en el dominio de la frecuencia para la determinación de la ley de control. Sea el sistema ẋ = −x + u Principio de optimalidad de Bellman y el criterio J= 449 Z ∞ 0 (3x2 + u2 )dt En primer lugar el problema se va a resolver mediante la ecuación de Riccati, tal como se ha visto en la sección anterior. Para este problema se tiene que A = −1 B = 1 Q = 3 R = 1 por lo que la ecuación de Riccati correspondiente resulta ser −p − p − p2 + 3 = 0 es decir, p2 + 2p − 3 = 0 cuyas soluciones son p1,2 = 1, −3, por lo que la constante de la ley de control resulta ser k = 1. Vamos ahora a resolver el problema mediante la ecuación de Riccati en el dominio de la frecuencia. En primer lugar, se tiene que para este problema Φ(s) = 1 s+1 por lo que el primer miembro de la expresión (17.62) tomará la forma 1 + B T ΦT (−s)QΦ(s)B = 1 + 3 3 + (1 − s)(1 + s) = (1 − s)(1 + s) (1 − s)(1 + s) cuyo numerador se puede escribir 3 + (1 − s)(1 + s) = 4 − s2 = (2 − s)(2 + s) y por tanto (2 − s)(2 + s) = ∆(s)∆(−s) (1 − s)(1 + s) es decir ∆(s) = 2+s 1+s En consecuencia 2+s 1 −1= 1+s s+1 por lo que se obtiene el mismo valor para k que se obtuvo anteriormente. G(s) = ∆(s) − 1 = Conviene observar que aunque en este ejemplo, al ser de dimensión uno, el segundo método empleado aparentemente es más laborioso que el primero, no Principio de optimalidad de Bellman 450 sucede lo mismo para sistemas de dimensión mayor, por lo que el segundo método es el habitualmente empleado para determinar la ley de control, ya que para el único problema para el que se requieren métodos numéricos elaborados que es la factorización, se dispone de soluciones informáticamente deficientes. 2 Por otra parte, de la expresión (17.61) se deduce que los reguladores LQR presentan una robustez excelente. En efecto, si factorizamos Q de la forma Q = H T H y hacemos s = jω en (17.61) se obtiene: k1 + G(jω)k2 = 1 + kHΦ(jω)Bk2 de donde: k1 + G(jω)k > 1 Si interpretamos esta condición en el plano polar, la curva de G(jω) no puede entrar dentro de un circulo de centro −1 y radio 1, por lo que aseguramos un margen de fase mayor de 60 grados y un margen de ganancia infinito. 17.5 Resolución del problema LQR La solución dada al problema del control óptimo con criterio cuadrático de un sistema lineal. Este problema tiene un importante interés tanto teórico como práctico, ya que, como se ha visto posee las tres notables propiedades siguientes: • La adopción de la estructura de realimentación viene determinada por la solución del problema, y no por un presupuesto previo (como sucede en los métodos clásicos y en los de variables de estado). • La estabilidad del sistema en bucle cerrado está garantizada. • La robustez del sistema también está garantizada por el amplio margen de fase que posee. El problema LQR, tal como ha sido resuelto, supone que todas las variables de estado son accesibles. Esto no siempre es ası́ y cuando no lo son hay que proceder, al menos, a estimarlas. Es lo que se hace con los métodos que veremos en el próximo tema. Principio de optimalidad de Bellman 451 Resumen del problema lqr Se da el sistema ẋ(t) = Ax(t) + Bu(t) y el criterio de funcionamiento J= Ley de control ptima u∗ (t) = Kc x(t) siendo Kc = −R−1 B T P Ecuacin de Riccati AT P + P A − P BR−1 B T P + Q = 0 Valor optimo de J J ∗ = 12 xT (t)P x(t) R∞ 0 [xT Qx + uT Ru]dt + xT (T )Sx(T ) Tema 18 Estimación del estado 18.1 Noción de señal aleatoria Se define una variable aleatoria como aquella que, como resultado de un ensayo, toma un cierto valor imprevisible exactamente y dentro de un conjunto de valores permitidos. Para caracterizar completamente una variable aleatoria es necesario definir el conjunto de valores posibles, ası́ como la probabilidad de cada uno de ellos. Esta caracterı́stica reciben el nombre de ley de distribución. Estos conceptos se suponen conocidos y se recuerdan aquı́ a tı́tulo de revisión. Supóngase una variable aleatoria que varı́a con el tiempo, como, por ejemplo, el error de medida de una cierta magnitud que se dibuja continuamente en un registrador gráfico. El resultado de una prueba o ensayo es una medida que es función del tiempo. Una variable aleatoria de ésta naturaleza se llama una señal aleatoria o proceso estocástico. Una señal aleatoria se define, en consecuencia, como una variable función del tiempo, tal que, para cada valor del argumento, o para cada conjunto de valores, se comporta como una variable aleatoria (18.1). Para un cierto valor de t, el valor de la señal aleatoria x(t) es una variable aleatoria, para la que se puede definir una ley de distribución. Estas leyes de distribución reciben el nombre de distribuciones unidimensionales y se especifican por medio de la función de densidad de probabilidad unidimensional p1 (x; t), que en principio depende de t. 452 Estimación del estado 453 0 t1 t t1 t 0 0 t1 t Figura 18.1: Señal aleatoria De la misma manera y teniendo presente dos instantes de tiempo t1 y t2 se definen las distribuciones bidimensionales y la correspondiente función de densidad de probabilidad p2 (x1 , x2 ; t1 , t2 ) Lo anterior se puede generalizar para n instantes de tiempo, en cuyo caso se tiene la función de densidad de probabilidad pn (x1 , ..., xn ; t1 ..., tn ). Un proceso estocástico se dice estacionario si p1 (x, t) = p1 (x) p2 (x1 , x2 ; t1 , t2 ) = p2 (x1 , x2 ; t2 − t1 ) En realidad la estacionaridad ası́ definida no es la más general que cabe concebir pero sin embargo es suficiente a los efectos aquı́ interesan. Para un proceso estacionario sus caracterı́sticas estadı́sticas son invariantes por traslación temporal. 18.1.1 Descripción estadı́stica de las señales aleatorias Las caracterı́sticas de una señal aleatoria que aquı́ se van a considerar son su media, su covarianza y su función de autocorrelación. La media se define como mx (t) = E[x(t)] = Z ∞ ∞ xp1 (x; t)dx (18.1) en donde E representa la esperanza matemática. Si el proceso es estacionario su media permanece constante al variar el tiempo; es decir, se tiene E[x(t)] = mx constante. La media de un proceso estacionario se puede también definir como 1 ZT mx = lim xdt T →∞ 2T −T (18.2) Estimación del estado 454 Si (18.1) y (18.2) conducen al mismo resultado el proceso se llama ergódico. En lo que sigue los procesos que se considerarán serán ergódicos. Se define la covarianza de una señal aleatoria x(t) como: E[(x(t) − mx (t))(x(τ ) − mx (τ ))] = Z ∞ Z ∞ −∞ −∞ (x1 (t) − mx (t))(x2 (τ ) − mx (τ ))p(x1 , x2 ; t, τ )dx1 dx2 Por último, la función de autocorrelación se define como E[x(t)x(τ )] = Z ∞ Z ∞ −∞ −∞ x1 (t)x2 (τ )p(x1 , x2 ; t, τ )dx1 dx2 para procesos estacionarios la función de autocorrelación se reduce a 1 ZT x(t)x(t + τ )dτ E[x(t)x(t + τ )] = φxx (τ ) = lim t→∞ 2T T Ejemplo Sea la señal aleatoria definida por las siguientes propiedades. 1. Solo toma dos valores +a y −a 2. Permanece en uno de éstos valores durante un tiempo pasado el cual cambia 1 al otro o permanecen en aquel con probabilidad . 2 El aspecto de esta señal x(t) es la de la figura 18.2. La media de ésta señal es E[x(t)] = 0. Para determinar la función de autocorrelación se procede en dos pasos. 1. | τ |> θ En tal caso es evidente que φxx = 0. T− | τ | , las T señales x(t) y x(t + τ ) toman el mismo valor, y por lo tanto su producto es igual a2 . 2. | τ | θ Se ve en la figura que durante una fracción de tiempo Durante el resto del periodo, es decir durante una fracción de tiempo producto toma el valor +a2 ó −a2 , con probabilidad 12 . τ , T el Estimación del estado 455 x(t) −γ a) +1 0 γ 2γ 3γ t -1 Rxx (τ ) −γ 1 0 γ τ b) Figura 18.2: Señal aleatoria binaria De lo anterior se deduce E[x(t)x(t + τ )] = a2 T− | τ | |τ | |τ | + a2 − a2 T 2T 2T es decir à φxx (τ ) = a 2 |τ | 1− T ! Esta señal constituye una aproximación a una señal de gran interés, que es la señal blanca, que por definición es aquella cuya función de autocorrelación es un impulso de Dirac, es decir, φbb = Aδ(t) Esta señal no se presenta nunca en la práctica con las propiedades teóricamente exigidas. Sólo se tienen aproximaciones de las cuales la señal binaria considerada constituye una de las más interesantes. Una propiedad interesante de la función de autocorrelación de un proceso estacionario es φxx (τ ) = φxx (−τ ) Interesa definir también la función de la intercorrelación, o de correlación cruzada, entre dos señales aleatorias: 1 ZT x(t)y(t + τ )dt E[x(t)y(t + τ )] = φxy (τ ) = lim t→∞ 2T −T Estimación del estado 18.2 456 Transmisión de señales aleatorias a través de sistemas lineales: descripción interna Vamos a estudiar en esta sección el comportamiento de la salida de un sistema lineal, cuando es excitado con una señal aleatoria, cuya descripción estadı́stica es conocida. Sea el sistema dinámico lineal ẋ(t) = Ax(t) + Bw(t) (18.3) excitado por un ruido blanco estacionario w(t) de caracterı́sticas E[w(t)] = 0 E[w(t)wT (τ )] = Qδ(t − τ ) tal que Q ≥ 0. Q recibe también la denominación de intensidad del ruido. Las condiciones iniciales vienen especificadas mediante un vector aleatorio gausiano x(t0 ), independiente de w(t) y con media x̄0 y covarianza P0 ; es decir: E[x(t0 )] = x̄0 (18.4) E[(x(t0 ) − x̄0 )(x(t0 ) − x̄0 )T ] = P0 (18.5) T E[x(t0 )w (t)] = 0 ∀t (18.6) La trayectoria de x(t), de acuerdo con (18.3), viene dada por: x(t) = Φ(t)x(t0 ) + Z t t0 Φ(t − τ )Bw(τ )dτ (18.7) Por tanto, se tiene que la evolución de la media de x(t) vendrá dada por: E[x(t)] = E[Φ(t)x(t0 )] + E = Φ(t)E[x(t0 )] + ·Z t Z t t0 t0 ¸ Φ(t − τ )Bw(τ )dτ Φ(t − τ )BE[w(τ )]dτ = Φ(t)x̄0 (18.8) Por otra parte, para determinar la matriz de covarianza del vector x(t) vamos a estudiar, en primer lugar la evolución de: P 0 (t) = E[x(t)xT (t)] Derivando esta expresión con relación al tiempo se obtiene: Ṗ 0 (t) = E[ẋ(t)xT (t) + x(t)ẋT (t)] (18.9) Estimación del estado 457 Recordando (18.3) se tiene: Ṗ 0 (t) = E[Ax(t)xT (t) + Bw(t)xT (t) + x(t)xT (t)AT + x(t)wT (t)B T ] = AP 0 (t) + P 0 (t)AT + E[Bw(t)xT (t) + x(t)wT (t)B T ] Y recordando, a su vez, (18.7), se tiene: Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT " µ + E Bw(t) Φ(t)x(t0 ) + ·µ + E Φ(t)x(t0 ) + Z t t0 Z t t0 ¶T # Φ(t − τ )Bw(τ )dτ ¸ ¶ T Φ(t − τ )Bw(τ )dτ w (t)B T Conmutando el operador esperanza matemática y la integración se tiene: Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT + BE[w(t)xT (t0 )]ΦT (t) Z t + t0 BE[w(t)wT (τ )]B T ΦT (t − τ )dτ + Φ(t)BE[x(t0 )wT (τ )]B T Z t + t0 Φ(t − τ )BE[w(τ )wT (t)]B T dτ Teniendo en cuenta las caracterı́sticas de las señales w(t) y x(t) la anterior expresión conduce a: Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT + BE[w(t)xT (t0 )]ΦT (t) + Z t t0 BQδ(t − τ )B T ΦT (t − τ )dτ (18.10) + Φ(t)BE[x(t0 )wT (t)]B T + Z t t0 Φ(t − τ )BQδ(τ − t)B T dτ = AP 0 (t) + P 0 (t)AT + BQB T (18.11) (18.12) Para el paso de (18.11) a (18.12) hay que tener presente, por una parte que los términos segundo y cuarto se anulan de acuerdo con (18.6). Por otra parte, por lo que respecta a los términos tercero y quinto, hay que tener presente que la función δ aquı́ es simétrica y que Φ(0) = I. La función δ simétrica tiene las siguientes propiedades: • δ(t − τ ) = δ(τ − t) Estimación del estado • Rb a 458 ( f (τ )δ(τ − t)dτ = 0 f (t) si t < a o si t > b si a < t < b En tal caso, si el valor de t coincide con uno de los lı́mites de integración, por ejemplo t = b, se tiene que Z b f (b) 2 a puesto que el área unidad que cubre la función δ se distribuye la mitad a la derecha de t = τ y la otra mitad a su izquierda. Obsérvese que de acuerdo con los lı́mites de integración, los miembros tercero y quinto de (18.11) aportan solo 1/2. f (τ )δ(τ − b)dτ = La ecuación (18.12) tiene las condiciones iniciales: P 0 (t0 ) = E[x(t0 )xT (t0 )] A partir de los resultados anteriores es posible determinar la evolución de la matriz de covarianza: P (t) = E[(x(t) − x̄(t))(x(t) − x̄T (t))] (18.13) En efecto, definiendo x̃(t) = x(t) − x̄(t) (es decir, x̃ es la diferencia entre el valor de la variable x y su media) la evolución de x̃ viene dada por dx̃ = Ax̃ + Bw(t) dt ya que la de x(t) se rige por (18.3) y la de x̄T (t) por x̄T˙(t) = Ax̄T (t). Por tanto, la expresión (18.13) tiene la misma forma que la (18.9), y la ecuación de evolución de x̃ es idéntica a (18.3). En consecuencia P (t) satisface la ecuación diferencial: Ṗ (t) = AP (t) + P (t)AT + BQB T P (t0 ) = P0 (18.14) que rige la evolución de la covarianza de la salida del sistema lineal (18.3) cuando se excita con una señal aleatoria blanca de intensidad Q. 18.3 El problema de la observación: Filtro de Kalman Para poder implementar un regulador mediante una ley de control de la forma u = f (x) es necesario conocer en cada instante el valor de todas las variables Estimación del estado 459 de estado. Para estudiar la estimación del estado se adopta la misma estructura que se adopta para un observador, y que aquı́ recibe la denominación de filtro de Kalman. Para el estudio de este filtro se parte de un modelo del sistema, cuyo estado se va a estimar, mediante un sistema dinámico con perturbaciones de la forma: siguiente forma: ẋ(t) = Ax(t) + Bu(t) + w(t) y(t) = Cx(t) + v(t) (18.15) donde w(t) y v(t) son variables aleatorias correspondientes a un ruido blanco o ruido gausiano, y presentarán, por tanto, las siguientes propiedades: - E[wi (t)] = 0 para i = 1 . . . n. - E[vi (t)] = 0 con i = 1 . . . m. Es decir, su media es nula para cada instante de tiempo. - E[wi (t)wj (t − τ )] = qij δ(τ ) con i, j = 1 . . . n. - E[vi (t)vj (t − τ )] = rij δ(τ ) con i, j = 1 . . . m. siendo δ(τ ) la función delta de Dirac. Es decir, E[w(t)wT (t − τ )] = Qδ(τ ) E[v(t)v T (t − τ )] = Rδ(τ ) Cada señal únicamente está correlacionada consigo mismo en el instante de producirse. Esto implica un espectro de frecuencias plano, donde no hay ninguna predominante, y cuya amplitud nos da la covarianza de la señal. Las variables v(t) y w(t) representan lo siguiente: • w(t): El sistema nunca queda perfectamente modelado, por lo que el estado alcanzado en cada instante por el modelo matemático difiere del existente en el sistema real. Con w(t) se representan las desviaciones en la evolución de los dos sistemas (el real y el modelo matemático). Estas variables también son una representación de las perturbaciones que pueden aparecer en las distintas partes del sistema real. • v(t): Modela los errores que aparecen al medir la variable de salida del sistema. Estos errores, en general, pueden ser cuantificados de manera más exacta que los anteriores. Estimación del estado 460 Para la evaluación de los estados estimados x̂ se adopta la misma estructura que para un observador, es decir: dx̂ = Ax̂ + Bu + Ko (y − C x̂) (18.16) dt donde: x̂ es la estimación del vector de estado. u es la señal de entrada al sistema. y es la salida del sistema. Ko es el vector de ganancias del filtro de Kalman. En la figura 18.3 se muestra la estructura correspondiente. Con la expresión y(t) + - ŷ(t) y(t) − ŷ(t) C Ko + u(t) B x̂˙ + R x̂ + A Figura 18.3: Filtro de Kalman (18.16), a partir de la estimación del estado x̂, de la señal de entrada u y del error en la variable de salida y − C x̂ generamos evolución de las estimaciones. Sea P (t) = E[(x̂ − x)(x̂ − x)T ] = E[x̃x̃T ] la matriz de covarianza del error de estimación x̃ = x̂ − x. El objetivo es encontrar los valores de Ko que minimicen la discrepancia entre los estados reales x y los estados estimados x̂. Esta discrepancia se mide por el valor cuadrático medio del error: J = E[x̃T x̃] = trP (t) (18.17) Estimación del estado 461 Restando la expresión (18.16) de la (18.15), y recordando que x̃ = x̂ − x, se tiene que la evolución del error x̃ viene dada por la ecuación: dx̃ = (A − Ko C)x̃ + w + Ko v dt (18.18) A partir de las caracterı́sticas de los ruidos v y w se tiene que el ruido blanco que actúa sobre el sistema lineal anterior posee la covarianza: E[(w(t) − Ko v(t))(w(τ ) − Ko v(τ ))T ] = (Q + Ko RKoT )δ(t − τ ) (18.19) De acuerdo con (18.14) la covarianza P (t) del error x̃ vendrá dada por d P (t) = (A − Ko C)P (t) + P (t)(A − Ko C)T + Q + Ko RKoT dt (18.20) Por otra parte, es inmediato que: (Ko − P C T R−1 )R(KoT − R−1 CP ) = Ko RKoT − P C T KoT − Ko CP + P C T R−1 CP Por tanto, sumando y restando P C T R−1 CP a (18.20), teniendo en cuente esta última expresión, se tiene: d P (t) = AP (t) + P (t)AT − P C T R−1 CP + Q + (Ko − P C T R−1 )R(KoT − R−1 CP ) dt (18.21) El problema del estimador óptimo puede enunciarse diciendo que se trata de determinar Ko de modo que se minimice (18.17), estando P (t) sujeto a (18.22). Es decir, el criterio a optimizar viene dado por (18.17), las ecuaciones de evolución del sistema por (18.22) y la señal a optimizar es Ko (t). Al formar la función de Hamilton del correspondiente problema de control óptimo se tiene que el único término en esta función que depende de Ko (t) es (Ko −P C T R−1 )R(KoT −R−1 CP ), por lo que es claro que el Ko (t) óptimo vendrá dado por: Ko (t) = P (t)C T R−1 (18.22) Llevando este valor de Ko a (18.22) se tiene que P (t) satisface la ecuación diferencial: Ṗ (t) = P (t)AT + AP (t) + Q(t) − P (t)C T R−1 CP (t) (18.23) con las condiciones iniciales P (t0 ) = P0 . Si comparamos las expresiones (??) y (18.23) con las (17.50) y (17.50) del capı́tulo anterior se comprueba que la solución del filtro óptimo es dual de la del problema del control. Esta dualidad se puede resumir en el cuadro siguiente: Estimación del estado 462 Problema de la Estimación BT CT Ro Qo Ko AT Problema del Control C B Rc Qc Kc A En este cuadro R y Q se han subindiciado con c o con o según se refieran a los problemas del control o de la estimación. El cuadro muestra que los problemas de la estimación y del control son esencialmente el mismo. Al igual que se hacı́a en el caso del LQR consideraremos horizonte de tiempo infinito, con lo cual, lo que se pretenderá es minimizar en valor medio la diferencia entre los estados reales y los estimados, y no hacer mı́nimo dicho valor en un intervalo de tiempo determinado, que es lo que se persigue con el anterior planteamiento. En consecuencia, al hacer esta consideración, la variable tiempo desaparece de las ecuaciones que proporcionan los parámetros del filtro de Kalman y se tiene que Ko toma el valor constante dado por: Ko = P C T R−1 (18.24) donde el único parámetro desconocido es la matriz P , que se halla resolviendo la ecuación de Riccati para la observación AP + P AT + Q − P C T R−1 CP = 0 (18.25) La matriz Ko recibe la denominación de ganancia de Kalman. Para la determinación del filtro de Kalman se ha partido de la estructura representada en la figura 18.3, que es la de un observador clásico, y se ha ajustado Ko para que el error de estimación sea el mı́nimo con una norma cuadrática. Sin embrago, se puede demostrar que en realidad esa es la estructura que produce las mejores estimaciones de todos los posibles estimadores. Esta demostración es muy compleja, por lo que no se incluye en un curso introductorio como éste. Se trata de un resultado de la misma naturaleza que el que se ha visto al estudiar el problema lineal cuadrático, en donde si se ha demostrado que la ley de control lineal era la óptima, y no se han ajustado simple los valores de k para que lo fuera, que es en realidad lo que hemos hecho en el caso del filtro de Kalman. Estimación del estado 463 Resumen del Filtro de Kalman Se da el sistema ẋ(t) = Ax(t) + Bu(t) + w(t) con la función de lectura y(t) = Cx(t) + v(t) Se tiene E[w(t)] = 0 E[v(t)] = 0 E[w(t)wT (t − τ )] = Qδ(τ ) E[v(t)v T (t − τ )] = Rδ(τ ) Ecuaciones del filtro dx̂ = Ax̂ + Bu + Ko (y − C x̂) dt Ganancia de Kalman Ko = P C T R−1 Propagación de la covarianza del error Ṗ (t) = P (t)AT + AP (t) + Q(t) − P (t)C T R−1 CP (t) P (t0 ) = P0 Error cuadráático de la estimación tr P Estimación del estado 464 w u v R B 1 y -1 Figura 18.4: Sistema lineal de dimensión 1. 18.3.1 Ejemplo Sea el sistema dinámico de dimensión 1 que se muestra en la figura 18.4, y en el que A = −1. Se trata, por tanto, de un sistema de primer orden al que se asocian un ruido de modelado w y un ruido de lectura v. La salida de este sistema es la señal z. Se trata de reconstruir el estado x a partir de la señal z. Para ello se adopta la estructura de un filtro de Kalman, tal como se indica en la figura 18.5. La determinación del filtro de Kalman se reduce, en último extremo, a la determinación de la constante K de modo que el valor cuadrático medio del error de estimación sea mı́nimo. Supongamos que las intensidades de los ruidos de modelado y medida vienen dadas por φww = Qδ(τ ) = 3δ(τ ) φvv = Rδ(τ ) = δ(τ ) El valor de Ko en la figura 18.5 viene dado por la expresión (??). Para determinar el valor de p se requiere resolver la ecuación (18.23). Los parámetros necesarios para escribir esta ecuación, en el problema que nos ocupan, son A = −1 C = 1 Q = 3 R = 1 Con los valores de estos parámetros la expresión (18.23) toma la forma dp = −2p − p2 + 3 dt que en el caso de un proceso estacionario, en el que el valor cuadrático medio del error sea constante, se tiene que dp/dt = 0, y p es igual a constante. En tal caso se tiene que la ecuación que satisface p es la (18.25), es decir, p2 + 2p − 3 = 0 Estimación del estado 465 w u v R B y 1 -1 + Ko u R B - 1 -1 Figura 18.5: Sistema lineal con filtro de Kalman. ŷ Estimación del estado 466 Resolviendo esta ecuación en p se obtiene p=1 Lo que llevado a (18.24) conduce a Ko = 1. 18.4 Método LQG En sistemas dinámicos lineales con perturbaciones aleatorias gausianas y criterio de optimización cuadrático se puede demostrar que el regulador óptimo se obtiene separando los problemas de estimación y control, resolviendo cada uno de ellos separadamente, y conectándolos en serie. Es decir, a partir de las señales de salida y por medio de un filtro de Kalman se obtienen las estimaciones de los estados, y a partir de estas estimaciones y con ayuda de la ley de control, obtenida prescindiendo del carácter estocástico del sistema, se determina la señal de acción sobre el mismo. La estructura de control ası́ obtenida recibe la denominación de control LQG (lineal cuadrático y gausiano), la cual requiere que se adopten modelos estocásticos para el ruido de los sensores y del proceso, y que se defina un criterio cuadrático como criterio de funcionamiento. Lo que se plantea en ese caso es un problema de control óptimo estocástico. Veamos, con detalle, el regulador LQG. Sea un sistema dinámico lineal (con n estados, m entradas y l salidas): ẋ = Ax + Bu + w y = Cx + v siendo: x: vector de estados (n × 1). u: vector de entradas (m × 1). y: vector de salidas (l × 1). A: (n × n). B: (n × m). C: (l × n). y siendo w y v señales aleatorias, de ruido blanco gausiano, con media nula y Estimación del estado 467 mutuamente independientes, que satisfacen: E[w(t)wT (t − τ )] = Qo δ(τ ) E[v(t)v T (t − τ )] = Ro δ(τ ) E[w(t)v T (t − τ )] = 0 donde: Qo = QTo ≥ 0 , Ro = RoT ≥ 0 El objetivo es determinar la señal de control u de forma que la siguiente funcional sea mı́nima: Z ∞ (xT Qc x + uT Rc u) dt J= 0 con: Qc = QTc ≥ 0 , Rc = RcT ≥ 0 El teorema de separación establece que el óptimo global se tiene dividiendo el problema en dos subproblemas: 1. Un problema de control óptimo, del que se obtiene la regulación por realimentación de variables de estado: u = −Kc x̂ siendo Kc = Rc−1 B T Pc Pc se determina a partir de la ecuación de Riccati: AT Pc + Pc A − Pc BR−1 B T Pc + Qc = 0 2. Un problema de filtrado óptimo, mediante el filtro de Kalman: dx̂ = Ax̂ + B û + Ko (y − C x̂) dt donde Ko = Po C T Ro−1 y Po se obtiene de APo + Po AT + Qo − Po C T Ro−1 CPo = 0 El problema, por lo tanto, queda descompuesto en dos partes. Estimación del estado 468 1. Resolución del problema del control, prescindiendo en el sistema de perturbaciones, para obtener la Ley de control Kc . 2. Filtrado de Kalman para obtener x̂. El esquema de regulación que se obtiene uniendo estos dos problemas aparece en la figura 18.6 y el compensador resultante es el que se muestra en la figura 18.7. r u(t) + z(t) Planta y(t) - Ley de Control x̂(t) Filtro de Kalman Figura 18.6: Separación del control y de la estimación en el problema LQG Estimación del estado 0 + u(t) 469 B + R ẋ(t) x(t) y(t) C + - A Planta B Kc x̂(t) R + ˙ x̂(t) + + + Ko - A Observador C Figura 18.7: Estructura del regulador del problema del control estocástico