Apuntes de Regulación Automática: Ingeniería Electrónica

Apuntes de Regulación Automática Ingenierı́a Electrónica Javier Aracil Fabio Gómez-Estern Contenido 1 Introducción a los sistemas de control. 1 1.1 Noción de control automático. . . . . . . . . . . . . . . . . . . . . 1 1.2 Necesidad del modelo matemático del sistema. . . . . . . . . . . . 3 1.3 Idea de realimentación. . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4 Realimentación, retardos y oscilación. . . . . . . . . . . . . . . . . 6 1.5 Sensibilidad y realimentación. . . . . . . . . . . . . . . . . . . . . 7 1.6 Las Matemáticas y el control automático. . . . . . . . . . . . . . . 9 1.7 Señales y sistemas. . . . . . . . . . . . . . . . . . . . . . . . . . . 11 1.8 Servomecanismos y reguladores. . . . . . . . . . . . . . . . . . . . 13 1.9 Bosquejo histórico del control automático. . . . . . . . . . . . . . 15 1.9.1 17 Control, informática y telecomunicaciones. . . . . . . . . . 2 Introducción a los sistemas realimentados 19 2.1 Servomecanismo de posición . . . . . . . . . . . . . . . . . . . . . 19 2.2 Acción proporcional más derivada (PD). . . . . . . . . . . . . . . 21 2.3 Acción proporcional más integral (PI). . . . . . . . . . . . . . . . 22 i Contenido ii 3 Sistemas dinámicos lineales 3.1 28 Transformación de Laplace . . . . . . . . . . . . . . . . . . . . . . 28 3.1.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.1.2 Resumen de Propiedades . . . . . . . . . . . . . . . . . . . 29 3.1.3 Calculo de antitransformadas . . . . . . . . . . . . . . . . 33 3.2 Noción de sistema dinámico. . . . . . . . . . . . . . . . . . . . . . 38 3.3 Formas de las relaciones entrada-salida en sistemas. . . . . . . . . 39 3.3.1 Sistemas estáticos. . . . . . . . . . . . . . . . . . . . . . . 39 3.3.2 Sistemas dinámicos . . . . . . . . . . . . . . . . . . . . . . 40 Descripción externa de los sistemas dinámicos. . . . . . . . . . . . 42 3.4.1 Respuesta impulsional. . . . . . . . . . . . . . . . . . . . . 42 3.4.2 Función de transferencia. . . . . . . . . . . . . . . . . . . . 44 Sistemas de control realimentados . . . . . . . . . . . . . . . . . . 46 3.4 3.5 4 Interpretaciones de la función de transferencia 50 4.1 Transformación de Fourier . . . . . . . . . . . . . . . . . . . . . . 50 4.2 Función de transferencia en el dominio de la frecuencia . . . . . . 54 5 Sistemas dinámicos lineales de primer orden 56 5.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 5.2 Solución de la ecuación diferencial de primer orden . . . . . . . . 57 5.2.1 Señal de entrada nula . . . . . . . . . . . . . . . . . . . . . 57 5.2.2 Señal de entrada no nula . . . . . . . . . . . . . . . . . . . 59 5.2.3 Respuestas a señales de entrada especiales . . . . . . . . . 61 Contenido 5.2.4 iii Respuesta armónica . . . . . . . . . . . . . . . . . . . . . . 69 5.3 Ejemplos de sistemas de primer orden . . . . . . . . . . . . . . . 72 5.4 El sistema de primer orden como integrador . . . . . . . . . . . . 77 6 Sistemas dinámicos lineales de segundo orden y de orden y superior 79 6.1 Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.1.1 Respuesta de un sistema de segundo orden a una entrada en escalón . . . . . . . . . . . . . . . . . . . . . . . . . . . 82 6.1.2 Respuesta en frecuencia de un sistema de segundo orden . 91 6.1.3 Ecuaciones diferenciales de orden n . . . . . . . . . . . . . 92 7 Representación gráfica de la función de transferencia 7.1 7.2 7.3 79 98 Diagramas más comunes . . . . . . . . . . . . . . . . . . . . . . . 98 7.1.1 Diagrama de polos y ceros: caso racional . . . . . . . . . . 98 7.1.2 Diagrama de Nyquist . . . . . . . . . . . . . . . . . . . . . 99 7.1.3 Diagrama logarı́tmico o de Bode . . . . . . . . . . . . . . . 100 7.1.4 Diagrama de Black . . . . . . . . . . . . . . . . . . . . . . 101 Diagrama de Bode . . . . . . . . . . . . . . . . . . . . . . . . . . 101 7.2.1 Diagrama de Bode de una constante . . . . . . . . . . . . 103 7.2.2 Diagrama de Bode de una integración pura . . . . . . . . . 103 7.2.3 Diagrama de Bode de un sistema de primer orden . . . . . 103 7.2.4 Diagrama de Bode de una diferenciación pura . . . . . . . 105 7.2.5 Diagrama de Bode del término asociado a un cero . . . . . 106 Sistemas de fase mı́nima . . . . . . . . . . . . . . . . . . . . . . . 106 Contenido iv 7.4 Cı́rculos M y N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108 7.5 Relación entre las constantes de error y los polos y ceros. . . . . . 112 7.5.1 Seguimiento de posición. . . . . . . . . . . . . . . . . . . . 113 7.5.2 Seguimiento de velocidad. . . . . . . . . . . . . . . . . . . 116 7.5.3 Seguimiento de aceleración . . . . . . . . . . . . . . . . . . 118 7.5.4 Sistemas con error nulo . . . . . . . . . . . . . . . . . . . . 119 8 Estabilidad de los sistemas dinámicos 122 8.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 8.2 Criterios de estabilidad relativos a la descripción externa . . . . . 123 8.3 8.2.1 Criterio de Routh-Hurwitz . . . . . . . . . . . . . . . . . . 128 8.2.2 Matriz de Hurwitz . . . . . . . . . . . . . . . . . . . . . . 133 Criterio de Nyquist . . . . . . . . . . . . . . . . . . . . . . . . . . 134 8.3.1 Grado de estabilidad e interpretación del criterio de Nyquist 141 9 Compensación de sistemas realimentados 143 9.1 Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 9.2 Análisis en el dominio de la frecuencia de la red PD . . . . . . . . 147 9.3 Análisis en el dominio de la frecuencia de la red PI . . . . . . . . 150 9.4 Acción proporcional, integral y diferencial (PID) . . . . . . . . . . 153 9.5 Compensación por avance de fase . . . . . . . . . . . . . . . . . . 155 9.6 Efecto en el dominio de la frecuencia . . . . . . . . . . . . . . . . 157 9.7 Método práctico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Contenido v 10 Representación matemática de sistemas 10.1 Introducción 162 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.1.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . 162 10.2 Descripción interna de los sistemas dinámicos . . . . . . . . . . . 163 10.2.1 Sistemas de estados finitos . . . . . . . . . . . . . . . . . . 166 10.2.2 Sistemas dinámicos lineales en tiempo continuo . . . . . . 167 10.2.3 Función de transición de los sistemas dinámicos lineales . . 177 10.2.4 Sistemas dinámicos lineales en tiempo discreto . . . . . . . 181 10.2.5 Muestreo de sistemas en tiempo contı́nuo . . . . . . . . . . 182 10.2.6 Sistemas no-lineales: linealización . . . . . . . . . . . . . . 185 10.2.7 Depósito mezclador . . . . . . . . . . . . . . . . . . . . . 187 11 Controlabilidad y observabilidad de sistemas dinámicos 191 11.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191 11.2 Controlabilidad de sistemas dinámicos lineales . . . . . . . . . . . 192 11.2.1 Estados alcanzables . . . . . . . . . . . . . . . . . . . . . . 192 11.2.2 Estados controlables . . . . . . . . . . . . . . . . . . . . . 193 11.2.3 Estados conectados . . . . . . . . . . . . . . . . . . . . . . 194 11.3 Controlabilidad de los sistemas en tiempo discreto . . . . . . . . . 195 11.3.1 Ejemplos de introducción . . . . . . . . . . . . . . . . . . . 196 11.3.2 Controlabilidad de sistemas en tiempo continuo . . . . . . 202 11.3.3 Criterio de controlabilidad . . . . . . . . . . . . . . . . . . 203 11.3.4 Ejemplos de controlabilidad . . . . . . . . . . . . . . . . . 206 Contenido vi 11.4 Notas sobre controlabilidad . . . . . . . . . . . . . . . . . . . . . 209 11.4.1 Controlabilidad de sistemas monovariables . . . . . . . . . 209 11.4.2 Transformación de la matriz de Controlabilidad . . . . . . 210 11.4.3 Forma simplificada del criterio de controlabilidad . . . . . 210 11.4.4 La controlabilidad como propiedad genérica . . . . . . . . 211 11.5 Descomposición del espacio de estados en sus partes controlables y no controlables . . . . . . . . . . . . . . . . . . . . . . . . . . . 212 11.6 Observabilidad de sistemas dinámicos lineales . . . . . . . . . . . 218 11.6.1 Introducción a la observabilidad . . . . . . . . . . . . . . . 218 11.6.2 Observabilidad . . . . . . . . . . . . . . . . . . . . . . . . 220 11.6.3 Reconstructibilidad . . . . . . . . . . . . . . . . . . . . . . 221 11.6.4 Criterio de observabilidad . . . . . . . . . . . . . . . . . . 221 11.7 Sistemas continuos . . . . . . . . . . . . . . . . . . . . . . . . . . 223 11.8 Pérdida de observabilidad por muestreo . . . . . . . . . . . . . . . 225 11.8.1 Notas sobre observabilidad . . . . . . . . . . . . . . . . . . 227 11.9 Descomposición del espacio de estados en sus partes observables y no-observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 11.10Descomposición canónica del espacio de estados . . . . . . . . . . 229 11.11Formas canónicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 233 11.11.1 Forma canónica de observación . . . . . . . . . . . . . . . 239 12 Sı́ntesis de sistemas de control por variables de estado 242 12.1 Ley de Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242 12.1.1 Interpretación por diagramas . . . . . . . . . . . . . . . . 245 Contenido vii 12.1.2 Interpretación algebraica . . . . . . . . . . . . . . . . . . . 246 12.1.3 Determinación de la ley de control . . . . . . . . . . . . . 248 12.2 Observadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251 12.2.1 Sistemas monovariables . . . . . . . . . . . . . . . . . . . . 252 12.3 Sı́ntesis del sistema en bucle cerrado . . . . . . . . . . . . . . . . 262 12.3.1 Método práctico de sı́ntesis . . . . . . . . . . . . . . . . . 270 12.3.2 Sı́ntesis algebraica directa (Sı́ntesis externa directa) . . . . 275 13 Sistemas no lineales 283 13.1 Método del primer armónico . . . . . . . . . . . . . . . . . . . . . 283 13.1.1 Ejemplo introductorio . . . . . . . . . . . . . . . . . . . . 283 13.1.2 Principios del método . . . . . . . . . . . . . . . . . . . . 289 13.1.3 Transformación de Fourier . . . . . . . . . . . . . . . . . . 289 13.2 Algunas funciones descriptivas . . . . . . . . . . . . . . . . . . . . 291 13.2.1 Saturación . . . . . . . . . . . . . . . . . . . . . . . . . . . 292 13.2.2 Relé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 13.2.3 Holgura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 13.2.4 Determinación experimental de la función descriptiva . . . 297 13.3 Análisis de sistemas no lineales mediante la función descriptiva . . 298 13.3.1 Una ampliación del criterio de Nyquist . . . . . . . . . . . 299 13.3.2 Oscilaciones de un servomecanismo no lineal . . . . . . . . 300 13.3.3 Función descriptiva independiente de la frecuencia . . . . . 302 13.3.4 Función descriptiva dependiente de la frecuencia . . . . . . 302 Contenido viii 13.3.5 Estabilidad de los ciclos lı́mite . . . . . . . . . . . . . . . . 304 13.3.6 Fiabilidad del análisis mediante funciones descriptivas . . . 309 13.4 Criterios de estabilidad relativos a la descripción interna . . . . . 311 13.4.1 Teorı́a de Lyapunov . . . . . . . . . . . . . . . . . . . . . . 311 13.4.2 Un ejemplo introductorio . . . . . . . . . . . . . . . . . . . 311 13.4.3 Noción de estabilidad en el sentido de Lyapunov . . . . . . 314 13.4.4 Teorema de Lyapunov . . . . . . . . . . . . . . . . . . . . 315 13.4.5 Aplicación del método de Lyapunov a sistemas lineales . . 318 13.5 Construcción de funciones de Lyapunov con formas cuadráticas . 323 13.5.1 Método de Krasovkii . . . . . . . . . . . . . . . . . . . . . 327 14 Introducción a la optimización de sistemas dinámicos 331 14.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331 14.2 Optimización Estática. . . . . . . . . . . . . . . . . . . . . . . . . 332 14.2.1 Minimización de funciones . . . . . . . . . . . . . . . . . . 332 14.3 Introducción al control óptimo . . . . . . . . . . . . . . . . . . . . 336 14.3.1 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338 14.3.2 Ejemplo de ı́ndice de funcionamiento cuadrático . . . . . . 341 14.4 Problema general del control óptimo . . . . . . . . . . . . . . . . 345 14.5 Cálculo de variaciones . . . . . . . . . . . . . . . . . . . . . . . . 346 14.5.1 Funcionales y sus variaciones . . . . . . . . . . . . . . . . . 346 14.5.2 Ecuaciones de Euler . . . . . . . . . . . . . . . . . . . . . 352 14.5.3 Estado final variable . . . . . . . . . . . . . . . . . . . . . 359 Contenido ix 15 Métodos Variacionales en Control Optimo 368 15.1 Aplicación del cálculo de variaciones a la resolución del problema del Control Optimo . . . . . . . . . . . . . . . . . . . . . . . . . . 368 15.1.1 Se puede eliminar u . . . . . . . . . . . . . . . . . . . . . . 368 15.1.2 No se puede eliminar u . . . . . . . . . . . . . . . . . . . 373 15.1.3 Introducción de un término de control terminal . . . . . . 382 16 Principio del Mı́nimo de Pontriagin 393 16.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393 16.2 Control óptimo por conmutación . . . . . . . . . . . . . . . . . . 408 16.2.1 Control en tiempo mı́nimo de un sistema de segundo orden 408 16.2.2 Ejemplo 4: Problema del alunizaje suave . . . . . . . . . . 412 17 Principio de optimalidad de Bellman 417 17.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417 17.1.1 Ejemplo de un sistema binario en tiempo discreto . . . . . 421 17.1.2 Programación dinámica en tiempo discreto y Principio de Optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . . 423 17.2 Programación dinámica y ecuación de Hamilton-Jacobi-Bellman . 424 17.2.1 Relación entre la programación dinámica y la formulación Hamiltoniana del problema de control óptimo . . . . . . . 433 17.3 Control de sistemas dinámicos lineales con criterio cuadrático . . . 434 17.3.1 Breve reseña histórica . . . . . . . . . . . . . . . . . . . . 434 17.3.2 Problema LQR . . . . . . . . . . . . . . . . . . . . . . . . 436 17.4 Ecuación de Riccati en el dominio de la frecuencia . . . . . . . . . 446 Contenido x 17.5 Resolución del problema LQR . . . . . . . . . . . . . . . . . . . . 450 18 Estimación del estado 452 18.1 Noción de señal aleatoria . . . . . . . . . . . . . . . . . . . . . . . 452 18.1.1 Descripción estadı́stica de las señales aleatorias . . . . . . 453 18.2 Transmisión de señales aleatorias a través de sistemas lineales: descripción interna . . . . . . . . . . . . . . . . . . . . . . . . . . . 456 18.3 El problema de la observación: Filtro de Kalman . . . . . . . . . 458 18.3.1 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464 18.4 Método LQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466 Tema 1 Introducción a los sistemas de control. 1.1 Noción de control automático. De una manera intuitiva se concibe el control automático, como la rama de la técnica que tiene por objeto concebir ingenios que funcionen autónomamente, es decir, y hablando llanamente, que funcionen solos. Esta noción intuitiva requiere unas ciertas matizaciones, pero es válida como punto de partida. Bajo cierto punto de vista se puede considerar que en todo proceso industrial intervienen por una parte la información (órdenes) y por otra la potencia. Bajo este mismo punto de vista cabe considerar el funcionamiento de un proceso como la adopción de las acciones necesarias frente al mismo (señales de mando o control) para la conveniente dosificación de la energı́a en los distintos puntos del proceso para que el funcionamiento del conjunto sea el conveniente. En todo proceso, sea la fabricación de un producto, un avión en vuelo, una máquina funcionando, etc.., se realizan una serie de acciones que presuponen la dosificación de la aplicación de energı́a en determinados puntos, bien bajo la acción de unas órdenes que se suministran al mismo, bien de una manera aleatoria por parte del medio en el que se halla inmerso. Se puede representar un proceso de esta naturaleza, al que a partir de ahora denominaremos sistema por medio de un bloque, o rectángulo, tal como el representado en la figura 1.1. A la izquierda de este bloque se han representado unas 1 Introducción a los sistemas de control. 2 flechas que se han denotado por u1 , u2 ... y que representan las distintas acciones que se pueden ejercer sobre el proceso; se denominarán en lo que sigue señales de control, mando, o entrada. A la derecha del bloque se han representado otras flechas, como saliendo del mismo, que se han denotado por y1 , y2 , ... y que representan los productos que produce el proceso. Tanto las acciones sobre el sistema como los productos del mismo generalmente varı́an con el tiempo, por lo que se hablará de secuencias temporales, o más formalmente de señales; sobre el carácter de estas señales se volverá más adelante. u1 u2 un q q q Sistema a controlar - - y1 - y2 - ym q q q Figura 1.1: Sistema dinámico Obsérvese que este esquema, al nivel que se ha desarrollado hasta ahora, tiene una amplı́sima aplicación. Por ejemplo la conducción de un automóvil por una carretera puede considerarse como un proceso sistema representado con un diagrama similar al de la figura 1.1 siendo u1 la posición del volante; u2 la dirección del viento respecto a la del automóvil, etc.., y siendo y1 la velocidad del automóvil; y2 la separación del mismo de la cuneta, etc. De una manera intuitiva se entiende que un proceso está automatizado cuando funciona solo, es decir, sin intervención del ser humano. Por ejemplo, un automóvil completamente automatizado serı́a aquél que funcionase completamente solo. Aunque este ejemplo trivial pueda asociarse al dominio de la ciencia ficción, recientes avances en disciplinas como la la visión artificial y el aprendizaje automático, auguran su inminente viabilidad técnica. Volviendo al problema original, se puede decir que el funcionamiento del proceso se hará a partir de la serie de señales ui que se le aplique. El problema de controlar (gobernar) el proceso, se reduce al de establecer las señales de entrada (órdenes), a que deberá ser sometido para que su funcionamiento sea el apetecido. Por lo tanto, el problema de controlar el funcionamiento de un proceso queda reducido al de la toma de decisión de la secuencia temporal de valores que deben Introducción a los sistemas de control. 3 tomar las señales de mando del mismo. Es decir, volviendo al ejemplo trivial de la conducción del automóvil, la decisión de las maniobras que debe efectuar el conductor (sobre el volante, sobre el freno, sobre el acelerador...) para que el funcionamiento del automóvil sea el adecuado. 1.2 Necesidad del modelo matemático del sistema. Se ha visto en el apartado anterior cómo el gobierno de un proceso se reducı́a al establecimiento de la secuencia de acciones de mando que debe aplicársele para que el funcionamiento sea el apetecido. Se va a considerar ahora un primer aspecto del establecimiento de esta secuencia. La toma de decisión sobre la señal que debe aplicarse al sistema implica que existan distintas alternativas. Es decir, que existan distintas acciones posibles cada una de las cuales darı́a un resultado distinto. El problema se reduce al de elegir entre estas señales, aquellas cuyo resultado sea el apetecido. Al existir distintas opciones respecto a la acción a tomar para gobernar el proceso, para realizar la elección conveniente de la señal de entrada que determine un funcionamiento apetecido, es necesario que se sepa predecir qué resultados se obtendrá de cada una de las posibles acciones. Es decir, quien tome la decisión respecto a cuál de las posibles acciones a tomar debe adoptarse, debe predecir in mente, las acciones que resultarán de cada una de sus posibles opciones, con el fin de escoger aquella señal de entrada a la que corresponda un resultado que sea el buscado. Por lo tanto, se requiere el conocimiento exhaustivo de las relaciones que existen entre las posibles acciones a tomar sobre el sistema, y los resultados que determinarán cada una de ellas. Esto es lo que se llama un modelo del proceso; aunque existen diversos tipos de modelos, (descripciones verbales, prototipos, tablas), nos interesamos en texto por los matemáticos, que están constituidos por las relaciones formales que ligan a las señales ui e yi . El conductor del automóvil, que es quien toma la decisión del posicionamiento de los distintos órganos que tiene a su alcance (volante, frenos, acelerador...) lo que hace en todo instante es prever cuál será el resultado de las decisiones tomadas con el fin de mantener el proceso que gobierna (el automóvil), en un estado de marcha y funcionamiento apetecido. Introducción a los sistemas de control. 4 Para construir un modelo matemático de un proceso, se requiere establecer de una forma precisa, las magnitudes que lo definen (señales de entrada y de salida) ası́ como las relaciones formales que ligan a estas magnitudes. En la vida ordinaria, cuando se construyen modelos, de una manera subconsciente, para la toma de decisiones, éstos no tienen el nivel de formalidad que se acaba de indicar. Sin embargo, cuando se quiere automatizar un proceso, es indispensable la construcción de estos modelos formales con el fin de poder trasladar el proceso de toma de decisión a una máquina construida al efecto, ası́ que determinará las acciones a tomar precisamente a partir del modelo del sistema del que disponga. La posibilidad de construir un modelo del proceso que se esté considerando, constituye una de las mayores limitaciones a priori respecto a la posibilidad de automatizar un determinado proceso. Considérese, por ejemplo, el problema del establecimiento de un tratamiento por un médico para uno de sus enfermos. En la medida en que fuese posible en primer lugar definir una serie de magnitudes que caracterizasen el estado del enfermo (temperatura, tensión arterial, concentraciones en sangre de principios activos...) y de las relaciones formales que ligan a estas magnitudes, serı́a posible automatizar completamente el problema del establecimiento de un tratamiento, que no es sino determinar la acción a seguir sobre el enfermo para conseguir que la evolución del mismo estado de salud se realice en forma apetecida. En ciertos casos es posible establecer un modelo matemático del proceso que ligue de una manera unı́voca a cada una de las acciones que se tomen un único resultado. Se tiene entonces un sistema determinista. En otros casos, para cada una de las acciones posibles, no se tiene sino una predicción estadı́stica de posibles resultados; se tienen entonces los llamados sistemas estocásticos. 1.3 Idea de realimentación. El conocimiento del modelo matemático del sistema sobre el que se debe tomar una decisión para gobernar su funcionamiento, no es suficiente para la toma de esta decisión. Se requiere además información sobre lo que, de una forma intuitiva de momento se puede denominar estado actual del mismo. Es fácil encontrar ejemplos que ilustren este punto. Supóngase, por ejemplo, un automóvil que debe hacer el recorrido Sevilla - Cádiz. Supóngase que se dispone de un modelo matemático del funcionamiento del automóvil ası́ como Introducción a los sistemas de control. 5 un trazado minucioso de la autopista que une las dos ciudades Parece posible, en principio, concebir un programa de ordenador extraordinariamente detallado que permitiese realizar la toma de decisiones sobre la conducción del automóvil. Un programa que serı́a algo ası́ como una secuencia de instrucciones del tipo: avanzar en lı́nea recta 150 m, realizar un giro a la derecha, con radio de giro de 1 km.,.... Sin embargo parece claro que en principio no quepa augurar un feliz resultado a la empresa. Este tipo de programa darı́a lugar a un control en en el que no se tiene información externa sobre la situación actual, situación que recibe el la denominación de se denomina control en bucle abierto. Pese a sus limitaciones, tiene su aplicación en ciertos contextos, por ejemplo una lavadora automática basada en secuencias de trabajo prefijadas en el tiempo. El conductor del automóvil no hace sino desde su posición de gobierno, introducir en su sistema de decisión neuronal, especialmente por medio de sus ojos, información sobre el estado actual del automóvil, permitiendo de esta forma el que la toma de decisión respecto a la condición del mismo, adquiera un grado de eficacia realmente fiable. Este ejemplo, pese a su aparente artificiosidad es similar al que se presenta cuando se trata de enviar una cápsula a la luna. Debe notarse que la necesidad de la realimentación surge como consecuencia de la aparición de perturbaciones aleatorias que modifican el funcionamiento del sistema de acuerdo con un plan previsto, o sencillamente por la imperfección del modelo del sistema que le impide una predicción exacta, a largo plazo, del funcionamiento del mismo. Desde un punto de vista general, cabe decir que los sistemas con realimentación son aquéllos en los que la adopción de decisiones cara al futuro está completamente influenciada por los efectos de las previamente adoptadas. Dicho con otras palabras, son los sistemas en los que si la acción que se lleva a efecto persigue una determinada meta, es la diferencia entre la precisión alcanzada en la aproximación a esta meta, y ella misma, la que determina las acciones posteriores. Este tipo de actuaciones son las que se denominan control en bucle cerrado o control por realimentación. En la figura 1.2 se representa en forma de diagrama de bloques lo anterior. En dicha figura se representa por un lado el Sistema, cuya variable de Salida pretendemos controlar de forma que siga a la Entrada. Para ello se dispone de un Elemento de medición, que nos proporciona el valor de la señal de salida y posteriormente una vez comparada con la señal de entrada se toma la decisión correspondiente para actuar sobre el sistema. Conviene recordar que, en general, los sistemas fı́sicos poseen memoria del Introducción a los sistemas de control. Entrada - Toma de decisión 6 Salida - Planta - 6 Elemento de medición ¾ Figura 1.2: Realimentación pasado; por ello la salida del sistema en un instante dado no es función exclusivamente de la entrada en ese mismo instante: depende de toda la historia pasada de las entradas. Por esta razón la estructura realimentación es un objeto complejo en cuanto a su comprensión y diseño. 1.4 Realimentación, retardos y oscilación. La existencia de retardos en un circuito (bucle) de realimentación, conduce a la aparición de fenómenos oscilatorios en el comportamiento dinámico del mismo. Este hecho tiene una importancia capital al considerar el comportamiento dinámico de los sistemas realimentados y gran parte del problema de diseño de los mismos reside en el amortiguamiento (o anulación) de estas oscilaciones. Con el fin de ilustrar de una manera intuitiva este hecho, considérese a un conductor que conduce un automóvil, proceso que se puede interpretar con un bucle de realimentación tal como el de la figura 1.3. Entre la detección de un obstáculo, y la acción correctora consiguiente (girar el volante, actuar sobre los frenos...), se produce un cierto retardo que el conductor experimentado tiene perfectamente asimilado, y no constituye un obstáculo para una conducción normal. Supóngase que se trata de mantener el coche en lı́nea recta sobre una superficie completamente llana, sin ningún obstáculo. Sobre el automóvil sólo actúan las pequeñas perturbaciones (baches) del terreno y el conductor puede conseguir su Introducción a los sistemas de control. 7 Perturbaciones Referencia - ? Ojos (Sentidos) - Conducción - ? Coche ? Posición - 6 Figura 1.3: Ejemplo de realimentación objetivo con relativa facilidad. Supóngase ahora que el conductor debe realizar su cometido con los ojos cerrados, llevando a su lado un copiloto que es el que le va transmitiendo las indicaciones respecto a las desviaciones de la lı́nea recta que se trata de seguir. El circuito de realimentación se modifica, en este caso, al de la figura 1.4, con ello lo que se ha introducido es de una manera artificiosa un notable retardo en el bucle de realimentación. Es fácil comprender, que en este segundo caso, y debido precisamente al retraso que se introduce en el bucle de realimentación, la conducción será fuertemente oscilante. Un hecho importante que ilustra también el anterior ejemplo es que cuanto mayor sea la velocidad a la que pretende conducirse el automóvil, mayores serán los efectos de oscilación que se han indicado. El dilema entre velocidad de respuesta (precisión) y estabilidad (ausencia de oscilaciones), constituye una de las constantes que aparecen en el estudio de sistemas realimentados. 1.5 Sensibilidad y realimentación. Un sistema se dice sensible a la variación de un determinado parámetro cuando éste influye de forma importante en el comportamiento del mismo. Por ejemplo, la conducción de un automóvil es extraordinariamente sensible al estado del firme Introducción a los sistemas de control. 8 Perturbaciones Ref. - ? ? ? Ojos (Sentidos) -Transmisión oral -Conducción - Coche Posición - 6 Figura 1.4: Sistema con retardo de la carretera. Más adelante se dará una definición precisa de este concepto; aquı́, de momento, con esta noción intuitiva es suficiente. Los sistemas realimentados son enormemente menos sensibles a las perturbaciones que los sistemas sin realimentar. En efecto, un ejemplo trivial ayudará a fijar esta idea. Considérese que se trata de preparar una ducha de agua templada. El sistema se puede considerar en bucle abierto, es decir, sin realimentación, si una vez realizado el ajuste de las proporciones de agua frı́a y caliente, éste permanece inalterado durante toda la ducha. Si aparece cualquier perturbación, por ejemplo, que en otro lugar de la casa se abra un grifo de agua caliente, lo que influye en la mezcla, las consecuencias desagradables para el que se ducha no se pueden atenuar. El sistema es enormemente sensible. Por el contrario, si se puede actuar sobre los grifos durante todo el proceso, entonces se tiene un sistema en bucle cerrado en el que la persona que se ducha puede tomar las decisiones oportunas, y actuar sobre el sistema a través de los grifos, para corregir cualquier perturbación que se pueda producir. El sistema, en conjunto, ha atenuado las posibles perturbaciones exteriores, por lo tanto ha disminuido su sensibilidad sobre las mismas. Este ejemplo ayuda también a poner de manifiesto uno de los problemas más importantes que se pueden producir como consecuencia de la introducción de la realimentación. Considérese que: • Los grifos se encuentran alejados del depósito de agua caliente; y Introducción a los sistemas de control. 9 • Una pequeña variación de cualquiera de los grifos influye sensiblemente en la temperatura del agua. Es claro que en tales condiciones se producirán oscilaciones de la temperatura del agua, puesto que será enormemente difı́cil ajustar la misma. Ello es debido a que cualquier acción que se tome tarda un cierto tiempo en detectarse (en la espalda del que se ducha que es el órgano de medida), y por lo tanto éste posiblemente se pase en la corrección. El sistema se convierte entonces en un sistema inestable, y la corrección de ese tipo de inestabilidad constituye uno de los primeros problemas con los que se enfrenta el diseñador de sistemas realimentados. Ello se pondrá ampliamente de manifiesto a lo largo de este curso. 1.6 Las Matemáticas y el control automático. Las matemáticas tienen un doble empleo en las ciencias empı́ricas y aplicadas. • Las matemáticas pueden usarse como lenguaje cuando se pretende formular los problemas con la ayuda de conceptos matemáticos buscando con ello la precisión y claridad. • Las matemáticas pueden emplearse como herramientas cuando una vez planteado el problema en términos matemáticos se resuelven las ecuaciones que resultan (analı́ticamente o por simulación). Por otra parte, cabe considerar que la ingenierı́a puede describirse como una mezcla de sentido común y ciencia. Se trata de recurrir a planteamientos teóricos que permitan profundizar en los problemas que se estén tratando, pero sin perder de vista que en último extremo de lo que se trata es de conseguir algo que funcione. Estas consideraciones previas deben hacerse por cuanto que, como es lógico según lo que se ha visto en los apartados anteriores, las matemáticas juegan un papel fundamental en la moderna teorı́a del control automático. Tan es ası́ que en algún sentido puede considerarse la teorı́a del control automático como una rama de las matemáticas aplicadas. En la figura 1.5 se tiene un sencillo diagrama en el que se pretende expresar las fases del método en control automático. Estas fases pueden resumirse en: Introducción a los sistemas de control. 10 1. A partir del proceso, por abstracción, se construye el modelo matemático del mismo. Esta primera fase no es especı́fica del especialista en control, y requiere del concurso del especialista en el proceso a controlar. 2. Una vez obtenido el modelo matemático, se determina qué tipo de acción debe efectuarse sobre el mismo para que su comportamiento se adecúe a las metas propuestas. Se trata de determinar, lo que más adelante se denominará ley de control. 3. Por último, se trata de realizar fı́sicamente, la ley de control determinada en el punto anterior para lo que se requiere el concurso de instrumentos electrónicos y fı́sicos que realicen esta función. En esta última fase se requiere de nuevo el concurso del especialista en el proceso a controlar (en forma de instrumentista). Modelo Matemático 6 - Ley de Control 6 Abstracción Implementación ? Sistema Fı́sico ? Sistema de Control Figura 1.5: Fases del Método de Control De las tres fases anteriores, la especı́fica del especialista en sistemas de control es la segunda, que tiene un carácter fundamental matemático. Se ha llegado incluso a decir que el especialista en control en realidad no trata con los sistemas fı́sicos, sino exclusivamente con sus modelos matemáticos. Introducción a los sistemas de control. 11 Por lo tanto, el terreno en que se mueve el especialista en control automático, está fuertemente influido por las matemáticas aplicadas, aunque nunca debe olvidarse las consideraciones hechas más arriba respecto a la labor del ingeniero. 1.7 Señales y sistemas. En el estudio de los sistemas de control es fundamental adquirir previamente una idea clara de los conceptos de señal y sistema. Se entiende por señal, en un sentido amplio, toda magnitud fı́sica que evoluciona en el tiempo. En un sentido más restringido se requiere además que esta señal tenga cierto contenido informacional, es decir que sea significativa en cierto aspecto, los tipos de señales generalmente empleados en sistemas de Control son tensiones o corrientes eléctricas, desplazamientos mecánicos y presiones neumáticas o hidráulicas, si bien en principio no hay ningún incoveniente en incluir otro tipo de señales. Se empleará aquı́ la notación habitualmente empleada en matemáticas para referirse a una magnitud fı́sica X que, en cada instante t, toma un cierto valor. La definición de sistema es más ambigua. Se entiende por sistema un conjunto de partes entrelazadas operativamente de manera que unas actúen sobre otras y que en conjunto formen un todo. Un ejemplo de sistema de acuerdo con esta definición lo constituye el Sistema Económico Nacional, en el que salarios, nivel de precios, ahorro, etc, interaccionan entre sı́. Aquı́ interesará la consideración de sistemas más simples en los que los elementos interactuantes son fı́sicos y, de hecho, puedan definirse magnitudes fı́sicas que describan su comportamiento. Un sistema puede también definirse como un procesador de señales, en el sentido de que excitado con determinadas señales responde con otras. Es por lo tanto evidente que la consideración del comportamiento dinámico de un sistema tendrá un papel preponderante, por cuanto que una señal es una magnitud fı́sica que evoluciona en el tiempo, y un sistema es un procesador de señales. Normalmente, los sistemas que interesan en Automática, tendrán puntos de acceso llamados entradas, por los que pueden ser excitados por señales llamadas señales de entrada. Ası́ mismo tendrán otros accesos en los que la evolución de ciertas magnitudes fı́sicas podrá leerse. Estos puntos se llamarán salidas y las magnitudes a ellos ligadas señales de salida. La voz punto, empleada en las anteriores definiciones de entrada y salida, debe tomarse en un sentido amplio Introducción a los sistemas de control. 12 y no geométrico. Los sistemas se representan por medio de bloques tal como se indica en la figura 1.6. potencia perturbaciones Señales de entrada u(t) Señales de salida y(t) Figura 1.6: Sistema dinámico Juntamente con las señales de entrada y salida interesa considerar que un sistema puede estar sometido a otro tipo de entradas como son las de suministro de potencia o las perturbaciones. Pero con el fin de poder estudiar en su comportamiento ciertas regularidades, que permitan su estudio matemático, se considerará que estas, o bien se mantienen constantes (potencial), o bien sufren sólo variaciones despreciables (perturbaciones), de manera que el valor de la señal de salida pueda considerarse función exclusivamente del conjunto de valores tomados por la señal de entrada. Por lo tanto normalmente la representación de un sistema se hará como indica la figura 1.1. Como ejemplo de lo dicho se puede considerar un motor eléctrico en el cual el campo se mantiene constante y se varı́a la velocidad actuando sobre la corriente de inducido. (Figura 1.7) Intensidad de inducido Excitación Constante velocidad Figura 1.7: Motor eléctrico Desde el punto de vista que se está considerando se dirá que el motor es un sistema que, a una señal de entrada u(t) (intensidad de inducido), da una señal Introducción a los sistemas de control. 13 de salida y(t) (velocidad del motor). Se puede, en cierto aspecto, prescindir de la consideración del campo. 1.8 Servomecanismos y reguladores. La automática es un campo vastı́simo. En él se entrelazan aspectos teóricos y tecnológicos de suerte que es difı́cil establecer en el mismo sistematizaciones de cara a su estudio. Sin embargo atendiendo a su desarrollo histórico y al interés de ciertas aplicaciones a las que, por otra parte, se ha podido aplicar una teorı́a sencilla y fecunda, es posible extraer de todo el complejo mundo de la automática campos de estudio concretos como son los servomecanismos y los reguladores. Un servomecanismo es un ingenio con el que se pretende controlar una posición. Ejemplos de servomecanismos se encuentran en campos tan variados como son los posicionamientos de los timones de un barco, posicionamiento de las antenas de radar, posicionamiento de las ruedas de un camión en una servodirección, posicionamiento de la herramienta en un torno automatizado, posicionamiento de la pluma en un registrador de precisión, etc... El control de la posición se puede hacer de acuerdo con un sencillo esquema de realimentación como el de la figura 1.8. e + y amplificador u motor - Figura 1.8: Servomecanismo de posición Siempre que la posición de salida no se encuentre en la posición requerida por la referencia aparece un error que actuando sobre el servomotor determina que éste actúe corrigiendo el error. La única posición de equilibrio es aquélla en que la posición de salida es igual a la referencia1 . Por lo tanto un servomecanismo es, esencialmente, un sistema seguidor o re1 Esta afirmación se restringe a una clase de sistemas mecánicos lineales. Introducción a los sistemas de control. 14 productor en el que la posición de salida sigue o reproduce a la señal de entrada (referencia). Una caracterı́stica esencial, que justifica las aplicaciones de los servomecanismos es que el nivel de potencia de la señal de salida puede ser muy superior al de la señal de entrada. En el esquema anterior se ve cómo lo que posiciona es el servomotor, que viene actuado por una potencia externa al conjunto (el campo) y una señal que viene del servoamplificador y que es la que realmente corrige (alimentación del inducido). Obsérvese que la misma señal que viene del servoamplificador ha recibido, en ésta, potencia del exterior. Por lo tanto un servomecanismo es un ingenio que reproduce señales de posición a un nivel de potencia superior. El precio de esta mayor potencia en la posición de la salida es una pérdida de calidad en la señal, es decir, de una cierta distorsión. Precisamente las técnicas de diseño de servomecanismos tratan de conseguir que esta pérdida de calidad de la señal sea mı́nima. Un problema, aunque desde un punto de partida distinto al de los servomecanismos pero que conduce a planteamientos semejantes, es el de los reguladores. Una determinada magnitud fı́sica se dice que está regulada si está provista de un sistema que reaccione frente a los cambios del medio externo que afecten a esta magnitud, de suerte que se mantenga en un valor aproximadamente constante. Un ejemplo trivial de ello lo suministra un sistema de regulación de temperatura en una habitación. El sistema calefactor, a través de un termostato, debe reaccionar a las variaciones del medio (aperturas de puertas, entrada de más o menos gente, pérdidas naturales distintas en el dı́a que en la noche, etc...) de suerte que la temperatura se mantenga constante. Ta a K b Kc Kp c Ti + V Kt - + Vt + Vr - - Figura 1.9: Regulador de temperatura El esquema que permite la regulación de temperatura es esencialmente el mismo de un servomecanismo, tal y como se ve en la figura 1.9. Sin embargo, deben notarse las diferencias, desde un punto de vista fı́sico, entre ambos sistemas. 1. En el servomecanismo, la entrada (referencia) es variable y se pretende que Introducción a los sistemas de control. 15 la salida siga a la entrada. Mientras que en el regulador la entrada es constante. 2. En el servomecanismo la fuente de error es la variación de la referencia. En el regulador la fuente de error son perturbaciones exteriores que separan el sistema del estado requerido. 3. En el servomecanismo, la potencia de la señal de salida, que es lo que interesa, es muy superior a la de la entrada de referencia (véase el ejemplo de la amplificación de fuerza del conductor en la servodirección de un coche). En el regulador, la señal de salida en sı́ no interesa, sino que sólo es una medida de algo que sucede en la planta controlada, que es lo que realmente interesa. Junto a estas diferencias y a otras que pudieran establecerse se presenta la profunda semejanza entre ambos problemas, ya que los dos conducen al mismo diagrama de bloques realimentado que se muestra en las figuras 1.8 y 1.9. Basándose en esta semejanza es por lo que el estudio de ambos problemas se hace simultáneo pero no debe olvidarse nunca que fı́sicamente se trata de dos problemas diferentes. 1.9 Bosquejo histórico del control automático. A lo largo de la historia de la técnica se encuentran múltiples ingenios en cuya concepción interviene la idea de realimentación. Uno de los primeros ingenios de esta naturaleza es el llamado reloj de agua (clepsidra). Según algunos autores, su origen es chino y se remonta a la dinastı́a Chen (siglos XI - XII a.C.), y según otros al mecánico griego Ktesibios (siglo XIII a.C.). En cualquier caso su antigüedad e ingeniosidad son innegables. El primer trabajo significativo en control automático fué el regulador centrı́fugo de James Watt. Se trata de un regulador de bolas de una máquina de vapor. En el regulador de Watt se regula la velocidad de una máquina de vapor por medio de un sencillo artificio consistente en dos bolas metálicas de cierta masa sobre las que actúan las fuerzas centrı́fugas al girar el eje del que son solidarias a través de unos brazos (figura 1.10). Estos brazos están articulados de manera que la fuerza centrı́fuga que actúa sobre las bolas puede determinar, a través de dichas articulaciones, una mayor o menor apertura de la válvula de alimentación de la máquina. Se tiene por lo tanto una cadena cerrada de acciones tal como la que se indica en el diagrama de la figura 1.11. Introducción a los sistemas de control. 16 Caldera ω :velocidad del eje. vapor eje de la máquina. válvula Cilindro Figura 1.10: Regulador centrı́fugo de Watt ωc + Transmisión válvula Máquina de vapor - ω bolas Figura 1.11: Diagrama de bloques: Regulador de Watt ω Introducción a los sistemas de control. 17 El interés que suscita en su tiempo la máquina de Watt es grande, puesto que en ella se presentan los problemas de estabilidad a los que se aludı́a en los apartados 1.4 y 1.5. Tan es ası́ que James Clerk Maxwell, uno de los mayores fı́sicos teóricos del siglo XIX se siente atraı́do por el problema y publica un trabajo titulado On governors que constituye uno de los trabajos pioneros de la moderna teorı́a del control. Sin embargo, aparte de este trabajo, y algún otro de Routh a finales de siglo, no es hasta los años 30 del siglo pasado, cuando se acomete de una manera sistemática el estudio de las técnicas matemáticas que permitan estudiar y diseñar sistemas realimentados. Durante la Segunda Guerra Mundial, la necesidad de construir sistemas de control altamente sofisticados para fines militares, condujo al desarrollo tanto en los Estados Unidos como en la antigua Unión Soviética, de lo que hoy se conviene en llamar teorı́a clásica de los servomecanismos, y que se estudiará más adelante en este curso. En aquellos años Norbert Wiener publica la importante obra Cibernetics, en la que se recalca el carácter fundamental de la noción de realimentación como concepto cientı́fico. La teorı́a clásica de los servomecanismos tiene enormemente limitadas su posibilidades de aplicación por cuanto que la clase de sistemas a las que se aplica es reducida. En ello determinó la realización de estudios teóricos que permitiesen construir una teorı́a de sistemas que abarcarse una clase más amplia de los mismos. Con ello se ha llegado al desarrollo de la teorı́a moderna del control, basada sobre la noción de estado, y que se estudiará con detenimiento a lo largo de este curso. 1.9.1 Control, informática y telecomunicaciones. A menudo se confunden las disciplinas de control automático e informática, habiendo visiones superficiales que consideran el control como una aplicación de las tecnologı́as de la información y comunicaciones. La raı́z de esto se halla en las siguientes razones: • El sistema de decisión que diseñan los ingenieros de control para el gobierno de los sistemas fı́sicos es un procesador de señales, y por tanto un procesador de información, como son las computadoras. • El advenimiento del microprocesador en los años 70 del siglo pasado y posteriormente de los más compactos microcontroladores, ha alterado significativamente los métodos del control automático, de modo que apenas se hace control sin la intervención de las computadoras: tanto en la fase del análisis matemático como en la concepción de los instrumentos encargados Introducción a los sistemas de control. 18 del control. De hecho, una ley de control, en muchos casos, se especifica en forma de algoritmo, que se traduce a su vez en una lista de instrucciones o programa ejecutándose en la unidad central de una computadora industrial. • Las teorı́as para el modelado matemático y diseño de sistemas de control han sufrido una gran transformación en las últimas décadas, con el fin incorporar el potencial, las particularidades y limitaciones de las computadoras. En este sentido, conceptos como sistemas operativos de tiempo real, concurrencia de procesos, planificación de tareas, velocidad de proceso, algoritmos en tiempo discreto, lenguajes, etc., se han convertido en términos de uso común en control. • Conceptos tradicionalmente asociados a las telecomunicaciones como los sistemas distribuidos, redes inalámbricas, ruido, capacidad de transmisión, teorı́a de la información, etc. cobran una importancia creciente en el núcleo de la teorı́a del control. Otro hecho relevante es que la teorı́a moderna del control surgida en los años 30 tiene su base en el invento del amplificador realimentado que impulsó el desarrollo de la telefonı́a a gran distancia. Sin embargo es conveniente recordar, como se desprende del apartado anterior, que el control realimentado es anterior a la invención de la computadora digital y, con anterioridad a ella, se han implementado controladores con circuitos analógicos y otras tecnologı́as. De hecho en la actualidad se implementan sistemas de control realimentado carentes de elementos de computación, como son los termostatos. Afirmar que el control es una aplicación de las tecnologı́as de información serı́a invertir el sentido de las cosas y exigirı́a decir lo mismo de la arquitectura o la medicina. Sucede simplemente que todas las actividades de carácter técnico o cientı́fico han evolucionado y se han beneficiado enormemente de la magnı́fica herramienta que es la informática. En cualquier caso, la teorı́a del control automático se desarrolla en buena parte al margen de los dispositivos fı́sicos donde se van a implementar, y a menudo los métodos del control sobreviven a las computadoras y lenguajes concretos empleados en su realización. Tema 2 Introducción a los sistemas realimentados 2.1 Servomecanismo de posición Vamos a dedicar esta sección a analizar un tipo de sistema realimentado que presenta particular interés: el servomecanismo de posición. Con él se trata de posicionar un eje, que está asociado al eje de un motor, y que constituye la señal de salida del sistema. La señal de entrada es otra posición, que se pretende que reproduzca el eje de salida del sistema. Se dispone de un mecanismo que permite detectar la discrepancia entre las posiciones de entrada y de salida. Esta discrepancia o error es amplificada convenientemente para activar el motor que, actuando sobre el eje de salida, determina su movimiento hasta anular el error; es decir, hasta conseguir alinear el eje de salida en la dirección indicada por el eje de entrada. J f y(t) u(t) amplificador Figura 2.1: Bucle abierto de un servomecanismo de posición 19 Introducción a los sistemas realimentados 20 En la figura 2.1 se muestra el bucle abierto de un servomecanismo. En ella se pone de manifiesto cómo, mediante una amplificador la señal u(t) adquiere el nivel adecuado para actuar sobre un motor, cuyo eje representa la posición de salida del servomecanismo. Este eje es solidario con una inercia J y una fricción f. En la figura 2.2 se muestra el bucle cerrado del servomecanismo. Al esquema de la figura 2.1 se ha añadido una señal de referencia r(t) que se compara con la salida del motor, y cuya discrepancia da lugar al error e, a partir del cual se obtiene la señal u(t). J f r(t) + e(t) K u(t) amplificador y(t) - Figura 2.2: Bucle cerrado de un servomecanismo de posición En la figura 2.1 se puede hacer la hipótesis de que el par del motor es proporcional a la señal eléctrica de alimentación del amplificador u(t). Con este supuesto se puede escribir que la posición del motor y(t) viene dada por la ecuación diferencial: J d2 y dy +f = u(t) 2 dt dt siendo en este caso y(t) el ángulo girado por el motor, J la inercia del conjunto motor-carga, y f el coeficiente de fricción viscosa del mismo conjunto. Para que un sistema de control realimentado actúe aceptablemente, necesita satisfacer unas determinadas especificaciones de funcionamiento, tanto para su régimen permanente como para su transitorio que, normalmente, no se consigue con los elementos que consituyen el bucle de control. Hay veces en que un simple aumento de la ganancia estática es suficiente para lograr precisión, sin que se afecte demasiado a las caracterı́sticas en estado transitorio. No obstante, como lo normal es que éstas se vean empeoradas con una actuación de este tipo, o en el mejor de los casos, no se consigan exactamente las Introducción a los sistemas realimentados 21 que se pretende que tenga el sistema, es por lo que se desarrollaran a continuación los procedimientos de compensación que se han dado en llamar en llamar clásicos ya que fueron los primeros que se utilizaron. Se emplean tres tipos de acciones: • Acción proporcional más derivada (PD); • Acción proporcional más integral (PI) y • Acción proporcional más integral y más derivada (PID). 2.2 Acción proporcional más derivada (PD). Tiene lugar cuando la señal de mando del sistema es la suma de los términos, proporcional y derivado de la señal de error. En este caso se dice que la compensación es del tipo PD. Considérese el servomecanismo elemental descrito en el párrafo anterior. Se va estudiar el caso en que la señal de mando sea proporcional al error y a su derivada, es decir el caso en que se tenga una acción PD. La señal de mando será, por lo dicho, de u(t) = K e + Kd dt quedando d2 y dy de J 2 +f = Ke + Kd (2.1) dt dt dt y como e = r − y J d2 y dy dr dy + f = Kr − Ky + K − K d d dt2 dt dt dt J d2 y dy dr + (f + K ) + Ky = Kr + K d d dt2 dt dt (2.2) La ecuación 2.1 muestra que el sistema es excitado ahora por la señal de error y por un impulso. La consecuencia inmediata es que el efecto corrector (inversión del par motor) se aplica antes que cuando el control era sólo proporcional, como se muestra en la figuras 2.3.a y 2.3.b. En efecto, con control proporcional solamente, Introducción a los sistemas realimentados 22 el error cambia de signo en el punto f de la figura 2.3.b mientras que si la señal de error es del tipo PD indicado, el cambio de signo se verifica en el instante g de la figura 2.3.d, es decir, el par corrector se aplica antes de que la señal de salida llegue al valor de la de referencia. En consecuencia, la sobreoscilación será menor. La red PD tiene ası́ un caracter anticipativo, ya que en cierta manera se anticipa a lo que va a ocurrir. Esta misma consecuencia se pone de manifiesto en la ecuación 2.2, que muestra la ecuación diferencial del sistema en bucle cerrado. En ella se aprecia que el coeficiente de la primera derivada se ha incrementado en el valor Kd , es decir, el efecto ha sido aumentar la fricción del sistema primitivo y, por tanto, hacer que el conjunto tenga una respuesta temporal con menor sobreoscilación. Por otro lado, también en la ecuación 2.2 se aprecia que la parte no homogenea de la ecuación diferencial no es un escalón, sino un escalón más un impulso. Ello determina que el sistema responda más rápidamente ya que no sólo es sensitivo a la referencia, sino que también lo es a su variación. Todo se pone de manifiesto observando las figuras 2.4. De lo anterior se desprenden las dos caracterı́sticas esenciales de una acción PD : 1. Disminución de la sobreoscilación 2. Disminución del tiempo de subida Estos efectos se han considerado para un caso particular y especialmente simple, el de un servomecanismo elemental de posición. Sin embargo son igualmente válidos, en general, para una amplia variedad de sistemas fı́sicos. 2.3 Acción proporcional más integral (PI). En este caso, la señal de mando es la suma de un término proporcional y otro integral, de la señal de error. u(t) = K e + Ki Z t 0 e dt Sea un sistema como el de la figura 2.5, al que se le ha incorporado una acción integral en paralelo con la acción proporcional, es decir, se le ha dotado de una acción PI. Introducción a los sistemas realimentados 23 y y r (a) t e (b) f t de dt (c) t e+ de dt (d) g y t y r (e) t Figura 2.3: Compensación con PD. Introducción a los sistemas realimentados 24 respuesta a Kr y r (a) respuesta a Kd dr dt t y respuesta a Kr + Kd dr dt r (b) t Figura 2.4: Respuesta temporal con red PD. Ki + R + e − G(s) K θ + Figura 2.5: Diagrama de un sistema con regulación PI Introducción a los sistemas realimentados 25 Supóngase que a dicho sistema, en un régimen estacionario, se le aplica un par externo Pe sobre la carga, es decir, sobre el eje de salida. El sistema reaccionará tratando de anular dicho par puesto que la aplicación del mismo, determina la aparición de un error, el cual alimenta al motor y le obliga a sumintrar un par creciente con el tiempo. Si la acción de la red fuese sólo proporcional, es claro que el equilibrio se alcanzaria cuando el par generado por el motor fuese igual al aplicado externamente. Interesa ver con cierto detenimiento lo que ocurre cuando la acción de mando es del tipo PI. Para ello, en primer lugar, se establecen las ecuaciones que rigen la evolución del sistema y que resultan ser J Z t d2 y dy + f + P = Ke + K e dt e i dt2 dt 0 siendo Pe el par externo aplicado y e = r − y Eliminado y se tiene Z t d2 r d2 e dr de Pe + J 2 − J 2 + f −f = Ke + Ki e dt dt dt dt dt 0 Z t d2 r dr d2 e de Pe + J 2 + f = J 2 + f + K e + Ki e dt dt dt dt dt 0 Si la referencia es un escalón, se tendrá que dr =0 dt y d2 r =0 dt2 En el régimen permanente, cuando t → ∞, si la introducción del integrador no ha hecho inestable al sistema, se tendrá que de =0 dt y con lo cual, Pe = K ep + Ki d2 e =0 dt2 Z ∞ 0 e dt Introducción a los sistemas realimentados 26 Como Pe es finito, la única formaR de que se cumpla la ecuación anterior es que ep = 0 ya que en caso contrario, 0∞ edt → ∞. En consecuencia, el sistema reacciona eliminando el error en regimen permanente (ep ). Por lo dicho, una red PI mejora considerablemente el régimen permanente, no sólo de una manera cuantitativa, sino esencialmente cualitativa por cuanto que cambia el tipo del sistema, es decir, no es que el sistema se mejore, sino que se convierte en otro, de caracterı́sticas distintas. La interpretación fı́sica del fenómeno es muy simple. La aplicación del par externo Pe , tiende a separar la posición del eje de salida del valor en que la ha fijado la señal de referencia (figura 2.6.a). Ello trae consigo la aparición del consiguiente error (figura 2.6.b). Si la señal de actuación sobre el sistema es proporcional al error, más su integral, se aplica una señal tal como la que se muestra en la figura 2.6.d. El fenómeno que se produce entonces puede interpretarse diciendo que el par del motor empezará a crecer hasta que vence al que se aplica exteriormente. La evolución del error y de la señal de salida se muestran en las figuras 2.6.e y 2.6.f. Obsérvese cómo es el elemento integrador el que mantiene la señal sobre el motor para que éste venza al par exterior. Introducción a los sistemas realimentados 27 r θ a) t e b) z t R edt c) t e+ R edt d) t R e edt e) z t r θ f) t Figura 2.6: Respuesta temporal a red PI Tema 3 Sistemas dinámicos lineales 3.1 Transformación de Laplace En esta sección vamos a repasar la transformada de Laplace que suministra una herramienta de gran interés para el estudio de los sistemas cuya descripción matemática viene dada por ecuaciones lineales invariantes en el tiempo. 3.1.1 Definición El método de la transformada de Laplace es un método opcional que puede utilizarse con ventaja para la resolución de ecuaciones diferenciales lineales. La transformada de Laplace se define como: L [f (t)] = F (s) = Z ∞ 0 f (t)e−st dt f (t) es una función del tiempo tal que f (t) = 0 para t < 0, s = σ + jw una variable compleja y L un simbolo operacional. La existencia de la transformada F (s) está condicionada a la convergencia de la integral. Si existe una constante real y positiva σ tal que para σ > σc , e−σt | f (t) | tiende a cero cuando t → ∞, mientras que para σ < σc tiende a infinito. El valor σc recibe el nombre de abscisa de convergencia. La integral converge, y por tanto existe la transformada de Laplace, si la parte real de s, (σ) es mayor que la 28 Sistemas dinámicos lineales 29 abscisa de convergencia σc . En término de los polos de la función F (s), la abscisa de convergencia σc , corresponde a la parte real del polo más alejado hacia la derecha en el plano s. A la función f (t) se la conoce como la anti-transformada de Laplace, F (s) y se expresa ası́, f (t) = L−1 [F (s)] En la tabla siguiente se tienen las transformadas de Laplace de las funciones más usuales en automática. Tabla de Transformadas de Laplace Señal Impulso Escalon Rampa Parábola Rampa de orden n Decrecimiento exponencial Onda sinusoidal Onda cosenoidal Sinusoide con decrecimiento exponencial Cosenoide con decrecimiento exponencial 3.1.2 f (t) δ(t) 1 (t ≥ 0) t(t ≥ 0) 2 t (t ≥ 0) tn (t ≥ 0) e−αt senωt cosωt −αt e senωt e−αt cosωt F (s) 1 1 s 1 2 s 2 s3 n! sn 1 (s+α) ω (s2 +ω 2 ) s (s2 +ω 2 ) ω ((s+α)2 +ω 2 ) s+α ((s+α)2 +ω 2 ) Resumen de Propiedades F1 (s)+ 1. Linealidad: Si F1 (s) y F2 (s) son las transformadas de f1 (t) y f2 (t), F2 (s) es la transformada de Laplace de f1 (t) + f2 (t), según se desprende de la definición. 2. Derivación real: Si L [f (t)] = F (s), entonces " # df (t) = sF (s) − f (0) L dt Sistemas dinámicos lineales 30 R∞ En efecto, como F (s) = haciendo 0 f (t) e−st , realizamos la integración por partes Z 1 e−st dt = − e−st y dv = e−st dt s 0 u = f (t) ; du = f (t) dt ; v = Z Z u dv = uv − vdu por lo que resulta, Z ∞ 0 F (s) = " −st f (t) e f (t)e−st dt = − s #∞ f (0) 1 Z ∞ 0 + f (t) e−st dt, s s 0 − Z ∞ 0 1 − e−st f 0 (t)dt =⇒ s 0 Z ∞ pero f 0 (t) e−st dt = L [f 0 (t)] 0 luego: L [f 0 (t)] = sF (s) − f (0) c.q.d. 3. Integración real: Si L [f (t)] = F (s), L ·Z t ¸ F (s) f (τ ) dτ = + s 0 Si en la expresión F (s) = R∞ 0 R f (0) dt s f (t) e−st dt se hace: u = e−st ; du = −se−st dt Z v= f (t) dt; dv = f (t)dt se tiene que, F (s) = Z ∞ 0 · st ¸∞ Z −st f (t)e dt = e f (t)dt − 0 Z =− f (0)dt + s Z ∞ ·Z 0 Z ∞ 0 ·Z −st −se ¸ f (t)dt e−st dt ; ¸ f (t)dt dt = Sistemas dinámicos lineales y como 31 Z ∞ ·Z ¸ f (t)dt e 0 ·Z ·Z −st dt = L ¸ F (s) f (t)dt = + s L R ¸ f (t)dt =⇒ f (0)dt c.q.d. s 4. Teorema del valor final: Hay veces en que hechas las operaciones precisas con la ecuación transformada, interesa conocer el valor de la función f (t) cuando t → ∞, que en el caso de un servosistema, corresponderı́a al régimen permanente. El procedimiento consistirı́a en hallar la antitransformada y hacer que t → ∞. El procedimiento es laborioso y resulta mucho más cómodo verificar el valor de la variable sobre la propia ecuación transformada. Supondremos que existe L [f (t)] y L [f 0 (t)] y demostraremos que, lim f (t) = lim sF (s) t→∞ s→0 Sabemos que Z ∞ 0 f 0 (t)e−st dt = sF (s) − f (0) lim Z ∞ s→0 pero lim s→0 Z ∞ 0 0 haciendo que s → 0 f 0 (t)e−st dt = lim [sF (s) − f (0)] (3.1) s→0 f 0 (t)e−st dt = Z ∞ 0 f 0 (t)dt = lim Z t t→∞ 0 = lim [f (t) − f (0)] t→∞ y sustituyendo en 3.1, se tiene, lim [f (t) − f (0)] = lim [sF (s) − f (0)] t→∞ s→0 y como f (0) no depende de t ni de s, queda, lim f (t) = lim sF (s) c.q.d. t→∞ s→0 f 0 (τ )dτ = Sistemas dinámicos lineales 32 5. Teorema del valor inicial: Si lo que nos interesa conocer del sistema es su comportamiento cuando t → 0, que corresponderı́a en un servosistema a conocer su comportamiento transitorio, se puede hallar también sobre la ecuación transformada, ya que lim f (t) = s→∞ lim sF (s) t→0 Al igual que antes, en la expresión L [f 0 (t)] = Z ∞ f 0 (t)e−st dt = sF (s) − f (0) hacemos que s → ∞ 0 lim Z ∞ f 0 (t)e−st dt = lim [sF (s) − f (0)] s→∞ s→∞ 0 y como el primer miembro es cero, lims→∞ sF (s) = lims→∞ f (0) = f (0) ya que f (0) no depende de s y como f (0) es limt→0 f (t) quedará lim f (t) = lim sF (s) c.q.e. s→∞ t→0 6. Integral de Convolución: Sean F1 (s) = L [f1 (t)] y F2 (s) = L [f2 (t)] El producto de ambas, F1 (s) ∗ F2 (s) = = Z ∞ 0 f1 (t)e Z ∞ Z ∞ 0 0 −st dt Z ∞ 0 f2 (τ )e−sτ dτ = (3.2) f1 (t)f2 (τ )e−s(t+τ ) dt dτ Haciendo el cambio de variables, t = u−v τ = v v = τ u = t+τ el Jacobiano de la transformación vale, ¯ ¯ t, τ ¯ J( ) = ¯¯ u, v ∂t ∂u ∂τ ∂u ∂t ∂v ∂τ ∂v ¯ ¯ ¯ ¯ ¯ 1 −1 ¯ ¯ ¯ ¯ ¯=¯ ¯=1 ¯ ¯ 0 1 ¯ (3.3) Sistemas dinámicos lineales 33 Como t > 0, u > v luego v viariará de 0 a u. La ecuación 3.3 queda F1 (s) ∗ F2 (s) = = Z ∞ Z u Z0∞ ·Z0 u 0 f1 (u − v) f2 (v)e−su dv du = ¸ f1 (u − v) f2 (v)dv e−su du 0 luego F1 (s) ∗ F2 (s) = L ·Z u 0 ¸ f1 (u − v) f2 (v) dv La expresión encerrada en el corchete se conoce como integral de convolución y representa la antitransformada del producto de dos transformadas. 3.1.3 Calculo de antitransformadas Con el cálculo de antitransformadas se pretende determinar a partir de la transformada de Laplace F(s) la correspondiente antitransformada; es decir, f (t) = L−1 [F (s)] La transformada posee sólo polos reales y simples Supongase que el denominador de la función de la que se quiere hallar la antitransformada, F (s), es de la forma d(s) = (s + p1 )(s + p2 ) . . . (s + pn ) de modo que los diferentes pi son reales y diferentes entre si. En tal caso la función F (s) admite una descomposición en fracciones simples de la forma F (s) = n(s) a1 a2 an = + + ... + d(s) s + p1 s + p2 s + pn los coeficientes ai reciben la denominación de residuos de F (s) en s = −pi . Multiplicando los dos miembros de la expresión anterior por (s+pi ) y haciendo s = −pi se tiene Sistemas dinámicos lineales 34 " n(s)(s + pi ) ai = d(s) # s=−pi puesto que se sabe, de la tabla de transformadas, que " L −1 # ai = = ai e−pi t (s + pi ) se tiene que f (t) = a1 e−p1 t + a2 e−p2 t + . . . an e−pn t En esta expresión se pone de manifiesto que a cada pi se asocia una función (una trayectoria o un comportamiento) de la forma e−pi t . Estas funciones reciben la denominación de modos naturales del sistema. Se dice que un modo natural es asintóticamente estable si pi ≥ 0. Ejemplo Sea la transformada de Laplace F (s) = (s + 3) (s + 1)(s + 2) se tiene que los residuos resultan ser " (s + 3) a1 = (s + 2) " (s + 3) a2 = (s + 1) # =2 s=−1 # = −1 s=−2 luego f (t) = 2e−t − e−2t t ≥ 0 La transformada posee polos complejos Supongamos ahora que la transformada de Laplace posee un par de polos complejos conjugados p1 y p¯1 . En tal caso la descomposición en fracciones simples tomará la forma: Sistemas dinámicos lineales F (s) = 35 n(s) α1 s + α2 a3 an = + + ... + d(s) (s + p1 )(s + p̄1 ) s + p3 s + pn Si se multiplican los dos miembros de esta expresión por (s + p1 )(s + p¯1 ), y se hace s = −p1 , se tendrá: " (α1 s + α2 )s=−p1 n(s)(s + p1 )(s + p̄1 ) = d(s) # s=−pi Esta expresión permite determinar α1 y α2 igualando partes reales e imaginarias. Para hallar la antitransformada correspondiente al término asociado al par complejo basta recordar que: " L1 " L1 # ω = e−αt senωt ((s + α)2 + ω 2 ) # s+α = e−αt cosωt ((s + α)2 + ω 2 ) En concreto, si se supone: p1 = a + jω y p¯1 = a − jω se tendrá α1 s + α2 α1 s + α2 = = (s + p1 )(s + p̄1 ) (s + a + jω)(s + a − jω) " # " # s+a (α2 − α1 a) ω α1 + ((s + a)2 + ω 2 ) ω ((s + α)2 + ω 2 ) Ejemplo Sea la transformada de Laplace F (s) = (s + 1) s(s2 + 2s + 2) Sistemas dinámicos lineales Se tiene: 36 " (s + 1) a3 = 2 (s + 2s + 2) # = s=0 1 2 Por tanto, 11 1 s − 2 2 s 2 s + 2s + 2 11 1 s = − 2 s 2 (s + 1)2 + 1 11 1 s+1 1 1 = − + 2 2 s 2 (s + 1) + 1 2 (s + 1)2 + 1 F (s) = De donde se tiene, f (t) = 1 1 −t 1 − e cosωt + e−t senωt t ≥ 0 2 2 2 La transformada posee polos múltiples Supóngase que una de las raices del polinomio del denominador de la transformada de Laplace es múltiple. Por ejemplo, supóngase que la raiz p1 tiene multiplicidad r. En tal caso el denominador admitirá la descomposición: d(s) = (s + p1 )r (s + p2 ) . . . (s + pn ) En tal caso, la transformada de Laplace admite la descomposición: F (s) = n(s) br br−1 b1 a2 an = + + ... + + + ... + r r−1 d(s) (s + p1 ) (s + p1 ) s + p1 s + p2 s + pn Si se multiplican los dos miembros de esta expresión por (s + p1 )r se tendrá: " n(s)(s + p1 )r bi = d(s) # s=−p1 Obsérvese que r r−1 (s+p1 ) F (s) = br +br−1 (s+p1 )+. . .+b1 (s+p1 ) an (s + p1 )r a2 (s + p1 )r +. . .+ + s + p2 s + pn derivando esta expresión con respecto a s se tiene Sistemas dinámicos lineales 37 d [(s + p1 )r F (s)] = br−1 + 2br−2 (s + p1 ) . . . + (r − 1)b1 (s + p1 )r−2 + ds " # " d a2 (s + p1 )r d an (s + p1 )r + ... + ds s + p2 ds s + pn # y haciendo en esta expresión s = −p1 se tiene d [(s + p1 )r F (s)]s=−pi = br−1 ds Derivando de nuevo con respecto a s y procediendo análogamente se tiene br−2 = 1 d2 [(s + p1 )r F (s)]s=−p1 2 ds2 En general se tendrá br−j 1 dj = [(s + p1 )r F (s)]s=−p1 j j! ds Ejemplo Sea F (s) = s2 + s + 2 (s + 1)3 que se desconpone F (s) = b3 b2 b1 + + 3 2 (s + 1) (s + 1) (s + 1) Se tendrá b3 = [s2 + s + 2]s=−1 = 2 b2 = [2s + 1]s=−1 = −1 b1 = 1 Por tanto F (s) = 2 1 1 − + (s + 1)3 (s + 1)2 (s + 1) De donde se tiene, f (t) = (t2 − t + 1)e−t Sistemas dinámicos lineales 3.2 38 Noción de sistema dinámico. Uno de los conceptos básicos empleados en automática es el de sistema. En el lenguaje ordinario se entiende por sistema una colección de objetos unidos por cierta forma de interacción o interdependencia. En el contexto de la automática el concepto de sistema adquiere un significado más preciso. Considérese un objeto fı́sico, α, por ejemplo un motor eléctrico, al cual aparecen asociadas una serie de magnitudes, como pueden ser su velocidad de giro, la intensidad que alimente el inducido, etc. Desde el punto de vista que interesa en automática lo que conviene de α son las relaciones matemáticas entre las distintas magnitudes m1 (t), m2 (t)...mn (t) que se asocian a dicho objeto fı́sico. Estas relaciones constituyen un objeto abstracto, por abstracción de unas caracterı́sticas de un objeto fı́sico. En automática los objetos fı́sicos que intervienen son tales que las magnitudes fı́sicas que a ellos se asocian se pueden clasificar en dos grupos: 1. magnitudes cuyo valor puede ser variado directamente desde el exterior del objeto fı́sico, que reciben el nombre de señales de entrada, de control, de mando o estı́mulos; y 2. magnitudes cuyo valor puede ser medido pero cuya variación es indirecta, a través de las señales de entrada, y que reciben el nombre de señales de salida, de observación o respuestas. Para denotar a las señales de entrada se emplea u(t), y para las señales de salida se emplea y(t), siendo, en general, u(t) e y(t) vectores. P Se entiende por sistema el objeto abstracto formado por las relaciones que ligan las señales u(t) e y(t). Un sistema se presenta en forma esquemática como se hace en la figura 3.1, representación que recibe el nombre de diagrama funcional del sistema. Definido ası́ un sistema representa una formalización del uso vulgar de este término. El problema de la representación matemática de los sistemas se reduce a encontrar la forma matemática, bien sea una ecuación o, de forma más general, un algoritmo, que permita generar los pares de señales u(t), y(t) que definen el sistema. Las señales u(t) e y(t) pueden registrarse o bien de una manera contı́nua en el Sistemas dinámicos lineales 39 Σ u(t) y(t) Figura 3.1: Sistema dinámico tiempo, o bien de una forma discontı́nua, es decir tomando medidas cada cierto intervalo de tiempo. En el primer caso se tienen los llamados sistemas en tiempo contı́nuo y en el segundo los sistemas en tiempo discreto. Estos últimos tienen un particular interés práctico cuando se emplean computadores puesto que estas máquinas trabajan de una forma discreta. 3.3 Formas de las relaciones entrada-salida en sistemas. Se ha indicado en la sección 3.2, que un sistema está formado por las relaciones matemáticas que ligan las señales u(t) e y(t) que lo definen. En esta sección se van a considerar algunas formas matemáticas de las relaciones que ligan a las señales u(t) e y(t) en tipos de sistemas comúnmente encontrados en la práctica. Sin embargo, en el resto de estos apuntes sólo se estudiará una de las clases consideradas en esta sección. Una posible primera clasificación elemental de las relaciones que ligan a las señales de entrada y salida de los sistemas, es en sistemas estáticos y sistemas dinámicos. 3.3.1 Sistemas estáticos. El caso más simple de relación entre las señales u(t) e y(t) es aquél en que ésta se reduce a una ecuación algébrica. Por una consideración elemental de realizabilidad fı́sica es claro que en tal caso se podrá escribir: y(t) = F {u(t)} (3.4) en donde, para los casos de interés práctico F{.} es una función uniforme. Los sistemas que admiten esta forma de representación reciben el nombre de sistemas Sistemas dinámicos lineales 40 estáticos, y son aquéllos en los que el valor que toma la señal de salida y(t), en un cierto tiempo t depende exclusivamente del valor tomado por la señal de entrada u(t) en dicho instante de tiempo t, y no de los valores tomados por u(t) en el pasado. Los sistemas lógicos combinacionales, constituyen un ejemplo de sistemas estáticos definidos por la propiedad de que las señales de entrada u(t) y salida y(t) toman sus valores del conjunto finito U = Y = {0, 1}. Para la representación matemática de los sistemas lógicos combinacionales se recurre a tablas en las que se indican para cada combinación posible de los valores de las señales de entrada, los correspondientes de la señales de salida. Desde un punto de vista matemático estas tablas constituyen una de las formas más simples de representar una función. 3.3.2 Sistemas dinámicos Normalmente las relaciones que ligan las magnitudes fı́sicas que definen un sistema no son ecuaciones algebraicas, que conducen a sistemas estáticos, sino ecuaciones diferenciales. Ello es debido a que la mayor parte de las leyes de la fı́sica se expresan por medio de esta clase de ecuaciones. Aquı́ se considerarán exclusivamente las ecuaciones diferenciales de la forma, dn y dy dn u + ... + a + a (t)y = b (t) + ... + bn (t)u n−1 n 0 dtn dt dtn (3.5) llamadas ecuaciones diferenciales lineales. El hecho de limitarse a esta clase de ecuaciones diferenciales es debido a: 1. sólo para esta clase de sistemas es posible establecer, en la actualidad, una teorı́a que sea a la vez general y simple; y 2. al menos en una primera aproximación, gran parte de los sistemas encontrados en la práctica admiten esta forma de representación. Cabe considerar que la teorı́a de sistemas lineales es a la teorı́a de sistemas nolineales, como la geometrı́a euclidea es a las formas de geometrı́a no-euclidea. Es sabido que la geometrı́a euclı́idea es un útil de un interés práctico incuestionable; lo mismo sucede con la teorı́a de los sistemas lineales. Otra relación entre la entrada y salida de un sistema es la que presentan las ecuaciones en diferencias finitas. De ellas las que mayor interés tienen son, por Sistemas dinámicos lineales 41 consideraciones semejantes a las realizadas más arriba respecto a las ecuaciones diferenciales lineales, las ecuaciones en diferencias finitas lineales cuya forma general es, y(t+n)+...+am−1 y(t+1)+am y(t) = b0 u(t+n)+...+bn−1 u(t+1)+bm u(t) (3.6) Los sistemas descritos por las ecuaciones en diferencias finitas son sistemas en tiempo discreto, en los que la escala de tiempos toma sólo una serie de valores discretos. Esta forma de relación se presenta en aquellas aplicaciones en las que se emplean computadores. Por último cabe recordar como otra forma de relación entre las señales de entrada y salida de un sistema la que ofrecen los diagramas de estados de los circuitos lógicos secuenciales (o, más general, de los autómatas). En dichos diagramas se tenı́a representada la evolución de las señales de entrada u(t) y de salida y(t) de un sistema cuya caracterı́stica adicional es que las señales de entrada y de salida sólo podrı́an tomar sus valores de un conjunto finito. Los sistemas descritos por ecuaciones diferenciales, por ecuaciones en diferencias finitas, o por diagramas de estados reciben la denominación de sistemas dinámicos y en ellos el valor tomado por la señal de salida y(t), en un cierto instante de tiempo t depende del valor tomado por u(t), no sólo en el instante t (como sucedı́a en los estáticos), sino en todos los instantes anteriores a t. En ellos, por lo tanto, la consideración del tiempo juega un papel esencial. De ahı́ la denominación de dinámicos. Obsérvese que los sistemas estáticos pueden considerarse como una forma particular y degenerada de los dinámicos por lo que son estos últimos los únicos que se consideran en lo que sigue. En estos apuntes no se tratarán explı́citamente, los sistemas lógicos secuenciales. No obstante si éstos son lineales son susceptibles de ser estudiados con las técnicas aquı́ desarrolladas. Sin embargo, ello no se hará aquı́ de forma explı́cita. La forma de representación de los sistemas dinámicos por ecuaciones diferenciales, o por ecuaciones en diferencias finitas, no tiene interés práctico para el desarrollo de la automática. Para el estudio de los sistemas dinámicos se han desarrollado dos formas peculiares de representación, que son la descripción externa y la descripción interna que se pasan a estudiar a continuación. Sistemas dinámicos lineales 3.4 42 Descripción externa de los sistemas dinámicos. Puesto que las señales que definen un sistema dinámico son las de entrada u(t) y las de salida y(t) interesa disponer de una relación explicita directa entre ambas. Esta relación la suministra la descripción externa que se define por una función de entrada-salida F tal que hace corresponder al conjunto de valores tomados por la señal de entrada u en un cierto intervalo (t0 , t), el valor tomado por la salida y(t) en el instante t. Formalmente se puede escribir, y(t) = F (u[t0 , t]) (3.7) en donde F (.) es un funcional, es decir una función cuyo argumento lo constituye el conjunto de valores tomados por u(t) en el intervalo (t0 , t). Desde el punto de vista de la descripción externa un sistema dinámico lineal se define cono áquel que cumple la propiedad de linealidad, en virtud de la cual, F (α1 u1 [t0 , t] + α2 u2 [t0 , t]) = α1 F (u1 [t0 , t]) + α2 F (u2 [t0 , t]) en donde α1 , α2 son números reales arbitrarios. Esta propiedad recibe también, impropiamente, la denominación de principio de superposición. Habitualmente se emplean dos formas de descripción externa: la respuesta impulsional y la función de transferencia. 3.4.1 Respuesta impulsional. Una forma de escribir la solución a una ecuación diferencial como la de la expresión (3.5) es la siguiente: y(t) = Z t −∞ h(t, τ )u(τ )dτ (3.8) en donde h(t, τ ) recibe el nombre de respuesta impulsional del sistema. La expresión (3.8) es una forma de descripción externa de un sistema dinámico ya que corresponde al caso de una función lı́neal. La respuesta impulsional de un sistema puede tener las siguientes propiedades: Sistemas dinámicos lineales 43 1. Propiedad de causalidad o realizabilidad, en virtud de la cual un efecto no puede preceder a una causa, lo que implica que h(t, τ ) = 0 para t<τ 2. Propiedad de estabilidad, en virtud de la cual la estabilidad del sistema exige la convergencia de (3.8), lo que se traduce en lim h(t, τ ) = 0 t→∞ 3. Propiedad de estacionaridad, en virtud de la cual el sistema es invariante con el tiempo, lo que se traduce en que h(t, τ ) = h(t − τ, 0) = h(t − τ ) Ejemplo: Sea el sistema dinámico descrito por la ecuación diferencial, dy + ay = bu dt En donde a y b son dos números reales. La solución de esta ecuación de la forma de la expresión (3.8) es la siguiente, y(t) = Z t −∞ e−a(t−τ ) b u(τ )dτ En donde la respuesta impulsional h(t, τ ) = be−a(t−τ ) , es claro que cumple las propiedades de causalidad, estabilidad y estacionaridad. La respuesta impulsional admite un significado adicional muy preciso. Supóngase un sistema con una sola entrada y una sola salida. Supóngase, además, que dicho sistema se somete a la siguiente señal de entrada: u(t) = δ(t1 ) en donde δ(t) es la función de Dirac. En tal caso se tiene que, y(t) = h(t, t1 ) 44 y(t) Sistemas dinámicos lineales t Figura 3.2: Respuesta Impulsional si el sistema no es estacionario o y(t) = h(t − t1 ) si el sistema es estacionario. En la figura 3.2 se muestra la respuesta impulsional del sistema del ejemplo anterior. De lo anterior se desprende que la respuesta impulsional de un sistema es determinable experimentalmente en la medida en que se pueda realizar fı́sicamente una señal de entrada u(t) = δ(t). Es sabido que esta última no tiene significado fı́sico, pero sin embargo se pueden concebir aproximaciones aceptables. Debe añadirse que en la práctica como realmente se miden las respuestas impulsionales es por las técnicas de correlación que no se van a tratar aquı́. Para sistemas multivariables, con m entradas y p salidas, la respuesta impulsional es una matriz, de dimensión p × m, cuyo término hi,j representa la respuesta del i-esimo canal de salida, cuando se aplica una entrada u(t) = δ(t) al canal j-esimo, siendo nulas el resto de las entradas. 3.4.2 Función de transferencia. Para los sistemas lineales estacionarios existe una forma de descripción externa muy empleada en la práctica: la función (matriz) de transferencia. Se puede Sistemas dinámicos lineales 45 definir la función de transferencia como la transformada de Laplace de la respuesta impulsional de un sistema. H(s) = Z ∞ 0 h(τ )e−τ s dτ (3.9) Aplicando la transformación de Laplace a la expresión (3.8), para el caso de un sistema estacionario, se tiene Y (s) = H(s) U (s) (3.10) en donde Y (s) y U (s) son, respectivamente, las transformadas de Laplace de las señales de entrada y salida. En la práctica la función de transferencia se determina directamente a partir de la ecuación diferencial. Un punto muy importante a considerar es que esta determinación se hace suponiendo condiciones iniciales nulas para las señales u(t) e y(t). Ejemplo: Sea el sistema descrito por la ecuación diferencial, d2 y dy + a + a2 y = bu 1 dt2 dt La transformada de Laplace de los distintos términos de la ecuación es la siguiente, s2 Y (s) + a1 sY (s) + a2 Y (s) = bU (s) Con lo que se tiene, b Y (s) = H(s) = 2 U (s) s + a1 s + a2 es decir que la transformación de Laplace de la respuesta impulsional es la función de transferencia. Para el caso de sistemas multivariables con m entradas y p salidas la función de transferencia se convierte en una matriz cuyo término Hij representa el cociente Sistemas dinámicos lineales 46 entre la transformada de Laplace de la señal de salida que se obtiene por el canal i y la transformada de Laplace de la señal de entrada que se aplica al canal j, supuestas nulas las otras señales de entrada. 3.5 Sistemas de control realimentados Un sistema de control realimentado se representa esquemáticamente como se indica en la figura 3.3. Sobre este esquema vamos a recordar una serie de conceptos que consideramos de interés. r(t) + º· e ¡ -@ @¡ ¡ @ ¡ @ ¹¸ − 6m u K y(t) - H(s) G(s) - ¾ Figura 3.3: Sistema de Control realimentado • Cadena directa o de acción, es la que une los elementos comprendidos entre la señal de error y la de salida. Ambas señales están relacionadas por la expresión, Y (s) = KG(s) E(s) siendo G(s) la función de transferencia del sistema considerado. • Cadena de realimentación, es la que une la señal de salida con la de información m(t), que es comparada con la de referencia. Ambas señales se relacionan ası́, Sistemas dinámicos lineales 47 M (s) = H(s) Y (s) En este caso H(s) es la función de transferencia de la cadena de realimentación. • Se llama bucle abierto, al conjunto de elementos que constituyen todo el sistema, si este se abriese por el punto m(t), es decir, como si la señal de entrada fuese e(t) y la de salida m(t). La función de transferencia del conjunto ası́ dispuesto serı́a M (s) = KG(s)H(s) E(s) • Se llama bucle cerrado, al sistema conectado como se indica en la figura 3.3. Las señales y(t) y r(t) se relacionan por la conocida fórmula, fácil de deducir, Y (s) KG(s) = R(s) 1 + KG(s)H(s) Obsérvese que, en este caso, la señal de actuación sobre el sistema es proporcional a la señal de error. Se trata pues de un control proporcional (P). El valor de la ganancia K del amplificador será, por tanto, un parámetro susceptible de ser variado de acuerdo con las necesidades del problema. En lo que sigue se supondra siempre que la cadena de realimentación es unitaria, con lo que el esquema fundamental quedará de la forma que se indica en figura 3.4 y quedando la función de transferencia en bucle cerrado reducida a Y (s) KG(s) = R(s) 1 + KG(s) Naturalmente en este caso cadena de acción y bucle abierto son dos conceptos coincidentes. Por el hecho de introducir una compensación sobre el bucle antes mencionado, el esquema se modifica de alguna manera, como se muestra más adelante. Se distinguen dos tipos de compensación: Sistemas dinámicos lineales 48 r(t) + º· e u ¡ @¡ -@ ¡@ ¡ @ ¹¸ − 6m y(t) - K - G(s) Figura 3.4: Sistema de Control realimentado unitariamente • Compensación en serie: Cuando el elemento corrector se coloca en cascada, en la cadena de acción; y • Compensación por realimentación: Cuando el elemento corrector constituye una segunda cadena de realimentación, en el bucle de control. Los esquemas básicos para uno y otro caso se muestran, respectivamente, en las figuras 3.5 y 3.6. u0 r(t) + ¶³ e µ´ − 6m Gr (s) - u K - y(t) G(s) Figura 3.5: Compensación en serie Como ya se ha indicado, en el caso de la compensación en serie, la red correctora se coloca en cascada con los elementos de la cadena de acción, y delante del - Sistemas dinámicos lineales 49 r(t) + º· e º· ¡ -@ ¡ -@ @¡ @¡ ¡@ ¡@ ¡ @ ¡ @ ¹¸ ¹¸ 6 − 6m u K y(t) - Gr (s) G(s) ¾ Figura 3.6: Compensación por realimentación amplificador para que el nivel de potencia a que trabaje sea el del error, es decir, bajo. - Tema 4 Interpretaciones de la función de transferencia 4.1 Transformación de Fourier Dada una función del tiempo periódica fT (t) de periodo T , se puede desarrollar en serie de Fourier, de la forma: fT (t) = a0 + ∞ X (an cos wn t + bn sen wn t) n=1 donde wn = 2πn y los coeficientes vienen dados por: T 2 Z T /2 an = fT (t)cos wn tdt T −T /2 bn = 2 Z T /2 fT (t)sen wn tdt T −T /2 n = 0, 1, 2, ... n = 1, 2, ... supuesto que dichas integrales sean finitas. Los coeficientes an y bn son funciones de wn , pero no del tiempo, por lo que fT (t) queda definida mediante los módulos de los componentes armónicos 50 Interpretaciones de la función de transferencia 51 que lo integran; ahora bien, tomando como parámetros, por agrupación de las componentes en seno y coseno de igual frecuencia los valores: Ã q cn = ϕn = tag −1 a2n + b2n bn an ! cada término puede expresarse como an cos wn t + bn sen wn t = cn sen(wn t + ϕn ) Por lo tanto, para definir fT (t) basta con especificar la amplitud y el desfase que corresponde a cada frecuencia fundamental: fT (t) = a0 + ∞ X cn sen(wn t + ϕn ) n=1 Una vez que se ha mostrado como fT (t) queda completamente definida con a0 , cn y ϕn , pueden considerarse las relaciones, cosα = ejα + e−jα ; 2 senα = ejα − e−jα 2j Entonces, volviendo a tomar las ecuaciones de definición, an cos wn t + bn sen wn t = an = ejwn t + e−jwn t ejwn t − e−jwn t + bn = 2 2j (an − jbn ) jwn t (an + jbn ) −jwn t e + e 2 2 y efectuando análogas consideraciones con las integrales de definición de an y bn 1 Z T /2 an − jbn = fT (t)e−jwn t dt 2 T −T /2 Interpretaciones de la función de transferencia 52 an + jbn 1 Z T /2 = fT (t)ejwn t dt 2 T −T /2 n n Es decir an −jb tiene una expresión idéntica a an +jb sin más que cambiar wn 2 2 por − wn , esto es, n por -n, luego sustituyendo en el desarrollo en serie, puede escribirse # "Z ∞ T /2 1 X −jwn t fT (t)e dt ejwn t fT (t) = T n=−∞ −T /2 La cantidad entre corchetes representa una función compleja que tiene como parámetro el valor imaginario j wn , toda vez que el tiempo desaparece al integrar. Esta función recibe el nombre de Transformada de Fourier de la función temporal periódica fT (t): F (jwn ) = Z T /2 −T /2 fT (t)e−jwn t dt Es inmediato ver que, igual que cn y ϕn definı́an completamente fT (t), esta función queda completamente definida conociendo F (jwn ), con lo que basta una magnitud compleja para cada frecuencia: fT (t) = ∞ 1 X F (jwn )ejwn t T n=−∞ Ahora bien, como wn = luego 2πn ; T wn+1 − wn = 2π = ∆wn T ∞ 1 X fT (t) = F (jwn )ejwn t ∆wn 2π n=−∞ Si se hace crecer el periodo indefinidamente, T → ∞, el sumatorio tiende a la integral, ∆wn → dw, por lo que puede escribirse, finalmente, para una función no periodica (Transformación de Fourier o Integral de Fourier): F (jw) = Z ∞ −∞ f (t)e−jwt dt Interpretaciones de la función de transferencia f (t) = 53 1 Z∞ F (jw)ejwt dw 2π −∞ Supuesto que la integral de Fourier sea convergente, para lo cual debe cumplirse la condición de convergencia absoluta Z ∞ | f (t) | dt < ∞ −∞ Esta transformación o integral de Fourier permite expresar de forma análitica muchas funciones no periódicas, y de interés especial, que no son expresables mediante series de Fourier. Tal es, por ejemplo, el caso de la función ( f (t) = e−at t > 0 (a > 0) 0 t<0 La convergencia está asegurada por: Z ∞ −∞ | f (t) | dt = Z t 0 " −at e −e−at dt = a #∞ = 0 1 <∞ a y la transformada: F (jw) = Z ∞ −∞ f (t)e −jwt dt = Z ∞ 0 e−(a+jw)t dt = 1 a + jw Sin embargo, y aunque en muchos casos la Transformada de Fourier es suficiente, en otros casos de interés tales como funciones de tipo polinómico en t no son convergentes; por ejemplo, para el escalón unitario ( f (t) = u0 (t) = 1 0 t>0 t<0 la convergencia resulta: Z ∞ −∞ | u0 (t) | dt = Z ∞ 0 dt = ∞ Interpretaciones de la función de transferencia 54 y la transformada, F (jw) = Z ∞ 0 " e −jwt e−jwt dt = − jw #∞ 0 que sólo es convergente para w > 0. 4.2 Función de transferencia en el dominio de la frecuencia Si en la función de transferencia se hace s = jw ésta se convierte en una expresión compleja H(jw) que tiene la notable propiedad de que, para un cierto valor de la pulsación w, su módulo | H(jw) | y su argumento 6 H(jw) representan precisamente la atenuación y el desfase que sufre una señal sinusoidal de frecuencia f = 2π/w. Este hecho se ilustra en la figura 4.1. H(jω) =| H | 6 ϕ y(t) ϕ u(t) |H|A A t Figura 4.1: Respuesta en frecuencia Ejemplo: Considérese el sistema descrito por la ecuación diferencial, dy + ay = bu dt t Interpretaciones de la función de transferencia 55 sometido a una señal sinusoidal, de pulsación w y de amplitud unitaria. Es sabido que esta señal se puede representar en forma compleja u(t) = ejwt . La respuesta del sistema, en régimen estacionario, a la anterior señal de entrada es la solución particular de la anterior ecuación diferencial la cual se comprueba fácilmente que es, y(t) = b ejwt (jw) + a Esta notable propiedad de la función de transferencia es la que ha justificado el amplio uso de la misma en el análisis y diseño de servomecanismos y reguladores elementales. Nótese que esta propiedad lleva implı́cito un método experimental de medida de la función de transferencia de un sistema dinámico. Este método consiste, sencillamente, en la aplicación de señales sinusoidales de distintas frecuencias, y en la medida, para cada una de ellas, de la atenuación y del desfase que sufren al atravesar el sistema. La medida de la atenuación y del desfase suministran el módulo y el argumento de H(jw) para el valor de w correspondiente. Existen unos equipos comerciales, denominados servoanalizadores, concebidos para realizar esta función de medición de los sistemas dinámicos. No debe, sin embargo, olvidarse que H(s) suministra información tanto sobre el comportamiento en el dominio del tiempo (empleando las tablas de la transformada de Laplace) como de la frecuencia (gracias a la propiedad expuesta). De ahı́ que la denominación representación frecuencial no sea del todo apropiada, o en cualquier caso debe tomarse de forma matizada. Tema 5 Sistemas dinámicos lineales de primer orden 5.1 Introducción Se denomina sistema lineal diferencial de primer orden de entrada u(t) y salida y(t) al sistema regido por una ecuación diferencial de la forma dy + ay = bu dt (5.1) en donde a y b son dos constantes, denominadas coeficientes de la ecuación; u(t) es una señal denominada señal de entrada o excitación; e y(t) es otra señal denominada señal de salida del sistema. El conjunto se interpreta con un diagrama de bloques tal como el de la figura 5.1. La ecuación diferencial anterior admite una solución única siempre que se fije el valor inicial de y(t). Este valor inicial se denotará en lo que sigue por ξ. La ecuación (5.1) establece que la pendiente de y(t) en cada instante de tiempo, es una combinación lineal de los valores que toma en este instante u(t) e y(t). En la figura 5.2 se muestran las evoluciones de u(t) e y(t). En la práctica se presentan múltiples sistemas que pueden ser representados por una ecuación diferencial de primer orden. De hecho es una de las aproximaciones más sencillas que se pueden hacer del comportamiento dinámico de un sistema. En el apartado 5.3 se presentan distintos sistemas que pueden ser 56 Sistemas dinámicos lineales de primer orden 57 representados por una ecuación diferencial de primer orden. u(t) y(t) Figura 5.1: Sistema de primer orden (1) 5.2 Solución de la ecuación diferencial de primer orden Para el estudio de la solución de la ecuación diferencial de primer orden, conviene distinguir dos casos: 5.2.1 Señal de entrada nula En el supuesto de que la señal de entrada u(t) sea nula para todo t, la ecuación diferencial de primer orden se convierte en dy = −ay dt y(0) = ξ (5.2) lo que constituye la parte homogénea de la ecuación diferencial de primer orden de (5.1). La solución de esta ecuación puede obtenerse por integración directa haciendo, dy = −a dt y cuya integración conduce a, ln y(t) − ln y(0) = −at Sistemas dinámicos lineales de primer orden 58 u u(t) t y dy(t) dt y(t) t ξ Figura 5.2: Sistema de primer orden (2) Sistemas dinámicos lineales de primer orden 59 lo que, teniendo en cuenta que y(0) = ξ, puede escribirse, yh (t) = ξe−at El subı́ndice h se refiere a que esta solución lo es de la parte homogénea de (5.1). Las figuras 5.3 y 5.4 muestran la forma general de la evolución de yh (t) según que a sea, respectivamente, negativa o positiva. Estas figuras muestran cómo se comporta un sistema en ausencia de excitación. Aparece una clara distinción entre dos formas de comportamiento que permiten una primera clasificación de los sistemas en estables o inestables, según que la evolución libre de los mismos tienda a una estado de reposo o no. y(t) ξ t Figura 5.3: Primer orden divergente 5.2.2 Señal de entrada no nula Se trata de resolver la ecuación diferencial (5.1) en el caso en que u(t) no sea idénticamente nula. Para simplificar la notación se escribirá v(t) = b0 u(t), con lo que la ecuación (5.1) se convierte en dy + ay = v dt (5.3) Sistemas dinámicos lineales de primer orden 60 y(t) ξ t Figura 5.4: Primer orden convergente Se trata de determinar qué función w(t) debe sumarse a la solución homogénea yh (t) para obtener la solución de la ecuación (5.3). Es decir, se supone que y(t) se descompone en, y(t) = yh (t) + w(t) (5.4) lo que llevado a la ecuación (5.3) resulta, d(yh + w) + a(yh + w) = v dt yh (0) + w(0) = ξ dyh dw + ayh + + aw = v dt dt w(0) = ξ − yh (0) es decir, que, habida cuenta de la expresión (5.2), se puede escribir, dw +aw =v dt w(0) = 0 (5.5) Por lo tanto la ecuación diferencial que satisface w(t) es exactamente la (5.1), pero con una notable diferencia, y es que las condiciones iniciales para w(t) son 0. Sistemas dinámicos lineales de primer orden 61 Es decir, la señal w(t) constituye la respuesta del sistema ante la señal de entrada u(t) a partir del reposo. La discusión anterior permite interpretar la expresión (5.4) diciendo que la respuesta y(t) de un sistema dinámico lineal a una señal de entrada u(t) a partir de un valor inicial y(0) puede considerarse como la suma de la respuesta del sistema, a partir del valor inicial y(0), ante una señal de entrada nula más la respuesta del sistema a la señal de entrada u(t) a partir del reposo. Es fácil ver que w(t) viene dada por, −at w(t) = e Z t o eaζ v(ζ)dζ (5.6) En efecto, en primer lugar es inmediato ver que w(0) = 0. Además sustituyendo la expresión (5.6) en la (5.5) se tiene que, Z t dw d Z t aζ = −a e−at eaζ v(ζ)dζ + e−at e v(ζ) dζ = −a w + v dt dt o o Combinando los anteriores resultados se tiene que la respuesta de un sistema regido por una ecuación diferencial lineal de la forma (5.1) ante una señal de entrada u(t) viene dada por, −at y(t) = e −at ξ+e Z t o eaζ b u(ζ) dζ (5.7) A este mismo resultado se puede llegar empleando las técnicas basadas en la transformada de Laplace, con las cuales se puede demostrar directamente de una forma muy sencilla la expresión (5.6). Además, en las aplicaciones prácticas, es de esta última forma como se procede. Sin embargo para un planteamiento teórico más general, conviene desarrollar el estudio de los sistemas lineales como se ha hecho anteriormente. 5.2.3 Respuestas a señales de entrada especiales Se discuten a continuación las respuestas de un sistema diferencial lineal de primer orden a señales de entrada que presentan especial interés en las aplicaciones como son las señales en escalón, en rampa y sinusoidal. Sistemas dinámicos lineales de primer orden 62 Señal de entrada en escalón Se dice que un sistema se somete a una señal de entrada en escalón en el instante inicial t = 0, si en dicho instante se somete el sistema a una variación brusca de la señal de entrada permaneciendo ésta en un valor u(t) = constante. En la figura 5.5 se representa una señal de entrada de esta forma. Si se supone y(0) = ξ, u = 1, y teniendo en cuenta la expresión (5.7), se tendrá, " y(t) = e −at # b b ξ + (eat − 1) = e−at ξ + (1 − e−at ) a a (5.8) u t Figura 5.5: Entrada en escalón En la figura 5.6 se representa la respuesta de un sistema lineal de primer orden a una entrada en escalón. y ξ t Figura 5.6: Respuesta al escalón Sistemas dinámicos lineales de primer orden 63 Para estudiar la respuesta en el tiempo de un sistema lineal de primer orden a una entrada en escalón, es interesante escribir la ecuación diferencial de primer orden de la forma siguiente: τ dy + y = Ku dt (5.9) en donde τ = 1/a y K = b/a. Si se supone además, para simplificar, que ξ = 0 se tendrá que la expresión (5.8) se puede escribir, t y(t) = K(1 − e− τ ) (5.10) La constante K recibe la denominación de ganancia estática del sistema, puesto que representa la relación entre la señal de salida (y(t)) y la señal de entrada (u(t)) para t → ∞. La constante τ que tiene una dimensión de tiempo, se llama constante de tiempo del sistema. El resultado (5.10) puede obtenerse de una forma más sencilla empleando la transformada de Laplace. En efecto, la ecuación diferencial de un sistema de primer orden viene dada por la expresión (5.1), y puesto que la transformada de Laplace de una señal escalón es: U (s) = 1 s se tiene que la de la señal de salida será, Y (s) = K A B = + s(1 + τ s) s 1 + τs Las constantes A y B resultan ser: ¯ K ¯¯ A= ¯ =K (1 + τ s) ¯s=0 ¯ y K¯ B = ¯¯ = −Kτ s s=− τ1 con lo que se tiene Y (s), cuya antitransformada de Laplace resulta ser, y(t) = L−1 [Y (s)] = K(1 − e−t/τ ) Sistemas dinámicos lineales de primer orden 64 es decir la expresión (5.1) En la figura 5.7 se representa la respuesta a una entrada en escalón de un sistema de primer orden de ganancia K y constante de tiempo τ . 1.0 0.9 0.8 0.7 y(t)/K 0.637 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.4 0.8 1.2 1.6 2.0 1/τ 2.4 2.8 3.2 3.6 4.0 Figura 5.7: Respuesta a un escalón unitario de un sistema de primer orden de ganancia K y de constante de tiempo τ . La constante de tiempo τ caracteriza la velocidad de respuesta del sistema, es decir, la duración del régimen transitorio. Ello se pone de evidencia por las dos consideraciones siguientes. 1. Existe una relación entre la constante de tiempo y la tangente y(t) en el origen. En efecto de la expresión (5.10) se tiene, dy K −t = e τ dt τ (5.11) dy K (0) = dt τ (5.12) haciendo t = 0 se tiene, lo cual puede interpretarse tal como se hace en la figura 5.8. Recuérdese que se ha hecho u = 1. Sistemas dinámicos lineales de primer orden 65 tgα = K K τ α τ Figura 5.8: Relación constante amplificación y tang. 2. haciendo t = τ se tiene que la constante de tiempo es el tiempo al cabo del cual la señal de respuesta alcanza la fracción 1− 1 2 ≈ 0.632 ≈ e 3 del valor final (figura 5.9) K 0.64K τ Figura 5.9: Relación constante de tiempo y amplificación Sistemas dinámicos lineales de primer orden 66 Observando la figura 5.7 se tiene que la respuesta de un sistema de primer orden en una entrada en escalón alcanza su valor final con un error menor del 5 % para un tiempo ≈ 3τ . En la figura 5.10 se representan las señales de respuesta a una entrada en escalón para distintos sistemas lineales con diferentes constantes de tiempo. τ2 τ3 τ3>τ2 Figura 5.10: Diferentes constantes de tiempo En la práctica se presenta el problema de determinar el modelo matemático de un sistema a partir del conocimiento de la respuesta del sistema a una entrada en escalón. En el caso de un sistema de primer orden, la determinación de los parámetros K y τ que aparecen en la ecuación diferencial (5.9), resulta extremadamente sencilla a partir de la respuesta del sistema a una entrada en escalón. En efecto, de acuerdo con la figura 5.7 el valor de la constante de tiempo τ se determina midiendo la abscisa correspondiente a la ordenada que sea el 63,2% del valor alcanzado por el sistema en régimen estacionario. La constante estática K es sencillamente el cociente entre el valor alcanzado por la respuesta en régimen estacionario y la amplitud de la entrada en escalón. Señal de entrada en rampa Supóngase una señal de entrada en rampa, es decir, una señal de entrada cuyos valores crecen lineal con el tiempo, u = ωt, tal como la que se representa en la figura 5.11. Se supondrá además, para simplificar, que ξ = 0. De acuerdo con la expresión (5.7) se tiene que, y(t) = wbe −at Z t o e aτ wb τ dτ = a Ã 1 e−at t− + a a ! (5.13) esta última expresión introduciendo la ganancia K y la constante de tiempo Sistemas dinámicos lineales de primer orden 67 τ , puede escribirse, t y(t) = wK(t − τ + τ e− τ ) (5.14) Este mismo resultado se puede obtener con ayuda de la transformada de Laplace. En efecto, para el caso de una entrada en rampa, se tiene u u = ωt t Figura 5.11: Entrada en rampa U (s) = con lo que , Y (s) = ω s2 ωK A1 A2 B = 2 + + + τ s) s s 1 + τs s2 (1 siendo, " A1 1 ωK = 0! (1 + 2s) " A2 # = wK s=0 ωK 1 d = 1! ds (1 + τ s) · B = ωK s2 # = −τ ωK s=0 ¸ s=− τ1 = ωKτ 2 de donde se desprende que y(t) tendrá la forma (5.14). En la expresión (5.14) se observa que el tercer término del paréntesis del segundo miembro tiende a cero cuando el tiempo tiende a infinito. Este término Sistemas dinámicos lineales de primer orden 68 constituye el régimen transitorio de la respuesta total. Una vez desaparecido el régimen transitorio, la respuesta en régimen permanente será, yrp (t) = ωK(t − τ ) (5.15) Para interpretar esta respuesta cabe distinguir dos casos: 1. K = 1. En tal caso se tiene que la respuesta viene dada por yrp = ω(t − τ ) (5.16) es decir, en el instante t la salida es igual a la entrada en el instante t − τ . La salida se encuentra retardada τ segundos con respecto a la entrada. En la figura 5.12 se representa la expresión (5.14) para K = 1. Se observa en esta figura cómo la señal de salida se encuentra retardada con respecto a la señal de entrada. El error en régimen permanente es igual a ωτ . Este error recibe la denominación de error de arrastre. u(t) y(t) ωτ u(t1 − τ ) y(t1 ) τ Figura 5.12: Respuesta a rampa. Respecto al régimen transitorio se tiene que para t = τ y(τ ) = Kωτ Kωτ ≈ e 3 (5.17) es decir, que el sistema ha respondido sólo en un tercio del valor alcanzado por la señal de entrada. En la figura 5.12 se interpreta este resultado. Sistemas dinámicos lineales de primer orden 69 La consideración del error de arrastre en la respuesta de un sistema de primer orden, es sumamente importante en ciertos casos como por ejemplo cuando el sistema en cuestión es un aparato de medida. Supóngase un globo en el que se encuentra un termómetro de mercurio. Se supone que la temperatura varı́a linealmente con la altura; se tiene entonces que el termómetro se encuentra sometido a una señal de entrada en rampa. Las lecturas del termómetro, según las consideraciones anteriores, presentan un error de arrastre. 2. K 6= 1. La salida y entrada divergen, por lo que el error de arrastre se hace infinito. 5.2.4 Respuesta armónica Si la señal de entrada es sinusoidal, es decir, u = senωt y suponiendo ξ = 0, se tiene que la respuesta del sistema, de acuerdo con la expresión (5.7), viene dada por " −at y(t) = e # wb b ξ+ 2 (a senw t − w coswt) − 2 2 a +w a + w2 (5.18) En la figura 5.13 se muestra una forma tı́pica de esta respuesta. Figura 5.13: Respuesta armónica. Para t → ∞, es decir un tiempo suficientemente grande, el primer término del segundo miembro se anula, por lo que la respuesta en régimen permanente resulta ser Sistemas dinámicos lineales de primer orden yrp (t) = a2 70 b (a senwt − w coswt) + w2 (5.19) Esta expresión se puede escribir de una forma más sencilla haciendo, cosϕ = √ a2 a + w2 senϕ = − √ w + w2 a2 (5.20) con lo que 5.19 puede escribirse, y(t) = Y sen(wt + ϕ) (5.21) tagϕ = −w/a = −wτ b K Y = √ 2 =√ 2 a +w 1 + τ 2 w2 (5.22) siendo, (5.23) La expresión (5.21) puede interpretarse diciendo que la respuesta de un sistema lineal a una señal sinusoidal, es otra señal sinusoidal de la misma frecuencia cuya amplitud ha variado en una relación Y , y que ha adquirido un desfase ϕ. Tanto la relación de amplitudes Y como el desfase ϕ, son función de la frecuencia angular w de la entrada. En la figura 5.14 se representa Y (ω) y ϕ(ω). Otra forma de representar gráficamente la respuesta en frecuencia de un sistema lineal es por medio de un diagrama polar en el que se representa vectores cuyos módulos y argumentos son respectivamente Y (ω) y ϕ(ω). Haciendo variar ω se obtiene un lugar geométrico, en el que ω es el parámetro. En la figura 5.15 se representa la respuesta en frecuencia correspondiente a un sistema lineal de primer orden. El lugar está graduado en frecuencias reducidas (normalizadas) u = ωϕ. Existen otras formas de representar gráficamente la respuesta en frecuencia de un sistema lineal que serán estudiadas más adelante. Filtrado con un sistema lineal. Si la señal de entrada a un sistema lineal es una señal arbitraria, la reproducción de la misma a la salida será muy fiel si la constante de tiempo del sistema es suficientemente pequeña. Es decir, si la constante de tiempo del sistema es Relacion de Amplitudes 0.9 0.8 Sistemas dinámicos lineales de primer orden 71 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 0.0 0.2 0.4 0.6 0.8 1.0 ω 1.2 1.4 1.6 1.8 2.0 0.2 0.4 0.6 0.8 1.0 ω 1.2 1.4 1.6 1.8 2.0 -10 Fase(grados) -30 -50 -70 -90 -110 -130 0.0 Figura 5.14: Amplitud y fase. ω=0 ω=∞ ϕ Y Figura 5.15: Respuesta en frecuencia. Sistemas dinámicos lineales de primer orden 72 menor que las más rápidas variaciones que se produzcan en esta señal de entrada. Lo que a su vez se puede interpretar en el dominio de la frecuencia diciendo que la constante de tiempo sea lo suficientemente pequeña como para que el ancho de banda sea lo suficientemente grande para permitir el paso de todos los armónicos de la señal de entrada, (recordar la figura 5.13). La figura 5.16 ilustra este hecho. τ pequeño a) τ grande b) Figura 5.16: Filtrados. Por el contrario si la constante de tiempo es grande, la respuesta del sistema es lenta, por lo que el sistema no puede seguir las variaciones rápidas de la señal de entrada resultando de ello que éstas desaparecen de la señal de salida. El sistema actúa como limando las asperezas de la señal de entrada. La figura 5.16 ilustra este hecho que recibe la denominación de filtrado de la señal de entrada. Se puede dar del mismo una interpretación en el dominio de la frecuencia similar a la dada más arriba para el caso de una constante de tiempo pequeña. De hecho, el concepto de filtrado de una señal es enormemente importante y lo único que se ha hecho hasta aquı́ ha sido introducirlo, ilustrando una forma de comportamiento de los sistemas dinámicos lineales de primer orden. 5.3 Ejemplos de sistemas de primer orden • Circuito eléctrico LR. El circuito representado en la figura 5.17 está regido por una ecuación diferencial de la forma L dI E +I = R dt R Sistemas dinámicos lineales de primer orden 73 considerando la señal de entrada, la tensión aplicada al sistema y la señal de salida a la intensidad que recorre el circuito, se tiene un sistema de primer orden. La ganancia estática es 1/R y la constante de tiempo es L/R. L R E Figura 5.17: Circuito RL. • Circuito eléctrico RC. El circuito de la figura 5.18 es un circuito clásico de carga de un condensador a través de una resistencia, siendo la ecuación diferencial que rige el proceso la siguiente: RC dq + q = CE dt La ganancia estática es C, puesto que Q/E es, en régimen permanente, la capacidad del condensador. La constante de tiempo es RC. R C E q Figura 5.18: Circuito RC. • Termómetro de mercurio. E(t) R, C q(t) Sistemas dinámicos lineales de primer orden 74 Un termómetro puede considerarse como un sistema en el que la señal de entrada u es la temperatura del medio en el que se encuentra inmerso y la señal de salida y, es la temperatura indicada por el mismo. Si se denota por Q la cantidad de calor intercambiada entre el medio y el termómetro, y por C la capacidad calorı́fica de la ampolla, se tendrá que dy dQ =C dt dt Por otra parte el flujo de calorı́as que entra en el mercurio se aporta fundamentalmente por conducción. De acuerdo con la ley de Newton es aproximadamente proporcional a la diferencia de temperatura entre el medio y el mercurio. dQ = k(u − y) dt Se concluye de las dos ecuaciones anteriores que un termómetro de mercurio puede considerarse como un sistema lineal de primer orden. Obsérvese que, como corresponde a un sistema de medición, la ganancia estática es k = 1. Temperatura indicada (y) Temperatura (u) Figura 5.19: Termómetro de mercurio. • Reacción quı́mica. Supóngase la descomposición espontánea de una molécula A en dos moléculas B y C: A → B+C la cual se efectúa de manera que la velocidad de reacción es proporcional al número de moléculas A presentes. Sistemas dinámicos lineales de primer orden 75 Si se denota por y la concentración de la sustancia A, se tiene − dy = ky dt es decir, 1 dy +y =0 k dt Se trata de un sistema lineal de primer orden autónomo de constante de tiempo 1/k. El parámetro k se denomina por los quı́micos constante de velocidad de la reacción, y en la práctica presenta una gran dependencia de la temperatura. • Dinamómetro. Se trata de medir la fuerza u por el desplazamiento y que imprime a un dinamómetro de coeficiente de elasticidad k y de coeficiente de viscosidad α, figura 5.20. α u k Figura 5.20: Dinamómetro Según las leyes de la Mecánica se tiene u = ky + α dy dt Por lo tanto un dinamómetro es un sistema de medida lineal de primer orden. Sistemas dinámicos lineales de primer orden 76 • Mezcla de dos fluidos. Supóngase un recipiente (figura 5.21) en el que se contiene una masa m del lı́quido que contiene una fracción Cr de un componente A, y supóngase que el recipiente se alimenta por un caudal Q de un lı́quido en el que la fracción de componente A es Ce . Se supone que la mezcla es instantánea, es decir, que la composición es la misma en todo instante en todo el recipiente. Se supone además que el flujo de entrada es igual al de salida, con lo que la masa contenida en el recipiente es constante. Es fácil ver que en estas condiciones se tiene, Ce Q dt = Cr Q dt + M dCr es decir, M dCr + Cr = Ce Q dt Ce M Cr Cr Figura 5.21: Mezcla de Fluidos. Se trata por lo tanto de un sistema de primer orden. • Motor eléctrico de corriente continua. Supóngase el motor eléctrico de corriente continua cuyo diagrama se ha representado en la figura 5.22. El par motor supuesto el flujo φ constante, viene dado por Sistemas dinámicos lineales de primer orden 77 P = kφ I Por otra parte la intensidad I de inducido y la tensión que alimenta al inducido u (señal de entrada), están relacionadas por la siguiente ecuación. u = RI + L dI + Kω dt De acuerdo con las leyes de la Mecánica el par motor P y la velocidad de salida del motor ω, están ligados por la ecuación, P =J dω + Bω dt L R Φ ω J B Figura 5.22: Motor eléctrico. De las tres ecuaciones anteriores se obtiene, J dω φ φ + (B + kK )ω = k u dt R R es decir, considerando como señal de entrada la tensión aplicada al inducido y como señal de salida la velocidad de giro del motor, se tiene un sistema de primer orden. 5.4 El sistema de primer orden como integrador En los apartados anteriores se ha considerado un sistema lineal de primer orden como el regido por una ecuación diferencial de la forma 5.1. Esta misma ecuación puede escribirse también de la forma siguiente: Sistemas dinámicos lineales de primer orden y(t) = y(0) + Z t 0 78 (bu − ay)dt (5.24) La consideración de esta segunda forma de escribir la ecuación que rige el comportamiento de un sistema lineal de primer orden es sumamente interesante, por cuanto que su sentido fı́sico es más claro. La acción del sistema puede descomponerse en dos partes: • Una parte estática (sin memoria) en la que se determina f = bu − ay (5.25) • Los valores de f determinados para cada instante de tiempo t se van acumulando (integrando) dando con ello lugar a la variable de salida y. En la figura 5.23 se tiene representado un esquema en el que se distinguen la parte estática del integrador. La parte estática puede ser no lineal, sin que por ello se alteren las anteriores consideraciones. Esta manera de interpretar el funcionamiento de un sistema lineal de primer orden, es más intuitiva desde un punto de vista fı́sico por cuanto que en la naturaleza es más fácil interpretar los procesos en términos de integraciones que de diferenciaciones. De hecho la integración (acumulación) es un proceso normal del que es muy sencillo encontrar ejemplos, mientras que la diferenciación es enormemente más artificiosa. No debe olvidarse sin embargo, que la resolución de una ecuación diferencial es más simple que la de una ecuación integral, y es por ello que en cualquier caso el planteo por ecuaciones diferenciales es más frecuente que el que aquı́ se presenta. u K + 1 τS - Figura 5.23: Integrador. y Tema 6 Sistemas dinámicos lineales de segundo orden y de orden y superior 6.1 Definición Se define un sistema lineal de segundo orden como el regido por una ecuación diferencial de la forma, d2 y dy du + a1 + a2 y = b0 + b1 u 2 dt dt dt (6.1) En lo que sigue se considerará únicamente el caso en que b0 = 0 y b1 = β, dejándose para más adelante el estudio del caso general. El problema del estudio de un sistema de segundo orden queda reducido a la resolución de la anterior ecuación diferencial cuando la señal de entrada u(t) se particulariza en una cierta función del tiempo. Para que la solución esté completamente determinada se requiere el conocimiento de los valores iniciales de y(t) y de dy/dt. En esta sección se puede hacer un desarrollo completamente paralelo al realizado en la sección anterior para los sistemas de primer orden. La complejidad de tratamiento algebraico que esto requiere es grande, y es por ello por lo que se va a estudiar sencillamente los casos simplificados que ofrecen mayor interés práctico. En este sentido, y como primera hipótesis simplificadora, se va a suponer 79 Sistemas dinámicos lineales de segundo orden y de orden y superior 80 siempre que se trabaja con unas condiciones iniciales nulas. La ecuación diferencial de un sistema de segundo orden que se va a considerar aquı́ es, d2 y dy + a1 + a2 y = β u (6.2) 2 dt dt La ecuación caracterı́stica de un sistema de segundo orden se define como: r2 + a1 r + a2 = 0 (6.3) la cual se puede escribir también, en el supuesto de que sus raices sean −p1 y −p2 , de la forma siguiente, (r + p1 ) (r + p2 ) = 0 (6.4) Otra forma frecuente de escribir la ecuación diferencial de un sistema de segundo orden es la siguiente, d2 y dy + 2 δ ω + ωn2 y = ωn2 k u(t) n dt2 dt (6.5) Esta forma es especialmente útil cuando se trata con sistemas cuyas raices de la ecuación caracterı́stica son complejas. Los parámetros que intervienen en esta forma reciben una denominación especial. • El parámetro k recibe la denominación de ganancia estática, y es una constante que carece de dimensiones. • El parámetro ωn recibe el nombre de frecuencia propia no amortiguada y se expresa en radianes por segundo. • El parámetro δ recibe el nombre de factor de amortiguamiento, y es un número sin dimensiones. Las relaciones que ligan a los parámetros de la forma (6.2) con los de la forma (6.5) son las siguientes. Sistemas dinámicos lineales de segundo orden y de orden y superior s ωn = 1 a2 k= β ωn2 δ= a1 2ωn 81 (6.6) Los parámetros k, ωn y δ son, normalmente, positivos. Una ecuación diferencial de orden n puede descomponerse en n ecuaciones diferenciales de primer orden. Este es un resultado conocido que por otra parte será estudiado con detalle en un capı́tulo posterior. Aquı́ se va a estudiar el caso n = 2; introduciendo las variables adicionales x1 y x2 , y siendo p1 y p2 las raices de la ecuación caracterı́stica, es fácil ver que una ecuación diferencial de segundo orden del tipo 6.2 se puede escribir, ẋ1 = −p1 x1 + u ẋ2 = −p2 x2 + u y = c1 x1 + c2 x2 siendo c1 = β p2 + p1 y c2 = (6.7) (6.8) β p1 − p2 (6.9) Para comprobar este resultado basta proceder por sustitución, lo que se invita a hacer al lector. Más adelante se estudiará el procedimiento general que permite este tipo de descomposiciones. Empleando el cálculo matricial, las expresiones 6.7, 6.8 y 6.9 pueden escribirse de la forma siguiente, ẋ = Ax + Bu y = Cx (6.10) en donde " A= −p1 0 0 −p2 # " B= 1 1 # C = [c1 c2 ] (6.11) La ecuación diferencial de la expresión 6.10 es de la misma forma de la 5.1, con la diferencia de que mientras allı́ se trataba con escalares aquı́ se trata con vectores y matrices. Por lo tanto, el desarrollo realizado al estudiar los sistemas de primer orden, puede generalizarse al de los sistemas de segundo orden, sin más Sistemas dinámicos lineales de segundo orden y de orden y superior 82 observación que tener presente que la diferencia básica que existe entre el álgebra de los números reales y la de las matrices, es que esta última no es conmutativa. La respuesta de un sistema de segundo orden ante una señal de entrada u(t), a partir del estado x(t), vendrá dada por, · y(t) = CeAt ξ + Z t 0 ¸ e−Aζ B u(ζ) dζ (6.12) En esta expresión aparece la exponencial eAt , cuyo significado será discutido más adelante. A partir de la expresión 6.12 se puede estudiar la respuesta de un sistema de segundo orden ante distintos tipos de señales de entrada, tal como se hizo anteriormente para los sistemas de primer orden. En lo que sigue se estudiará exclusivamente la respuesta de un sistema de segundo orden a una entrada en escalón, por ser la que más interés tiene desde un punto de vista práctico. La respuesta para otro tipo de entradas, como la entrada en rampa o la entrada sinusoidal, pueden ser obtenidas de forma análoga a como se obtiene la respuesta a una entrada en escalón. 6.1.1 Respuesta de un sistema de segundo orden a una entrada en escalón Se supondrá que las condiciones iniciales son nulas, ξ = 0. A partir de la expresión 6.12 se tendrá, Z t y(t) = C eAt 0 e−Aζ B u(ζ)dζ (6.13) La entrada en escalón es constante desde t = 0 hasta infinito. Por lo tanto se tendrá que, u(ζ) = u = const (6.14) A partir del concepto de función de una matriz diagonal se puede escribir, " e −At = ep1 t 0 0 ep2 t # (6.15) Sistemas dinámicos lineales de segundo orden y de orden y superior 83 con lo que se tiene, Z t 0 " e −Aζ B u(ζ) dζ = − pu1 (1 − ep1 t ) − pu2 (1 − ep2 t ) # (6.16) Recordando la expresión 6.8 se tiene, y(t) = C1 u u (1 − e−p1 t ) + C2 (1 − e−p2 t ) p1 p2 " (6.17) # βu βu y= (1 − e−p2 t ) (1 − e−p1 t ) + p1 (p2 − p1 ) (p1 − p2 )p2 Haciendo, sin pérdida de generalidad, u = 1 y tras una serie de manipulaciones algébricas, se puede escribir, y(t) = β β β − e−p1 t − e−p2 t p1 p2 (p2 − p1 )p1 p2 (p1 − p2 ) (6.18) Si se escribe la ecuación diferencial de segundo orden en la forma dada por la expresión 6.5 se tendrá que las raices de la ecuación caracterı́stica p1 y p2 vendrán dadas por: √ p1 = −δωn − ωn δ 2 − 1 √ p2 = −δωn + ωn δ 2 − 1 (6.19) Obsérvese que, p1 p2 = ωn2 β = ωn2 p2 − p1 = 2ωn √ δ2 − 1 (6.20) Este mismo resultado se puede alcanzar con mayor sencillez operativa empleando la transformada de Laplace. En efecto, teniendo en cuenta que la transformada de Laplace de una entrada en escalón es U (s) = 1/s, se tiene que, de acuerdo con la expresión 5.2, la transformada de Laplace de la salida y(t) resulta Y (s) = 1 s ωn2 s2 + 2δωn s + ωn2 Sistemas dinámicos lineales de segundo orden y de orden y superior 1 u(t) y(t) a) ωn t 1 u(t) y(t) b) ωn t 1.38 y(t) 1 u(t) c) ωn t 3.3 Figura 6.1: Respuesta sistema de segundo orden 84 Sistemas dinámicos lineales de segundo orden y de orden y superior 85 cuya antitransformada de Laplace resulta ser, e−δωn t y(t) = 1 − √ sen (ω0 t + ϕ) 1 − δ2 siendo, ω0 = ωn √ √ 1− δ2 ϕ= t−1 g 1 − δ2 δ factor de amortiguamiento δ En el estudio de la respuesta a una señal de entrada en escalón de un sistema de segundo orden pueden distinguirse tres casos según que el factor de amortiguamiento δ sea mayor, menor o igual que uno. 1. Factor de amortiguamiento mayor que la unidad A partir de la expresión 6.18 teniendo en cuenta las expresiones 6.20 se tiene que, √ h i−1 √ 2 y(t) = 1 + 2(δ 2 − δ δ 2 − 1 − 1) e−(δ− δ −1)ωn t √ h i−1 √ 2 + 2(δ 2 + δ δ 2 − 1 − 1) (6.21) e−(δ+ δ −1)ωn t Esta expresión suministra la forma analı́tica de la respuesta de un sistema de segundo orden, con factor de amortiguamiento mayor que la unidad, a una entrada en escalón. En la figura 6.1 se representa la forma general de esta respuesta; desde un punto de vista cualitativo la caracterı́stica esencial de esta respuesta es su carácter de lentitud en alcanzar el valor y = 1. 2. Factor de amortiguamiento menor que la unidad Si el factor de amortiguamiento δ es menor que la unidad, es decir, δ < 1, entonces sucede que las raices p1 y p2 son complejas. En la figura 6.2 se representa la situación de las raices p1 y p2 en el plano complejo. La consideración del ángulo α, tal como se ha indicado en la figura 6.2 permite escribir, √ (6.22) cosα = −δ senα = 1 − δ 2 Escribiendo las expresiones 6.19 y 6.20, empleando en las mismas el ángulo α, se tiene: p1 = ωn e−jα p2 p1 = 2ωn jsenα (6.23) Sistemas dinámicos lineales de segundo orden y de orden y superior 86 Im √ jωn 1 − δ 2 ωn α −δωn Re √ −jωn 1 − δ 2 Figura 6.2: Raices complejas La expresión 6.18 se puede escribir, teniendo en cuenta la expresión 6.23 de la forma siguiente, e−jα −(δωn −jωn √1−δ2 )t e 2jsenα ejα −(δωn −jωn √1−δ2 ) t − e 2jsenα y(t) = 1 + (6.24) Esta expresión puede escribirse en forma más compacta como sigue: √ e−δωn t y(t) = 1 + √ sen(ω 1 − δ 2 t − α) n 2 1−δ (6.25) Esta expresión suministra la forma analı́tica en la respuesta de un sistema de segundo orden, con factor de amortiguamiento menor que la unidad, a una respuesta en escalón. La forma general de la respuesta se tiene en la figura 6.1, en la que se observa que el comportamiento de un sistema de segundo orden con factor de amortiguamiento menor que la unidad está caracterizado por la presencia de oscilaciones. Esta forma de respuesta, que se caracteriza por una sinusoide exponencialmente amortiguada, se dice que es subamortiguada. Sistemas dinámicos lineales de segundo orden y de orden y superior 87 El valor del primer pico de sobreoscilación, y el instante de tiempo en que se produce, son dos tipos de caracterı́sticas muy interesantes para definir el comportamiento de un sistema de segundo orden. De la observación de la expresión 6.25 se desprende que la frecuencia de oscilación del sistema viene dada por, ωp = ωn √ 1 − δ2 (6.26) La frecuencia ωp se denomina frecuencia propia del sistema. El periódo de oscilación del sistema viene dado por Tp = 2π √ ωn 1 − δ 2 (6.27) Instante de tiempo al cual se produce el primer pico de oscilación del sistema, puede obtenerse, de una forma analı́tica, derivando y(t) con relación al tiempo, e igualando esta derivada a cero. En efecto, se tiene: √ √ dy(t) δωn e−δωn t 2 t−α)+ω e−δωn t cos(ω =− √ sen(ω 1 − δ 1 − δ 2 t−α) = 0 n n n dt 1 − δ2 (6.28) Esta derivada se anulará cuando, ωn √ 1 − δ 2 t = 0, π, 2π, .. por lo tanto, el primer pico de oscilación se producirá cuando , tp = π √ ωn 1 − δ 2 (6.29) El tiempo tp recibe la denominación de tiempo de pico. Llevando el valor de tp a la expresión 6.25 se tiene, √ 2 e−δπ/ 1−δ sen(π − α) ymax (t) = 1 + √ 1 − δ2 (6.30) la cual, habida cuenta de que, sen(π − α) = senα y puede escribirse, senα = ³ ymax (t) = 1 + e √ 1 − δ2 (6.31) ´ − √ δπ 1−δ 2 (6.32) Sistemas dinámicos lineales de segundo orden y de orden y superior 88 Normalmente se expresa la amplitud de la primera oscilación en % del valor del escalón de entrada. Genéricamente se suele denominar sobreoscilación a este tanto por ciento. Por lo tanto se puede escribir: ³ SO = 100 e ´ − √ δπ (6.33) 1−δ 2 En la figura 6.3 se representa la sobreoscilación, en función del factor de amortiguamiento, para sistemas de segundo orden. Es interesante considerar el problema de determinar los parámetros a1 , a2 y β de la ecuación 6.2 a partir del conocimiento de la respuesta del sistema a una entrada en escalón especialmente en el caso de un sistema subamortiguado. 3. Factor de amortiguamiento igual a la unidad En el caso de que el factor de amortiguamiento sea igual a la unidad, es decir δ = 1, se tendrá que las dos raices de la ecuación caracterı́stica serán iguales entre sı́, es decir, p1 = p2 es una raiz doble de la ecuación caracterı́stica. En tal caso, las constantes c1 y c2 que aparecen en la expresión 6.8 no están definidas, como se concluye observando las expresiones 6.9. Es decir, que la anterior discusión sólo era válida cuando las dos raices p1 y p2 eran distintas. Para poder aplicar el anterior razonamiento al caso de que las dos raices sean iguales, se procede a suponer, en principio, que éstas son diferentes entre sı́ en una pequeña cantidad ε, que posteriormente se hace tender a cero. Supóngase, por lo tanto que las dos raices son: p1 = p p2 = p + ε Llevando estos dos valores a los términos segundo y tercero, del segundo miembro, de la expresión 6.18 se tiene, b β pt e − e(p+ε)t = βept εp ε(p + ε) " 1 eεt − εp (p + ε) # (6.34) Interesa determinar el lı́mite de esta expresión cuando ε tiende a cero. Para ello se procede, por ejemplo, a desarrollar en serie eεt y tras una serie de sencillas manipulaciones se obtiene, " lim ε→0 # eεt 1 − tp 1 − = εp ε(p + ε) p2 (6.35) Sistemas dinámicos lineales de segundo orden y de orden y superior 89 Con este resultado es inmediato obtener que la respuesta a una entrada en escalón del sistema con factor de amortiguamiento igual a la unidad, viene dada por, y(t) = 1 − ωn te−ωn t − e−ωn t (6.36) Esta respuesta se ha representado en la figura 6.1. Esta respuesta se dice que está crı́ticamente amortiguada. 100 Sobreoscilacion 80 60 40 20 0 0 0.1 0.2 0.3 0.4 0.5 δ 0.6 0.7 0.8 0.9 1.0 Figura 6.3: Sobreoscilación en función del factor de amortiguamiento En la figura 6.4 se representan las respuestas a una entrada en escalón para distintos valores del factor amortiguamiento. Se observa como factores de amortiguamiento inferiores a la unidad, se tiene un comportamiento oscilatorio, el cual es más oscilante cuanto menor es el valor de δ. Por otra parte, para valores del amortiguamiento mayor que la unidad, se tienen respuestas sin sobreoscilación, pero que son considerablemente más lentas. Esto último hace que las aplicaciones prácticas se tienda siempre a tener respuestas amortiguadas, puesto que son más rápidas, aunque siempre manteniendo oscilaciones dentro de unos lı́mites razonables. Sistemas dinámicos lineales de segundo orden y de orden y superior 90 2.0 1.8 δ=0.1 1.6 1.4 y(t) 1.2 0.5 0.7 1.0 1.0 1.2 1.5 2.0 0.8 0.6 5.0 0.4 0.2 0.0 0.0 1.2 2.4 3.6 4.8 6.0 ωnt 7.2 8.4 9.6 10.8 12.0 Figura 6.4: Respuesta ante escalón en función del factor de amortiguamiento Sistemas dinámicos lineales de segundo orden y de orden y superior 6.1.2 91 Respuesta en frecuencia de un sistema de segundo orden Si se aplica una señal sinusoidal a un sistema de segundo orden, es decir, si u(t) = Vo senωt, la determinación de la señal de salida y(t) se puede hacer procediendo en forma similar a como se hizo en el apartado anterior. Aquı́ sin embargo se procederá exclusivamente a estudiar el régimen transitorio que resulta de la aplicación de la señal sinusoidal. Es decir, se va a determinar exclusivamente la solución particular de la completa cuando en la expresión 6.2 se hace u = Vo senωt. Se tiene que y(t) será de la forma, y(t) = Yo sen(ωt + ϕ) (6.37) siendo Vo Yo = q (a2 − ω)2 + a21 ω 2 h i ϕ = tg−1 −a1 /(a2 − ω 2 ) (6.38) (6.39) Este resultado se puede comprobar por sustitución. Se ha tomado como señal de entrada una señal sinusoidal de amplitud unitaria para que la amplitud de la señal de salida suministrase directamente la relación de amplitudes entre las señales de entrada y salida. En las figuras 6.5 y 6.6 se representan las relaciones de amplitudes y los desfases correspondientes a distintos valores del factor de amortiguamiento. Se observa como la forma de la respuesta en frecuencia del sistema de segundo orden depende del factor de amortiguamiento. Cuanto menor es éste, mayor es el pico de resonancia que presenta la respuesta en frecuencia. El efecto de resonancia indica que para determinada frecuencia la amplitud de la señal sinusoidal correspondiente, en el espectro de frecuencias, sufre una amplificación al atravesar el sistema. El valor máximo de la amplitud de la respuesta en frecuencia, recibe la denominación de factor de resonancia. Es fácil demostrar que el factor de resonancia viene dado por, Q= 2δ √ 1 1 − δ2 (6.40) Sistemas dinámicos lineales de segundo orden y de orden y superior 92 La frecuencia a la que se produce este máximo, que recibe la denominación de frecuencia de resonancia, viene dada por, ωR = ωn √ 1 − 2δ 2 (6.41) Se observa que cuando el factor de amortiguamiento es nulo la frecuencia de resonancia coincide con la frecuencia propia no amortiguada del sistema. De ahı́ la denominación de ésta última. 5 δ=0.1 RELACION DE AMPLITUDES 4 3 0.2 2 0.3 0.4 0.5 1 5.0 0 0.0 2.0 0.5 1.0 0.707 1.0 1.5 PULSACION ω/ωn 2.0 2.5 Figura 6.5: Amplitudes correspondientes a distintos factores de amortiguamiento. 6.1.3 Ecuaciones diferenciales de orden n Una vez estudiado los sistemas de primero y segundo orden, conviene recordar los resultados correspondientes a sistemas de orden n. Supóngase que el modelo Sistemas dinámicos lineales de segundo orden y de orden y superior 93 0 0. 2 0.1 0. 0.3 5 0. 70 7 0.4 1. 0 2. 0 -30 -60 DESFASE δ= 5. 0 δ=5. 0 -90 2.0 -120 -150 -180 0.0 0.1 0.5 1.0 0.7 1.0 07 0.5 0 0. 0.2 .3 4 1.5 2.0 2.5 PULSACION ω/ωn 3.0 3.5 Figura 6.6: Desfases correspondientes a distintos factores de amortiguamiento. 4.0 Sistemas dinámicos lineales de segundo orden y de orden y superior 94 matemático del sistema que se está considerando tiene la forma, dn y dn−1 y dy dm u + a + · · · + a + a y = b + · · · + bm u 1 n−1 n o dtn dtn−1 dt dtm (6.42) en donde, por razones de realizabilidad fı́sica que se considerarán más adelante, n > m. Si las condiciones iniciales son nulas, su transformada de Laplace es Y (s)(sn + a1 sn−1 + · · · + an−1 s + an ) = U (s) (bo sm + b1 sm−1 + · · · + bm ) (6.43) por lo tanto, la transformada de Laplace de la salida del sistema y(t), correspondiente a una entrada u(t), cuya transformada es U (t) = L [u(t)] resulta ser bo sm + b1 sm−1 + · · · + bm Y (s) = n U (s) s + a1 sn−1 + · · · + an−1 s + an (6.44) Puesto que U (s) se supone conocido, el problema es el de determinar Y (s), problema que se reduce al cálculo de la antitransformada de Y (s). Para las funciones normalmente empleadas en Automática U (s) es el cociente de dos polinomios en s, por lo que Y (s) será a su vez el cociente de dos polinomios, es decir, Y (s) = Q(s) Q(s) = P (s) (s − p1 )n1 (s − p2 )n2 . . . (s − pq )np (6.45) El polinomio del denominador U (s) se ha factorizado, siendo pi las raices de la ecuación P (s) = 0, que recibe la denominación de polos de Y (s). Para mayor generalidad, se ha supuesto que cada uno de los polos tiene una multiplicidad ni aunque normalmente ni = 1, para todo i. El cociente de polinomios Y (s) se puede descomponer en fracciones simples, escribiéndose, q X ni X cik Y (s) = (6.46) k i=1 k=1 (s − pi ) en donde los coeficientes cik reciben la denominación de residuos de Y (s) en el polo pi . Los residuos se calculan con ayuda de la expresión Sistemas dinámicos lineales de segundo orden y de orden y superior 1 cik = (ni − k)! Ã !¯ i ¯ dni−k h ¯ ni (s − pi ) Y (s) ¯¯ ni−k ds s=pi 95 (6.47) Si todos los polos son simples, es decir, si todos los valores de ni son igual a la unidad, entonces la expresión 6.46 se escribe Y (s) = q X i=1 ci1 s − pi (6.48) y los residuos se determinan por la expresión cik = ci1 = (s − pi ) Y (s) |s=pi (6.49) expresiones que no son sino particularizaciones para ni = 1 de las correspondientes expresiones 6.46 y 6.47. En el caso de polos simples, los residuos pueden determinarse de forma gráfica sobre el plano complejo. Para ello, en primer lugar, considérese que Y (s) puede escribirse Y (s) = k Πm i=1 (s − zi ) n Πi−1 (s − pi ) (6.50) en donde se ha factorizado también el polinomio del numerador. Por zi se denotan las raices de la ecuación P (s) = 0 y estas raices se denominan ceros del sistema. Puesto que Y (s) es, en general, una función compleja, se puede escribir, Y (s) =| Y | ejφ =| Y | 6 φ (6.51) en donde | Y (s) | es el módulo (valor absoluto) de Y (s) y φ es el argumento de Y (s), siendo # " Im{Y (s)} −1 φ = tan Re{Y (s)} La expresión compleja Y (s), de acuerdo con la expresión 5.8, puede escribirse Sistemas dinámicos lineales de segundo orden y de orden y superior k Qm Y (s) = Qni=1 i=1 m n X | s − zi | X 6 ( φiz − φip ) | s − pi | i=1 i=1 96 (6.52) es decir, puesto que Y (s), de acuerdo con la expresión 6.52, se determina como el cociente de dos expresiones complejas, cada una de las cuales es a su vez el producto de términos elementales de la forma (s − pi ) el módulo de Y (s) será el cociente de los productos de los respectivos módulos, mientras que el argumento será la diferencia de las sumas de los correspondientes argumentos. Interesa por tanto, representar en el plano complejo, los componentes elementales (s − zi ) y (s − pi ) con el fin de determinar sus módulos y argumentos para poder realizar con ellos las operaciones de multiplicación y adición a las que se acaba de aludir. En la figura 6.1.3 se muestra la representación gráfica del vector asociado a (s − zi ) y a (s − pi ). En el caso de (si − zi ) se tiene un vector que va desde el cero, zi al punto s, y análogamente para pi . Im s − Pi Pi s s s − Zi Zi Re Figura 6.7: Vectores asociados El residuo ci1 = ci , correspondiente al polo pi , resulta ser de acuerdo con la expresión 6.49, ¯ ci = (s − pi ) Y (s) |s=pi ¯ k(s − pi ) Πm i=1 (s − zi ) ¯ = ¯ ¯ Πni=1 (s − pi ) s=pi Sistemas dinámicos lineales de segundo orden y de orden y superior 97 cuya determinación gráfica puede hacerse siguiendo los siguientes pasos: 1. dibujar en el plano complejo los ceros, ci y los polos pi de Y (s). 2. dibujar los vectores desde todos los polos y ceros al polo pi en el que se está determinando el residuo. 3. determinar el módulo del residuo | ci | multiplicando los módulos de todos los vectores desde los ceros y dividiendolos por el producto de los módulos de todos los vectores desde los polos. 4. determinar el argumento del residuo 6 ci sumando los argumentos de los vectores desde los ceros y restándole la suma de los argumentos de los vectores desde los polos. Tema 7 Representación gráfica de la función de transferencia Es usual emplear representaciones gráficas de la función de transferencia. Ello es especialmente patente en los métodos clásicos, en los que se trabaja en el dominio de la frecuencia. Vamos a ver algunas de las formas de representación gráficas más usuales. 7.1 7.1.1 Diagramas más comunes Diagrama de polos y ceros: caso racional Sea la función de transferencia G(s) = K(s + c1 ) . . . (s + cm ) (s + p1 ) . . . (s + pn ) Se puede representar G(s) indicando la posición de sus ceros −ci y de sus polos −pi en el plano de la variable compleja s (fig. 7.1). 98 Representación gráfica de la función de transferencia 99 Im K Re Figura 7.1: Diagrama de polos y ceros 7.1.2 Diagrama de Nyquist La función de transferencia G(s) se representa mediante una curva en un diagrama polar. Esta curva se construye representando para cada valor de ω el módulo y el argumento de la expresión compleja que resulta de hacer s = jω en G(s). Como se sabe, el módulo y el argumento de G(jω) representan la amplificación (o atenuación) y el desfase de una señal sinusoidal que atraviese el sistema. En la figura 7.2 se representa un diagrama de esta naturaleza. Conviene observar que ω varı́a de 0 a ∞. Im ω=0 ω=∞ Re ω = 100 ω=1 ω = 10 Figura 7.2: Diagrama de Nyquist El diagrama de Nyquist es por tanto una curva parametrizada en ω que, para cada punto (es decir, para cada frecuencia), da el módulo y el argumento de la función de transferencia. Representación gráfica de la función de transferencia 7.1.3 100 Diagrama logarı́tmico o de Bode En este caso, la función de transferencia G(s) se representa mediante el conjunto de las dos curvas siguientes (fig. 7.3): log |G(jω)| log ω Arg G(jω) log ω o -180 Figura 7.3: Diagrama logarı́tmico • Curva de amplitud: log |G(s)| en función de log ω; • Curva de fase: arg G(s) en función de log ω. El empleo de logaritmos para representar los módulos permite facilitar la combinación de funciones de transferencia en serie, ya que en tal caso el producto de los módulos se convierte en la suma de sus logaritmos. Conviene recordar que la medida logarı́tmica de la relación entre dos señales A se expresa en • decibelios (dB), 20 log10 A • décadas log10 A • octavas log2 A Representación gráfica de la función de transferencia 101 Este conjunto de curvas, como veremos a continuación, es el más utilizado en la práctica para representar gráficamente la función de transferencia. 7.1.4 Diagrama de Black En este diagrama se representa la función de transferencia G(s) mediante una curva parametrizada en ω en un plano cuyos ejes de coordenadas están definidos por arg(G(jω)) y 20 log10 A (fig: 7.4). log|G(jω)| ω=1 o -180 o -90 0 Arg G(jω) Figura 7.4: Diagrama de Black 7.2 Diagrama de Bode Como se ha indicado más arriba, el diagrama de Bode consiste en la representación gráfica de la función de tranferencia mediante dos curvas, una relativa a la amplitud y la otra a la fase. En ambas curvas, en abcisas se representa el logaritmo de ω. En coordenadas se representa en un caso la relación de amplitudes en escala logarı́tmica, mientras que en el segundo la fase en escala natural (en grados o en radianes). La representación de una función de transferencia G(s) en el diagrama de Bode se hace mediante unas aproximaciones asintóticas que simplifican enorme- Representación gráfica de la función de transferencia 102 mente su trazado. Para estudiar estas aproximaciones consideremos la función de transferencia k(jω + c1 )(jω + c2 ) . . . G(jω) = (jω)N (jω + p1 )(jω + p2 ) . . . La denominada forma de Bode de esta función de tranferencia es la siguiente µ ¶µ ¶ jω jω Πci 1+ 1+ ... k Πpj c1 c2 ! Ã ! Ã G(jω) = jω jω 1+ ... (jω)N 1 + p1 p2 (7.1) en donde la denominada ganancia de Bode viene dada por kB = k Πci Πpj La expresión (7.1) es una expresión compleja en función de ω. Es decir, para cada valor de ω tomará un valor complejo y, por tanto, tendrá un módulo y un argumento. El módulo será tal que si tomamos su logaritmo se podrá escribir ¯µ ¶¯ ¯ jω ¯¯ ¯ 20 log |G(jω)| = 20 log |kB | + 20 log ¯ 1 + ¯ + ... c 1 ¯ ¯ ¯ 1 ¯ 1 ¯ ¯ !¯ + . . . +20 log ¯ ¯ + 20 log ¯¯Ã N ¯ (jω) ¯ jω ¯¯ ¯ ¯ 1+ ¯ ¯ p1 ¯ (7.2) mientras que el argumento será µ 20 arg G(jω) = 20 arg kB + 20 arg 1 + +20 arg ¶ jω + ... c1 1 1 ! + ... + 20 arg Ã N (jω) jω 1+ p1 (7.3) Obsérvese que mediante la adopción de una escala logarı́tmica para el módulo se ha descompuesto aditivamente en las aportaciones de cada uno de los elementos que aparecen en (7.1). Esta descomposición aditiva, junto con la que se da de una manera natural para el argumento, permite que se obtenga la representación gráfica en el diagrama de Bode a partir de la representación gráfica de cada uno de los elementos que aparecen en (7.1). Vamos a ver a continuación cómo se representa gráficamente cada uno de estos elementos. Representación gráfica de la función de transferencia 7.2.1 103 Diagrama de Bode de una constante La representación en el diagrama de Bode de una constante es inmediata y se tiene en la figura 7.5. K>1 Amplitud(dB) 20logK 0 K<1 -20logK K(numero positivo) Fase(grados) 0.0 -90.0 K(numero negativo) -180.0 ω(rad/s) Figura 7.5: Diagrama de Bode de una constante 7.2.2 Diagrama de Bode de una integración pura El diagrama de Bode de una integración pura G(jω) = 1 jω viene dada por una recta de pendiente -20 decibelios por década (o -6 decibelios por octava) y con un desfase constante igual a -90 grados 7.2.3 Diagrama de Bode de un sistema de primer orden Sea el sistema de función de transferencia 1 1+ jω p Representación gráfica de la función de transferencia 104 Amplitud (dB) 20 0 -20dB/dec -20 -40 Fase(grados) 90 0 -90 -180 -1 10 0 1 10 10 2 10 ω(rad/s) Figura 7.6: Diagrama de Bode de una integración pura Para estudiar su representación en el diagrama de Bode consideraremos, en primer lugar, dos situaciones extremas: • ω¿p En tal caso se tendrá que 1 20 log | 1+ jω p | ≈ 20 log 1 = 0dB • ωÀp en cuyo caso 20 log | 1 jω 1+ p | ≈ 20 log | 1 ω | = −20 log jω p p Por tanto, la representación gráfica del módulo de G presenta dos ası́ntotas. Para valores bajos de ω la ası́ntota es sencillamente la recta horizontal trazada en 0 dB; mientras que para valores altos de la frecuencia la ası́ntota es una recta de pendiente -20 dB/década. Estas dos ası́ntotas se cortan en el punto ω = p. Para completar la curva podemos considerar dos puntos interesantes: Representación gráfica de la función de transferencia 105 Amplitud(dB) 20 0 1dB -20 3dB 1dB -40 Fase(grados) 0 -45 -90 -1 10 0 1 10 10 2 10 ω(rad/s) Figura 7.7: Diagrama de Bode de un sistema de primer orden • para ω/p = 0.5 se tiene |G(jω)| = −1 dB. • para ω/p = 1 se tiene |G(jω)| = −3 dB. Por lo que respecta a la fase no es posible hacer unas aproximaciones asintóticas como las que acabamos de ver para la amplitud. No obstante, se dispone de una plantilla que permite trazar la curva de fase correspondiente. 7.2.4 Diagrama de Bode de una diferenciación pura El diagrama de Bode de un diferenciador puro G(jω) = jω se obtiene de forma similar al de un integrador puro. En la figura 7.8 se representa el diagrama correspondiente. En este caso la curva de amplitud tiene pendiente positiva y la de fase es positiva. Representación gráfica de la función de transferencia 106 Amplitud(dB) 40 20 +20dB/dec 0 -20 Fase(grados) 90 45 0 -1 10 0 1 10 10 2 10 ω(rad/s) Figura 7.8: Diagrama de Bode de una diferenciación pura 7.2.5 Diagrama de Bode del término asociado a un cero El término asociado a un cero G(jω) = jω +1 p conduce, por consideraciones análogas a las que se han hecho para un sistema de primer orden (asociado a un polo), tiene la forma que se muestra en la figura 7.9. Combinando todo lo que se acaba de ver, y teniendo en cuenta las expresiones (7.2 y (7.3), se puede obtener la representación gráfica de la función de transferencia del sistema cuya función de transferencia viene dada por la expresión (7.1). 7.3 Sistemas de fase mı́nima Un sistema con un cero con parte real positiva recibe la denominación de sistema de fase no mı́nima, mientras que si todos ceros tienen parte real negativa recibe la denominación de sistema de fase mı́nima. En los sistemas de fase no mı́nima el valor que toma la fase es mayor, para un mismo valor de la frecuencia, que Representación gráfica de la función de transferencia 107 Amplitud(dB) 40 +20dB/dec 20 1dB 3dB 1dB 0 Fase(grados) 90.0 67.5 45.0 22.5 0.0 -1 10 0 1 10 2 10 10 ω(rad/s) Figura 7.9: Diagrama de Bode del término asociado a un cero si todos los polos y ceros estuvieran en el semiplano de la izquierda (el sistema fuera de fase mı́nima). Im Im ω −p ω G2 (s) G1 (s) 0 z Re −z −p 0 Re Figura 7.10: Diagrama de polos y ceros de G1 y de G2 Con el fin de ilustrar el concepto de sistema de fase mı́nima considérense los sistemas de función de transferencia: G1 (s) = s−z s+p (7.4) G2 (s) = s+z s+p (7.5) y Vamos a comparar los diagrams de Bode de estas dos funciones de transferencia. Representación gráfica de la función de transferencia 108 Para ello considérese la figura 7.10. Es claro que | G1 (jω) |=| G2 (jω) | ∀ω ≥ 0 y, por tanto, las curvas de amplitud en el diagrama de Bode serán las mismas para las dos funciones de transferencia. Sin embargo, por la que respecta a los argumentos es claro que se tendrá: arg G1 (jω) ≥ arg G2 (jω) ∀ω ≥ 0 En la figura 7.11 se tienen las correspondientes curvas de fase. Se comprende la denominación de sistema de fase mı́nima para G2 . o θ 180 o 90 G1(jω) 1 -1 10 0 10 10 2 10 ω G2(jω) o -90 Figura 7.11: Curvas de fase en el diagrama de Bode de G1 y de G2 7.4 Cı́rculos M y N Para proceder al diseño de sistemas realimentados, mediante métodos gráficos, es necesario disponer de un método gráfico que permita pasar de la función de transferencia en bucle abierto G(s) a la correspondiente a bucle cerrado T (s). Como se sabe la expresión que liga a estas dos funciones de transferencia es la siguiente G(s) T (s) = 1 + G(s) Representación gráfica de la función de transferencia 109 Si se interpreta vectorialmente esta expresión se tendrá que el vector T (jω) tendrá como módulo el cociente de los vectores G(jω) y 1 + G(jω), y como argumento la diferencia de los argumentos de estos dos vectores. En la figura 7.12 se tienen Im (−1 + j0) A β 1+G 0 φ G α Re P Figura 7.12: Diagrama polar de la función de transferencia, con vectores asociados representados los correspondientes vectores. A partir de esta figura resulta que para cada valor de ω el módulo de T (jω) se determinarı́a mediante el cociente de las medidas de los segmentos OP y AP , y el argumento de T (jω) vendrı́a dado por la expresión arg C/R = α − β (7.6) Con el fin de facilitar la aplicación práctica de este método gráfico se procede a definir en el plano polar un sistema de coordenadas curvilineas que permita resolver gráficamente la determinación del módulo y el argumento de T (jω). Para ello se procede a dibujar el lugar geométrico de los puntos para los que el módulo (respectivamente el argumento) de T (jω) sea constante. Sea (x, y) un punto genérico del plano complejo (figura 7.13). A partir de las figuras 7.12 y 7.13 se puede escribir q OP = x2 + y 2 q AP = (1 + x)2 + y 2 √ 2 OP x + y2 M= =q AP (1 + x)2 + y 2 Elevando al cuadrado esta expresión, y tras algunas manipulaciones algebráicas, se tiene M2 M2 y 2 + x2 + 2x 2 =− 2 M −1 M −1 Representación gráfica de la función de transferencia 110 Figura 7.13: Plano complejo Sumando y restando a esta expresión Ã M2 M2 − 1 !2 se tiene Ã M2 M2 y 2 + x2 + 2x 2 + M −1 M2 − 1 !2 Ã = M2 M2 − 1 !2 − M2 M2 − 1 de donde se concluye Ã M2 y + x+ 2 M −1 2 !2 = M2 M2 − 1 Esta expresión indica que el lugar geométrico en el plano complejo de los puntos para los que el módulo de T (jω) es constante viene dado por un cı́rculo de centro c=− y de radio ¯ M2 M2 − 1 ¯ ¯ M ¯ ¯ r = ¯¯ 2 M − 1¯ La familia de cı́rculos correspondientes a diferentes valores de M se tiene en la figura 7.14. Esta figura admite una facil interpretación. Si en ella se dibuja la función de transferencia en bucle abierto G(jω) entonces leyendo esta misma curva en el sistema de coordenadas curvilı́neas definido por los cı́rculos M se tiene el módulo de la función de transferencia en bucle cerrado T (jω). Por lo que respecta a las fases, se puede proceder de manera análoga a como se ha hecho con los módulos. En este caso se tiene que, de acuerdo con la expresión (7.6) Representación gráfica de la función de transferencia 111 Im Re Figura 7.14: Cı́rculos M 0 −1 + j0 α 1+G G φ Figura 7.15: Cı́rculos N Representación gráfica de la función de transferencia 112 el argumento de T (jω) viene dado por el ángulo AP O en la figura 7.12. En la figura 7.15 se representa el lugar geométrico de todos los ángulos AP O de valor constante. Este lugar geométrico resulta ser un cı́rculo, de acuerdo con una bien conocida propiedad de la geometrı́a, y el valor de este ángulo está perfectamente definido en el cı́rculo y resulta ser de α/2, de acuerdo con la figura 7.15. Es decir arg G α 1/2 = φ = = arctan 1+G 2 y siendo G 2 tan(φ) De este modo se tiene definida otra familia de cı́rculos, los cı́rculos N , en los que se puede leer la fase del sistema en bucle cerrado si se dibuja en coordenadas polares la función de transferencia en bucle abierto. y= En la práctica no se emplean los cı́rculos M y N en el diagrama polar, sino su traslación a un diagrama de coordenadas rectangulares, en el que se representa en abcisas el logaritmo de ω y en coordenadas la relación de amplitudes en decibelios. Este diagrama recibe la denominación de ábaco de Black, en libros europeos, mientras que en libros americanos es frecuente que se denomine ábaco de Nichols. 7.5 Relación entre las constantes de error y los polos y ceros. Sea G(s) la función de transferencia en bucle abierto de un sistema con realimentación unitaria. La función de transferencia en bucle cerrado correspondiente Td (s) será: Td (s) = Y (s) G(s) = R(s) 1 + G(s) (7.7) y la relación entre la señal de error y la referencia vendrá dada por 1 E(s) = R(s) 1 + G(s) (7.8) Supóngase que los polos de Td (s) se denotan por −pi y que los ceros se hacen por −ci . En tal caso se tiene: Representación gráfica de la función de transferencia Td (s) = 113 k(s + c1 ) (s + c2 ) · · · (s + cm ) (s + p1 ) (s + p2 ) · · · (s + pn ) (7.9) Por otra parte desarrollando en serie E(s) /R(s) se tiene: E(s) = eo + e1 s + e2 s2 + · · · R(s) (7.10) Se van a estudiar a continuación las relaciones entre las constantes de posición kp , velocidad kv , y aceleración ka y los polos y ceros de Td (s). 7.5.1 Seguimiento de posición. Supóngase una entrada en escalón de posición, de manera que R(s) = 1/s. En tal caso (7.10) se convierte en E(s) = eo + e1 + e2 s + ... s (7.11) Es decir que sE(s) = eo + e1 s + e2 s2 + ... (7.12) Por lo tanto aplicando el teorema de valor final, el valor del error en régimen permanente erp será: erp = limt → ∞ e(t) = lims → 0 sE(s) = lims → 0 1 = eo 1 + G(s) (7.13) Definiendo la constante de error de posición kp como kp = lims → 0 G(s) se tiene que e0 viene dado por (7.14) Representación gráfica de la función de transferencia eo = 1 1 + kp 114 (7.15) Por otra parte puesto que E(0) 1 = lim R(0) s → 0 1 + G(s) (7.16) Y considerando (7.10), es decir e0 = E(0) / R(0), se tendrá que E(0) 1 = R(0) 1 + kp (7.17) Y (s) E(s) =1− R(s) R(s) (7.18) Además se sabe que A partir de (7.17) y (7.18), haciendo s = 0, se obtiene Y (0) kp = R(0) 1 + kp (7.19) de donde, resolviendo para kp , se tiene kp = Y (0) / R(0) 1 − Y (0) / R(0) (7.20) Por otra parte se tiene que haciendo s = 0 en (7.7) se llega a cj k Πm Y (0) = n j=1 R(0) Πj=1 Pj en donde (7.21) Representación gráfica de la función de transferencia 115 Πm j=1 Cj = producto de ceros Πnj=1 Pj = producto de polos Llevando (7.21) a (7.20) se tiene la siguiente expresión en donde kp está expresada en función de los polos y ceros. kp = k Πm j=1 Cj n Πj=1 Pj − kΠm j=1 Cj (7.22) En la práctica tiene un especial interés la consideración de los sistemas de tipo 1 en bucle abierto. Este caso se presenta cuando se estudian los servomecanismos de posición. Para los sistemas de tipo uno, o superior, recordando la expresión (8), es inmediato que kp tiende a infinito. En tal caso, y de acuerdo con (9) es claro que e0 = 0. Por ello considerando (7.10) y (12) se tendrá que Y (s) E(s) =1− = 1 − e1 s − e2 s2 R(s) R(s) (7.23) Obsérvese que haciendo s = 0 se tiene Y (0) =1 R(0) (7.24) lo que significa que en régimen permanente no existe error de seguimiento, cosa que era sabida para los sistemas de tipo uno. Haciendo s = 0 en la expresión (7.9), y teniendo en cuenta (7.24) se tendrá que 1= k × c1 ......cm p1 p2 ......pn (7.25) Esta expresión muestra la relación existente entre los polos ceros y la constante k de un sistema en bucle cerrado para que el error de seguimiento en posición sea nulo. La constante de posición kp es adimensional. Representación gráfica de la función de transferencia 7.5.2 116 Seguimiento de velocidad. Sea un sistema con error de seguimiento en posición nulo (eo = 0) y supóngase que se le aplica una entrada en rampa de manera que R(s) = 1/s2 . En tal caso se tiene que E(s) vendrá dado por E(s) = 1/s2 e1 = + e2 + .... 1 + G(s) s (7.26) Aplicando el teorema del valor final se tendrá que el error en régimen permanente a una rampa será erp = lim e(t) = lim sE(s) t→∞ s→0 1 s→0 s + sG(s) 1 = lim = e1 s→0 sG(s) = lim Se define la constante de error de velocidad kv como kv = lims → 0 sG(s) (7.27) de manera que e1 vendrá dada por e1 = 1 kv (7.28) La constante de seguimiento en velocidad kv tiene un valor finito para sistemas en bucle abierto de tipo 1, es decir, para sistemas con una integración pura. En tal caso se tiene que e0 = 0, con lo que se tiene, habida cuenta de la expresión (7.10). Y (s) = 1 − e1 s − e2 s2 − .... R(s) Derivando esta expresión con relación a s, y haciendo s = 0, se tiene Representación gráfica de la función de transferencia Ã d Y (s) ds R(s) ! = −e1 = − s=0 117 1 kv (7.29) Si, además se tiene presente que para sistemas de tipo 1 Ã Y (s) R(s) ! = s=0 Y (0) =1 R(0) a partir de las dos expresiones anteriores 1 = kv − ³ d ds (Y (s)/R(s)) ´ (Y (s)/R(s))s=0 s=0 Ã d Y (s) =− ln ds R(s) ! (7.30) s=0 Llevando la anterior expresión a (7.10) se tiene que Ã ! 1 d =− (ln k + ln(s + c1 ) + .. − ln(s + p1 ) − ..) kv ds s=0 (7.31) lo que puede escribirse 1 1 1 = −( + .... − − ...)s = 0 kv s + c1 s + p1 o de forma más compacta n m X X 1 1 1 = − kv i=1 pi j=1 cj (7.32) Por consiguiente 1/kv es igual a la suma de los inversos de los polos menos la suma de los inversos de los ceros, todo en bucle cerrado. Si se quiere que el error de seguimiento en velocidad sea nulo se requerirá que kv tienda a infinito, en cuyo caso se tendrá que Representación gráfica de la función de transferencia n X 1 j=1 pj = m X 1 j=1 cj 118 (7.33) Ejemplo. Sea un sistema de segundo orden cuya función de transferencia en forma normalizada se escribe ωn2 Y (s) = 2 R(s) s + 2δωn s + ωn2 Este sistema presenta un error de seguimiento en posición igual a cero, es decir Y (0)/R(0) = 1. Por lo tanto interesa calcular kv en función de los parámetros ωn y√δ. Los polos de la anterior función de transferencia serán p1,2 = −δωn ± jωn 1 − δ 2 y por lo tanto aplicando la expresión (7.32) se tendrá que kv = ωn 2δ (7.34) La constante de velocidad kv tiene dimensión de seg −1 . En efecto erp = ω kv y como erp se mide en metros (o radianes) y ω en metros por segundo (o rad / seg) se tendrá que kv vendrá dada por seg −1 . 7.5.3 Seguimiento de aceleración Sea un sistema con errores de seguimiento de posición y velocidad nulos. Para el estudio de un seguimiento en aceleración se procede de forma similar a como se ha hecho anteriormente. Si se supone una entrada en aceleración se tendrá que R(s) = 1/s3 , con lo que el valor de E(s) será E(s) = e2 + e3 + s e4 + ... s (7.35) Representación gráfica de la función de transferencia 119 Aplicando nuevamente el teorema del valor final se tendrá que el error de seguimiento en aceleración cuando el tiempo tiende a infinito será erp = lims→0 s E(s) = e2 Y definiendo la constante de error en aceleración ka como ka = lims→∞ s2 G(s) se tendrá que e2 = 1 ka Tomando la segunda derivada de (29) se tendrá que Ã d2 Y (s) ln 2 ds R(s) ! Ã (Y /R)” (Y /R)1 = − Y /R Y /R !2 de donde es fácil de deducir haciendo s = 0, que m n X X 2 1 1 1 − = 2+ − 2 2 ka kv j=1 pj j=1 cj expresión que permite calcular la constante de velocidad ka . La constante de aceleración ka tiene dimensión seg −2 . 7.5.4 Sistemas con error nulo Supóngase que la función de transferencia de un sistema en bucle cerrado viene dada, en forma normalizada, por la expresión siguiente bo sm + · · · + bm−1 s + bm Y (s) = n R(s) s + a1 sn−1 + · · · + an−1 s + an (7.36) Representación gráfica de la función de transferencia 120 Esta expresión, considerada como cociente de dos polinomios, puede desarrollarse en serie, de la forma siguiente: bo sm + · · · + bm−1 s + bm Y (s) = n R(s) s + a1 sn−1 + · · · + an−1 s + an = co + c1 s + c2 s2 + · · · La determinación de los coeficientes ci del desarrollo en serie, puede hacerse fácilmente multiplicando ese desarrollo en serie por el denominador de la función de transferencia, e igualando coeficientes entre ambos miembros. Con ello se obtiene que co = c1 = bm an (7.37) bm−1 co − an−1 bm Recordando la expresión (7.10) se tiene que el error vendrá dado por E(s) T (s) =1− R(s) R(s) Si se supone una entrada en escalón R(s) = 1/s, entonces es evidente que el error será nulo en régimen permanente si c0 = 1, es decir, si an = bm . Por consiguiente es necesario que bm = an para que el error en régimen estacionario sea nulo, cuando se aplica como señal de entrada una señal en escalón. Para obtener un error de seguimiento en posición nulo, para un sistema cuya función de transferencia sea de la forma (30), existen distintas formas posibles. Si el numerador consiste únicamente en una constante, entonces la forma que se obtiene es única y es la siguiente an Y (s) = n R(s) s + · · · + an−1 s + an (7.38) Representación gráfica de la función de transferencia 121 Supóngase que c0 = 1. En tal caso, c1 se convierte en c1 = bm−1 − an−1 bm (7.39) Ahora suponiendo una entrada en rampa, el error tendrá un valor nulo en régimen permanente si an−1 = bm−1 . En tal caso una forma posible para la función de transferencia en bucle cerrado es Y (s) an−1 s + an = n n−1 R(s) s + a1 s + · · · + an−1 s + an (7.40) Estas expresiones se pueden generalizar para entradas de orden superior. El interés de las mismas radica en que permite especificar el numerador, a partir de consideraciones de comportamiento en régimen permanente, partiendo del denominador, obtenido por consideraciones de comportamiento transitorio. Tema 8 Estabilidad de los sistemas dinámicos 8.1 Introducción La estabilidad es una propiedad cualitativa de los sistemas dinámicos a la que cabe considerar como la más importante de todas. Ello es debido a que, en la práctica, todo sistema debe ser estable. Si un sistema no es estable, normalmente carece de todo interés y utilidad. El estudio de la estabilidad de los sistemas dinámicos ocupa un lugar primordial en el análisis y en la sı́ntesis de los sistemas realimentados. De hecho, la sı́ntesis de un sistema de control estará presidida por un imperativo de estabilización del sistema realimentado que resulte. El presente capı́tulo se va a dedicar al análisis de la estabilidad de los sistemas dinámicos, es decir, a establecer criterios que permitan discernir si un determinado sistema dinámico, dado en una cierta forma de representación matemática, es estable o no. En capı́tulos posteriores se estudiarán las modificaciones a introducir en los sistemas dinámicos para modificar su estabilidad. El estudio de la estabilidad de los sistemas dinámicos, se hará atendiendo a la forma de representación adoptada; en este sentido se estudiará en primer lugar la estabilidad de los sistemas dinámicos dados por su descripción externa, y luego se hará el estudio para la descripción interna de los mismos. 122 Estabilidad de los sistemas dinámicos 123 Al mismo tiempo se verá a lo largo de este capı́tulo cómo existen distintas definiciones de estabilidad, lo que da lugar a distintos criterios, asociados a las distintas definiciones. No obstante, se verá que pese a la aparente diversidad de definiciones y criterios, existe una profunda unidad subyacente en todo el tema. 8.2 Criterios de estabilidad relativos a la descripción externa Una forma intuitiva de afrontar el problema de la estabilidad de un sistema es considerar que éste será estable si las distintas magnitudes que lo definen no alcanzan valores infinitos. Basados en esta idea intuitiva se puede dar la siguiente definición precisa de estabilidad. Definición Un sistema, inicialmente en reposo, se dice estable si ante cualquier señal de entrada acotada, es decir, que no alcanza valores infinitos, responde con una señal de salida acotada. Formalmente se dice de una señal x(t), definida en un cierto intervalo (t0 , t1 ), que está acotada en dicho intervalo, si para todo t ε (t0 , t1 ) existe un valor k < ∞ tal que |x(t)| < k De una forma más compacta puede decirse que un sistema es estable si, señal de entrada acotada ⇒ señal de salida acotada. Desde un punto de vista intuitivo esta definición de estabilidad es satisfactoria; tiene, además, la ventaja adicional de que conduce a resultados matemáticos interesantes, según se verá en lo que sigue. Para el caso de sistemas multivariables esta definición es igualmente válida, sustituyendo las señales de entrada y de salida por los vectores de señales de entrada y de salida. En los libros anglosajones a la estabilidad anteriormente definida se la llama ”estabilidad BIBO” (bounded-input bounded-output). Estabilidad de los sistemas dinámicos 124 Si se adopta la forma de descripción externa dada por la integral de convolución, es decir, si la relación entre la señal de entrada u(t) y la señal de salida y(t) está dada por una expresión de la forma, y(t) = Z t −∞ h(t, τ ) u(τ ) dτ (8.1) entonces el criterio de estabilidad de un sistema viene dado por el siguiente teorema. Teorema Un sistema, inicialmente en reposo, representado por una expresión de la forma (8.1) es estable si y sólo si existe un número finito k tal que para todo t, Z t −∞ | h(t, τ ) | dτ ≤ k < ∞ (8.2) Demostración 1. Suficiencia Se trata de demostrar que si se cumple la condición (8.2), entonces ante una señal de entrada acotada, | u(t) |< k1 para todo t, la señal de salida y(t) es también acotada. En efecto, se tiene: | y(t) |=| Z t −∞ h(t, τ ) u(τ )dτ |≤ ≤ k1 Z t −∞ Z t −∞ | h(t, τ ) | u(τ ) | dτ | h(t, τ ) | dτ ≤ kk1 2. Necesidad Se trata de demostrar que si las señales de entrada u(t) y de salida y(t) son acotadas, entonces siempre se cumple la expresión 8.2. Ello es equivalente a demostrar que si no se cumple la expresión 8.2 entonces pueden existir señales de salida y(t) que no esten acotadas aunque lo esté la señal de entrada u(t). Supóngase que la expresión (8.2) no se cumple, es decir Estabilidad de los sistemas dinámicos Z t −∞ 125 | h(t1 , τ ) | dτ = ∞ Si a este sistema se le aplica la siguiente señal de entrada se tiene una salida no acotada. En efecto, sea u(t) = sgn[h(t1 , τ )] en donde,    0 si x = 0 1 si x > 0  −1 si x < 0 sgn x =  Es claro que u(t) es acotada. Sin embargo la señal de salida del sistema no lo es, y(t1 ) = Z t1 −∞ h(t1 , τ ) u(τ ) dτ = Z t1 −∞ | h(t1 , τ ) | dτ = ∞ Queda demostrado la necesidad de que se cumpla la expresión (8.2) para que el sistema sea estable. Para sistemas multivariables el anterior resultado se generaliza diciendo que un sistema será estable si la propiedad de la expresión (8.2) se cumple para cada uno de los elementos de la matriz H(t, τ ). Para sistemas invariantes en el tiempo la expresión (8.1) se convierte en y(t) = Z t 0 h(t − τ ) u(τ ) dτ (8.3) Y la expresión (8.2) se convierte en, Z ∞ 0 | h(τ ) | dτ < k < ∞ (8.4) Para sistemas invariantes en el tiempo, la forma de descripción externa usualmente empleada es la función de transferencia. Interesa enunciar un criterio de Estabilidad de los sistemas dinámicos 126 estabilidad en términos de dicha función de transferencia. Es lo que se hace en el siguiente teorema. Teorema Un sistema lineal y estacionario, representado por una función racional propia G(s) es estable si y sólo si, todos los polos de G(s) están situados en el semiplano izquierdo abierto del plano s. Una forma equivalente de expresar lo anterior es decir que los polos de G(s) tienen la parte real negativa. En el semiplano izquierdo abierto, a que se alude en el anterior teorema, se excluye el eje imaginario. Si se incluye este eje imaginario se habla del semiplano izquierdo cerrado. Demostración Si G(s) es una función racional propia entonces puede desarrollarse en fracciones parciales, de manera que se descompone en la suma de un número finito de términos de la forma, K (s − pi )l Y además, posiblemente, una constante pi denota un polo de G(s). Al hallar la antitransformada de Laplace de G(s) se tiene que g(t) es la suma de un número finito de términos de la forma t`−1 epi t y, además, una posible función δ de Dirac. Es fácil demostrar que t`−1 epi t es absolutamente integrable si y sólo si pi tiene la parte real negativa. Por lo tanto el sistema G(s) será estable si y sólo si todos los polos de G(s) tienen la parte real negativa. • Ejemplo 1 Sea el sistema cuya función de transferencia es G(s) = 1/s. Este sistema no es estable, de acuerdo con las anteriores definiciones. En efecto, considérese una señal de entrada en escalón U (s) = 1/s. Se tendrá que la señal de salida será Y (s) = 1/s2 . Por lo tanto y(t) = L−1 (1/s2 ) = t la señal de salida y(t) no es acotada y por lo tanto el sistema no es estable. Estabilidad de los sistemas dinámicos 127 • Ejemplo 2 Según la definición anterior un oscilador simple es un sistema inestable. En efecto, considérese el sistema cuya función de transferencia es G(s) = 1/(1+ s2 ) que corresponde a un oscilador. La respuesta impulsional correspondiente es g(t) = sen t, la cual se representa en la figura 8.1 (a). Supóngase ahora que se aplica a dicho sistema una señal de entrada periódica rectangular, de amplitud unidad y de periódo el mismo del oscilador, tal como la de la figura 8.1 (b). La señal de salida viene dada por la expresión 8.3. Supóngase ahora que en la expresión 8.3 se hace t = 0. El producto de señales g(−τ ) u(τ ) está representado en la figura 8.1 (c). Es claro que y(0) es precisamente el área cubierta por dicha curva, cuando τ tiende a infinito. Por lo tanto y(0) = ∞. Es decir, el sistema es inestable. A este mismo resultado se llega inmediantamente considerando los polos de la función de transferencia, que resultan estar situados en el eje imaginario. Para sistemas multivariables se generalizan inmediatamente los anteriores resultados diciendo que un sistema multivariable definido por una matriz de transferencia G(s) será estable si cada uno de sus elementos satisface el anterior teorema. Sea la función de transferencia de la forma: H(s) = b(s) b0 sm + b1 sm−1 + · · · + bm = n n−1 s + a1 s + · · · + an a(s) (8.5) Figura 8.1: Para determinar si H(s) es estable o no, es necesario: 1. comprobar si m < n; 2. determinar si las raices de a(s) están situadas en el semiplano abierto negativo. Para comprobar si las raices de un determinado polinomio se encuentran en el semiplano abierto negativo, se aplica el criterio de Routh-Hurwitz que se estudia en el apartado siguiente. Estabilidad de los sistemas dinámicos 8.2.1 128 Criterio de Routh-Hurwitz Una función de transferencia T (s) representa a un sistema estable si sus polos se encuentran en el semiplano izquierdo negativo. Por lo tanto el problema del análisis de la estabilidad de un sistema se reduce al del análisis de los ceros del polinomio del denominador. Un polinomio se denomina un polinomio de Hurwitz si todas sus raices tienen la parte real negativa. Por lo tanto el problema de la estabilidad se reduce al de determinar si el polinomio del denominador es, o no, un polinomio de Hurwitz. El método directo de comprobar si un determinado polinomio es o no un polinomio de Hurwitz consiste en determinar todas las raices de dicho polinomio. Este procedimiento puede ser, además de excesivamente laborioso, inútil por cuanto que suministra una información superior a la que se requiere. No se trata de saber cuales son las raices, sino, simplemente, si su parte real será negativa o no. El método de Routh-Hurwitz, permite determinar si las partes reales de las raices serán negativas o no sin necesidad de determinarlas. Considérese un polinomio como el siguiente: sn+1 + a1 sn + · · · + an (8.6) Para determinar si el anterior polinomio tiene raices con parte real negativa se procede como sigue: 1. Si algún coeficiente del polinomio es negativo o cero, entonces existe al menos una raiz en el semiplano cerrado derecho. El sistema es, por lo tanto, inestable. 2. En el caso de que no se cumplan los supuestos de 1), se procede a construir la siguiente tabla: ¯ n + 1 ¯¯ 1 a2 a4 . . . ¯ n ¯ a1 a3 a5 . . . ¯ n − 1 ¯¯ β1 β2 β3 (8.7) n − 2 ¯¯ γ1 γ2 γ3 ¯ . . . ¯¯ . . . ¯ ρ1 1 en donde la generación de las distintas filas se hace como sigue, a partir de los elementos de las dos anteriores Estabilidad de los sistemas dinámicos β1 = 129 a1 a2 − a3 · 1 a1 (8.8) β2 = a1 a4 − a5 · 1 a1 La tabla anterior recibe la denominación de tabla de Routh, y el algoritmo que permite su construcción se denomina algoritmo de Routh. Independientemente de los trabajos de Routh, que publicó originalmente el algoritmo que conduce a la construcción de la tabla anterior, Hurwitz publicó un criterio de estabilidad, que se estudiará en una sección posterior de este tema, que esencialmente coincide con el de Routh. Por ello el criterio lleva conjuntamente el nombre de los dos autores. Toda fila depende de las dos filas precedentes. Se procede sucesivamente a determinar filas hasta que se determine una cuyos elementos sean todos 0. Para un polinomio de orden n se determinan n + 1 filas. El criterio de estabilidad de Routh-Hurwitz dice que el polinomio tiene sus raices en el semiplano abierto negativo si todos los elementos de la primera columna son positivos y no nulos. El número de cambios de signo en la primera columna es igual al número de raices del polinomio (8.6) en el semiplano positivo abierto. Ejemplo Sea el polinomio s4 + 5s3 + 3s2 + s + 2 = 0. Para determinar el número de raices en el semiplano positivo, se construye la tabla de Routh y se tiene, 4 3 2 1 0 ¯ ¯ 1 ¯ ¯ ¯ 5 ¯ ¯ 14/5 ¯ ¯ ¯ −36/14 ¯ ¯ 2 3 2 1 0 2 0 como hay dos cambios de signo en la primera columna existirán dos raices en el semiplano derecho. Por consiguiente el sistema es inestable. En la práctica el criterio de Routh-Hurwitz se aplica para determinar si el sistema es estable o no y, en general, no interesa saber el número de raices en el Estabilidad de los sistemas dinámicos 130 semiplano positivo abierto. Por lo tanto, cuando lo único que interese sea conocer si el sistema será estable o no, se procederá a construir la tabla de Routh hasta encontrar un elemento de la primera columna que sea negativo o cero. Cuando aparezca un elemento negativo o nulo, se suspenderá la construcción de la tabla, y se dictaminará que el sistema es inestable. En el caso de que interesase conocer cuantas raices existirán en el semiplano positivo, o en el eje imaginario, se procede a construir la tabla de Routh completa. En la construcción de la tabla de Routh, para el caso en que interese completarla aún cuando aparezcan elementos nulos en la primera columna, se presentan los dos casos singulares siguientes : 1. Aparece un 0 en la primera columna, siendo no nulos los otros elementos de la misma fila. 2. Aparece una fila con todos los elementos nulos, antes de llegar a la fila n+2. En el primer caso se sustituye el 0 por un número arbitrariamente pequeño ε. Se completa la tabla y se calcula el lı́mite de los elementos en los que aparezca haciendo ε → 0. Ejemplo Considérese el polinomio: s4 + s3 + 2s2 + 2s + 3 Al construir la tabla de Routh se encuentra un cero en la primera columna, en la fila dos. Se sustituye este cero por ε y se procede a completar la tabla, que resulta la siguiente: ¯ 4 ¯¯ 1 2 3 ¯ 3 ¯¯ 1 2 ¯ 2 ¯ 0→ε 3 1 ¯¯ 2ε−3 ¯ ε 0 ¯ 3 Una vez construida la tabla se determina el lı́mite de aquellos elementos en la primera columna en los que aparezca ε, cuando ε → 0. El elemento correspondiente a la fila 1 tiene el siguiente lı́mite, lim ε→0 2ε − 3 = −∞ ε Estabilidad de los sistemas dinámicos 131 Por lo tanto, la primera columna queda como sigue: 1 1 0 −∞ 3 Se presentan dos cambios de signo en la primera columna, y por consiguiente el sistema tiene dos raices en el semiplano derecho, y es inestable. El segundo caso particular más arriba enunciado, es decir, el caso en que se presente toda una fila de ceros, indica que el polinomio tiene, al menos, un factor par. Es decir, que existe un par de raices reales simétricas con respecto al eje imaginario, que existen dos raices imaginarias puras conjugadas, o que existen cuatro raices complejas situadas simétricamente con relación al origen. Cuando esto sucede se procede a formar una ecuación subsidiaria a partir de los coeficientes de la fila anterior a aquella en la que todos los elementos sean nulos. La expresión ası́ obtenida resulta ser el factor par del polinomio. Para obtener la fila siguiente, en la tabla de Routh, se procede a derivar esta expresión una vez con respecto a s y situar sus coeficientes en la fila cuyos elementos se habı́an anulado. A partir de esta sustitución se prosigue la construcción de la tabla de Routh normalmente. Un ejemplo ayudará a fijar ideas. Ejemplo Considérese el siguiente polinomio: s4 + 3s3 + 3s2 + 3s + 2 Si se construye la tabla de Routh correspondiente al llegar a la fila 1, se encuentra que todos los elementos son ceros. En efecto 4 3 2 1 ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ 1 3 2 0 3 2 3 0 2 0 La ecuación subsidiaria que se obtiene empleando los coeficientes de la segunda fila es la siguiente: 2s2 + 2 = 0 Estabilidad de los sistemas dinámicos 132 que corresponde al factor par s2 + 1. La derivada de la ecuación subsidiaria es 4s. Por lo tanto la tabla se completa como sigue 4 3 2 1 0 ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ ¯ 1 3 2 4 2 3 0 3 0 2 0 De la observación de esta tabla se desprende que el polinomio considerado no tiene raices en el semiplano positivo. La factorización del polinomio anterior conduce a, (s2 + 1) (s + 2) (s + 1) El anterior ejemplo muestra qué sucede cuando el polinomio en cuestión tiene raices en el eje imaginario. En tal caso estas raices dan lugar a un factor par, de la forma del que aparece en el ejemplo, que se pone de manifiesto al aparecer una fila de ceros en la tabla de Routh. Procediendo como se ha hecho en el ejemplo, se elimina la fila de ceros y se tiene una tabla de Routh que indica, por medio de los cambios de signos si existen raices en el semiplano derecho. Obsérvese que aunque no existan raices en el semiplano derecho, como sucede en el ejemplo anterior, el sistema será inestable, puesto que existen raices en el eje imaginario. La aplicación de las dos reglas anteriores, a los dos casos singulares que se acaban de discutir, debe tomarse con ciertas reservas. En particular, la aplicación de la primera regla (introducción de pequeños parámetros ε) sólo está justificada cuando el polinomio no tiene raices sobre el eje imaginario. En el libro Theorie des matrices de Gantmacher, pág. 181, se tiene un ejemplo de un caso al que la aplicación de las reglas no es válida. Ello, sin embargo, no debe preocupar puesto que lo que normalmente interesa de la aplicación del criterio de Routh-Hurwitz es, sencillamente, determinar si el sistema será estable o no, lo cual puede hacerse en todo caso sin ninguna ambiguedad, detectando si existe algún cero o algún cambio de signo en la primera columna de la tabla de Routh. El criterio de Routh-Hurwitz suministra una determinación rápida de la estabilidad absoluta de un sistema. Sin embargo no suministra ninguna indicación respecto a la posibilidad de alterar la situación de las raices. Su principal interés reside en su empleo como un paso previo, antes de aplicar otros métodos. Estabilidad de los sistemas dinámicos 8.2.2 133 Matriz de Hurwitz El criterio de Routh-Hurwitz, objeto del apartado anterior, en realidad fue desarrollado originalmente por Routh. Sin embargo es completamente análogo al desarrollado por Hurwitz, al que se va a dedicar este apartado. Sea un polinomio a(s) tal como: a(s) = sn + a1 sn−1 + · · · + an−1 s + an (8.9) Se define la matriz de Hurwitz como la matriz formada por los coeficientes del anterior polinomio, siguiente:      H=      a1 a3 1 a2 0 a1 0 1 .. .. . . 0 0 a5 a4 a3 a2 .. . ... ... ... ... 0 0 0 0 .. . 0 0 0 0 .. . 0 . . . an−2 an            (8.10) El criterio de estabilidad de Routh-Hurwitz se puede enunciar diciendo que el polinomio a(s) es un polinomio de Hurwitz si y sólo si los menores principales diagonales de H son todos positivos. Los menores principales diagonales de H son los siguientes: H1 = a1 Ã H2 = det a1 a3 1 a2  H3 !  a1 a3 a5   = det  1 a2 a4  0 a1 a3 (8.11) Hn = det H Si en la tabla de Routh los elementos de la primera columna se denotan por α1 , β1 , γ1 . . . p1 , entonces es posible demostrar, después de algunas manipulaciones Estabilidad de los sistemas dinámicos 134 algébricas, que, H1 = α1 H2 = α1 β1 H3 = α1 β1 γ1 (8.12) Por ello es evidente que el procedimiento de determinar H1 , H2 , . . . , Hn y ver si son positivos no nulos es equivalente al de construir la tabla de Routh. Los determinantes H1 , H2 , . . . reciben la denominación de determinantes de Hurwitz. Para aplicaciones prácticas se recomienda emplear el método tabular de Routh, por ser más simple que la determinación de las matrices de Hurwitz. 8.3 Criterio de Nyquist El criterio de Routh permite analizar la estabilidad de un sistema lineal a partir de los coeficientes de la ecuación caracterı́stica. El criterio de Nyquist (1932) permite realizar un análisis de la misma naturaleza a partir de la representación gráfica de la función de tranferencia. Este criterio está basado en un teorema de Cauchy. Consideres una función racional F (s) (formada por un cociente de polinomios en s). Si s representa a la variable compleja s = σ + jω entonces F (s) aplica el plano complejo s sobre un plano complejo definido por las partes reales e imaginaria de F (s) (figura 8.2), ImF (s) jω C F (C) Z=3 P =1 σ ReF (s) Figura 8.2: Teorema de Cauchy de modo que a cada ”vector” de s se corresponde un vector de F (s). Conviene Estabilidad de los sistemas dinámicos 135 recordar que el argumento del vector F (s) se forma de la manera siguiente. En el plano s se definen los vectores que unen los polos y ceros de F (s) con el punto genérico s. Pues bien, es facil ver que el argumento de F (s) se forma sumando los argumentos de los vectores desde los ceros y restando los argumentos de los vectores desde los polos (figura 8.3). Figura 8.3: Aplicación del contorno C1 : (a) C1 no rodea ningún polo ni cero; (b) C1 rodea un polo Supóngase ahora que se define una curva cerrada C en el plano s y la correspondiente curva imagen F (C) en el plano F (s). Supóngase, además, que la curva C se recorre en un determinado sentido (por ejemplo, el de las agujas del reloj). A la curva imagen F (C) se asociará tambien un sentido. El teorema de Cauchy establece que el número de veces que la curva F (C) rodea al origen (tomando el sentido positivo el de las agujas del reloj) es igual a la diferencia entre el número de ceros y el de polos que encierra la curva C en el plano s. Es decir, N =Z −P en donde N es el número de veces que la curva F (C) rodea al origen, y Z y P representan, respectivamente, el número de ceros y de polos contenidos en la curva C en el plano s. Nyquist basó su criterio en una aplicación muy ingeniosa del teorema de Cauchy. Consideró un sistema realimentado con realimentación unitaria, como el de la figura 8.4. La función de transferencia del sistema en bucle cerrado correspondiente viene dado por la expresión T (s) = G(s) 1 + G(s) Estabilidad de los sistemas dinámicos U + 136 Y H(s) - Figura 8.4: Sistema realimentado con realimentación unitaria de esta expresión resulta claro que los polos de T (s) son los ceros de 1 + G(s). Para estudiar la estabilidad de un sistema en bucle cerrado Nyquit propuso definir en el plano s la curva cerrada C que se muestra en la figura 8.5, y que recibe la denominación de contorno de Nyquist. Este contorno rodea el semiplano de parte real positiva del plano complejo. Es decir, la región del plano complejo en la que no debe haber polos de la función de transferencia en bucle cerrado, si se quiere que el sistema sea estable. jω ImH(s) A H(s) C H(C) 1 + H(s) R=∞ −1 0 σ ReH(s) B Figura 8.5: Contorno de Nyquist C para estudiar la estabilidad Hemos visto que los polos de la función de transferencia en bucle cerrado T (s) son los ceros de 1 + G(s). Por tanto, la estabilidad del sistema en bucle cerrado estará garantizada si no existe ceros de 1 + G(s) en el interior del contorno de Nyquist. Estabilidad de los sistemas dinámicos 137 Veamos ahora cómo se construye la función G(s). Para ello basta observar que el contorno de Nyquist se compone de tres partes. La recta OA que corresponde al eje imaginario del plano complejo y que, por tanto, corresponde a la función de transferencia G(jω) para valoreS positivos de ω. La recta BO correspondiente a la parte negativa del eje imaginario. Y, por último, a la curva que une AB, que se encuentra situada en el infinito del semiplano positivo del plano s. Por tanto, al recorrer OA, se está recorriendo G(jω) para valores de ω de cero a infinito. Análogamente, al recorrer BO se está recorriendo G(jω) desde menos infinito a cero. Por último, al recorrer de A a B se está en valores de s con módulo infinito. En este último caso, si G(jω) es tal que elgrado del polinomio del numerador es menor que el del denominador, esta función tomará el valor cero. Aplicando el teorema de Cauchy, para el caso F (s) = 1 + G(s), se puede decir que un sistema realimentado, con realimentación unitaria, es estable si y sólo si G(C) rodea al punto crı́tico s = −1, en el sentido de las agujas del reloj, un número de veces igual al número de polos inestables de la función de tranferencia G(s). Conviene observar que la parte de G(C) correspondiente al semieje imaginario [0, j∞] es, en realidad, la representación polar de la función de transferencia G(s). Ası́ mismo, la parte correspondiente al semieje imaginario negativo [−j∞, 0] es simétrica con relación a esa representación polar. Por lo que respecta a la parte correspondiente al semicı́rculo de radio infinito (y eventualmente a un semicı́rculo infinitesimal que rodee al origen) es evidente que si la función de transferencia es tal que el grado del numerador es inferior a del denominador, se reduce a un punto. Por todo ello, el trazado de G(C) es inmediato conociendo la representación polar de la función de transferencia G(jω). Por ejemplo, en 8.6a se tiene la representación de la función de transferencia G(s) = 1 (1 + τ s) A partir de esta representación gráfica, se desprende que G(C) tendrá la forma que se indica en la figura 8.6b. Aplicando el criterio de Nyquist se tiene que este sistema es estable (lo que sucede para todos los sistemas de primer orden cuya función de transferencia sea de la forma 8.6). En la figura 8.7 se tiene otro ejemplo de aplicación del criterio de Nyquist, el correspondiente a la función de transferencia G(s) = 1 s(1 + τ s) Estabilidad de los sistemas dinámicos 138 ImH(s) ω<0 −1 ω = −∞ ω=∞ ReH(s) ω>0 Figura 8.6: Diagrama polar y contorno G(C) para un sistema de primer orden ImH(s) jω ω− C H(C0 ) R=∞ R=∞ C0 −1 σ ω = −∞ ω=∞ ReH(s) ω+ Figura 8.7: Contorno de Nyquist y G(C) para un sistema con un polo en el origen Estabilidad de los sistemas dinámicos 139 en este caso se tiene que la función de transferencia G(s) presenta un polo en el origen, el cual debe ser evitado por el contorno de Nyquist, por lo que se recurre a modificarlo ligeramente añadiendo el contorno infinitesimal C0 que se muestra en la figura 8.7. Es facil ver que la adición de este contorno no modifica el planteamiento anterior. Un último ejemplo que vamos a considerar es el siguiente G(s) = s+1 s s( − 1) 10 (8.13) En este caso se tiene que el sistema presenta un polo inestable. En la figura 8.8 se tiene el trazado G(C) correspondiente. Im ω>0 Re ω<0 ω≈0 Figura 8.8: Diagrama de Nyquist del sistema del ejemplo En el diagrama de la figura 8.8 el punto crı́tico se ha representado en función de la ganancia K. Obsérvese que la pequeña desviación C0 alrededor del polo s = 0 (figura 8.9) da lugar a un gran arco en el infinito. Este arco se situa en el semiplano izquierdo, ya que atraviesa el eje real negativa debido a la contribución de fase de 180 grados del polo en el semiplano de la derecha. Estabilidad de los sistemas dinámicos 140 Im −180o Re Figura 8.9: Contorno C0 para el sistema del ejemplo Para valores grandes de K (Kg en la figura 8.8) se observa que G(C) rodea al punto crı́tico en el sentido contrario de las agujas del reloj; es decir, N = −1. Por otra parte P = 1, debido al polo en el semiplano de la derecha, por lo que Z =N +P =0 donde se concluye que no hay raices inestables en el sistema. Para valores pequeños de K (Kp en la figura 8.8) la curva G(C) rodea al punto crı́tico en el sentido positivo de las agujas del reloj, por lo que N = +1 y Z = 2, por lo que el sistema posee dos raices con parte real negativa y es inestable. De los anteriores ejemplos se desprende que la aplicación del teorema de Nyquist hay que tener especial cuidado en los dos puntos siguientes: • Tener en cuenta la posible presencia de polos inestables en bucle abierto; • La evaluación del número de vueltas en torno al punto crı́tivo -1 en el caso en el que haya ramas infinitas (ver el último ejemplo). Sin embargo, para los sistemas de fase mı́nima, es posible enunciar la siguiente regla práctica: Estabilidad de los sistemas dinámicos 141 Regla práctica de Nyquist Un sistema realimentado es estable en el caso en el que recorriendo el trazado polar de la función de transferencia en el sentido de las ω crecientes el punto crı́tico -1 quede a la izquierda. 8.3.1 Grado de estabilidad e interpretación del criterio de Nyquist Según se acaba de enunciar en la regla práctica del criterio de Nyquist se tiene que la estabilidad depende de la posición del punto crı́tico con relación al trazado polar de la función de transferencia (figura 8.10). Este hecho sugiere la conveniencia de introducir una medida de la distancia de G(C) a este punto crı́tico, por lo que se define grado de estabilidad del sistema realimentado por • El margen de ganancia Gm = 20 log10 A1 , siendo A la ganancia correspondiente a la fase de 180 grados; • El margen de fase Φm , que es el desfase del punto correspondiente a la ganancia unidad. ImH(jω) A −1 Φm ReH(jω) 1 Figura 8.10: Grado de estabilidad En la figura 8.10 se representan Gm y Φm . La estabilidad equivale entonces a una de las condiciones siguientes: Estabilidad de los sistemas dinámicos 142 • Para el vector en bucle abierto correspondiente a un módulo unidad el desfase es superior a -180 grados. • Para una fase de 180 grados el módulo del vector de la función de transferencia en bucle abierto debe ser inferior as la unidad. De este modo, los márgenes de fase y de ganancia establecen las posibles variaciones de la función de transferencia G(s) debidas a perturbaciones eventuales que no afecten a la estabilidad del sistema. En la práctica se considera que un margen de fase de 50 grados y un margen de ganancia de 10 dB son satisfactorios. Un margen de ganancia por debajo de los 30 grados no suele ser aceptable. Tema 9 Compensación de sistemas realimentados 9.1 Introducción. Un sistema de control realimentado se representa esquemáticamente como se indica en la figura 9.1. Sobre este esquema vamos a recordar una serie de conceptos que consideramos de interés. r(t) + º· e ¡ -@ @¡ ¡ @ ¡ @ ¹¸ − 6m u y(t) - K H(s) G(s) ¾ Figura 9.1: Sistema de Control realimentado 143 - Compensación de sistemas realimentados 144 • Cadena directa o de acción, es la que une los elementos comprendidos entre la señal de error y la de salida. Ambas señales están relacionadas por la expresión, Y (s) = KG(s) E(s) siendo G(s) la función de transferencia del sistema considerado. • Cadena de realimentación, es la que une la señal de salida con la de información m(t), que es comparada con la de referencia. Ambas señales se relacionan ası́, M (s) = H(s) Y (s) En este caso H(s) es la función de transferencia de la cadena de realimentación. • Se llama bucle abierto, al conjunto de elementos que constituyen todo el sistema, si éste se abriese por el punto m(t), es decir, como si la señal de entrada fuese e(t) y la de salida m(t). La función de transferencia del conjunto ası́ dispuesto serı́a M (s) = KG(s)H(s) E(s) • Se llama bucle cerrado, al sistema conectado como se indica en la figura 9.1. Las señales y(t) y r(t) se relacionan por la conocida fórmula, fácil de deducir, Y (s) KG(s) = R(s) 1 + KG(s)H(s) Observese que, en este caso, la señal de actuación sobre el sistema es proporcional a la señal de error. Se trata pues de un control proporcional (P). El valor de la ganancia K del amplificador será, por tanto, un parámetro susceptible de ser variado de acuerdo con las necesidades del problema. En lo que sigue se supondrá siempre que la cadena de realimentación es unitaria, con lo que el esquema fundamental quedará de la forma que se indica en figura 9.2 y quedando la función de transferencia en bucle cerrado reducida a Compensación de sistemas realimentados 145 Y (s) KG(s) = R(s) 1 + KG(s) Naturalmente en este caso cadena de acción y bucle abierto son dos conceptos coincidentes. r(t) + º· e ¡ -@ @¡ ¡ @ ¡ @ ¹¸ − 6m u y(t) - K G(s) - Figura 9.2: Sistema de Control realimentado unitariamente • Por último, en algunas ocasiones se recurrirá a algún servosistema fı́sico, concretamente al conocido servomecanismo elemental de posición, que responde en bucle abierto a una ecuación diferencial lineal de la forma J d2 y dy +f = u(t) 2 dt dt siendo en este caso y(t) un ángulo (θ), J la inercia del conjunto motor-carga y f el coeficiente de fricción viscosa del mismo conjunto. Para que un sistema de control realimentado actúe aceptablemente, necesita satisfacer unas determinadas especificaciones de funcionamiento, tanto para su régimen permanente como para su transitorio que, normalmente, no se consigue con los elementos que consituyen el bucle de control. Hay veces en que un simple aumento de la ganancia estática es suficiente para lograr precisión, sin que se afecte demasiado a las caracterı́sticas en estado Compensación de sistemas realimentados 146 transitorio. No obstante, como lo normal es que éstas se vean empeoradas con una actuación de este tipo, o en el mejor de los casos, no se consigan exactamente las que se pretende que tenga el sistema, es por lo que se desarrollaran a continuación los procedimientos de compensación que se han dado en llamar Clásicos en razón de ser los primeros que se utilizaron. Por el hecho de introducir una compensación sobre el bucle antes mencionado, el esquema se modifica de alguna manera, como se muestra más adelante. Se distinguen dos tipos de compensación: • Compensación en serie: Cuando el elemento corrector se coloca en cascada, en la cadena de acción; y • Compensación por realimentación: Cuando el elemento corrector constituye una segunda cadena de realimentación, en el bucle de control. Los esquemas básicos para uno y otro caso se muestran, respectivamente, en las figuras 9.3 y 9.4. r(t) +²¯ e - ±° − 6m - Gr (s) u0 - u K - G(s) y(t) - Figura 9.3: Compensación en serie Como ya se ha indicado, en el caso de la compensación en serie, la red correctora se coloca en cascada con los elementos de la cadena de acción, y delante del amplificador para que el nivel de potencia a que trabaje sea el del error, es decir, bajo. Ası́ mismo, se distinguiran tres tipos de acciones: • Acción proporcional más derivada (PD); • Acción proporcional más integral (PI) y • Acción proporcional más integral y más derivada (PID). Compensación de sistemas realimentados r(t) +²¯ e ²¯ - ±° ±° − 6m 6 147 u K - Gr (s) G(s) y(t) - ¾ Figura 9.4: Compensación por realimentación 9.2 Análisis en el dominio de la frecuencia de la red PD Tiene lugar cuando la señal de mando del sistema es la suma de los términos, proporcional y derivado de la señal de error. En este caso se dice que la compensación es del tipo PD. La función de transferenia de una red de este tipo es de la forma, Gr(s) = K (1 + τ s) La discusión del caso general se hará en el dominio de la frecuencia, en donde los resultados adquieren mayor generalidad y sencillez. Para ello se estudiará en primer lugar la respuesta en frecuencia de un corrector P D. Su representación en Bode es la que se indica en la Fig. 9.5. Vemos pues que la red, a frecuencias mayores que τ1 aumentará la fase y la magnitud de la cadena de acción del sistema en el que se introduce. Para frecuencias algo menores que despreciable para frecuencias bajas. 1 τ el efecto es menos notorio llegando a ser En el diagrama de Bode, que se representa en la figura 9.6, se obsevan dos efectos fundamentales sobre la respuesta en frecuencia de un sistema: 1. Aumento del ancho de banda: contrapartida, en el dominio de la frecuencia, de la disminución del tiempo de subida en la respuesta temporal del sistema. Amplitud(dB) Compensación de sistemas realimentados 148 +20dB/dec 1/τ ω(rad/s) Fase(grados) -260 -310 -360 1/τ Figura 9.5: Diagrama de Bode para red PD Este efecto es más notable en el diagrama de Black, como se verá un poco más adelante, ya que alli se trata la respuesta del sistema en bucle cerrado. 2. Aumento del margen de fase: contrapartida, en el dominio de la frecuencia, de la disminución de la sobreoscilación en el dominio del tiempo. Las figuras 9.7 y 9.8 muestran la variación de la función de transferencia en bucle abierto de un sistema en el diagrama de Black, al introducir un corrector PD. Si se elige τ1 < wR , se consiguen dos efectos: 1. Disminuir el pico de resonancia (Mr ) del sistema en bucle cerrado y 2. Aumentar la frecuencia de resonancia. Estos efectos de la red PD en el diagrama de Black tienen sus correspondientes en el dominio del tiempo, a saber: • Aumento de la frecuencia de resonancia equivale a decir aumento del ancho de banda del sistema en bucle cerrado; por tanto, el sistema deja pasar un espectro mayor de frecuencias. La consecuencia inmediata es una respuesta más rápida y, en consecuencia, un menor tiempo de subida. • Disminuir el pico de resonancia, tiene como consecuencia un aumento del margen de fase, y se sabe que este efecto va muy ligado a una disminución de la sobreoscilación del sistema en bucle cerrado. Compensación de sistemas realimentados 149 Amplitud(dB) Compensada 0 dB Fase(grados) Sin compensar Compensada MF2 o -180 MF1 Sin compensar ω(rad/s) Figura 9.6: Bode sistema con compensación PD Amplitud(dB) 60 30 0 -360 -270 -180 Fase(grados) -90 Figura 9.7: Diagrama de Black red PD 0 Compensación de sistemas realimentados 150 100 Sin compensar Amplitud(dB) 50 0 Compensado -50 -100 -300 -240 -180 Fase(grados) -120 -60 Figura 9.8: Diagrama de Black sistema con comp. PD Queda añadir, finalmente, que las redes PD, son irrealizables fisicamente, porque el grado de su polinomio numerador es mayor que el grado de su polinomio denominador. No obstante, en un sistema eléctrico, sı́ se puede conseguir una red de este tipo utilizando elementos activos, aunque aún en este caso, la solución no tiene interés práctico ya que estas redes presentan un comportamiento muy malo frente a los ruidos. 9.3 Análisis en el dominio de la frecuencia de la red PI En este caso, la señal de mando es la suma de un término proporcional y otro integral, de la señal de error. u(t) = K e + Ki Z t 0 e dt La compensación es denominada PI y la función de transferencia de una red de este tipo será: 1 1 + τs Gr(s) = K(1 + ) = K( ) τs τs El efecto sobre el sistema es, pues, añadir un polo en el origen (cambia el tipo del mismo) y una acción derivada. Compensación de sistemas realimentados 151 Amplitud(dB) La respuesta en frecuencia de un corrector PI se muestra en la figura 9.9. Se ve que su acción consiste en disminuir la fase del sistema original, aumentando simultáneamente la ganancia en bajas frecuencias. Para altas frecuencias, no modifica la respuesta. -20dB/dec 1/τ Fase(grados) 0 -45 -90 1/τ ω(rad/s) Figura 9.9: Respuesta en frecuencia Red PI El efecto de una red PI sobre un sistema puede verse en la figura 9.10. La figura 9.10, muestra que τ1 debe elegirse menor que wR para afectar solamente la respuesta del sistema a bajas frecuencias y aumentar la precisión del mismo, ya que si por el contrario, se elige τ1 > wR aumentará el pico de resonancia, pudiendo llegarse a inestabilizar el sistema original, como muestra la figura 9.10. La acción PI se utiliza cuando se quiere mejorar el régimen permanente de un sistema, es decir, cuando se quiere disminuir el error de seguimiento, y cuando se quiere que el sistema en cuestión sea insensible a variaciones en la carga. La introdución de una red PI es causa de que el sistema, en bucle cerrado, tenga peor régimen transitorio. Se puede dar una interpretación fı́sica de ello muy simple, y que servirá para comparar el efecto de esta red, con el que proporciona una red PD. La figura 2.6 muestra en diferentes pasos, cómo en este caso, la inversión del par corrector se realiza con posterioridad al alineamiento de ambos ejes. La consecuencia de ello es que aumentará la sobreoscilación y disminuirá el tiempo de subida, y el sistema será más inestable. Amplitud(dB) Compensación de sistemas realimentados 152 Compensado 0 dB Sin compensar Fase(grados) Sin compensar MF1 o -180 MF2 Compensado ω(rad/s) Figura 9.10: Efecto Red PI Amplitud(dB) 50 25 0 -100 -80 -60 -40 Fase(grados) -20 Figura 9.11: Respuesta PI.(Black) 0 Compensación de sistemas realimentados 153 En resumen una red PI: • Cambia el tipo del sistema (añade un polo en el origen), • Aumenta la sobreoscilación y disminuye el tiempo de subida de la respuesta temporal en bucle cerrado. • Aumenta la precisión estática, compensando las variaciones de la carga a la salida. La red PI se encuentra en el mercado con facilidad, llevando normalmente incorporado el comparador, con lo que el conjunto forma lo que se llama un regulador de acción PI. 9.4 Acción proporcional, integral y diferencial (PID) Como fácilmente se comprende, en este caso, la señal de mando contiene tres términos, de tal suerte que la función de transferencia del compensador que recibe el nombre de PID es: u(t) = K e + Ki Gr(s) = K (1 + Z t 0 e dt + Kd de dt 1 K + τ2 s) = (1 + τ1 s + τ1 τ2 s2 ) τ1 s τ1 s Se ve pues que, con una acción PID, al sistema se le añade un polo en el origen (se cambia el tipo), una acción derivada primera, y una acción derivada segunda. Tomando τ1 = τ2 = τ el diagrama de Bode queda como indica la figura 9.12 y su efecto sobre un sistema se muestra en la figura 9.13. Si se elige τ1 < ωR (que era condición para el caso de correctores PD y PI) se pueden conseguir buenas caracterı́sticas, tanto en el régimen transitorio como en el permanente, es decir, es posible beneficiarse de los efectos de ambos tipos de redes. Amplitud(dB) Compensación de sistemas realimentados 154 -20dB/dec 20dB/dec 1/τ ω(rad/s) Fase(grados) 90 0 -90 1/τ ω(rad/s) Figura 9.12: Respuesta en frecuencia Red PID 100 Amplitud(dB) 50 0 -50 -100 -300 -240 -180 Fase(grados) -120 -60 Figura 9.13: Diagrama de Black sistema con comp. PID Compensación de sistemas realimentados 9.5 155 Compensación por avance de fase Como se ha visto en el tema anterior una red PD aumenta la fase de la función de transferencia del sistema a corregir para frecuencias próximas a τ1 y superiores, es decir, aumenta el margen de fase (disminuye la sobreoscilación) y aumenta el ancho de banda (disminuye el tiempo de subida). También se ha dicho que una red PD es irrealizable fı́sicamente. No obstante, es posible conseguir elementos correctores que constituyen una aproximación a una red PD, en el rango de frecuencias en que los efectos son interesantes. Estas redes reciben el nombre de redes de adelanto de fase. Las redes de adelanto de fase tienen una función de transferencia de la forma: Gr(s) = 1 + τs ; 1 + ατ s α<1 =⇒ 1 1 < τ ατ cuya representación gráfica se tiene en la figura 9.14. Amplitud(dB) |20logα| 0 dB 1/τ ω(rad/s) 1/at 1/τ ω(rad/s) 1/at Fase(grados) -300 -330 -360 Figura 9.14: Respuesta en frecuencia Red de adelanto de fase La forma de la gráfica justifica ampliamente la denominación de red de adelanto de fase. Su efecto constituye una aproximación excelente a una red PD. En efecto, la acción de una red de adelanto de fase sobre la función de transferencia del sistema en bucle abierto se muestra en la figura 9.15; si se compara ésta con la figura 9.6, se observará que los efectos sobre el ancho de banda y el margen de fase Compensación de sistemas realimentados 156 son prácticamente los mismos que los que produce una red PD. La diferencia entre ambas redes radica en el término (1 + ατ s) cuyo efecto sobre el ancho de banda y sobre el margen de fase es prácticamente despreciable si se elige convenientemente el valor de 1/ατ . Este valor, como es natural, debe elegirse notablemente superior al de la frecuencia para la cual la ganancia es 0dB, con objeto de que su efecto sea despreciable. Los criterios que presidirán la elección de estos valores se verán más adelante, al considerar los métodos de diseño. Lo que aquı́ interesa resaltar es el caracter de aproximación a la red PD que presenta la red de adelanto de fase. Amplitud(dB) Compensado 0 dB Fase(grados) Sin compensar Compensado MF2 o -180 Sin compensar -1 10 0 1 10 10 ω(rad/s) 2 10 3 10 Figura 9.15: Efecto Red de adelanto de fase En el mercado se pueden encontrar redes de adelanto de fase de tipo neumático, hidráulico o eléctrico, por ejemplo. A continuación se propone una red para un servosistema de tipo eléctrico, de fácil realización, y que se muestra en la figura 9.16. En ésta se tiene: ei = jZ + eo con e0 = jR0 siendo Z= 1 R jwC R+ 1 jwC = R 1 + jwCR eo e0 e0 R eo R + R0 + jwCRR0 0 0 ei = 0 Z + e0 = 0 (Z + R ) = 0 ( +R)= 0 R R R 1 + jwCR R 1 + jwCR Compensación de sistemas realimentados 157 R C R0 ei es Figura 9.16: Realización de una red de avance e0 R0 (1 + jwCR) R0 1 + jwCR = = . RR0 0 0 0 ei R + R + jwCRR R + R 1 + jwC. R+R 0 y llamando R0 R+R0 G0 r(s) = = α y τ = CR queda 1 + jwτ e0 =α ei 1 + jwατ ; Gr(s) = 1 0 es 1 + jwτ G r(s) = = α ei 1 + jwατ como función de transferencia de la red. 9.6 Efecto en el dominio de la frecuencia La respuesta en frecuencia de esta red eléctrica de adelanto de fase, se muestra en la figura 9.15. De la expresión de la función de transferencia se puede ver que el desfase que produce la red propuesta es: wτ − wτ α 1 + αw2 τ 2 y la frecuencia a la cual se produce el máximo: tan Φ = s w = wm = 1 1 1 = τ τα τ s 1 α Compensación de sistemas realimentados 158 el valor de Φ = Φm es máximo, wm τ (1 − α) wm τ (1 − α) 1−α √ tan Φm = = = 2 τ2 1 + αwm 1+1 2 α y de aquı́ 1−α √ 1−α tan Φm 1−α 2 α q sen Φm = = =√ = 2 2 1 + tan Φm 1+α 4α + 1 + α2 − 2α 1 + (1−α) 4α relación ésta más manejable que la anterior y que da el valor de para el margen de fase apetecido, Φm . El valor de τ se deducirá de la expresión s √ 1 1 1 wm = =⇒ = wm α τ α τ sustituyendo wm por la pulsación para la cual queremos que se produzca el máximo adelanto de fase. Debe hacerse notar que para que la ganancia estática del sistema no quede afectada, hay que aumentar la ganancia del amplificador en el valor α1 , siendo α la atenuación que produce la red a bajas frecuencias. La figura 9.17. muestra el efecto de una red de adelanto de fase sobre la respuesta en bucle cerrado del sistema, en el plano de Black. Puesto que se pretende un efecto del tipo PD, se comprende fácilmente que la frecuencia wR debe situarse en las proximidades de la frecuencia de resonancia del sistema wR 0 para que de esta forma la nueva frecuencia de resonancia wR sea menor que wR . Asimismo, el pico de resonancia M 0 será menor que el anterior, M . NOTA: Otros autores utilizan como expresión de la función de transferencia de la red la siguiente expresión 1 1 + τ 0 as a 1 + τ 0s siendo las equivalencias entre ésta y la estudiada anteriormente, las siguientes: 1 1 a−1 =α τ wm = √ τ 0 = ατ sen Φm = a a a+1 9.7 Método práctico Para ver el método práctico de compensación mediante una red de avance, lo haremos con la ayuda de un ejemplo. Dicho ejemplo consiste en compensar el sistema cuya función de transferencia en bucle abierto es: Compensación de sistemas realimentados 159 50 ωm1 Amplitud(dB) Mm ωm2 Sin compensar -50 Compensada -150 -300 -240 -180 Fase(grados) -120 -60 Figura 9.17: Diagrama de Black sistema con Red de adelanto de fase G(s) = K s(1 + s)(1 + 0.0125s) para que cumpla las siguientes especificaciones: 1. Margen de fase > 50◦ , 2. Error de seguimiento para una entrada u(t) = t, menor que el 1 %. Resolución: • Para cumplir la especificación de régimen permanente, Kv = K = 1 R = = 100 E 0.01 • Las dos frecuencias de esquina son 1 y 1 0.0125 = 80 • En Bode se ve que el sistema es inestable. El margen de fase es de unos −2◦ aproximadamente. • Se compensará el sistema mediante una red de adelanto. Compensación de sistemas realimentados 160 • Para el cálculo de α, se toma un ángulo Φm algo mayor que el mı́nimo requerido, por ejemplo 55◦ y se tendrá que, sen 55◦ = 1−α = 0.82 de donde α ≈ 0.1 1+α Para hallar τ se procede ası́: 1. Se calcula la atenuación total de la red, que será: 20 log α = 20 log 0.1 = −20 dB 2. Se busca la frecuencia para la cual la atenuación del sistema es la mitad que la de la red, es decir, −10 dB, y se elige aquella como la frecuencia para la que se quiere la máxima desviación de fase. Con ello, en el nuevo punto de corte (que estará desplazado ligeramente hacia la derecha con respecto al anterior), se tendrá el margen de fase buscado. Por lo dicho, luego 1 wm = √ = 18 rad/seg τ α √ 1 = wm α = 5.7 rad/seg. τ 1 wm w2 = = √ = 57 rad/seg. ατ α w1 = Ası́ la función de transferencia de la red será G0 r(s) = α 1 s 1 + 5.7 1 + τs = 0.1 1 1 + ατ s 1 + 57 s ó Gr(s) = 1 + 0.1754s 1 + 0.01754s Para que la ganancia a bajas frecuencias no se altere, ha de introducirse una ganancia adicional de Ka = 1/α = 10, con lo que el sistema, una vez corregido, tendrá como función de transferencia: G0 (s) = 1 s) 100(1 + 5.7 s(1 + s)(1 + 0.0125s)(1 + 1 s) 57 Con este ejemplo se han ilustrado los pasos necesarios para la colocación de una red de avance de fase, de forma que su aprovechamiento sea el máximo posible. Amplitud(dB) Compensación de sistemas realimentados 0dB 161 ω1 ωm -10dB -1 10 0 10 1 10 ω(rad/s) Figura 9.18: ω2 2 10 3 10 Tema 10 Representación matemática de sistemas 10.1 Introducción 10.1.1 Generalidades El objeto de los Sistemas de Control es la concepción de unos ingenios que conectados a un proceso real sean capaces de gobernarlo de manera autónoma, es decir, sin la intervención (o con una intervención mı́nima) del ser humano. Dado un determinado proceso industrial, o un cierto ingenio como un barco o un avión, se trata de diseñar un aparato que le suministre las señales de mando oportunas para que su funcionamiento sea el requerido. El sistema de control, a partir de la información que le suministra el proceso a controlar, determina qué acciones deberán tomarse para que el funcionamiento de éste sea el requerido. El funcionamiento requerido de un determinado proceso implica un comportamiento dinámico. Por lo tanto el estudio del comportamiento dinámico de los procesos, o en general de los objetos fı́sicos, tiene un interés primordial en Automática. Por otra parte, en cierta medida, se puede considerar a un sistema de control como un sistema de toma de decisiones. Es decir, el sistema de control toma las decisiones de las acciones a tomar sobre el proceso para que su evolución sea la requerida. Para esta toma de decisiones se requiere que el sistema de control 162 Representación matemática de sistemas 163 conozca el comportamiento dinámico del proceso a controlar. Es decir, se requiere que el sistema de control conozca cómo reaccionará el proceso ante las posibles señales de excitación que este le suministre. De nuevo se tiene la necesidad del conocimiento del comportamiento dinámico del sistema a controlar. De lo anterior se desprende que en Automática el estudio del comportamiento dinámico de los sistemas tiene un interés primordial. Este estudio se concreta en el de los sistemas dinámicos, que se va a considerar a continuación. 10.2 Descripción interna de los sistemas dinámicos La descripción externa, según se ha visto en la sección anterior, suministra una relación explı́cita directa entre las señales de entrada y de salida. Esta relación no es satisfactoria en ciertos casos. Por ejemplo, supóngase que se está realizando la simulación de un sistema dinámico con ayuda de un computador digital. Es claro que al ser el valor de la señal de salida, en cada instante, función de todos los valores de la señal de entrada, en instantes anteriores, se presentarán dos notables problemas al realizar la simulación: 1. la memoria deberá registrar los valores de la señal de entrada, lo cual requerirá un gran volumen de la misma con el agravante de ir creciendo con el tiempo; y 2. el número de cálculos a efectuar crecerá con el tiempo alcanzado, con ello, valores prohibitivos. Los problemas del tipo de los anteriores se solucionan con ayuda de la denominada descripción interna que no es sino una relación explı́cita indirecta entre las señales de entrada y de salida. La relación se dice que es indirecta puesto que u(t) e y(t) no están relacionadas directamente sino a través de otra variable x(t) llamada estado del sistema dinámico, que juega un papel primordial en esta forma de descripción. Se entiende por estado de un sistema dinámico la menor colección de variables cuyo valor, en un cierto instante de tiempo t, resume el pasado dinámico del sistema hasta dicho instante y es suficiente para predecir la futura evolución del sistema a partir del mencionado tiempo t. El estado se representa, normalmente, por la letra x, y el conjunto de todos los estados por X. Un ejemplo lo Representación matemática de sistemas 164 suministra, en mecánica racional, el conjunto de valores tomados por la posición y velocidad de una partı́cula, cuyo conocimiento, en cierto instante, resume el pasado dinámico de la partı́cula y permite prever la futura evolución de la misma. Debe notarse que, tal como se ha definido, el estado de un sistema dinámico representa una magnitud abstracta sin ninguna referencia, en principio, a magnitudes fı́sicas medibles. Ello, no obstante, no se opone a que en alguna circunstancia el estado de un sistema dinámico pueda ser asimilado a conjuntos de magnitudes susceptibles de interpretación fı́sica e incluso medibles, como sucedı́a en el ejemplo más arriba mencionado del estado de una partı́cula en mecánica racional. La descripción interna está basada en la existencia de las dos funciones siguientes: 1. La función de transición que describe el cambio de estado que experimenta el sistema entre dos instantes de tiempo t0 y t1 como consecuencia de la aplicación de una señal u[t0 , t1 ]. Formalmente se escribe, x(t1 ) = φ(t1 , t0 , x0 , u) (10.1) en donde φ representa la función de transición, x0 el estado en el instante t0 y u la señal de entrada aplicada entre t0 y t1 La función de transición debe satisfacer las propiedades: (a) Causalidad: para todo u1 y u2 tales que u1 (t) = u2 (t), t0 < t1 se tendrá, φ(t1 , t0 , x0 , u1 ) = φ(t1 , t0 , x0 , u2 ) lo que se puede expresar diciendo que a la misma causa sigue el mismo efecto. (b) Consistencia: φ((t0 , t0 , x0 , u) = x0 (c) Composición: Para t2 > t1 > t0 se tiene, φ(t2 , t0 , x0 , u) = φ(t2 , t1 , x1 , u) x1 = φ(t1 , t0 , x0 , u) La interpretación de las anteriores propiedades es evidente. 2. La función de lectura o de salida que suministra el valor de la señal de salida en el instante de tiempo t cuando el sistema se encuentra en el citado Representación matemática de sistemas 165 x(t) y está sometido a un valor de la señal de entrada u(t). Formalmente se escribe, y(t) = η[t, x(t), u(t)] (10.2) en donde η representa la función de lectura. Con el fin de establecer una definición formal de un sistema dinámico se denotará por T el conjunto de instantes de tiempo considerados, por X el conjunto de estados, por U el conjunto de valores de la señal de entrada, por U = {| T → U } el conjunto de valores de entrada aceptables, por Y el conjunto de valores posible para la señal de salida, y por Y = {y | T → Y } el conjunto de señales de salida. Con estas notaciones se puede definir formalmente un sistema dinámico como sigue: Definición Un sistema dinámico es el objeto matemático constituido por el quı́ntuplo, (U, Y, X, φ, η) en donde la función de transición φ cumple las propiedades a), b), c), más arriba indicadas. Debe observarse que, tal como se indicaba al principio de esta sección, la relación entre la señal de entrada u(t) y la señal de salida y(t) se hace indirecta y se realiza a través del estado x(t). Es decir, que ası́ como en la descripción externa la función F determina y(t), a partir de u[t0 , t], en la descripción interna, a partir de u[t0 , t], y por medio de la función de transición, se genera el estado x(t), y es a partir del estado y de la función de la lectura como se tiene el valor de la señal de salida y(t). La mayor complejidad que aparentemente presenta este segundo camino se ve ampliamente compensada por la mayor simplicidad conceptual y facilidad operativa que se obtiene con él. Ello se pondrá de manifiesto en lo que sigue. A continuación se estudia la descripción interna de los sistemas más corrientemente encontrados en la práctica de la automática y que son aquellos cuyos tipos de relación entre la entrada y la salida se consideró en la sección 3.3. Representación matemática de sistemas 10.2.1 166 Sistemas de estados finitos Son aquellos en que el estado sólo puede formar un conjunto finito de valores. Igualmente las señales de entrada y salida sólo pueden tomar sus valores de un conjunto finito. En tal caso las funciones de transición y de lectura pueden ser tabuladas. Estos sistemas se estudian en cursos sobre sistemas lógicos o sobre teorı́a de autómatas y aquı́ se mencionan a tı́tulo de ejemplo y para mostrar la profunda unidad del concepto de sistema dinámico. Ejemplo 1/0 2 0/0 1/0 1 0/0 0/1 1/1 3 Figura 10.1: Diagrama de estados Considérese el sistema representado por el diagrama de la figura 10.1. En él es claro que, X = {1, 2, 3} U = {0, 1} Y = {0, 1} U e Y son secuencias de 1 y 0. ¯ ¯ En cuanto a φ y η pueden representarse en forma tabular como sigue, Representación matemática de sistemas φ 0 1 1 2 1 3 1 1 1 3 2 167 η 0 0 1 0 1 0 1 0 Debe observarse que al estudiar los sistemas de estados finitos el estado es un objeto matemático de carácter general, que, en principio, no tiene porque ser un vector como sucederá en las clases de sistemas que se considerarán más abajo. 10.2.2 Sistemas dinámicos lineales en tiempo continuo Una amplia clase de sistemas dinámicos lineales en tiempo continuo admite una representación matemática de la forma ẋ = A(t)x + B(t)u y = C(t)x + D(t)u (10.3) en donde x, y e u son vectores de dimensión n, p y m respectivamente y A,B,C y D ¯ ¯ ¯ ¯ son matrices¯ de dimensión n × n, n × m, p × n ¯y p × m respectivamente. El vector x es el vector de estado del sistema. En la mayor de las aplicaciones D = 0, por lo que en lo sucesivo y mientras no se indique lo contrario, se prescindirá de la matriz D. La escritura de las ecuaciones diferenciales que rigen la evolución de un sistema dinámico según las expresiones 10.3 recibe el nombre de representación por variables de estado o por vector de estado del mismo. En lo que sigue se tratarán únicamente los sistemas dinámicos invariantes en el tiempo con lo que, teniendo en cuenta además que D = 0, las ecuaciones 10.3 se emplearán en la forma ẋ = Ax + Bu y = Cx (10.4) En donde A, B y C son matrices cuyos elementos son numéricos. Se hablará P indistintamente de un sistema dinámico y de la terna (A, B, C) que lo representa. Representación matemática de sistemas 168 Los sistemas dinámicos lineales que admiten una representación matemática tal como la de las expresiones 10.3 reciben la denominación de sistemas lineales diferenciales de dimensiones finitas, haciendo alusión con esta denominación a que el vector de estado es un vector de dimensión n. Existen otras clases de sistemas dinámicos lineales, como son los (sistemas de parámetros distribuidos) en los cuales el vector de estado tiene una dimensión infinita. De estos últimos no nos ocupamos en estos apuntes. Obtención de la representación por variables de estado Todo sistema dinámico descrito por ecuaciones diferenciales de la forma de la expresión (3.5) admite una representación por variables de estado de la forma de las expresiones 10.3. Aquı́ se discutirá exclusivamente el caso de que la ecuación diferencial sea de coeficientes constantes, y que u(t) e y(t) sean escalares(sistemas con una entrada y una salida). Para un sistema dinámico dado, existen infinitas formas de representación de la descripción interna. Es decir, existen infinitas ternas(A, B, C) que caracterizan a un mismo sistema. Todos estas ternas están ligadas entre sı́ por unas relaciones algebraicas que se estudiarán más adelante en esta sección. Se estudiarán a continuación las formas más usuales de representación interna de los sistemas dinámicos lineales. Forma canónica de control Sea el sistema descrito por la ecuación diferencial, dn y dn−1 y + a + ... + an y = u 1 dtn dtn−1 (10.5) Se definen, xi = di−1 y dti−1 i = 1, ...n (10.6) La anterior ecuación diferencial de orden n se puede escribir como un sistema de n ecuaciones diferenciales de primer orden. Es decir Representación matemática de sistemas 169 ẋ1 = x2 ẋ2 = x3 .. .. .. . . . ẋn = −an x1 − ... − a1 xn + u y = x1 (10.7) Lo cual se puede escribir en la forma de las expresiones 10.3 definiendo, xT =        A=      ³ x1 x2 · · · xn ´ 0 1 0 0 0 1 . . . . . . . . . 0 0 0 −an −an−1 −an−2 . . . . . . ³ ´ BT = C= ³ 0 0 . . . . . . 1 . . . −a1 0 0 ··· 1 1 0 ··· 0              ´ (10.8) (10.9) (10.10) Para el caso en que la ecuación (10.5) tome la forma más general siguiente: dn−1 y dn−1 u dn y + a1 n−1 + ... + an y = b1 n−1 + ... + bn u dtn dt dt (10.11) o, lo que es lo mismo, el sistema tiene la función de transferencia: G(s) = n(s) b1 sn−1 + b2 sn−2 + ... + bn = n n−1 s + a1 s + ... + an d(s) (10.12) Representación matemática de sistemas u 170 v 1 d n y Figura 10.2: Factorización del sistema en el sistema de función de transferencia en serie. Supóngase que se introduce la nueva variable v(t), tal que: 1 v(s) = u(s) d(s) (10.13) es decir d(s)v(s) = u(s) Por otra parte, n(s)v(s) = y(s) (10.14) La introducción de la variable v equivale a factorizar el sistema (10.12) en el sistema de función de transferencia (10.13) en serie con el de (10.14), tal como se indica en la figura 10.2. Obsérvese que el sistema (10.13) tiene la misma forma que el (10.5), por lo que haciendo x1 = v x2 = ẋ1 = v̇ ... x2 = ẋ1 = v n−1 (10.15) se tiene que el par (A, B) para ese sistema será el dado por la expresiones (10.810.9). Además, llevando (10.15) a (10.14) se tiene y = bn v + bn−1 v̇ + ... + b2 v n−2 + b1 v n−1 = bn x1 + bn−1 x2 + ... + b2 xn−1 + b1 xn = [bn bn−1 ... b2 b1 ]x Por tanto, las expresiones (10.8) y (10.9) son igualmente válidas pero la (10.10) toma la forma más general, C= ³ bn bn−1 · · · b1 ´ (10.16) En la figura 10.3 se muestra el diagrama interno de bloques del sistema dinámico, descrito por la ecuación (10.11), correspondiente a la estructura de la forma canónica de control. Representación matemática de sistemas 171 + + + b1 u + ẋn R + b2 R xn xn−1 + bn−1 R y + x2 bn R x1 - a1 a2 an−1 + + Figura 10.3: Diagrama interno de bloques an Representación matemática de sistemas 172 Ejemplo Sea el sistema descrito por la ecuación diferencial, d3 y d2 y dy du + 4 + 3 + 2y = 3u + 2 3 2 dt dt dt dt Las matrices A, B y C en la forma canónica de control serán las siguientes:   0 1 0  0 1  A= 0  −2 −3 −4   0  B= 0   1 C= ³ 3 2 0 ´ Forma canónica de observación La obtención de la forma canónica de observación ilustra otro método general de obtención de la representación por variables de estado de un sistema dinámico. Consiste este procedimiento en determinar, en primer lugar, el diagrama interno de bloques para luego asignar a la salida de cada integrador una variable de estado y ası́ construir las matrices A, B y C. Sea la ecuación diferencial con coeficientes constantes, dn y dn−1 y dn−1 u + a + ... + a y = b + ... + bn u 1 n 1 dtn dtn−1 dtn−1 (10.17) cuya descripción por variables de estado, en la forma canónica de observación, se quiere determinar. Para obtener un diagrama interno de bloques se procede como sigue. Llamando D al operador dtd , la expresión (10.17) se puede escribir: Dn y + Dn−1 (a1 y − b1 u) + ... + D(an−1 y − bn−1 u) + an y − bn u = 0 Dividiendo por Dn y despejando y se tiene: y= 1 1 1 (b1 u − a1 y) + ... + n−1 (bn−1 u − an−1 y) + n (bn u − an y) D D D (10.18) Representación matemática de sistemas 173 La expresión (10.18) conduce a un diagrama de bloques como el de la figura 10.4. u bn b1 bn−1 ẋ1 R x1 ẋ2 R x2 ẋn−1 R x n−1 ẋn R xn y −an −an−1 −a1 Figura 10.4: Forma canónica de observación De la observación de la figura 10.4 se desprende: ẋ1 = −an xn + bn u ẋ2 = −an−1 xn + x1 + bn−1 u ... ẋn−1 = −a2 xn + xn−2 + b2 u ẋn = −a1 xn + xn−1 + b1 u y = xn Las anteriores ecuaciones pueden escribirse en forma compacta empleando la notación matricial en cuyo caso se tienen dos ecuaciones como las 10.3 (Ao = ATc ) con, Representación matemática de sistemas       A=       0 1 0 . . 0 0 0 0 1 . . 0 0 174 0 ... −an 0 ... −an−1 . . 1 . . . . 0 ... −a2 0 1 −a1              (10.19) B T = (bn bn−1 . . . b1 ) (10.20) C = (0 0 . . . 1) (10.21) Ejemplo Sea el sistema descrito por la ecuación diferencial, d3 y d2 y dy du + 4 + 3 + 2y = 3u + 2 3 2 dt dt dt dt cuya forma canónica de control se determinó anteriormente. En su forma canónica de observación las matrices A, B y C serán:   0 0 −2   A =  1 0 −3  0 1 −4   3   B= 2  0 C= ³ 0 0 1 ´ Para un mismo sistema dinámico existen diferentes formas de representación por variables de estado. Nótese que, de hecho, los diagramas de las figuras 10.3 y 10.4 servirán para simular el sistema en un computador digital o bien en un calculador analógico. Ello pone de manifiesto como la descripción interna suministra un modelo de máquina que realiza el sistema, mientras que la descripción externa se limita a describir lo que sucede en la salida por efecto de la acción que se realice a la entrada. La descripción externa muestra qué hace el sistema mientras que la interna indica cómo lo hace (al menos una forma de hacerlo) Representación matemática de sistemas 175 Representaciones equivalentes Se ha visto en el apartado anterior cómo un mismo sistema admitı́a distintas representaciones. Se van a estudiar en este apartado las formas equivalentes de representación de un mismo sistema. Para ello interesa introducir los conceptos de equivalencia y de similaridad. Dos sistemas dinámicos se dicen equivalentes si ante la misma señal de entrada responden con la misma señal de salida. Dos sistemas serán equivalentes si tienen la misma representación externa. El concepto de equivalencia entre sistemas tiene una cierta sutileza que se pone de manifiesto en el ejemplo siguiente. Ejemplo Sean dos sistemas dinámicos cuyas funciones de transferencia son las siguientes: T1 (s) = 1 s+1 T2 (s) = s2 s+2 s+2 = + 3s + 2 (s + 1)(s + 2) Las dos funciones de transferencia representan al mismo sistema. Sin embargo obsérvese que si se obtienen las descripciones interna de cada una de estas funciones de transferencia, se obtendrán distintas dimensiones para el vector de estado. Un concepto más restrictivo que el de equivalencia entre sistemas, es el de similaridad. Dos sistemas se dicen similares si además de ser equivalentes, dan lugar a realizaciones con la misma dimensión para el vector de estados. Por ejemplo, si a partir de una cierta función de transferencia se obtienen las formas canónicas de control y observación, estas dos formas de representación constituyen dos formas similares. Sean (A1 , B1 , C1 ) y (A2 , B2 , C2 ) dos representaciones por variables de estado de un mismo sistema. Es fácil ver que existe una transformación no singular T tal que A2 = T A1 T −1 B2 = T B 1 C2 = C1 T −1 En efecto si, ẋ = A1 x + B1 u (10.22) Representación matemática de sistemas 176 y = C1 x y x = T x, (T no singular), se tiene que, T1 ẋ = A1 T −1 x + B1 u lo que premultiplicado por T resulta ẋ = T A1 T −1 x + T B1 u y = C1 T −1 x de donde resultan las expresiones (10.22). Ejemplo En el sistema dinámico cuyas formas canónicas de control y de observación se han determinado anteriormente se comprueba que,   5 12 3   T =  12 11 2  3 12 0 cumple las anteriores relaciones. La equivalencia entre sistemas está relacionada con la descripción externa de los mismos, mientras que la similaridad lo está con la descripción interna. La equivalencia entre sistemas para el caso de una entrada y una salida, puede parecer un concepto trivial. No lo es cuando se aplica a sistemas multivariables La similaridad entre sistemas, o entre dos formas de representación de un mismo sistema, es un concepto extraordinariamente fecundo como se verá en lo que sigue. De hecho, en el estudio de los sistemas diferenciales lineales por variables de estado, lo que se va buscando es la forma de representación que más convenga al problema que se está tratando de resolver, y por medio de transformaciones de similaridad como las descritas por las ecuaciones (10.22), determinar estas formas de representación. Debe notarse que la transformación de similaridad en representaciones de sistemas dinámicos equivale a una transformación lineal del vector de estados, es decir a un cambio de bases en la representación del mismo. Representación matemática de sistemas 10.2.3 177 Función de transición de los sistemas dinámicos lineales Se va a considerar con detalle únicamente el caso de sistemas invariantes en el tiempo. Sean las expresiones 10.4. ẋ = Ax + Bu y = Cx (10.23) en el caso en que las matrices (A, B, C) no dependan del tiempo, es decir estén formadas por números. Se trata de resolver, de una manera general, las anteriores ecuaciones diferenciales, en particular la primera, para ver que conduce a una función de transición entre estados de la forma definida al principio de esta sección. (recuérdese la expresión 10.1). Para resolver la ecuación 10.23 se va a emplear el método de Laplace según el cual se puede escribir, sX(s) − x(0) = AX(s) + BU (s) de donde se puede despejar X(s), (sI − A)X(s) = x(0) + BU (s) Llamando φ(s) = (sI − A)−1 se tiene, X(s) = φ(s)x(0) + φ(s)BU (s) (10.24) cuya antitransformada de Laplace es x(t) = φ(t)x(0) + Z t 0 φ(t − τ )Bu(τ )dτ (10.25) en donde φ(t) = L−1 [φ(s)]. La matriz φ(t) recibe el nombre de matriz de transición Representación matemática de sistemas 178 La expresión (10.25) es de la misma forma que la expresión (10.1) y representa la transición entre los estados x(0) y x(t) como consecuencia de la aplicación de una señal de entrada u en el intervalo (0, t). Puede comprobarse fácilmente que la expresión (10.25) cumple las propiedades de causalidad, consistencia y composición exigidas a la función de transición entre estados. La existencia de (10.25) para todo sistema descrito por ecuaciones de la forma (10.23) permite establecer, que todo sistema dinámico cuyas ecuaciones diferenciales pueden escribirse en la forma 10.23 admite una descripción interna de acuerdo con la definición dada al principio de esta sección. Obsérvese que la función de lectura viene dada por la segunda de las expresiones (10.23). Se dice que al pasar de la descripción externa a la interna lo que se hace es factorizar la función que representa la descripción externa en las funciones de lectura y de transición entre estados. Esto se puede interpretar con el siguiente diagrama, u B x φ(s) C y Para el caso de sistemas que varı́en con el tiempo la expresión (10.25) toma la forma más general, x(t) = φ(t, t0 )x(t0 ) + Z t 0 φ(t, τ )B(τ )u(τ )dτ (10.26) Volviendo al caso invariante en el tiempo y suponiendo un vector de estado de dimensión n = 1 se tendrá, haciendo A = [a] φ(s) = 1 s−a es decir φ(t) = eat El anterior resultado se puede generalizar por una dimensión del vector de estado arbitraria (aunque finita) y hacer, Representación matemática de sistemas 179 φ(t) = eAt (10.27) en donde φ(t) = eAt = I + At + ... + Ak tk + ... k! (10.28) Esta forma de escribir la matriz de transición tiene un indudable interés en desarrollos formales y en el estudio de propiedades de los sistemas dinámicos lineales invariantes en el tiempo. Para determinar la matriz de transición se puede emplear varios métodos pero aquı́ se considerarán sólo dos: 1. empleo de la expresión (10.28) y 2. determinación de su transformada de Laplace según φ(s) = (sI − A)−1 y posteriormente haciendo su antitransformada: h φ(t) = L−1 (sI − A)−1 i Ejemplo Sea un sistema dinámico cuya matriz A es la siguiente Ã A= 1 1 0 1 ! Se trata de determinar la matriz de transición φ(t) por los dos métodos indicados más arriba. 1. Para emplear el desarrollo en serie (10.28) se tendrá que, Ã 2 A = Luego 1 2 0 1 ! Ã 3 ; A =  P k t ∞ k k k! X  A t eAt = =  k! k=0 0 1 3 0 1 P ! Ã k ; ··· A = tk (k−1)! P tk k!   =  Ã 1 k 0 1 et tet 0 et ! ! Representación matemática de sistemas 180 2. Para determinar φ(s) se procede como sigue: " −1 φ(s) = (sI − A) = s − 1 −1 0 s−1 #−1 1 = 4 " s−1 1 0 s−1 # siendo 4 = (s − 1)2 . Hallando la antitransformada de φ(s) se tendrá, Ã φ(t) = L−1 [φ(s)] = et tet 0 et ! Se tiene el mismo resultado que en 1. Llevando a la expresión (10.23) el valor de x(t) que da la expresión (10.26) se tiene, y(t) = C(t)φ(t1 , t0 )x(t0 ) + C(t) Z t t0 φ(t1 , τ )B(τ )u(τ ) dτ (10.29) Suponiendo que el instante inicial se estima en el pasado remoto (−∞) en que el sistema se encontraba en reposo, se puede escribir y(t) = Z t −∞ C(τ )φ(t1 , τ )B(τ )u(τ )dτ (10.30) Comparando las expresiones (10.30) y (3.8) se tiene que la respuesta impulsional del sistema en función de F , G y H se puede escribir, h(t1 , τ ) = C(t)φ(t1 , τ )B(τ ) (10.31) Por otra parte, y para sistemas invariantes en el tiempo, a partir de las expresiones (28) y (15) se puede escribir H(s) = Y (s) = C(sI − A)−1 B U (s) (10.32) en donde se ha tenido en cuenta que al determinar la función de transferencia se parte de x(0) = 0, pues ésta se define para condiciones iniciales nulas. La expresión (35) permite determinar la función de transferencia a partir de las matrices A, B y C. Representación matemática de sistemas 181 El problema inverso del anterior, es decir, el problema de determinar las matrices A, B y C a partir de la matriz de transferencia, ya ha sido considerado anteriormente, en la sección 10.2.2, para el caso de sistemas con una entrada y una salida. Para sistemas multivariables el problema puede adquirir una notable complejidad adicional si se trata de obtener una representación con una dimensión del vector de estado mı́nima. Este problema recibe el nombre de problema de realización y se estudiará más adelante. 10.2.4 Sistemas dinámicos lineales en tiempo discreto Para los sistemas dinámicos lineales en tiempo discreto se tienen resultados análogos a los obtenidos en la sección 10.2.2 para los sistemas lineales en tiempo contı́nuo. Para estos últimos la descripción por variables de estado toma la forma siguiente: x(k + 1) = Φ(k)x(k) + Γ(k)u(k) y(k) = C(k)x(k) + D(k)u(k) (10.33) (10.34) En donde las matrices y vectores que aparecen tienen una interpretación análoga a la de las matrices y vectores de las expresiones 10.3. Igual que allı́, habitualmente, D = 0 y el caso de mayor interés es aquel en que las matrices Φ(k), Γ(k)yC(k) no dependen de k. Es decir, en lo que sigue se tendrá, x(k + 1) = φx(k) + Γu(k) y(k) = Cx(k) (10.35) (10.36) Para obtener la representación por variables de estado de un sistema descrito por ecuaciones en diferencias finitas se procede en forma análoga a la empleada para los sistemas descritos por ecuaciones diferenciales, teniendo presente que a la derivada allı́, aquı́ corresponde el adelanto un perı́odo elemental, a la integral el retraso, y a la transformada en s la transformada en z. Ejemplo Sea el sistema dinámico cuya ecuación en diferencias es la siguiente: Representación matemática de sistemas 182 y(t + 3) + 4y(t + 2) + 3y(t + 1) + 2y(t) = 3u(t) + 2u(t + 1) Este sistema admite las mismas formas canónicas de control y de observación que los ejemplos tratados en sistemas contı́nuos. Se define la matriz de transferencia ψ(k) de manera que, ψ(0) = I ψ(k + 1) = Φψ(k) Es claro que a partir de (10.35) se puede escribir x(n) = ψ(n − k)x(k) + n−1 X ψ(n − j − 1)Bu(j) j=k Esta expresión es análoga a la (10.25) y se puede hacer aquı́ las consideraciones que allı́ se hicieron. Obsérvese que, ψ(k) = Φk expresión correspondiente a la (10.27) La respuesta impulsional, en función de Φ Γ y H, se puede escribir, h(k) = CΦ(k)B y la función de transferencia, H(z) = 10.2.5 Y (z) = C(zI − A)−1 B U (z) Muestreo de sistemas en tiempo contı́nuo Sea un sistema dinámico descrito por, (10.37) Representación matemática de sistemas 183 ẋ = Ax + Bu y = Cx Supóngase que el anterior sistema se somete a una señal de entrada escalonada, es decir a una señal de entrada tal que, u(t) = u(kT ) para kT ≤ t ≤ (k + 1)T en donde k = 0, 1, 2, .... Una señal arbitraria u(t) puede convertirse en una señal escalonada por medio de unos circuitos retenedores (sample - hold). En la figura 8 se ilustra el proceso de escalonamiento de una señal u(t). Al ser excitado el sistema 10.38 con una señal escalonada u(t) se obtendrá una señal de salida y(t). Supóngase que de esta señal se miden solamente los valores que toma en el conjunto discreto de tiempos t = kT para k = 0, 1, 2, ... Es decir la señal de salida se muestrea de manera periódica, con un perı́odo T . La evolución del estado del sistema 10.38 vendrá dada de acuerdo con (10.25), por la expresión x(t) = φ(t − t0 )x(t0 ) + Z t t0 φ(t − τ )Bu(τ )dτ Si se hace t0 = kT y t = T (k + 1) se tendrá, x((k + 1)T ) = φ(T )x(kT ) + Z (k+1)T kT φ((k + 1)T − τ )Bu(kT )dτ En la integral del segundo miembro se puede hacer el cambio de variables α = (k + 1)T − τ con lo cual la anterior expresión queda, ÃZ x(k + 1 T ) = Φ(T )x(kT ) + Llamando, ÃZ Γ= 0 T 0 T ! Φ(α)Bdα u(kT ) ! Φ(α)Bdα ; Φ(T ) = Φ Representación matemática de sistemas 184 y prescindiendo de T, para simplificar la notación, se puede escribir x(k + 1) = Φx(k) + Γu(k) (10.38) expresión que, unida a y(k) = Cx(k) , permite decir que el muestreo de un sistema dinámico en tiempo contı́nuo da lugar a un sistema lineal en tiempo discreto. Obsérvese que la matriz Φ es precisamente el valor de la matriz de transición del sistema en tiempo contı́nuo para un valor del tiempo de T segundos. Ejemplo Sea el sistema cuya ecuación diferencial es d2 y dy du + = + 2u 2 dt dt dt El cual admite una forma canónica de control Ã A= 0 1 0 −1 ! Ã ; B= 0 1 ! ; C = (2 1) y cuya función de transferencia es, Y (s) s+2 = U (s) s(s + 1) Supóngase que este sistema se somete a una entrada escalonada y que su salida se muestrea, ambos procesos con periodo t = T seg. Se trata de determinar el sistema en tiempo discreto equivalente (ver figura 9). Se tendrá  " φ(s) = (sI − A)−1 = Por tanto, s −1 0 s+1 #−1 = 1 s(s + 1) " s+1 1 0 s # 1   s =  0 1 s(s + 1) 1 (s + 1)      Representación matemática de sistemas Ã φ(t) = luego Ã Φ= 185 1 1 − e−t 0 e−t 1 0.428 0 0.572 ! ! Por otra parte Γ= !Ã ! Z 1Ã 1 1 − e−α 0 0 0 e−α 1 dα = C = (2 ! Z 1Ã 1 − e−α 0 e−α Ã dα = 0.572 0.428 ! 1) El proceso de muestreo al que se ha dedicado este apartado es un modelo del que se realiza cuando se introduce un computador en un proceso 10.2.6 Sistemas no-lineales: linealización Existen muchos problemas prácticos en que los sistemas encontrados no admiten una descripción por medio de ecuaciones diferenciales lineales. En tal caso no es posible, en principio, tener unas expresiones de la forma 10.3. Sin embargo, si la ecuación diferencial es de orden n, supóngase que puede escribirse como n ecuaciones diferenciales de primer orden, de la forma ẋ = f (x, u, t) (10.39) en donde f (.,.) es una función no-lineal de x y u, que se supondrá, en lo que sigue, diferenciable con respecto a sus argumentos. Obsérvese que la expresión (10.38) es un caso particular de la (10.39). En tal caso se puede concebir un sistema lineal que represente el comportamiento dinámico del sistema para pequeñas perturbaciones en torno a una trayectoria previamente determinada, llamada trayectoria nominal. Sea esta trayectoria nominal x∗ (t) se tendrá Representación matemática de sistemas 186 ẋ∗ = f (x∗ , u∗ , t) Por otra parte la trayectoria real será la indicada por (10.39). Si las variaciones de la trayectoria real con relación a la nominal son pequeñas se podrá escribir, llamando δx = x − x∗ y δu = u − u∗ y empleando la formula de Taylor, " ∂f (δ ẋ) = f (x, u, t) − f (x∗ , u∗ , t) = ∂x # " x = x∗ u = u∗ ∂f δx + ∂u # x = x∗ u = u∗ δu (10.40) Con ello se tiene el comportamiento lineal de las pequeñas perturbaciones en torno a la trayectoria nominal. Para fijar ideas supóngase que la dimensión del vector x es 2. Las ecuaciones (10.39) toman la forma ẋ1 = f1 (x1 , x2 , u, t) ẋ2 = f2 (x1 , x2 , u, t) y supóngase que la trayectoria nominal viene dada por x∗1 (t), x∗2 (t) y u∗ (t). En tal caso se tendrá que las ecuaciones (10.40) tomaran la forma Ã δ ẋ1 δ ẋ2 !  ∂f1  ∂x 1 =  ∂f2 ∂x1 ∂f1 ∂x2 ∂f2 ∂x2     Ã x∗1 (t) x∗2 (t) ∗ x1 = x2 = u = u (t) δx1 δx2 Ejemplo Sea el sistema no-lineal descrito por ẋ1 = x2 ẋ2 = au − bx22 !   ∂f1   ∂u  δu +  ∂f2  x1 = x∗1 (t) ∂u x2 = x∗2 (t) u = u∗ (t) Representación matemática de sistemas 187 c1 c2 q1 q2 h V, c q Figura 10.5: Diagrama de un depósito mezclador. y sea la trayectoria nominal, αt2 2 = αt 1 = (α + bα2 t2 ) a x∗1 = x∗2 u∗ Aplicando el método antes desarrollado se tiene, Ã 10.2.7 δ ẋ1 δ ẋ2 ! Ã = 0 1 0 −2bαt ! Ã δx1 δx2 ! Ã + 0 a ! δu Depósito mezclador En la figura 14.3 se muestra un esquema elemental de un proceso de mezcla de dos fluidos en un depósito. Este depósito de volumen V y altura h está alimentado por los caudales q1 y q2 , cada uno de los cuales con concentración c1 y c2 de un determinado producto quı́mico. La concentración de este producto en el depósito es c. El depósito evacua por un conducto situado en su parte baja mediante un caudal q. Se supone que la homogeneización de las concentraciones de los caudales de entrada se produce instantáneamente gracias a la acción de unas Representación matemática de sistemas 188 palas batidoras. Se supone, ası́ mismo, que la densidad es constante en el interior del depósito. Las ecuaciones del balance de masas son las siguientes: dv(t) = q1 (t) + q2 (t) − q(t) dt (10.41) d[c(t)v(t)] = c1 (t)q1 (t) + c2 (t)q2 (t) − c(t)q(t) dt (10.42) El flujo de salida del depósito viene dado por q q(t) = k h(t) = k s v(t) a (10.43) En donde k es una constante y a es el área del depósito. De modo que v = ha. Supóngase un estado estacionario de funcionamiento en el que se produce un equilibrio entre las entradas y salidas del depósito, para los siguientes valores de los flujos de entrada y salida, ası́ como del volumen en el depósito v0 y de su concentración c0 . q1 (0) = q10 , q2 (0) = q20 , q(0) = q0 , v(0) = v0 , c(0) = c0 Convienen observar que las concentraciones de entrada c1 y c2 se establecen en la etapa anterior del proceso. En estas condiciones de régimen estacionario, las ecuaciones (14.5, 14.6,14.7) toman la forma: 0 = q10 + q20 − q0 0 = c1 q10 + c2 q20 − c0 q0 r v0 q0 = k a Se trata de determinar las ecuaciones lineales que rigen el comportamiento del sistema en torno a este estado estacionario en el supuesto de que se trate de perturbaciones suficientemente pequeñas como para justificar la linealización. Conviene observar que el proceso que se está considerando es un proceso no lineal; es decir, la ecuaciones que gobiernan su comportamiento son no lineales. Esta no linealidad tienen un doble origen. Por una parte, la ecuación (14.6) es no lineal ya que en ella aparecen producto de variables. Por otra parte, la expresión (14.7) liga q con v (o con h) mediante una relación no lineal (la raı́z cuadrada). Representación matemática de sistemas 189 Las variaciones de las distintas variables con respecto a los valores tomados en régimen estacionario se denotarán mediante un tilde sobre la variable correspondiente. Es decir, q̃(t) = q(t) − q0 representa la variación del caudal q respecto al valor estacionario q0 . Análogamente se definen el resto de las variables ṽ(t) = v(t) − v0 q1 (t) = q10 + q̃1 (t) q2 (t) = q20 + q̃2 (t) c(t) = c0 + c̃(t) Si las variaciones son suficientemente pequeñas, entonces la expresión no lineal (14.7) se puede linealizar en torno al valor correspondiente por régimen estacionario, de acuerdo con q k ∂ v(t) q(t) − q0 = √ |v=v0 (v(t) − v0 ) a ∂v(t) Es decir k q̃(t) = 2v0 r v0 ṽ(t) a (10.44) De este modo la relación entre la variación q̃(t) del caudal con respecto al valor en régimen estacionario, y la correspondiente al volumen ṽ(t), queda linealizada. Llevando las definiciones de las variaciones ṽ(t), q̃1 (t), q̃2 (t) y c̃(t) a las expresiones (14.5) y (14.6) y tendiendo en cuenta la definición del régimen estacionario y (14.8) se tiene que dṽ(t) 1 q0 = q̃1 (t) + q̃2 (t) − ṽ(t) dt 2 v0 dṽ(t) 1 c 0 q0 dc̃(t) v0 + c0 = c1 q̃1 (t) + c2 q̃2 (t) − ṽ(t) − q0 c̃(t) dt dt 2 v0 τ= v0 q0 Representación matemática de sistemas 190 Si se escribe x1 x2 u1 u2 y1 y2 = = = = = = y τ= ṽ c̃ q̃1 q̃2 q̃ c̃ v0 q0 se tiene que las ecuaciones del sistema dinámico linealizado pueden escribirse de la forma siguiente: Ã ẋ1 ẋ2 !  1  − 2τ =  0   1 0   x +  c1 − c0 1  − v0 τ  1 c2 − c0  u v0 Sistema dinámico lineal que describe el comportamiento del sistema perturbado en torno al régimen estacionario. Tema 11 Controlabilidad y observabilidad de sistemas dinámicos 11.1 Introducción La descripción interna de un sistema dinámico lineal suministra modelos para la representación de una amplia clase de sistemas dinámicos encontrados en la práctica. Esta descripción reposa sobre la existencia de la terna (A, B, C) que caracteriza completamente su comportamiento dinámico. Asociados a la descripción interna de un sistema lineal emergen dos conceptos que tienen una importancia capital y cuya sola existencia justifica la adopción de la descripción interna frente a la externa. Son los conceptos de controlabilidad y de observabilidad. Su formulación da respuesta precisa a dos cuestiones fundamentales: 1. ¿Se puede determinar el estado de un sistema a partir de la observación de la salida?. 2. ¿Se puede determinar una señal de entrada que transfiera el sistema de un estado a otro? La controlabilidad y la observabilidad son propiedades de la descripción interna de los sistemas dinámicos. Estas propiedades se refieren, respectivamente, a la influencia de la entrada sobre el estado y del estado sobre la salida. 191 Controlabilidad y observabilidad de sistemas dinámicos 192 No es necesario insistir aquı́ sobre el interés de esos conceptos puesto que quedará ampliamente puesto de manifiesto en todo lo que sigue. Históricamente ambos conceptos no aparecieron a la vez. El de controlabilidad, más antiguo, fue empleado por Pontryagin en sus trabajos sobre el principio del máximo. Sin embargo corresponde a Kalman el primer tratamiento sistemático de ambos, ası́ como el establecimiento de las relaciones entre ellos (dualidad), y sobre todo su amplia difusión, por lo que es frecuente leer que ha sido Kalman el introductor de estos conceptos. En lo que sigue se estudiará la controlabilidad y la observabilidad de los sistemas lineales invariantes en el tiempo. Se estudiarán a su vez criterios para determinar si un sistema dinámico lineal es, o no, controlable u observable. De todo ello se extraerán conclusiones prácticas para abordar el problema de sı́ntesis que será tratado en el capı́tulo siguiente. Se verá como todo ello se reduce a propiedades algebraicas de la terna (A, B, C). 11.2 Controlabilidad de sistemas dinámicos lineales El concepto de controlabilidad pretende dar un significado preciso a la idea de transición entre estados. Dada la importancia del concepto de estado en la descripción de los sistemas dinámicos, interesa estudiar bajo qué condiciones será posible ”conducir” un determinado sistema a un cierto estado. De manera intuitiva la noción de ”conducir” el sistema a un determinado estado es equivalente a la de ”controlarlo”. De una manera general se dirá que un sistema es controlable si para cada transición entre estados que se desee realizar existe una señal de control que la realice. El tiempo de la transición entre estados se supone finito y la señal de control se supone sin ninguna clase de restricciones. Para precisar los conceptos se introducen las siguientes definiciones. 11.2.1 Estados alcanzables El conjunto de estados alcanzables desde el estado x, Ax , está formado por los elementos x1 ²X para los que existe una señal de entrada u(t), definida en un Controlabilidad y observabilidad de sistemas dinámicos 193 cierto intervalo (t0 , t1 ) tal que φ(t1 , t0 , x, u(t0 , t1 )) = x1 El espacio de estados X de un sistema dinámico x si Ax = X. P se dice alcanzable desde En la figura 11.1 se ilustra el concepto de conjunto de estados alcanzables desde x. Normalmente el estado que se toma de referencia para definir el conjunto de estados alcanzables es el estado de reposo x = 0. x=0 u1 u2 Ax u3 Figura 11.1: Ax = Conjunto de estados alcanzables desde x = 0 La alcanzabilidad exige que la aplicación φ(., t0 , x, .) sea suprayectiva. El concepto de controlabilidad se tiene como contra parte del de alcanzabilidad invirtiendo el tiempo. 11.2.2 Estados controlables Se define el conjunto de estados controlables a x, Cx , como el formado por los elementos x1 ²X para los que existe una señal de entrada u(t), definida en un cierto intervalo (t0 , t1 ) tal que φ(t1 , t0 , x1 , u(t0 , t1 )) = x Un sistema dinámico se dice controlable a x si Cx = x. Un sistema dinámico se dice controlable si es controlable al origen. Controlabilidad y observabilidad de sistemas dinámicos 194 Las consideraciones hechas más arriba respecto al concepto de alcanzabilidad son válidas aquı́ respecto al de controlabilidad. En la figura 11.2 se ilustra el conjunto Cx . u1 Cx x=0 u2 u3 Figura 11.2: Cx = Conjunto de estados controlables a x En algunos casos se define la controlabilidad a la señal de salida además de a los estados, sin embargo, en estos apuntes el concepto de controlabilidad que se manejará es el definido más arriba. 11.2.3 Estados conectados El espacio de estados X de un sistema dinámico se dice conectado, si para cada par de estados x0 , x1 , ²X existe una señal u(t), definida en un cierto intervalo (t0 , t1 ) tal que φ(t1 , t0 , x0 , u(t0 , t1 )) = x1 Es evidente que si el espacio de estados está conectado, el sistema será alcanzable y controlable. Es decir, que conexión ⇒ alcanzabilidad + controlabilidad Los conceptos de alcanzabilidad, controlabilidad y conexión entre estados, son equivalentes entre sı́ para los sistemas dinámicos lineales estacionarios. Este hecho justifica el que en lo que sigue se hable exclusivamente del concepto de controlabilidad. Ejemplo Controlabilidad y observabilidad de sistemas dinámicos 195 Sea el sistema de la figura 11.3. Para su descripción interna se requieren dos variables de estado x1 y x2 , que se puedan identificar con las cargas de cada uno de los condensadores. Si la señal de entrada es la tensión que se aplica a las formas correspondientes, es claro que se puede transferir a x1 ó a x2 a cualquier valor; sin embargo, no se puede transferir a x1 y a x2 a un par de valores arbitrarios. Por lo tanto la ecuación que describe el comportamiento de este sistema no es controlable. Los conceptos de controlabilidad, alcanzabilidad y conexión se refieren a las posibles transferencias en el espacio de estados que resultan de la aplicación de señales de entrada. El concepto de controlabilidad se refiere a la transferencia de un estado inicial arbitrario a una trayectoria deseada. Normalmente la trayectoria deseada es un punto de equilibrio. Este es el caso que se ha considerado aquı́, tomándose además el elemento cero de X para representar este equilibrio. C C x1 x2 u R R Figura 11.3: Ejemplo de sistema no controlable 11.3 Controlabilidad de los sistemas en tiempo discreto Aunque en este curso nos ocupamos fundamentalmente de sistemas en tiempo continuo, la introducción del concepto de controlabilidad se hace de forma mucho más sencilla en el caso de los sistemas dinámicos en tiempo discreto. Por ello, en primer lugar nos vamos a ocupar de la controlabilidad de un sistema de este tipo. Controlabilidad y observabilidad de sistemas dinámicos 11.3.1 196 Ejemplos de introducción • Sistema controlable. Sea el sistema de posicionamiento de un cilindro, de inercia unitaria, sometido a un par u(t), suponiendo que el rozamiento sea despreciable. Este sistema representa una versión idealizada del problema del posicionamiento de un satélite en un plano. Sus ecuaciones se pueden escribir " ẋ = 0 1 0 0 # " x+ 0 1 # u es decir: " A= 0 1 0 0 # " B= 0 1 # se tiene: " (sI − A)−1 = s −1 0 s #−1 = 1 s2 " s 1 0 s #  1  s =   0  1 s2   1  s por tanto " φ(t) = 1 t 0 1 # " φ(T ) = 1 T 0 1 # Conviene recordar que la matriz de transición entre estados en un sistema en tiempo discreto viene dada por: Γ = Z (k+1)T kt φ ((k + 1)T − τ ) Bdτ σ = τ − kT Γ = Z T 0 φ(t − σ)B = dσ θ = T −σ Γ = Z T 0 φ(θ)Bdθ De acuerdo con lo cual, la matriz de transición entre estados para el sistema en tiempo discreto de posicionamiento del cilindro resulta ser: Controlabilidad y observabilidad de sistemas dinámicos Γ= Z T 0 φ(t−τ )Bdτ = # # " Z T" 0 1 τ 0 1 0 1 dτ = 197 # Z T" τ 0 1 " dτ = T 2 /2 T # Por tanto el sistema en tiempo discreto (también llamado sistema muestreado) será: " xk+1 = Axk + Buk = 1 T 0 1 # " xk + T 2 /2 T # u Supongamos que se aplica una señal uo , en el instante t = 0, con las condiciones iniciales xo = [α β]T , lo que hace que en el primer instante de muestreo se alcance el estado x1 = Ax0 + Bu0 x1,1 = α + T β + (T 2 /2) u0 x2,1 = β + T u0 Si con la señal uo que hemos aplicado pretendiésemos transferir el estado inicial [αβ] al origen del espacio de estado; es decir si quisiésemos x1,1 = x2,1 = 0 entonces tendrı́amos: α + T β + (T 2 /2) u0 = 0 es decir u0 = −(α + T β) T 2 /2 Pero también se ha de cumplir: β + T u0 = 0 u0 = − β T Controlabilidad y observabilidad de sistemas dinámicos 198 Por tanto, para que exista una señal uo que transfiera en un solo paso el estado [α, β] al origen se requiere que este estado no sea uno cualquiera, sino que esté situado en la región del espacio de estados definida por la expresión: β= α + Tβ T /2 T β = 2α + 2T β 2α + T β = 0 En consecuencia, no es posible transferir un estado arbitrario del espacio de estados, en un sólo paso, al origen. Veamos que sucede si en lugar de considerar un solo paso, consideramos dos; es decir una secuencia de señales sucesivas uo , u1 . En tal caso se tendrá: x2 = A2 x0 + ABu0 + Bu1 es decir x2,1 = α + 2T β + (3T 2 /2)u0 + (T 2 /2)u1 x2,2 = β + T u0 + T u1 Si, como en el caso anterior, se pretende llevar un estado arbitrario [αβ] al origen; es decir para x2,1 = x2,2 = 0 (3T 2 /2) u0 + (T 2 /2)u1 = −α − 2T β T u0 + T u1 = −β Se trata de resolver este sistema de ecuaciones en uo y u1 . Para que ese sistema lineal de ecuaciones tenga solución se requiere que el determinante de la matriz de la parte izquierda del sistema sea no singular, lo que efectivamente sucede en este caso. " det 3T 2 /2 T 2 /2 T T # T3 T3 − = T 3 6= 0 =3 2 2 Controlabilidad y observabilidad de sistemas dinámicos 199 Por tanto, para una posición arbitraria del estado [αβ] existe una secuencia de señales de actuación sobre el sistema uo u1 que transfiere ese estado arbitrario al origen. En tal caso estamos autorizados para decir que el sistema es controlable al origen, de acuerdo con la definición que hemos introducido más arriba. • Sistema no controlable. Consideremos ahora el sistema definido por las ecuaciones: " xk+1 = Axk + Buk = 1 1 0 2 # " xk + 1 1 # uk Y como se ha hecho en el caso anterior supóngase que se trata de transferir un estado inicial arbitrario [αβ] al origen. En primer lugar, considérese el caso de un solo paso, en el que se aplica la señal uo . x1 = Ax0 + Bu0 El estado que se alcance después de aplicar esta señal será: x1,1 = α + β + u0 x2,1 = 2β + u0 Si se quiere que este estado alcanzado sea precisamente el origen, es decir, si se quiere que x1,1 = x2,1 = 0 entonces es fácil ver que ello solo será posible si α = β. Es decir, existe un subespacio del espacio de estados, formado por la recta que define la bisectriz del primer cuadrante, tal que si el estado inicial se encuentra sobre esta recta entonces con un solo paso es posible llevar ese estado al origen. Esta recta representa lo que se conoce como subespacio controlable del sistema. x1,1 = x2,1 = 0 ⇔ α = β lo que define el subespacio controlable en un solo paso. Veamos ahora que sucede si aplicamos una secuencia de dos pasos uo u1 . En tal caso se tiene que el estado alcanzado es: Controlabilidad y observabilidad de sistemas dinámicos 200 x2 = A2 x0 + ABu0 + Bu1 es decir x2,1 = α + 3β + 2u0 + u1 x2,2 = 4β + 2u0 + u1 De nuevo queremos transferir el estado [αβ] al origen; es decir, se quiere que x2,1 = x2,2 = 0. En tal caso se tiene que los valores tomados por la señal de entrada uo y u1 deberán satisfacer el sistema de ecuaciones lineales: 2u0 + u1 = −α − 3β 2u0 + u1 = −4β Pero este sistema de ecuaciones carece de solución, puesto que: " det 2 1 2 1 # =0 El sistema sólo es controlable si se cumple a la vez α + 3β = 4β ⇔ α = β Es decir, de nuevo nos encontramos en la misma condición que se habı́a encontrado para el caso de un solo paso. El subespacio controlable sigue siendo exclusivamente la bisectriz que atraviesa el primer y tercer cuadrantes. Si en lugar de considerar dos pasos, consideramos tres mediante la frecuencia uo u1 u2 , entonces el estado alcanzado ser: " x3 = α + 7β + 4u0 + 2u1 + u2 8β + 4u0 + 2u1 + u2 # Controlabilidad y observabilidad de sistemas dinámicos 201 El lector comprobará fácilmente que nuevamente esta ecuación solo tiene solución si α = β. Nos encontramos, por tanto, en este segundo ejemplo con un sistema del que no podemos decir que sea controlable; es decir, del que dado un estado inicial arbitrario no podemos determinar una secuencia de entrada que lo transfiera al origen. solamente, si el estado inicial se encuentra en una cierta región privilegiada, que denominamos subespacio controlable, es posible esta transferencia. Lo que se acaba de ver para estos dos ejemplos concretos es fácilmente generalizable para un sistema cualquiera en tiempo discreto: xk+1 = Axk + Buk En tal caso, para una secuencia de entrada de p se tendrá que el estado que se alcanza ser: xp = Ap x0 + Ap−1 Bu0 + Ap−1 Bu1 + · · · + ABup−2 + Bup−1 es decir Ap−1 Bu0 + Ap−2 Bu1 + · · · + ABup−2 + Bup−1 = −Ap x0 Para el caso p = n se tendrá: −An x0 = An−1 Bu0 + An−2 Bu1 + · · · + ABun−2 + Bun−1 Lo que se puede escribir, con notación matricial  . . .   −An x0 = [An−1 B .. · · · ..AB ..B]   u0 u1 ... un−1      Para que este sistema de ecuaciones tenga solución, de modo que dado un estado inicial arbitrario xo se pueda determinar una secuenciauo u1 u2 . . . un−1 se requiere que la matriz C sea de rango completo. Controlabilidad y observabilidad de sistemas dinámicos 11.3.2 202 Controlabilidad de sistemas en tiempo continuo La controlabilidad de los sistemas en tiempo continuo aunque conceptualmente sea la misma que la de los sistemas en tiempo discreto, sin embargo resulta un poco más difı́cil de analizar. Vamos a considerar algún ejemplo introductorio que nos allane el camino. Ejemplo Sea el sistema definido por las ecuaciones ẋ1 = u ẋ2 = ax2 y = x1 + x 2 cuya representación en forma de diagrama de bloques se tiene en la figura 11.4 De la observación de la figura se desprende claramente que x2 es una variable de estado no controlable. u x1 y x2 a Figura 11.4: Diagrama de bloques de un sistema no controlable Sin embargo, la variable de estado x1 sı́ es controlable; es decir, cualquiera que sea el valor que tome esta variable de estado x1 puede ser llevada al origen (x = 0) en un tiempo finito. Basta para ello encontrar una trayectoria x1 (t) que una x1 (0) con x1 (τ ) = 0, en donde τ es el tiempo finito de transición entre estados. Por ejemplo si se adopta una recta, tal como se hace en la figura 11.5, entonces la Controlabilidad y observabilidad de sistemas dinámicos 203 señal de entrada u(t) que debe aplicarse en el intervalo (0, τ ), se calcula fácilmente de acuerdo con u(t) = d x1 (t) dt para t ∈ [0, τ ] x1 τ seg t Figura 11.5: Trayectoria de x1 Debe observarse que aunque la variable x2 no sea controlable, sin embargo sı́ afecta a la salida, hasta el extremo de que si a es negativa, el sistema será inestable. 11.3.3 Criterio de controlabilidad Para sistemas estacionarios, que son los que se considerarán en estos apuntes, existe un criterio muy simple que permite establecer si un cierto sistema dinámico es controlable o no. Este criterio se basa en unas propiedades algebraicas del par (A, B). Este criterio se establece con el siguiente teorema. Teorema Un sistema P es controlable si y sólo si rango C = n µ ¶ . . . en donde C ≡ B ..AB .......An−1 B y n = dim X. Controlabilidad y observabilidad de sistemas dinámicos 204 La matriz C recibe el nombre de matriz de controlabilidad. Demostración 1. Necesidad Se trata de demostrar que si el sistema es controlable entonces se cumple que el rango de la matriz de controlabilidad es n. (sistema controlable ⇒ rango C = n) Se sabe x(t1 ) = e At1 x(0) + Z t1 0 eA(t−τ ) Bu(τ ) dτ (11.1) Se toma según la definición de controlabilidad, x(t1 ) = 0. Luego, 0 = eAt1 x(0) + Z t1 0 eA(t1 −τ ) Bu(τ ) dτ Premultiplicando por e−At1 se tiene, x(0) = − Z t1 e−Aτ Bu(τ ) dτ 0 Por otra parte, recuérdese que Aτ e = ∞ X Ai ti i=0 i! además, φ(s) = (sI − A)−1 , luego φ(A) = 0 y, por tanto, An + a1 An−1 + ... + an−1 A + an I = 0 es decir, An es combinación lineal de las n − 1 potencias de A. Combinando estos dos resultados, se tiene que eAτ = n−1 X αi (τ )Ai i=0 luego x(0) = − n−1 X i=0 i AB Z t1 0 αi (−τ )u(τ ) dτ (11.2) Controlabilidad y observabilidad de sistemas dinámicos 205 se definen las funciones auxiliares νi (0, t1 ) = Z t1 0 αi (−τ )u(τ ) dτ con lo que (11.2) puede escribirse x(0) = − n−1 X Ai Bνi (11.3) i=0 es decir:  x(0) = h B AB AB 2 ... A n−1 i  B    ν0 ν1 .. .       νn−1 Puesto que x(0) es arbitrario la anterior expresión implica que debe ser posible representar cualquier vector como una combinación lineal de las columnas de C. Luego, según la definición de controlabilidad, que el sistema sea controlable implicará (es necesario) que rango C = n. 2. Suficiencia Se trata de demostrar que si el rango de C es n, entonces el sistema es controlable, es decir, existe una señal de entrada que lo transfiere al origen. Formalmente, rango C = n ⇒ sistema controlable Sea rango C = n Si se aplica al sistema una señal u(t) = u0 δ(t) + u1 δ (1) (t) + · · · + un−1 δ (n−1) (t) (11.4) en donde ui son vectores de dimensión n y δ (k) (t) representa la derivada k - ésima de δ(t) y que tiene la propiedad Z ∞ −∞ δ (k) (t − τ ) f (τ ) dτ =    x(0) = C    u0 u1 .. . un−1       dk f (t) dtk Controlabilidad y observabilidad de sistemas dinámicos 206 Luego si rango C = n, entonces admite solución el anterior sistema de ecuaciones lineales con n incógnitas, que son los valores de ni para i = 0, n = 1. Es decir, si rango C = n el sistema es controlable ya que es posible construir una (al menos) señal de entrada tal como la de la expresión (2) que transfiera al sistema desde un estado arbitrario x(0) al origen x(t1 ) = 0. 11.3.4 Ejemplos de controlabilidad Se presentan en este apartado algunos ejemplos de aplicación del criterio de controlabilidad que, además ayuden a captar el sentido fı́sico de este concepto. Ejemplo 1 Sea el sistema de la figura 11.6, al que corresponden las ecuaciones: x1 -1 u +1 x2 -2 Figura 11.6: Diagrama de bloques del ejemplo 1 ẋ1 = −x1 + u ẋ2 = x1 − 2x2 + u Controlabilidad y observabilidad de sistemas dinámicos 207 es decir " A= −1 0 1 −2 # " B= 1 1 # Si se aplica el criterio de controlabilidad a este sistema se tiene que: " C= 1 −1 1 −1 # det C = 0 Por tanto el sistema no es controlable. Este es un ejemplo de un sistema que aparentemente es controlable, ya que al observar la figura del diagrama parece que tanto x1 como x2 son accesibles desde la entrada u, pero que luego se comprueba que no lo es. Este ejemplo nos pone en alerta sobre una interpretación intuitiva de la controlabilidad basada en los diagramas de la descripción interna. Ejemplo 2 Recordando el ejemplo de un deposito en el que se mezclaban dos fluidos con caudales Q1 Q2 , de un fluido con una cierta sustancia en disolución. Sucede que si estos dos caudales tienen la misma concentración; es decir C1 = C2 = Cc entonces el sistema deja de ser controlable. En efecto, las ecuaciones correspondientes son  1  − 2τ x(t) =   0  0   −1  x(t) + τ " 1 1 0 0 # u(t) El diagrama correspondiente se tiene en la figura 11.7 la entrada (en realidad las dos entradas) u(t) afecta únicamente a la variable x1 (t), es decir el incremento de volumen. La variable x2 (t), el incremento de concentración, no tiene conexión con la entrada, y por tanto no puede ser afectado por ella. Es decir, es imposible “mover” x2 (t) desde un estado inicial arbitrario x2 (to ) a un estado determinado x2 (t1 ) en un intervalo de tiempo finito (to , t1 ). En este ejemplo se ve fı́sicamente el significado de controlabilidad. Si C1 6= C2 entonces el sistema es completamente controlable, como puede verificar fácilmente el lector. Ejemplo 3: La varilla vertical Controlabilidad y observabilidad de sistemas dinámicos s−1 208 x2 (0) x1 (0) s−1 s−1 x̂2 (s) s−1 −1 τ x̂1 (s) −1 2τ û1 (s) û2 (s) Figura 11.7: Diagrama de bloques del ejemplo 2 Considérese una varilla de longitud L cuya masa M está concentrada en su parte superior, tal como se indica en la fig.11.8. A partir de las leyes de Newton se sabe que el sistema está gobernado por la ecuación x M θ L u Figura 11.8: Varilla vertical ü(t)cos θ(t) + Lθ̈(t) = g sen θ(t) en donde g es la constante de gravitación. Por otra parte se tiene también la relación x(t) = u(t) + L sen θ(t) Controlabilidad y observabilidad de sistemas dinámicos 209 Si la varilla se encuentra muy próxima a la posición vertical (es decir θ muy pequeño) las dos ecuaciones anteriores pueden reescribirse en función de x(t) como sigue: ẍ(t) = g [x(t) − u(t)] L Para simplificar la ecuación se hace L = 1. El anterior sistema se puede escribir en el espacio de estados, llamando x1 = x(t) y x2 = ẋ(t). " ẋ1 ẋ2 # " = 0 1 g 0 # " x1 (t) x2 (t) # " + g 0 −1 # u(t) siendo la matriz de controlabilidad " C=g 0 −1 −1 0 # puesto que C es no-singular, el sistema es completamente controlable, lo que coincide con nuestra experiencia. Este ejemplo representa una versión simple de un problema más general que presentan muchos sistemas mecánicos en los que aparecen problemas de balanceo tales como el mantenimiento de un satélite en su órbita, el control de un helicóptero o un cohete cuando asciende verticalmente. 11.4 Notas sobre controlabilidad 11.4.1 Controlabilidad de sistemas monovariables Sea el sistema P descrito por la ecuación diferencial (sn + sn−1 a1 + · · · + an )y = (b0 sm + · · · + bm )u d(s)y = n(s)u Controlabilidad y observabilidad de sistemas dinámicos 210 P Entonces es controlable si y sólo si los polinomios n(s) y d(s) no tienen factores comunes. Se puede dar un razonamiento intuitivo a lo anterior: si n(s) y d(s) tienen un P P factor común, entonces existe un , equivalente (externamente) a , y tal que es de orden menor que n. 11.4.2 Transformación de la matriz de Controlabilidad Al cambiar de bases el vector de estados x, la matriz de controlabilidad se transforma como sigue x = Tx es decir b = Tb A = T AT −1 luego C=T C 11.4.3 Forma simplificada del criterio de controlabilidad Si el rango B = r el criterio de controlabilidad se simplifica a µ rango ¶ . . . B ..AB .......An−r B = n La demostración del anterior criterio simplificado está basada en el siguiente lema. Controlabilidad y observabilidad de sistemas dinámicos 211 Lema Si k es un entero tal que µ rango ¶ µ ¶ . . . . . . B ..AB .......Ak−1 B = rango B ..AB .......Ak B = p entonces µ rango ¶ . . . B ..AB .......Ae B = p para todo e ≥ k − 1 Demostración El hecho de que µ rango ¶ . . . B ..AB .......Ak−1 B = rango µ . . . B ..AB .......Ak B ¶ significa que toda columna de la matriz Ak B es linealmente dependiente de las columnas de las matrices B, ...Ak−1 B. Por lo tanto todas las columnas de Ak + 1B son linealmente dependientes de las columnas de AB, ..., Ak B. Procediendo de esta manera y por inducción se completa la demostración. Por el anterior lema, el rango de la matriz C debe incrementarse en, al menos, una unidad cuando se añade un nuevo término, hasta que se alcanza el rango máximo n. Por lo tanto si rango B = r entonces es suficiente incluir a lo sumo n−r términos de la forma AB, ...An−r B para ver si el rango máximo de C puede ser alcanzado. 11.4.4 La controlabilidad como propiedad genérica Supóngase que se tiene una clase SR de sistemas dinámicos indicados por un parámetro r ∈ R. Supóngase además que un sistema Sr posee una determinado propiedad. Esta propiedad se dice que es genérica en R si Sr posee esta Controlabilidad y observabilidad de sistemas dinámicos 212 propiedad para todo r ∈ R, siendo R un conjunto abierto y denso en R. Las propiedades genéricas son muy importantes ya que si R es el conjunto de valores de los parámetros en los que se toman las aproximaciones hechas en el modelado de un sistema, debido a la falta de conocimiento preciso de los valores de los parámetros, es claro que sólo las propiedades genéricas tendrán una interpretación real. Puesto que el ser de rango completo es una propiedad genérica de las matrices escogidas al azar en Rn×n , es claro que la controlabilidad es una propiedad genérica. Sin embargo en la práctica esta cuestión no resulta tan simple ya que b (y C más adelante cuando se hable de observabilidad) en la práctica describen conexiones que existen entre el sistema y el mundo exterior. Si la conexión no existe, entonces el elemento correspondiente de b es exactamente 0 y no tiene sentido el plantearse su perturbación infinitesimal para obtener un incremento de rango. Por lo tanto, la genericidad debe realmente definirse separadamente para cada sistema y la cuestión de la controlabilidad es genuinamente importante. 11.5 Descomposición del espacio de estados en sus partes controlables y no controlables P El hecho de que el espacio de estados X de un sistema dinámico no sea controlable, no implica que algún subespacio de X no lo pueda ser. Es decir, el hecho de que todas las componentes del vector de estados no puedan ser transferidas al origen en un tiempo finito, por aplicación de una señal de control conveniente, no implica que determinadas de éstos componentes no puedan ser transferidas. El problema de la descomposición del espacio de estado en sus partes controlables y no controlables, reside, precisamente, en la determinación de qué componentes del vector de estados son controlables. Con ello se subdivide el espacio de estados en dos subespacios, el uno de estados controlables y el otro el de estados no controlables. Sea el sistema P ẋ = Ax + Bu y = Cx Cuya matriz de controlabilidad será: Controlabilidad y observabilidad de sistemas dinámicos ³ C = B AB ... An−1 B 213 ´ tal que rango C = n1 < n En tal caso existe una transformación no singular T tal que Ã TC = C1 0 ! en donde C1 : n1 ×nm y rango C1 = n1 . La obtención T se hace determinando una matriz equivalente a la (C I) de manera que   .. C . 1   ³ ´   .. .. ∼   C . I  ··· . T  . 0 .. La matriz T tiene la notable propiedad de que transforma el espacio de estados de suerte que los subespacios controlables y no controlables son evidentes. En efecto, si x = Tx la matriz de controlabilidad será Ã C = TC = Ã = = ³ C1 0 ! = C11 C12 ... Cn 0 0 0 ! = B AB · · · An−1 B ´ Por otra parte la matriz se descompone en dos bloques (11.5) Controlabilidad y observabilidad de sistemas dinámicos Ã B= B1 B2 214 ! (11.6) siendo B1 de dimensión n1 × m y B 2 de dimensión (n − n1 ) × m. Por inspección, observando C y B, es claro que B = 0. Se descompone Ã A= ! A11 A12 A21 A22 (11.7) en donde A11 = n1 × n1 y el resto de los bloques tienen las dimensiones correspondientes. Se tiene que Ã AC = A11 A12 A21 A22 Por otra parte AC = ³ ! Ã C1 0 ! Ã = A11 C1 A21 C1 AB A2 B ... An B ! (11.8) ´ (11.9) A partir de la expresión (3), se sabe que las (n−n1 ) últimas filas de C son igual n a cero. Por otra parte se sabe que A puede expresarse como una combinación lineal de = Ai , para i − 1...n − 1, según n A = n−1 X i αi A i=0 De lo anterior se desprende: • los n − 1 primeros bloques en que se ha particionado AC en (7) son tales que tienen las (n − n1 ) últimas filas nulas. n−1 • por lo que respecta al último de los bloques, es decir, A B, sus (n − n1 ) últimas filas también nulas, debido a que este bloque puede considerarse una combinación lineal de los anteriores. Controlabilidad y observabilidad de sistemas dinámicos 215 Por lo tanto si las (n − n1 ) últimas filas de AC son igual a cero, se concluye observando (6) que A21 = 0, puesto que C 1 no es nulo. Luego Ã A= A11 A12 0 A22 ! Ã B= B1 0 ! Lo anterior conduce a descomponer el espacio de estados X en dos subespacios X1 y X2 , tales que X = X1 ⊕ X2 siendo la dim x1 = n1 y dim x2 = n − n1 . El subespacio X1 representa los estados controlables y el subespacio X2 los no controlables. En efecto, ẋ1 = A11 x1 + A12 x2 + B 1 u ẋ2 = A22 x2 y = c 1 x1 + c 2 x2 Las anteriores expresiones se pueden interpretar con ayuda de un diagrama como se hace en la fig.11.9. En este diagrama se observa claramente cómo las variables de estado comprendidas en x1 son accesibles a partir de la señal de mando u, mientras que la x2 no lo son. Debe observarse que las variables de estado no controlables afectan no sólo a la salida, sino también a la propia parte controlable del sistema P La función de transferencia de depende exclusivamente de (A11 B 1 , c1 ) ya que, por definición de F de T , esta se obtiene considerando condiciones iniciales nulas y para x2 (0) = 0 se tendrá x2 (t) = 0 para todo valor de t > 0. Es decir, a partirse condiciones iniciales nulas los estados no controlables permanecen en reposo. Ejemplo Sea el sistema     1 0 0 1    2  B= 1  A= 1 1  −1 0 −1 −1 Controlabilidad y observabilidad de sistemas dinámicos Σ1 u 216 x1 x̄1 = Ā11 x̄1 + Ā12 x̄2 + B̄1 u C1 C2 y + x2 Σ2 x̄2 = Ā22 x̄2 Figura 11.9: Diagrama de bloques de un sistema no controlable Su matriz de controlabilidad será   1 1 1  1  C= 1 0  −1 0 −1 Para determinar T se hace     1 1 1 1 0 0 1 1 1 1 0 0    1 0 1 0  (C I) =  1 0  ∼  0 −1 0 −1 1 0  ∼ −1 0 −1 0 0 1 0 1 0 1 0 1   1 1 1 1 0 0  0 −1 0 −1 1 0    0 0 0 0 1 1 Luego Controlabilidad y observabilidad de sistemas dinámicos  217  1 0 0  T =  −1 1 0  0 1 1 Para determinar T −1 se hace     1 0 0 1 0 0 1 0 0 1 0 0    (T I) =  −1 1 0 0 1 0  ∼  0 1 0 1 1 0   ∼ 0 1 1 0 0 1 0 1 1 0 0 1   1 0 0 1 0 0  0 1 0 1 1 0    0 0 1 −1 −1 1 Luego  T −1  1 0 0  1 0  = 1  −1 −1 1 A partir de T y T −1 se tendrá  A = T A T −1  1 0 2  =  −1 −1 2  0 0 1   1   B=TB= 0  0 Es decir     1 0 0 1     ẋ =  −1 −1 2  x +  0  u 0 0 1 0 El subsistema controlable será Controlabilidad y observabilidad de sistemas dinámicos d dt 11.6 Ã x1 x2 ! Ã = 1 0 −1 −1 ! Ã x1 x2 ! 218 Ã + 1 0 ! u Observabilidad de sistemas dinámicos lineales El concepto de estado tiene una importancia capital al considerar la descripción interna de los sistemas dinámicos. Sin embargo, se recordará que el concepto de estado ha sido introducido como un objeto abstracto, sin ninguna referencia, en principio, a magnitudes fı́sicas medibles. Es decir, en un sistema las señales que son medibles son las de entrada u y las de salida y, siendo el estado x un concepto abstracto que se introduce para simplificar el tratamiento formal de los sistemas dinámicos. Por lo tanto un problema de interés básico será el de determinar a partir de las señales que son accesibles, es decir, las señales de entrada y de salida del sistema, el estado en una de las representaciones. Observabilidad La observabilidad se refiere a la posibilidad de reconstrucción del estado a partir de la medida de las señales de salida y de entrada. Sin embargo, se pueden considerar dos problemas separados a la hora de considerar la reconstrucción del estado. Uno de ellos trata de deducir el valor del estado en el instante presente a partir de las observaciones pasadas, y el otro trata de deducir el valor del estado en un instante determinado a partir de observaciones posteriores. Con el fin de precisar estos conceptos se establecen las siguientes definiciones. 11.6.1 Introducción a la observabilidad 1. Sistemas en tiempo discreto Ejemplo Sea el sistema autónomo (es decir, el sistema con u(t) = 0): x1 (k + 1) = x1 (k) + x2 (k) x2 (k + 1) = 2x2 (k) x(k + 1) = Ax(k) Controlabilidad y observabilidad de sistemas dinámicos y(k) = x1 (k) " A= C= h 1 1 0 2 1 0 # i Se mide el sistema en los k = 0 y k = 1. y(0) = Cx(0) = x1 (0) y(1) = Cx(1) = CAx(0) = x1 (0) + x2 (0) luego y(0) = x1 (0) y(1) = x1 (0) + x2 (0) x1 (0) = y(0) x2 (0) = y(1) − y(0) 2. Sistema no observable Sea A como antes pero y(k) = x2 (k) C= h 0 1 i entonces se tendrá y(0) = x2 (0) y(0) = Cφx(0) = 2x2 (0) 219 Controlabilidad y observabilidad de sistemas dinámicos 220 luego x2 (0) = y(0) = 1 y(1) 2 pero no se puede determinar x1 (0). El sistema no es observable [debido a la dependencia lineal entre C y CA ]. 3. Caso general xk+1 = Axk yk = Cxk xk = Ak x0 y(k) = CAk x0 y0 = Cx0 y1 = CAx0 .. . = yn−1 = CAn−1 x0       y0 y1 .. .        =      C CA .. .     x0   CAn−1 yn−1   O=   C CA ... CAn−1      se requiere que O sea una matriz de rango completo. 11.6.2 Observabilidad P Definición Un sistema se dice observable en el instante t0 , si y sólo si para todo estado x(t0 )²X, existe un tiempo t > t0 tal que el conocimiento de u(t0 , t), de y(t0 , t) y de (A, C) basta para determinar x(t0 ). Controlabilidad y observabilidad de sistemas dinámicos 11.6.3 221 Reconstructibilidad P Definición Un sistema se dice reconstructible en t0 , si y sólo si ∀x(t0 ) ∈ X, t < t0 tal que el conocimiento de u[t, t0 ], de y[t, t0 ] y de (A, C) basta para determinar x(t0 ). De las anteriores definiciones se desprenden los siguientes problemas: Problema de observación: El estado actual x(t) debe determinarse a partir de las entradas y salidas futuras u(τ ), y(τ ) : τ ≥ t. Problema de la reconstrucción El estado actual x(t) debe determinarse a partir de las entradas y salidas pasadas u(τ ), y(τ ) : τ :≥ t. Por la propia definición de invariancia en el tiempo es claro que para sistemas invariantes en el tiempo ambos problemas son equivalentes, es decir, Observabilidad ⇔ reconstructibilidad En lo que sigue se considerará únicamente el problema de la observación. 11.6.4 Criterio de observabilidad Para los sistemas lineales invariantes en el tiempo existe un criterio algebraico que permite discernir si el sistema será observable o no. Ese criterio está basado en la determinación del rango de una matriz que depende exclusivamente del par (A, C). El criterio se establece por medio del siguiente teorema. Teorema Un sistema P es observable si y sólo si rango O = n ³ en donde O = C T AT C T ... (An−1 )T C T ´T y n = dim x. La matriz O recibe el nombre de matriz de observabilidad Demostración 1. Necesidad Controlabilidad y observabilidad de sistemas dinámicos 222 Se trata de demostrar que si el sistema es observable, entonces el rango O = n. Ello es equivalente, por contradicción, a decir que si el rango O < n entonces el sistema es no observable. En efecto supóngase rango O < n y u(t) = 0 Para todo t ∈ [t0 , t1 ], se sabe que y(t) = CeAt x(t0 ) = n−1 X αi (t)CAi x(0) (11.10) i=0 Es sabido que el rango de una matriz es el mismo que el de su transpuesta. Es decir, que si el rangoO = n1 < n, entonces el rango OT = n1 . El hecho de que rango OT = n1 < n implica que las columnas de OT no generan el espacio de n dimensiones, es decir no generan X = Rn . El hecho de que las columnas de OT no generen Rn implica que existe un vector υ²Rn , υ 6= 0, tal que es ortogonal a las columnas de OT , es decir, ³ (AK )T C T ´ O T = C AK υ = 0 De (8) se tiene que para todo estado inicial x(t0 ) = KυKεR, la salida será y(t) = 0 lo que significa que existen estados iniciales x(t0 ) 6= 0 (todos los que de la forma Kυ) los cuales no pueden determinarse (distinguirse por observación de la señal de salida y(t) ante una entrada nula u[t0 , t1 ] = 0. Ello está en P contradicción con la hipótesis de que sea observable. 2. Suficiencia Se trata de demostrar que si el rango O = n entonces el sistema es observable, o lo que es lo mismo, por contradicción, que el hecho de que el sistema sea no observable, implica que el rango O < n. P Supóngase que no es observable. Entonces deben existir al menos dos estados x1 y x2 tales que x1 6= x2 y x1 indistinguible de x2 . Es decir CeAT x1 ≡ CeAT x2 Sea x0 = x1 − x2 ; entonces la respuesta de P para u = 0 a partir de x0 será Controlabilidad y observabilidad de sistemas dinámicos y(t) = CeAT x0 ≡ 0 223 (11.11) es decir que el estado x0 es indistinguible del estado de reposo. Derivando (11.11) n − 1 veces se tiene CeAt x0 = 0 CAeAt x0 = 0 An−1 eAt x0 = 0 Cx0 = 0 CAx0 = 0 .. . CAn−1 x0 = 0 es decir       C CA .. .     x0 = 0   CAn−1 Ox0 = 0 lo que implica rango O < n, ya que x0 6= 0. Por lo tanto que el sistema sea no observable implica que rango O < n. 11.7 Sistemas continuos Sea el cilindro con inercia unitaria, y sin rozamiento que hemos visto en los ejemplos de introducción. Controlabilidad y observabilidad de sistemas dinámicos 224 1. Supongamos, en primer lugar, que la salida del sistema es la posición angular del cilindro. En tal caso, la descripción interna del sistema viene dada por " ẋ = 0 1 0 0 # " x+ 0 1 # u es decir: " A= 0 1 0 0 # " B= 0 1 # y = [1 0]x Si se deja evolucionar libremente, a partir de unas condiciones iniciales x1 (0), x2 (0) el cilindro girar a velocidad constante. Si se registra la salida en el perı́odo (0, T ) se obtendrá una recta inclinada como la de la figura 11.10. De este registro se puede obtener fácilmente: y x1 (0) x2 (0) t T Figura 11.10: Trayectoria del sistema (a) La velocidad inicial, que es la pendiente de la recta. (b) La posición inicial, que es la coordenada en el origen. Por tanto a partir del registro de la salida y(t) es posible reconstruir el estado inicial del sistema. El sistema es por tanto observable. 2. Supongamos ahora que la salida, en lugar de ser la posición, es la velocidad de salida del sistema. En tal caso la ecuación de transición entre estados será la misma : " ẋ = 0 1 0 0 # " x+ 0 1 # u Controlabilidad y observabilidad de sistemas dinámicos 225 pero la función de salida se convertirá, en este caso, en: y = [0 1]x Si se registra ahora la salida se obtendrá una recta horizontal, ya que en virtud del principio de inercia la velocidad de rotación del cilindro permanece constante. Se tendrá, entonces, la evolución de la salida que se indica en la figura 11.11. De esta figura se obtiene inmediatamente la velocidad inicial del cilindro, que es la ordenada de la recta. Pero no se puede obtener su posición. Del sistema, en este caso, no es observable. y x2 (0) t T Figura 11.11: Evolución de la velocidad del sistema 11.8 Pérdida de observabilidad por muestreo Sea el sistema [oscilador lineal no amortiguado]. ÿ + a2 y = a2 u " A= 0 1 −a2 0 # " b= 0 a2 y = x1 ẏ = x2 Este sistema es claramente observable # c= h 1 0 i Controlabilidad y observabilidad de sistemas dinámicos " O= 1 0 0 1 226 # Supongamos que se muestrea " sI − A = φ(s) = (sI − A)−1 s −1 a2 s 1 = 2 s + a2  s  s2 + a2 =  a2 − 2 s + a2 # " 1 + s a2 s 2 s + a2 s 1 −a2 s #     luego   1 cos (aT ) sin(aT )  φ(t) =  a −a sin(aT ) cos (aT ) se tendrá  O= 1 cos (aT ) 0   1 sin(aT ) a El sistema será no observable si sin(aT ) = 0 T = kπ a (k entero) Por tanto, para determinados valores del perı́odo del muestreo T el sistema pierde su observabilidad. Controlabilidad y observabilidad de sistemas dinámicos 11.8.1 227 Notas sobre observabilidad Se pueden hacer consideraciones semejantes a las desarrolladas en la sección respecto a la controlabilidad. En particular, y relativo a un cambio de base en X, se tiene que si x = T x, se tendrá que OT = O El resto de las notas se extienden ”mutatis mutandis” a la observabilidad. 11.9 Descomposición del espacio de estados en sus partes observables y no-observables De manera completamente similar a como se hizo en la sección 4 se puede descomponer el espacio de estados en sus partes observable y no-observable. Al igual que se hizo allı́ supóngase Σ = (A, b, c). Si rango O = n1 < n entonces existe una transformación no singular T tal que   O1 T  T T OT =  . . .   0 ³ en donde O1 T : n1 × np. La determinación de O1 se hace a partir de OT I obteniendo una matriz equivalente ´ Controlabilidad y observabilidad de sistemas dinámicos  ³ O1 Si se hace x = T −1 T . O T ..  1 ´  .. .. T . I ∼  ··· . T . 0 .. 228      x es fácil ver que Ã A11 0 A21 A22 A= Ã B= C= ³ B1 B2 ! ! C1 0 ´ La demostración es, en todo, excepto el detalle antes indicado, similar a la vista en la sección de controlabilidad. Se invita al lector a desarrollarla él mismo. En las bases que resultan de la anterior transformación, el sistema Σ puede escribirse como sigue: ẋ = A11 x1 + B 1 u ẋ2 = A21 x1 + A22 x2 + B 2 u y = C 1 x1 Esta forma de escribir el sistema puede representarse como se hace en el diagrama de bloques de la figura 11.12, en donde es aparente que sólo el subespacio x1 es observable, es decir, solo este subespacio influye sobre la salida. Además, es evidente que la función de transferencia del sistema considerado depende exclusivamente de la terna (A11 , B1 , C1 ), es decir, que un sistema con esta última terna tiene la misma función de transferencia que el sistema original. Controlabilidad y observabilidad de sistemas dinámicos C1 x̄1 = Ā11 x̄1 + B̄1 u 229 y x2 = A21 x1 + A22 x2 + B2 u Figura 11.12: Diagrama de bloques de un sistema no observable 11.10 Descomposición canónica del espacio de estados Por aplicación sucesiva de las transformaciones indicadas en las secciones de descomposición en partes obs. y control. o no, se pueden extraer las partes controlable y observable de un sistema dinámico lineal. El resultado se puede enunciar como sigue: Sea Σ = (A, B, C). Si rango OC = n1 < n entonces existe Σ = (A, B, C) tal que: 1. Σ ∼ Σ 2.   A11 0 A13   A =  A21 A22 A23  0 0 A33   B1  B=  B2  0 C= ³ C1 0 C3 ´ Se dice que (A11 , B 1 , C 1 ) es el subsistema controlable y observable de Σ. Controlabilidad y observabilidad de sistemas dinámicos 230 La función de transferencia del sistema (A, B, C, ) es la misma que la del sistema (A11 , B1 , C1 ). Es decir, que solo las partes controlables y observables de un sistema influyen en su función de transferencia, o sea, en su descripción externa. Este resultado será tratado con detenimiento en el capı́tulo del problema de la realización mı́nima, que es aquella que dando lugar a la misma función de transferencia, o descripción externa, tiene una dimensión del vector de estados X mı́nima. Ejemplo: Se trata de extraer la parte controlable y observable del sistema cuyo terna (A, B, C) es el siguiente:     1 0 0 1 ³ ´     A= 1 1 2  B= 1  C= 1 1 1 −1 0 −1 −1 La matriz de controlabilidad es   1 1 1  C= 1 0 1   −1 0 −1 cuyo rango es 2. Por lo tanto la dimensión del subespacio controlable es 2.       1 1 1 1 0 0  1 0 1 0 1 0  (C I) =   ∼ −1 0 −1 0 0 1 1 1 1 1 0 0  ∼   0 −1 0 −1 1 0  ∼ 0 1 0 1 0 1 1 1 1 1 0 0  ∼   0 −1 0 −1 1 0  0 0 0 0 1 1 luego Controlabilidad y observabilidad de sistemas dinámicos   1 0 0  T =  −1 1 0  0 1 1 y  T −1  1 0 0  1 0  = 1  −1 −1 1 Por lo tanto  A = T AT −1  1 0 0   =  −1 −1 2  0 0 1   1  B = TB =  0   0 C = CT −1 = ³ 1 0 1 Luego la parte controlable de (A, B, C) es Ã Ac = 1 0 −1 −1 Ã Bc = Cc = ³ 1 0 ! ! 1 0 ´ La matriz de observabilidad de (Ac , Bc , Cc ) es Ã Oc = 1 0 1 0 ! ´ 231 Controlabilidad y observabilidad de sistemas dinámicos 232 cuyo rango es 1. Una atenta observación de (Ac , Bc , Cc ) pone de manifiesto que, casualmente, no es necesario aplicar el algoritmo de descomposición puesto que ya es aparente. En efecto el subsistema observable de (Ac , Bc , Cc ) es Am = 1 bm = 1 cm = 1 La parte observable y controlable de un sistema recibe el nombre de realización mı́nima del mismo. En general la terna (Ac , Bc , Cc ) necesitará ser sometida al algoritmo de descomposición para la extracción de su parte observable. Se va a comprobar que la función de transferencia de (Am , Bm , Cm ) es la misma que la de (A, B, C). En primer lugar se calcula (sI − A)−1 . para ello se aplica el algoritmo de Leverrier (Wiherg, pag. 102).   1 0 0  A= 1 1 2   −1 0 −1 F1 = I a1 = −r̃ AF1 /1 = −1   0 0 0  F2 = AF1 + a1 I =  1 0 2   a2 = r̃AF2 /2 = −1 −1 0 −2   −1 0 0  F3 = AF2 + a2 I =  −1 −1 −2   a3 = −r̃AF3 /3 = 1 1 0 1 luego Controlabilidad y observabilidad de sistemas dinámicos  (sI − A)−1 233  s2 − 1 0 0 1  2s − 2  =  s − 1 s2 − 1  ∆(s) 2 −s + 1 0 s − 2s + 1 siendo ∆(s) = s3 − s2 − s + 1. Es fácil ver que T (s) = c(sI − A)−1 b = (s2 − 1) s2 − 1 1 = = 3 2 2 s −s −s+1 (s − 1)(s − 1) s−1 que es la misma función de transferencia que se obtiene de la terna (Am , Bm , Cm ). 11.11 Formas canónicas Las expresiones estudiadas permiten transformar la terna (A, B, C) en otra forma de representación, de manera que se siga representando el mismo sistema dinámico. Desde un punto de vista del espacio de estados ello es equivalente a que el vector de estados se puede representar en distintas bases. Debe resaltarse, sin embargo, que el vector de estados es un objeto abstracto, sin ninguna referencia, en principio, con magnitudes fı́sicas medibles. Es decir, no existe una base ”natural” para representar a X. Ello hace que según la naturaleza del problema a tratar se adopten unas bases para el vector de estado que hagan que la forma que toma en ellas la terna (A, B, C) sea lo más cómoda posible para la resolución del problema en cuestión. En ello reside una de las grandes ventajas del uso de la descripción interna, ya que ésta permite escoger la forma de representación de la terna (A, B, C) más cómoda en cada caso. Aunque se pueden concebir múltiples formas para la terna (A, B, C) existen dos especialmente interesantes para las aplicaciones prácticas a problemas de control. Son estas: La forma canónica de control y la forma canónica de observación. Cada una de ellas está relacionada con los problemas de control y de observación según se verá en lo que sigue. En otro apartado se introdujeron las formas canónicas de control y observación, al obtener la representación por variables de estado, de una forma in- Controlabilidad y observabilidad de sistemas dinámicos 234 tuitiva. Aquı́ se introducirán estas formas canónicas bajo una óptica algebraica que permita tanto su generalización cómoda a sistemas multivariables como su aplicación práctica. Formas canónicas de control d(s)y = n(s)u Sea la nueva variable v tal que d(s)v = u luego d(s)y = n(s)d(s)v es decir y = n(s)v Sea x1 = v x2 = ẋ1 .. .. . . xn = ẋn−1 = v̇ .. . = v (n−1) d(s)v = u ⇒ ẋn = an x1 − an−1 x2 − · · · + u y = n(s)v ⇒ y = b1 v (n−1) + b2 v (n−2) + · · · + bn−1 v̇ + bvn = bn x1 + bn−1 x2 + · · · b1 xn En resumen Controlabilidad y observabilidad de sistemas dinámicos  ẋ1 ẋ2 ẋ3 .. .           ẋn−1      0    0    =    0   −an  1 0 0 1 0 0 −an 1 −an−1               ... 0 ... 0 ... 1 ... −a1 ẋn 235 x1 x2 ... ... ... xn            +          0 0 ... ... ... 1      n     Sistemas monovariables Sea el sistema Σ = (A, B, C), cuya matriz de controlabilidad es ³ C = B AB ... An−1 B ´ Si se cambia de base al vector x de manera que x = Tc x se tendrá (apartado 4.2). Tc = CC −1 Todo sistema monovariable controlable se puede representar en unas bases x tales que  0 0 0 .. .    A=     1 0 0 .. . 0 1 0 .. . ... ... ... 0 0 1 .. . −an −an−1 −an−2 ... −a1 T B = C= ³ ³ 0 0 0 ... 1 ´ bn bn−1 bn−2 ... b1 siendo la función de transferencia del sistema ´          Controlabilidad y observabilidad de sistemas dinámicos 236 b1 sn−1 + b2 sn−2 + · · · + bn G(s) = n s + a1 sn−1 + a2 sn−2 + · · · + an Al par (A, b) corresponde una matriz de controlabilidad C cuya forma es:  0 0 .. .     C=   0    0 0 0 .. . 0 0 .. . ··· ··· .. . 0 1 .. .  1 β1 .. .          βn−2  (11.12) 0 1 ··· ··· 1 β1 · · · βn−3 1 β1 β2 · · · βn−2 βn−1 En donde los elementos β, se generan de acuerdo con la recurrencia  βi = ³ −an −an−1 0 0 .. .     ´    βo ... −a1   .  ..    βi−2               βi−1 siendo βo = 1. Es decir C puede construirse a partir del conocimiento de los coeficientes del denominador de G(s) o del polinomio caracterı́stico de A. Es fácil ver también que  C basta comprobar que CC −1 −1    =    an−1 an−2 an−2 an−3 ... a1 1 1 0  ... a1 1  ... 1 0   ... ... 0 0   0   (11.13) 0 = I. De todo lo anterior se concluye que a partir de la terna (A, B, C), en forma arbitraria, es posible determinar una transformación Tc que transforme dicha Controlabilidad y observabilidad de sistemas dinámicos 237 terna en la forma canónica de control. Para determinar Tc se procede como sigue: 1. Se determina C a partir de (A, B) y se invierte. Se tiene C −1 . 2. Se determina C a partir del polinomio caracterı́stico de A (recordar (10)). 3. Se hace Tc = CC −1 . Una forma alternativa de proceder es la siguiente: 1. Se determina C a partir de (A, B). 2. Se determina C −1 a partir del polinomio caracterı́stico de A (recordar (11)). 3. Se hace Tc−1 = CC −1 Como siempre se requiere Tc y Tc−1 el segundo procedimiento evita una inversión de matrices. Ejemplo Sea el sistema dinámico cuya terna (A, B, C) es la siguiente:     1 1 0 1     A =  0 1 −1  B =  1  2 3 1 −1 C= ³ 0 1 2 ´ Se trata de determinar su forma canónica de control. La matriz de controlabilidad es   1 2 4   C =  1 2 −2  −1 4 14 Controlabilidad y observabilidad de sistemas dinámicos 238 y el polinomio caracterı́stico de A es ϕ(A) = s3 − 3s2 + 6s − 2 Luego (expresión (2))  C −1  6 −3 1   =  −3 1 0  1 0 0  Tc−1 = CC −1  4 −1 1  =  −2 −1 1   −4 7 −1   0, 1667 −0, 1667 0  0 0, 1667  Tc =  0, 1667  0, 5 0, 6667 0, 1667 La forma canónica de control es x = T x  A = Tc ATc−1  0 1 0   = 0 0 1  2 −6 3   0   B = Tc B =  0  1 C = CTC−1 = ³ −10 13 −1 ´ Obsérvese que para determinar A y B basta con conocer el polinomio caracterı́stico de A; por lo tanto no se necesita emplear las expresiones anteriores, ni se requiere el conocimiento de Tc , ni de Tc−1 . Para lo que si es indispensable la determinación de Tc−1 es para calcular C. Pero, obsérvese, que solo para este último caso se necesita conocer Tc−1 , de modo que puede evitarse el determinar Tc , evitando ası́ el tener que invertir la matriz Tc−1 . Es decir, la determinación de la terna (A, B, C) a partir de la (A, B, C), puede hacerse sin tener que recurrir Controlabilidad y observabilidad de sistemas dinámicos 239 a ninguna inversión inicial, ya que la determinación de Tc−1 , de acuerdo con el segundo de los métodos antes propuestos, puede hacerse sin necesidad de invertir ninguna matriz. Este hecho es de gran importancia en las aplicaciones prácticas por evitar una operación que tantas dificultades comporta. A partir de la terna (A, B, C) es inmediato escribir la función de transferencia del sistema que en este caso resulta ser G(s) = −s2 + 13s − 10 s3 − 3s2 + 6s − 2 Por lo tanto, la determinación de la terna (A, B, C) suministra un método indirecto para determinar la función de transferencia asociada a una terna (A, B, C). 11.11.1 Forma canónica de observación Sistemas monovariables En forma completamente similar a como se hizo en la forma canónica de control se puede determinar la transformación T0 tal que x = T0 x.     A=     T B = ³ 0 1 0 .. . 0 ... 0 −an 0 ... 0 −an−1 1 ... 0 −an−2 .. .. .. .. . . . . 0 0 ... 1 −a1          bn bn−1 bn−2 ... b1 C= ³ 0 0 ... 1 ´ ´ Según se vio la terna (A, B, C) recibe el nombre de forma canónica de observación. Si x = T0 x se tendrá −1 T0 = O O Controlabilidad y observabilidad de sistemas dinámicos 240 Procedimiento en forma similar a como se hizo en la forma canónica de control, se puede ver que  O −1    = an−1 an−2 an−2 an−3 ...a1 1 1 0 ... a1 ... 1 ... 0 ... 0 1 0 0 0      Se puede concebir un procedimiento para obtener la forma canónica de observación similar al desarrollo en la forma canónica de control. Para determinar T0 se procede como sigue: 1. A partir de (A, C) se determina O. −1 2. A partir del polinomio caracterı́stico de A se determina O . −1 3. Se hace T0 = O O. Ejemplo Sea el sistema considerado en el ejemplo de la forma canónica de control. Se trata de determinar su forma canónica de observación. Se tiene  O −1  6 −3 1   =  −3 1 0  1 0 0 y   0 1 2  O= 4 7 1   6 14 −6 luego Controlabilidad y observabilidad de sistemas dinámicos  241  −6 −1 3 −1 4 −5  T0 = O O =   4  0 1 2  T0−1  0, 2241 −0, 0862 0, 1207 0, 2069 0, 3103  =  0, 1379  −0, 0690 −0, 1034 0, 3448 Es decir  A = T0 AT0−1  0 0 2  =  1 0 −6   0 1 3   −10   B = T0 B =  13  −1 C = CT0−1 = ³ 0 0 1 ´ Tema 12 Sı́ntesis de sistemas de control por variables de estado 12.1 Ley de Control Al definir el estado de un sistema dinámico, se ha visto como éste resume el pasado dinámico del sistema, y es cuanto se necesita para predecir la futura evolución del mismo. Es decir, conocido el estado de un sistema en un instante determinado, está completamente determinada la evolución del sistema a partir de dicho instante. Con otras palabras, conocido el estado en un instante determinado, los valores que toma la señal de salida a partir de dicho instante, dependen exclusivamente de la señal de entrada que se aplique a partir del instante en el que se ha definido el estado. Al diseñar un sistema de control lo que se pretende es conseguir para el sistema una evolución preestablecida. Se trata de determinar las señales de entrada que hay que aplicar al sistema para que la evolución del mismo sea la requerida. Puesto que el estado es cuanto se necesita conocer para predecir la futura evolución de un sistema, es claro que cuanto se necesitará saber para poder adoptar una decisión respecto a qué señales aplicar al sistema será, precisamente, el estado. Es decir, una ley de control (polı́tica de mando) es una relación que liga la señal de mando que se aplica al sistema y el estado en que éste se encuentra, supuesto definida previamente una meta de la acción. 242 Sı́ntesis de sistemas de control por variables de estado 243 El principio en virtud del cual los valores de la señal de entrada deben calcularse a partir del estado, fue enunciado por Richard Bellman a mediados de la década de los cincuenta, y puede considerarse como la idea fundamental de la teorı́a moderna de control. El punto principal reside en que el estado incorpora toda la información necesaria para determinar las acciones de control que deben ser tomadas, puesto que la evolución futura del sistema está completamente determinada por el estado presente y los valores futuros de la señal de entrada. Cuando la meta es la reproducción a la salida de una señal de referencia r se podrá escribir la ley de control en la forma u = f (x, r) que se puede interpretar gráficamente en la figura 12.1. u ẋ B R x C y a) Sistema en bucle abierto A ẋ B R x C y A REGULADOR b)Sistema en bucle cerrado Figura 12.1: Sistema de control por variables de estado Debe notarse, que en el esquema de la figura 12.1-b se supone que los compo- Sı́ntesis de sistemas de control por variables de estado 244 nentes del vector de estado se pueden identificar con magnitudes fı́sicas medibles y que son estas magnitudes las que definen las señales que se realimentan. El caso en que la anterior identificación no sea posible se discutirá más adelante. En lo que sigue se considerarán leyes de control lineales de la forma u = k (r − (k1 x1 + k2 x2 + · · · + kn xu )) = k (r − K x) (12.1) siendo K = (k1 k2 ... ku ) La representación gráfica de una ley de control lineal para sistemas monovariables se tiene en la figura 12.2. u ẋ B X + R x A - C y PLANTA K REGULADOR Figura 12.2: Control lineal La introducción de una ley de control lineal da lugar, en bucle cerrado, al siguiente sistema: • en bucle abierto se tiene: ẋ = Ax + Bu Sı́ntesis de sistemas de control por variables de estado 245 si se hace u = k (r − Kx) se tendrá : • en bucle cerrado ẋ = Ax + kB (r − Kx) = (A − kBK)x + Bkr y = Cx (12.2) (12.3) cuya función de transferencia es Y (s) = C(sI − A + kBK)−1 Bk R(s) (12.4) Para aclarar el efecto de la ley de control lineal se puede recurrir a dos interpretaciones. Estas interpretaciones se hacen, sin pérdida de generalidad, para n = 2. 12.1.1 Interpretación por diagramas Sea el sistema dinámico descrito por la ecuación diferencial ÿ + a1 ẏ + a2 y = u (12.5) cuya función de transferencia es 1 Y (s) = 2 U (s) s + a1 s + a2 (12.6) y cuyo diagrama se tiene en la figura 12.3 a). u = k (r − k1 x1 − k2 x2 ) (12.7) Sı́ntesis de sistemas de control por variables de estado 246 se tendrá el sistema cuyo diagrama se tiene en la figura 12.3 b), que a su vez puede simplificarse al de la figura 12.3 c). De la figura 12.3 c) se desprende fácilmente que la función de transferencia en bucle cerrado será Y (s) k = 2 R(s) s + (a1 + kk2 )s + (a2 + kk1 ) 12.1.2 (12.8) Interpretación algebraica El sistema dinámico ÿ + a1 ẏ + a2 y = u (12.9) admite una representación por variables de estado cuya forma canónica de control es Ã A= ! 0 1 −a2 −a1 Ã B= C= ³ 0 1 ! 1 0 ´ Si se le aplica una ley de control de la forma u = kr − k (k1 k2 ) x Se tendrá Ã ẋ = 0 1 −a2 −a1 ! Ã x− 0 1 ! ³³ kk1 kk2 ´ x+kr ´ Sı́ntesis de sistemas de control por variables de estado u x2 1 s x1 1 s 247 1 y −a1 a) −a2 −K k1 −K k2 r u K x2 1 s x1 1 s −a1 y 1 b) −a2 r K u x2 1 s 1 s x1 1 y −(a1 + Kk2 ) c) −(a2 + Kk1 ) Figura 12.3: Control por variables de estado de un sistema de segundo orden Sı́ntesis de sistemas de control por variables de estado Ã ẋ = 0 1 −a2 kk1 −a1 − kk2 y= ³ 1 0 ! ´ Ã x+ 248 0 k ! r x Cuya función de transferencia es Y (s) k = 2 R(s) s + (a1 + kk2 ) s + (a2 + kk1 ) que coincide con la expresión (9) obtenida más arriba. Como resumen de lo anterior cabe decir que por una conveniente elección de la ley de control puede alterarse arbitrariamente el denominador de la función de transferencia en bucle cerrado del sistema, dejando inalterado el numerador excepto en la constante k. Normalmente, en lo que se sigue, se hará k = 1. 12.1.3 Determinación de la ley de control Sistemas monovariables Se supondrá k = 1. En caso contrario los coeficientes de la ley de control vendrán afectados por la constante k. Es decir la ley de control que se adopta es de la forma u = r − Kx siendo K = (k1 k2 ... kn ) Supóngase que A (en bucle abierto) tiene un polinomio caracterı́stico. Sı́ntesis de sistemas de control por variables de estado 249 ϕ(A) = sn + a1 sn−1 + · · · + an (12.10) Y supóngase que se quiere tener en bucle cerrado una matriz A∗ tal que ϕ(A∗ ) = sn + α1 sn−1 + · · · + αn (12.11) Este polinomio será, precisamente, el denominador de la función de transferencia en bucle cerrado. Si el sistema se escribe en la forma canónica de control la ley de control tendrá unos coeficientes K = (αn − an αn−1 − an−1 ... α1 − a1 ) (12.12) En efecto, es inmediato comprobar que escribiendo (A, B) en la forma canónica de control se tiene     ∗ A = A − BK =      0 0 .. . 1 0 .. . 0 1 .. . ... ... 0 0 .. .        1   0 0 0 ... −αn −αn−1 −αn−2 α1 Para un par (A, B) arbitrario se puede establecer el siguiente procedimiento sistemático para la determinación de la ley de control. Se parte de (A, B) y de ϕ(A∗ ): 1. se determina ϕ(A) a partir de A. 2. Se determina C a partir de los coeficientes ai de ϕ(A). 3. Determinar C a partir de (A, B). y se invierte para tener C −1 . 4. Determinar K a partir de ϕ(A) y de ϕ(A∗ ) de acuerdo con (12.12). ³ ´ 5. Determinar K = K CC −1 . Sı́ntesis de sistemas de control por variables de estado 250 La justificación del anterior procedimiento es muy simple y se deja como ejercicio al lector. En esencia consiste en determinar la ley de control en las bases correspondientes a la forma canónica de control K , de acuerdo con la expresión (12.12), y posteriormente transformar esta ley a las bases del par original K. Ejemplo Sea el sistema dinámico lineal cuyo par (A, B) es el siguiente:     1 0 2 1    0  B= 2  A =  0 −1  1 0 −1 1 Se pide la ley de control para que el sistema realimentado tenga un polinomio caracterı́stico. ϕ(A∗ ) = (s2 + s + 1) (s + 10) Procediendo como se indica más arriba se tiene 1. Se calcula el polinomio caracterı́stico de A. ϕ(A) = (s2 − 3) (s + 1) = s3 + s2 − 3s − 3 Obsérvese que el sistema es inestable. 2. Se determina C .  β1 = ³ 3 3 −1 ´  β2 = luego ³ 3 3 −1 ´  0    0  = −1 1  0    1 =4 −1 Sı́ntesis de sistemas de control por variables de estado  251  0 0 1 1 −1  C=  0  1 −1 4 3. Se determina C que resulta ser:   1 3 3 2 −2 2  C=   1 0 3 cuya inversa es  C −1  0, 5 0, 75 −1  0 −0, 333  =  0, 333  −1, 667 −0, 25 0.6667 4. A partir de ϕ(A) y de ϕ(A∗ ) se obtiene k K = (10 − (−3) 11 − (−3) 11 − 1) = (13 14 10) 5. Se obtiene ³ ´ K = K CC −1 = (0, 1680 − 2, 25 14.6681) Se invita al lector a que compruebe que ϕ(A − BK) = s3 + 11s2 + 11s + 10 12.2 Observadores Según se ha visto en la sección 1 de la ley de control es función de las variables de estado del sistema. En consecuencia, para realizar fı́sicamente una ley de control es necesario disponer de unas señales que reproduzcan a las componentes del vector de estado. Sin embargo al introducir la noción de estado se ha visto que éste es un concepto abstracto sin, en principio, ninguna realidad fı́sica subyacente. Sı́ntesis de sistemas de control por variables de estado 252 Es decir, que si bien en determinados casos será posible identificar a los componentes del vector de estados con magnitudes fı́sicas medibles, este no será el caso más general. En el caso en que las variables de estado puedan identificarse con magnitudes fı́sicas medibles se dirá que el vector de estado es accesible. En el caso contrario, es decir en el caso de que el vector de estado no sea accesible, para poder aplicar una ley de control hay que recurrir a un camino indirecto para obtener el estado. Consiste en diseñar un sistema dinámico, denominado observador, tal que alimentado por las señales accesibles (de entrada y/o salida) suministre a su salida unas señales, que se denotan por x̂, que reproduzcan la evolución del estado del sistema original. En otra sección , se ha definido el problema de la observación, como un problema de reconstrucción del estado a partir de las señales de entrada y de salida. En consecuencia, el observador, como sistema dinámico, no es sino una solución mecanizada del problema de la observación. En consecuencia, el problema no tendrá solución más que cuando el sistema sea observable; es decir, será posible sintetizar un observador solamente para un sistema observable. Planteado ası́, el problema de la sı́ntesis de un observador, tiene una gran generalidad. En lo que sigue se concretarán las soluciones de mayor interés. 12.2.1 Sistemas monovariables Observador en bucle abierto Es la solución más simple al problema de la observación del estado. Consiste, sencillamente, en una realización fı́sica (analógica) de la ecuación diferencial. ẋ = Ax + Bu (12.13) la cual permite tener en determinados puntos las señales que reproducen al estado. Su diagrama se tiene en la figura 12.4. Los inconvenientes que presenta este observador son los siguientes: 1. Para que funcione correctamente se requiere el conocimiento del estado Sı́ntesis de sistemas de control por variables de estado u ẋ x R b 253 y c A SISTEMA ORIGINAL R b A OBSERVADOR Figura 12.4: Observador en bucle abierto x̂ Sı́ntesis de sistemas de control por variables de estado 254 inicial. 2. Es muy sensible a los errores en la estimación de los parámetros que intervienen en A y B. En particular si algún auto valor de A es positivo, el más mı́nimo error (siempre existente en la práctica) en la evaluación del mismo, o en la sı́ntesis del observador, produce la inestabilidad del conjunto. Observador asintótico Con el observador asintótico se pretende tener la garantı́a de que, aunque se produzcan problemas del tipo de los aludidos al final de la sección anterior siempre cumplirá la condición siguiente lim (x̂ − x) = 0 t→∞ (12.14) es decir que la señal de salida del observador x̂ converge al estado real del sistema x, al menos para t → ∞. El que se cumpla la propiedad de la expresión 12.14 se consigue muy fácilmente con una ligera modificación del observador en bucle abierto (figura 12.4) para convertirlo en un observador en bucle cerrado. La modificación parte de una idea muy simple que consiste en comparar la señal de salida y(t) del sistema real con la señal de salida ŷ que se obtiene a partir de la señal x̂ de salida, del observador de acuerdo con la expresión: ŷ = C x̂ El error entre ŷ e y se emplea para corregir el funcionamiento del conjunto. Una solución que explota la anterior idea es la de la figura 12.5. Este observador recibe el nombre de observador de Luenberger. Obsérvese en la figura 12.5 que: x̂˙ = Ax̂ + L(y − C x̂) + Bu es decir (12.15) Sı́ntesis de sistemas de control por variables de estado u ẋ SISTEMA ORIGINAL x R B 255 y C A + ` - ŷ C R B A OBSERVADOR Figura 12.5: Observador asintótico x̂ Sı́ntesis de sistemas de control por variables de estado 256 x̂˙ = (A − LC)x̂ + Ly + Bu (12.16) x̃ = x̂ − x (12.17) x̃˙ = (A − LC) x̃ (12.18) Si se define Restando (16) de (14) se tiene Si los autovalores de (A − LC) son negativos se tendrá que lim x̃ = 0 t→∞ es decir x̂ converge a x. El problema de la sı́ntesis de un observador se reduce a una conveniente elección de L para que (A − LC) tenga unos autovalores apropiados. Se discuten a continuación dos posibles soluciones al problema. Observador asintótico del mismo orden Según se ha visto , todo sistema observable puede escribirse en la forma canónica de observación:     ẋ =     0 0 ... 0 −an 1 0 ... 0 −an−1 0 1 ... 0 −an−2 ... 0 0 ... 1 −a1 y= ³    bn       bn−1   x+ .  u   .    .   0 0 ... 1 b1 ´ x (12.19) Sı́ntesis de sistemas de control por variables de estado 257 Si se hace LT = (l1 l2 ... ln ) (12.20) Se tiene     A − LC =     0 1 0 ... 0 0 0 1 ... 0 ... ... ... ... ... 0 −an − l1 0 −an−1 − l2 0 −an−2 − l3 ... ... 1 −a1 − ln         (12.21) Como los elementos de la última columna de A − LC determinan su ecuación caracterı́stica, ésta podrá elegirse arbitrariamente mediante una adecuada selección de L. Obsérvese la dualidad entre el problema de determinar la ley de control y el de sintetizar un observador asintótico del mismo orden. Observador asintótico de orden mı́nimo En el observador del mismo orden no se ha tenido en cuenta que en la forma canónica de observación y = xn , y por lo tanto la señal de salida (que es obviamente accesible) reproduce el elemento xn del vector de estado. En consecuencia es posible concebir, en principio, un observador cuya salida sean las (n − 1) componentes restantes de x. Este observador recibe el nombre de observador mı́nimo, pues su orden es n − 1. Supóngase que se tiene el par (A, B) correspondiente a un sistema del que se quiere construir un observador. Para fijar ideas supóngase n = 3. En la ecuación que rige el comportamiento dinámico del sistema, se pueden particionar los bloques que se indican en la expresión siguiente:      ẋ1 ẋ2 ··· ẋ3         =      . a11 a12 .. a13 . a21 a22 .. a23 ··· ··· . ··· . a31 a32 .. a33              x1 x2 ··· x3        +    b1 b2 ··· b3     u  Sı́ntesis de sistemas de control por variables de estado 258 Para diseñar el observador de orden mı́nimo se adopta una expresión como la anterior haciendo y = x3 . Llamando x̂1 y x̂2 a las observaciones del estado, obtenidas del observador, se tiene que la ecuación dinámica del mismo puede escribirse como sigue: Ã ˆ1 ẋ ˆ2 ẋ Ã ! = a11 a12 a21 a22 ! Ã x̂1 x̂2 ! Ã + a13 a23 ! Ã y+ b1 b2 ! u En donde se ha prescindido de la tercera lı́nea, la correspondiente a x3 , por ser innecesaria. Se tiene en la expresión anterior un sistema dinámico que alimentado por las señales de entrada u y de salida y, permite obtener las componentes del vector de estado x̂1 y x̂2 . Se ha resuelto con ello el problema de obtener un observador de orden mı́nimo, es decir, un observador cuyo orden sea n − 1. Sin embargo, el observador anterior puede adolecer del defecto de que su comportamiento dinámico no sea satisfactorio. Puede, incluso, ser inestable. Ello es debido a que la submatriz (n − 1) × (n − 1) superior izquierda de A, tendrá unos autovalores arbitrarios que, para una forma cualquiera de A, escapan de la decisión del diseñador del observador. Afortunadamente, es posible tener la matriz A en una forma tal que el bloque superior izquierdo que interesa para la sı́ntesis del observador, tenga unos autovalores previamente especificados. Ello se consigue con la transformación T1 que se estudia a continuación. Sea x el vector de estado en la base correspondiente a la forma canónica de observación. Se aplica a x la transformación T1 , de manera que x = T1 x, estando T1 definido por     T1 =      1 0 .. . 0 ... 0 −γn−1 1 ... 0 −γn−2 .. . .. . . .. . 0 0 ... 1 −γ1 0 0 ... 0 1          (12.22) en donde el significado de los coeficientes γi se verá más abajo. Es fácil ver que Sı́ntesis de sistemas de control por variables de estado     −1 T1 =      1 0 .. . 0 ... 0 γn−1 1 ... 0 γn−2 .. . .. . . .. . 0 0 ... 1 γ1 0 0 ... 0 1 259          (12.23) Se tendrá       A =      0 1 0 .. . 0 ... 0 γn−1 µ1 0 ... 0 −γn−2 µ2 1 ... 0 −γn−3 µ3 .. .. .. .. . . . . 0 0 ... 1 −γ1 µn−1 0 0 ... 0 1 µn      B =     bn − γn−1 b1 bn−1 − γn−2 b1 .. . b2 − γ1 b1 b1            (12.24)          siendo los coeficientes µi función γi y de ai . La forma obtenida para la matriz A es tal que la submatriz (n−1)×(n−1) que se denotará por A11 superior izquierda tiene el siguiente polinomio caracterı́stico: ϕ(A11 ) = sn−1 + γ1 sn−2 + · · · + γn−2 s + γn−1 Por lo tanto, eligiendo convenientemente los valores de los coeficientes γi de este polinomio, que determinan la matriz T1 , se puede tener un comportamiento arbitrario para el observador. La ecuación que regirá el comportamiento dinámico del observador será la siguiente: Sı́ntesis de sistemas de control por variables de estado  d dt       x1 x̂2 .. . x̂n−1          =       0 0 ... 0 −γn−1 1 0 ... 0 −γn−2 0 1 ... 0 −γn−3 ... 0 0 ... 1 −γ1  µ1 µ2 .. .   +                   260 x̂ x̂2 .. .        (12.25) x̂n−1     y + b.u   µn−1 lo que permite diseñar un observador de orden mı́nimo con la estructura de la figura 12.6. En este diagrama la transformación T es la que permite obtener la forma canónica de observación. Los parámetros γi son los coeficientes del polinomio caracterı́stico del observador. Σ y ¯n y = x̄ OBSERVADOR ASINTOTICO MINIMO ˆ¯ x̄ T1−1 ˆ x̄ x̂ T −1 Figura 12.6: Observador asintótico mı́nimo Un problema importante, respecto al que en la actualidad no existe una solución completamente satisfactoria, es el de la elección de los parámetros γi que aparecen en el polinomio caracterı́stico del observador. Este polinomio caracterı́stico es el responsable del comportamiento dinámico del observador, y por lo tanto estos coeficientes deben determinarse de suerte que el seguimiento de los valores reales del estado por la salida del observador sea adecuado al comportamiento global del sistema. Es decir, deben determinarse para que el observador sea ”más rápido” en la respuesta que el propio sistema. Sin embargo, aparte de esta idea intuitiva y clara que debe presidir la elección del polinomio caracterı́stico, no existen criterios generales para la determinación del mismo. Los Sı́ntesis de sistemas de control por variables de estado 261 únicos criterios analı́ticos que se han publicado para la elección de estos coeficientes, lo han sido dentro del marco de la teorı́a del control óptimo. Es de resaltar, por último, el carácter asintótico del observador mı́nimo. Se invita al lector a que compruebe por sı́ mismo directamente este punto. Ejemplo Sea el sistema cuya forma canónica de observación se determinó en el ejemplo de sistemas monovariables en forma canónica de observación. Supóngase que se quiere diseñar un observador tal que sus autovalores sean λ1 = −4 λ2 = −5 es decir, el polinomio caracterı́stico del observador será ϕ(obs.) = (s + 4) (s + 5) = s2 + 9s + 20 según (23) y (24) se tiene   1 0 −20   T1 =  0 1 −9  0 0 1  T1−1  1 0 20  =  0 1 9   0 0 1 Se toma Ao y B o en la forma canónica de observación, y se tiene  A = T1 Ao T1−1  0 −20 −238   =  1 −9 −94  0 1 12   −30  B = T1 bo =  22   1 Sı́ntesis de sistemas de control por variables de estado 262 Por lo tanto la ecuación dinámica del observador resulta ser Ã ˆ = ẋ 0 −20 1 −9 ! Ã x̂ + −238 −94 ! Ã y+ ! 30 22 u Con una conversión a las bases originales a la forma     x1 −02241 −0, 0862 −5, 1371    −1 −1 0, 2069 4, 9304   x2  x̂ = To T1 x̂ =  0, 1379  0, 0690 0, 1039 1, 9658 y 12.3 Sı́ntesis del sistema en bucle cerrado En la sección 1 se ha considerado la determinación de la ley de control para el caso en que las variables de estado fuesen accesibles. En la sección 2 se han estudiado los observadores que permiten observar (evaluar) el estado cuando este no es accesible. La solución inmediata a la sı́ntesis de un sistema de control cuando el sistema no es accesible es aplicar la ley de control a las señales obtenidas a la salida del observador, que reproducen el estado de un sistema, de acuerdo con el diagrama de la figura 12.7. r u Σ y x̄ OBSERVADOR LEY DE CONTROL Figura 12.7: Sistema de control por variables de estado con observador Para estudiar el sistema conjunto se procede como sigue: Sea el sistema en bucle abierto Sı́ntesis de sistemas de control por variables de estado ẋ = Ax + Bu y = Cx 263 (12.26) (12.27) Y supóngase que se ha determinado una ley de control u = r − Kx (12.28) siendo la ecuación del observador asintótico x̂˙ = Ax̂ + L(y − C x̂) + Bu (12.29) La ley de control se aplica sobre la estimación del estado x̂. Es decir, en realidad la expresión de la ley de control toma la forma u = r − K x̂ (12.30) La evolución del sistema en bucle cerrado vendrá regida por las ecuaciones (12.26), (12.29) y (12.30). Llevando (12.30) a (12.26) y a (12.29) se tiene ẋ = A x − B k x̂ + Br x̂˙ = Ax̂ − LC(x̂ − x) + Br − Bkx̂ (12.31) (12.32) Llamando x̃ = x̂ − x, la expresión (12.31) se puede escribir ẋ = (A − BK)x − BK x̃ + Br (12.33) Por otra parte restando (12.33) de (12.32) se tiene x̃˙ = (A − LC) x̃ (12.34) Sı́ntesis de sistemas de control por variables de estado 264 Las expresiones (12.33) y (12.34) se pueden escribir de una forma compacta como sigue : d dt Ã x x̃ ! Ã = A − BK −BK 0 A − LC y= ³ C 0 ´ Ã ! Ã x x̃ x x̃ ! Ã + B 0 ! r ! (12.35) De un atento análisis de la expresión (35) se desprenden dos conclusiones: 1. Los autovalores del sistema en bucle cerrado son la unión de los correspondientes a (A − BK) y los correspondientes a (A − LC). Esta propiedad recibe el nombre de propiedad de separación y es análoga a la que se presenta en los sistemas estocásticos al combinar un filtro de Kalmanœ[222z con una ley de control óptima. 2. Llamando ϕ11 (s) = (sI − A + BK)−1 se tendrá que Y (s) = Cϕ11 (s)B R(s) Es decir que el observador no influye en la función de transferencia en bucle cerrado, puesto que esta función de transferencia es la misma que se obtiene sin observador, cuando las variables de estado son accesibles. Obsérvese que esta conclusión, pese a su carácter sofisticado, es intuitiva ya que el observador reproduce exactamente las variables de estado si el valor inicial de estas es el mismo del que parte el observador, y ello es lo que sucede cuando se parte del reposo. Es decir, al partir del reposo, los valores que toman la variable de estado son nulos; estos mismos valores son lo que inicialmente suministra el observador si a su vez parte del reposo. Por lo tanto, inicialmente, el observador suministra el valor real del estado. Ejemplo Sea el sistema formado por dos integradores que se indica en la figura 12.8, cuya descripción externa vendrá dada por la función de transferencia 1 Y (s) = 2 U (s) s Sı́ntesis de sistemas de control por variables de estado 265 y cuya descripción interna vendrá dada por ẋ1 = x2 ẋ2 = u es decir Ã A = u 0 1 0 0 ! Ã B = 0 1 ! C = x2 1 s ³ 1 0 ´ x1 1 s Figura 12.8: Doble integrador Supóngase que se quiere obtener en bucle cerrado un polinomio caracterı́stico dado por ϕ(s) = s2 + a1 s + a2 Habida cuenta de la expresión (11) se tendrá que K= ³ a2 a1 ´ Si las variables de estado son accesibles se tiene el diagrama de la figura 12.9. Si x2 no es accesible, debe procederse a diseñar un observador. Para ello se escribe (A, B, C) en la forma canónica de observación. Se tiene Ã Ao = 0 0 1 0 ! Ã Bo = 1 0 ! Co = ³ 0 1 ´ La ley de control, en estas bases del vector de estado, vendrá dada por Ko = ³ a1 a2 ´ Sı́ntesis de sistemas de control por variables de estado r + + x2 1 s - 266 1 s x1 a1 + a2 Figura 12.9: Sistema controlado Se quiere tener un observador asintótico de orden mı́nimo. El orden del observador será uno, por ser el sistema de orden dos. Si se denota por s + γ el polinomio caracterı́stico del observador, se tendrá de acuerdo con las expresiones (12.22) y (12.23). Ã T1 = 1 −γ 0 1 Ã T1−1 = 1 γ 0 1 ! ! y, por lo tanto, Ã A= T1 Ao T1−1 = −γ −γ 2 1 γ Ã B = T 1 Bo = 1 0 ! ! El observador viene dado por el diagrama de bloques de la figura 12.10. La ley de control en la base del vector de estado correspondiente a X vendrá dada por Sı́ntesis de sistemas de control por variables de estado 267 u y −γ 2 + x̂1 1 s - γ x̂2 Figura 12.10: Diagrama del observador k = Ko T −1 = ³ a1 a1 γ + a2 ´ Por lo tanto el conjunto formado por el sistema original y el compensador será el representado en la figura 12.11. Supongamos ahora que se trata de un problema de regulación con r = 0. En tal caso es relativamente sencillo determinar el diagrama que representa la descripción interna del controlador, entendido como el subsistema que a partir de la señal de salida de la planta a controlar y produce la señal control u. En la figura 12.12 se representa el diagrama del controlador. Si el problema de diseño se hubiese resuelto mediante los métodos clásicos de control, el controlador vendrı́a especificado mediante su función de transferencia. Para comparar los resultados se puede determinar la función de transferencia del controlador que se acaba de obtener. Esta función de transferencia viene dada por (a1 γ + a2 )(s + a1 ) + a2 γ U (s) = C(s) = Y (s) s + a1 + γ a2 γ s + a1 + a1 γ + a2 = (a1 γ + a2 ) s + a1 + γ Sı́ntesis de sistemas de control por variables de estado r + u a1 x̄1 1 s y 1 s2 - + 268 + + −γ 2 - + γ a1 γ + a2 OBSERVADOR Figura 12.11: Sistema de control por variables de estado con observador que se puede escribir de forma más compacta C(s) = k s + α1 s + α2 k, α1 , α2 > 0 α1 < α2 (12.36) y que resulta ser lo que en los métodos clásicos se conoce como una red de avance de fase. De este modo se ha conseguido resolver el problema de la sı́ntesis de un controlador sin ninguna preconcepción con relación a su estructura. Si se quiere dar un paso más, supongamos que en bucle cerrado se pretende tener un comportamiento caracterizado por ϕc (s) = s2 + 2δωn s + ωn2 en donde 2δωn = a1 y √ ωn2 = a2 . Un valor razonable para el coeficiente de amortiguamiento es δ = 1/ 2, en cuyo caso se tiene que los distintos parámetros de la red de avance (12.36) vienen dado por √ k = ω( 2γ + ω) √ ! Ã 3γ + 2ω α1 = ω √ 2γ + ω √ α2 = γ + 2ω Sı́ntesis de sistemas de control por variables de estado 269 Conviene observar que la teorı́a clásica del control no ha sido capaz de proporcionar fórmulas explı́cita como las anteriores, aún para un ejemplo tan simple como el anterior. Los métodos clásicos están basados en aproximaciones gráficas y reglas prácticas, lo que constituye una clase de matemáticas aplicadas relativamente anticuadas. Sin embargo, estos comentarios no descalifican los métodos clásicos, que como se verá más adelante, continúan teniendo un gran interés, ya que suministran ı́ndices de robustez que poseen un gran interés práctico. r + u y - + a1 x̄1 1 s + + −γ 2 - + γ a1 γ + a2 OBSERVADOR Figura 12.12: Controlador para le planta 1/s2 . Del atento análisis de este ejemplo se desprende que la teorı́a moderna del control, basada en el empleo de las variables de estado, permite resolver el problema de la sı́ntesis de un sistema realimentado sin ninguna hipótesis previa respecto a la forma del regulador que se trata de determinar. Ello permite un planteo analı́tico del problema de la sı́ntesis de sistemas de control que representa una notable alternativa al que proponen los métodos clásicos, basados éstos en métodos cuya justificación se encuentra más en una experiencia acumulada que en una visión teórica global. A continuación se expone un método general de sı́ntesis de un sistema de control. Sı́ntesis de sistemas de control por variables de estado 12.3.1 270 Método práctico de sı́ntesis Problema Dado un sistema de control monovariable cuya función de transferencia en bucle abierto sea G(s) = b1 sn−1 + b2 sn−2 + · · · + bn sn + a1 sn−1 + · · · + an Se quiere tener en bucle cerrado un sistema cuya función de transferencia sea tal que el numerador permanezca invariable y el denominador sea sn + α1 sn−1 + · · · + αn Para su resolución se procede a seis pasos: 1. A partir de la función de transferencia se obtiene la forma canónica de control.     Ac =     0 0 0 0 −an −an−1 0 ... 0 1 ... 0 ... 0 ... 1 ... −a1 ³ ´ BcT = Cc = ³ 1 0 0 0 ... 1 bn bn−1 ... b1         ´ 2. Se determina la ley de control de la forma u = −Kx + r. −K = ³ an − αn an−1 − αn−1 · · · a1 − α1 ´ Obsérvese que los valores numéricos de esta ley de control corresponden a la representación del sistema en la forma canónica de control. Sı́ntesis de sistemas de control por variables de estado 271 3. Se determina la forma canónica de observación, lo que se hace a partir de la función de transferencia.     Ao =     BoT = 0 0 ... 0 −an 1 0 ... 0 −an−1 0 1 ... 0 −an−2 ... 0 0 ... 1 −a1 ³ Co = bn bn−1 ... b1 ³ 0 0 ... 1         ´ ´ Aunque la forma canónica de observación se puede obtener directamente de la función de transferencia, debido al uso que posteriormente se hará de ella interesa obtener la transformación T que permite pasar de las bases a la forma canónica de control a la de observación.     T =      an−1 an−2 ... a1 an−2 an−3 ... 1 .. .. .. . . . a1 1 .... 0 1 0 .... 0 1 0 .. .         0   C CA .. .        C An−2  0 CAn−1          4. A partir de la forma canónica de observación se procede a construir el observador mı́nimo. Para ello se define la transformación T1 tal que      T1 =     1 0 .. . 0 ... 0 −γn−1 1 ... 0 −γn−2 .. . .. . .... .. . 0 0 ... 1 −γ1 0 0 ... 0 1 en donde sn−1 + γ1 sn−2 + · · · + γn−1 es el polinomio deseado para el observador. Obsérvese que          Sı́ntesis de sistemas de control por variables de estado     −1 T =      1 0 .. . 0 ... 0 γn−1 1 ... 0 γn−2 .. . .. . ... .. . 0 0 ... 1 γ1 0 0 ... 0 272          Se tiene que      −1  A = T1 Ao T1 =      0 1 0 .. . 0 ... 0 −γn−1 β1 0 ... 0 −γn−2 β2 1 ... 0 −γn−3 β3 .. .. .. .. . . . . 0 0 ... 1 γ1 βn−1 0 0 ... 0 1 βn            B = T 1 Bo C= ³ 0 0 ... 1 ´ es decir que y = xn . El observador tiene como matriz dinámica el bloque (n − 1) × (n − 1) superior izquierdo de A y está excitado por u a través de los (n−1) primeros elementos de B y de y a través de (β1 ... βn−1 ) x̂˙ 1 = A11 x1 + A12 y + B u siendo A11 : (n − 1) × (n − 1) y estando B formado por los n − 1 primeros elementos de B. 5. Se obtiene la matriz de transformación de x̂ a x̂ (correspondientes a la forma canónica de control en que se ha determinado la ley de control x̂ = T −1 T1−1 x̂ 6. A partir de todo lo anterior la matriz del compensador es inmediata u = −K x̂ + r u = −KT −1 T1−1 x̂ + r Sı́ntesis de sistemas de control por variables de estado 273 Ejemplo Sea el sistema cuya función de transferencia en bucle abierto es s+2 s(s + 1) G(s) = Se quiere tener un bucle cerrado el comportamiento representado por la función de transferencia Gd (s) = s+2 s2 + 2s + 3 La aplicación de los seis pasos anteriores conduce a lo siguiente 1. Ã Ac = 0 1 0 −1 ! BcT = 2. K= 3. Ã Ao = 0 0 1 −1 ³ ! T Bo = ³ 3 1 ³ ´ 0 1 Cc = ³ 2 1 ´ 2 1 ´ Co = ³ 0 1 siendo Ã T = 1 1 1 0 !Ã Ã T −1 = 2 1 0 1 ! Ã = −1/2 1 1 −1 2 2 2 1 ! ! 4. Adoptando ϕobs (s) = s + 3 se tiene que Ã T1 = y por lo tanto 1 −3 0 1 ´ Ã ! T1−1 = 1 3 0 1 ! ´ Sı́ntesis de sistemas de control por variables de estado Ã A= T1 Ao T1− 1 = Ã B = T 1 Bo = C= ³ 0 1 274 −3 −6 1 2 −1 1 ! ! ´ Estando el observador dado por x̂˙1 = −3x̂1 − 6x̂2 − u = −3x̂1 − 6y − u 5.   1 1 − −  x̂ = T −1 T1−1 x̂ =  2 2 x̂ 1 2 6. u = −KT −1 T1−1 x̂ + r = ³ −3 −1 Es decir U (s) = − ´    −u − 6y  1 1  −2 −2   s + 3  + r 1 2 y U (s) s+9 − Y (s) + R(s) 2(s + 3) 2(s + 3) (12.37) lo que se puede interpretar gráficamente como se hace en la figura 12.13. Comprobación Para comprobar basta determinar la función de transferencia en bucle cerrado y verificar que es la deseada. En el ejemplo anterior se comprueba que ası́ sucede. En efecto, la expresión (12.37) se puede escribir, llevando todos los términos en U (s) al primer miembro: U (s) (2s + 7) (s + 9) = −Y (s) + R(s) 2(s + 3) 2(s + 3) Sı́ntesis de sistemas de control por variables de estado Como U (s) = Y (s) 275 s(s + 1) s+2 se tiene Ã s+9 (2s + 7) s(s + 1) Y (s) + × 2(s + 3) 2(s + 3) (s + 2) ! = R(s) Es decir Y 2(s + 2)(s + 3) s+2 (s) = 3 = R 2s + 10s2 + 18s + 18 s2 + 2s + 3 Debe notarse que el observador no aparece de ninguna forma en la función de transferencia en bucle cerrado. 12.3.2 Sı́ntesis algebraica directa (Sı́ntesis externa directa) En el apartado anterior se ha determinado la compensación de un determinado sistema por medio de un observador y una ley de control. Al aplicar al sistema original el observador y la ley de control en el ejemplo considerado en el apartado anterior, se ha obtenido el diagrama de la figura 12.13. Ello sugiere adoptar el diagrama de bloques de la figura 12.14,como diagrama básico para la sı́ntesis de sistemas de control. Tomando el diagrama de la figura 12.14 como punto de partida para la sı́ntesis de un sistema de control, se identifican en él los siguientes elementos. La función de transferencia T (s) es la función de transferencia del sistema en bucle abierto. El polinomio q(s) caracteriza el comportamiento dinámico del observador y por tanto, se establece a priori, de la misma manera que se adoptaban unos valores para el comportamiento dinámico del observador en el apartado anterior. El problema de sı́ntesis queda reducido a determinar los polinomios k(s) y h(s). El objeto de este apartado es precisamente, determinar los polinomios k(s) y h(s) directamente sin necesidad de determinar que la ley de control y el observador, que es lo que se hacı́a en el apartado anterior. El problema se suele plantear en los términos siguientes. Sea un sistema cuya función de transferencia es T (s) = n(s)/d(s), y supóngase que se quiere obtener en bucle cerrado un comportamiento representado por Td (s). Adoptando Sı́ntesis de sistemas de control por variables de estado u v + 276 y s+2 s(s+1) - s+9 2(s+3) 1 2(s+3) + + Figura 12.13: Diagrama de bloques simplificado del sistema controlado por variables de estado con observador u v + y T (s) - h(s) q(s) k(s) q(s) + + Figura 12.14: Diagrama de bloques simplificado del sistema controlado por variables de estado con observador Sı́ntesis de sistemas de control por variables de estado 277 la configuración de la figura 12.14, se trata de determinar los polinomios k(s) y h(s) para que la función de transferencia resultante sea precisamente Td (s). Para estudiar el problema se procede, en primer lugar, a particionar T (s) tal como se hace en la figura 12.15. u z 1 d(s) N (s) y Figura 12.15: Factorización del sistema De la observación de las figuras 12.14 y 12.15 se tiene lo siguiente. d(s)Z(s) = U (s) (12.38) Y (s) = n(s)Z(s) (12.39) 1 (k(s)U (s) + h(s)Y (s)) q(s) 1 = R(s) − (k(s)d(s) + h(s)n(s)) Z(s) q(s) U (s) = R(s) − (12.40) (12.41) Un conocido resultado del álgebra de polinomios establece que, dados dos polinomios primos entre sı́ n(s) y d(s), y un polinomio arbitrario ϕ(s), existen dos polinomios k(s) y h(s), tales que n(s)h(s) + d(s)k(s) = ϕ(s) (12.42) Este resultado se estudiará con detalle, en un teorema, posteriormente. Supóngase aquı́ que ϕ(s) = q(s) × f (s), en donde el significado de f (s) se determinará más abajo. Se tendrá que la expresión (12.40) se convertirá en U (s) = R(s) − f (s)Z(s) (12.43) Sı́ntesis de sistemas de control por variables de estado 278 R(s) = U (s) + f (s)Z(s) = (d(s) + f (s)) Z(s) (12.44) luego, Y (s) n(s) = R(s) d(s) + f (s) (12.45) Esta expresión indica que la función de transferencia Td (s) debe tener el mismo numerador que T (s) y, al mismo tiempo, indica cómo se puede modificar el denominador. Esta modificación se hacer por adición de f (s), cuyo significado es ahora claro. El anterior desarrollo lleva implı́cito un método de sı́ntesis. Los pasos de este método son: 1. A partir de d(s) y del denominador de Td (s) se determina f (s). 2. Por consideraciones fı́sicas se adopta q(s), (equivale a ϕobs (s)). 3. Se determina ϕ(s) = q(s)×f (s) y se resuelve la ecuación polinomial (12.42), con lo que se obtienen h(s) y k(s). Debe notarse que el problema es trivial si ϕ (n(s)) = 0, es decir si n(s) es una constante n0 . En efecto, en tal caso la expresión (12.42) se convierte en ϕ(s) = k(s)d(s) + h(s) × n0 Para la determinación de k(s) y h(s) se divide ϕ(s) por d(s). El cociente de dicha división es k(s) y el resto h(s) × n0 El problema queda reducido, por lo tanto, a la resolución de la ecuación polinomial (12.42). Método del sistema de ecuaciones lineales Sea la expresión (12.42) en la que a partir de n(s), d(s) y ϕ(s) se trata de determinar h(s) y k(s). Sı́ntesis de sistemas de control por variables de estado 279 Los grados de los polinomios n(s), d(s) y ϕ(s), son: grado (ϕ) = q ≤ 2n − 2 grado (n) = m ≤ n − 1 grado (d) = n Los grados de h(s) y k(s) serán grado (h) = n − 1grado (k) = m − 1 La determinación de h(s) y k(s) se hace considerando como incógnitas sus coeficientes y obteniendo las ecuaciones que resultan de igualar coeficientes de términos de igual exponente de s en la expresión (12.42). Con ello se obtiene un sistema de ecuaciones lineales que admite solución, y ésta es única, si los polinomios n(s) y d(s) son primos entre sı́ (no tienen factores comunes). Considérese, sin pérdida de generalidad, n = 3 y m = 2, es decir, d(s) = s3 + d1 s2 + d2 s + d3 n(s) = n0 s2 + n1 s + n2 h(s) = h0 s2 + h1 s + h2 k(s) = k0 s + k1 ϕ(s) = ϕ0 s4 + ϕ1 s3 + ϕ3 s + ϕ4 Se tendrá, Sı́ntesis de sistemas de control por variables de estado 280 n(s)h(s) = n0 h0 s4 + (n0 h1 + n1 h0 )s3 + +(n0 h2 + n1 h1 + n2 h0 )s2 + +(n1 h2 + n2 h1 )s2 + n2 h2 d(s)k(s) = k0 s4 + (k1 + d1 k0 )s3 + +(d1 k1 + d2 k0 )s2 + (d2 k1 + d3 k0 )s + d3 k1 Al igualar en ambos miembros de (12.42) términos en la misma potencia de s, se tendrá, escrito en forma compacta            n2 0 0 d3 0 h2     h1   n1 n2 0 d2 d3        n0 n1 n2 d1 d2   h0  =      0 n0 n1 1 d1    k1   0 0 n0 0 1 k0 ϕ4 ϕ3 ϕ2 ϕ1 ϕ0         es decir MC = ϕ (12.46) La anterior ecuación en C admite solución, y ésta es única, si M −1 existe. Ahora bien, la matriz M tiene como determinante el resultante R(n, d), de los dos polinomios n(s) y d(s). El resultante de dos polinomios es no nulo si éstos no tienen factores comunes. Ello es lo que sucede cuando el sistema a controlar es controlable y observable. Por lo tanto, la anterior ecuación tendrá solución, y esta será única, si n(s) y d(s) no tienen factores comunes. El inconveniente que presenta este método es que requiere la inversión de una matriz cuya dimensión, para problemas de un cierto orden, puede ser elevada. Este método, por lo tanto, no es el adecuado cuando se trata de resolver el problema con papel y lápiz. Sin embargo, es más simple. Sı́ntesis de sistemas de control por variables de estado 281 Ejemplo Sea el sistema considerado en el ejemplo 2 del apartado anterior y cuyas funciones de transferencia en bucle abierto y en bucle cerrado son las siguientes. T (s) = Td (s) = s2 s3 s+2 + 2s + 3s s+2 + 3s2 + s + 2 Se tiene que n(s) = s + 2 d(s) = s3 + 2s2 + 3s ϕ(s) = q(s) × f (s) = s4 − s2 + 2s + 2 Se adopta k(s) = k0 s + k1 h(s) = h0 s2 + h1 s + h2 El sistema de ecuaciones (44) resulta ser         2 1 0 0 0 0 2 1 0 0 cuya solución conduce a 0 0 2 1 0 0 3 2 1 0 0 0 3 2 1         h2 h1 h0 k1 k0         =       2 2 −1 0 1         Sı́ntesis de sistemas de control por variables de estado 282 h2 = 1 h1 = 0 h0 = −14/6 k1 = 1/3 k0 = 1 lo cual coincide con lo obtenido por el método anterior. Debe resaltarse que para aplicar este método se requiere el concurso de un computador, cosa que con el anterior, aunque aparentemente más complejo, no sucedı́a. Tema 13 Sistemas no lineales 13.1 Método del primer armónico Los métodos clásicos de sistemas realimentados lineales están basados en el empleo de la función de transferencia, que posee una interpretación en el dominio de la frecuencia de gran interés para el análisis y la concepción de esos sistemas realimentados. Sin embargo, el concepto de función de transferencia está basado en la propiedad de linealidad (suma de causas produce suma de efectos) que no poseen, por su propia naturaleza los sistemas no lineales. Sin embargo, como vamos a ver en lo que sigue, es posible aplicar una versión ampliada del método de la respuesta en frecuencia a sistemas no lineales mediante el método de la función descriptiva. Con este método, como vamos a ver, es posible adaptar los métodos de diseño de sistemas lineales en el dominio de la frecuencia, empleando los diagramas de Bode y similares, al caso de los sistemas no lineales, si bien en este último caso los resultados son exclusivamente aproximados. 13.1.1 Ejemplo introductorio Los sistemas no lineales pueden presentar oscilaciones de amplitud y periodo fijos sin excitación exterior. Esas oscilaciones se denominan ciclos lı́mites u oscilaciones autoexcitadas. Una de la primeras ecuaciones propuestas para estudiar este fenómeno se debe al ingeniero eléctrico holandés Balthasar Van der Pol. Esta 283 Sistemas no lineales 284 ecuación es la siguiente: ẍ + α(x2 − 1)ẋ + x = 0 (13.1) vamos a emplear esta ecuación como ejemplo introductorio al método del primer armónico. Para ello, vamos a suponer que existe un ciclo lı́mite de amplitud y frecuencia no determinadas, y vamos a ver que restricciones impone la ecuación anterior a esta amplitud y frecuencia. Elemento no lineal (−ẋx2 ) Elemento Lineal s 0 + −x - v α s2 −αs+1 x (.)2 Figura 13.1: Diagrama de bloques del oscilador de Van der Pol Puesto que el análisis de la ecuación de Van der Pol lo estamos haciendo como introducción al estudio de sistemas realimentados no lineales conviene que representamos la ecuación (13.1) mediante un diagrama de bloques como el de la figura 13.1. En esta figura se tiene un sistema realimentado, con realimentación unitaria, en cuya cadena directa aparece un bloque no lineal y uno lineal. Como veremos luego, esta será la forma que tomaran los sistemas realimentados no lineales a los que se aplica el método del primer armónico. Para justificar el diagrama de la figura 13.1 basta reescribir la expresión (13.1) de la forma ẍ − αẋ + x = −αx2 ẋ Se define v = −x2 ẋ, con lo que la anterior expresión se convierte en ẍ − αẋ + x = αv cuya función de transferencia es x α (s) = 2 v s − αs + 1 Sistemas no lineales 285 Supongamos que el sistema de la figura 13.1 oscila, de modo que la señal x evoluciona de la forma x(t) = A sen ωt (13.2) en donde A es la amplitud del ciclo lı́mite y ω su frecuencia. En este caso se tiene ẋ(t) = Aω cos ωt por consiguiente, la salida del bloque no lineal de la figura 13.1 viene dada por v = −x2 ẋ = A2 sen 2 ωtAω cos ωt A3 ω = − (1 − cos 2ωt) cos ωt 2 A3 ω = − ( cos ωt − cos 3ωt) 4 (13.3) (13.4) (13.5) El paso de (13.3) a (13.4) se basa en que 2 sen 2 ωt = 1 − cos 2ωt ya que cos 2ωt = cos 2 ωt − sen 2 ωt = 1 − 2 sen 2 ωt Por otra parte, el paso de (13.4) a (13.5) es un poco máás elaborado. Para demostrarlo se parte de cos 3ωt = = = = = cos cos cos cos cos 2ωt cos ωt − sen ωt sen 2ωt ωt(1 − 2 sen 2 ωt) − 2 sen 2 ωt cos ωt ωt(1 − 4 sen 2 ωt) ωt(1 − 2 + 2 cos 2ωt) ωt(2 cos 2ωt − 1) de donde se tiene que 1 cos ωt − cos ωt cos 2ωt = ( cos ωt − cos 3ωt) 2 En la expresión (13.5) se observa que la señal v contiene un armónico de tercer orden. Sin embargo, sucede que la parte lineal se comporta como un filtro paso bajo, de modo que se puede suponer razonablemente que este armónico de tercer orden resulta suficientemente atenuado por el bloque lineal y que puede, en una primera aproximación despreciarse. Con estos supuestos, la señal v toma la forma aproximada A2 d A3 ω ( cos ωt) = (−A sen ωt) (13.6) v≈− 4 4 dt Sistemas no lineales 286 Aproximación cuasi lineal r=0 + −x - A2 s 4 v α s2 −αs+1 x Figura 13.2: Aproximación lineal del oscilador de Van der Pol De este modo el bloque no lineal de la figura 13.1 puede representarse en forma aproximada como se hace en la figura 13.2. El bloque no lineal de la figura 13.1 se describe de forma aproximada, mediante una función de transferencia como la que se indica en la figura 13.2. Conviene observar que esta “función de transferencia” depende de la amplitud de la señal de entrada A, lo que no sucede en ningún caso con una función de transferencia de un sistema lineal. En general, podemos escribir que las señales de salida v del bloque no lineal de la figura 13.2 vienen dadas por v = N (A, ω)(−x) (13.7) en donde N juega el mismo papel que la función de transferencia en un sistema lineal, aunque en este caso con la propiedad adicional de depender no solamente de la frecuencia ω, sino también de la amplitud A. A la función N la denominaremos función descriptiva del elemento no lineal correspondiente y constituye una generalización del concepto de función de transferencia al estudio de los sistemas no lineales (aunque aquı́ con un carácter aproximado ya que para llegar a ella se han despreciado los armónicos de orden superior al primero, a partir de la consideración del carácter del filtro paso bajo del bloque lineal). En el caso que nos ocupa la función descriptiva toma la forma A2 (13.8) 4 es decir el bloque no lineal se puede aproximar por la función de respuesta en frecuencia N . De acuerdo con la cadena directa del sistema de la figura 13.2, se puede escribir N (A, ω) = jω x = A sen ωt = G(jω)v = G(jω)N (A, ω)(−x) (13.9) Sistemas no lineales 287 Se sabe que una señal senoidal se puede escribir en forma compleja mediante la exponencial x = Aejωt con lo que la anterior expresión (13.9) puede escribir Aejωt = G(jω)N (A, ω)(−Aejωt ) de donde se tiene 1 + G(jω)N (A, ω) = 0 (13.10) esta expresión, en realidad, es una forma de escribir la expresión (13.1), es decir la ecuación del sistema, habida cuenta de la simplificación que ha permitido pasar de la expresión (13.3) a la (13.6). La resolución de esta ecuación en la amplitud A y la frecuencia ω permite determinar la amplitud y frecuencia a la que oscila el sistema. En el caso concreto que nos ocupa, la expresión (13.10) se convierte en α A2 1+ jω = 0 (13.11) (jω)2 − α(jω) + 1 4 que conduce a 4((jω)2 − α(jω) + 1) + αA2 jω = 0 cuya parte real es −4ω 2 + 4 = 0 cuya solución conduce a ω = 1, y cuya parte imaginaria es −4α + αA2 = 0 por lo que A = 2. Por tanto el sistema admite una solución en forma de oscilación con amplitud A = 2 y frecuencia ω = 1. Conviene observar que la expresión (13.11) escrita en forma de Laplace toma la forma α A2 s 1+ 2 =0 s − αs + 1 4 que es la ecuación caracterı́stica en bucle cerrado del sistema de la figura 13.2. Los autovalores de esta ecuación son λ1,2 1 = − α(A2 − 4) ± 8 s 1 2 2 α (A − 4)2 − 1 64 (13.12) en los que haciendo A = 2 se obtienen los autovalores λ1,2 = ±j; es decir existe un ciclo lı́mite de amplitud 2 y frecuencia 1. Conviene observar que ni la amplitud ni la frecuencia obtenidas dependen del parámetro α. Sistemas no lineales 288 Elemento no lineal r(t) = 0 + x(t) v = f (x) Elemento lineal v(t) G(s) y(t) - Figura 13.3: Sistema no lineal r(t) = 0 + x(t) G1 (s) v(t) u(t) Gp (s) y(t) - G2 (s) Figura 13.4: Sistema de control con una no linealidad Sistemas no lineales 13.1.2 289 Principios del método Supuestos básicos del método: 1. Hay un único componente no lineal. 2. Ese componente es invariante en el tiempo. 3. La parte lineal se comporta como un filtro paso-bajo. 4. La no linealidad es simétrica, de modo que no aparece en la salida un señal de continua. Debido a estas limitaciones, el método de la función descriptiva se utiliza fundamentalmente para el análisis de estabilidad y no suele aplicarse a problemas de diseño óptimo de sistemas. 13.1.3 Transformación de Fourier La salida v(t) de un elemento no lineal, en respuesta a una señal sinusoidal, de amplitud A y frecuencia ω, es una señal periódica de la misma frecuencia, que se puede desarrollar en serie de Fourier, de la forma: v(t) = a0 + ∞ X (an cos (nωt) + bn sen (nωt)) n=1 1Zπ a0 = v(t)d(ωt) n = 0, 1, 2, ... π π El término independiente es el valor medio de la señal en un perı́odo. Para una señal sin componente de continua este valor es cero; es decir a0 = 0 (recuérdese el supuesto 4 de 13.1.2). 1Zπ an = v(t) cos (nωt)d(ωt) π π n = 0, 1, 2, ... (13.13) 1Zπ v(t) sen (nωt)d(ωt) π π n = 0, 1, 2, ... (13.14) bn = Casos de interés: Sistemas no lineales 290 • v(t) es impar [v(ωt) = −v(−ωt)], entonces an = 0, n = 0, 1, 2, ..., y en desarrollo solo tiene términos en senos (figura 13.5a). • v(t) es alternada [v(ωt + π) = −v(ωt)], entonces el desarrollo solo tiene términos impares (figura 13.5b). v(x) v(x) x+π −x x x v(−x) v(x + π) a) b) Figura 13.5: Señales impar (a) y alternada (b) En el supuesto de que se considere únicamente la componente fundamental del desarrollo en serie, y recordando que a0 = 0, se tiene que la expresión se convierte en v(t) = v1 (t) = a1 cos (ωt) + b1 sen (ωt) = M sen (ωt + φ) (13.15) En la figura 13.6 se representa un elemento no lineal y su representación mediante Asen(ωt) w(t) N.L. Asen(ωt) N (A, ω) M sen(ωt + φ) Figura 13.6: Elemento no lineal y función descriptiva la función descriptiva. De la expresión (13.15) se tiene µ q M (A, ω) = a21 + b21 φ(A, ω) = tag −1 a1 b1 ¶ En la figura 13.6 se muestra como la componente fundamental de la salida de un sistema no lineal a una señal sinusoidal de entrada, es otra señal sinusoidal de la misma frecuencia pero de amplitud M y desfase φ. Empleando una representación compleja la sinusoide puede escribirse v1 = M ej(ωt+φ) = (b1 + ja1 )ejωt Sistemas no lineales 291 Con los anteriores elementos ya estamos en posición de definir la función descriptiva de un elemento no lineal como el cociente complejo entre la componente fundamental del elemento no lineal y la señal sinusoidal de entrada A sen ωt; es decir M ej(ωt+φ) M jφ 1 N (A, ω) = = e = (b1 + ja1 ) (13.16) jωt Ae A A Es decir, la función descriptiva N (A, ω) es una función compleja cuyo módulo y argumento representan la amplificación y el desfase del primer armónico de la salida v(t) de un sistema no lineal ante una entrada sinusoidal de amplitud A y frecuencia ω. El concepto de función descriptiva puede, por tanto, ser considerado como una ampliación de la noción de respuesta frecuencial de los sistema lineales. Las diferencias entre ambos conceptos se limitan a que la función descriptiva de un elemento no lineal depende de la amplitud, mientras que la función de transferencia de un elemento lineal no depende de ella. Sin embargo, con vistas a las aplicaciones al diseño de sistemas realimentados pueden tratarse de forma análoga. En general, por tanto, la función descriptiva depende de la frecuencia y la amplitud de la señal de entrada. Existen, sin embargo, algunos casos especiales. Cuando la no linealidad es uniforme (es decir, su caracterı́stica es una función que asigna a cada valor de la señal de entrada un único valor de la señal de salida) la función descriptiva N es real e independiente de la frecuencia de entrada. El carácter real de N se debe a que a1 = 0, debido a que la señal de salida del elemento no lineal es impar, y en ese caso, como hemos recordado antes, todos los términos ai se anulan. Además, la salida es siempre alternada, por lo que los términos pares desaparecen. Por tanto ante una no-linealidad uniforme se tendráá v(t) = b1 sen ωt + b3 sen 3ωt + b5 sen 5ωt + ... 13.2 Algunas funciones descriptivas La determinación de la función descriptiva se puede hacer básicamente de dos formas: por cálculo analı́tico o por determinación experimental. Por lo que respecta al método analı́tico vamos a presentar un par de ejemplos para ilustrar su aplicación. El primero de los ejemplos es una saturación que aporta un ejemplo de un sistema no lineal con caracterı́stica estática. También se presenta un ejemplo de un relé con holgura, cuya caracterı́stica es dinámica. Sistemas no lineales 13.2.1 292 Saturación v saturación v(t) salida no saturada salida saturada k 0 ka a 0 x 0 γ ka ωt A x(t) γ π/2 entrada sinusoidal ωt Figura 13.7: Caracterı́stica de una saturación. En la figura 13.7 se muestra la caracterı́stica de una saturación. Para valores de x < a el elementos no lineal transmite la señal de forma lineal, con una amplificación. Para valores de x > a la señal de entrada queda truncada por efecto de la no linealidad. En la figura 13.7 se muestra el efecto de la saturación sobre una señal de entrada de amplitud mayor que a, para el caso en que A sea mayor que a. En tal caso se tiene que la señal de salida del elemento no lineal vendrá dada por ( v(t) = siendo γ = sen −1 kA sen (ωt) 0 ≤ ωt ≤ γ ka γ ≤ ωt ≤ π/2 (a/A) a1 = 0 obsérvese que el carácter impar de v(t) implica que a1 = 0 y que la simetrı́a de la señal sobre los cuatro cuadrantes en que se puede considerar Sistemas no lineales 293 dividido un periodo indica que b1 4 Z π/2 = v(t) sen ωtd(ωt) π 0 4Zγ 4 Z π/2 = kA sen 2 ωtd(ωt) + ka sen ωtd(ωt) π 0 π γ  (13.17)  s a a2 2kA  γ+ 1 − 2 = π A A por consiguiente, la función descriptiva resulta ser  s  b1 2k  a a2 N (A) = = γ+ 1 − 2 A π A A (13.18) En la figura 13.8 se representa la función descriptiva de una saturación. 1.2 Rango lineal 1.0 N(A)/k 0.8 0.6 0.4 0.2 0.0 0 1 5 10 A/a Figura 13.8: Función descriptiva de una saturación. 13.2.2 Relé La caracterı́stica no lineal de un relé se muestra en la figura 13.9. Si se compara con la caracterı́stica de una saturación, que se vio en la figura 13.7 se tiene que la no linealidad de un relé corresponde a un caso lı́mite de una saturación definido por a → 0, k → ∞ Sistemas no lineales 294 2.0 v a infinito encendido 1.6 0 x -M N(A)/M M 1.2 0.8 0.4 a cero apagado 0.0 0 5 10 A Figura 13.9: Caracterı́stica de un relé siendo ka = M . Por tanto, b1 puede obtener de la expresión (13.18) calculando el lı́mite. Sin embargo se obtiene más fácilmente calculándolo directamente de acuerdo con 4 Z π/2 4M b1 = (13.19) M sen ωtd(ωt) = π 0 π por lo que la función descriptiva de un relé viene dada por N (A) = 4M πA (13.20) En la figura 13.9 se representa la función descriptiva de un relé. Puede compararse esa función descriptiva con la de la saturación que se vio en la figura 13.8. 13.2.3 Holgura En la figura 13.10 se muestra la caracterı́stica de una holgura, que se presenta a menudo en los sistemas de transmisión mecánica mediante engranajes. Como consecuencia de la holgura, cuando el engranaje primario gira un ángulo menor que b, el secundario no se mueve, como corresponde a la zona muerta (segmento OA en la figura 13.10); después de establecido el contacto en engranaje secundario sigue la rotación del primario de manera lineal (segmento AB). Si se invierte el sentido de giro del engranaje primario entonces durante un ángulo 2b el secundario no se mueve, de acuerdo con el segmento BC de la figura 13.10. Cuando se restablece el contacto entre los dos engranajes el secundario sigue al primario en la dirección opuesta (segmento CD). Por consiguiente, si el engranaje primario Sistemas no lineales 295 Engranaje secundario ángulo salida Engranaje primario C B b -b A 0 D b ángulo entrada E Figura 13.10: Caracterı́stica de una holgura. está sometido a un movimiento periódico el secundario recorrerá el camino cerrado EBCD, de la figura 13.10. Conviene observar que los puntos B, C, D y E de la figura dependen de la amplitud de la seńal sinusoidal de entrada. La holgura suministra un ejemplo de no linealidad con memoria, en la que el valor de la salida en un instante de tiempo determinado, no depende exclusivamente del valor de la entrada en ese instante, sino de la historia previa de las señales de entrada que afectan al sistema. El cálculo de la función descriptiva resulta en este caso más complejo que en el de la no linealidades sin memoria. En la figura 13.11 se muestra como se genera la señal de salida para una señal sinusoidal de entrada. La señal de salida v(t), en un periodo, se determina dividiendo este periodo en las cuatro partes correspondientes a los cuatro tramos que aparecen en el romboide de la caracterı́stica. Se tiene π v(t) = (A − b)k ≤ ωt ≤ π − γ 2 v(t) = A( sen ωt + b)k π − γ ≤ ωt ≤ 3π 2 3π v(t) = −(A − b)k ≤ ωt ≤ 2π − γ 2 v(t) = A( sen ωt − b)k 2π − γ ≤ ωt ≤ 5π 2 donde γ = sen −1 (1 − 2b/A). En este caso la caracterı́stica no es uniforme y la componente fundamental de la señal de salida presenta variación de amplitud y de fase. Se tiene Ã ! 4kb b −1 a1 = π A  b1 = Ak  π  − sen π 2 Ã −1 ! Ã v !u u t 2b 2b −1 − −1 A A 1− Ã !2 2b −1 A    Sistemas no lineales 296 v k(A − b) v(t) 3π/2 -b b π/2 x ωt −k(A − b) -A A x(t) π/2 π−γ entrada sinusoidal 3π/2 2π − γ ωt Figura 13.11: Generación de la seńal de salida para una señal sinusoidal de entrada en una holgura. Sistemas no lineales 297 es decir, la función descriptiva de una holgura viene dada por 1q 2 | N (A) |= a + b21 A 1 µ ¶ a1 b1 En las figuras 13.12 y 13.13 se representan la amplitud y desfase, respectivamente, de la función descriptiva de una holgura. Obsérvese que en este caso la función 6 N (A) = tan−1 1.0 Amplitud 0.8 0.6 0.4 0.2 0.0 0.0 0.2 0.4 0.6 0.8 1.0 b/A Figura 13.12: Amplitud de la función descriptiva de una holgura. descriptiva depende exclusivamente de la amplitud de la seńal de entrada, como sucedı́a en las no linealidades sin memoria (como la saturación y el relé) que se han visto anteriormente. Sin embargo, en este caso la función descriptiva tiene módulo y argumento (amplitud y desfase), mientras que en los casos de no linealidades sin memoria la función descriptiva posee únicamente amplitud, y no desfase. 13.2.4 Determinación experimental de la función descriptiva En lo ejemplos que se acaban de ver, se ha determinado la función descriptiva mediante la aplicación de métodos matemáticos. Ello es posible cuando la formulación matemática del problema es aceptablemente sencilla. Cuando no es ası́, se procede de manera experimental con ayuda de un analizador armónico. Se excita Sistemas no lineales 298 Desfase 0 -30 -60 -90 0.0 0.2 0.4 0.6 0.8 1.0 b/A Figura 13.13: Desfase de la función descriptiva de una holgura. el sistema no lineal cuya descripción descriptiva se quiere determinar, con señales sinusoidales, y la salida se analiza mediante el analizador armónico, de modo que se discrimine el primer armónico. Comparando las amplitudes y fases de la señal de entrada y del primer armónico se puede determinar experimentalmente la función descriptiva. Conviene observar que, en este caso, y al contrario de lo que sucede con los sistemas lineales, el análisis debe realizarse para señales de entrada de diferente amplitud; es decir, el ensayo debe realizarse variando tanto la amplitud como la frecuencia de la señal de entrada. De este modo se determinan los datos que permiten establecer la función N (A, ω). Estos datos se procesaran normalmente mediante tablas, y no mediante expresiones analı́ticas. 13.3 Análisis de sistemas no lineales mediante la función descriptiva En las secciones anteriores hemos visto como se determina la función descriptiva de un elemento no lineal. Además en la sección 13.1.1 se presentó un ejemplo introductorio que permitı́a analizar la existencia de ciclos lı́mites en un sistema no lineal mediante la función descriptiva. En esta sección vamos a generalizar el método allı́ presentado. Para ello, en primer lugar, conviene recordar el criterio de Nyquist. Sistemas no lineales 299 + G(s) - H(s) Figura 13.14: Sistema lineal realimentado. +∞ G(s)H(s) plano s -1 −∞ ω → +∞ Figura 13.15: Criterio de Nyquist. 13.3.1 Una ampliación del criterio de Nyquist Sea el sistema lineal de la figura 13.14, cuya ecuación caracterı́stica resulta ser 1 + G(s)H(s) = 0 (13.21) como se recordará el criterio de Nyquist permite conocer el número de raices de la ecuación caracterı́stica con parte real negativa. Para ello basta dibujar la aplicación C del contorno de Nyquist en un plano complejo apropiado, determinar el número N de veces que este contorno C rodea al punto (-1,0) y aplicar la conocida expresión Z =N +P en donde P es el número de polos inestables de la función de transferencia en bucle abierto GH. Entonces Z es el número de polos inestables del sistema en bucle cerrado (con sólo que haya uno, el sistema es inestable). Sistemas no lineales 300 Im 0 + k G(s) - G(s)H(s) -1 Re H(s) −1/k Figura 13.16: Ampliación del criterio de Nyquist. Función descriptiva r(t) = 0 + x(t) N (A, ω) Elemento lineal v(t) G(jω) y(t) - Figura 13.17: Sistema no lineal. El criterio de Nyquist se amplia formalmente para el caso en el que una constante k, que consideraremos que puede ser un número complejo, se incluye en la cadena directa de la figura 13.16. En tal caso la ecuación caracterı́stica resulta ser 1 + kG(s)H(s) = 0 (13.22) y por tanto, 1 (13.23) k Es fácil ver que en este caso el criterio de Nyquist se aplica igual que en el caso anterior (de la figura 13.15) con la diferencia de que ahora N representa el número de veces que el contorno de Nyquist de GH rodea al punto −1/k, lo que se ilustra en la figura 13.16. G(s)H(s) = − 13.3.2 Oscilaciones de un servomecanismo no lineal Considérese el sistema no lineal de la figura 13.17. Diremos que este sistema presenta una oscilación automantenida si para r = 0 el sistema presenta un Sistemas no lineales 301 comportamiento oscilatorio. Supongamos que esta oscilación viene dada por la expresión x(t) = A cos ωt (13.24) El componente fundamental de la señal de salida del elemento no lineal v(t) resulta ser v(t) =| N (A, ω) | A cos (ωt + φ(A, ω)) (13.25) Es sabido que (13.24) y (13.25) pueden escribirse de la forma x(t) = <{Aejωt } v(t) = <{| N (A, ω) | Aej(ωt+φ(A,ω)) } Empleando esta última forma de representar un comportamiento oscilatorio, se tiene que la salida del elemento lineal vendrá dada por y(t) = <{| N (A, ω) | A | G(jω) | ej(ωt+φ+α) } siendo α = 6 G(jω). Para que la oscilación sea automantenida, en ausencia de señal de excitación r, se requiere que: −Aejωt =| N (A, ω) | A | G(jω) | ej(ωt+φ+α) Es decir, ³ ´ Aejωt | N (A, ω) || G(jω) | ej(φ+α) + 1 = 0 La anterior expresión se debe satisfacer para todo t, por lo que se tendrá | N (A, ω) || G(jω) | ej(φ+α) + 1 = 0 es decir, N (A, ω)G(jω) + 1 = 0 y por tanto, G(jω) = − 1 N (A, ω) (13.26) (13.27) y cualquier par de valores de A y ω que satisfaga la anterior ecuación puede dar lugar a un ciclo lı́mite. De aquellos valores que satisfagan esta ecuación, solo dará lugar a un ciclo lı́mite aquellos para los que la oscilación periódica sea estable. Sistemas no lineales 302 G(jω) Im ω L Re A −1/N (A) Figura 13.18: Determinación de un ciclo lı́mite. 13.3.3 Función descriptiva independiente de la frecuencia Considérese el caso en el que la función descriptiva N es únicamente función de la amplitud A. Este caso incluye todas las no linealidades cuya caracterı́stica es uniforme y algunas no linealidades biformes interesantes como la holgura. En este caso la expresión (13.27) se convierte en G(jω) = − 1 N (A) (13.28) En la figura 13.18 se han representado la función de transferencia de la parte lineal G(jω) (parametrizado en ω) y la curva correspondiente a la inversa de la función descriptiva, con el signo cambiado, (parametrizada en A) en el plano complejo. Si estas dos curvas se cortan, entonces los valores de A y de ω correspondientes al punto de intersección son soluciones de la ecuación 13.28, y en consecuencia, pueden existir ciclos lı́mites. Por ejemplo, en la figura 13.18 las dos curvas se cortan en el punto L. Conviene recordar que para no-linealidades uniformes N es siempre real y por consiguiente el trazado de (13.28) siempre está situado sobre el eje real. 13.3.4 Función descriptiva dependiente de la frecuencia En el caso general la función descriptiva depende tanto de la amplitud de la señal de entrada como de su frecuencia y, en consecuencia el método que se acaba de ver en el apartado anterior, adquiere mayor complejidad. En tal caso la expresión en el segundo miembro de (13.27) da lugar a una familia de curvas en el plano Sistemas no lineales 303 −1/N (A, ω) Im G(jω) ω4 A ω3 ω2 Re ω1 ω Figura 13.19: Determinación de ciclos lı́mite con funciones descriptivas dependientes de la frecuencia. A1 A2 A3 A4 -1 ω G(jω)N (A, ω) Figura 13.20: Resolución gráfica de la ecuación N (A, ω)G(jω) + 1 = 0. complejo con A como parámetro y ω permaneciendo constante en cada curva, como se muestra en la figura 13.19. De todas las intersecciones entre la familia de curvas 1/N (A, ω) y la curva G(jω) solamente aquellos puntos de intersección en los que coincidan los valores de ω constituyen soluciones de la ecuación (13.27), y son, por tanto, candidatos a ciclos lı́mites. Existe otro procedimiento gráfico para resolver la expresión (13.27). Consiste en considerar la representaciones gráficas de G(jω)N (A, ω). Dando a A un valor constante y variando ω de 0 a infinito, se obtiene una curva que representa a G(jω)N (A, ω). Procediendo con diferentes valores de A se obtiene una familia de curvas, como la que se muestra en la figura 13.20. La curva de esta familia que pase por el punto (-1,0) en el plano complejo suministra una solución de la expresión (13.27) . Sistemas no lineales 304 Im G(jω) ω L2 L”1 −1/N (A, ω) Re L01 L1 Figura 13.21: Estabilidad de ciclos lı́mite. 13.3.5 Estabilidad de los ciclos lı́mite Con los ciclos lı́mites sucede lo mismo que con los equilibrios: que pueden ser estables o inestables. Las soluciones de la ecuación (13.27) deben someterse a un análisis de estabilidad, para determinar cuales de ellas son estables y cuales no. El criterio de Nyquist ampliado que hemos visto en la sección 13.3.1, permite analizar esa estabilidad. Considérese la figura 13.21 en la que se muestran las intersecciones entre la función de transferencia de la parte lineal y la inversa de la función descriptiva de la parte no lineal. Estas dos curvas presentan dos puntos de intersección, L1 y L2 , por lo que el sistema presenta dos ciclos lı́mites. Obsérvese que el valor de A correspondiente al punto L1 es menor que el de A correspondiente a L2 . Supóngase que la función de transferencia de la parte lineal G(jω) no posee polos inestables. Vamos a analizar primero la estabilidad del ciclo lı́mite correspondiente al punto L1 . Considérese que el sistema se encuentra inicialmente operando en el punto L1 , con un ciclo lı́mite de amplitud A1 y cuya frecuencia en ω1 . Debido a una pequeña perturbación, la amplitud de la señal de entrada al sistema no lineal se incrementa ligeramente, y el punto de operación del sistema se mueve de L1 a L01 . Puesto que el nuevo punto L01 se encuentra a la derecha de la curva G(jω), de acuerdo con el criterio de Nyquist ampliado que se ha visto en la sección 13.3.1, el sistema es inestable, en este punto de operación, y las amplitudes del sistema tienden a crecer. Por consiguiente, el punto de operación seguirá creciendo a lo largo de curva −1/N (A, ω) hasta el punto L2 . Por otra parte, si el sistema se perturba de modo que la amplitud A decrece, entonces el punto de operación se moverá al punto L001 . En este caso el punto L001 queda a la izquierda de G(jω) y Sistemas no lineales 305 el criterio de Nyquist ampliado garantiza la estabilidad del sistema, por lo que las amplitudes tenderán a decrecer y el punto de operación se alejara cada vez más del punto de equilibrio L1 . De todo lo anterior se desprende que una ligera perturbación destruye la oscilación en el punto L1 y que, por consiguiente, que este ciclo lı́mite es inestable. Un análisis similar puede desarrollarse para el punto L2 con la conclusión de que ciclo lı́mite en ese caso es estable. El anterior razonamiento no es del todo convincente, y debe considerarse como una forma intuitiva de presentar un resultado que, por otra parte es correcto, como se verá a continuación. Una forma máás rigurosa de abordar el estudio de la estabilidad de las oscilaciones es el siguiente. Sea x = Aejωt el primer armónico de la oscilación automantenida que se perturba ligeramente hasta que su amplitud toma el valor A + ∆A y su frecuencia ω + ∆ω. Después de la perturbación, x(t) ya no es una función periódica, sino que posee un pequeño amortiguamiento δ, positivo o negativo. Es decir, después de la perturbación la señal se convierte en: x(t) = (A + ∆A)e−δt ej(ω+∆ω)t (A + ∆A)ej(ω+∆ω+jδ)t (13.29) Por otra parte, la expresión (13.26) se puede escribir X(A, ω) + jY (A, ω) = 0 (13.30) agrupando los términos correspondientes a sus partes real e imaginaria. Por otra parte, la soluciónó(13.29) debe satisfacer también la anterior ecuación dando lugar a: X(A + ∆A, ω + ∆ω + jδ) + jY (A + ∆A, ω + ∆ω + jδ) = 0 (13.31) Desarrollando en serie de Taylor esta expresión, y tomando úúnicamente los términos de primer orden en ∆A, ∆ω y δ, se tiene: ∂X ∆ω + ∂ω ∂Y ∆ω + ∂ω ∂X ∂Y ∆A − δ = 0 ∂A ∂ω ∂Y ∂X ∆A + δ = 0 ∂A ∂ω Eliminando ∆ω: Ã ∂X  ∂ω !2 Ã ∂Y + ∂ω !2  Ã ! ∂Y ∂X ∂Y ∂X δ = − ∆A ∂A ∂ω ∂A ∂ω Sistemas no lineales 306 Para que la oscilación sea estable es necesario que δ y ∆A sean del mismo signo, lo que exige que: Ã ∂X ∂Y ∂Y ∂X − ∂A ∂ω ∂A ∂ω ! >0 (13.32) En el caso de una no linealidad uniforme se tiene, N (A, )G(jω) + 1 = 0 Haciendo G(jω) = U (ω) + jV (ω) 1 C(A) = − = P (A) + jQ(A) N (A) se tiene X(A, ω) = U (ω) − P (A) Y (A, ω) = V (ω) − Q(A) Por lo que la expresión (13.32) se escribe en este caso Ã ∂Q ∂U ∂P ∂V − ∂A ∂ω ∂A ∂ω ! >0 El primer miembro de esta desigualdad es un producto vectorial lo que puede escribirse dG(jω) dC(A) × >0 dω dA Este producto vectorial permite la interpretación geométrica que se muestra en la figura 13.21. De acuerdo con ella, un ciclo limite será estable si recorriendo G(jω) en el sentido de las ω crecientes, en el punto de corte con C(A), se deja a la izquierda el sentido de las A crecientes, en la curva de C(A) = −1/N (A). figura: Criterio de estabilidad de ciclos lı́limite. De este modo se ha demostrado con rigor el resultado que previamente se habı́a obtenido por consideraciones un tanto laxas con respecto al criterio de Nyquist. Sistemas no lineales 307 r=0 + G(s) - Figura 13.22: Sistema con un relé y realimentación. Ejemplo Sea el sistema realimentado de la figura 13.22, que incluye un relé en la cadena directa. Supongamos, en primer lugar, que la función de transferencia de la parte lineal es: K G1 (s) = s(s + 2) Se trata de estudiar las posibles oscilaciones del sistema y su estabilidad. Recordando la expresión (13.20) se tiene que la función descriptiva de un relé viene dada por 4M N (A) = πA En este caso se supone que M = 1. Según lo que se ha visto, el sistema será oscilatorio si existe una solución a la ecuación 1 G1 (ω) = − N (A) Esta ecuación, en este caso, conduce a K πA =− jω(jω + 2) 4 Es decir 4K = −πAjω(jω + 2) Igualando sus partes reales e imaginarias se tiene: 4K = πAω 2 −2πAjω = 0 Sistemas no lineales 308 De donde se desprende que ω = 0, y por lo tanto el sistema no oscilará, pues no existe ninguna frecuencia para la que se tenga una solución oscilatoria. A la misma conclusión se llega empleando métodos gráficos, y comprobando que la representación gráfica de la función de transferencia de la parte lineal y de la función descriptiva sólo se cortan en el origen. Supongamos ahora que la ecuación de la parte lineal es G2 (s) = K s(s + 2)(s + 5) En ese caso la ecuación de oscilación se convierte en K πA =− jω(jω + 2)(jω + 5) 4 es decir 4K = −πAjω(jω + 2)(jω + 5) = 7Aω 2 + Aj(ω 3 − 10ω) Con lo que igualando partes reales e imaginarias se tiene 4K = 7πAω 2 ω 3 − 10ω = 0 Por lo tanto, en este caso el sistema oscila con una frecuencia ω = amplitud A = 2K/35π. √ 10 y una Para estudiar la estabilidad del oscilador se recurre al diagrama de Nyquist que se muestra en la figura 13.23. El punto de oscilación corresponde al punto P de esta figura. Para estudiar la estabilidad del ciclo lı́mite, supongamos, en primer lugar, una perturbación que haga que la entrada al elemento no lineal se incremente a un nuevo valor, de modo que el punto de operación se desplace a P 0 . Puesto que P 0 se encuentra en la región de operación estable, la amplitud de la entrada al elemento no lineal tiende a decrecer y por tanto el punto de operación se mueve de nuevo a P . De forma análoga, si la perturbación hace decrecer la amplitud de la entrada al sistema no lineal entonces se produce un desplazamiento del punto de operación a P 00 , que se encuentra situado en la región de operación inestable. La amplitud de la entrada, en este caso, se incrementa de modo que el punto de operación vuelve de nuevo a P . Por consiguiente el sistema tiene un ciclo lı́mite estable en P . Sistemas no lineales 309 Im G2 (jω) A P0 P P” Re Figura 13.23: Estudio de la estabilidad de un sistema no lineal con un relé. 13.3.6 Fiabilidad del análisis mediante funciones descriptivas Cuando se emplea el método de la función descriptiva conviene no olvidar nunca el carácter aproximado de esa función, lo que conduce a resultados que tienen también una naturaleza aproximada. Este carácter aproximado afecta no sólo a los valores numéricos de las amplitudes y frecuencias de las oscilaciones de los ciclos lı́mites, sino también a la propia existencia de estos. Conviene recordar una de las hipótesis sobre las que está basado el método: el carácter de filtro paso bajo del sistema lineal. Además, la propia expresión (13.27) puede ser sensible a las aproximaciones que comporta el método. Con carácter general se puede decir que las conclusiones del método serán tanto más sólidas cuanto más neta sea la intersección de las curvas que representan la parte lineal y la inversa de la parte no lineal en la resolución gráfica del método. En la figura 13.24 se muestran dos situaciones extremas posibles. En la figura 13.24a se presenta un caso en el que el sistema muestra una gran sensibilidad, lo que hace temer que las conclusiones del método se puedan ver fuertemente afectadas. Por otra parte, la figura 13.24b muestra un caso en el que las conclusiones son altamente fiables. Cabe decir, que cuanto más perpendicular es la intersección entre las curvas G(jω) y −1/N (A, ω), más fiables son los resultados del método. Sistemas no lineales 310 a) Figura 13.24: b) Sistemas no lineales 311 13.4 Criterios de estabilidad relativos a la descripción interna 13.4.1 Teorı́a de Lyapunov El estudio de la estabilidad de los sistemas en torno a los puntos de equilibrio se puede hacer con gran sencillez y elegancia con ayuda de la teorı́a de Lyapunov. La utilidad del método de Lyapunov reside en el hecho de que su teorı́a establece una condición suficiente para la estabilidad de un sistema dinámico. El establecimiento de esta suficiencia consiste en la determinación de una función de energı́a, llamada función de Lyapunov, la cual puede determinarse sin el conocimiento explı́cito de la solución de la ecuación diferencial del sistema. 13.4.2 Un ejemplo introductorio Sea el sistema de la figura 13.25, constituido por una masa (m = 1), que se desplaza sobre una lı́nea recta, y que está unida a una pared por medio de un resorte y de un amortiguamiento. Se supone que el resorte y el amortiguamiento son no lineales. El resorte ejerce una fuerza k(x) que depende del desplazamiento x de la masa de la posición de equilibrio. La forma de k(x) se representa en la figura 13.26. El amortiguador ejerce una fuerza proporcional al valor instantáneo de la velocidad dx/dt de la masa, de manera que el factor de proporcionalidad esté dado por h(x). El balance de fuerzas sobre el sistema conduce a la siguiente ecuación. d2 x dx + h(x) + k(x) = 0 (13.33) 2 dt dt Esta ecuación puede escribirse, empleando las variables de estado x1 = x y x2 = dx/dt, como sigue, ẋ1 = x2 ẋ2 = −k(x1 ) − x2 h(x1 ) (13.34) La energı́a total del sistema V está formada por la energı́a cinética de la masa en movimiento y la energı́a potencial almacenada en el resorte, y viene dada por, V (x1 , x2 ) = x22 Z x1 + k(x1 )dx 2 0 (13.35) Sistemas no lineales 312 x k(x) h(x) Figura 13.25: Sistema formado por una masa unida a un soporte De la observación de la anterior expresión se desprende que V satisface las dos condiciones matemáticas siguientes: V (x) > 0 para x 6= 0 V (0) = 0 (13.36) lo que, dicho en palabras, significa que la energı́a del sistema es siempre positiva excepto cuando el sistema está en reposo. Interesa ahora averiguar cómo evoluciona la energı́a del sistema con el tiempo. Para ello se determina la derivada total de V con respecto al tiempo que resulta ser, dV ∂V dx1 ∂V dx2 = + (13.37) dt ∂x1 dt ∂x2 dt de donde se obtiene, teniendo presente 13.34 y 13.35, dV = k(x1 )x2 + x2 [−k(x1 ) − x2 h(x1 )] = −x22 h(x1 ) dt (13.38) Se supondrá que h(x) > 0 para todo x. Fı́sicamente, ello representa un amortiguamiento positivo, es decir, que la fuerza que ejerce el amortiguador se opone siempre al movimiento. En consecuencia, dV /dt es negativa, excepto en los puntos en donde la velocidad sea nula en los cuales dV /dt es, a su vez, nula. En consecuencia, la energı́a del sistema no puede aumentar ni puede permanecer constante excepto en el estado de equilibrio; por consiguiente, la energı́a debe siempre decrecer hasta alcanzar el estado de equilibrio, en donde permanece constantemente igual a cero. Obsérvese que lo que sucede es que el sistema pierde progresivamente su energı́a, suma de la cinemática y la potencial, en un proceso disipativo debido al amortiguamiento Sistemas no lineales 313 k(x) x Figura 13.26: Fuerza estática que ejerce el soporte V3 V2 V1 V3 > V 2 > V 1 Figura 13.27: Las trayectorias cortan transversalmente las curvas equipotenciales Sistemas no lineales 314 representado por h(x). Si no existiese este amortiguamiento, y fuese h = 0, entonces en la expresión (13.38) se tendrá dV /dt = 0. Para el caso de que el resorte y el amortiguador sean lineales, se tendrá que k(x) = kx y h(x) = h, en donde k y h son constantes. En tal caso 13.35 se convierte en, kx21 + hx22 V (x1 , x2 ) = (13.39) 2 La evolución del sistema puede, en este caso, ser objeto de una interpretación geométrica. La evolución de las variables de estado x1 y x2 pueden interpretarse gráficamente en un plano llamado el plano de estado. En este plano las superficies V = const, dan lugar a elipses, tal como se indica en la figura 13.27. La evolución del sistema, es decir, una solución de la ecuación 13.33, se representa en el plano de estado por medio de una trayectoria, tal como la que se indica en la figura 13.27. Puesto que la energı́a debe siempre decrecer, la trayectoria debe atravesar las elipses desde el exterior hacia el interior. De este modo, la trayectoria se aproxima progresivamente al origen, que es el estado de equilibrio. Debe notarse que las conclusiones relativas a la estabilidad del sistema, aún en el caso de que el resorte y el amortiguador sean no lineales, se obtienen sin necesidad de resolver la ecuación diferencial 13.33. Es decir, de la observación de la expresión 13.38 se concluye que siempre que el amortiguamiento sea positivo, el sistema evolucionará hacia una posición de equilibrio. Este ejemplo muestra la esencia del método de Lyapunov, el cual consiste en la determinación de una función, que juega el mismo papel que la función V (t) en este ejemplo, y en el estudio de la evolución con el tiempo de la misma. En las secciones siguientes se estudia con detenimiento este método. 13.4.3 Noción de estabilidad en el sentido de Lyapunov Antes de proceder al estudio de la estabilidad de un sistema representado por su descripción interna, conviene introducir las siguientes definiciones: 1. Estado de equilibrio Un estado xe de un sistema dinámico se dice que es un estado de equilibrio si, xe = φ(t, t0 , xe , 0) (13.40) Sistemas no lineales 315 para algún t0 y para todo t > t0 . La anterior definición indica que si el sistema se encuentra en el estado de equilibrio y no se le aplica ninguna señal de entrada, permanece indefinidamente en dicho estado. Formalmente, un estado de equilibrio es una solución del sistema de ecuaciones, xe = φ(t, t0 )xe (13.41) Es claro que el estado 0 es un estado de equilibrio de un sistema dinámico. 2. Estabilidad en el sentido de Lyapunov Un estado de equilibrio xe se dice estable en el sentido de Lyapunov si, y sólo si, para todo número positivo ε existe un número positivo δ(ε) tal que, (k x0 − xe k≤ δ) ⇒ (φ(t, t0 , x0 , 0) k≤ ε) para un cierto valor de t0 y para todo t > t0 . De una manera intuitiva se puede decir que un estado de equilibrio xe es estable en el sentido de Lyapunov si la trayectoria del estado a partir de un estado suficientemente cercano a xe no se separa significativamente del estado de equilibrio. En la 13.28 se ilustra el concepto de estabilidad en el sentido de Lyapunov. 3. Estabilidad asintótica en el sentido de Lyapunov Un estado de equilibrio xe se dice que es asintóticamente estable, si es estable en el sentido de Lyapunov, y además todas las trayectorias del estado que se inicien suficientemente cerca de xe convergen a xe cuando t → ∞. Formalmente se puede interpretar este resultado como sigue. Para todo número real µ > 0, existe una constante real δ > 0 tales que les corresponde un número real T (µ, δ) > 0 tal que, [k x0 − xe k≤ δ] ⇒ [k φ(t, t0 , x0 , 0) − xe k≤ µ] (13.42) para todo t > t0 + T. 13.4.4 Teorema de Lyapunov Antes de proceder a enunciar el teorema de Lyapunov conviene introducir el concepto de función definida positiva. Sistemas no lineales 316 V (x) = k δ x0 ε Figura 13.28: Estabilidad en el sentido de Liapunov Una función escalar V (x), de n variables, se dice que es definida positiva en una región R alrededor del origen si, 1. V (x) es continuamente diferenciable en IR. 2. V (0) = 0. 3. V (x) > 0 para todo x 6= 0 perteneciente a IR. Si la condición (3) de la definición anterior se cambia a V (x) ≥ 0 para todo x perteneciente a R, entonces se dice de V (x) que es positiva semidefinida. Si V (x) < 0, entonces V (x) es definida negativa; y, por último, si V (x) ≤ 0 entonces V (x) se dice semidefinida negativa. Con la ayuda de estos conceptos se puede proceder a enunciar el siguiente teorema, debido a Lyapunov. Teorema El estado de equilibrio xe = 0 de un sistema autónomo es estable si existe una función definida positiva V (x), tal que su derivada total con relación al tiempo dV (x)/dt a lo largo de toda trayectoria del sistema, es semidefinida negativa. Sistemas no lineales 317 Demostración Una función V (x) tal que satisfaga las condiciones del teorema anterior, recibe la denominación de función de Lyapunov. La existencia de una función de Lyapunov garantiza la estabilidad de un sistema. En efecto, considérese el espacio bidimensional que se muestra en la figura 13.28. Considérese además, sin pérdida de generalidad, que el origen es un estado de equilibrio, cuya estabilidad se quiere analizar. Para que el sistema sea estable, debe demostrarse que dado un cierto ε > 0, entonces existe δ > 0 tal que (k x0 k< δ) ⇒ (k φ(t, t0 , x0 , 0) k< ε) (13.43) para todo t > t0 . Sea ε tal como se muestra en la figura 13.28. Puesto que existe una función de Lyapunov V (x), esta función será tal que V (x) > 0 para todo x 6= 0. Considérese el contorno de V (x) = k, para todo x ≤ ε. Se elige un valor de δ tal que sea la menor distancia entre el estado de equilibrio y la curva V (x) = k. Considérese cualquier x0 situado en el interior del circulo definido por el radio δ. Se tendrá que V (x0 ) < k. El anterior teorema puede modificarse para el caso de la estabilidad asintótica, sencillamente cambiando la condición de que V̇ (x) sea semidefinida negativa, por la de que sea definida negativa. La demostración del teorema, con esta modificación, es muy simple. Ejemplo Considérese el sistema no-lineal descrito por , ẋ1 = x2 − x1 (x21 + x22 ) ẋ2 = −x1 − x2 (x21 + x22 ) Si se adopta V (x) = x21 + x22 Se tendrá V̇ (x) = −2(x21 + x22 )2 La cual es negativa excepto para x1 = x2 = 0. Es decir, V̇ es decreciente a lo largo de cualquier solución y, por lo tanto, V es una función de Lyapunov. Se concluye que el sistema es asintóticamente estable. Sistemas no lineales 13.4.5 318 Aplicación del método de Lyapunov a sistemas lineales Supóngase un sistema caracterizado por la terna (A, b, c). Se trata de establecer criterios que permitan discernir si un sistema será estable o no a partir del conocimiento de las matrices que constituyen la anterior terna. Para un sistema lineal, la transición entre estados puede descomponerse en una transición con entrada nula, y una transición a partir del estado nulo, de acuerdo con la siguiente expresión: x(t) = φ(t1 , t0 , x0 , u) = φ(t1 , t0 , x0 , 0) + φ(t1 , t0 , 0, u) (13.44) Ello es una consecuencia inmediata de la propiedad de superposición. Para el estudio de la estabilidad tiene un gran interés la anterior descomposición. De hecho, se procede a estudiar por separado la estabilidad de cada uno de los términos de la expresión 13.44. Combinando los resultados de estabilidad de cada una de las partes, se obtiene la estabilidad del sistema. Sea xe un estado de equilibrio. Se puede escribir, x(t) − xe = φ(t) (x0 − xe ) = eAt (x0 − xe ) (13.45) y definiendo δx = x − xe se tiene que: δx(t) = eAt δx(0) (13.46) La estabilidad en el sentido de Lyapunov tal como se ha definido anteriormente, exige que |δx(t)| < k, para todo t. De la observación de la expresión 13.46, se tiene que el que |δx(t)| < k es equivalente a que k eAt k< k, en donde k eAt k representa la norma de la matriz eAt . Por otra parte se sabe que A se puede escribir, A = P A P −1 (13.47) en donde P es una matriz no singular y A es la forma de Jordan de la matriz A. Es sabido que, (13.48) eAt = P eAt P −1 Sistemas no lineales 319 luego, de las propiedades de la norma de una matriz, se tiene que, k eAt k=k P k · k eAt k · k P −1 k (13.49) De la expresión (13.49) se desprende el hecho de que k eAt k esté, a su vez, acotada. Por lo tanto el estudio de las condiciones que debe cumplir k eAt k para que esté acotada, se puede reducir al de k eAt k. Ahora bien eAt está acotada si y sólo si lo están todos los elementos de esa matriz. Estos elementos son de la forma tk eλi t en donde λi = αi + jwi es un autovalor de A. Si αi es negativo, es inmediato que tk eλi t está acotado solo si k = 0, es decir, el autovalor imaginario puro es un cero simple del polinomio mı́nimo de A. Teorema El estado de reposo de ẋ = Ax, considerado como estado equilibrio, es asintóticamente estable si y sólo si todos los autovalores de A tienen la parte real negativa. Demostración Siguiendo la misma lı́nea de la demostración del teorema anterior, se tiene que el estado de reposo será asintóticamente estable, si además de k eAt k ser acotada, se exige que eAt tienda a cero cuando t → ∞. Razonando como se hizo en la demostración del anterior teorema se tiene que ello sólo será posible si todos los autovalores de A tienen la parte real negativa. Para estudiar la estabilidad de la respuesta del sistema a partir del reposo, debe recordarse que la respuesta de un sistema a partir del reposo viene dada por: y(t) = Z t t0 g(t, τ ) u(τ ) dτ (13.50) Por otra parte, la respuesta de un sistema a una entrada nula, viene dada por la solución del sistema de ecuaciones diferenciales siguiente, ẋ = Ax (13.51) Sistemas no lineales 320 a partir de un estado inicial arbitrario. Esta respuesta viene dada por, x(t) = φ(t, t0 ; x0 , 0) = φ(t, t0 )x0 (13.52) Para estudiar las aplicaciones del método de Lyapunov al estudio de la estabilidad de sistemas lineales, estacionarios, conviene introducir previamente la noción de matriz definida positiva. Una matriz Q se dice definida positiva si la forma cuadrática xT Qx es positiva definida. Se escribe entonces Q > 0. De forma análoga se define una matriz semidefinida positiva, definida negativa y semidefinida negativa (y se escribe Q ≥ 0, Q < 0, y Q ≤ 0, respectivamente). Para determinar si una matriz Q es definida positiva , se aplica el criterio de Sylvester, el cual establece que la matriz Q es definida positiva si se cumple que Ã q11 > 0, det q11 q12 q21 q22  ! > 0,  q11 q12 q13   det  q21 q22 q23  > 0, q31 q32 q33 ··· Considérese un sistema lineal autónomo, ẋ(t) = Ax(t) (13.53) Para estudiar si el origen es un estado de equilibrio asintóticamente estable, se establece el siguiente teorema. Teorema Si el sistema (13.53) es asintóticamente estable, entonces para toda matriz definida positiva P la ecuación AT Q + QA = −P (13.54) tiene una solución (única) Q definida positiva. Inversamente, si para una matriz P arbitraria definida positiva, la ecuación (13.54) tiene una solución Q definida positiva, entonces el sistema (13.53) es asintóticamente estable. Sistemas no lineales 321 Demostración 1. Necesidad Supóngase que 13.53 es asintóticamente estable. Entonces para cualquier P > 0 se define Q como, Q= Z ∞ 0 eAτ P eAτ dτ que está completamente definida si A es asintóticamente estable. En tal caso T A Q + QA = = Z ∞³ Z0∞ 0 T T ´ AT eA τ P eAτ + eA τ P eAτ A dτ ³ T ´ d eA τ P eAτ = −P Es decir, si el sistema es asintóticamente estable para cualquier P > 0 existe Q tal que satisface (13.54). 2. Suficiencia Supóngase que para un cierto P > 0, la expresión (13.54) tiene una solución Q > 0. Entonces se define la función de Lyapunov V (x) = xT Qx cuya derivada total es dV (x) = ẋT Qx + xT Qẋ dt = xT AT Qx + xT QAx = −xT P x < 0 es decir, el sistema es asintóticamente estable. Puesto que la matriz P es arbitraria aunque simétrica, en las aplicaciones prácticas se hace P = I. Ejemplo Sistemas no lineales 322 Supongamos que el sistema de la expresión (13.33) se adopta en forma lineal y se hace h = 1 y k = 2. Se tiene entonces el sistema lineal siguiente: ẍ + ẋ + 2x = 0 cuya descripción interna, haciendo x = x1 y ẋ = x2 viene dada por: ẋ1 = x2 ẋ2 = −2x1 − x2 El estado de equilibrio es el origen x = 0. Se trata de estudiar la estabilidad de este equilibrio empleando el método que se acaba de estudiar. Haciendo P = I se tiene que la ecuación (13.54) se convierte en, AT Q + QA = −I la cual, particularizando los valores de A, se convierte en: Ã 0 −2 1 −1 !Ã q11 q12 q12 q22 ! Ã + q11 q12 q12 q22 !Ã 0 1 −2 −1 ! Ã = −1 0 0 −1 ! en donde se ha tenido en cuenta que q21 = q12 . La anterior ecuación se puede escribir en forma de un sistema de ecuaciones en q11 , q12 y q22 , las cuales resultan ser las siguientes: −4q12 = −1 q11 − q12 − 2q22 = 0 2q12 − 2q22 = −1 Estas ecuaciones admiten la solución q11 = 7 4 por lo tanto, q12 = Ã Q= 1 4 q22 = 7/4 1/4 1/4 3/4 3 4 ! Esta matriz, aplicando el criterio de Sylvester, resulta ser definida positiva. De ello se concluye que el sistema es asintóticamente estable en torno al origen. La función de Lyapunov correspondiente es 7 1 3 V (x) = x21 + x1 x2 + x22 4 2 4 Sistemas no lineales 323 y V̇ viene dada por, V̇ = −x21 − x22 que es definida negativa, luego el sistema es estable. Obsérvese que si se adoptase la energı́a como función de Lyapunov (recordando la expresión (13.35)) se tendrá V = x21 + x22 y que V̇ = −x22 Lo que se ha querido es mostrar una función de Lyapunov general, que no se corresponda con la energı́a. Por otra parte, este ejemplo sólo pretende ilustrar el método anterior. Estaá claro que la determinaciónóde la estabilidad del equilibrio se hace de forma más sencilla calculando los autovalores del sistema y comprobando que los dos tienen parte real negativa. 13.5 Construcción de funciones de Lyapunov con formas cuadráticas Sea el sistema no lineal, con equilibrio en el origen: ẋ = f (x) f (0) = 0 (13.55) Supóngase que la dependencia funcional de f con relación a las variables x1 , x2 , ...xn , se puede descomponer aditivamente; es decir, fi = n X fij (xj ) (13.56) j=1 Este supuesto puede parecer restrictivo, pero en realidad está implı́cito en el tipo de sistemas considerados hasta ahora, en los que se tenı́an no linealidades dependientes de una única variable conectadas entre sı́ mediante módulos aditivos. En los ejemplos que veremos más abajo, quedará claro este hecho. La expresión (13.56) puede escribirse fi = n X fij (xj ) j=1 xj xj Sistemas no lineales 324 vamos a hacer la hipótesis adicional de que existe el lı́mite fij (xj ) xj →0 xj lim lo cual significa que cada función fij (es decir, cada caracterı́stica no lineal del sistema) tiene en el origen una pendiente no nula. Todas las caracterı́sticas que se han visto hasta ahora cumplen esta propiedad. En consecuencia, la expresión (13.55) puede escribirse ẋ = F (x)x (13.57) siendo Ã F (x) = fij (xj ) xj ! obsérvese que (13.57) recuerda formalmente a un sistema lineal como el de la expresión 17.20, con la diferencia de que aquı́ la matriz A depende del estado x (por eso el sistema es no lineal). Vamos a ver que gracias precisamente a la forma que tiene la expresión (13.57) es posible ampliar el método aplicado a los sistemas lineales, a esta clase de sistemas no lineales. En efecto, considérese una función de Lyapunov de la forma: V (x) = xT Qx QT = Q derivando esta función de Lyapunov con respecto al tiempo, y recordando (13.57), se tiene V̇ (x) = ẋT Qx + xT Qẋ ³ ´ = xT F T (x)Q + QF (x) x De donde se concluye que si Q es definida positiva y si P , definida por ³ ´ P (x) = − F T (x)Q + QF (x) es también definida positiva, entonces se cumplen las condiciones suficientes para garantizar que el sistema (13.55) es asintóticamente estable. Ejemplo Sea el sistema representado en la figura 13.29. Este sistema está formado por una parte lineal y un bloque no lineal, que posee la caracterı́stica h. Se supone que la referencia es u = 0, y que la caracterı́stica es tal que h(0) = 0. Se trata de estudiar su estabilidad. Sistemas no lineales u + 325 + - x2 + 5 x1 y - - z = h(y) Figura 13.29: Para ello, en primer lugar se escribe su descripción interna ẋ1 = −x1 + 5x2 ẋ2 = −h(x1 ) − x2 + u que, a su vez, se puede reescribir de la forma (13.57). Ã ẋ1 ẋ2 !   Ã ! Ã ! −1 5 0   x1 =  h(x1 ) + u  x2 1 −1 − x1 siendo  (13.58)  −1 5   F (x) =  h(x1 )  − −1 x1 Puesto que u = 0 la expresión (13.58) es de la forma (13.57). (13.59) Se adopta la siguiente función de Lyapunov V (x) = ³ x1 x2 ´ Ã q1 0 0 q2 !Ã x1 x2 ! Recordando la expresión (13.5) se tiene   ³ ´ 2q1  P (x) = − F T (x)Q + QF (x) =    q2 h(x1 ) − 5q1 x1 h(x1 ) q2 − 5q1   x1  2q2  La estabilidad del sistema (13.57) estará garantizada siempre que P (x) sea definida positiva. Para ello se requiere que q1 > 0 Sistemas no lineales 326 h(x) Figura 13.30: Ã h(x1 ) 4q1 q2 − q2 − 5q1 x1 !2 >0 La segunda de estas desigualdades requiere un análisis detenido. Supóngase que los parámetros q1 y q2 toman dos valores concretos; por ejemplo, q = 14 y q2 = 1. En este caso la segunda desigualdad se convierte en Ã h(x1 ) 5 1− − x1 4 !2 >0 que conduce a 9 h(x1 ) 1 > > 4 x1 4 Esta desigualdad se puede interpretar gráficamente como se hace en la figura 13.30. De acuerdo con esta figura la caracterı́stica del sistema no lineal H debe estar comprendida entre las rectas de pendientes 9/4 y 1/4. Si la caracterı́stica H cumple esta condición el sistema tiene garantizada su estabilidad. Esta forma de establecer el criterio de estabilidad, mediante la definición de un sector en el que se confina la caracterı́stica no lineal del sistema tiene un gran interés en las aplicaciones y aporta un instrumento para caracterizar la estabilidad de sistemas no lineales de gran interés y posibilidades. Sistemas no lineales 13.5.1 327 Método de Krasovkii El método de Krasovkii permite determinar la función de Lyapunov de un sistema no lineal de la forma ẋ = f (x) f (0) = 0 (13.60) ∂fi tal que ∂x existe en la región de interés. De acuerdo con este método se adopta j como función de Lyapunov V (x) = kẋk2 = f T (x)f (x) ≥ 0 (13.61) En tal caso se tiene Ã V̇ = ∂f ẋ ∂x !T f (x) + f T (x) ∂f ẋ ∂x = f T (x)[F T (x) + F (x)]f (x) = −f T (x)P (x)f (x) siendo F (x) = ∂f ∂x (13.62) y P (x) = −[F T (x) + F (x)] (13.63) Si la matriz P (x) = F T (x) + F (x) es definida positiva entonces se cumplen las condiciones suficientes para que (13.60) sea estable. Para que sea asintóticamente estable se requiere que P (x) sea definida positiva. Obsérvese que si P es definida positiva, entonces V̇ < 0, ya que esto último es cierto para cualquier x y por tanto paraf . Ejemplo Sea el sistema dinámico ẋ1 = −ax1 + x2 ẋ2 = x1 − x2 − x32 tal que a > 1. Su único equilibrio en x = 0. Sistemas no lineales 328 De acuerdo con (13.62) se tiene que Ã F (x) = −a 1 1 −1 − 3x22 ! y recordando (13.63) Ã P (x) = 2a −2 −2 2 + 6x22 ! para que P (x) sea definida positiva se tiene que cumplir a>0 y además 4a + 12ax22 − 4 > 0 Puesto que a > 1 las dos desigualdades se cumplen y el sistema es asintóticamente estable. Ejemplo Sea el sistema dinámico de la figura 13.5.1, en el que se tienen dos señales de entrada u1 y u2 , dos señales de salida y1 y y2 , y dos no linealidades cuyas caracterı́sticas vienen dadas por g1 y g2 . Se trata de estudiar la estabilidad de este sistema. Las ecuaciones del sistema dinámico correspondiente resultan ser ẋ1 = −g1 (x1 ) + g2 (x2 ) + u1 ẋ2 = x1 − ax2 + u2 Se supone que u1 = u2 = 0 con lo que el sistema anterior se convierte en un sistema autónomo. Se supone además que g1 (x1 ) = 0 y g2 (x2 ) = 0. Recordando la expresión (13.62) se tiene  ∂g1  − F (x) =  ∂x1 1  ∂g2  ∂x2  −a Sistemas no lineales 329 u1 = 0 + + y1 x1 - + z1 = g1 (y1 ) z2 = g2 (y2 ) u2 = 0 + x2 + + y2 - a Figura 13.31: Diagrama de bloques de un sistema no lineal. Con lo que, de acuerdo con (13.63)    P (x) =    Ã ∂g2 ∂g1 2 − 1+ ∂x2 Ã ∂x1 ! ∂g2 − 1+ 2a ∂x2 !       Para que este sistema sea asintóticamente estable se requiere 1. a > 0, 2. ∂g1 > 0, ∂x1 Ã ∂g2 ∂g1 − 1+ 3. 4a ∂x1 ∂x2 !2 > 0. La condición 2 se interpreta mediante la figura 13.32 en la que se pone de manifiesto que la caracterı́stica g1 debe ser siempre monótona creciente. Sistemas no lineales 330 La condición 3 conduce a las regiones de estabilidad que se indican en la figura 13.33. g1 (x1 ) pendiente siempre positiva x1 Figura 13.32: Condición 2 para la estabilidad del sistema. ∂g1 a ∂x 1 Estable Inestable -1 ∂g2 (x2 ) ∂x2 Figura 13.33: Condición 3 para la estabilidad del sistema. Tema 14 Introducción a la optimización de sistemas dinámicos 14.1 Introducción La optimización es un concepto que se emplea habitualmente en la vida ordinaria. Cada vez que ante un determinado problema existen múltiples soluciones, se adopta aquella que, bajo un cierto punto de vista, se considera la ”mejor”. Este concepto se puede formalizar, siempre que se puedan definir el conjunto U de soluciones posibles, y exista una función J(u) que permita medir el grado de bondad de cada una de las soluciones, habida cuenta del punto de vista adoptado. En lo que sigue, se considerará la mejor solución aquella para la que la función J(u) adquiera el valor mı́nimo. En tal caso, el problema de optimización puede expresarse formalmente como el de encontrar el valor u∗ perteneciente a U tal que: J(u∗ ) ≤ J(u) ∀u ∈ U La forma del conjunto U de soluciones posibles permite una primera clasificación de los problemas de optimización. • Los elementos que constituyen el conjunto U pueden ser números reales, entre los que hay que elegir el valor más conveniente para que J(u) tome un valor mı́nimo. En tal caso, el problema de optimización recibe la denominación de optimización estática, puesto que se trata de determinar el valor 331 Introducción a la optimización de sistemas dinámicos 332 que debe tomar un cierto parámetro, o conjunto finito de parámetros, para que se obtenga la mejor solución posible. • Los elementos que constituyen el conjunto U pueden ser los valores que toma una función del tiempo u(t) para t ∈ [0, T ]. En tal caso se tiene la denominada optimización dinámica. El problema de la optimización estática se reduce al de la determinación de los mı́nimos (o máximos) de una función escalar. El problema que se estudiará aquı́ es el de la optimización dinámica, especialmente en su aplicación a la teorı́a del control óptimo. 14.2 Optimización Estática. La optimización estática se reduce a la aplicación de los métodos de máximos y mı́nimos de funciones ordinarias, que vamos a repasar en esta sección. 14.2.1 Minimización de funciones Sea D un subconjunto de números reales x, dado por D = {x | x0 < x < x1 } y sea f una función real tal que f : D → R. Se dice que f tiene un mı́nimo local (relativo) en x∗ si existe un entorno N de x∗ tal que ∆f = f (x) − f (x∗ ) ≥ 0, ∀x ∈ N en tal caso se tiene, ∆x = (x − x∗ ) > 0, ∆f > 0, =⇒ ∆f >0 ∆x ∆f <0 ∆x Estos conceptos se ilustran en la figura 14.1. Es sabido que la condición necesaria para tener un mı́nimo es: df =0 dx Mientras que la suficiente es: d2 f >0 dx2 ∆x = (x − x∗ ) < 0, ∆f > 0, =⇒ Introducción a la optimización de sistemas dinámicos 333 f ∆f xo x x∗ x x1 Figura 14.1: Mı́nimo de una función ordinaria f df dx d2 f dx2 x x x Figura 14.2: Derivadas sucesivas en un mı́nimo Introducción a la optimización de sistemas dinámicos 334 En la figura 14.2 se ilustran gráficamente estas condiciones. Los anteriores resultados se generalizan para funciones multivariables. En efecto, sea x ∈ Rn , f : Rn → R, (y = f (x1 , ..., xn )). Se supone: • f (x) es continua para todo x. • El vector gradiente " ∂f ∂f = ∂x ∂xi # es continuo para todo x. • La matriz hessiana H es continua para todo x " ∂ 2f H= ∂xi ∂xj # En estas condiciones, la condición necesaria para un mı́nimo en x∗ resulta ser ∂f =0 ∂x mientras que la suficiente es que la matriz hessiana " ∂2f H= ∂xi ∂xj # sea definida positiva en x∗ . Restricciones o Ligaduras Supóngase que se trata de minimizar f (x) con la condición adicional de que el mı́nimo esté localizado en el subespacio definido por g(x) = 0 g : Rn → Rm Método particular: eliminar m de las variables x1 , ..., xn en g(x) = 0 y sustituir en f (x). Se tiene entonces una función de (n − m) variables que se resuelve como más arriba. Esto no siempre es posible. En tal caso se emplea el método de los multiplicadores de Lagrange. Introducción a la optimización de sistemas dinámicos 335 Vamos a considerar el caso en el que n = 2 y m = 1. Es decir, se trata de minimizar una función f (x1 , x2 ) de dos variables x1 y x2 , sometida a una restricción g(x1 , x2 ) = 0. La condición de mı́nimo es df (x) = ∂f ∂f dx1 + dx2 = 0 ∂x1 ∂x2 además la restricción g(x1 , x2 ) = 0 implica que ∂g ∂g dx1 + dx2 = 0 ∂x1 ∂x2 Se tiene, formalmente, o sea que las fracciones y ∂f ∂g dx2 ∂x ∂x =− 1 =− 1 ∂f ∂g dx1 ∂x2 ∂x2 ∂f ∂x1 ∂f ∂x2 ∂g ∂x1 ∂g ∂x2 deben ser proporcionales para un valor de x(t) candidato al mı́nimo (o máximo). Sea λ esta constante de proporcionalidad ∂f ∂f ∂x1 ∂x2 −λ = = ∂g ∂g ∂x1 ∂x2 Si se define la lagrangiana L(x, λ) = f (x) + λg(x) se tiene que ∂L =0 ∂x es equivalente a (14.1), mientras que: ∂L =g=0 ∂λ (14.1) Introducción a la optimización de sistemas dinámicos 336 es la restricción. En general, para un problema de dimensiónón n arbitraria, la lagrangiana se define: L(x, λ) = f (x) + λT g(x) Ejemplo Determinar un punto, en un espacio tridimensional, que minimice la función f (x1 , x2 , x3 ) = x21 + x22 + x23 y que esté situado en la intersección de la superficies x3 = x1 x2 + 5 x1 + x2 + x3 = 1 Se define la lagrangiana L = x21 + x22 + x23 + λ1 (x1 x2 + 5 − x3 ) + λ2 (x1 + x2 + x3 − 1) lo que conduce a las ecuaciones para el mı́nimo ∂L ∂x1 ∂L ∂x2 ∂L ∂x3 ∂L ∂λ1 ∂L ∂λ2 = 2x1 + λ1 x2 + λ2 = 0 = 2x2 + λ1 x1 + λ2 = 0 = 2x3 − λ1 + λ2 = 0 = x1 x2 + 5 − x3 = 0 = x1 + x2 + x3 − 1 = 0 La solución está formada por los dos equilibrios (2, −2, 1) y (−2, 2, 1). 14.3 Introducción al control óptimo Sea un sistema dinámico descrito por una ecuación diferencial de la forma: ẋ = f (x, u) (14.2) Introducción a la optimización de sistemas dinámicos 337 En donde el punto sobre la x representa su derivada con relación al tiempo ( dx ≡ ẋ). El sistema dinámico descrito por la ecuación anterior debe seguir dt una determinada trayectoria a partir del estado x(0), durante un intervalo de tiempo [0, T ]. Se trata de determinar la señal u(t) que deberá aplicarse durante este intervalo de tiempo para que en su evolución se minimice el funcional: J= Z T 0 L(x, u, t)dt + S(x(T )) (14.3) en donde las funciones de penalización L(x, u, t) y de coste terminal S(x(T )) son en general funciones no negativas de x y de u, tales que L(0, 0, t) = 0 y S(0) = 0. De todas las señales de mando u(t) ∈ U que pueden aplicarse al sistema descrito por la ecuación (14.2) durante el intervalo [0, T ], existirá una u∗ (t) tal que: J(u∗ (t)) ≤ J(u(t)) ∀u(t) ∈ U (14.4) La señal u∗ (t) recibe la denominación de señal de control óptima. Esta señal constituye una prescripción del conjunto de valores que debe tomar la señal de entrada (de control) u durante el intervalo [0, T ]. En algunos problemas interesa en lugar de disponer de la señal de control óptima u∗ (t), tener una expresión que permita calcular el valor de la señal de entrada u en función del estado x en que se encuentre el sistema. Es decir, determinar una expresión de la forma u∗ (x). En tal caso se dice que se dispone de una ley de control óptima. La solución es una solución realimentada en la que el valor que toma en cada instante, del intervalo [0, T ], por la señal de entrada u está determinada a partir del estado x en que se encuentra el sistema. Las señales de entrada u(t) normalmente no pueden exceder unos determinados lı́mites. Una señal de entrada (control) que satisfaga unas ciertas restricciones en el control durante todo el intervalo de operación (0, T ) se denomina una señal admisible de control (o control admisible). Se denota por U el conjunto de todos los valores de la señal u(t) admisibles. u(t) es admisible si: u(t) ∈ U ∀ t ∈ [0, T ] También pueden darse restricciones sobre x(t). Una trayectoria del estado x(t) que satisfaga las restricciones sobre el estado durante todo el intervalo de operación [0, T ] se denomina una trayectoria admisible. Si X denota el conjunto de los valores admisibles, se dice que x(t) es admisible si: x(t) ∈ X ∀t ∈ [0, T ] Los requerimientos sobre el funcionamiento de la planta se representan matemáticamente mediante un criterio o ı́ndice de funcionamiento. Introducción a la optimización de sistemas dinámicos 14.3.1 338 Ejemplos El problema del control óptimo está formado básicamente por un sistema dinámico de la forma (14.2) y por un criterio a optimizar de forma (14.3). Vamos a dedicar esta sección a presentar algunos ejemplos de criterios de funcionamiento de la forma (14.3). Problema del tiempo mı́nimo Se da el tiempo t = 0 y el estado inicial x(0) = x0 . El estado final se requiere que se encuentre en una cierta región S ⊂ X × T . S es el conjunto objetivo (si el estado final está fijado de antemano, el conjunto S es una recta). El objetivo del problema es transferir el estado del sistema desde x0 a S en un tiempo mı́nimo. El criterio de funcionamiento es: J = T = Z T 0 dt Problema de la energı́a mı́nima Se trata de transferir el estado de un sistema desde x0 hasta S con un gasto mı́nimo de energı́a. Normalmente u2 (t) es una buena medida del flujo de gasto de energı́a, de modo que para minimizar este gasto se puede adoptar el ı́ndice: J= Z T t0 u2 (t)dt Si el sistema posee varias señales de control se tiene J= Z T t0 uT (t)u(t)dt Para permitir mayor generalidad se puede considerar una matriz definida positiva R de modo que Z J= T t0 uT (t)Ru(t)dt Normalmente R es diagonal (si es definida positiva todos sus elementos son positivos). Los distintos valores de diag(R) representan el peso relativo que se asigna a cada variable de control en el gasto de energı́a. Introducción a la optimización de sistemas dinámicos 339 Problema del mı́nimo combustible La tasa de consumo de combustible suele ser proporcional al empuje por lo que se puede escribir Z T J= 0 | u(t) | dt (siendo u la tasa de flujo del combustible - empuje del cohete), (o del vehı́culo espacial que se está maniobrando). Si existen varios propulsores J= Z T 0 (k1 | u(t) | +k2 | u(t) | +... + km | u(t) |)dt siendo ki factores de peso (ponderación) no negativos. Problema del regulador del estado Se trata de transferir un sistema desde un estado inicial x0 a un estado deseado xf (normalmente el estado de equilibrio del sistema) con un valor mı́nimo del valor cuadrático medio del error. Con relación a xf el valor de x(t) − xf se puede considerar como el error instantáneo del sistema. Si se cambia de coordenadas, de modo que xf = 0, entonces x(t) es el mismo error. Z T J= xT (t)x(t)dt 0 En general J= Z T 0 xT (t)Qx(t)dt siendo Q una matriz real, simétrica, semidefinida positiva y constante. La forma más simple de Q es Q = diag [qi ] en donde qi representa el peso que se asigna a la componente xi del vector de estados a la hora de evaluar su contribución a J. Cuanto mayor es qi mayor es el esfuerzo de control dedicado a regular (llevar a cero) a xi . Para minimizar la desviación del estado final x(T ) del sistema del estado deseado xf = 0, se adopta el ı́ndice J = xT (T )Hx(T ) Introducción a la optimización de sistemas dinámicos 340 siendo H real, simétrica, semidefinida positiva y constante. El ı́ndice conjunto es J = xT (T )Hx(T ) + Z T 0 xT (t)Qx(t)dt que puede resultar aún insatisfactorio. Es más realista añadir un término que penalice la acción de control u(t). Se tiene entonces T J = x (T )Hx(T ) + Z T 0 [xT (t)Qx(t) + uT (t)Ru(t)]dt Problema del regulador del estado en tiempo infinito J= Z ∞ 0 [xT (t)Qx(t) + uT (t)Ru(t)]dt La restricción terminal en este caso no es necesaria. En el problema del regulador del estado se trata de mantener el estado pequeño (lo más próximo posible a xf = 0). Problema del regulador de la salida Supuesta ajustada la salida del sistema a un valor de referencia, en una escala, en que sea yref = 0, se trata de mantener y(t) lo más próxima posible a cero. T J = y (T )Hy(T ) + Z T 0 [y T (t)Qy(t) + uT (t)Ru(t)]dt Problema del seguimiento (tracking) Se trata de mantener el estado del sistema x(t) lo más cercano posible al estado deseado r(t) en [0, T ]. T J = e (T )He(T ) + siendo e = x − r. Z T 0 [eT (t)Qe(t) + uT (t)Ru(t)]dt Introducción a la optimización de sistemas dinámicos c1 341 c2 q1 q2 h V, c q Figura 14.3: Diagrama de un depósito mezclador. 14.3.2 Ejemplo de ı́ndice de funcionamiento cuadrático Considérese un mezclador de fluidos como el que se muestra en la figura 14.3, en la que se tiene un esquema elemental de un proceso de mezcla de dos fluidos en un depósito. Este depósito de volumen V y altura h está alimentado por los caudales q1 y q2 , cada uno de los cuales con concentración c1 y c2 de un determinado producto quı́mico. La concentración de este producto en el depósito es c. El depósito evacua por un conducto situado en su parte baja mediante un caudal q. Se supone que la homogeneización de las concentraciones de los caudales de entrada se produce instantáneamente gracias a la acción de unas palas batidoras. Se supone, ası́ mismo, que la densidad es constante en el interior del depósito. Las ecuaciones del balance de masas son las siguientes: dv(t) = q1 (t) + q2 (t) − q(t) dt (14.5) d[c(t)v(t)] = c1 (t)q1 (t) + c2 (t)q2 (t) − c(t)q(t) dt (14.6) El flujo de salida del depósito viene dado por q q(t) = k h(t) = k s v(t) a (14.7) En donde k es una constante y a es el área del depósito. De modo que v = ha. Introducción a la optimización de sistemas dinámicos 342 Supóngase un estado estacionario de funcionamiento en el que se produce un equilibrio entre las entradas y salidas del depósito, para los siguientes valores de los flujos de entrada y salida, ası́ como del volumen en el depósito v0 y de su concentración c0 . q1 (0) = q10 , q2 (0) = q20 , q(0) = q0 , v(0) = v0 , c(0) = c0 Convienen observar que las concentraciones de entrada c1 y c2 se establecen en la etapa anterior del proceso. En estas condiciones de régimen estacionario, las ecuaciones (14.5, 14.6,14.7) toman la forma: 0 = q10 + q20 − q0 0 = c1 q10 + c2 q20 − c0 q0 r v0 q0 = k a Se trata de determinar las ecuaciones lineales que rigen el comportamiento del sistema en torno a este estado estacionario en el supuesto de que se trate de perturbaciones suficientemente pequeñas como para justificar la linealización. Conviene observar que el proceso que se está considerando es un proceso no lineal; es decir, la ecuaciones que gobiernan su comportamiento son no lineales. Esta no linealidad tienen un doble origen. Por una parte, la ecuación (14.6) es no lineal ya que en ella aparecen producto de variables. Por otra parte, la expresión (14.7) liga q con v (o con h) mediante una relación no lineal (la raı́z cuadrada). Las variaciones de las distintas variables con respecto a los valores tomados en régimen estacionario se denotarán mediante un tilde sobre la variable correspondiente. Es decir, q̃(t) = q(t) − q0 representa la variación del caudal q respecto al valor estacionario q0 . Análogamente se definen el resto de las variables ṽ(t) = v(t) − v0 q1 (t) = q10 + q̃1 (t) q2 (t) = q20 + q̃2 (t) c(t) = c0 + c̃(t) Si las variaciones son suficientemente pequeñas, entonces la expresión no lineal (14.7) se puede linealizar en torno al valor correspondiente por régimen estacionario, de acuerdo con Introducción a la optimización de sistemas dinámicos 343 q k ∂ v(t) q(t) − q0 = √ |v=v0 (v(t) − v0 ) a ∂v(t) Es decir r k v0 q̃(t) = ṽ(t) (14.8) 2v0 a De este modo la relación entre la variación q̃(t) del caudal con respecto al valor en régimen estacionario, y la correspondiente al volumen ṽ(t), queda linealizada. Llevando las definiciones de las variaciones ṽ(t), q̃1 (t), q̃2 (t) y c̃(t) a las expresiones (14.5) y (14.6) y tendiendo en cuenta la definición del régimen estacionario y (14.8) se tiene que dṽ(t) 1 q0 ṽ(t) = q̃1 (t) + q̃2 (t) − dt 2 v0 dc̃(t) dṽ(t) 1 c 0 q0 v0 + c0 = c1 q̃1 (t) + c2 q̃2 (t) − ṽ(t) − q0 c̃(t) dt dt 2 v0 v0 τ= q0 Si se escribe x1 x2 u1 u2 y1 y2 = = = = = = ṽ c̃ q̃1 q̃2 q̃ c̃ y v0 q0 se tiene que las ecuaciones del sistema dinámico linealizado pueden escribirse de la forma siguiente: τ= Ã ẋ1 ẋ2 !  1  − 2τ =  0   1 0   x +  c1 − c0 1  − v0 τ  1 c2 − c0  u v0 Sistema dinámico lineal que describe el comportamiento del sistema perturbado en torno al régimen estacionario. Introducción a la optimización de sistemas dinámicos 344 Supóngase ahora que se trata de establecer un criterio cuadrático como ı́ndice de funcionamiento de este sistema. Sean las condiciones estacionarias para el depósito v0 = 1500 litros c0 = 15 gr-mol/litro y los correspondientes flujos de entrada son q10 = 10 litros/seg. q20 = 20 litros/seg. Se trata de construir un ı́ndice de la forma J= Z ∞ 0 (xT Qx + uT Ru)dt en el que las matrices Q y R son de la forma Ã Q= q1 0 0 q2 ! Ã R= r1 0 0 r2 ! Supóngase que se produce una variación del 1% en torno al valor estacionario, lo que en volumen corresponde a 15 litros, mientras que 1% de variación en concentración corresponde a 0,15. Supóngase que 1% de cambio en concentración se penaliza de la misma manera que un 1% de cambio en volumen. En tal caso se tendrı́a que q1 (15)2 ≈ q2 (0.15)2 o lo que es lo mismo q2 100 ≈ q1 0.01 Por tanto se tiene que Ã Q= 0.01 0 0 100 ! Se procede de forma similar con R. A un 1corresponde 0.1 litros/segundo y un 10,2 litros/segundos. Si ambos términos deben contribuir por igual al ı́ndice de funcionamiento se tendrá r2 (0.2)2 ≈ r1 (0.1)2 Es decir 0.5 r2 ≈ r1 2 y por tanto Ã R= 2 0 0 0.5 ! Introducción a la optimización de sistemas dinámicos 14.4 345 Problema general del control óptimo Resumiendo lo anterior se puede decir que el problema del control óptimo o de optimización dinámica, consiste en: • un sistema dinámico descrito por una ecuación diferencial de la forma, ẋ = f (x, u) (14.9) en donde x es el vector de estado de dimensión n, y u es el vector de control de dimensión m, cuyos valores en todo instante deben tomarse de un conjunto cerrado u(t) ∈ U . • unas condiciones iniciales y finales que normalmente son las siguientes: – el instante inicial 0 y el estado inicial x(0) están fijados. – el estado y el instante final están definidos por un par (x(T ), T ) de la trayectoria del sistema, que pertenezca a un conjunto dado S ⊂ X ×T . • un criterio de funcionamiento dado por un funcional de la forma J= Z T 0 L(x, u, t)dt + S(x(T ), T ) (14.10) El problema de optimización dinámica consiste en buscar la señal u(t), t ∈ [0, T ] que minimice a J de entre todas las señales posibles que transfieran el sistema de (0, 0) a (x(T ), T ). Obsérvese que en el criterio de funcionamiento de la expresión (14.10) aparece un término adicional que no estaba en la expresión (14.3). En los criterios de funcionamiento del problema del regulador del estado, del regulador de la salida y del seguimiento, que se han visto en la sección anterior, aparecı́an términos de esta naturaleza. En el apartado 15.1.3 volveremos sobre este término. Para el problema ası́ planteado pueden existir, en principio, dos soluciones de distinta naturaleza: • u∗ = u∗ (t): control en bucle abierto. • u∗ = u∗ (x): control en bucle cerrado (ley de control). Introducción a la optimización de sistemas dinámicos 346 En el primer caso se tiene una señal u∗ (t) que se aplica al sistema en el intervalo [0, T ]. La aplicación de esta señal se hace sin requerir información sobre la evolución del estado (en general, del sistema), por lo que se trata de una señal de control en bucle abierto. Por el contrario, en el segundo caso se tiene una solución al problema del control óptimo en la que la señal de control u∗ es función, en cada instante de tiempo, del estado del sistema. Se trata, por tanto, de un control por realimentación; es decir, en bucle cerrado. La solución del problema de control más interesante es la segunda, por incluir la estructura de realimentación, con las conocidas ventajas que esta estructura comporta. Sin embargo, como veremos luego, este segundo tipo de soluciones es considerablemente más difı́cil de alcanzar que el primero. De hecho, sólo existe una solución general para el problema de control en bucle cerrado para sistemas lineales con criterio cuadrático. Sin embargo, si existe una amplia clase de problemas que admiten solución en bucle abierto. Una posible solución en la práctica es determinar el control en bucle abierto, y linealizar en torno a esta trayectoria óptima, aplicando entonces el control en bucle cerrado. Para determinar el control en bucle abierto se emplean el cálculo de variaciones y el principio del mı́nimo de Pontriagin. Para la determinación de la ley de control óptima se aplica la programación dinámica y las variantes derivadas de este método. Por otra parte, el cálculo de variaciones permite la solución del problema del control óptimo cuando no existen restricciones, mientras que la programación dinámica y el principio del mı́nimo de Pontriagin permiten incorporar restricciones en U. 14.5 Cálculo de variaciones El cálculo de variaciones es la rama de las matemáticas que se ocupa de determinar las trayectorias que minimizan o maximizan un funcional. Conviene que dediquemos algún espacio al concepto de funcional. 14.5.1 Funcionales y sus variaciones Sea X una clase de funciones x(t) definidas en el intervalo [0,t]. Si a toda función x(t) ∈ X se asocia, de acuerdo con una regla, un número J se dice que en la clase X está definido el funcional J y se escribe J = J[x(t)]. La clase X se denomina campo de definición del funcional. Para nosotros, la clase de funciones X será la Introducción a la optimización de sistemas dinámicos 347 clase de señales x(t) definidas en el intervalo [0, T ]. En la figura 14.5 se ilustra como a cada señal x(t) definida en [0, T ] corresponde un valor de J, que es un número real. Ejemplo Sea X = C[0, T ] el conjunto de todas las funciones contı́nua x(t) definidas en el intervalo [0, 1] y sea el funcional J[x(t)] = Z 1 0 x(t)dt Es decir J = J[x(t)] es un funcional de x(t), ya que a toda función x(t) ∈ C[0, T ] le corresponde un valor determinado de J = J[x(t)]. Por ejemplo, si x(t) = 1 se tiene Z 1 J[x(t)] = dt = 1 0 x o si x(t) = e , se tiene J[x(t)] = Z 1 0 ex dt = e − 1 2 Ejemplo Sea X = C1 [a, b] la clase de funciones x(t) que tiene derivada contı́nua ẋ en el intervalo [a, b]. Entonces la funcional J[x(t)] = Z b√ a 1 + ẋ2 dt tiene una interpretación geométrica, ya que representa la longitud del arco de la curva x = x(t) cuyos extremos son los puntos A (a, x(a)) y B (b, x(b)) . 2 El concepto de funcional tiene un gran interés ya que permite asociar a señales, que representan trayectorias y por tanto comportamientos, valores numéricos que sirven para medir determinadas propiedades de esas señales. El funcional J[x(t)] se dice que es lineal si satisface las condiciones: Introducción a la optimización de sistemas dinámicos 348 x M (1, 1) 0 1 t Figura 14.4: señales x(t) = t y x1 (t) = t2 . 1. J[cx(t)] = cJ[x(t)], 2. J[x1 (t) + x2 (t)] = J[x1 (t)] + J[x2 (t)], en donde c es una constante cualquiera y x1 (t) ∈ X y x2 (t) ∈ X. Por ejemplo, el funcional Z b J[x(t)] = (ẋ + x)dt a es lineal. Interesa introducir conceptos que permitan formalizar la proximidad entre señales. Se dice que las señales x(t) y x1 (t) definidas en el intervalo [a, b] son cercanas con proximidad de orden nulo si el valor de |x(t) − x1 (t)|, que mide la distancia entre ellas para cada valor de t, es pequeño en todo el intervalo [a, b]. Desde un punto de vista geométrico esto significa que las dos señales toman valores cercanos en cada instante de tiempo del intervalo considerado. Análogamente, se define la distancia entre dos señales x(t) y x1 (t) (a ≤ t ≤ b) como el número no negativo ρ igual al máximo del módulo |x1 (t) − x(t)|; es decir, ρ = ρ[x1 (t), x(t)] = max |x1 (t) − x(t)| a≤t≤b Ejemplo Determinar la distancia ρ entre las señales x(t) = t y x1 (t) = t2 (figura 14.4). De acuerdo con la definición ρ = max |t2 − t| 0≤t≤1 = max (t − t2 ) 0≤t≤1 Introducción a la optimización de sistemas dinámicos 349 Por tanto, se tiene que determinar el máximo de la función x = t − t2 , que se tiene para t = 1/2, de modo que ρ = 1/4. 2 Por otra parte, se dice que las señales x(t) y x1 (t) definidas en el mismo intervalo, son cercanas con proximidad de primer orden si las magnitudes |x(t) − x1 (t)| y |ẋ(t)− ẋ1 (t)| son pequeñas en el intervalo considerado. Geométricamente, esto significa que tanto los valores tomados por las dos señales, como los de sus tangentes (sus derivadas), son cercanos para todo instante de tiempo. Por último, las dos señales consideradas se dice que son cercanas con proximidad de orden k sin son pequeños los valores tomados por |x(t) − x1 (t)|, |ẋ(t) − ẋ1 (t)|,..., |xk (t) − xk1 (t)|. Basado en ello, se define la distancia de orden n entre dos señales x = x(t) y x = x1 (t) como el mayor de los máximos de las expresiones |x(t) − x1 (t)|, |ẋ(t) − ẋ1 (t)| ,..., |xn (t) − xn1 (t)|, es decir ρn = ρn [x1 (t), x(t)] = max max |xk1 (t) − xk (t)| 0≤k≤n a≤t≤b Se denomina variación o incremento δx(t) del argumento x(t) de un funcional J[x(t)] a la diferencia entre dos señales x(t) y x0 (t) pertenecientes a la clase X de funciones considerada; es decir δx(t) = x(t) − x0 (t) Se define el entorno ² de orden n de una señal x = x1 (t) como el conjunto de las señales x = x(t) cuyas distancias de orden n a la señal x1 (t) son menores que ²; es decir ρn = ρn [x1 (t), x(t)] < ² Definido el concepto de entorno de una señal, es posible introducir el de continuidad de un funcional. Un funcional J[x(t)] definida en la clase de funciones X se llama contı́nua en x = x0 (t) si para todo ² > 0 existe η > 0 tal que la desigualdad J[x(t)] − J[x0 (t)] < ² se satisface para todas las señales que satisfacen ρn = ρn [x(t), x0 (t)] < η Sea J[x(t)] un funcional, se define el incremento de J[x(t)] como ∆J = ∆J[x(t)] = J[x(t) + δx(t)] − J[x(t)] siendo δx(t) = x̃(t) − x(t) x(t) ∈ X, x̃(t) ∈ X Introducción a la optimización de sistemas dinámicos 350 supongamos que ∆J puede escribirse de la forma ∆J = G[x(t), δx(t)] + H[x(t) + δx(t)]||δx|| (14.11) en donde G[x(t), δx(t)] es un funcional lineal con relación a δx y H[x(t)+δx(t)] → 0 cuando ||δx|| → 0. En tal caso, la parte del incremento lineal con relación a δx, es decir G[x, δx] se llama variación del funcional y se representa por δJ. En ese caso se dice que el funcional J[x(t)] es diferenciable para la señal x(t). Ejemplo Sea el funcional J[x(t)] = Z b xdt a su incremento vendrá dado por ∆J = J[x(t) + δx(t)] − J[x(t)] = = Z b a Z b a (x + δx)dt − Z b a xdt δxdt R Es decir, ∆J = ab δxdt. Esta expresión es, a su vez, un funcional lineal respecto a δx. R Por tanto, el funcional es diferenciable para todo x(t) y su variación es δJ = ab δxdt. 2 Ejemplo Sea el funcional J[x(t)] = Z b a x2 dt Se tiene que ∆J = = = Z b a Z b a 2 (x + δx) dt − 2xδxdt + Z b a Z b a x2 dt (δx)2 dt Introducción a la optimización de sistemas dinámicos 351 En la expresión anterior, la primera integral representa el funcional lineal respecto a δx, mientras la segunda integral conduce a Z b a 2 (δx) dt = Z b a |δx|2 dt ≤ ( max |δx|)2 Z b a≤t≤b a dt = (b − a)||δx||2 = [(b − a)||δx||]||δx|| y para ||δx|| → 0, se tiene que (b − a)||δx|| → 0 Es decir, el incremento ∆J del funcional es la suma de G[x, δx] y un término de segundo orden con relación a ||δx||. Recordando la expresión (14.11) se tiene que el funcional considerado es diferenciable para todo x(t) y su variación es δJ = 2 Z b a xδxdt 2 Un funcional J[x(t)] se dice que alcanza su máximo para la señal x = x0 (t) si los valores que toma el funcional para cualquier señal próxima a x0 (t) no son mayores que J[x0 (t)]; es decir si ∆J = J[x(t)] − J[x0 (t)] ≤ 0 Si ∆J ≤ 0 ∀x(t) 6= x0 (t) y ∆J = 0 solo para x = x0 (t), se dice que se alcanza un máximo estricto para x = x0 (t). Para todas las señales próximas a x = x0 (t) se tiene que ∆J ≤ 0. Ejemplo Sea el funcional J[x(t)] = Z 1 0 (x2 + t2 )dt Es fácil ver que se alcanza un mı́nimo estricto para la señal x(t) ≡ 0. En efecto, se tiene que ∆J = J[x(t)] − J[0] = Z 1 0 (x2 + t2 )dt − Z 1 0 t2 dt = Z 1 0 x2 dt ≥ 0 Introducción a la optimización de sistemas dinámicos 352 Por lo que el signo de igualdad se da sólo para x(t) ≡ 0. 2 Un ejemplo de funcional que emplearemos en la sección siguiente lo suministra la expresión Z J= T 0 L(x, ẋ, t)dt J x J(x) 0 T t Figura 14.5: Un funcional J asigna a cada señal x(t) un número real. Las técnicas de estudio de máximos y mı́nimos de funciones, pueden extenderse al estudio de funcionales. En tal caso, se trata de determinar una señal x(t) tal que el valor (un número real) tomado por el funcional, sea mı́nimo (o máximo). Para el estudio de la optimización de funcionales se emplea el cálculo de variaciones. Consiste éste en el estudio de cómo varı́a un funcional cuando varı́a x(t). Una variación de x(t), por ejemplo, δx(t) = x1 (t) − x0 (t) se interpreta gráficamente tal como se hace en la figura 14.6. La variación de J correspondiente será ∆J(x, δx) = J(x1 ) − J(x0 ) = J(x0 + δx) − J(x0 ) En donde ∆J(x, δx) representa el incremento de J debido a la variación δx(t) entorno a x(t). 14.5.2 Ecuaciones de Euler Las ecuaciones de Euler permiten resolver el problema de optimización funcional siguiente: Introducción a la optimización de sistemas dinámicos 353 xo (t) x1 (t) δx (t) T Figura 14.6: Ilustración de la variación δx(t) de una función x(t). Problema Determinar los valores de x(t), en el periodo [0, T ] que minimicen (o maximicen) el funcional J= Z T 0 L(x, ẋ, t)dt estando sujetos a las condiciones de contorno fijas x(0) = a x(T ) = b Para resolver el anterior problema se procede a estudiar la variación de J, e igualarla a cero. Supóngase que el mı́nimo de J se produce para la trayectoria x0 (t). Si esta trayectoria x0 (t) se somete a una variación δx se tendrá la nueva trayectoria x(t) = x0 (t) + δx(t) esta nueva señal se supone para satisfacer las condiciones del problema, que cumple las restricciones de contorno, es decir δx(0) = δx(T ) = 0 La variación total de J será ∆J(x, δx) = Z T 0 [L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt Si se desarrolla la función L(x, ẋ, t) en serie de Taylor en torno a x(t) y ẋ(t), se tendrá Ã L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t) = ! ∂L ∂L δx + δ ẋ + R(x, ẋ, δx, δ ẋ, t) ∂x ∂ ẋ Introducción a la optimización de sistemas dinámicos luego ∆J(x, δx) = Z TÃ ∂L 0 354 ! Z T ∂L δx + δ ẋ dt + R(x, ẋ, δx, δ ẋ, t)dt ∂x ∂ ẋ 0 Esta expresión tiene la misma forma que (14.11). En efecto, el primer término del segundo miembro es lineal en δx, δ ẋ. El segundo, está formado por términos de orden superior al primero. Por tanto, se tendrá que la variación de primer orden de J vendrá dada por Z T" ∂L δJ(x, δx) = 0 # ∂L δx + δ ẋ dt ∂x ∂ ẋ (14.12) Esta variación representa la parte lineal del incremento ∆J. Integrando por partes el segundo miembro de (14.12), se obtiene δJ(x, δx) = Z T" ∂L # d ∂L ∂L − δxdt + δx |T0 ∂x dt ∂ ẋ ∂ ẋ 0 y puesto que de momento estamos considerando condiciones de contorno fijas, se tendráá que δx(0) = δx(T ) = 0, por lo que δJ(x, δx) = # Z T" ∂L 0 d ∂L − δxdt ∂x dt ∂ ẋ (14.13) Esta expresión da la variación de primer orden en J, cuando la señal x(t) sufre una variación δx(t). Si existe un valor de x∗ (t) tal que para este valor de x(t) el funcional J toma un valor mı́nimo (o máximo), entonces sucederá que δJ(x, δx) = 0 este resultado es análogo a la condición necesaria para la minimización (o maximización) de funciones ordinarias y se conoce como la condición necesaria fundamental del cálculo de variaciones. Llevando este resultado a (14.13) se tiene la variación de primer orden de J. Es decir, Z T" ∂L 0 # d ∂L − δxdt = 0 ∂x dt ∂ ẋ Puesto que la anterior expresión debe satisfacerse para cualquier variación δx(t) de x(t), ello sólo será posible si d ∂L ∂L − =0 ∂x dt ∂ ẋ La solución de esta ecuación diferencial en x es x∗ (t). Esta ecuación recibe la denominación de ecuación de Euler. Introducción a la optimización de sistemas dinámicos 355 Como hemos recordado en la sección anterior, en el estudio de los máximos y los mı́nimos de una función ordinaria L(u) se tiene una ecuación algébrica dL/du = 0, cuya solución en u permite determinar el valor de u que minimiza (o maximiza) a esta función. La ecuación de Euler juega el mismo papel que esta ecuación cuando el problema de optimización es funcional. En tal caso, no se trata de determinar el valor de una variable, sino el conjunto de valores tomados por una señal en un determinado intervalo, y en lugar de una simple ecuación algébrica, se tiene una ecuación diferencial. La ecuación de Euler es una condición necesaria pero no suficiente para determinar un mı́nimo. Las condiciones de mı́nimo o máximo se determinan por el estudio de las variaciones segundas. Este estudio es relativamente complejo y no se realizará aquı́. Debe observarse que la ecuación de Euler es una ecuación de segundo orden y por lo tanto en su solución aparecen dos constantes arbitrarias. Para determinar estas constantes se requieren dos ecuaciones adicionales. Estas ecuaciones vienen dadas precisamente por las condiciones de contorno. x(0) = a x(T ) = b A partir de estas dos ecuaciones se pueden determinar las dos constantes que aparecen en la solución de la ecuación de Euler. En el desarrollo anterior se ha considerado que x era un escalar. Los resultados obtenidos se generalizan con toda facilidad para el caso en que x sea un conjunto de n señales. El funcional a optimizar es de la forma J(x) = Z T 0 L(x, ẋ, t)dt (14.14) en donde x es un vector de dimensión n. Las ecuaciones de Euler toman la forma " # ∂L d ∂L − =0 ∂xi dt ∂ ẋi para i = 1, 2, ..., n. Obsérvese que se tiene un conjunto de n ecuaciones diferenciales. Su solución comportará 2n constantes, para cuya determinación se necesitarán 2n ecuaciones, que vendrán dadas por las condiciones de contorno. En el caso de funcionales que implican n funciones independientes se tienen n ecuaciones de Euler; cada ecuación es, en general, una ecuación diferencial Introducción a la optimización de sistemas dinámicos 356 ordinaria, de segundo orden y no lineal, con condiciones de contorno separadas, que suele ser difı́cil de resolver. Esta situación se complica además por el hecho de que las n ecuaciones de Euler son simultáneas. Se emplean normalmente soluciones numéricas. Sin embargo, la integración numérica presenta a su vez problemas ya que para integrar numéricamente se requiere tener la condiciones de contorno definidas para uno de los extremos de integración (las condiciones iniciales o las finales). Sin embargo, las ecuaciones diferenciales de Euler presentan condiciones de contorno iniciales y finales a la vez. Se tienen entonces problemas de contorno con dos extremos cuya resolución numérica requiere un tratamiento especı́fico. Ejemplo Determinar las trayectorias óptimas que minimicen los funcionales siguientes: a) sea el funcional J= Z b a (2x1 x2 − 2x21 + x˙1 2 − x˙2 2 )dt es decir L = 2x1 x2 − 2x21 + x˙1 2 − x˙2 2 se tiene, ∂L ∂x1 ∂L ∂x2 ∂L ∂ x˙1 ∂L ∂ x˙2 = 2x2 − 4x1 = 2x1 = 2x˙1 = −2x˙2 Las ecuaciones de Euler en este caso dan lugar al siguiente sistema de ecuaciones diferenciales: d2 x1 2x2 − 4x1 − 2 2 = 0 dt 2 d x2 2x1 + 2 2 = 0 dt Introducción a la optimización de sistemas dinámicos 357 cuya resolución conduce a d4 x2 d2 x2 + 2 + x2 = 0 dt4 dt2 cuya ecuación caracterı́stica es r4 + 2r2 + 1 = 0 r = ±j(dobles) por lo tanto x2 (t) = c1 tejt + c2 ejt + c3 te−jt + c4 e−jt por otra parte, x1 (t) = − d2 x2 dt2 2 Ejemplo: Distancia mı́nima entre dos puntos Vamos a aplicar las ecuaciones de Euler para demostrar un resultado bien conocido: que la distancia más corta entre dos puntos es la lı́nea recta. Supongamos una curva x(t) que une los puntos x(a) = A y x(b) = B. El parámetro t es un parámetro arbitrario que sirve para especificar la familia de curva que une los puntos del plano (a, A) y (b, B), tal como se indica en la figura 14.7. La longitud de una curva particular x(t) viene dada por J= Z b√ a 1 + ẋ2 dt (14.15) La determinación de la curva x(y) que minimice la distancia entre (a, A) y (b, B) se reduce a determinar la curva x∗ (t) que minimice (14.15). Ese problema se puede resolver mediante la ecuaciones de Euler. Se tiene √ L(x, ẋ) = 1 + ẋ2 Introducción a la optimización de sistemas dinámicos 358 x B A a b t Figura 14.7: Distanciaı́mı́nima entre dos puntos por lo que ∂L =0 ∂x ∂L ẋ =√ ∂ ẋ 1 + ẋ2 por lo tanto, la ecuación de Euler, en este caso, se reduce a: d ẋ √ =0 dt 1 + ẋ2 ecuación diferencial que, a su vez, se reduce a d2 x =0 dt2 cuya integración conduce a x∗ (t) = c1 t + c2 que, aplicando las condiciones de contorno, se convierte en x(t) = (A − B)t + (aB − bA) a−b con lo que queda demostrado lo que ya sabı́amos: que la distancia mı́nima entre dos puntos es una recta. Restricciones o ligaduras Supóngase que existen unas determinadas ligaduras (o restricciones) en las trayectorias posibles de x(t). Es decir, de todas las trayectorias posibles que unan el Introducción a la optimización de sistemas dinámicos 359 estado inicial con el estado final, sólo son admisibles aquellas que, además, satisfagan una ecuación de la forma g(x, ẋ, t) = 0 (14.16) En este caso se tiene un problema de optimización con restricciones. En el estudio de los máximos y mı́nimos de funciones ordinarias se aplicaba el método de Lagrange para resolver el problema. En el estudio de la optimización funcional, se aplica igualmente una generalización del método de Lagrange. La demostración de esta generalización no se hará aquı́, pero sin embargo sı́ se enunciará el método. Supóngase que se trata de optimizar un funcional tal como el de la expresión (14.14), en donde x(t) está sometido a las restricciones dadas por la expresión (14.16). Entonces se puede formar el funcional (funcional aumentado) J0 = Z T 0 [L(x, ẋ) + λg(x, ẋ)] dt en donde el multiplicador de Lagrange λ(t) es una función del tiempo. El problema queda reducido a optimizar el nuevo funcional J 0 con relación a x y a λ. El método se generaliza fácilmente para el caso en que x sea un vector, y el número de restricciones sea un número finito m. 14.5.3 Estado final variable En el apartado anterior se ha considerado el caso de la optimización funcional cuando el estado inicial y el estado final estaban perfectamente determinados. En esta sección se va a estudiar el caso en el que el estado final no está completamente determinado. Por ejemplo, se va a estudiar el problema de determinar las trayectorias que une un punto a una curva tal como se representa en la figura 14.8. Es decir, se trata de determinar x∗ (t) tal que minimice el funcional J= Z T 0 L(x, ẋ, t)dt de manera que x(0) tome un valor previamente determinado, y x(t) sea tal que se encuentre sobre una determinada trayectoria. Es decir, ni x(T ) ni T están fijados de antemano, sino que ambos están ligados por una determinada expresión. Introducción a la optimización de sistemas dinámicos 360 x(0) 0 Figura 14.8: Conjunto de trayectorias que se inician en el estado x(0) y que finalizan sobre una curva. Es obvio que la trayectoria óptima x∗ (t) debe satisfacer las ecuaciones de Euler. En efecto, considérese el problema completamente resuelto y supóngase determinado el estado final alcanzado por dicha trayectoria óptima x∗ (T ). Se puede entonces considerar el problema como un problema con el estado final fijo al que hay que aplicar las ecuaciones de Euler. Es decir, si x∗ (t) minimiza a J en el caso de estado final variable, lógicamente minimizará a J para el caso más restringido de estado final fijo. Por lo tanto, el problema de determinar x∗ (t) para el caso de estado final variable, conduce a la resolución de las ecuaciones diferenciales de Euler. Sin embargo, el problema se plantea a la hora de establecer las ecuaciones auxiliares que permiten determinar las constantes que aparecen en la resolución de la ecuación de Euler. Al estudio de este problema se va a dedicar el resto de la sección. δx (T ) ẋ(Tf )δT T ∆xf T + δT Figura 14.9: Trayectoria x(t) y su variación en el caso de extremo final libre. Introducción a la optimización de sistemas dinámicos 361 En la figura 14.9 se representa una trayectoria x(t), y una variación de la misma x(t) + δx(t), cuyo punto inicial es común con la primera, pero cuyo punto final no coincide. La variación de J correspondiente a estas dos trayectorias será la siguiente ∆J = J(x + δx) − J(x) = Z T +δT 0 L(x + δx, ẋ + δ ẋ, t)dt − Z T 0 L(x, ẋ, t)dt lo cual puede reescribirse como sigue ∆J = Z T +δT T L(x+δx, ẋ+δ ẋ, t)dt+ Z T 0 [L(x+δx, ẋ+δ ẋ, t)−L(x, ẋ, t)]dt (14.17) Se supone que δT es suficientemente pequeño, de manera que se pueda aplicar el teorema del valor medio a la primera de las integrales anteriores, con lo que se obtiene Z T +δT L(x + δx, ẋ + δ ẋ, t)dt ∼ (14.18) = L(x, ẋ, t) |T δT T Por otra parte, el segundo término de la expresión (14.17), despreciando términos de orden superior al primero (análogamente a como se hizo para deducir las ecuaciones de Euler), puede escribirse: Z T 0 # Z T" ∂L ∂L δx + δ ẋ dt [L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼ = 0 ∂x ∂ ẋ En donde el signo ∼ = denota la aproximación de primer orden. Integrando por partes el segundo término del segundo miembro de la anterior expresión, se tiene, Z T 0 # Z T" ∂L d ∂L ∂L [L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼ − δxdt + δx |T0 = 0 ∂x dt ∂ ẋ ∂ ẋ Si x(t) es una trayectoria óptima, entonces se satisfacerá la ecuación de Euler, y por lo tanto, el primer término del segundo miembro de la anterior expresión, será idénticamente nulo. En efecto, sea x∗ (t) una trayectoria óptima, del caso en el que T y x(T ) no están fijados. Se tendrá que x(T ) = x∗ (T ). Por tanto, se puede plantear el problema de control óptimo con condiciones finales fijas (x(T ), T ) cuya solución satisfacerá las ecuaciones de Euler. Es decir, la trayectoria x∗ (t) es óptima para un problema de control óptimo con condiciones de contorno fijas, y, en consecuencia satisfacerá las ecuaciones de Euler. Por tanto, se podrá escribir: Z T 0 ∂L [L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼ δx |T0 = ∂ ẋ (14.19) Introducción a la optimización de sistemas dinámicos 362 Habida cuenta de las expresiones (14.18) y (14.19) modificadas, se tendrá que la expresión (14.17) se puede escribir ∂L ∆J ∼ δx |T0 +L(x, ẋ, t) |T δT = ∂ ẋ (14.20) Expresión que representa la variación de J cuando se perturba una trayectoria óptima y el extremo final no está fijado. Obsérvese que puesto que δx(0) = 0 sucede que ∆J depende exclusivamente de lo que sucede en el extremo final en el que se produce la variación. En este extremo, con ayuda de la figura 14.9 se tiene, xf + ∆xf = x(T + δT ) + δx(T + δT ) = x(T ) + ẋ(T )δT + δx(T ) + ... ∼ = xf + ẋ(T )δT + δx(T ) o sea, δx(T ) = ∆xf − ẋ(T )δT (14.21) lo que llevado a (14.20) conduce a ∆J = ∂L |T [∆xf − ẋ(T )δT ] + L(x, ẋ, t) |T δT ∂ ẋ y puesto que ∆J = 0, se tiene " # ∂L ∂L |T δT = 0 |T ∆xf + L(x, ẋ, t) − ẋ ∂ ẋ ∂ ẋ (14.22) Esta expresión recibe la denominación de condición de transversalidad, y permite establecer una ecuación algébrica adicional para la determinación de las constantes en la solución de la ecuación de Euler. En la aplicación práctica de la condición de transversalidad se pueden dar tres casos. 1. Supóngase que el instante final T está fijado de antemano, pero no ası́ el estado alcanzado. En tal caso, el estado final debe estar situado en una recta vertical tal como la de la figura 14.10. Analı́ticamente se tendrá que δT = 0, y la expresión (14.22) se convierte en ∂L |T = 0 ∂ ẋ Introducción a la optimización de sistemas dinámicos 363 x(0) 0 T Figura 14.10: Trayectorias con el tiempo final T fijo y el estado final x(T ) libre. x(T ) x(0) Figura 14.11: Trayectorias con el estado final x(T ) fijo y el tiempo final T libre. Introducción a la optimización de sistemas dinámicos 364 2. Si el estado final está determinado, pero no el instante en el que se alcanza, el punto final deberá estar situado en una lı́nea horizontal tal como la de la figura 14.11. En tal caso se tendrá que ∆xf = 0, con lo que la expresión (14.22) se convierte en: " # ∂L L(x, ẋ, t) − ẋ |T = 0 ∂ ẋ 3. Si el estado final y el instante final están ligados a una expresión analı́tica de la forma x(t) |T = y(t) |T se tendrá que ∆xf = ẏ(T )δT (ver figura 14.12), con lo que la ecuación (14.22) se convierte en " # ∂L L(x, ẋ, t) + (ẏ − ẋ) |T δT = 0 ∂ ẋ y 0 (T ) y(t) x(0) T T + δT Figura 14.12: Trayectorias con el estado final definido sobre la curva y(t). Introducción a la optimización de sistemas dinámicos Cuadro resumen de condiciones de contorno en cálculo variacional. Descripción Condiciones del problema de contorno Notas 1. T, x(T ) fijos x∗ (t0 ) = x0 x∗ (T ) = xf 2n condiciones para 2n constantes de integración 2. T fijo y x∗ (t¯0 ) = x0 ∂L ¯¯ ¯ =0 ∂ ẋ ¯T 2n condiciones para 2n constantes x∗ (t0 ) = x0 x"∗ (T ) = xf 2n + 1 condiciones para 2n constantes x(T ) libre 3. T libre y x(T ) fijo ∂L L(x, ẋ) − ẋ ∂ ẋ 4. T y x(T ) libres, pero ligadas por x(T ) = θ(T ) x∗ (t0 ) = x0 x"∗ (T ) = θ(T ) de integración #¯ ¯ ¯ ¯ =0 ¯ de integración y T T ∂L L(x, ẋ) + (ẏ − ẋ) ∂ ẋ #¯ ¯ ¯ ¯ =0 ¯ T 2n + 1 condiciones para 2n constantes de integración y T . 365 Introducción a la optimización de sistemas dinámicos 366 Ejemplo 3 Considérese una variante del ejemplo 2, en la que se trata de determinar la trayectoria mı́nima entre el origen y la recta y(t) = 2 − t (figura 14.13). Del ejemplo y 2 2 t Figura 14.13: Trayectoria mı́nima entre el origen y la recta y(t) = 2 − t. 2 se sabe que las soluciones del problema de Euler viene dadas por la familia de rectas: x∗ = c1 t + c2 Para la determinación de las constantes c1 y c2 se recurre a las condiciones de contorno 4 del cuadro adjunto. Puesto que x(0) = 0, se tiene que c2 = 0. Por otra parte, la condición de contorno final conduce a: q 1+ ẋ∗ (T )2 +q ẋ∗ (T ) 1 + ẋ∗ (T )2 [ẏ(T ) − ẋ∗ (T )] = 0 Puesto que ẋ∗ (T ) = c1 e ẏ(T ) = −1, se tiene q c1 1 + c21 − q 1 + c21 [1 + c1 ] = 0 De donde se obtiene c1 = 1 por lo que la trayectoria mı́nima viene dada por x∗ = t Introducción a la optimización de sistemas dinámicos El valor de T se determina mediante la ecuación x∗ (T ) = y(T ) lo que da T = 1. 367 Tema 15 Métodos Variacionales en Control Optimo 15.1 Aplicación del cálculo de variaciones a la resolución del problema del Control Optimo Sea el sistema dinámico ẋ = f (x, u) (15.1) y supóngase, además, un ı́ndice de funcionamiento dado por J= Z T 0 L(x, u)dt (15.2) Se trata de determinar la señal de control óptima u∗ (t) en el intervalo (0, T ). Se pueden presentar dos casos, según que se pueda o no dejar explı́cita u en la expresión (15.1). 15.1.1 Se puede eliminar u Supóngase que en la expresión (15.1) es posible dejar explı́cita u. En tal caso se podrá escribir u = g(x, ẋ, t) 368 Métodos Variacionales en Control Optimo 369 lo que se le podrá llevar a la expresión (15.2) obteniéndose J= Z T 0 L(x, g(x, ẋ, t), t)dt Z T J= 0 L0 (x, ẋ, t)dt (15.3) (15.4) con lo que el problema se ha reducido a uno de cálculo variacional, para cuya solución se emplean las ecuaciones de Euler. Ejemplo 1 Sea el sistema descrito por la ecuación: ẋ = −x + u se trata de determinar u(t) que minimice J= Z 1 0 (x2 + u2 )dt De la ecuación del sistema se tiene que u = ẋ + x, y sustituyendo en la expresión de J, se tiene J= Z 1 0 (x2 + (ẋ + x)2 )dt = Z 1 0 (2x2 + 2xẋ + (ẋ)2 )dt es decir, L = 2x2 + 2xẋ + (ẋ)2 Recordando la ecuación de Euler: ∂L d ∂L − =0 ∂x dt ∂ ẋ En este caso se tiene ∂L = 4x + 2ẋ ∂x ∂L d ∂L dx d2 x = 2x + 2ẋ ⇒ =2 +2 2 ∂ ẋ dt ∂ ẋ dt dt Por lo tanto la ecuación de Euler resulta ser d2 x − 2x = 0 dt2 Métodos Variacionales en Control Optimo 370 La integración de esta ecuación diferencial determina la trayectoria óptima de x(t): √ √ x(t) = C1 e− 2t + C2 e 2t √ √ √ √ ẋ(t) = − 2C1 e− 2t + 2C2 e 2t Por tanto la trayectoria óptima de la señal de mando es: u(t) = x(t) + ẋ(t) √ √ √ √ = C1 (1 − 2)e− 2t + C2 (1 + 2)e 2t Las constantes C1 y C2 se determinan en función de los estados inicial y final del sistema. Suponiendo x(0) = 1; x(1) = 0; se tiene C1 = 1.0628 C2 = −0.0628 Ejemplo 2 Para un integrador simple ẋ = u encontrar la entrada de control u(t) que conduzca al sistema desde cierto estado inicial x(0) al estado final x(t) de manera que se minimice la integral, Z J= T 0 (x2 + u2 )dt sujeta a cada una de las condiciones siguientes: a) x(0) = 1, x(T ) = 0 y T = 1. b) x(0) = 1, x(T ) sin especificar y T = 1. c) x(0) = 1, x(T ) = 0 y T sin especificar. Calcular el valor de la integral correspondiente a cada caso. Resolución. En este caso L = x2 + u2 = x2 + (ẋ)2 Luego, ∂L ∂L = 2x = 2ẋ ∂x ∂ ẋ Métodos Variacionales en Control Optimo 371 La ecuación de Euler en este caso conduce a, d2 x −x=0 dt2 cuya solución general es, x(t) = C1 e−t + C2 et a) Es el caso más simple de aplicación de condiciones de contorno. Estas condiciones conducen a, 1 = C1 + C2 C1 0 = + C2 e e Cuya solución es C1 = 1.157 y C2 = −0.157. Luego, x(t) = 1.157e−t − 0.157et y, u(t) = −1.157e−t − 0.157et El valor de J para este caso resulta ser J = 1.11. b) La condición de transversalidad se escribe en este caso ¯ ∂L ¯¯ ¯ =0 ∂ ẋ ¯T =1 lo que se traduce en ẋ(1) = 0 Por lo tanto las condiciones en los extremos son x(0) = 1 ẋ(1) = 0 lo que conduce a 1 = C1 + C2 C1 0 = − + C2 e e Es decir, C1 = 0.88 y C2 = 0.12. El valor de J resulta ser 0.761. Métodos Variacionales en Control Optimo 372 c) En este caso la condición de transversalidad se convierte, al estar fijo el valor de xf y no el de T en ¯ ¯ ¯ ∂L ¯¯ ¯ ¯L − ẋ ¯ =0 ¯ ∂ ẋ ¯T pues δT , en T es nulo y ∆xf no. Por lo tanto, L − ẋ(T ) ∂L (T ) = 0 ∂ ẋ lo que conduce a ẋ(T ) = 0 Se sabe por lo tanto que x(0) = 1 x(T ) = 0 ẋ(T ) = 0 Se tienen, por tanto, tres ecuaciones con tres incógnitas C1 , C2 y T . Las anteriores ecuaciones se convierten en 1 = C1 + C2 0 = C1 e−T + C2 eT 0 = −C1 e−T + C2 eT Es fácil ver que la solución del anterior sistema de ecuaciones es T = ∞ C1 = 1 C2 = 0 ciñéndonos a valores de t > 0, es decir suponiendo que el sistema evoluciona en el sentido de los tiempos crecientes Luego x(t) = e−t u(t) = −e−t (0 ≤ t < ∞) En este caso J = 1. Métodos Variacionales en Control Optimo 15.1.2 373 No se puede eliminar u Si la eliminación de u en la expresión (15.1) no es posible, entonces se recurre a la aplicación del método de los multiplicadores de Lagrange observando que la ecuación (15.1) puede interpretarse como una restricción de la forma g(x, ẋ) = f (x, u) − ẋ Se tendrá que el funcional modificado que se trata de optimizar será J0 = Z T 0 L0 (x, ẋ, u, λ)dt en donde L0 (x, ẋ, u, λ) = L(x, u) − λ[f (x, u) − ẋ] (15.5) Se considerará en lo que sigue m = 1, n = 1 por razones de simplicidad. La generalización es muy simple y el resultado se presentará al final. El problema queda reducido a determinar los valores de x(t), u(t) y λ(t) que minimicen el funcional J 0 . Para resolver este problema se recurre a las ecuaciones de Euler. El número de estas ecuaciones será tres, correspondiente a las variaciones de cada una de las variables anteriores. Se estudian estas ecuaciones para cada una de las variables x(t), u(t) y λ(t). • Ecuación de Euler con relación a x. Se tendrá ∂ d ∂ [L + (f − ẋ)λ] − [L + (f − ẋ)λ] = 0 ∂x dt ∂ ẋ ∂ d ∂ [L + (f − ẋ)λ] − (−λẋ) = 0 ∂x dt ∂ ẋ ∂ [L + f λ] = −λ̇ ∂x (15.6) • Ecuación de Euler con relación a u ∂ d ∂ [L + (f − ẋ)λ] − [L + (f − ẋ)λ] = 0 ∂u dt ∂ u̇ como L + (f − ẋ)λ no depende de u̇, se tendrá ∂ [L + f λ] = 0 ∂u (15.7) Métodos Variacionales en Control Optimo 374 • Ecuación de Euler con relación a λ f − ẋ = 0 (15.8) Se define la función H(x, u, λ) de acuerdo con H(x, u, λ) = L(x, u) + λf (x, u) esta función recibe la denominación de función de Hamilton o hamiltoniana. Se tendrá que las ecuaciones anteriores pueden escribirse: ∂H = −λ̇ (15.9) ∂x ∂H = 0 (15.10) ∂u ∂H = ẋ (15.11) ∂λ El problema queda reducido a resolver el anterior conjunto de ecuaciones diferenciales para determinar u∗ (t). Un método sistemático para hacerlo es el siguiente: 1. Formar la función de Hamilton o Hamiltoniana H(x, u, λ) = L(x, u) + λf (x, u) 2. Resolver la ecuación algebraica ∂H(x, u, λ) =0 ∂u que permite obtener u∗ (x, λ). 3. Formar la hamiltoniana minimizada, llevando u∗ a H, con lo que se tiene, H ∗ (x, u∗ , λ) 4. Resolver el sistema de ecuaciones diferenciales, ∂H ∗ ∂H ∗ λ̇ = − ∂λ ∂x con las condiciones de contorno x(0) y x(t). ẋ = (15.12) 5. Los valores de x∗ (t) y λ(t), determinados en 4, se llevan a 2, con lo que se tiene u∗ (x∗ (t), λ∗ (t), t) = u∗ (t) En el cuadro se resume el método. Métodos Variacionales en Control Optimo Resumen de la aplicación del Cálculo Variacional a la determinación del Control Optimo Se da el sistema ẋ = f (x, u) Se da el criterio J= Paso 1 Se forma la Hamiltoniana H(x, u, λ) = L(x, u) + λf (x, u) Paso 2 Se determina u∗ (x, λ) admisible tal que ∂H =0 ∂u Paso 3 Se determina la Hamiltoniana mı́nima H ∗ (x, λ) = H(x, u∗ (x, λ), λ) Paso 4 Se resuelve el sistema de 2n ecuaciones ∂H ∗ ẋ = ∂λ RT 0 L(x, u)dt ∂H ∗ ∂x con las condiciones de contorno correspondientes. Se obtiene x∗ (t) y λ∗ (t). λ̇ = − Paso 5 Se determina u∗ (t) = u∗ (x∗ (t), λ∗ (t)) 375 Métodos Variacionales en Control Optimo 376 Ejemplo 3 Para el sistema ẋ = −2x + u con el ı́ndice 1Z 1 2 J= u dt 2 0 determinar la señal de control óptima u(t) tal que conduzca al sistema de x(0) = 1 a x(1) = 0. La resolución del problema se descompone en los siguientes pasos: 1. Se forma la hamiltoniana, que resulta ser H= u2 + (u − 2x)λ 2 2. Se minimiza la hamiltoniana ∂H =u+λ ∂u luego, u∗ = −λ 3. Se forma la hamiltoniana minimizada λ2 − λ2 − 2xλ 2 λ2 = − − 2xλ 2 H∗ = (15.13) (15.14) 4. Se tiene ∂H ∗ ∂H ∗ = −λ − 2x; = −2λ ∂λ ∂x de donde se tienen las ecuaciones diferenciales (4) −2x − λ = ẋ −2λ = −λ̇ (15.15) (15.16) λ̇ − 2λ = 0 λ = k1 e2t (15.17) (15.18) cuya resolución conduce a Métodos Variacionales en Control Optimo 377 es decir, ẋ + 2x = −k1 e2t que constituye la solución general de la homogénea xg = k2 e−2t . La solución particular de la completa toma la forma xp = Ae2t . en donde, 2Ae2t + 2Ae2t = −k1 e2t luego k1 4 La solución de las ecuaciones diferenciales anteriores, será de la forma, A=− x=− k1 2t e + k2 e−2t 4 Aplicando las condiciones de contorno se tiene k1 + k2 4 k1 0 = − e2 + k2 e−2 4 1 = − Eliminando k2 se tiene k1 = 1 4 4 e 1 − e−4 luego, λ= e4 (1 4 e2t − e−4 ) 5. Por lo tanto, u∗ = − e4 (1 4 e2t −4 −e ) Ejemplo 4 Sea la planta x˙1 = x2 x˙2 = u y el ı́ndice de funcionamiento J= 1Z 2 2 u dt 2 0 (15.19) (15.20) Métodos Variacionales en Control Optimo 378 condiciones de contorno x1 (0) = x2 (0) = 1 x1 (2) = x2 (2) = 0 1. Se forma la hamiltoniana 1 H = u2 + λ1 x2 + λ2 u 2 2. Se resuelve la ecuación en u ∂H =0 ∂u que en este caso resulta ser ∂H = u + λ2 = 0 ∂u lo que conduce a u∗ = −λ2 Obsérvese que ∂ 2H =1 ∂ 2u por lo que u∗ minimiza la Hamiltoniana. 3. Se forma la Hamiltoniana optimizada 1 1 H ∗ (x∗ , λ, t) = λ22 + λ1 x2 − λ22 = λ1 x2 − λ22 2 2 4. Se forman las ecuaciones de estado x˙1 = x˙2 = y las de coestado ∂H ∗ = x2 ∂λ1 ∂H ∗ = −λ2 ∂λ2 ∗ ∂H λ˙1 = − =0 ∂x1 ∂H ∗ λ˙2 = − = −λ1 ∂x2 Métodos Variacionales en Control Optimo 379 Las condiciones de contorno son x1 (0) = x2 (0) = 1 x1 (2) = x2 (2) = 0 Resolución del problema de contorno más las ecuaciones de estado x˙1 = x2 x˙2 = −λ2 λ˙1 = 0 λ˙2 = −λ1 (1) λ˙1 = 0 −→ λ1 = k1 (2) λ˙2 = −λ1 −→ λ˙2 = −k1 −→ λ2 = −k1 t + k2 k1 t2 − k2 t + k3 2 t3 t2 −→ x1 (t) = k1 − k2 + k3 t + k4 6 2 (3) x˙2 = −λ2 −→ x˙2 = k1 t − k2 −→ x2 (t) = (4) x˙1 = x2 −→ x˙1 = k1 t2 − k2 t + k3 2 Es decir t2 − k2 t + k3 2 t3 t2 x1 = k1 − k2 + k3 t + k4 6 2 Para t = 0 x1 = x2 = 1, luego k3 = 1, k4 = 1. x2 = k 1 Para t = 2 x1 = x2 = 0, se tiene k1 = 3 k2 = 72 . Luego además 3t2 7t − +1 2 2 t3 7t2 = − +t+1 2 4 x∗2 = (15.21) x∗1 (15.22) 7 2 7 (5) u∗ = −λ∗2 = 3t − 2 λ∗1 = 3 λ∗2 = −3t + Métodos Variacionales en Control Optimo 380 Ejemplo 5 Se trata de regular la temperatura de una habitación con el consumo mı́nimo de energı́a posible. Si θ(t) es la temperatura en la habitación, θa es la temperatura ambiental fuera de la habitación (que se supondrá constante) y u(t) es la tasa de calor que se inyecta en la habitación, se sabe que el proceso viene descrito mediante la ecuación θ̇ = −a(θ − θa ) + bu (15.23) en donde a y b son dos constantes que dependen del aislamiento de la habitación. Se define el estado como x(t) = θ(t) − θa , (15.24) de modo que la ecuación de estado se puede escribir ẋ = −ax + bu (15.25) Puesto que se trata de regular la temperatura en un cierto periodo de tiempo [0, T ] con el mı́nimo suministro de energı́a posible, se define el ı́ndice de funcionamiento J= 1Z T 2 u (t)dt 2 0 (15.26) Se tiene, por tanto, definido un problema de control óptimo mediante las expresiones (15.25) y (15.26). Para su resolución se procede mediante los cuatro pasos anteriores. 1. Se forma la Hamiltoniana H= u2 + λ(−ax + bu) 2 (15.27) 2. se resuelve con respecto a u la ecuación 0= ∂H = u + bλ ∂u (15.28) con lo que se tiene u∗ (t) = −bλ∗ (t) 3. Se forma la Hamiltoniana optimizada H∗ = u2 + λ(−ax − b2 λ) 2 (15.29) Métodos Variacionales en Control Optimo 381 Se forman las ecuaciones de coestado, que resultan ser ẋ = −ax − b2 λ (15.30) λ̇ = aλ (15.31) cuya resolución permitirá obtener λ∗ (t) y la trayectoria de estado óptima x∗ (t). Para integrar las ecuaciones de coestado vamos a proceder como si conociésemos el valor final de λ(T ). En tal caso, la solución de (15.31) es λ∗ (t) = e−a(T −t) λ(T ) (15.32) ẋ = −ax − b2 λ(T )e−a(T −t) (15.33) que llevado a (15.30) da Esta ecuación se puede resolver empleando la transformada de Laplace. En efecto, se tiene x(0) b2 λ(T )e−aT − s + a (s + a)(s − a) ! Ã x(0) b2 −1/2 1/2 −aT = − λ(T )e + s+a a s+a s−a X(s) = (15.34) De modo que b2 λ(T )e−aT sinhat (15.35) a Las expresiones (15.32) y (15.35) nos dan λ∗ (t) y x∗ (t) en función de el estado inicial x(0) y el valor final de λ(T ). x∗ (t) = x(0)e−at − Supongamos que la temperatura inicial de la habitación es igual a la temperatura exterior θa = 100 . Se hace x(0) = 0 (15.36) Además, supóngase que se trata de que la temperatura final θ(T ) sea 200 al cabo de T segundos. Por tanto, el estado final se pretende que alcance el valor x(T ) = 10 (15.37) Se tiene, por tanto, un problema de control óptimo en el que tanto el estado final como el tiempo final están fijados (aunque de momento no hayamos asignado un valor concreto a T ). Métodos Variacionales en Control Optimo 382 Con ayuda de (15.36) y de (15.37) se puede determinar λ(T ). En efecto, en la expresión (15.35) se tiene x(T ) = x(0)e−aT − b2 λ(T )(1 − e2aT ) 2a (15.38) teniendo en cuenta (15.36) y (15.37) se tiene que λ(T ) = − 20a b2 (1 − e−2aT ) (15.39) lo que llevado a la expresión (15.32) conduce a λ∗ (t) = −e−a(T −t) λ(T ) 20ae−aT = − 2 eat b (1 − e−2aT ) 10a eat = − 2 × aT e − e−aT b 2 10aeat = − bsinhaT (15.40) (15.41) (15.42) (15.43) Recordando que eaT − e−aT 2 Por último, la tasa óptima de inyección de calor en la habitación viene dada por (15.29), es decir 10aeat ∗ (15.44) u (t) = sinhaT y la trayectoria óptima para el estado viene dada por sinhaT = x∗ (t) = 10 sinhat sinhaT (15.45) Obsérvese que x∗ (T ) = 10. 15.1.3 Introducción de un término de control terminal Vamos a considerar ahora el caso, que se presenta a veces en aplicaciones, en el que en el ı́ndice de funcionamiento aparezca un término (o varios) escalar que dependa Métodos Variacionales en Control Optimo 383 del valor alcanzado por el estado en el instante final x(T ) y eventualmente del propio tiempo final T . Es decir, sea un ı́ndice de funcionamiento de la forma J= Z T 0 Ldt + S(x(T ), T ) − S(x(0), 0) (15.46) en donde S(x(T ), T ) representa el llamado término de control terminal. Este caso se puede reducir al estudiado hasta aquı́. En efecto, considérese Z t" J = 0 Z t = es decir J= Z T 0 0 # dS L+ dt dt (15.47) dS (15.48) Ldt + Z t 0 Ldt + S(x(T ), T ) − S(x(0), 0) (15.49) Obsérvese que puesto que x(0) y el instante inicial 0 están fijados de antemano, la minimización del ı́ndice (15.49) es equivalente a la minimización del ı́ndice (15.47). (Normalmente S(x(0), 0) = 0) Obsérvese que la expresión (15.47) puede escribirse también: J= Z T" 0 # ∂S ∂S L+ ẋ + dt ∂x ∂t (15.50) Por lo que esta será la forma que se adoptará para el ı́ndice de funcionamiento en lo que sigue. Por tanto, el problema de control con término de control terminal se puede plantear, como se ha hecho hasta ahora modificando la función L(x, u) para convertirla en Z J0 = T 0 La (x, ẋ, u, t)dt (15.51) con este planteamiento se puede aplicar el cálculo de variaciones, tal como se ha hecho anteriormente. Recordando la expresión, se tiene que de la aplicación del método de los multiplicadores de Lagrange se desprende que en este caso L0 = La + λ(f − ẋ) ∂S ∂S ẋ + + λ(f − ẋ) = L+ ∂x ∂t (15.52) (15.53) Vamos a comprobar que la introducción de un término de control terminal no altera el planteamiento Hamiltoniano que se ha presentado en la sección anterior, Métodos Variacionales en Control Optimo 384 excepto en lo que respecta a las condiciones de transversalidad, como veremos luego. Para presentar el método de Hamilton de resolver el problema de control óptimo se ha partido de la expresión (15.5). Ahora debemos partir de la (15.53). La ecuación Euler con relación a x conduce a ∂ d ∂ [La + λ(f − ẋ)] − [La + λ(f − ẋ)] = 0 ∂x dt ∂ ẋ (15.54) desarrollando el primer miembro del primer término se tiene " # ∂ 2S ∂ ∂S ∂S ∂ ∂ 2S ẋ + L+ ẋ + + λ(f − ẋ) = [L + f λ] + ∂x ∂x ∂t ∂x ∂x2 ∂x∂t Por otra parte se tiene " # ∂ ∂S ∂S ∂S L+ ẋ + + λ(f − ẋ) = −λ ∂ ẋ ∂x ∂t ∂x (15.55) por lo que el segundo término de (15.54) será " # d ∂S −λ dt ∂x teniendo en cuenta que " # " # " ∂ dS ∂ ∂S d ∂S ∂S = = ẋ + dt ∂x ∂x dt ∂x ∂x ∂t # se tendrá que (15.54) se puede escribir ∂ [L + f λ] = −λ̇ ∂x que resulta ser la misma expresión que se tenı́a en (15.6). Es decir, la ecuación de Euler con relación a x es la misma se tenga o no término de control terminal. Es inmediato comprobar que sucede lo mismo con las ecuaciones de Euler con relación a u y a λ dadas en las expresiones (15.7 y 15.8). El tiempo final T y el estado que se alcance en dicho instante x(T ) pueden estar fijados de antemano o no. En este segundo caso, que por otra parte es el más frecuente en los problemas con término de control terminal, hay que recurrir a las condiciones de transversalidad. Vamos, además, a aprovechar esta oportunidad para establecer la condiciones de transversalidad en el planteamiento hamiltoniano. Métodos Variacionales en Control Optimo 385 Recordando la expresión (14.22) se tiene que las condiciones de transversabilidad para este caso vienen dadas por la expresión ¯ #¯ " ∂L0 ¯¯ ∂L0 ¯¯ ¯ δT = 0 ¯ ∆xf + L0 − ẋ ∂ ẋ ¯T ∂ ẋ ¯T (15.56) Es claro que de (15.53) y (15.55) se tiene: ∂L0 ∂S = −λ ∂ ẋ ∂x Por lo que la expresión (15.56) se convierte en " #¯ " Ã ! # ¯ ∂S ∂S ∂S ¯ f ¯ ∆x + L + ẋ + + λ(f − ẋ) − − λ ẋ δT |T = 0 ¯ ∂x ∂t ∂x ∂S −λ ∂x T lo que se puede escribir " ¯ # " ¯ ∂S ∂S ¯ − λ ∆xf ¯¯ + L + λf + ∂x ∂t T #¯ ¯ ¯ ¯ δT = 0 ¯ T que también puede escribirse " #¯ #¯ " ¯ ∂S ¯¯ ¯ ∗ f ¯ δT = 0 ¯ ∆x + H + ¯ ∂t ¯T T ∂S −λ ∂x (15.57) El punto 4) del procedimiento de resolución implica el resolver las ecuaciones diferenciales (4) ∂H ∗ ẋ = ∂λ ∂H ∗ −λ̇ = ∂x Si la dimensión del vector de estado es n, entonces la resolución del anterior sistema de ecuaciones diferenciales implica la determinación de 2n constantes. Estas constantes se determinarán con ayuda de las condiciones de contorno. Estas condiciones son: 1. Estado inicial x(0) que permite el establecimiento de n ecuaciones. 2. Condiciones finales generalizadas que vienen dadas por la ecuación " ∂S −λ ∂x #¯ #¯ " ¯ ∂S ¯¯ ¯ f ∗ ¯ ∆x + H + ¯ δT = 0 ¯ ∂t ¯T T Métodos Variacionales en Control Optimo 386 si no existe término de control terminal, es decir, si S(x, T ) = 0, se simplifican a −λ|T ∆xf + H ∗ |T δT = 0 Se pueden distinguir dos casos: 1. Estado final impuesto y tiempo final libre. En tal caso ∆xf = 0, y la determinación de las n constantes se hace a partir de Ã !¯ ∂S ¯¯ ∗ H + ¯ =0 ∂t ¯T 2. Estado final libre y tiempo final T determinado. En tal caso se tiene que δT = 0, por lo que la anterior ecuación implicará que Ã ! ∂S − λ |T = 0 (15.58) ∂x lo que permite establecer n ecuaciones suplementarias para determinar las n constantes restantes. Si S = 0, se tiene λi (T ) = 0. Las dos situaciones anteriormente consideradas constituyen los dos casos extremos que se pueden dar. Supóngase, que ni el estado final ni el instante final T están dados de antemano, pero sı́ la trayectoria y(t) en la que debe encontrarse el estado final. En tal caso, las condiciones de contorno en el extremo final pueden escribirse −λ(T )∆xf + H ∗ [x(T ), λ(T ), T ]δT = 0 (15.59) Es inmediato ver que dx = y(T )dt, y puesto que dt es arbitrario, es necesario que −λ(T )ẏ(T ) + H0 (T ) + ẏ(t) ∂S ∂S |T + |T = 0 ∂x ∂x (15.60) Esta ecuación, junto con el hecho de que x(T ) = y(T ) especifica completamente la solución. Ejemplo 6 Sea el sistema: ẍ = u(t) (15.61) Métodos Variacionales en Control Optimo 387 que representa un móvil que se acelera, y se trata de maximizar la distancia recorrida en un tiempo determinado, minimizando al mismo tiempo una medida cuadrática de la actuación; es decir, adoptando el ı́ndice J = −x(T ) + 1Z T 2 u dt 2 0 Se pide la señal de control, para el caso x(0) = 0 y ẋ(0) = 0 La descripción interna del sistema (15.61) viene dada por ẋ1 = x2 ẋ2 = u(t) con las condiciones iniciales x(0) = 0 y ẋ(0) = 0. Se construye la Hamiltoniana u2 H = L + λ1 f1 + λ2 f2 = + λ1 x2 + λ2 u 2 Minimizándola con respecto a u se tiene ∂H =0 ∂u Es decir u + λ2 = 0 por lo que la señal de control óptima será u∗ = −λ2 Por tanto, la hamiltoniana óptima vendrá dada por H∗ = − λ22 + λ 1 x2 2 Por los que las ecuaciones de Hamilton pueden escribirse ∂H ∗ = −λ̇1 ∂x1 ∂H ∗ = −λ̇2 ∂x2 (15.62) Métodos Variacionales en Control Optimo 388 es decir −λ̇1 = 0 −λ̇2 = λ1 y, por tanto, λ1 = k1 λ2 = −k1 t + k2 Para determinar las constantes de integración se recurre a las condiciones de contorno que, en este caso, puesto que T es fijo y el estado final x(T ) es libre resultan ser Ã ! ∂S − λi =0 ∂xi T Por tanto ! Ã ∂S − λ1 = 0 λ1 (T ) = −1 ⇒ λ1 = −1 ∂x1 T Ã ∂S − λ2 ∂x2 ! = 0 λ2 (T ) = 0 ⇒ λ2 (t) = −T + t T Se tiene que la señal de control óptimo es u∗ (t) = T − t Por tanto la señal de control óptima es tal que la fuerza aplicada debe de crecer linealmente con el tiempo, hasta anularse para t = T . Este problema puede resolverse también aplicando directamente las ecuaciones de Euler, puesto que estamos en el caso en el que se puede eliminar u que se vio en 15.1.2. En efecto, el ı́ndice (15.62) del problema puede escribirse, eliminado u, e incorporando al integrando el término de control terminal (recordando lo que se hizo en (15.48)), de la forma J= ¶ Z Tµ 1 2 ẋ2 − x2 dt 2 Por tanto se tiene un problema de Euler con 1 L = − ẋ22 + x2 2 con condiciones iniciales x1 (0) = x2 (0) = 0. Para determinar las ecuaciones de Euler se tiene que 0 ∂L = 1 ∂x2 ∂L = −ẋ2 ∂ ẋ2 Métodos Variacionales en Control Optimo 389 Por lo que la ecuación de Euler ∂L d ∂L − =0 ∂x2 dt ∂ ẋ2 se convierte en ẍ2 = 0 2 cuya integración conduce a x2 (t) = − t2 + c1 t + c2 Las condiciones de contorno como, en este caso, puesto que T es fijo, son ∂L |T = −ẋ2 (T ) = −T + c1 ∂ ẋ2 luego c1 = T . Además x2 (0) = c2 = 0. Por tanto, u = ẋ2 = T − t Ejemplo 7 Se trata de determinar la señal de control óptimo para el sistema de primer orden ẋ = −x + u con x(0) = 0 para que se maximice el valor final de x al tiempo que se minimiza R el funcional 21 01 u2 dt. Se supone que la ponderación entre ambos objetivos es ρ de manera que Z 1 1 2 J= u dt − ρx(1) 0 2 Se procede de acuerdo con los pasos siguientes: 1. Se forma la hamiltoniana 1 H = u2 + λ(u − x) 2 2. Se minimiza la hamiltoniana ∂H =u+λ ∂u es decir u∗ = −λ Métodos Variacionales en Control Optimo 390 3. Se forma la hamiltoniana minimizada λ2 λ2 H∗ = − λ2 − λx = − − λx 2 2 4. Se forman las ecuaciones diferenciales (4) ∂H ∗ = −λ ∂x ∂H ∗ = −λ − x ∂λ Que resultan ser λ̇ = λ ẋ = −λ − x De la primera de estas ecuaciones se tiene, λ̇ − λ = 0 −→ λ = k1 et (15.63) De la segunda se tiene ẋ + x = −λ es decir, de ambas, ẋ + x = −k1 et cuya solución es k1 t e 2 Las condiciones de transversalidad son (puesto que el estado final es completamente libre y T = 1) x(t) = k2 e−t − [ como S = −ρx(t) se tiene ∂S − λ]|T =1 = 0 ∂x (15.64) ∂S = −ρ ∂x (15.65) De (15.64) y (15.65) se tiene λ(1) = −ρ Según (15.63), se tiene λ(1) = k1 e es decir k1 = luego λ(1) ρ =− e e ρ u∗ = −λ(t) = et = ρe(t−1) e Métodos Variacionales en Control Optimo 391 Ejemplo 8 En este ejemplo vamos a considerar una variante del ejemplo de la regulación de la temperatura en una habitación que se ha visto al final de la sección anterior. Vamos a suponer que se trata de que la temperatura final alcanzada por la habitación no sea exactamente de 10o (es decir que el estado final x(T ) no sea exactamente 10), sino que se trata de minimizar el ı́ndice 1 1Z T 2 u (t)dt + ρ(x(T ) − 10)2 J= 2 0 2 en donde ρ es un factor de ponderación entre los dos términos que aparecen en el ı́ndice de funcionamiento. El primer término de J mide el coste de la actuación, y es el mismo que se tenı́a en la expresión (15.26). El segundo término es una expresión cuadrática que mide la desviación del estado final x(T ) del valor 10. De acuerdo con este término se trata de penalizar el hecho de que x(T ) no sea igual a 10, pero sin pretender que este sea exactamente el valor alcanzado. Por tanto, el ı́ndice J está formado por dos términos. El primero penaliza el coste de la actuación. Mientras que el segundo se refiere a la meta que se persigue mediante el funcionamiento del sistema: que el estado final alcance un valor lo más cercano posible a 10. Estos dos términos se suman afectando a uno de ellos (en este caso al primero) mediante un factor de peso ρ que mide la importancia relativa que se asigne al comportamiento deseado (primer término) o al coste de alcanzarlo (segundo término). Es decir, si se adopta un valor para ρ muy grande, entonces la solución óptima cumplirá preferentemente la meta de que x(T ) toma un valor próximo a 10, dando poca importancia al coste necesario para alcanzar esta meta. Por el contrario, si ρ es pequeño prácticamente lo único que se tiene presente es el coste y nos encontramos con un problema análogo al discutido anteriormente. Para la resolución del problema se procede en este caso como anteriormente, pero sin embargo en este caso se tiene un término de control terminal y el estado final x(T ) no está dado. Se trata, por tanto, de un problema de control óptimo con término de control terminal, estado final libre y tiempo final T determinado. Las condiciones de contorno en T vienen dadas, en ese caso, por la expresión (15.58), que, en este caso, conduce a λ(T ) = ∂S |T = ρ(x(T ) − 10) ∂x (15.66) Métodos Variacionales en Control Optimo 392 que es la nueva condición final. Esta expresión se puede escribir x(T ) = λ(T ) + 10 ρ (15.67) que llevada a (15.38) y recordando que x(0) = 0 conduce a x(T ) = −20aρ 2a + − e−2aT ) b2 ρ(1 (15.68) llevando, a su vez, esta expresión de λ(T ) a la expresión (15.32) se tiene λ∗ (t) = −10aρeat aeaT + ρb2 sinhaT (15.69) Por último, mediante la expresión (15.29) se tiene u∗ (t) = 10abρeat aeaT + ρb2 sinhaT (15.70) 10ρb2 sinhat aeaT + ρb2 sinhaT (15.71) La trayectoria óptima resulta ser x∗ (t) = Obsérvese que si ρ tiende a infinito la señal de mando (15.70) se convierte en la (15.44) y el resto de las trayectorias tienden a ser las mismas que las determinadas antes. En particular el estado final x∗ (T ) tiende a alcanzar exactamente el valor 10. Tema 16 Principio del Mı́nimo de Pontriagin 16.1 Introducción Al aplicar los métodos variacionales (ecuación de Euler) a la resolución del problema del control óptimo, se pueden presentar los siguientes tipos de dificultades: 1. Los métodos variacionales suministran los máximos y mı́nimos relativos de J(u) y no los absolutos; 2. Las ecuaciones de Euler son, normalmente, no lineales lo que frecuentemente imposibilita la obtención de la solución de forma explı́cita; 3. Normalmente, los valores admisibles para las señales de control están acotados, lo que hace imposible la determinación de la señal de control óptimo por métodos variacionales. Al estudiar en el apartado anterior el problema del control óptimo, se ha considerado que los valores posibles tomados por la señal de entrada no estaban acotados. Es decir, que U = IR. Este caso, obviamente, no es el más general, sino que debe considerarse el caso en que la región de las señales de control admisibles esté acotada; es decir, U esté acotada. Esta última circunstancia, especialmente, tuvo una importancia decisiva para el desarrollo de nuevas ideas en la teorı́a del control óptimo. Las limitaciones que 393 Principio del Mı́nimo de Pontriagin 394 se imponen normalmente a las señales de control son del tipo, | ui |≤ Mi Este tipo de limitaciones son perfectamente naturales en las aplicaciones. Ası́, por ejemplo, los valores que alcanza una magnitud eléctrica, como la tensión o la intensidad, en un determinado circuito, están, en la práctica, limitadas por consideraciones de tipo fı́sico; lo mismo sucede en los equipos mecánicos con las posiciones o las velocidades; y ası́ en cualquier sistema fı́sico. En general, una forma de la evolución de una magnitud fı́sica, y en particular de una señal de mando, en un proceso fı́sico real, toma la forma que muestra la figura 16.1. t Figura 16.1: Según se verá más abajo, para obtener comportamientos óptimos con respecto a determinados criterios se requiere que se mantengan las señales de control en sus valores extremos. Esto sucede especialmente en los problemas de control en tiempo mı́nimo. En 1956, los matemáticos rusos Pontriagin, Boltianskii y Gamkrelidge estudiaron el problema de la optimización dinámica para el caso en que la región de señales de control admisibles U estuviese acotada, y establecieron el famoso principio del mı́nimo (en el trabajo original del máximo) al que se ha unido el nombre del primero de estos tres autores. El principio del mı́nimo de Pontriagin constituye una generalización de los resultados alcanzados con ayuda del cálculo variacional para resolver el problema del control óptimo. La diferencia esencial entre los resultados alcanzados con ayuda del cálculo variacional y aquellos que se obtienen con ayuda del principio del mı́nimo de Pontriagin, reside en que en este último caso se puede definir un espacio de funciones admisibles U(t) para las señales de control u(t). Al mismo tiempo las señales u(t) de control admisibles pueden presentar discontinuidades Principio del Mı́nimo de Pontriagin 395 en un número finito de puntos; con ello se abre la posibilidad de estudiar el control por conmutación, que tanto interés tiene en determinadas aplicaciones prácticas, como se verá más adelante. Recordando el problema del control óptimo, se tiene un sistema cuya evolución viene dada por ẋ = f (x, u) (16.1) siendo conocido x(0). Las señales de control admisibles deben pertenecer a un conjunto cerrado U, es decir, u(t) ∈ U (16.2) El estado y el instante al final del proceso están definidos por un conjunto de pares (x(T ), T ) ∈ B. El criterio a optimizar es de la forma J= Z T 0 L(x, u)dt + S(x(T ), T ) (16.3) Se define, además, la función hamiltoniana de acuerdo con la expresión siguiente H(x, u, λ) = L(x, u) + λf (x, u) (16.4) El principio del mı́nimo de Pontriagin permite establecer las condiciones necesarias para que una señal de control admisible dé lugar a un control óptimo. Sea u(t) una señal de control admisible y x(t) la trayectoria correspondiente, de manera que x(t) esté definida por ẋ = f (x, u) (16.5) x(0) = 0 (16.6) Por otra parte, se definen las ecuaciones adjuntas o de coestado como sigue: dλ ∂f ∂L =− λ− dt ∂x ∂x (16.7) Por último, recordando las expresiones (15.57) las condiciones finales dan lugar a λ(T )∆xf − H(T )δT = ∂S ∂S ∆xf + δT ∂x ∂t (16.8) Con todo los elementos anteriores se puede enunciar el principio del mı́nimo de Pontriagin como sigue: Teorema (Principio del mı́nimo de Pontriagin). Principio del Mı́nimo de Pontriagin 396 Supuesto que existe un vector adjunto λ(t) tal que satisfaga las ecuaciones adjuntas (16.7) y las condiciones finales (16.8) para todo vector (∆xf , δT ) tangente a B en el punto (x(T ), T ), entonces la condición necesaria para la existencia de un mı́nimo es que en todo punto t ∈ (0, T ) la función hamiltoniana H(x, u, λ) alcance su mı́nimo con relación a u. De acuerdo con el principio de Pontriagin la elección del control óptimo u∗ es muy simple: en cada instante de tiempo, u debe seleccionarse de manera que garantice el mı́nimo posible de la hamiltoniana H, teniendo en cuenta las restricciones (limitaciones) impuestas sobre los valores admisibles de u. La función hamiltoniana permite evaluar variaciones del criterio J debido a variaciones admisibles e infinitesimales de la señal de control δu(t). La variación del hamiltoniano H debida a una variación δu se denota por δH, y se escribe, Ã δH = ! ∂L ∂f +λ δu ∂u ∂u (16.9) Para la demostración del teorema del mı́nimo de Pontryagin interesa establecer en primer lugar el siguiente lema: Lema Sea una trayectoria nominal (o de referencia) x(t) de un sistema dinámico, generada por una señal de mando u(t). La variación del criterio δJ debida a una variación admisible δu de la señal de control óptimo u∗ (que determinará una variación de la trayectoria δx) viene dada por δJ = Z T 0 δH(t)dt (16.10) en el supuesto de que se cumplan las ecuaciones adjuntas (16.7) y las condiciones finales (16.8). Demostración Sea el sistema dinámico ẋ = f (x, u) Principio del Mı́nimo de Pontriagin 397 Debido a la variación de la señal de control δu se produce una variación de la trayectoria δx que vendrá dada por la ecuación diferencial siguiente: ẋ + δ ẋ = f (x + δx, u + δu) es decir ∂f ∂f δx + δu ∂x ∂u Por las razones que se pondrán de manifiesto más abajo interesa calcular la variación con el tiempo de λδx. Se tiene δ ẋ = d(λδx) dλ d(δx) = δx + λ dt dt dt ! Ã Ã ! ∂L ∂f ∂f ∂f = − − λ δx + λ δx + δu ∂x ∂x ∂x ∂u ∂L ∂f = − δx + λ δu ∂x ∂u Pasando al primer miembro el primer término del segundo miembro, y sumando a ambos miembros ∂L δu se tiene, recordando (16.9). ∂u d(λδx) ∂L ∂L ∂f ∂L + δx + δu = λ δu + δu dt ∂x ∂u ∂u! Ã ∂u ∂L ∂f + δu = λ ∂u ∂u = δH Obsérvese que en δH se indica la variación de H debida exclusivamente a la variación de u, supuestos x y λ constantes. Integrando la anterior expresión entre 0 y T , y recordando que δx(0) = 0 se tiene λ(T )δx(T ) + Z TÃ ∂L 0 ! Z T ∂L δx + δu dt = δHdt ∂x ∂u 0 (16.11) Por otra parte, de acuerdo con la figura 16.2, se puede aproximar el desplazamiento ∆xf entre la trayectoria nominal y la trayectoria perturbada con la siguiente expresión, (que es la misma que la (14.21)) δx(T ) = ∆xf − ẋ(T )δT (16.12) siendo (∆xf , δT ) tangente a B. Es decir, λ(T )δx(T ) = λ(T )(∆xf − ẋ(T )δT ) (16.13) Principio del Mı́nimo de Pontriagin 398 δx (T ) ẋ(Tf )δT T ∆xf T + δT Figura 16.2: Recordando las condiciones finales (16.8), se tiene, en el caso en que S = 0, λ(T )∆xf = H(T )δT (16.14) Por lo que (16.13) se puede escribir λ(T )δx(T ) = H(T )δT − λ(T )ẋ(T )δT (16.15) Por otra parte, se tiene que H(T ) = λ(T )f (T ) + L(T ) (16.16) λ(T )ẋ(T ) = H(T ) − L(T ) (16.17) lo que se puede escribir lo que llevado a la expresión (16.15) conduce a λ(T )δx(T ) = L(T )δT (16.18) Por otra parte se sabe que δJ = Z TÃ ∂L 0 ! ∂L δx + δu dt + L(T )δT ∂x ∂u Z T +δT T Ldt ' L(T )δT (16.19) (16.20) Teniendo en cuenta (16.18) la anterior expresión se reescribe: δJ = Z TÃ ∂L 0 ! ∂L δx + δu dt + λ(T )δx(T ) ∂x ∂u (16.21) Principio del Mı́nimo de Pontriagin 399 lo que según (16.11) conduce a: δJ = Z T 0 δHdt (16.22) con lo que queda demostrado el lema. 2 Recuérdese que la variación de H que se considera en la expresión (16.22) es exclusivamente la debida a u. Es decir, la expresión (16.22) se puede escribir δJ = J(u) − J(u∗ ) = Z T 0 (H(x∗ , u, λ) − H(x∗ , u∗ , λ))dt (16.23) Aparentemente no hay nada de extraordinario en el anterior lema. De hecho, la ecuación adjunta y las condiciones de tranversalidad prefiguran el resultado alcanzado. Sin embargo es interesante resaltar el interes de la expresión (16.22), ya que permite evaluar el efecto sobre δJ de una variación local de δu. Esta interpretación conduce al teorema del mı́nimo de Pontriagin. Para enunciar ese teorema se parte del hecho de que toda trayectoria óptima está caracterizada por la condición δJ ≥ 0, ∀δu(t) (16.24) que, de acuerdo con el lema, se convierte en que la condición necesaria para el mı́nimo es Z T δH(t)dt ≥ 0 (16.25) 0 para toda variación infinitesimal admisible δu(t). Considérese variaciones δu(t) tales que, δu(t) = δu τ − ² < t < τ = 0 resto de manera que se cumpla: • u(t) + δu(t) ∈ U • x(t) + δx(t) corta a B La condición de mı́nimo de la expresión (16.25) se convierte en δH(t) ≥ 0 (16.26) Principio del Mı́nimo de Pontriagin 400 para todo 0 < t < T . En efecto, para demostrar la expresión (16.26) se procede por contradicción. Supóngase que existe un valor de ū y uno del tiempo t1 tales que H(x∗ (t1 ), u∗ (t1 ), λ(t1 )) > H(x∗ (t1 ), ū, λ(t1 )) (16.27) es decir, que H(ū) en t1 es menor que H(u∗ ) óptima. Entonces es posible concebir una señal ū(t) tal que coincide con u∗ (t) para todo valor de t excepto en un pequeño entorno de t1 en el que toma el valor ū(t1 ) = ū (figura 16.3). Puesto que ū u∗ ε 0 t1 T t1 T δu 0 Figura 16.3: H es continua con relación a x, y λ (en la medida en que lo son L y f ) se tendrá que en un entorno de t1 se podrá determinar un valor de ²0 tal que H(x∗ (t), u∗ (t), λ(t)) − H(x∗ (t), ū(t), λ(t)) < ²0 (16.28) para todo t tal que t − t1 < ². De lo anterior se desprende δJ = J(ū(t)) − J(u∗ (t)) = Z T 0 (H(x∗ (t), ū(t), λ(t)) − H(x∗ (t), u∗ (t), λ(t)))dt < ²²0 Haciendo ² arbitrariamente pequeño se tiene δJ < 0 (16.29) Principio del Mı́nimo de Pontriagin 401 en contradicción con lo supuesto. Es decir, en el caso en que para un valor u y un tiempo t1 se cumpla la expresión (16.27) puede suceder (16.29). Para que no suceda (16.29) es necesario que (16.27) no suceda. Luego tiene que cumplirse, como establece el teorema que se trataba de demostrar. De hecho el principio del mı́nimo de Pontriagin no hace sino generalizar los resultados alcanzados en el apartado anterior para el caso en que u∗ (t) se encuentre en los lı́mites de U , y no en el interior de esta región. Es decir, el principio del mı́nimo de Pontriagin generaliza al caso en que u esté acotada el resultado demostrado anteriormente según el cual la determinación de la señal de control u∗ que minimiza al funcional J es equivalente a la determinación de la señal u∗ que minimice la función hamiltoniana H. El interés del principio del mı́nimo, como el del cálculo variacional, reside en que el problema inicial de minimizar un funcional J se transforma en una infinidad (para cada valor de t ∈ (0, T )), de problemas de minimización de un escalar H. En el apartado anterior se ha visto que la determinación de u∗ (t) que minimice a H se hacı́a resolviendo la ecuación algébrica ∂H =0 ∂u Esta ecuación permite determinar el mı́nimo de H en el caso en que u∗ se encuentre en el interior de U , lo que siempre sucede en el caso de que u no esté acotada. En el caso en que u esté acotada, la determinación del mı́nimo de H debe hacerse por otro tipo de consideraciones, y no con ayuda de la ecuación anterior. La demostración rigurosa de que u∗ debe elegirse de manera que minimice H es la contribución básica de Pontriagin a la teorı́a del control óptimo. Habida cuenta del principio del mı́nimo de Pontriagin, los cinco pasos enunciados en el apartado anterior para resolver el problema de la determinación de la ley de control óptima mantienen su vigencia, excepto el segundo que toma la forma siguiente: - Determinar u∗ tal que u∗ = arg. min.H en donde ”arg. min.” debe leerse ”obtener el argumento u∗ que minimice H”. Es decir, la hamiltoniana se minimiza en cada punto del tiempo a lo largo de la trayectoria óptima por elección de los valores de u óptimos. Ası́, para cualquier Principio del Mı́nimo de Pontriagin 402 valor de t ∈ [t0 , T ] sucede que o existe una solución interior en la cual ∂H =0 ∂n como sucede en los casos considerados al estudiar el cálculo de variaciones, o se tiene un asolución de contorno en la cual ∂H ≥0 ∂n en donde n es una normal dirigida hacia el exterior sobre el contorno de U. En la figura 16.4 se representan graficamente estas dos posibilidades, para el caso en que la dimensión de u sea 1. H H Ho Ho uo u Ω uo u Ω Solucion interior Solucion de contorno Figura 16.4: En la figura se considera la forma de H, en función de u, para un instante genérico de tiempo t. En el cuadro se resume el método modificado. Principio del Mı́nimo de Pontriagin Resumen de la aplicación del Principio del mı́mimo de Pontriagin a la determinación del Control Optimo Se da el sistema ẋ = f (x, u) Se da el criterio J= Se dan las restricciones | u |≤ Mi Paso 1 Se forma la Hamiltoniana H(x, u, λ) = L(x, u) + λf (x, u) Paso 2 Se determina u∗ (x, λ) admisible tal que minimice H(x, u, λ) con respecto a u Paso 3 Se determina la Hamiltoniana mı́nima H ∗ (x, λ) = H(x, u∗ (x, λ), λ) Paso 4 Se resuelve el sistema de 2n ecuaciones ∂H ∗ ẋ = ∂λ ∗ ∂H λ̇ = − ∂x con las condiciones de contorno correspondientes. Se obtiene x∗ (t) y λ∗ (t). Paso 5 Se determina u∗ (t) = u∗ (x∗ (t), λ∗ (t)) RT 0 L(x, u)dt 403 Principio del Mı́nimo de Pontriagin 404 Debe notarse que el principio del mı́nimo representa exclusivamente una condición necesaria, es decir, que una vez obtenido el valor debe comprobarse que efectivamente corresponde a un mı́nimo. En algunos libros, y especialmente en el original de Pontriagin, el principio del mı́nimo se denomina del máximo. En último extremo ello no es sino un problema de signos en la hamiltoniana que debe ser optimizada. Ejemplo 1 Se trata de trazar una curva x(t), 0 ≤ t ≤ T , que se inicie en x(0) = 0, cuya pendiente en cada punto no sea mayor que 1 y que maximice el valor de x(t) en t = T. El problema puede formularse representando la curva mediante el sistema dinámico: ẋ = u(t) Este curva debe ser tal que x(0) = 0, y además se pide que u(t) ≤ 1. Puesto que se pretende maximizar x(T ) el criterio será: J = x(T ) Se trata, por tanto, de un problema de control óptimo con un término de control terminal tal que S(x(T ), T ) = x(T ). Aplicando el método que se acaba de presentar, se tendrá que en este caso L(x, u) = 0 y f (x, u) = u por lo que la función hamiltoniana será: H = λu Conviene notar que en la función hamiltoniana no aparece el término relativo al control terminal (al estado final). De la expresión de H se desprende que para λ < 0 el valor óptimo de u es −∞ y para λ > 0 es u = 1. Las ecuaciones de Hamilton resultan ser: ∂H ∗ =u ∂λ ∂H ∗ −λ̇ = =0 ∂x ẋ = Integrando (16.31) se tiene λ(t) = k (16.30) (16.31) Principio del Mı́nimo de Pontriagin 405 x(t) x1 (t) T Figura 16.5: Problema de la curva óptima con crecimiento acotado. siendo k una constante. Por otra parte la condición de contorno, puesto que se trata de un problema con estado final libre y tiempo final T determinado, resulta ser, recordando (15.58), λ(T ) = 1. Por tanto k = 1, y λ(t) = 1 > 0. En consecuencia, la señal de control óptima será u = 1. Llevando este valor a (16.30), y recordando que x(0) = 0, se tiene que la curva óptima será x(t) = t Este resultado, que se muestra en la figura 16.5, tiene un contenido muy intuitivo. Ejemplo 2: Control óptimo de un sistema lineal Sea el sistema ẋ = −2x + u con el ı́ndice Z T 0 x2 dt y con la restriccion | u |≤ 1. Se forma la hamiltoniana, H = x2 + λ(u − 2x) Para optimizar la hamiltoniana se observa que la dependencia de esta función de u se limita al término λu. Por tanto, teniendo presentes las restricciones sobre u, es claro el valor óptimo de u será u = +1 si λ < 0 y u = −1 si λ > 0 Ver figura 16.6). Principio del Mı́nimo de Pontriagin 406 H λ>0 +1 −1 λ<0 u H +1 u −1 Figura 16.6: Si se emplea la función ‘sgn (se lee ‘signo) se escribe, u∗ = −sgn (λ) La hamiltoniana óptima será H = x2 − λsgn (λ) − 2xλ La ecuacion adjunta es: λ̇ = −2x + 2λ El conjunto se puede mecanizar interpretar mediante un diagrama como el de la figura 16.7. Obsérvese que puesto que S = 0, la condición de contorno es λ(T ) = 0. Ejemplo 3: Control óptimo de un sistema de dimensión dos Sea el sistema (planta) con ecuaciones de estado x˙1 = x2 x˙2 = −x1 + u Se trata de minimizar el criterio de funcionamiento 1Z T 2 (x1 + u2 )dt J= 2 0 Principio del Mı́nimo de Pontriagin λ 407 x -1 2 -2 -2 Figura 16.7: Diagrama de bloques. Con señales de control admisibles tales que | u(t) |≤ 1 ∀t ∈ [0, T ] Para resolver el problema se procede de acuerdo con los pasos indicados anteriormente. 1. Se forma la hamiltoniana 1 1 H = x21 + u2 + λ1 x2 + λ2 (u − x1 ) 2 2 2. Se minimiza H con relación a todos los valores de u admisibles, para determinar u∗ = u∗ (x, λ, t). En este caso se separan los términos en u de H 1 2 u + λ2 u 2 Si la señal de control no está saturada, el mı́nimo se obtiene haciendo ∂H =0 ∂u lo que da u∗ = −λ2 Por tanto, si | λ2 (t) |< 1 entonces se adopta u∗ = −λ2 ya que con ello se está en la zona no saturada de u). Si | λ2 (t) |> 1 entonces, segun se ha visto en el ejemplo anterior, el valor que minimiza H será u∗ = −sgn (λ2 ) Principio del Mı́nimo de Pontriagin 408 u∗ (t) λ∗2 (t) Figura 16.8: Representación de u∗ Por tanto u∗ tiene la forma que se indica en la figura 16.8. Para determinar λ2 (t) se resuelven las ecuaciones x˙1 x˙2 λ˙1 λ˙2 = = = = x2 −x2 − λ2 −x1 −λ1 con las condiciones de contorno que correspondan. 16.2 Control óptimo por conmutación 16.2.1 Control en tiempo mı́nimo de un sistema de segundo orden Supóngase un móvil sin rozamiento, cuyo movimiento está controlado por una fuerza u que está acotada (|u| < 1). La ecuación dinámica del movimiento es d2 y =u dt2 que admite la representación por variables de estado: x˙1 = x2 x˙2 = u y = x1 Principio del Mı́nimo de Pontriagin 409 El control en tiempo mı́nimo consiste en determinar en cada instante t, la fuerza que hay que aplicar u(t) de manera que evolucione desde un estado inicial (x1 , x2 ) al origen (0, 0), en un tiempo mı́nimo. El ı́ndice de funcionamiento vendrá dado por J= Z T 0 dt = T (16.32) por lo tanto, se tiene que, L(x, u) = 1 (16.33) En primer lugar se procede a formar la hamiltoniana H = 1 + λ1 x2 + λ2 u Es claro que H alcanzará el valor mı́nimo • si λ2 < 0 haciendo u = +1 • si λ2 > 0 haciendo u = −1 es decir, u∗ (t) = −sgn (λ2 (t)) por lo que la hamiltoniana minimizada resultará ser H ∗ = 1 + λ1 x2 − λ2 sgn (λ2 ) Las ecuaciones adjuntas resultan ser en este caso ∗ ∂H λ˙1 = − =0 ∂x1 ∂H ∗ λ˙2 = − = −λ1 ∂x2 cuya integración conduce a λ1 = k1 λ2 = −k1 t + k2 Se observa que λ2 es monótona (creciente o decreciente, según los signos de k1 y k2 ), por lo que cambiará de signo, a lo sumo, una sola vez. Por lo tanto u, o bien tomará solo uno de los valores +1 o −1 hasta alcanzar el origen, o cambiará una sola vez de valor antes de alcanzarlo. Principio del Mı́nimo de Pontriagin 410 En cualquir caso, las únicas señales que se aplicarán al sistema serán + 1 ó 1. Por lo tanto interesa estudiar cómo evoluciona el sistema cuando u = +1, y cuando u = −1. Para u = +1 se tiene, x2 = t + c 1 t2 x1 = + c1 t + c2 2 es decir, x22 = 2x1 + c3 siendo c3 = c21 − 2c2 . La anterior expresión puede representarse gráficamente como se hace en la figura 16.9a. x2 t 0 x1 a) A B u = +1 x2 t 0 x1 u = −1 b) Figura 16.9: La única trayectoria que pasa por el origen es AO, luego será por esta trayectoria por la que deberá alcanzarse el origen. Para u = −1 se demuestra analogamente que las trayectorias vienen dadas Principio del Mı́nimo de Pontriagin 411 por x2 = −2x1 + c4 lo que se representa graficamente en la figura 16.9b. Las mismas consideraciones hechas anteriormente para la trayectoria AO valen aquı́ para la trayectoria BO. Los resultados anteriores pueden resumirse en la figura 16.10. x2 u = −1 B 0 x1 A u = +1 Figura 16.10: Del exámen de esta figura se desprende que, 1. Si el estado inicial se encuentra sobre AO(BO) se aplica u = +1(u = −1) y no se produce ninguna conmutación. 2. Si el estado inicial se encuentra por debajo (por encima) de BOA se aplica u = +1(u = −1) hasta que el estado, recorriendo la parábola correspondiente, alcance la lı́nea BO(AO) en cuyo caso se conmutará la señal de mando haciendo u = −1(u = +1). De acuerdo con lo anterior la curva de conmutación vendrá dada por 1 x 1 = − x2 | x2 | 2 de manera que la ley de control será, u∗ = sgn (²) Principio del Mı́nimo de Pontriagin siendo, 412 1 ² = −x1 − x2 | x2 | 2 Esta ley de control puede realizarse practicamente con un esquema como el de la figura 16.11. yr = 0 + ε +1 u0 1 s -1 - + + 1 s x1 k | x2 | 1 2 x2 x x2 +1 Figura 16.11: Ley de control Debe observarse que, en cierta manera, lo que se ha hecho ha sido determinar una ley de control, puesto que la señal de mando que se aplica en cada instante, a partir de las consideraciones anteriores, depende únicamente del estado del sistema. 16.2.2 Ejemplo 4: Problema del alunizaje suave Determinar la ley de control óptima que transfiera al módulo lunar (figura 16.12) desde una posición inicial (z(0), ż(0), M (0)) a la posición final (0, 0, M (T )) con un consumo mı́nimo de combustible. La señal de control u está acotada por 0 < u < Q. Solución Haciendo x1 = z, x2 = ż, las ecuaciones dinámicas del sistema se transforman en x˙1 = x2 (16.34) Principio del Mı́nimo de Pontriagin 413 ku Mg z Figura 16.12: ”Aterrizaje lunar” ku M x˙2 = −g + (16.35) Observese que M depende del tiempo, de modo que M (t) = M (0) − Se supone que Z t 0 udt ∆M M (T ) − M (0) = M M (0) es muy pequeña, de modo que la expresión (16.35) puede considerarse correcta en primera aproximación. El criterio a minimizar es J= Z T 0 udt por lo que Ã H = u + λ1 x2 + λ2 es decir Ã ku −g + M ! kλ2 H = λ1 x2 − λ2 g + u 1 + R M (0) − 0t udt ! Minimizando H respecto a u se observa que el control viene dado por Ã • u = 0 si kλ2 1+ R M (0) − 0t udt ! >0 Principio del Mı́nimo de Pontriagin Ã • u = Q si 414 kλ2 1+ R M (0) − 0t udt ! <0 Las ecuaciones adjuntas son ∂H = 0 ⇒ λ1 = k1 λ˙1 = − ∂x1 ∂H λ˙2 = − = −λ1 ⇒ λ2 = −k1 t + k2 ∂x2 El que λ2 crezca (o decrezca) linealmente con el tiempo implica que el signo de Ã kλ2 1+ R M (0) − 0t udt ! cambie una vez como máximo, y por lo tanto u sólo toma los valores 0 y Q una sola vez en la trayectoria óptima. Cuando u = 0 (caida libre del modelo), las ecuaciones dinámicas toman la forma: x˙1 = x2 x˙2 = −g de donde se tiene x2 = −gt + x2 (0) = −gt + ż(0) (16.36) y t2 + z(0) + ż(0)t 2 De la ecuación (16.36) despejamos el tiempo x1 = −g t= (16.37) ż(0) − x2 g y lo sustituimos en la ecuación (16.37) x1 = z(0) + ż 2 (0) x22 − 2g 2g es decir, x22 = ż 2 (0) + 2g(z(0) − x1 ) esta expresión da la familia de trayectorias en el plano de estado, en función de las condiciones iniciales z(0), ż(0). Principio del Mı́nimo de Pontriagin 415 x2 z(0) x1 ż(0) u=0 Figura 16.13: En la figura 16.13 se representan las trayectorias correspondientes Cuando u = Q ẋ1 = x2 ẋ2 = −g + kQ kQ = −g Rt M (0) − Qt M (0) − 0 udt Integrando la segunda de las anteriores expresiones se tiene x2 − ż(0) = −k (ln(M (0) − Qt) − ln M (0)) − gt lo que llevado a la primera x˙1 = x2 = ż(0) − k ln(M (0) − Qt) + k ln M (0) − gt es decir Ã ! Ã ! M (0) Qt Qt t2 1− ln 1 − − g + k ln M (0)t x1 − z(0) = ż(0)t + k Q M (0) M (0) 2 En el último paso se ha tenido en cuenta que Z ln xdx = x ln x − x Las trayectorias en el plano de fase corresponden a curvas de la forma que se indica en la figura 16.14. La única trayectoria que pasa por el origen es la AB, y es por lo tanto la curva de conmutación, como la señal u solo cambiaba de valor una vez en la trayectoria Principio del Mı́nimo de Pontriagin ż(0) 416 z(0) B x1 CHOQUE A u=Q x2 Figura 16.14: óptima, cualquier trayectoria del móvil corresponderá a una caida libre si se encuentra por encima de la trayectoria AB. Las ecuaciones paramétricas de la trayectoria AB corresponden a Ã g kM (0) Qτ z = − τ 2 − kτ = ln 1 − 2 Q M (0) Ã ! Qτ ż = gτ + k ln 1 − M (0) ! x2 u=Q Zo d na k=0 ho ec Choque con velocidad x1 Zona de caida libre qu e Linea de conmutacion Figura 16.15: En la figura 16.15 se representa la evolución conjunta de las representadas en las figuras 16.13 y 16.14. Tema 17 Principio de optimalidad de Bellman 17.1 Introducción Dado un criterio de optimalidad, las N señales de mando o decisiones que conducen el sistema del estado A al B, de acuerdo con este criterio, y a través de N pasos sucesivos, son tales que cualquiera que sea el estado C resultado de aplicación de la primera de ellas, las N − 1 señales restantes dan lugar a una trayectoria óptima de C a B. Al cumplirse lo anterior para el primer paso es evidente que se cumple para cualquier paso intermedio. Gráficamente se interpreta en la figura 17.1, diciendo que si la trayectoria AB es óptima, lo mismo lo es la CB. Es decir una trayectoria óptima tiene la propiedad de que cualesquiera que sean el estado inicial y la primera acción tomada sobre el sistema, las restantes acciones deben constituir una trayectoria óptima a partir del estado resultante de la primera acción. Obsérvese que se exige que B sea siempre el estado final. Es decir, que un tramo de la trayectoria AB, que no acabe en B, no puede considerarse óptimo. 417 Principio de optimalidad de Bellman 418 B C A Figura 17.1: Principio de optimalidad: si la trayectoria AB es óóptima, también lo es la CB. Ejemplo Se trata de determinar la trayectoria óptima de A a P , en 6 etapas. Los tramos de cada porción de la primera trayectoria están penalizados con un costo que se representa en la figura 17.2 con un número sobre el correspondiente tramo. El criterio de optimalidad es el minimizar el costo total del recorrido. Se considera en primer lugar la quinta y la sexta etapa (figura 17.3). En cada uno de los nudos se escribe un número rodeado por un circulo que representa el coste mı́nimo del recorrido desde dicho nudo a P , supuesto por la trayectoria óptima. Es evidente que desde N y O, al no haber opción el correspondiente número será el costo de la trayectoria. Lo mismo sucederá desde K y M , desde los que las únicas trayectorias posibles son KN P y M OP , de costos 8 y 9 respectivamente. Sin embargo desde L dos trayectorias son posibles, la IN P y la LOP de costos 7 y 8 respectivamente. Por lo tanto la óptima será la LN P y se encerrará un 7 en el circulo correspondiente. Obsérvese que a lo largo de la trayectoria óptima la diferencia entre los números encirclados es igual al costo del tramo correspondiente. De la misma manera se puede estudiar la 4 etapa (figura 17.4). Debe notarse que en este paso ya se obtiene un notable beneficio de los cálculos anteriores y que al, por ejemplo, calcular la trayectoria óptima desde H, se tiene en cuenta las trayectorias óptimas desde K y desde L, y no se tiene que volver a calcular todo el trayecto. De hecho lo que se hace es decidir entre HK y HL de Principio de optimalidad de Bellman 419 G 6 4 D K 6 9 3 4 N H B 2 2 1 A 7 2 8 E 5 L 3 P 7 3 5 I C 4 3 O 1 5 6 M F 5 9 J 1 2 3 4 5 6 Figura 17.2: Retı́culo de trayectos posibles entre A y P . 8 K 7 5 N P L 9 3 O M Figura 17.3: Las dos últimas etapas para llegar a P . 7 Principio de optimalidad de Bellman 420 14 G 12 H 8 K 7 5 N P 14 I 18 L 9 3 O M J Figura 17.4: Las tres últimas etapas para llegar a P . Principio de optimalidad de Bellman 421 manera que la suma del costo correspondiente al nuevo tramo y el costo óptimo a K o a L (número encirclado), sea mı́nimo. Procediendo de esta manera se llega a cubrir todo el diagrama con los costos mı́nimos desde los correspondientes nudos. De la figura 17.5 y de los anteriormente expuestos, se deduce que la trayectoria óptima es la ABEHKN P . 14 G 18 16 17 B D 12 H 14 8 K 7 5 N P A 17 C E 14 I 15 F 18 L 9 3 O M J Figura 17.5: Trayectoria óptima de A a P . 17.1.1 Ejemplo de un sistema binario en tiempo discreto Sea un sistema que admite una entrada u(k) que toma únicamente los valores 0 y −1, para todo k discreto. La ecuación que gobierna la evolución del mismo es la siguiente: x(k + 1) = x(k) + u(k) (17.1) Se trata de encontrar la secuencia u(k), k = 0, 1, 2, 3 que transfiera el estado del sistema de x(0) = 2 a x(4) = 0 de manera que se minimice la función de costo J= 3 X | 5x(k) − 3 | (17.2) t=0 Para una mejor comprensión del método se empleará un diagrama sobre un plano x − y, en donde en el eje y se representa el estado del sistema (17.1) y en el eje x el ı́ndice k (figura 17.6). En dicho diagrama se tienen unos circulos correspondientes a los distintos pares (x, k) y unas flechas que los unen. Estas últimas llevan asociados números que representan el costo de la transición de un punto a otro, y se calculan según (17.2). Este costo depende exclusivamente del estado previo. Principio de optimalidad de Bellman 7 A 2 13 7 11 9 7 7 x(t) 422 7 2 2 6 1 4 2 2 2 2 6 3 3 3 0 B t 0 1 2 3 4 Figura 17.6: Trayectorias posibles desde A hasta B. En cuando a los circulos, tienen también números cuya generación se va a ver a continuación. Estos números representan Ji∗ (x). En primer lugar, considérese k = 3, y J1∗ . Para los dos valores posibles de x, x = 0 y x = 1 que conducen a B, los valores de J1∗ correspondientes son: J1∗ (0) = 3 J1∗ (1) = 2 Puesto que no hay diferentes rutas desde los dos puntos no se requiere minimización. Sea ahora k = 2. Los puntos en los que se puede iniciar el proceso son en este caso x = 0, 1, 2. Para x = 0, 2 no existe problemas de adopción de ruta pero para x = 1 si es posible aplicar u = 0 ó u = −1. En tal caso se tiene, J2∗ (1, 2) = min[2 + J1∗ ] = 4 u De la misma forma se procede para t=1, resultando J3∗ (0) = 9 J3∗ (1) = 6 J3∗ (2) = 11 y asimismo para k = 0, siendo en ese caso J4∗ (2) = 13 (17.3) (17.4) (17.5) Principio de optimalidad de Bellman 423 Una vez realizados los cálculos anteriores la determinación de la trayectoria óptima es ya un problema trivial. Los distintos tramos de la misma estarán ∗ formados de acuerdo con la regla Ji∗ (x1 ) − Ji−1 (x2 ) = costo de la transición de x1 a x2 . De acuerdo con este criterio, cuya interpretación es obvia, se obtiene la trayectoria de trazo fuerte de la figura 17.7. 7 A 2 7 13 11 9 7 7 x(t) 7 2 2 6 1 4 2 2 2 2 6 3 3 3 0 B t 0 1 2 3 4 Figura 17.7: Trayectoria óptima entre A y B, en trazo grueso. 17.1.2 Programación dinámica en tiempo discreto y Principio de Optimalidad El ejemplo anterior admite la siguiente generalización. Sea un sistema dinámico en tiempo discreto x(k + 1) = f (x(k), u(k), k) (x(T ), T ) ∈ B cuyo funcionamiento se pretende que optimece el criterio J= TX −1 L(x(k), u(k), k) + S(x(T ), T ) (17.6) t0 En lugar de considerar el problema correspondiente con un estado e instante inicial dados (x(t0 ), t0 ), vamos a considerar el problema más general con un estado y condiciones iniciales (x, t) arbitrarias. Para cada uno de estos problemas se define la función V (x, t) = min J Es decir, para cada (x, t) la función V (x, t) nos da el coste óptimo, desde ese estado y tiempo. Si recordamos los dos ejemplos anteriores veremos que la Principio de optimalidad de Bellman 424 función V (x, t) toma, en esos problemas, el valor que se representa en las figuras 17.5 y 17.6 en el interior de un pequeño cı́rculo. Para la aplicación de la programación dinámica, conviene observar, en primer lugar, que el criterio (17.6) es aditivo. Debido precisamente a este carácter aditivo y aplicando el principio de optimalidad de Bellman se tiene que V (x, t) = min u(t),u(t+1),...  "T −1 X # L(x(k), u(k), k) + S(x(T ), T ) t  = min L(x(t), u(t), t) + u(t) min u(t+1),u(t+2),... TX −1   L(x(k), u(k), k) + S(x(T ), T ) t+1 es decir, el valor de V es el mı́nimo de la suma del primer paso que se toma desde (x, t) más el valor óptimo desde el resultado de ese primer paso. Recuérdese como se calculaban los números encirclados en los dos ejemplos anteriores. La anterior expresión se puede escribir V (x, t) = min [L(x(t), u(t), t) + V (f (x, u, t), t + 1)] u∈U Las condiciones en los lı́mites correspondientes al problema son V (x, T ) = S(x(T ), T ) además, la ley de control óptima se determina en cada etapa mediante la expresión u(x, t) = arg min [L(x(t), u(t), t) + V (f (x, u, t), t + 1)] u∈U Conviene resaltar que este método nos ha conducido de manera natural a que la solución toma la forma de una ley de control, y no de una señal de control como sucedı́a en la solución del control óptimo mediante métodos variacionales. 17.2 Programación dinámica y ecuación de Hamilton-Jacobi-Bellman Para sistemas en tiempo discreto, el principio de optimalidad de Bellman da lugar, de una forma muy sencilla, a recurrencias que permiten determinar la secuencia óptima de señales de control, como hemos visto en los ejemplos anteriores. Para sistemas en tiempo contı́nuo, el anterior principio puede aplicarse también. Con el Principio de optimalidad de Bellman 425 fin de precisar la aplicación del principio de optimalidad de Bellman a sistemas en tiempo continuo supóngase el problema de control óptimo definido por el sistema dinámico: ẋ = f (x, u) (17.7) y el criterio de funcionamiento: J(x, u) = Z T 0 L(x, u)dt + S(x(T ), T ) (17.8) siendo u ∈ U (x(T ), T ) ∈ B (17.9) Para sistemas en tiempo continuo el principio de optimalidad de Bellman puede enunciarse de la forma siguiente: Si u∗ (τ ) es óptimo en el intervalo [t, T ], partiendo del estado x(t), entonces u∗ (τ ) es necesariamente óptimo en el subintervalo [t + ∆t, T ] para cualquier ∆t tal que T − t ≥ ∆t > 0. Graficamente puede interpretarse mediante la figura 17.8, en que se representa la trayectoria óptima que une el estado inicial (x, t) con el estado final (x(T ),T ) por medio de la curva AB. x x(T ) B (x, t) A t C t + ∆t T Figura 17.8: Trayectoria óptima contı́nua de A a B. Si inicialmente el sistema se encuentra en (x, t), al cabo de ∆t unidades de tiempo, el sistema se encontrará en el punto C. Según el principio de optimalidad de Bellman, si AB es una trayectoria óptima, entonces CB será a su vez otra trayectoria óptima. Principio de optimalidad de Bellman 426 Demostración Se procede por contradicción. Supóngase que existe un u∗∗ tal que dé un valor menor para Z T t+∆t L(x, u, τ )dτ + S(x(T )) que el que daba u∗ en el subintervalo [t + ∆t, T ]. Considérese una nueva señal de control u(τ ) dada por ( u(τ ) = u∗ (τ ), u∗∗ (τ ), para para t ≤ τ ≤ t + ∆t t + ∆t ≤ τ ≤ T (17.10) Entonces en el intervalo [t, T ] se tendrá Z t+∆t t < L(x∗ , u∗ , τ )dτ + Z t+∆t t Z T t+∆t Z T L(x∗ , u∗ , τ )dτ + L(x∗∗ , u∗∗ , τ )dτ + S(x∗∗ (T )) t+∆t L(x∗ , u∗ , τ )dτ + S(x∗ (T )) (17.11) Pero se ha partido del supuesto de que u∗ es óptimo en el intervalo [t, T ], y (17.11) implica que u dado por (17.10) da lugar a un valor para J menor que el óptimo. Lo que está en contradicción con el supuesto del que se habı́a partido. Conviene observar que en las expresiones anteriores x∗ denota la trayectoria del estado correspondiente a la señal de control u∗ , x∗∗ la correspondiente a u∗∗ y x∗ = x∗∗ para τ = t + ∆t, puesto que u y u∗ son las mismas en el intervalo [t, T ]. La idea fundamental de la programación dinámica consiste en separar la operación de minimización en dos niveles, separación que es lı́cita por las dos razones siguientes: • el criterio J es aditivo con relación a la trayectoria, • el comportamiento dinámico está representado por una ecuación diferencial de primer orden. Con el fin de aplicar el principio de optimalidad de Bellman conviene definir la función: V (x, t) = J ∗ (x, t) Principio de optimalidad de Bellman 427 siendo J ∗ (x, t) el valor de la funcional J cuando se recorre la trayectoria óptima desde el estado (x, t). Por tanto: ∗ V (x, t) = J (x, t) = umin [t,T ] "Z T t # L(x(τ ), u(τ )) dτ + S(x(T ), T ) con: u[t,T ] = {u(τ )|t ≤ τ < T } es decir, u[t,T ] es el conjunto de todas las acciones de control posibles en el intervalo [t, T ]. Recordando la figura 17.8, tenemos que si el valor del funcional J para la trayectoria óptima que se inicia en (x, t) se representa por V (x, t), entonces el valor de J para la trayectoria CB, vendrá dado por V (x + ∆x, t + ∆t). Es decir, V (x + ∆x, t + ∆t) es el coste mı́nimo del proceso para el intervalo (t + ∆t, T ). Además, por el principio de la optimalidad sabemos que si la trayectoria AB es óptima, también lo será la trayectoria CB. Todo ello permite escribir "Z V (x, t) = min u[t,T ] t+∆t "Z L(x(τ ), u(τ ))dt + min u[t+∆t,T ] t T t+∆t ## L(x, u, t)dt + S(x(T ), T ) (17.12) es decir, "Z V (x(t), t) = min u[t,T ] t+∆t t # L(x(τ ), u(τ ))dτ + V (x(t + ∆t), t + ∆t) (17.13) En esta última expresión se ha tenido en cuenta el que el valor mı́nimo V a partir del estado x(t+∆t) en el tiempo t+∆t viene dado por V (x(t+∆t), t+∆t). Conviene observar que empleando el principio de optimalidad, el problema a determinar el control óptimo sobre el intervalo [t, T ] se ha reducido al de determinar el control óptimo sobre el intervalo reducido [t, t + ∆t]. Aplicando el teorema de la media al primer miembro del segundo término de (17.13), se tendrá Z t+∆t t Ldt ' L∆t (17.14) es decir, V (x, t) = min[L∆t + V (x + ∆x, t + ∆t)] u(τ ) (17.15) siendo u(τ ) la señal óptima en el intervalo t ≤ τ ≤ t + ∆t. Desarrollando en serie V (x + ∆x, t + ∆t) en torno a (x, t) (en el supuesto de que tanto V como f sean Principio de optimalidad de Bellman 428 suficientemente diferenciables ) se tendrá, V (x + ∆x, t + ∆t) = V (x, t) + ∂V ∂V ∆x + ∆t + ... ∂x ∂t (17.16) ∂V ∂V en donde representa el vector gradiente de V con relación a x, y representa ∂x ∂t la derivada parcial de V con relación a t. Llevando (17.16) a (17.15), y despreciando variaciones de orden superior, se tiene " # ∂V ∂V V (x, t) = min L∆t + V (x, t) + ∆x + ∆t (17.17) u(τ ) ∂x ∂t ∂V ∆t no están afectados por la minimización (puesto que ∂t no dependen de u(τ )) por lo que la expresión anterior se puede escribir: Los términos V (x, t) y " # ∂V ∂V min L∆t + ∆x + ∆t = 0 u(τ ) ∂x ∂t (17.18) Dividiendo por ∆t, haciendo ∆t → 0 se tiene: # " ∂V ∂V ẋ + =0 min L(x, u, t) + u(t) ∂x ∂t (17.19) Esta ecuación se conoce bajo el nombre de ecuación de Hamilton-JacobiBellman. Para resolver la ecuación de optimización (17.19) se procede en dos pasos. En el primero se realiza la minimización indicada. Ello conduce a " # ∂V (x, t) u(x, t) = arg min L(x, u, t) + f (x, u, t) u(x,t) ∂x (17.20) Es decir a una ley de control de la forma Ã ∂V , x, t u =φ ∂x ! ∗ (17.21) El segundo consiste en sustituir (17.21) en (17.19) y resolver la ecuación no lineal en derivadas parciales L(x, φ, t) + ∂V ∂V f (x, φ, t) + =0 ∂x ∂t (17.22) Principio de optimalidad de Bellman 429 con las condiciones de contorno V (x, T ) = S(x(T ), T ) (17.23) sobre B. Observando la expresión (17.22) y recordando la definición hamiltoniana parece apropiado escribir H(x, φ, t) = L(x, φ, t) + ∂V f (x, φ, t) ∂x (17.24) con lo que la expresión (17.22) puede escribirse H(x, φ, t) + ∂V =0 ∂t (17.25) En general no es posible resolver analı́ticamente esta ecuación en derivadas parciales. Sin embargo, en la sección siguiente se presentará un caso general para el que si tiene solución. En el caso de que sea posible esta solución y se determine V , entonces se calcula el gradiente de V con respecto a x y se tiene la ley de control óptima por realimentación del estado Ã ! ∂V u =φ , x, t = k(x, t) ∂x ∗ (17.26) Debe observarse que la resolución de la ecuación de Hamilton-Jacobi-Bellman es sólo una condición necesaria para la optimización. Con vistas a las aplicaciones el método anteriormente expuesto se puede sintetizar en los siguientes cinco pasos: 1. Formar la hamiltoniana, sustituyendo λ por Ã ∂V H x, u, ∂x Ã ∂V . ∂x ! =L+ ∂V f ∂x (17.27) ! ∂V , t con relación a u ∈ U para obtener 2. Minimizar H x, u, ∂x Ã ∗ u =u ∗ ∂V x, ∂x ! (17.28) Principio de optimalidad de Bellman 430 3. Determinar la hamiltoniana minimizada Ã H ∗ ∂V x, ∂x ! Ã ∂V = H x, u , ∂x ∗ ! (17.29) 4. Resolver la ecuación de Hamilton-Jacobi-Bellman que, con la introducción de la hamiltoniana minimizada, queda convertida en, Ã H ∗ ∂V x, ∂x ! + ∂V =0 ∂t (17.30) Esta ecuación en derivadas parciales recibe la denominación de ecuación de Hamilton-Jacobi. Esta ecuación admite las condiciones de contorno dada por la expresión (17.23). 5. Llevar los resultados de 4 a 2 para obtener la ley de control óptima. Es decir, una vez se ha determinado V (x, t) se puede determinar su gradiente ∂V y llevarlo a la ecuación (17.28) para obtener la ley de control óptima ∂x u∗ (x, t). Estos pasos se resumen en el cuadro siguiente: Resumen de la aplicación del metodo de Hamilton-Jacobi-Bellman a la determinación del Control Optimo Principio de optimalidad de Bellman 431 Se da el sistema ẋ = f (x, u) Se da el criterio J= Paso 1 Se Ãforma la Hamiltoniana ! ∂V ∂V , t = L(x, u) + f (x, u) H x, u, ∂x ∂x RT 0 L(x, u)dt + S(x(T ), T ) Ã Paso 2 ∗ Se determina u = u Ã minimice H x, u, ∗ ! ∂V x, , t admisible tal que ! ∂x ∂V , t con respecto a u ∈ U ∂x Paso 3 Se determina mı́nima Ã !la Hamiltoniana Ã ! ∂V ∗ ∗ ∂V H x, , t = H x, u , ,t ∂x ∂x Paso 4 Se resuelve el!sistema de ecuaciones en derivadas parciales Ã ∂V ∂V H ∗ x, ,t + =0 ∂x ∂t con las condiciones de contorno V (x, T ) = S(x(T ), T ). Se obtiene V ∗ (x, t). Paso 5 Se determina u∗ (x) En general, la aplicación del método anterior presenta dos dificultades que limitan grandemente su empleo. En primer lugar, es generalmente imposible resolver la ecuación de Hamilton-Jacobi aún para problemas sencillos, puesto que no se conoce una técnica general de resolución para ese tipo de ecuaciones en derivadas parciales. Por otra parte, aún si la ecuación de Hamilton-Jacobi puede resolverse, la ley de control obtenida es normalmente muy dificil de realizar fı́sicamente. Las anteriores razones hacen que, desde un punto de vista práctico, sea más interesante el principio de Pontriagin que la ecuación de Hamilton-Jacobi-Bellman Principio de optimalidad de Bellman 432 en la resolución del problema de control. Sin embargo, existe un caso para el que el método de Hamilton-Jacobi-Bellman es el idóneo. Es el de la determinación de la ley de control para un sistema dinámico lineal invariante en el tiempo, cuando el criterio de funcionamiento es cuadrático. Este problema es de por sı́ lo suficientemente interesante como para justificar el estudio del método de Hamilton-Jacobi-Bellman. Ejemplo 1 Determinar la ley de control óptimo para el sistema ẋ = u con el ı́ndice Z T J= 0 (x2 + u2 )dt 1. Se forma la hamiltoniana H = x 2 + u2 + ∂V u ∂x 2. Se minimiza la hamiltoniana ∂H ∂V = 2u + =0 ∂u ∂x lo que da u∗ = − 1 ∂V 2 ∂x 3. Se forma la hamiltoniana mı́nima 1 H =x − 4 ∗ 2 Ã ∂V ∂x !2 4. Se tiene la ecuación de Hamilton-Jacobi-Bellman 1 ∂V + x2 − ∂t 4 Ã ∂V ∂x !2 Con la condición de contorno V (x(T ), T ) = 0 =0 Principio de optimalidad de Bellman 433 Una forma de resolver la ecuación de Hamilton-Jacobi-Bellman es asumir una solución, y comprobar si satisface la ecuación y las condiciones de contorno. Supóngase una solución de la forma V (x, t) = k(t)x2 en donde k(t) es una función a ser determinada. Se tendrá ∂V = 2k(t)x ∂x ∂V = k̇x2 ∂t Por tanto la ecuación de Hamilton-Jacobi-Bellman se convierte en 1 k̇x2 + x2 − (4k 2 x2 ) = 0 4 es decir k̇ + 1 − k 2 = 0 De V (T ) = 0 se tiene k(T ) = 0. La solución es k(t) = tanh(T − t) y, por tanto, u∗ = − tanh(T − t)x(t) 17.2.1 Relación entre la programación dinámica y la formulación Hamiltoniana del problema de control óptimo Recordemos la ecuación de Hamilton-Jacobi-Bellman " # ∂V ∂V (x, t) + min L(x, u, t) + f (x, u, t) = 0 u(t) ∂t ∂x (17.31) Si V es suficientemente diferenciable y suponiendo que el mı́nimo se alcanza en un punto interior a U, la expresión anterior es equivalente a  ∂V    L(x, u, t) + f (x, u, t) = 0 ∂x ∂L ∂V ∂f    + =0 ∂u ∂x ∂u Principio de optimalidad de Bellman 434 La segunda de estas expresiones caracteriza la ley u(x, t) que minimiza al hamiltoniano. En tal caso la primera de ella equivale a (17.31). ∂V Interesa calcular cómo evoluciona el vector a lo largo de una trayectoria ∂t óptima. Derivando con respecto al tiempo se tiene d ∂V ∂ 2V ∂ 2V = + 2 f (x, u) dt ∂t ∂t∂x ∂ x (17.32) Por otra parte, derivando (17.2.1) con relación a x se obtiene d ∂V ∂ 2V ∂2V ∂L ∂L ∂u ∂f ∂V ∂V ∂f ∂u = + 2 f (x, u) + + + + =0 dt ∂t ∂t∂x ∂ x ∂x ∂u ∂x ∂x ∂x ∂x ∂x ∂x de donde, teniendo en cuenta (17.2.1) y (17.32), se llega a d ∂V ∂f ∂V ∂L =− − dt ∂t ∂x ∂x ∂x Esta expresión es precisamente la ecuación adjunta o de coestado del método de Hamilton. Por tanto, a lo largo de una trayectoria óptima se puede identificar ∂V = λ(t) ∂t con lo que se pone de manifiesto la equivalencia de ambos planteamientos. Esta equivalencia resulta más notable cuando se tiene en cuenta la diferencia de planteamientos de los que se ha partido. 17.3 Control de sistemas dinámicos lineales con criterio cuadrático 17.3.1 Breve reseña histórica El problema del control lineal cuadrático tiene su origen en el trabajo de Norbert Wiener sobre filtrado cuadrático medio para el control de cañones antiaéreos durante la Segunda Guerra Mundial. Wiener empleó métodos basados en el dominio de la frecuencia para resolver este problema. Sin embargo aportó como novedad importante un desarrollo teórico que permitı́a un método analı́tico para resolver el problema de diseño. Este plantemiento analı́tico contrastaba con los métodos Principio de optimalidad de Bellman 435 de ensayos sucesivos con métodos gráficos, basados en el criterio de estabilidad de Niquyst, que entonces se empleaba. El método de Wiener permitı́a además tener en cuenta cuestiones tales como los ruidos de medida y otras perturbaciones de carácter aleatorio. Las ideas de Wiener fueron realaboradas durante los años 50 empleando la descripción interna de los sistemas y condujeron a lo que hoy se conoce como la teorı́a del control lineal cuadrático, que va a ser el objeto de lo que sigue y de los capı́tulos siguientes. De acuerdo con esta teorı́a el objetivo de un sistema de control es el minimizar un ı́ndice de funcionamiento cuadrático. Se trata de mantener a este sistema en un estado lo más cercano al de reposo x = 0. El costo correspondiente a las desviaciones del estado de reposo se expresa por J1 = Z T 0 xT Qxdt + xT (T )Sx(T ) sujeto a las restricciones que representan un sistema lineal ẋ = Ax + Bu Lo que recibe la denominación de problema del regulador lineal cuadrático o problema LQR (acrónimo de Linear Quadratic Regulator). Su solución, como veremos luego, se reduce a la de una ecuación diferencial de Ricatti. Durante el perı́odo 1.960-70 se desarrollaron muchos estudios teóricos sobre este problema. Las ventajas que presenta la solución de este problema sobre las técnicas de diseño clásicas son las siguientes: • Permite la optimización para intervalos de tiempo finito (los métodos en el dominio de la frecuencia de Wiener estaban limitados a intervalos de optimización infinitos); • son aplicables a sistemas que varı́an con el tiempo (los métodos en el dominio de la frecuencia están limitados a sistemas invariantes en el tiempo); y • permiten abordar de forma relativamente simple el problema de los sistemas multivariables. Sin embargo,la teorı́a LQR no aborda dos cuestiones muy importantes que aparecen en el diseño de sistemas de control realimentados: la falta de precisión en el modelo de la planta y los ruidos en los sensores. Además, la teorı́a LQR presupone el conocimiento del estado del sistema que, como ya se puso de manifiesto cuando se postuló la necesidad de los observadores, es frecuente que no esté Principio de optimalidad de Bellman 436 disponible. Como veremos en el capı́tulo siguiente, el problema lineal-cuadrático con perturbaciones aleatorias se reduce a la solución de dos ecuaciones de Riccatti desacopladas, ya que se puede demostrar que es posible separar este problema en dos: el problema del control óptimo con realimentación del estado, tal como se aborda en la teorı́a LQR y el problema de la estimación del estado. Esta separación puede justificar teoricamente en el caso de que las perturbaciones estocásticas sean gausianas, por lo que el problema lineal cuadrático estocástico se conoce comúnmente como el problema lineal-cuadrático-gausiano (LQG). 17.3.2 Problema LQR Sea un sistema dinámico lineal descrito por ẋ = Ax + Bu (17.33) Se trata de mantener a este sistema en un estado lo más cercano al de reposo x = 0. El costo correspondiente a las desviaciones del estado de reposo se expresa por Z J1 = T 0 xT Qxdt + xT (T )Sx(T ) (17.34) Por otra parte, el costo de la aplicación de una señal de mando u viene dado por J2 = Z T 0 uT Rudt (17.35) Las matrices Q y S son matrices semidefinidas positivas, y la matriz R es definida positiva. El problema consiste en determinar la señal u que debe aplicarse en cada instante para que el costo total J1 +J2 sea mı́nimo. Es decir, se trata de minimizar el funcional Z T J= [xT Qx + uT Ru]dt + xT (T )Sx(T ) (17.36) 0 Se supone que T está fijado de antemano, y que el estado final es libre. Q y R son matrices simétricas que representan los costes de la desviación del estado y del esfuerzo de control respectivamente. En la mayorı́a de las aplicaciones serán matrices diagonales, por lo que la funcionales J1 y J2 adoptarán normalmente la forma: J1 = Z T 0 (q1 x21 + q2 x22 + · · · + qn x2n ) dt Principio de optimalidad de Bellman J2 = Z T 0 437 (r1 u21 + r2 u22 + · · · + rm u2m ) dt para un sistema con n variables de estado y m señales de entrada. Si el sistema posee una sóla entrada, entonces la matriz R se convierte en un escalar, como es el caso de la planta que nos ocupa. Por último, pueden existir términos de control terminal, que deberán ser de la forma: xT (T )Sx(T ) siendo S una matriz simétrica. La hamiltoniana correspondiente a este problema es ∂V T H = x Qx + u Ru + (Ax + Bu) ∂x T T Haciendo (17.37) ∂H =0 ∂u se obtiene ∂V + 2Ru = 0 ∂x (17.38) 1 ∂V u∗ = − R−1 B T 2 ∂x (17.39) BT por lo tanto u∗ (x, t) está dado por Llevando este valor de u∗ a la hamiltoniana se tiene la hamiltoniana minimizada que resulta ser, H ∗ = xT Qx + ∂V T 1 ∂V T ∂V Ax − BR−1 B T ∂x 4 ∂x ∂x (17.40) La ecuación de Hamilton-Jacobi-Bellman correspondiente es ∂V ∂V ∂V 1 ∂V T + Ax − BR−1 B T + xT Qx = O ∂t ∂x 4 ∂x ∂x (17.41) con la condición de contorno V (x, T ) = xT Sx (17.42) Para la integración de (17.41) es razonable adoptar (como ya se hizo, con buenos resultados, en el ejemplo 1) una función de la forma: V (x, t) = xT P (t)x (17.43) Principio de optimalidad de Bellman 438 siendo P (t) una matriz real simétrica. Llevando (17.43) a la ecuación de HamiltonJacobi-Bellman (17.41) se tiene: xT Ṗ x + 2xT P Ax − xT P BR−1 B T P x + xT Qx = 0 o lo que es lo mismo ³ ´ xT Ṗ + 2P A − P BR−1 B T P + Q x = 0 (17.44) La matriz entre paréntesis no es simétrica, puesto que P A no lo es. Se sabe que toda matriz M puede escribirse: M = Ms + Ma (17.45) en donde Ms es simétrica (es decir, Ms = MsT ) y Ma es antisimétrica (es decir, Ma = −MaT ). Para demostrar (17.45) basta sumar y restar M T /2 a M , con lo que se tiene M MT M MT M= + + − 2 2 2 2 y comprobar que M MT Ms = + 2 2 es simétrica y M MT Ma = − 2 2 antisimétrica. De (17.45) se tiene que xT M x = xT Ms x + xT Ma x (17.46) Pero, puesto que (17.46) es un escalar, y xT Ma x = xT MaT x = −xT Ma x se tendrá que xT M x = xT Ms x Lo que equivale a decir que la matriz M asociada a una forma cuadrática puede escojerse simétrica. Además, sabemos que la parte simétrica de una matriz M viene dada por: Ms = M + MT 2 Principio de optimalidad de Bellman 439 Por tanto, toda forma cuadrática xT M x puede escribirse: xT M s x = xT M + MT x 2 Aplicando estas consideraciones a (17.44), para el caso M = P A, se llega a la siguiente ecuación: Ṗ + AT P + P A − P BR−1 B T P + Q = 0 (17.47) P (T ) = S que recibe la denominación de ecuación de Riccati. La resolución de esta ecuación permite obtener P (t), o, lo que es lo mismo V (x, t) = xT P (t)x La ecuación (17.47) es simétrica, como también lo es la matriz S que define las condiciones de contorno, por lo que también lo será la solución P (t). Esta simetrı́a sirve para simplificar el cálculo de P (t). En efecto, a primera vista puede parecer que la expresión (17.47) representa un conjunto de n2 ecuaciones diferenciales, ya que P (t) es una matriz n × n. Sin embargo, debido a la simetrı́a de P (t) el número de ecuaciones es en realidad de n(n + 1)/2. Otra propiedad importante de P (t) es su carácter definido positivo. Ello se debe a que para todo u(t) 6= 0 el valor de J (el coste del proceso) debe ser positivo, y por tanto ası́ debe ser V (x, t) = xT P (t)x, lo que impone el carácter definido positivo de P (t). Una vez determinado V (x, t) se procede a determinar la ley de control óptima, que resulta ser: 1 ∂V u∗ (x, t) = R−1 B T = −R−1 B T P x (17.48) 2 ∂x El resultado ha sido pues, una ley de control lineal, que se ha obtenido a partir de la imposición de un criterio de mı́nima varianza en las variables de estado y en el esfuerzo de control. Para encontrar la solución de la ecuación de Riccati será necesario imponer condiciones de contorno en P , que se obtendrán de los términos de control terminal: • Si J posee términos de control terminal, entonces P (T ) = S. • Si no existen dichos términos, entonces P (T ) = 0. Principio de optimalidad de Bellman 440 Un caso especialmente interesante es aquel en que T tienda a ∞. Entonces se dice que el problema tiene horizonte infinito. En tal caso, la matriz P se convierte en constante. En efecto, para cualquier par de instantes iniciales t1 y t2 , los valores tomados por V (x, t1 ) y V (x, t2 ) son iguales. Esto último es evidente ya que tanto el sistema como el ı́ndice de funcionamiento son invariantes en el tiempo, y por consiguiente una traslación finita en la escala de tiempos no debe afectar al problema (nos va a costar tanto llegar al infinito desde ahora que desde dentro de media hoira). Por tanto, la matriz P es constante. La matriz P puede determinarse resolviendo la siguiente ecuación AT P + P A − P BR−1 B T P + Q = 0 (17.49) la cual se obtiene de la expresión (17.47), haciendo Ṗ = 0. Esta ecuación recibe la denominación de ecuación de Riccati degenerada. La solución de la ecuación (17.49) no es única ya que es una ecuación del segundo grado en P . Sin embargo, si se impone la condición de que P sea definida positiva, entonces la solución es única. Tendremos, por tanto, una regulación mediante realimentación de variables de estado, con una ley de control lineal y constante en el tiempo. u = Kc x siendo Kc = −R−1 B T P (17.50) Debe observarse en las expresiones anteriores que la ley de control óptimo que se ha determinado es una ley de control lineal. Este es un resultado que ya se habı́a obtenido, a partir de otros supuestos, al estudiar el control de sistemas lineales para su estabilización. La estructura que se obtiene aquı́, que es la que se representa en la figura 17.9, es la misma que se encontró allı́. Esta identidad de estructuras constituye uno de los puntos más sobresalientes de la moderna teorı́a del control. Ejemplo 2 Ejemplo Supóngase el sistema dinámico ẋ = u Principio de optimalidad de Bellman y el criterio a minimizar J= 441 Z T 0 (x2 + u2 )dt De acuerdo con ello tiene que A = S = [0] B = Q = R = [1] Por lo que la ecuación de Ricati que debe resolverse es Ṗ + 1 − P 2 = 0 P (T ) = 0 Esta ecuación diferencial puede resolverse por separación de variables. Su solución es 1 − e−2(T −t) P (t) = 1 + e−2(T −t) Por lo que la ley de control óptima resulta ser u∗ = −P (t)x(t) Ejemplo 3 Determinar los coeficientes de la ley de control para el sistema ẋ = −3x + u siendo J= Z ∞ 0 (x2 + 0.1u2 )dt Por tanto, se tiene A = −3 B = 1 Q = 1 R = 0.1 luego la ecuación de Ricatti es −6P − 10P 2 + 1 = 0 y, en consecuencia, P = 0.1359 Por otra parte, Kc = −P = −1.359 0.1 luego u = −1.359x Principio de optimalidad de Bellman 442 Ejemplo 3 Determinar los coeficientes de la ley de Control para el sistema " 0 1 −2 −1 ẋ = si J= " T A P = " PA = Z ∞ 0 P BR " x+ 0 2 # u (x21 + u2 )dt −2p12 −2p22 p11 − p12 p12 − p22 −2p12 p11 − p12 −2p22 p12 − p22 " −1 # T B P = " Q= # # 4p212 4p12 p22 4p12 p22 4p222 1 0 0 0 # # La ecuación de Riccati AT P + P A − P B R−1 B T P + Q = 0 da lugar a tres ecuaciones, −2p12 − 2p12 − 4p212 + 1 = 0 (17.51) −2p22 + p11 − p12 − 412 p22 = 0 (17.52) 2(p12 − p22 ) − 4p222 = 0 (17.53) De (17.51) se tiene 4p212 + 4p12 − 1 = 0 cuya única solución positiva es p12 = 0.20710 llevada a (17.53) se tiene 4p222 + 2p22 − 2p12 = 0 cuya única solución positiva es p22 = 0.15311 Principio de optimalidad de Bellman 443 Eliminando p11 de (17.52) se tiene, p11 = 4p12 p22 + 2p22 + p12 = 0.64016 Por tanto, " P = 0.64016 0.20710 0.20710 0.15311 # Kc = R−1 B T P = [0.41420 0.30622] " u = −[0.41420 0.306322] u ẋ B R x1 x2 x # C y A −R−1 B T P Figura 17.9: Estructura de control de un sistema lineal con criterio cuadrático Una notable propiedad que tiene el sistema de control representado en la figura 17.9 es que es estable. En efecto, el sistema en bucle cerrado que resulta de aplicar la ley de control (17.48) viene dado por: ẋ = (A + BKc )x (17.54) ecuación que rige la evolución del estado en bucle cerrado. Es fácil ver que la función V (x) = xT P x (17.55) es una función de Liapunov para este sistema. En efecto, en primer lugar se tiene que puesto que P es definida positiva, V (x) lo será a su vez. Por otra parte se tiene que dV = (ẋT P x + xT P ẋ) (17.56) dt Principio de optimalidad de Bellman 444 teniendo presente las expresiones (17.54) y (17.49) se tiene dV = −xT (Q + P BR−1 B T P )x dt (17.57) es decir que dV /dt < 0 para todo x. Es decir V (x) cumple las propiedades que definen una función de Liapunov y, por lo tanto, el sistema es estable. Puesto que P BR−1 B T P es definida no negativa entonces para que dV /dt < 0 la matriz Q tiene que ser definida positiva. Es decir, si Q es definida positiva entonces la estabilidad asintótica está garantizada. La aplicación del anterior resultado requiere algunas matizaciones. En particular, conviene resaltar el hecho de que se requiere que Q sea positiva definida. Considérese el sistema ẋ = x + u con el ı́ndice de funcionamiento 1Z ∞ 2 J= u dt 2 0 (17.58) En este ı́ndice de funcionamiento conviene observar que no existen términos en x (en tal caso es evidente que Q = 0 por lo que Q no es positiva definida, sino definida no negativa). Quiere ello decir que se pondera únicamente el coste de actuación y no el coste de comportamiento. Este tipo de situación no es común en las aplicaciones. No obstante, y a los efectos formales que aquı́ interesan, vamos a continuar analizando este ejemplo. La solución óptima existe y es obviamente u∗ = 0. Lo cual quiere decir que en un sistema en el que lo único que se penaliza es el coste de actuación, y no se establecen especificaciones respecto al funcionamiento, lo mejor es no hacer nada. Pero siguiendo con los aspectos formales sucede que aplicando esa señal (o ley) de control el sistema en bucle cerrado resulta ser ẋ = x que es inestable. Esta inestabilidad es debida a que la trayectoria inestable et no contribuye al ı́ndice de funcionamiento. Es decir, no se manifiesta en (17.58). Se puede decir que los estados inestables no son observados por el ı́ndice de funcionamiento. Ello es debido aunque el sistema es controlable, no es ni observable ni detectable, ya que el modo inestable et no es observable. Conviene recordar que un sistema se dice detectable si los modos inestables son observables. Si todas las trayectorias, o al menos las inestables, son detectadas en la parte xT Qx del integrando del ı́ndice de funcionamiento, entonces la estabilidad asintótica del sistema de control óptimo realimentado queda a garantizar, ya que si algunas de estas variables de estado no convergen a cero el coste óptimo Principio de optimalidad de Bellman 445 J ∗ serı́a infinito. Todas las trayectorias del sistema se detectarán en xT Qx si Q es definida positiva. Por tanto el caracter definido positivo de Q es una condición suficiente para la estabilidad asintótica del regulador óptimo. Es posible, sin embargo, encontrar una condición menos restrictiva. Supongamos que Q es simplemente definida no negativa (lo que no es extraño en la práctica, como se verá en el ejemplo más abajo). La propiedad de estabilidad asintótica del sistema en bucle cerrado se conservará si todas las trayectorias se detectan en la parte xT Qx del integrando del ı́ndice de funcionamiento. Este recibimiento se cumple si el par (A, D) es completamente observable, en donde D es cualquier matriz tal que DT D = Q. Para que el sistema sea estable se rquiere que V̇ ≤ 0, estando V̇ dado por la ecuación (17.57). Supóngase que V̇ es idénticamente nulo a lo largo de una trayectoria que se inicia en un estado inicial no nulo x(0). Entonces xT Qx y xT P BR−1 B T P x son idénticamente nulos y −R−1 B T P x, el control óptimo para el sistema en bucle cerrado, es también idénticamente nulo. Por consiguiente, las trayectorias del sistema en bucle cerrado son las mismas que las del sistema en bucle abierto, que están dadas por x(t) = eAt x(0) ahora bien T xT Qx = xT (0)eA t QeAt x(0) T = xT (0)eA t DT DeAt x(0) debe ser idénticamente nulo. Esto contradice la hipótesis de que el par (A, D) es completamente observable, ya que la observabilidad de (A, D) implica que DeAt x(0) para algún t ∈ [0, ∞) si y sólo si x(0) = 0. En consecuencia es imposible tener V̇ idénticamente nulo a lo largo de una trayectoria que se inicie en un estado no nulo. Con ello queda garantizada la estabilidad asintótica del sistema en bucle cerrado para este caso. Se define la salida sintética como y = Dx (17.59) La observabilidad del par (A, D) implica que el sistema dado por las ecuaciones (17.33) y (17.59) es completamente observable. Principio de optimalidad de Bellman 446 Ejemplo Sea el sistema " ẋ = 0 1 0 0 # " x+ 0 1 # u que se pretende que minimice el ı́ndice de funcionamiento J= En este caso se tiene " A= 0 1 0 0 # Z ∞ 0 " B= 0 1 (x21 + u2 )dt # " Q= 1 0 0 0 # R = [2] La matriz D es tal que DT D = Q siendo h √ i D= 2 0 Es inmediato comprobar que (A, D) es observable. En consecuencia el sistema óptimo en bucle cerrado será asintóticamente estable. En efecto, resolviendo la correspondiente ecuación de Riccati tiene que # " √ 2 2 √ 2 P = 2 2 2 de modo que la ley de control viene dada por " √ #" # √ 1 2 2 2 x 1 √ u∗ (t) = − [0 1] = −x1 − 2x2 x2 2 2 2 2 que se puede comprobar que efectivamente da lugar a un sistema estable. 17.4 Ecuación de Riccati en el dominio de la frecuencia Vamos a modificar seguidamente la ecuación de Riccati, de forma que los resultados que ésta nos proporcione sean expresiones en términos de función de transferencia. Este planteamiento es totalmente análogo a la forma en que la hemos utilizado anteriormente, y los resultados a los que conduce son equivalentes. Principio de optimalidad de Bellman 447 Sea el sistema ẋ(t) = Ax(t) + Bu(t) dónde u es de dimensión 1, sometido al criterio de funcionamiento: J= Z ∞ 0 (xT Qx + ru2 )dt Suponemos r = 1 sin pérdida de generalidad, ya que podemos englobarlo en los coeficientes de Q. La solución a este problema es una ley de control lineal dada por: u = −kc x siendo kc = B T P (17.60) P se obtiene de la ecuación de Riccati: AT P + P A − P BR−1 B T P + Q = 0 Reordenando esta ecuación y teniendo en cuenta que R = 1: −P A − AT P = Q − P BB T P Sumando y restando P s al primer miembro se tiene: P (sI − A) + (−sI − AT )P = Q − P BB T P Recordando la matriz de transición entre estados Φ(s) = (sI −A)−1 y la expresión (17.60) se tiene: P Φ−1 (s) + (ΦT )−1 (−s)P = Q − kcT kc Premultiplicando por B T ΦT (−s) y postmultiplicando por Φ(s)B: B T ΦT (−s)P Φ−1 (s)Φ(s) B + B T ΦT (−s)(ΦT )−1 (−s) P Φ(s)B = | B T ΦT (−s)[Q − {z } | {z I T kc kc ]Φ(s)B } I T B T ΦT (−s) P B +B |{z} | {zP} Φ(s)B = kcT kc B T ΦT (−s)QΦ(s)B − B T ΦT (−s)kcT kc Φ(s)B La función de transferencia en bucle abierto cuando se aplica la ley de control (figura 17.10) es G(s) = kc Φ(s)B = B T ΦT (s)kcT , luego tenemos: G(−s) + G(s) = B T ΦT (−s)QΦ(s)B − G(−s)G(s) Principio de optimalidad de Bellman B 448 Φ(s) K Figura 17.10: Bucle abierto con realimentación del estado. que se puede reescribir de la forma: [1 + G(s)][1 + G(−s)] = 1 + B T ΦT (−s)QΦ(s)B (17.61) Definimos: F (s) ≡ 1 + G(s). F (s) se conoce como la función de diferencia del retorno. Ahora supongamos el segundo miembro factorizado de la forma: 1 + B T ΦT (−s)QΦ(s)B = ∆(s)∆(−s) (17.62) entonces: F (s)F (−s) = ∆(s)∆(−s) y por tanto: F (s) = ∆(s) llegamos a la expresión que nos da la función de transferencia del sistema con la realimentación de las variables de estado: G(s) = ∆(s) − 1 Debe observarse que mediante la factorización (17.62) se resuelve la ecuación de Riccati, aunque lo que se obtiene ahora es G(s), lo cual es equivalente a determinar kc , ya que ambas vienen relacionadas por la expresión G(s) = kc ΦB. Por tanto, la factorización (17.62) equivale a la resolución de la ecuación de Riccati. Con otras palabras, la factorización (17.62) permite resolver la ecuación de Riccati en el dominio de Laplace. Ejemplo En este ejemplo se va a mostrar el empleo de la ecuación de Riccati en el dominio de la frecuencia para la determinación de la ley de control. Sea el sistema ẋ = −x + u Principio de optimalidad de Bellman y el criterio J= 449 Z ∞ 0 (3x2 + u2 )dt En primer lugar el problema se va a resolver mediante la ecuación de Riccati, tal como se ha visto en la sección anterior. Para este problema se tiene que A = −1 B = 1 Q = 3 R = 1 por lo que la ecuación de Riccati correspondiente resulta ser −p − p − p2 + 3 = 0 es decir, p2 + 2p − 3 = 0 cuyas soluciones son p1,2 = 1, −3, por lo que la constante de la ley de control resulta ser k = 1. Vamos ahora a resolver el problema mediante la ecuación de Riccati en el dominio de la frecuencia. En primer lugar, se tiene que para este problema Φ(s) = 1 s+1 por lo que el primer miembro de la expresión (17.62) tomará la forma 1 + B T ΦT (−s)QΦ(s)B = 1 + 3 3 + (1 − s)(1 + s) = (1 − s)(1 + s) (1 − s)(1 + s) cuyo numerador se puede escribir 3 + (1 − s)(1 + s) = 4 − s2 = (2 − s)(2 + s) y por tanto (2 − s)(2 + s) = ∆(s)∆(−s) (1 − s)(1 + s) es decir ∆(s) = 2+s 1+s En consecuencia 2+s 1 −1= 1+s s+1 por lo que se obtiene el mismo valor para k que se obtuvo anteriormente. G(s) = ∆(s) − 1 = Conviene observar que aunque en este ejemplo, al ser de dimensión uno, el segundo método empleado aparentemente es más laborioso que el primero, no Principio de optimalidad de Bellman 450 sucede lo mismo para sistemas de dimensión mayor, por lo que el segundo método es el habitualmente empleado para determinar la ley de control, ya que para el único problema para el que se requieren métodos numéricos elaborados que es la factorización, se dispone de soluciones informáticamente deficientes. 2 Por otra parte, de la expresión (17.61) se deduce que los reguladores LQR presentan una robustez excelente. En efecto, si factorizamos Q de la forma Q = H T H y hacemos s = jω en (17.61) se obtiene: k1 + G(jω)k2 = 1 + kHΦ(jω)Bk2 de donde: k1 + G(jω)k > 1 Si interpretamos esta condición en el plano polar, la curva de G(jω) no puede entrar dentro de un circulo de centro −1 y radio 1, por lo que aseguramos un margen de fase mayor de 60 grados y un margen de ganancia infinito. 17.5 Resolución del problema LQR La solución dada al problema del control óptimo con criterio cuadrático de un sistema lineal. Este problema tiene un importante interés tanto teórico como práctico, ya que, como se ha visto posee las tres notables propiedades siguientes: • La adopción de la estructura de realimentación viene determinada por la solución del problema, y no por un presupuesto previo (como sucede en los métodos clásicos y en los de variables de estado). • La estabilidad del sistema en bucle cerrado está garantizada. • La robustez del sistema también está garantizada por el amplio margen de fase que posee. El problema LQR, tal como ha sido resuelto, supone que todas las variables de estado son accesibles. Esto no siempre es ası́ y cuando no lo son hay que proceder, al menos, a estimarlas. Es lo que se hace con los métodos que veremos en el próximo tema. Principio de optimalidad de Bellman 451 Resumen del problema lqr Se da el sistema ẋ(t) = Ax(t) + Bu(t) y el criterio de funcionamiento J= Ley de control ptima u∗ (t) = Kc x(t) siendo Kc = −R−1 B T P Ecuacin de Riccati AT P + P A − P BR−1 B T P + Q = 0 Valor optimo de J J ∗ = 12 xT (t)P x(t) R∞ 0 [xT Qx + uT Ru]dt + xT (T )Sx(T ) Tema 18 Estimación del estado 18.1 Noción de señal aleatoria Se define una variable aleatoria como aquella que, como resultado de un ensayo, toma un cierto valor imprevisible exactamente y dentro de un conjunto de valores permitidos. Para caracterizar completamente una variable aleatoria es necesario definir el conjunto de valores posibles, ası́ como la probabilidad de cada uno de ellos. Esta caracterı́stica reciben el nombre de ley de distribución. Estos conceptos se suponen conocidos y se recuerdan aquı́ a tı́tulo de revisión. Supóngase una variable aleatoria que varı́a con el tiempo, como, por ejemplo, el error de medida de una cierta magnitud que se dibuja continuamente en un registrador gráfico. El resultado de una prueba o ensayo es una medida que es función del tiempo. Una variable aleatoria de ésta naturaleza se llama una señal aleatoria o proceso estocástico. Una señal aleatoria se define, en consecuencia, como una variable función del tiempo, tal que, para cada valor del argumento, o para cada conjunto de valores, se comporta como una variable aleatoria (18.1). Para un cierto valor de t, el valor de la señal aleatoria x(t) es una variable aleatoria, para la que se puede definir una ley de distribución. Estas leyes de distribución reciben el nombre de distribuciones unidimensionales y se especifican por medio de la función de densidad de probabilidad unidimensional p1 (x; t), que en principio depende de t. 452 Estimación del estado 453 0 t1 t t1 t 0 0 t1 t Figura 18.1: Señal aleatoria De la misma manera y teniendo presente dos instantes de tiempo t1 y t2 se definen las distribuciones bidimensionales y la correspondiente función de densidad de probabilidad p2 (x1 , x2 ; t1 , t2 ) Lo anterior se puede generalizar para n instantes de tiempo, en cuyo caso se tiene la función de densidad de probabilidad pn (x1 , ..., xn ; t1 ..., tn ). Un proceso estocástico se dice estacionario si p1 (x, t) = p1 (x) p2 (x1 , x2 ; t1 , t2 ) = p2 (x1 , x2 ; t2 − t1 ) En realidad la estacionaridad ası́ definida no es la más general que cabe concebir pero sin embargo es suficiente a los efectos aquı́ interesan. Para un proceso estacionario sus caracterı́sticas estadı́sticas son invariantes por traslación temporal. 18.1.1 Descripción estadı́stica de las señales aleatorias Las caracterı́sticas de una señal aleatoria que aquı́ se van a considerar son su media, su covarianza y su función de autocorrelación. La media se define como mx (t) = E[x(t)] = Z ∞ ∞ xp1 (x; t)dx (18.1) en donde E representa la esperanza matemática. Si el proceso es estacionario su media permanece constante al variar el tiempo; es decir, se tiene E[x(t)] = mx constante. La media de un proceso estacionario se puede también definir como 1 ZT mx = lim xdt T →∞ 2T −T (18.2) Estimación del estado 454 Si (18.1) y (18.2) conducen al mismo resultado el proceso se llama ergódico. En lo que sigue los procesos que se considerarán serán ergódicos. Se define la covarianza de una señal aleatoria x(t) como: E[(x(t) − mx (t))(x(τ ) − mx (τ ))] = Z ∞ Z ∞ −∞ −∞ (x1 (t) − mx (t))(x2 (τ ) − mx (τ ))p(x1 , x2 ; t, τ )dx1 dx2 Por último, la función de autocorrelación se define como E[x(t)x(τ )] = Z ∞ Z ∞ −∞ −∞ x1 (t)x2 (τ )p(x1 , x2 ; t, τ )dx1 dx2 para procesos estacionarios la función de autocorrelación se reduce a 1 ZT x(t)x(t + τ )dτ E[x(t)x(t + τ )] = φxx (τ ) = lim t→∞ 2T T Ejemplo Sea la señal aleatoria definida por las siguientes propiedades. 1. Solo toma dos valores +a y −a 2. Permanece en uno de éstos valores durante un tiempo pasado el cual cambia 1 al otro o permanecen en aquel con probabilidad . 2 El aspecto de esta señal x(t) es la de la figura 18.2. La media de ésta señal es E[x(t)] = 0. Para determinar la función de autocorrelación se procede en dos pasos. 1. | τ |> θ En tal caso es evidente que φxx = 0. T− | τ | , las T señales x(t) y x(t + τ ) toman el mismo valor, y por lo tanto su producto es igual a2 . 2. | τ | θ Se ve en la figura que durante una fracción de tiempo Durante el resto del periodo, es decir durante una fracción de tiempo producto toma el valor +a2 ó −a2 , con probabilidad 12 . τ , T el Estimación del estado 455 x(t) −γ a) +1 0 γ 2γ 3γ t -1 Rxx (τ ) −γ 1 0 γ τ b) Figura 18.2: Señal aleatoria binaria De lo anterior se deduce E[x(t)x(t + τ )] = a2 T− | τ | |τ | |τ | + a2 − a2 T 2T 2T es decir Ã φxx (τ ) = a 2 |τ | 1− T ! Esta señal constituye una aproximación a una señal de gran interés, que es la señal blanca, que por definición es aquella cuya función de autocorrelación es un impulso de Dirac, es decir, φbb = Aδ(t) Esta señal no se presenta nunca en la práctica con las propiedades teóricamente exigidas. Sólo se tienen aproximaciones de las cuales la señal binaria considerada constituye una de las más interesantes. Una propiedad interesante de la función de autocorrelación de un proceso estacionario es φxx (τ ) = φxx (−τ ) Interesa definir también la función de la intercorrelación, o de correlación cruzada, entre dos señales aleatorias: 1 ZT x(t)y(t + τ )dt E[x(t)y(t + τ )] = φxy (τ ) = lim t→∞ 2T −T Estimación del estado 18.2 456 Transmisión de señales aleatorias a través de sistemas lineales: descripción interna Vamos a estudiar en esta sección el comportamiento de la salida de un sistema lineal, cuando es excitado con una señal aleatoria, cuya descripción estadı́stica es conocida. Sea el sistema dinámico lineal ẋ(t) = Ax(t) + Bw(t) (18.3) excitado por un ruido blanco estacionario w(t) de caracterı́sticas E[w(t)] = 0 E[w(t)wT (τ )] = Qδ(t − τ ) tal que Q ≥ 0. Q recibe también la denominación de intensidad del ruido. Las condiciones iniciales vienen especificadas mediante un vector aleatorio gausiano x(t0 ), independiente de w(t) y con media x̄0 y covarianza P0 ; es decir: E[x(t0 )] = x̄0 (18.4) E[(x(t0 ) − x̄0 )(x(t0 ) − x̄0 )T ] = P0 (18.5) T E[x(t0 )w (t)] = 0 ∀t (18.6) La trayectoria de x(t), de acuerdo con (18.3), viene dada por: x(t) = Φ(t)x(t0 ) + Z t t0 Φ(t − τ )Bw(τ )dτ (18.7) Por tanto, se tiene que la evolución de la media de x(t) vendrá dada por: E[x(t)] = E[Φ(t)x(t0 )] + E = Φ(t)E[x(t0 )] + ·Z t Z t t0 t0 ¸ Φ(t − τ )Bw(τ )dτ Φ(t − τ )BE[w(τ )]dτ = Φ(t)x̄0 (18.8) Por otra parte, para determinar la matriz de covarianza del vector x(t) vamos a estudiar, en primer lugar la evolución de: P 0 (t) = E[x(t)xT (t)] Derivando esta expresión con relación al tiempo se obtiene: Ṗ 0 (t) = E[ẋ(t)xT (t) + x(t)ẋT (t)] (18.9) Estimación del estado 457 Recordando (18.3) se tiene: Ṗ 0 (t) = E[Ax(t)xT (t) + Bw(t)xT (t) + x(t)xT (t)AT + x(t)wT (t)B T ] = AP 0 (t) + P 0 (t)AT + E[Bw(t)xT (t) + x(t)wT (t)B T ] Y recordando, a su vez, (18.7), se tiene: Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT " µ + E Bw(t) Φ(t)x(t0 ) + ·µ + E Φ(t)x(t0 ) + Z t t0 Z t t0 ¶T # Φ(t − τ )Bw(τ )dτ ¸ ¶ T Φ(t − τ )Bw(τ )dτ w (t)B T Conmutando el operador esperanza matemática y la integración se tiene: Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT + BE[w(t)xT (t0 )]ΦT (t) Z t + t0 BE[w(t)wT (τ )]B T ΦT (t − τ )dτ + Φ(t)BE[x(t0 )wT (τ )]B T Z t + t0 Φ(t − τ )BE[w(τ )wT (t)]B T dτ Teniendo en cuenta las caracterı́sticas de las señales w(t) y x(t) la anterior expresión conduce a: Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT + BE[w(t)xT (t0 )]ΦT (t) + Z t t0 BQδ(t − τ )B T ΦT (t − τ )dτ (18.10) + Φ(t)BE[x(t0 )wT (t)]B T + Z t t0 Φ(t − τ )BQδ(τ − t)B T dτ = AP 0 (t) + P 0 (t)AT + BQB T (18.11) (18.12) Para el paso de (18.11) a (18.12) hay que tener presente, por una parte que los términos segundo y cuarto se anulan de acuerdo con (18.6). Por otra parte, por lo que respecta a los términos tercero y quinto, hay que tener presente que la función δ aquı́ es simétrica y que Φ(0) = I. La función δ simétrica tiene las siguientes propiedades: • δ(t − τ ) = δ(τ − t) Estimación del estado • Rb a 458 ( f (τ )δ(τ − t)dτ = 0 f (t) si t < a o si t > b si a < t < b En tal caso, si el valor de t coincide con uno de los lı́mites de integración, por ejemplo t = b, se tiene que Z b f (b) 2 a puesto que el área unidad que cubre la función δ se distribuye la mitad a la derecha de t = τ y la otra mitad a su izquierda. Obsérvese que de acuerdo con los lı́mites de integración, los miembros tercero y quinto de (18.11) aportan solo 1/2. f (τ )δ(τ − b)dτ = La ecuación (18.12) tiene las condiciones iniciales: P 0 (t0 ) = E[x(t0 )xT (t0 )] A partir de los resultados anteriores es posible determinar la evolución de la matriz de covarianza: P (t) = E[(x(t) − x̄(t))(x(t) − x̄T (t))] (18.13) En efecto, definiendo x̃(t) = x(t) − x̄(t) (es decir, x̃ es la diferencia entre el valor de la variable x y su media) la evolución de x̃ viene dada por dx̃ = Ax̃ + Bw(t) dt ya que la de x(t) se rige por (18.3) y la de x̄T (t) por x̄T˙(t) = Ax̄T (t). Por tanto, la expresión (18.13) tiene la misma forma que la (18.9), y la ecuación de evolución de x̃ es idéntica a (18.3). En consecuencia P (t) satisface la ecuación diferencial: Ṗ (t) = AP (t) + P (t)AT + BQB T P (t0 ) = P0 (18.14) que rige la evolución de la covarianza de la salida del sistema lineal (18.3) cuando se excita con una señal aleatoria blanca de intensidad Q. 18.3 El problema de la observación: Filtro de Kalman Para poder implementar un regulador mediante una ley de control de la forma u = f (x) es necesario conocer en cada instante el valor de todas las variables Estimación del estado 459 de estado. Para estudiar la estimación del estado se adopta la misma estructura que se adopta para un observador, y que aquı́ recibe la denominación de filtro de Kalman. Para el estudio de este filtro se parte de un modelo del sistema, cuyo estado se va a estimar, mediante un sistema dinámico con perturbaciones de la forma: siguiente forma: ẋ(t) = Ax(t) + Bu(t) + w(t) y(t) = Cx(t) + v(t) (18.15) donde w(t) y v(t) son variables aleatorias correspondientes a un ruido blanco o ruido gausiano, y presentarán, por tanto, las siguientes propiedades: - E[wi (t)] = 0 para i = 1 . . . n. - E[vi (t)] = 0 con i = 1 . . . m. Es decir, su media es nula para cada instante de tiempo. - E[wi (t)wj (t − τ )] = qij δ(τ ) con i, j = 1 . . . n. - E[vi (t)vj (t − τ )] = rij δ(τ ) con i, j = 1 . . . m. siendo δ(τ ) la función delta de Dirac. Es decir, E[w(t)wT (t − τ )] = Qδ(τ ) E[v(t)v T (t − τ )] = Rδ(τ ) Cada señal únicamente está correlacionada consigo mismo en el instante de producirse. Esto implica un espectro de frecuencias plano, donde no hay ninguna predominante, y cuya amplitud nos da la covarianza de la señal. Las variables v(t) y w(t) representan lo siguiente: • w(t): El sistema nunca queda perfectamente modelado, por lo que el estado alcanzado en cada instante por el modelo matemático difiere del existente en el sistema real. Con w(t) se representan las desviaciones en la evolución de los dos sistemas (el real y el modelo matemático). Estas variables también son una representación de las perturbaciones que pueden aparecer en las distintas partes del sistema real. • v(t): Modela los errores que aparecen al medir la variable de salida del sistema. Estos errores, en general, pueden ser cuantificados de manera más exacta que los anteriores. Estimación del estado 460 Para la evaluación de los estados estimados x̂ se adopta la misma estructura que para un observador, es decir: dx̂ = Ax̂ + Bu + Ko (y − C x̂) (18.16) dt donde: x̂ es la estimación del vector de estado. u es la señal de entrada al sistema. y es la salida del sistema. Ko es el vector de ganancias del filtro de Kalman. En la figura 18.3 se muestra la estructura correspondiente. Con la expresión y(t) + - ŷ(t) y(t) − ŷ(t) C Ko + u(t) B x̂˙ + R x̂ + A Figura 18.3: Filtro de Kalman (18.16), a partir de la estimación del estado x̂, de la señal de entrada u y del error en la variable de salida y − C x̂ generamos evolución de las estimaciones. Sea P (t) = E[(x̂ − x)(x̂ − x)T ] = E[x̃x̃T ] la matriz de covarianza del error de estimación x̃ = x̂ − x. El objetivo es encontrar los valores de Ko que minimicen la discrepancia entre los estados reales x y los estados estimados x̂. Esta discrepancia se mide por el valor cuadrático medio del error: J = E[x̃T x̃] = trP (t) (18.17) Estimación del estado 461 Restando la expresión (18.16) de la (18.15), y recordando que x̃ = x̂ − x, se tiene que la evolución del error x̃ viene dada por la ecuación: dx̃ = (A − Ko C)x̃ + w + Ko v dt (18.18) A partir de las caracterı́sticas de los ruidos v y w se tiene que el ruido blanco que actúa sobre el sistema lineal anterior posee la covarianza: E[(w(t) − Ko v(t))(w(τ ) − Ko v(τ ))T ] = (Q + Ko RKoT )δ(t − τ ) (18.19) De acuerdo con (18.14) la covarianza P (t) del error x̃ vendrá dada por d P (t) = (A − Ko C)P (t) + P (t)(A − Ko C)T + Q + Ko RKoT dt (18.20) Por otra parte, es inmediato que: (Ko − P C T R−1 )R(KoT − R−1 CP ) = Ko RKoT − P C T KoT − Ko CP + P C T R−1 CP Por tanto, sumando y restando P C T R−1 CP a (18.20), teniendo en cuente esta última expresión, se tiene: d P (t) = AP (t) + P (t)AT − P C T R−1 CP + Q + (Ko − P C T R−1 )R(KoT − R−1 CP ) dt (18.21) El problema del estimador óptimo puede enunciarse diciendo que se trata de determinar Ko de modo que se minimice (18.17), estando P (t) sujeto a (18.22). Es decir, el criterio a optimizar viene dado por (18.17), las ecuaciones de evolución del sistema por (18.22) y la señal a optimizar es Ko (t). Al formar la función de Hamilton del correspondiente problema de control óptimo se tiene que el único término en esta función que depende de Ko (t) es (Ko −P C T R−1 )R(KoT −R−1 CP ), por lo que es claro que el Ko (t) óptimo vendrá dado por: Ko (t) = P (t)C T R−1 (18.22) Llevando este valor de Ko a (18.22) se tiene que P (t) satisface la ecuación diferencial: Ṗ (t) = P (t)AT + AP (t) + Q(t) − P (t)C T R−1 CP (t) (18.23) con las condiciones iniciales P (t0 ) = P0 . Si comparamos las expresiones (??) y (18.23) con las (17.50) y (17.50) del capı́tulo anterior se comprueba que la solución del filtro óptimo es dual de la del problema del control. Esta dualidad se puede resumir en el cuadro siguiente: Estimación del estado 462 Problema de la Estimación BT CT Ro Qo Ko AT Problema del Control C B Rc Qc Kc A En este cuadro R y Q se han subindiciado con c o con o según se refieran a los problemas del control o de la estimación. El cuadro muestra que los problemas de la estimación y del control son esencialmente el mismo. Al igual que se hacı́a en el caso del LQR consideraremos horizonte de tiempo infinito, con lo cual, lo que se pretenderá es minimizar en valor medio la diferencia entre los estados reales y los estimados, y no hacer mı́nimo dicho valor en un intervalo de tiempo determinado, que es lo que se persigue con el anterior planteamiento. En consecuencia, al hacer esta consideración, la variable tiempo desaparece de las ecuaciones que proporcionan los parámetros del filtro de Kalman y se tiene que Ko toma el valor constante dado por: Ko = P C T R−1 (18.24) donde el único parámetro desconocido es la matriz P , que se halla resolviendo la ecuación de Riccati para la observación AP + P AT + Q − P C T R−1 CP = 0 (18.25) La matriz Ko recibe la denominación de ganancia de Kalman. Para la determinación del filtro de Kalman se ha partido de la estructura representada en la figura 18.3, que es la de un observador clásico, y se ha ajustado Ko para que el error de estimación sea el mı́nimo con una norma cuadrática. Sin embrago, se puede demostrar que en realidad esa es la estructura que produce las mejores estimaciones de todos los posibles estimadores. Esta demostración es muy compleja, por lo que no se incluye en un curso introductorio como éste. Se trata de un resultado de la misma naturaleza que el que se ha visto al estudiar el problema lineal cuadrático, en donde si se ha demostrado que la ley de control lineal era la óptima, y no se han ajustado simple los valores de k para que lo fuera, que es en realidad lo que hemos hecho en el caso del filtro de Kalman. Estimación del estado 463 Resumen del Filtro de Kalman Se da el sistema ẋ(t) = Ax(t) + Bu(t) + w(t) con la función de lectura y(t) = Cx(t) + v(t) Se tiene E[w(t)] = 0 E[v(t)] = 0 E[w(t)wT (t − τ )] = Qδ(τ ) E[v(t)v T (t − τ )] = Rδ(τ ) Ecuaciones del filtro dx̂ = Ax̂ + Bu + Ko (y − C x̂) dt Ganancia de Kalman Ko = P C T R−1 Propagación de la covarianza del error Ṗ (t) = P (t)AT + AP (t) + Q(t) − P (t)C T R−1 CP (t) P (t0 ) = P0 Error cuadráático de la estimación tr P Estimación del estado 464 w u v R B 1 y -1 Figura 18.4: Sistema lineal de dimensión 1. 18.3.1 Ejemplo Sea el sistema dinámico de dimensión 1 que se muestra en la figura 18.4, y en el que A = −1. Se trata, por tanto, de un sistema de primer orden al que se asocian un ruido de modelado w y un ruido de lectura v. La salida de este sistema es la señal z. Se trata de reconstruir el estado x a partir de la señal z. Para ello se adopta la estructura de un filtro de Kalman, tal como se indica en la figura 18.5. La determinación del filtro de Kalman se reduce, en último extremo, a la determinación de la constante K de modo que el valor cuadrático medio del error de estimación sea mı́nimo. Supongamos que las intensidades de los ruidos de modelado y medida vienen dadas por φww = Qδ(τ ) = 3δ(τ ) φvv = Rδ(τ ) = δ(τ ) El valor de Ko en la figura 18.5 viene dado por la expresión (??). Para determinar el valor de p se requiere resolver la ecuación (18.23). Los parámetros necesarios para escribir esta ecuación, en el problema que nos ocupan, son A = −1 C = 1 Q = 3 R = 1 Con los valores de estos parámetros la expresión (18.23) toma la forma dp = −2p − p2 + 3 dt que en el caso de un proceso estacionario, en el que el valor cuadrático medio del error sea constante, se tiene que dp/dt = 0, y p es igual a constante. En tal caso se tiene que la ecuación que satisface p es la (18.25), es decir, p2 + 2p − 3 = 0 Estimación del estado 465 w u v R B y 1 -1 + Ko u R B - 1 -1 Figura 18.5: Sistema lineal con filtro de Kalman. ŷ Estimación del estado 466 Resolviendo esta ecuación en p se obtiene p=1 Lo que llevado a (18.24) conduce a Ko = 1. 18.4 Método LQG En sistemas dinámicos lineales con perturbaciones aleatorias gausianas y criterio de optimización cuadrático se puede demostrar que el regulador óptimo se obtiene separando los problemas de estimación y control, resolviendo cada uno de ellos separadamente, y conectándolos en serie. Es decir, a partir de las señales de salida y por medio de un filtro de Kalman se obtienen las estimaciones de los estados, y a partir de estas estimaciones y con ayuda de la ley de control, obtenida prescindiendo del carácter estocástico del sistema, se determina la señal de acción sobre el mismo. La estructura de control ası́ obtenida recibe la denominación de control LQG (lineal cuadrático y gausiano), la cual requiere que se adopten modelos estocásticos para el ruido de los sensores y del proceso, y que se defina un criterio cuadrático como criterio de funcionamiento. Lo que se plantea en ese caso es un problema de control óptimo estocástico. Veamos, con detalle, el regulador LQG. Sea un sistema dinámico lineal (con n estados, m entradas y l salidas): ẋ = Ax + Bu + w y = Cx + v siendo: x: vector de estados (n × 1). u: vector de entradas (m × 1). y: vector de salidas (l × 1). A: (n × n). B: (n × m). C: (l × n). y siendo w y v señales aleatorias, de ruido blanco gausiano, con media nula y Estimación del estado 467 mutuamente independientes, que satisfacen: E[w(t)wT (t − τ )] = Qo δ(τ ) E[v(t)v T (t − τ )] = Ro δ(τ ) E[w(t)v T (t − τ )] = 0 donde: Qo = QTo ≥ 0 , Ro = RoT ≥ 0 El objetivo es determinar la señal de control u de forma que la siguiente funcional sea mı́nima: Z ∞ (xT Qc x + uT Rc u) dt J= 0 con: Qc = QTc ≥ 0 , Rc = RcT ≥ 0 El teorema de separación establece que el óptimo global se tiene dividiendo el problema en dos subproblemas: 1. Un problema de control óptimo, del que se obtiene la regulación por realimentación de variables de estado: u = −Kc x̂ siendo Kc = Rc−1 B T Pc Pc se determina a partir de la ecuación de Riccati: AT Pc + Pc A − Pc BR−1 B T Pc + Qc = 0 2. Un problema de filtrado óptimo, mediante el filtro de Kalman: dx̂ = Ax̂ + B û + Ko (y − C x̂) dt donde Ko = Po C T Ro−1 y Po se obtiene de APo + Po AT + Qo − Po C T Ro−1 CPo = 0 El problema, por lo tanto, queda descompuesto en dos partes. Estimación del estado 468 1. Resolución del problema del control, prescindiendo en el sistema de perturbaciones, para obtener la Ley de control Kc . 2. Filtrado de Kalman para obtener x̂. El esquema de regulación que se obtiene uniendo estos dos problemas aparece en la figura 18.6 y el compensador resultante es el que se muestra en la figura 18.7. r u(t) + z(t) Planta y(t) - Ley de Control x̂(t) Filtro de Kalman Figura 18.6: Separación del control y de la estimación en el problema LQG Estimación del estado 0 + u(t) 469 B + R ẋ(t) x(t) y(t) C + - A Planta B Kc x̂(t) R + ˙ x̂(t) + + + Ko - A Observador C Figura 18.7: Estructura del regulador del problema del control estocástico

Apuntes de Regulación Automática: Ingeniería Electrónica

Related documents

Products

Support

Apuntes de Regulación Automática: Ingeniería Electrónica

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib