Sistemas de retroalimentación Una introducción para científicos e ingenieros str̈m Karl Johan Åo Richard M. Murray Versión v2.11b (28 de septiembre de 2012) Esta es la edición electrónica de Feedback Systems y está disponible en http://www.cds.caltech.edu/∼murray/amwiki. Las ediciones de tapa dura pueden adquirirse en Princeton Univeristy Press, http://press.princeton.edu/titles/8701.html. Este manuscrito es para uso personal y no puede ser reproducido, total o parcialmente, sin el consentimiento escrito del editor (véase http://press.princeton.edu/permissions.html). PRINCETON UNIVERSITY PRESS PRINCETON Y OXFORD Copyright © 2008 por Princeton University Press Publicado por Princeton University Press 41 William Street, Princeton, Nueva Jersey 08540 En el Reino Unido: Princeton University Press 6 Oxford Street, Woodstock, Oxfordshire OX20 1TW Todos los derechos reservados Datos de catalogación de la Biblioteca del Congreso Å srötm, Karl J. (Karl Johan), 1934Sistemas de retroalimentación : una introducción para científicos e ingenieros / Karl Johan Å strömy Richard M. Murray p. cm. Incluye referencias bibliográficas e índice. ISBN-13: 978-0-691-13576-2 (alk. paper) ISBN-10: 0-691-13576-2 (alk. paper) 1. Sistemas de control por retroalimentación. I. Murray, Richard M., 1963-. II. Título. TJ216.A78 2008 629,8′ 3-dc22 2007061033 British Library Cataloging-in-Publication Data is available Este libro ha sido compuesto en LATEX El editor desea agradecer a los autores de este volumen por proporcionar la copia lista para la cámara a partir de la cual se imprimió este libro. Impreso en papel sin ácido. press.princeton.edu Impreso en los Estados Unidos de América 10 9 8 7 6 5 4 iii Esta versión de Sistemas de retroalimentación es la edición electrónica del texto. Historial de revisiones: • Versión 2.11b (28 de septiembre de 2012): edición electrónica, con correcciones y fuentes modificadas (puede cambiar la paginación) • Versión 2.10e (30 de agosto de 2011): edición electrónica, con correcciones • Versión 2.10d (19 jul 2011): edición electrónica, con correcciones • Versión 2.10c (4 mar 2010): tercera impresión, con correcciones • Versión 2.10b (22 de febrero de 2009): segunda impresión, con correcciones • Versión 2.10a (2 de diciembre de 2008): edición electrónica, con correcciones • Versión 2.9d (30 de enero de 2008): primera impresión La lista completa de los cambios introducidos en cada revisión está disponible en el sitio web complementario: http://www.cds.caltech.edu/∼murray/FBSwiki Contenido Prefacio ix Capítulo 1. Introducción 1.1 ¿Qué es la retroalimentación? 1.2 ¿Qué es el control? 1.3 Ejemplos de retroalimentación 1.4 Propiedades de la retroalimentación 1.5 Formas sencillas de retroalimentación 1.6 Más información Ejercicios 1 1 3 5 17 23 25 26 Capítulo 2. Modelización del sistema 2.1 Conceptos de modelado 2.2 Modelos de espacio de estado 2.3 Metodología de modelado 2.4 Ejemplos de modelado 2.5 Más información Ejercicios 27 Capítulo 3. Ejemplos 3.1 Control de crucero 3.2 Dinámica de la bicicleta 3.3 Circuitos de amplificación operativa 3.4 Sistemas informáticos y redes 3.5 Microscopía de fuerza atómica 3.6 Administración de medicamentos 3.7 Dinámica de la población Ejercicios 65 Capítulo 4. Comportamiento dinámico 4.1 Resolución de ecuaciones diferenciales 4.2 Análisis cualitativo 4.3 Estabilidad 4.4 Análisis de estabilidad de Lyapunov 95 27 34 44 51 61 61 65 69 71 75 81 85 89 91 95 98 102 110 vi CONTENIDO 4.5 4.6 Comportamiento paramétrico y no local Más información Ejercicios 120 126 126 Capítulo 5.1 5.2 5.3 5.4 5.5 5. Sistemas lineales Definiciones básicas La Matriz Exponencial Respuesta de entrada/salida Linealización Más información Ejercicios 131 Capítulo 6.1 6.2 6.3 6.4 6.5 6. Retroalimentación del Estado Alcanzabilidad Estabilización por retroalimentación del Estado Diseño de la retroalimentación del Estado Acción integral Más información Ejercicios 167 Capítulo 7.1 7.2 7.3 7.4 7.5 7.6 7. Retroalimentación de salida Observabilidad Estimación del estado Control mediante el estado estimado Filtrado Kalman Una estructura de controladores generales Más información Ejercicios 201 Capítulo 8.1 8.2 8.3 8.4 8.5 8.6 8. Funciones de transferencia Modelado en el dominio de la frecuencia Derivación de la función de transferencia Diagramas de bloques y funciones de transferencia La trama de Bode Transformadas de Laplace Más información Ejercicios 229 Capítulo 9.1 9.2 9.3 9.4 9.5 9. Análisis en el dominio de la frecuencia La función de transferencia del bucle El criterio de Nyquist Márgenes de estabilidad Relaciones de Bode y sistemas de fase mínima Nociones generalizadas de ganancia y fase 267 131 136 145 158 163 164 167 175 183 195 197 198 201 206 211 215 219 226 226 229 231 242 250 259 262 262 267 270 278 282 285 vii CONTENID O 9.6 Otras lecturas Ejercicios Capítulo 10. Control PID 10.1 Funciones básicas de control 10.2 Controladores sencillos para sistemas complejos 10.3 Ajuste del PID 10.4 Integrador Windup 10.5 Aplicación 10.6 Más información Ejercicios 290 290 293 293 298 302 306 308 312 313 Capítulo 11. Diseño en el dominio de la frecuencia 315 11.1 Funciones de sensibilidad 315 11.2 Diseño de la alimentación 319 11.3 Especificaciones de rendimiento 322 11.4 Diseño de la retroalimentación mediante la conformación del bucle326 11.5 Limitaciones fundamentales 331 11.6 Ejemplo de diseño 340 11.7 Más información 343 Ejercicios 344 Capítulo 12. Rendimiento robusto 12.1 Modelización de la incertidumbre 12.2 Estabilidad en presencia de la incertidumbre 12.3 Rendimiento en presencia de la incertidumbre 12.4 Colocación de postes robustos 12.5 Diseño para un rendimiento robusto 12.6 Más información Ejercicios 347 Bibliografía 377 Índice 387 347 352 358 361 369 374 374 Prefacio Este libro ofrece una introducción a los principios y herramientas básicos para el diseño y análisis de los sistemas de retroalimentación. Está destinado a un público diverso de científicos e ingenieros interesados en comprender y utilizar la retroalimentación en los sistemas físicos, biológicos, informativos y sociales. Hemos intentado mantener los prerrequisitos matemáticos al mínimo, pero sin sacrificar el rigor en el proceso. También hemos intentado utilizar ejemplos de diversas disciplinas, ilustrando la generalidad de muchas de las herramientas y mostrando al mismo tiempo cómo pueden aplicarse en ámbitos de aplicación específicos. Uno de los principales objetivos de este libro es presentar una visión concisa y perspicaz de los conocimientos actuales sobre sistemas de retroalimentación y control. El campo del control comenzó enseñando todo lo que se sabía en ese momento y, a medida que se adquirían nuevos conocimientos, se desarrollaron cursos adicionales para cubrir nuevas técnicas. Una consecuencia de esta evolución es que los cursos introductorios han seguido siendo los mismos durante muchos años, y a menudo es necesario realizar muchos cursos individuales para obtener una buena perspectiva del campo. Al elaborar este libro, hemos tenido la tentación de condensar los conocimientos actuales haciendo hincapié en los conceptos fundamentales. Creemos que es importante entender por qué es útil la retroalimentación, conocer el lenguaje y las matemáticas básicas del control y comprender los paradigmas clave que se han desarrollado en el último medio siglo. También es importante ser capaz de resolver problemas sencillos de retroalimentación mediante técnicas de back-of-the-envelope, reconocer las limitaciones fundamentales y los problemas de control difíciles y tener una idea de los métodos de diseño disponibles. Este libro se desarrolló originalmente para su uso en un curso experimental en Cal- tech en el que participaban estudiantes de un amplio conjunto de orígenes. El curso se ofrecía a estudiantes de primer y segundo año de las disciplinas tradicionales de ingeniería, así como a estudiantes de primer y segundo año de postgrado en ingeniería y ciencias. Este último grupo incluía a estudiantes graduados en biología, informática y física. A lo largo de varios años, el texto ha sido probado en las aulas de Caltech y de la Universidad de Lund, y los comentarios de muchos estudiantes y colegas se han incorporado para ayudar a mejorar la legibilidad y la accesibilidad del material. Debido a la audiencia a la que va dirigido, este libro está organizado de una manera ligeramente inusual en comparación con muchos otros libros sobre retroalimentación y control. En particular, introducimos una serie de conceptos en el texto que normalmente se reservan para los cursos de segundo año sobre control y, por lo tanto, a menudo no están disponibles para los estudiantes que no son especialistas en sistemas de control. Esto se ha hecho a expensas de ciertos conceptos tradicionales, que consideramos que el estudiante astuto podría aprender de forma independiente y que a menudo son x PREFACI O explorado a través de los ejercicios. Algunos ejemplos de temas que hemos incluido son la dinámica no lineal, el análisis de estabilidad de Lyapunov, la exponencial matricial, la alcanzabilidad y la observabilidad, y los límites fundamentales del rendimiento y la robustez. Los temas en los que hemos hecho menos hincapié son las técnicas de localización de la raíz, la compensación de avance y retroceso y las reglas detalladas para generar gráficos de Bode y Nyquist a mano. Varias características del libro están diseñadas para facilitar su doble función como texto básico de ingeniería y como introducción para los investigadores de las ciencias naturales, de la información y sociales. El grueso del material está pensado para ser utilizado con independencia del público al que vaya dirigido y � abarca los principios y herramientas fundamentales del análisis y el diseño de los sistemas de retroalimentación. Las secciones avanzadas, marcadas con el símbolo de "curva peligrosa" que se muestra aquí, contienen material que requiere una base ligeramente más técnica, del tipo que se esperaría de los estudiantes de último curso de ingeniería. Algunas secciones están marcadas con dos símbolos de curva peligrosa y están destinadas a lectores con una formación más especializada, identificada al principio de la sección. Para limitar la longitud del texto, en los ejercicios se ofrecen varios resultados y extensiones estándar, con las correspondientes indicaciones para su solución. Para ampliar el material impreso que contiene, se ha creado un sitio web complementario que puede consultarse en la página web del editor: http://www.cds.caltech.edu/∼murray/amwiki El sitio web contiene una base de datos con las preguntas más frecuentes, ejemplos y ejercicios complementarios y material de clase para los cursos basados en este texto. El material está organizado por capítulos e incluye un resumen de los puntos principales del texto, así como enlaces a recursos externos. El sitio web también contiene el código fuente de muchos ejemplos del libro, así como utilidades para aplicar las técnicas descritas en el texto. La mayor parte del código se escribió originalmente utilizando archivos M de MATLAB, pero también se probó con MathScript de LabView para garantizar la compatibilidad con ambos paquetes. Muchos archivos también pueden ejecutarse utilizando otros lenguajes de scripting como Octave, SciLab, SysQuake y Xmath. La primera mitad del libro se centra casi exclusivamente en los sistemas de control del espacio de estados. Comenzamos en el capítulo 2 con una descripción del modelado de sistemas físicos, biológicos y de información mediante ecuaciones diferenciales ordinarias y ecuaciones en diferencia. El capítulo 3 presenta una serie de ejemplos con cierto detalle, principalmente como referencia para los problemas que se utilizarán a lo largo del texto. A continuación, el capítulo 4 examina el comportamiento dinámico de los modelos, incluyendo definiciones de estabilidad y comportamientos no lineales más complicados. En este capítulo proporcionamos secciones avanzadas sobre el análisis de estabilidad de Lyapunov porque consideramos que es útil en una amplia gama de aplicaciones y que, con frecuencia, es un tema que no se introduce hasta más adelante en los estudios. Los tres capítulos restantes de la primera mitad del libro se centran en los sistemas lineales, comenzando con una descripción del comportamiento de entrada/salida en el capítulo 5. En el capítulo 6, introducimos formalmente los sistemas de retroalimentación demostrando cómo se pueden diseñar las leyes de control del espacio de estado. A continuación, en el capítulo 7, se presenta material sobre la retroalimentación de salida y los estimadores. Los capítulos 6 y 7 introducen los conceptos clave del alcance. x PREFACIO PREFACI xi O bilidad y observabilidad, que aportan una gran visión a la hora de elegir actuadores y sensores, ya sea para sistemas de ingeniería o naturales. La segunda mitad del libro presenta material que suele considerarse del campo del "control clásico". Esto incluye la función de transferencia, introducida en el capítulo 8, que es una herramienta fundamental para entender los sistemas de retroalimentación. Usando las funciones de transferencia, uno puede empezar a analizar la estabilidad de los sistemas de retroalimentación usando el análisis en el dominio de la frecuencia, incluyendo la capacidad de razonar sobre el comportamiento en lazo cerrado de un sistema a partir de sus características en lazo abierto. Este es el tema del capítulo 9, que gira en torno al criterio de estabilidad de Nyquist. En los capítulos 10 y 11, volvemos a examinar el problema del diseño, centrándonos primero en los controladores proporcionales-integrales-derivados (PID) y luego en el proceso más general de conformación del bucle. El control PID es, con mucho, la técnica de diseño más común en los sistemas de control y una herramienta útil para cualquier estudiante. El capítulo sobre el diseño en el dominio de la frecuencia introduce muchas de las ideas de la teoría de control moderna, incluida la función de sensibilidad. En el capítulo 12, se combinan los resultados de la segunda mitad del libro para analizar algunas de las compensaciones fundamentales entre robustez y rendimiento. Este es también un capítulo clave que ilustra la potencia de las técnicas desarrolladas y sirve de introducción para estudios más avanzados. El libro está diseñado para su uso en un curso de 10 a 15 semanas sobre sistemas de retroalimentación que proporciona muchos de los conceptos clave necesarios en una variedad de disciplinas. Para un curso de 10 semanas, los capítulos 1-2, 4-6 y 8-11 pueden cubrirse cada uno en una semana, con la omisión de algunos temas de los últimos capítulos. Un curso más pausado, repartido en 14-15 semanas, podría abarcar todo el libro, con 2 semanas sobre modulación (capítulos 2 y 3) -especialmente para estudiantes sin mucha experiencia en ecuaciones diferenciales ordinarias- y 2 semanas sobre rendimiento robusto (capítulo 12). Los prerrequisitos matemáticos del libro son modestos y están en consonancia con nuestro objetivo de ofrecer una introducción que sirva a un público amplio. Suponemos que está familiarizado con las herramientas básicas del álgebra lineal, incluidas las matrices, los vectores y los valores propios. Estas herramientas se cubren normalmente en un curso de segundo año sobre el tema, y los libros de texto de Apostol [Apo69], Arnold [Arn87] y Strang [Str88] pueden servir como buenas referencias. Igualmente, asumimos conocimientos básicos de ecuaciones diferenciales, incluyendo los conceptos de soluciones homogéneas y particulares para ecuaciones diferenciales ordinarias lineales en una variable. Apostol [Apo69] y Boyce y DiPrima [BD04] cubren bien este material. Por último, también hacemos uso de números y funciones complejas y, en algunas de las secciones avanzadas, de conceptos más detallados en variables complejas que se cubren típicamente en un curso de ingeniería o física de nivel inferior sobre métodos matemáticos. Apostol [Apo67] o Stew- art [Ste02] pueden utilizarse para el material básico, siendo Ahlfors [Ahl66], Marsden y Hoffman [MH98] o Saff y Snider [SS02] buenas referencias para el material más avanzado. Hemos optado por no incluir apéndices que resuman estos varios temas, ya que hay varios libros buenos disponibles. Una elección adicional que nos pareció importante fue la decisión de no basarse en el conocimiento de las transformadas de Laplace en el libro. Aunque su uso es, con mucho, el enfoque más común en la enseñanza de los sistemas de retroalimentación en ingeniería, muchos estudiantes xii PREFACI O Los estudiantes de ciencias naturales y de la información pueden carecer de la formación matemática necesaria. Dado que las transformadas de Laplace no son necesarias de forma esencial, las hemos incluido sólo en una sección avanzada destinada a unir las cosas para los estudiantes con esa formación. Por supuesto, hacemos un gran uso de las funciones de transición, que introducimos a través de la noción de respuesta a entradas exponenciales, un enfoque que consideramos más accesible para una amplia gama de científicos e ingenieros. Para las clases en las que los estudiantes ya han estudiado las transformadas de Laplace, debería ser bastante natural basarse en estos antecedentes en las secciones apropiadas del texto. Agradecimientos Los autores desean dar las gracias a las numerosas personas que han colaborado en la preparación de este libro. La idea de escribir este libro surgió en parte de un informe sobre futuras direcciones en control [Mur03] en el que Stephen Boyd, Roger Brockett, John Doyle y Gunter Stein fueron los principales colaboradores. Kristi Morgansen y Hideo Mabuchi ayudaron a impartir las primeras versiones del curso en Caltech en el que se basa gran parte del texto, y Steve Waydo fue el principal asistente técnico del curso impartido en Caltech en 2003-2004 y aportó numerosos comentarios y correcciones. Charlotta Johns- son y Anton Cervin dieron clases de las primeras versiones del manuscrito en Lund en 2003-2007 y aportaron comentarios muy útiles. Otros colegas y estudiantes que aportaron comentarios y consejos son Leif Andersson, John Carson, K. Mani Chandy, Michel Charpentier, Domitilla Del Vecchio, Kate Galloway, Per Hagander, Toivo Henningsson Perby, Joseph Hellerstein, George Hines, Tore Ha¨gglund, Cole Lep- ine, Anders Rantzer, Anders Robertsson, Dawn Tilbury y Francisco Zabala. Los revisores de Princeton University Press y Tom Robbins de NI Press también han aportado valiosos comentarios que han mejorado notablemente la organización, el diseño y el enfoque del libro. Nuestra editora, Vickie Kearn, fue una gran fuente de ánimo y ayuda durante todo el proceso de publicación. Por último, nos gustaría dar las gracias a Caltech, la Universidad de Lund y la Universidad de California en Santa Bárbara por haber proporcionado muchos recursos, colegas y estudiantes estimulantes y entornos de trabajo agradables que ayudaron en gran medida a la redacción de este libro. Karl Johan Å srötmRcihardM. Murray Lund, SueciaPasadena Santa Bárbara, California , California Capítulo 1 Introducción La retroalimentación es una característica central de la vida. El proceso de retroalimentación gobierna la forma en que crecemos, respondemos al estrés y a los desafíos, y regulamos factores como la temperatura corporal, la presión arterial y el nivel de colesterol. Los mecanismos funcionan a todos los niveles, desde la interacción de las proteínas en las células hasta la interacción de los organismos en ecologías complejas. M. B. Hoagland y B. Dodson, The Way Life Works, 1995 [HD95]. En este capítulo ofrecemos una introducción al concepto básico de retroalimentación y a la disciplina de ingeniería relacionada con el control. Nos centramos en ejemplos históricos y actuales, con la intención de proporcionar el contexto para las herramientas actuales de retroalimentación y control. Gran parte del material de este capítulo está adaptado de [Mur03], y los autores agradecen las contribuciones de Roger Brockett y Gunter Stein a partes de este capítulo. 1.1 ¿Qué es Feedback? Un sistema dinámico es un sistema cuyo comportamiento cambia a lo largo del tiempo, a menudo como respuesta a una estimulación o forzamiento externo. El término retroalimentación se refiere a una situación en la que dos (o más) sistemas dinámicos están conectados entre sí, de manera que cada sistema influye en el otro y su dinámica está fuertemente acoplada. El simple razonamiento causal sobre un sistema de retroalimentación es difícil porque el primer sistema influye en el segundo y el segundo influye en el primero, lo que lleva a un argumento circular. Esto hace que el razonamiento basado en la causa y el efecto sea complicado, y es necesario analizar el sistema en su conjunto. Una consecuencia de ello es que el comportamiento de los sistemas de retroalimentación suele ser contraintuitivo, por lo que es necesario recurrir a métodos formales para entenderlos. La figura 1.1 ilustra en forma de diagrama de bloques la idea de retroalimentación. A menudo utilizamos Sistema 1 u Sistema 2 (a) Bucle cerrado y r Sistema 1 u Sistema 2 y (b) Bucle abierto Figura 1.1: Sistemas de bucle abierto y cerrado. (a) La salida del sistema 1 se utiliza como entrada del sistema 2, y la salida del sistema 2 se convierte en la entrada del sistema 1, creando un sistema de bucle cerrado. (b) Se elimina la interconexión entre el sistema 2 y el sistema 1, y se dice que el sistema es de bucle abierto. 2 CAPÍTULO 1. INTRODUCCIÓN Figura 1.2: El regulador centrífugo y la máquina de vapor. El regulador centrífugo de la izquierda consiste en un conjunto de volantes que se separan a medida que aumenta la velocidad del motor. La máquina de vapor de la derecha utiliza un regulador centrífugo (encima y a la izquierda del volante) para regular su velocidad. (Crédito: Machine a Vapeur Horizontale de Philip Taylor [1828]. los términos bucle abierto y bucle cerrado al referirse a estos sistemas. Se dice que un sistema es de bucle cerrado si los sistemas están interconectados en un ciclo, como se muestra en la figura 1.1a. Si rompemos la interconexión, nos referimos a la configuración como un sistema de bucle abierto, como se muestra en la figura 1.1b. Como ilustra la cita del principio de este capítulo, una fuente importante de ejemplos de sistemas de retroalimentación es la biología. Los sistemas biológicos utilizan la retroalimentación de un número extraordinario de maneras, en escalas que van desde las moléculas a las células, pasando por los organismos y los ecosistemas. Un ejemplo es la regulación de la glucosa en el torrente sanguíneo mediante la producción de insulina y glucagón por parte del páncreas. El organismo intenta mantener una concentración constante de glucosa, que es utilizada por las células del cuerpo para producir energía. Cuando los niveles de glucosa aumentan (después de comer, por ejemplo), la hormona insulina se libera y hace que el cuerpo almacene el exceso de glucosa en el hígado. Cuando los niveles de glucosa son bajos, el páncreas segrega la hormona glucagón, que tiene el efecto contrario. Si nos remitimos a la figura 1.1, podemos ver el hígado como el sistema 1 y el páncreas como el sistema 2. La salida del hígado es la concentración de glucosa en la sangre, y la salida del páncreas es la cantidad de insulina o glucagón producida. La interacción entre las secreciones de insulina y glucagón a lo largo del día ayuda a mantener constante la concentración de glucosa en sangre, en torno a 90 mg por 100 mL de sangre. Un primer ejemplo de ingeniería de un sistema de retroalimentación es un regulador centrífugo, en el que el eje de una máquina de vapor está conectado a un mecanismo de bolas volantes que a su vez está conectado al acelerador de la máquina de vapor, como se ilustra en la figura 1.2. El sistema está diseñado de manera que, al aumentar la velocidad de la máquina (tal vez debido a una disminución de la carga en el motor), las bolas volantes se separan y un enlace hace que se cierre el acelerador de la máquina de vapor. Esto, a su vez, ralentiza el motor, lo que hace que los bólidos vuelvan a juntarse. Podemos modelar este sistema como un sistema de bucle cerrado tomando el sistema 1 como la máquina de vapor y el sistema 2 como 1.2. ¿QUÉ ES EL CONTROL? 3 el regulador. Cuando se diseña correctamente, el regulador centrífugo mantiene una velocidad constante del motor, prácticamente independiente de las condiciones de carga. El regulador centrífugo fue uno de los artífices del éxito de la máquina de vapor de Watt, que impulsó la revolución industrial. La retroalimentación tiene muchas propiedades interesantes que pueden aprovecharse en el diseño de sistemas. Como en el caso de la regulación de la glucosa o el regulador de la bola volante, la retroalimentación puede hacer que un sistema sea resistente a las influencias externas. También puede utilizarse para crear un comportamiento lineal a partir de componentes no lineales, un enfoque común en la electrónica. En general, la retroalimentación permite que un sistema sea insensible tanto a las perturbaciones externas como a las variaciones de sus elementos individuales. La retroalimentación también tiene desventajas potenciales. Puede crear inestabilidades dinámicas en un sistema, provocando oscilaciones o incluso un comportamiento desbocado. Otro inconveniente, sobre todo en los sistemas de ingeniería, es que la retroalimentación puede introducir en el sistema ruidos no deseados de los sensores, lo que exige un filtrado cuidadoso de las señales. Por estas razones, una parte sustancial del estudio de los sistemas de retroalimentación se dedica a desarrollar una comprensión de la dinámica y un dominio de las técnicas de los sistemas dinámicos. Los sistemas de retroalimentación son omnipresentes tanto en los sistemas naturales como en los de ingeniería. Los sistemas de control mantienen el entorno, la iluminación y la energía en nuestros edificios y fábricas; regulan el funcionamiento de nuestros coches, la electrónica de consumo y los procesos de fabricación; permiten nuestros sistemas de transporte y comunicaciones; y son elementos críticos en nuestros sistemas militares y espaciales. En su mayor parte están ocultos a la vista, enterrados en el código de los microprocesadores integrados, ejecutando sus funciones con precisión y fiabilidad. La retroalimentación también ha permitido aumentar drásticamente la precisión de instrumentos como los de fuerza atómica. microscopios (AFM) y telescopios. En la naturaleza, la homeostasis de los sistemas biológicos mantiene las condiciones térmicas, químicas y biológicas mediante la retroalimentación. En el otro extremo de la escala de tamaño, la dinámica del clima global depende de las interacciones de retroalimentación entre la atmósfera, los océanos, la tierra y el sol. Los ecosistemas están llenos de ejemplos de retroalimentación debido a las complejas interacciones entre la vida animal y vegetal. Incluso la dinámica de las economías se basa en la retroalimentación entre individuos y empresas a través de los mercados y el intercambio de bienes y servicios. 1.2 ¿Qué es Control? El término control tiene muchos significados y a menudo varía según las comunidades. En este libro, definimos el control como el uso de algoritmos y retroalimentación en los sistemas de ingeniería. Así, el control incluye ejemplos como los bucles de retroalimentación en los amplificadores electrónicos, los controladores de puntos de consigna en el procesamiento de productos químicos y materiales, los sistemas "fly-by-wire" en los aviones e incluso los protocolos de los routers que controlan el flujo de tráfico en la Red. Entre las aplicaciones emergentes se encuentran los sistemas de software de alta confianza, los vehículos y robots autónomos, los sistemas de gestión de recursos en tiempo real y los sistemas de ingeniería biológica. En su esencia, el control es una ciencia de la información e incluye el uso de la información en CAPÍTULO representaciones tanto 1. INTRODUCCIÓN 4 analógicas como digitales. 4 CAPÍTULO 1. INTRODUCCIÓN ruido perturbaciones externas Actuadore s ruido Sistema Salida Sensores Proceso Reloj D/A Ordenador A/D Filtro Controlad or entrada del operador Figura 1.3: Componentes de un sistema controlado por ordenador. El recuadro superior discontinuo representa la dinámica del proceso, que incluye los sensores y los actuadores, además del sistema dinámico que se controla. El ruido y las perturbaciones externas pueden perturbar la dinámica del proceso. El controlador se muestra en el recuadro inferior. Consta de un filtro y de convertidores analógico-digital (A/D) y digital-analógico (D/A), así como de un ordenador que implementa el algoritmo de control. Un reloj del sistema controla el funcionamiento del controlador, sincronizando los procesos A/D, D/A y de computación. La entrada del operador también llega al ordenador como entrada externa. Un controlador moderno detecta el funcionamiento de un sistema, lo compara con el comportamiento deseado, calcula las acciones correctivas basándose en un modelo de la respuesta del sistema a las entradas externas y acciona el sistema para efectuar el cambio deseado. Este bucle básico de retroalimentación de detección, cálculo y actuación es el concepto central del control. Las cuestiones clave en el diseño de la lógica de control son garantizar que la dinámica del sistema de bucle cerrado sea estable (las perturbaciones limitadas dan errores limitados) y que tenga un comportamiento adicional deseado (buena atención a las perturbaciones, rápida respuesta a los cambios en el punto de funcionamiento, etc.). Estas propiedades se establecen utilizando una serie de técnicas de modelado y análisis que captan la dinámica esencial del sistema y permiten explorar posibles comportamientos en presencia de incertidumbre, ruido y fallos de los componentes. En la figura 1.3 se muestra un ejemplo típico de sistema de control. Los elementos básicos de detección, cálculo y actuación se ven claramente. En los sistemas de control modernos, la computación se implementa normalmente en un ordenador digital, lo que requiere el uso de convertidores analógico-digital (A/D) y digital-analógico (D/A). La incertidumbre entra en el sistema a través del ruido en los subsistemas de detección y actuación, las perturbaciones externas que afectan al funcionamiento del sistema subyacente y la dinámica incierta en el sistema (errores en los parámetros, efectos no modelados, etc.). El algoritmo que compone la acción de control en función de los valores de los sensores suele denominarse ley de control. El sistema puede ser influenciado externamente por un operador que introduce señales de control en el sistema. 1.3. EJEMPLOS DE RETROALIMENTACIÓN 5 La ingeniería de control se basa y comparte herramientas de la física (dinámica y modelización), la informática (información y software) y la investigación operativa (optimización, teoría de la probabilidad y teoría de los juegos), pero también se diferencia de estas materias tanto en sus ideas como en su enfoque. Quizás el área más fuerte de solapamiento entre el control y otras disciplinas es el modelado de sistemas físicos, que es común en todas las áreas de la ingeniería y la ciencia. Una de las diferencias fundamentales entre el modelado orientado al control y el modelado en otras disciplinas es la forma en que se representan las interacciones entre los subsistemas. El control se basa en un tipo de modelado de entrada/salida que permite obtener muchos conocimientos nuevos sobre el comportamiento de los sistemas, como la atenuación de las perturbaciones y la interconexión estable. La reducción de modelos, en la que una descripción más sencilla (de menor fidelidad) de la dinámica se deriva de un modelo de alta fidelidad, también se describe de forma natural en un marco de entrada/salida. Y lo que es más importante, el modelado en un contexto de control permite el diseño de interconexiones robustas entre subsistemas, una característica que es crucial en el funcionamiento de todos los grandes sistemas de ingeniería. El control también está estrechamente relacionado con la informática, ya que prácticamente todos los algoritmos de control modernos para sistemas de ingeniería se implementan en software. Sin embargo, los algoritmos y el software de control pueden ser muy diferentes del software informático tradicional debido al papel central de la dinámica del sistema y a la naturaleza de tiempo real de la implementación. 1.3 Feedback Ejemplos La retroalimentación tiene muchas propiedades interesantes y útiles. Permite diseñar sistemas precisos a partir de componentes imprecisos y hacer que las magnitudes relevantes de un sistema cambien de forma prescrita. Un sistema inestable puede estabilizarse gracias a la realimentación, y los efectos de las perturbaciones externas pueden reducirse. La retroalimentación también ofrece nuevos grados de libertad a un diseñador al explotar la detección, la actuación y la computación. En esta sección se examinan algunas de las aplicaciones y tendencias importantes de la retroalimentación en el mundo que nos rodea. Primeros ejemplos tecnológicos La proliferación del control en los sistemas de ingeniería se produjo principalmente en la segunda mitad del siglo XX. Hay algunas excepciones importantes, como el regulador cen- trífugo descrito anteriormente y el termostato (figura 1.4a), diseñado a principios de siglo para regular la temperatura de los edificios. El termostato, en particular, es un ejemplo sencillo de control por retroalimentación que todo el mundo conoce. El dispositivo mide la temperatura de un edificio, compara esa temperatura con un valor de consigna deseado y utiliza el error de retroalimentación entre ambos para hacer funcionar la instalación de calefacción, por ejemplo, para encender la calefacción cuando la temperatura es demasiado baja y para apagarla cuando la temperatura es demasiado alta. Esta explicación capta la esencia de la retroalimentación, pero es demasiado simple incluso para un dispositivo básico como el termostato. Porque 6 CAPÍTULO 1. INTRODUCCIÓN existen retardos y retrasos en la instalación de calefacción y sen 7 1.3. EJEMPLOS DE RETROALIMENTACIÓN El movimient o abre el acelerador Picaporte Electroimán Motor reversible (a) Termostato Honeywell, 1953 Carga Muelle Pedal del acelerad or Ajuste de la velocidad Pom Contacto o s del Botón de Gobernad enganc or he Gobernad or de Flyball Muelle de ajuste Velocí metro (b) Control de crucero Chrysler, 1958 Figura 1.4: Primeros dispositivos de control. (a) Termostato Honeywell T87 introducido originalmente en 1953. El termostato controla el encendido de la calefacción comparando la temperatura actual de una habitación con un valor deseado que se ajusta mediante un dial. (b) Sistema de control de crucero de Chrysler introducido en el Chrysler Imperial de 1958 [Row58]. Se utiliza un regulador centrífugo para detectar la velocidad del vehículo y accionar el acelerador. La velocidad de referencia se especifica mediante un muelle de ajuste. (Figura de la izquierda por cortesía de Honeywell International, Inc.) sor, un buen termostato se anticipa un poco, apagando la calefacción antes de que el error cambie de signo. Así se evitan las oscilaciones de temperatura excesivas y los ciclos de la instalación de calefacción. Esta interacción entre la dinámica del proceso y el funcionamiento del regulador es un elemento clave en el diseño de los sistemas de control modernos. Hay muchos otros ejemplos de sistemas de control que se han desarrollado a lo largo de los años con niveles de sofisticación progresivamente crecientes. Uno de los primeros sistemas con amplia exposición pública fue la opción de control de crucero introducida en los automóviles en 1958 (véase la figura 1.4b). El control de crucero ilustra el comportamiento dinámico de los sistemas de retroalimentación de bucle cerrado en acción: el error de desaceleración a medida que el sistema sube una pendiente, la reducción gradual de ese error debido a la acción integral del controlador, el pequeño rebasamiento en la cima de la subida, etc. Los sistemas de control posteriores en los automóviles, como los controles de emisiones y los sistemas de medición de combustible, han logrado importantes reducciones de contaminantes y aumentos en el ahorro de combustible. Generación y transmisión de energía El acceso a la energía eléctrica ha sido uno de los principales motores del progreso tecnológico en la sociedad moderna. Gran parte del desarrollo inicial del control estuvo impulsado por la generación y distribución de energía eléctrica. El control es fundamental para los sistemas de energía, y hay muchos bucles de control en las centrales eléctricas individuales. El control también es importante para el funcionamiento de toda la red eléctrica, ya que es difícil almacenar la energía y, por tanto, es necesario ajustar la producción al consumo. La gestión de la energía es un problema de regulación sencillo para un sistema con un generador y un consumidor de energía, pero es más difícil en un sistema altamente distribuido con muchos generadores y largas distancias entre el 8 CAPÍTULO 1. INTRODUCCIÓN consumo y la generación. La demanda de energía puede cambiar rápidamente de forma imprevisible y 1.3. EJEMPLOS DE RETROALIMENTACIÓN 9 Figura 1.5: Una pequeña parte de la red eléctrica europea. En 2008, los proveedores de energía europeos explotarán una única red interconectada que cubrirá una región que va del Ártico al Mediterráneo y del Atlántico a los Urales. En 2004 la potencia instalada era de más de 700 GW (7 × 1011 W). (Fuente: UCTE [www.ucte.org]) La combinación de generadores y consumidores en grandes redes permite repartir las cargas entre muchos proveedores y promediar el consumo entre muchos clientes. Por eso se han construido grandes sistemas eléctricos transcontinentales y transnacionales, como el que se muestra en la figura 1.5. La mayor parte de la electricidad se distribuye mediante corriente alterna (CA) porque la tensión de transmisión puede modificarse con pequeñas pérdidas de potencia mediante transformadores. Los generadores de corriente alterna sólo pueden suministrar energía si están sincronizados con las variaciones de tensión de la red. Esto significa que los rotores de todos los generadores de una red deben estar sincronizados. Conseguirlo con controladores locales descentralizados y una pequeña interacción es un problema difícil. Se han observado oscilaciones esporádicas de baja frecuencia entre regiones distantes cuando se han interconectado redes eléctricas regionales [KW05]. La seguridad y la fiabilidad son las principales preocupaciones de los sistemas eléctricos. Puede haber perturbaciones debidas a la caída de árboles sobre las líneas eléctricas, a los rayos o a los fallos de los equipos. Existen sofisticados sistemas de control que intentan mantener el sistema en funcionamiento incluso cuando hay grandes perturbaciones. Las acciones de control pueden consistir en reducir la tensión, dividir la red en subredes o desconectar líneas y usuarios de energía. Estos sistemas de seguridad son un elemento esencial de los sistemas de distribución de energía, pero a pesar de todas las precauciones, de vez en cuando se producen fallos en los grandes sistemas de energía. El sistema eléctrico es, por tanto, un buen ejemplo de sistema distribuido complicado en el que el control se ejecuta en muchos niveles y de muchas maneras diferentes. 10 CAPÍTULO 1. INTRODUCCIÓN (a) F/A-18 "Hornet" (b) X-45 UCAV Figura 1.6: Sistemas aeroespaciales militares. (a) El avión F/A-18 es uno de los primeros cazas militares de producción que utiliza la tecnología "fly-by-wire". (b) El vehículo aéreo no tripulado X-45 (UCAV) es capaz de realizar un vuelo autónomo, utilizando sensores de medición inercial y el sistema de posicionamiento global (GPS) para controlar su posición en relación con una trayectoria deseada. (Fotografías por cortesía del Centro de Investigación de Vuelo Dryden de la NASA). Aeroespacial y transporte En el sector aeroespacial, el control ha sido una capacidad tecnológica clave desde principios del siglo XX. De hecho, los hermanos Wright son famosos, no por demostrar simplemente el vuelo con motor, sino el vuelo con motor controlado. Su primer Wright Flyer incorporaba superficies de control móviles (aletas verticales y alerones) y alas alabeables que permitían al piloto regular el vuelo del avión. De hecho, el propio avión no era estable, por lo que era obligatorio realizar continuas correcciones por parte del piloto. A este primer ejemplo de vuelo controlado le siguió una fascinante historia de éxito de continuas mejoras en la tecnología de control de vuelo, que culminó en los sistemas de control de vuelo automáticos de alto rendimiento y gran fiabilidad que vemos hoy en día en los aviones comerciales y militares (Figura 1.6). La tecnología de control ha tenido un éxito similar en muchas otras áreas de aplicación. Los visores de bombas y los servosistemas de control de tiro de la Segunda Guerra Mundial han evolucionado hasta convertirse en los cañones guiados por radar y las armas de precisión de hoy en día. Las primeras misiones espaciales, propensas a los fallos, han evolucionado hasta convertirse en operaciones rutinarias de lanzamiento, aterrizajes tripulados en la Luna, estaciones espaciales permanentemente tripuladas, vehículos robóticos que recorren Marte, vehículos en órbita en los planetas exteriores y una gran cantidad de satélites comerciales y militares que sirven para diversas necesidades de vigilancia, comunicación, navegación y observación de la Tierra. Los coches han avanzado desde la tecnología mecánica/neumática de ajuste manual hasta el funcionamiento controlado por ordenador de todas las funciones principales, como la inyección de combustible, el control de emisiones, el control de crucero, el frenado y el confort del habitáculo. La investigación actual en sistemas aeroespaciales y de transporte está estudiando la aplicación de la retroalimentación a niveles superiores de toma de decisiones, incluida la regulación lógica de los modos de funcionamiento, las configuraciones de los vehículos, las configuraciones de la carga útil y el estado de salud. Históricamente, estas tareas han sido realizadas por operadores humanos, pero a 1.3. EJEMPLOS DE RETROALIMENTACIÓN 11 Figura 1.7: Procesamiento de materiales. Los materiales modernos se procesan en condiciones cuidadosamente controladas, utilizando reactores como el reactor de deposición química de vapores metálicos y orgánicos (MOCVD) que se muestra a la izquierda, que fue para la fabricación de películas finas superconductoras. Mediante la litografía, el grabado químico, la deposición de vapor y otras técnicas, se pueden construir dispositivos complejos, como el procesador celular de IBM que se muestra a la derecha. (Imagen de MOCVD por cortesía de Bob Kee. Fotografía del procesador celular de IBM por cortesía de Tom Way, IBM Corporation; no se permite su uso no autorizado). Hoy en día esa frontera se está moviendo y los sistemas de control están asumiendo cada vez más estas funciones. Otra tendencia dramática que se vislumbra en el horizonte es el uso de grandes colecciones de entidades distribuidas con computación local, conexiones de comunicación globales, poca regularidad impuesta por las leyes de la física y ninguna posibilidad de imponer acciones de control centralizadas. Ejemplos de esta tendencia son el problema de la gestión del espacio aéreo nacional, la gestión automatizada de las carreteras y del tráfico y el mando y control de los futuros campos de batalla. Materiales y procesamiento La industria química es responsable de los notables avances en el desarrollo de nuevos materiales que son clave para nuestra sociedad moderna. Además de la continua necesidad de mejorar la calidad de los productos, hay otros factores en la industria de control de procesos que impulsan el uso del control. Las leyes medioambientales siguen imponiendo limitaciones más estrictas a la producción de contaminantes, lo que obliga a utilizar sofisticados dispositivos de control de la contaminación. Las consideraciones de seguridad medioambiental han llevado a reducir la capacidad de almacenamiento para disminuir el riesgo de fugas químicas importantes, lo que exige un control más estricto de los procesos previos y, en algunos casos, de las cadenas de suministro. Y los grandes aumentos de los costes energéticos han animado a los ingenieros a diseñar plantas muy integradas, acoplando muchos procesos que antes funcionaban de forma independiente. Todas estas tendencias aumentan la complejidad de estos procesos y los requisitos de rendimiento de los sistemas de control, lo que hace que el diseño de los sistemas de control sea cada vez más difícil. En la figura 1.7 se muestran algunos ejemplos de tecnología de procesamiento de materiales. Como en muchas otras áreas de aplicación, la nueva tecnología de sensores está creando nuevas oportunidades de control. Los sensores en línea -incluyendo la retrodispersión láser, el vídeo mi- 12 CAPÍTULO 1. INTRODUCCIÓN croscopía y espectroscopía ultravioleta, infrarroja y Raman- son cada vez más robustos y menos costosos y están apareciendo en más procesos de fabricación. Muchos de estos sensores ya se utilizan en los actuales sistemas de control de procesos, pero se necesitan técnicas de control y procesamiento de señales más sofisticadas para utilizar más eficazmente la información en tiempo real que proporcionan estos sensores. Los ingenieros de control también contribuyen al diseño de sensores aún mejores, que siguen siendo necesarios, por ejemplo, en la industria microelectrónica. Al igual que en otros lugares, el reto consiste en utilizar de forma eficaz las grandes cantidades de datos que proporcionan estos nuevos sensores. Además, es necesario un enfoque orientado al control para modelar la física esencial de los procesos subyacentes, a fin de comprender los límites fundamentales de la observabilidad del estado interno a través de los datos de los sensores. Instrumentación La medición de variables físicas es de interés primordial en la ciencia y la ingeniería. Consideremos, por ejemplo, un acelerómetro, cuyos primeros instrumentos consistían en una masa suspendida en un muelle con un sensor de desviación. La precisión de un instrumento de este tipo depende fundamentalmente de la calibración exacta del muelle y del sensor. También existe un compromiso de diseño, ya que un muelle débil proporciona una alta sensibilidad pero un bajo ancho de banda. Una forma diferente de medir la aceleración es utilizar la retroalimentación de fuerza. El muelle se sustituye por una bobina de voz que se controla para que la masa permanezca en una posición constante. La aceleración es proporcional a la corriente que pasa por la bobina. En un instrumento de este tipo, la precisión depende enteramente de la calibración de la bobina de voz y no depende del sensor, que se utiliza únicamente como señal de retroalimentación. También se evita el compromiso de sensibilidad/ancho de banda. Esta forma de utilizar la retroalimentación se ha aplicado a muchos campos de la ingeniería y ha dado lugar a instrumentos con un rendimiento notablemente mejorado. La retroalimentación de fuerza también se utiliza en dispositivos hápticos para el control manual. Otra aplicación importante de la retroalimentación es en la instrumentación de sistemas biológicos. La retroalimentación se utiliza ampliamente para medir las corrientes de iones en las células mediante un dispositivo llamado pinza de tensión, que se ilustra en la Figura 1.8. Hodgkin y Huxley utilizaron la pinza de tensión para investigar la propagación de los potenciales de acción en el axón gigante del calamar. En 1963 compartieron el Premio Nobel de Medicina con Eccles por "sus descubrimientos sobre los mecanismos iónicos implicados en la excitación y la inhibición en las porciones periféricas y centrales de la membrana de las células nerviosas". Un perfeccionamiento de la pinza de voltaje, denominada pinza de parche, permitió medir con exactitud el momento en que se abre o cierra un solo canal iónico. Esto fue desarrollado por Neher y Sakmann, que recibieron el Premio Nobel de Medicina en 1991 "por sus descubrimientos sobre la función de los canales iónicos individuales en las células". Hay muchas otras aplicaciones interesantes y útiles de la retroalimentación en los instrumentos científicos. El desarrollo del espectrómetro de masas es un ejemplo temprano. En un artículo de 1935, Nier observó que la desviación de los iones depende tanto del campo magnético como del eléctrico [Nie35]. En lugar de mantener ambos campos constantes, Nier dejó que el campo magnético fluctuara y el campo eléctrico se controló para mantener la 13 1.3. EJEMPLOS DE RETROALIMENTACIÓN Electrodo vr Pipeta de vidrio Controlad or I ve vi + v Membrana celular con canal iónico Figura 1.8: El método de pinza de tensión para medir las corrientes iónicas en las células mediante retroalimentación. Se utiliza una pipeta para colocar un electrodo en una célula (izquierda y centro) y mantener el potencial de la célula a un nivel fijo. La tensión interna de la célula es vi, y la tensión del fluido externo es ve. El sistema de retroalimentación (derecha) controla la corriente I en la célula para que el voltaje - vi ve es igual a su valor de referencia vr . La corriente I a través de la membrana de la célula v = es entonces igual a la corriente de iones. relación entre los campos constante. La retroalimentación se realizaba mediante amplificadores de tubo de vacío. Este esquema fue crucial para el desarrollo de la espectroscopia de masas. El ingeniero holandés van der Meer inventó una forma inteligente de utilizar la retroalimentación para mantener un haz de alta densidad de buena calidad en un acelerador de partículas [MPTvdM80]. La idea es detectar el desplazamiento de las partículas en un punto del acelerador y aplicar una señal de corrección en otro punto. Este esquema, denominado enfriamiento estocástico, fue galardonado con el Premio Nobel de Física en 1984. El método fue esencial para el éxito de los experimentos en el CERN, donde se demostró por primera vez la existencia de las partículas W y Z asociadas a la fuerza débil. El Premio Nobel de Física de 1986 -concedido a Binnig y Rohrer por su diseño del microscopio de barrido en túnel- es otro ejemplo de uso innovador de la retroalimentación. La idea clave es mover una punta estrecha en una viga en voladizo a través de una superficie y registrar las fuerzas sobre la punta [BR86]. La desviación de la punta se mide mediante tunelización. La corriente de tunelización es utilizada por un sistema de retroalimentación para controlar la posición de la base del cantiléver de manera que la corriente de tunelización sea constante, un ejemplo de retroalimentación de fuerza. La precisión es tan alta que se pueden registrar átomos individuales. Se obtiene un mapa de los átomos moviendo la base del cantiléver horizontalmente. El rendimiento del sistema de control se refleja directamente en la calidad de la imagen y la velocidad de exploración. Este ejemplo se describe con más detalle en el capítulo 3. Robótica y máquinas inteligentes El objetivo de la ingeniería cibernética, ya articulado en la década de 1940 e incluso antes, ha sido implementar sistemas capaces de mostrar respuestas altamente flexibles o "inteligentes" a las circunstancias cambiantes. En 1948, el matemático del MIT Norbert Wiener dio una descripción muy leída de la cibernética [Wie48]. Un tratamiento más matemático de los elementos de la cibernética de la ingeniería fue presentado por H. S. Tsien en 1954, impulsado por problemas relacionados con el control de misiles [Tsi54]. En conjunto, estos trabajos y otros de la época constituyen gran parte de la base intelectual del trabajo moderno en robótica y control. Dos logros que demuestran los éxitos del campo son el Marte 14 CAPÍTULO 1. INTRODUCCIÓN Figura 1.9: Sistemas robóticos. (a) Spirit, uno de los dos Mars Exploratory Rovers que aterrizaron en Marte en enero de 2004. (b) El robot de entretenimiento Sony AIBO, uno de los primeros robots de entretenimiento comercializados en masa. Ambos robots utilizan la retroalimentación entre sensores, actuadores y computación para funcionar en entornos desconocidos. (Fotografías por cortesía de Jet Propulsion Laboratory y Sony Electronics, Inc.) Los exploradores y los robots de entretenimiento, como el AIBO de Sony, mostrados en la figura 1.9. Los dos Mars Exploratory Rovers, lanzados por el Laboratorio de Propulsión a Chorro (JPL), maniobraron en la superficie de Marte durante más de cuatro años a partir de enero de 2004 y enviaron imágenes y mediciones de su entorno. El robot AIBO de Sony debutó en junio de 1999 y fue el primer robot de "entretenimiento" comercializado en masa por una gran empresa internacional. Destacó por el uso de tecnologías de inteligencia artificial (IA) que le permitían actuar en respuesta a estímulos externos y a su propio juicio. Este nivel superior de retroalimentación es un elemento clave en la robótica, donde prevalecen cuestiones como la evitación de obstáculos, la búsqueda de objetivos, el aprendizaje y la autonomía. A pesar de los enormes avances de la robótica en el último medio siglo, en muchos aspectos este campo aún está en pañales. Los robots actuales siguen mostrando comportamientos sencillos en comparación con los humanos, y su capacidad de locomoción, interpretación de datos sensoriales complejos, razonamiento de alto nivel y cooperación en equipo es limitada. De hecho, gran parte de la visión de Wiener sobre la robótica y las máquinas inteligentes sigue sin realizarse. Aunque se necesitan avances en muchos campos para lograr esta visión -incluidos los avances en la detección, la actuación y el almacenamiento de energía-, la oportunidad de combinar los avances de la comunidad de la IA en la planificación, la adaptación y el aprendizaje con las técnicas de la comunidad de control para el modelado, el análisis y el diseño de sistemas de retroalimentación presenta un camino renovado para el progreso. Redes y sistemas informáticos El control de las redes es un amplio campo de investigación que abarca muchos temas, como el control de la gestión, el enrutamiento, el almacenamiento de datos en caché y la gestión de la energía. Estos problemas de control presentan varias características que los hacen muy difíciles. El rasgo dominante es la escala extremadamente grande del sistema; Internet es probablemente la mayor retroalimentación 15 1.3. EJEMPLOS DE RETROALIMENTACIÓN Clientes 1 Internet Solicitar Solicitar Respu esta Respu esta Solicita r respue Nivel 2Nivel 3 (a) Servicios de Internet multinivel sta (b) Servidor individual Figura 1.10: Un sistema multinivel de servicios en Internet. En el sistema completo mostrado esquemáticamente en (a), los usuarios solicitan información a un conjunto de ordenadores (nivel 1), que a su vez recogen información de otros ordenadores (niveles 2 y 3). El servidor individual mostrado en (b) tiene un conjunto de parámetros de referencia establecidos por un operador (humano) del sistema, con retroalimentación utilizada para mantener el funcionamiento del sistema en presencia de incertidumbre. (Basado en Hellerstein et al. [HDPT04]). sistema de control que el ser humano ha construido jamás. Otra es la naturaleza descentralizada del problema de control: las decisiones deben tomarse rápidamente y basarse sólo en la información local. La estabilidad se complica por la presencia de desfases temporales variables, ya que la información sobre el estado de la red puede observarse o transmitirse a los controladores sólo después de un tiempo, y el efecto de una acción de control local puede sentirse en toda la red sólo después de un retraso considerable. La incertidumbre y la variación en la red, a través de la topología de la red, las características del canal de transmisión, la demanda de tráfico y los recursos disponibles, pueden cambiar constantemente y de forma impredecible. Otras cuestiones que complican la situación son las diversas características del tráfico -en términos de estadísticas de llegada tanto a escala de paquetes como de flujos- y los diferentes requisitos de calidad de servicio que debe soportar la red. Relacionado con el control de las redes está el control de los servidores que se asientan en estas redes. Los ordenadores son componentes clave de los sistemas de routers, servidores web y servidores de bases de datos utilizados para la comunicación, el comercio electrónico, la publicidad y el almacenamiento de información. Mientras que los costes de hardware de la informática han disminuido drásticamente, el coste de funcionamiento de estos sistemas ha aumentado debido a la dificultad de gestionar y mantener estos complejos sistemas interconectados. La situación es similar a las primeras fases del control de procesos, cuando se introdujo la retroalimentación para controlar los procesos industriales. Al igual que en el control de procesos, existen interesantes posibilidades de aumentar el rendimiento y reducir los costes aplicando la retroalimentación. En el libro de Hellerstein et al. [HDPT04] se describen varios usos prometedores de la retroalimentación en el funcionamiento de los sistemas informáticos. En la f i g u r a 1.10a se muestra un ejemplo típico de sistema multicapa para el comercio electrónico. El sistema tiene varios niveles de servidores. El servidor de borde acepta las solicitudes entrantes y las dirige al nivel del servidor HTTP, donde se analizan y se distribuyen a los servidores de aplicaciones. El procesamiento de las diferentes solicitudes puede variar mucho, y los servidores de aplicaciones también pueden acceder a servidores externos gestionados por otras organizaciones. El control de un servidor individual en una capa se ilustra en la figura 1.10b. Una cantidad que representa la calidad del servicio o el coste de la operación, como el tiempo de respuesta, 16 CAPÍTULO 1. INTRODUCCIÓN El rendimiento, la tasa de servicio o el uso de la memoria se miden en el ordenador. Las variables de control pueden representar los mensajes entrantes aceptados, las prioridades en el sistema operativo o la asignación de memoria. El bucle de retroalimentación intenta mantener las variables de calidad de servicio dentro de un rango de valores objetivo. Economía La economía es un gran sistema dinámico con muchos actores: gobiernos, organizaciones, empresas y particulares. Los gobiernos controlan la economía mediante leyes e impuestos, los bancos centrales fijando los tipos de interés y las empresas fijando los precios y realizando inversiones. Los individuos controlan la economía a través de las compras, los ahorros y las inversiones. Se han hecho muchos esfuerzos para modelar el sistema tanto a nivel macro como a nivel micro, pero esta modelización es difícil porque el sistema está fuertemente influenciado por los comportamientos de los diferentes actores del sistema. Keynes [Key36] desarrolló un modelo sencillo para entender las relaciones entre el producto nacional bruto, la inversión, el consumo y el gasto público. Una de las observaciones de Keynes fue que, en determinadas condiciones, por ejemplo, durante la depresión de los años 30, un aumento de la inversión del gasto público podía dar lugar a un mayor aumento del producto nacional bruto. Esta idea fue utilizada por varios gobiernos para tratar de aliviar la depresión. Las ideas de Keynes se pueden plasmar en un modelo sencillo que se analiza en el ejercicio 2.4. Se puede obtener una perspectiva sobre la modelización y el control de los sistemas económicos a partir del trabajo de algunos economistas que han recibido el Premio Sveriges Riks- bank de Economía en Memoria de Alfred Nobel, popularmente llamado Premio Nobel de Economía. Paul A. Samuelson recibió el premio en 1970 por "el trabajo científico a través del cual ha desarrollado la teoría económica estática y dinámica y ha contribuido activamente a elevar el nivel de análisis en la ciencia económica". Lawrence Klein recibió el premio en 1980 por el desarrollo de grandes modelos dinámicos con muchos parámetros que se ajustaron a datos históricos [KG55], por ejemplo, un modelo de la economía estadounidense en el periodo 1929-1952. Otros investigadores han modelado otros países y otros períodos. En 1997, Myron Scholes compartió el premio con Robert Merton por un nuevo método para determinar el valor de los derivados. Un ingrediente clave fue un modelo dinámico de la variación de los precios de las acciones que es ampliamente utilizado por los bancos y las empresas de inversión. En 2004, Finn E. Kydland y Edward C. Prestcott compartieron el premio de economía "por sus contribuciones a la macroeconomía dinámica: la coherencia temporal de la política económica y las fuerzas motrices de los ciclos económicos", un tema claramente relacionado con la dinámica y el control. Una de las razones por las que es difícil modelar sistemas económicos es que no existen leyes de conservación. Un ejemplo típico es que el valor de una empresa, expresado por sus acciones, puede cambiar rápida y erráticamente. Sin embargo, hay algunas áreas con leyes de conservación que permiten una modelización precisa. Un ejemplo es el flujo de productos de un fabricante a un minorista, tal y como se ilustra en la figura 1.11. Los productos son cantidades físicas que obedecen a la ley de conservación. Los productos son cantidades físicas que obedecen a una ley de conservación, y el sistema puede modelarse teniendo en cuenta el número de productos en los diferentes inventarios. 1.3. EJEMPLOS DE RETROALIMENTACIÓN Fábrica 17 Almacén Distribuidores Minoristas Publicidad Consumidores Figura 1.11: Dinámica de la cadena de suministro (según Forrester [For61]). Los productos fluyen desde el productor hasta el cliente a través de distribuidores y minoristas, como indican las líneas continuas. Suele haber muchas fábricas y almacenes y aún más distribuidores y minoristas. Los bucles de retroalimentación son múltiples, ya que cada agente trata de mantener el nivel de inventario adecuado. El control de las cadenas de suministro para que los productos estén disponibles para los clientes y para minimizar los productos almacenados tiene considerables ventajas económicas. Los problemas reales son más complicados que los indicados en la figura porque puede haber muchos productos diferentes, puede haber distintas fábricas distribuidas geográficamente y las fábricas pueden necesitar materia prima o subconjuntos. El control de las cadenas de suministro fue propuesto por Forrester en 1961 [For61] y su importancia es cada vez mayor. Se pueden obtener considerables beneficios económicos utilizando modelos para minimizar los inventarios. Su uso se aceleró drásticamente cuando se aplicó la tecnología de la información para predecir las ventas, hacer un seguimiento de los productos y permitir la fabricación justo a tiempo. La gestión de la cadena de suministro ha contribuido de forma significativa al creciente éxito de los distribuidores mundiales. La publicidad en Internet es una aplicación emergente de control. Con la publicidad en red es fácil medir rápidamente el efecto de diferentes estrategias de marketing. Así se puede modelar la respuesta de los clientes y desarrollar estrategias de retroalimentación. Retroalimentación en la naturaleza Muchos problemas de las ciencias naturales implican la comprensión del comportamiento agregado en sistemas complejos a gran escala. Este comportamiento surge de la interacción de una multitud de sistemas más simples con intrincados patrones de flujo de información. Se pueden encontrar ejemplos representativos en campos que van desde la embriología hasta la sismología. Los investigadores que se especializan en el estudio de sistemas complejos específicos suelen hacer hincapié en el análisis del papel de la retroalimentación (o interconexión) para facilitar y estabilizar el comportamiento agregado. Si bien los expertos en la materia han desarrollado sofisticadas teorías para el análisis de diversos sistemas complejos, el desarrollo de una metodología rigurosa que pueda descubrir y explotar las características comunes y la estructura matemática esencial apenas está empezando a surgir. Los avances de la ciencia y la tecnología están creando una nueva comprensión de la dinámica subyacente y la importancia de la retroalimentación 18 CAPÍTULO 1. INTRODUCCIÓN Figura 1.12: Diagrama de cableado del circuito de señalización del crecimiento de la célula de mamífero [HW00]. En el diagrama se indican las principales vías que se cree que desempeñan un papel en el cáncer. Las líneas representan las interacciones entre genes y proteínas en la célula. Las líneas que terminan en punta de flecha indican la activación del gen o la vía en cuestión; las líneas que terminan en forma de T indican la represión. (Utilizado con permiso de Elsevier Ltd. y de los autores). en una gran variedad de sistemas naturales y tecnológicos. Aquí destacamos brevemente tres áreas de aplicación. Sistemas biológicos. Un tema importante que interesa actualmente a la comunidad biológica es la ciencia de la ingeniería inversa (y, eventualmente, avanzada) de las redes de control biológico, como la que se muestra en la figura 1.12. Hay una gran variedad de fenómenos biológicos que proporcionan una rica fuente de ejemplos de control, incluyendo la regulación de genes y la transducción de señales; los mecanismos de retroalimentación hormonal, inmunológica y cardiovascular; el control muscular y la locomoción; la detección activa, la visión y la propiocepción; la atención y la conciencia; y la dinámica de poblaciones y las epidemias. Cada uno de estos temas (y muchos más) ofrece la oportunidad de averiguar qué funciona, cómo funciona y qué podemos hacer para afectarlo. Una característica interesante de los sistemas biológicos es el uso frecuente de la retroalimentación positiva para dar forma a la dinámica del sistema. La retroalimentación positiva puede utilizarse para crear un comportamiento similar a un interruptor mediante la autorregulación de un gen, y para crear oscilaciones como las presentes en el ciclo celular, los generadores de patrones centrales o el ritmo circadiano. Ecosistemas. A diferencia de las células y los organismos individuales, las propiedades emergentes de las agregaciones y los ecosistemas reflejan intrínsecamente mecanismos de selección que actúan en múltiples niveles, y principalmente en escalas muy inferiores a la del sistema en su conjunto. Dado que los ecosistemas son sistemas dinámicos complejos y multiescalares, proporcionan un 1.4. PROPIEDADES DE RETROALIMENTACIÓN 17 Una amplia gama de nuevos retos para el modelado y el análisis de los sistemas de retroalimentación. La experiencia reciente en la aplicación de herramientas de control y sistemas dinámicos a las redes biológicas sugiere que gran parte de la complejidad de estas redes se debe a la presencia de múltiples capas de bucles de retroalimentación que proporcionan una funcionalidad robusta a la célula individual. Sin embargo, en otros casos, los acontecimientos a nivel celular benefician a la colonia a expensas del individuo. El análisis a nivel de sistemas puede aplicarse a los ecosistemas con el objetivo de comprender la solidez de dichos sistemas y la medida en que las decisiones y los acontecimientos que afectan a las especies individuales contribuyen a la solidez y/o la fragilidad del ecosistema en su conjunto. Ciencia del medio ambiente. Actualmente es indiscutible que las actividades humanas han alterado el medio ambiente a escala mundial. Los problemas de enorme complejidad desafían a los investigadores en este campo, y el primero de ellos es comprender los sistemas de retroalimentación que operan a escala global. Uno de los retos para desarrollar esa comprensión es la naturaleza multiescalar del problema, ya que la comprensión detallada de la dinámica de los fenómenos a microescala, como los organismos microbiológicos, es un componente necesario para entender los fenómenos globales, como el ciclo del carbono. 1.4 Comentarios Propiedades La retroalimentación es una idea poderosa que, como hemos visto, se utiliza ampliamente en los sistemas naturales y tecnológicos. El principio de la retroalimentación es sencillo: basar las acciones de corrección en la diferencia entre el rendimiento deseado y el real. En la ingeniería, la retroalimentación ha sido redescubierta y patentada muchas veces en muchos textos diferentes. El uso de la retroalimentación a menudo ha dado lugar a grandes mejoras en la capacidad del sistema, y estas mejoras a veces han sido revolucionarias, como se ha comentado anteriormente. La razón de ello es que la retroalimentación tiene algunas propiedades realmente notables. En esta sección discutiremos algunas de las propiedades de la retroalimentación que pueden ser entendidas intuitivamente. Esta intuición se formalizará en capítulos posteriores. Robustez ante la incertidumbre Uno de los principales usos de la retroalimentación es proporcionar solidez a la incertidumbre. Al medir la diferencia entre el valor detectado de una señal regulada y su valor deseado, podemos proporcionar una acción correctiva. Si el sistema sufre algún cambio que afecte a la señal regulada, entonces detectamos este cambio e intentamos forzar al sistema a volver al punto de funcionamiento deseado. Este es precisamente el efecto que aprovechó Watt al utilizar el regulador centrífugo en las máquinas de vapor. Como ejemplo de este principio, considere el sencillo sistema de retroalimentación que se muestra en la figura 1.13. En este sistema, la velocidad de un vehículo se controla ajustando la cantidad de gas que fluye hacia el motor. Se utiliza una retroalimentación simple proporcional-integral (PI) para que la cantidad de gas dependa tanto del error entre la velocidad actual y la deseada como de la integral de ese error. El gráfico de la derecha muestra los resultados de esta retroalimentación para un cambio de paso en la velocidad deseada y una variedad de 18 CAPÍTULO 1. INTRODUCCIÓN Accion ar el acelerad or Veloc idad de los sentid os Calcula Ve 30 loc ida d [m 25 /s] 0 m 5 10 Tiempo [s] Figura 1.13: Sistema de retroalimentación para controlar la velocidad de un vehículo. En el diagrama de bloques de la izquierda, la velocidad del vehículo se mide y se compara con la velocidad deseada dentro del bloque "Computación". En función de la diferencia entre la velocidad real y la deseada, se utiliza el acelerador (o el freno) para modificar la fuerza aplicada al vehículo por el motor, la transmisión y las ruedas. La figura de la derecha muestra la respuesta del sistema de control a un cambio de velocidad ordenado de 25 m/s a 30 m/s. Las tres curvas diferentes corresponden a distintas masas del vehículo, entre 1.000 y 3.000 kg, lo que demuestra la solidez del sistema de bucle cerrado ante un cambio muy grande de las características del vehículo. diferentes masas para el coche, que podrían resultar de tener un número diferente de pasajeros o de arrastrar un remolque. Obsérvese que, independientemente de la masa (¡que varía en un factor de 3!), la velocidad en estado estacionario del vehículo siempre se aproxima a la velocidad deseada y la alcanza en aproximadamente 5 s. Por tanto, el rendimiento del sistema es robusto con respecto a esta incertidumbre. Otro ejemplo temprano de la utilización de la retroalimentación para proporcionar robustez es el amplificador de retroalimentación negativa. Cuando se desarrollaron las comunicaciones telefónicas, se utilizaron amplificadores para compensar la atenuación de la señal en las líneas largas. El tubo de vacío era un componente que podía utilizarse para construir amplificadores. La distorsión causada por las características no lineales del amplificador de tubo junto con la deriva del amplificador fueron obstáculos que impidieron el desarrollo de amplificadores de línea durante mucho tiempo. Un gran avance fue la invención del amplificador de retroalimentación en 1927 por Harold S. Black, un ingeniero eléctrico de los Laboratorios de Telefonía Bell. Black utilizó la retroalimentación negativa, que reduce la ganancia pero hace que el amplificador sea insensible a las variaciones de las características del tubo. Este invento permitió construir amplificadores estables con características lineales a pesar de las no linealidades del amplificador de tubo de vacío. Diseño de la dinámica Otro uso de la retroalimentación es cambiar la dinámica de un sistema. Mediante la retroalimentación, podemos alterar el comportamiento de un sistema para satisfacer las necesidades de una aplicación: los sistemas que son inestables pueden estabilizarse, los sistemas que son lentos pueden responder y los sistemas que tienen puntos de funcionamiento a la deriva pueden mantenerse constantes. La teoría del control ofrece una rica colección de técnicas para analizar la estabilidad y la respuesta dinámica de los sistemas complejos y para poner límites al comportamiento de dichos sistemas analizando las ganancias de los operadores lineales y no lineales que describen sus componentes. Un ejemplo del uso del control en el diseño de la dinámica procede del ámbito del control del vuelo. La siguiente cita, extraída de una conferencia presentada por Wilbur Wright a la Sociedad Occidental de Ingenieros en 1901 [McF53], ilustra el papel 1.4. PROPIEDADES DE RETROALIMENTACIÓN 19 de control en el desarrollo del avión: Los hombres ya saben cómo construir alas o aviones que, al ser impulsados por el aire a una velocidad suficiente, no sólo sostendrán el peso de las propias alas, sino también el del motor y el del ingeniero. Los hombres también saben cómo construir motores y tornillos de suficiente ligereza y potencia para impulsar estos aviones a una velocidad sostenible... La incapacidad de equilibrar y dirigir sigue siendo un problema para los estudiantes de vuelo... Cuando se haya resuelto esta característica, la era del vuelo habrá llegado, ya que todas las demás dificultades son de menor importancia. Los hermanos Wright se dieron cuenta así de que el control era una cuestión clave para poder volar. Resolvieron el compromiso entre estabilidad y maniobrabilidad construyendo un avión, el Wright Flyer, que era inestable pero maniobrable. El Flyer tenía un timón en la parte delantera del avión, lo que lo hacía muy maniobrable. Una desventaja era la necesidad de que el piloto ajustara constantemente el timón para hacer volar el avión: si el piloto soltaba el stick, el avión se estrellaba. Otros primeros aviadores intentaron construir aviones estables. Estos habrían sido más fáciles de pilotar, pero debido a su escasa maniobrabilidad no podían elevarse en el aire. Gracias a su perspicacia y a sus hábiles experimentos, los hermanos Wright realizaron el primer vuelo con éxito en Kitty Hawk en 1903. Dado que resultaba bastante molesto pilotar un avión inestable, existía una fuerte motivación para encontrar un mecanismo que estabilizara la aeronave. Este dispositivo, inventado por Sperry, se basaba en el concepto de retroalimentación. Sperry utilizó un péndulo giroestabilizado para proporcionar una indicación de la vertical. A continuación, dispuso un mecanismo de retroalimentación que tiraba del stick para hacer que el avión subiera si apuntaba hacia abajo, y viceversa. El piloto automático de Sperry fue el primer uso de la retroalimentación en la ingeniería aeronáutica, y Sperry ganó un premio en un concurso por el avión más seguro en París en 1914. La figura 1.14 muestra el hidroavión Curtiss y el piloto automático Sperry. El piloto automático es un buen ejemplo de cómo puede utilizarse la retroalimentación para estabilizar un sistema inestable y, por tanto, "diseñar la dinámica" del avión. Otra de las ventajas de diseñar la dinámica de un dispositivo es que permite aumentar la modularidad del diseño global del sistema. Al utilizar la retroalimentación para crear un sistema cuya respuesta se ajuste a un perfil deseado, podemos ocultar la com- plejidad y la variabilidad que pueda haber dentro de un subsistema. Esto nos permite crear sistemas más complejos al no tener que ajustar simultáneamente las respuestas de un gran número de componentes que interactúan. Esta fue una de las ventajas del uso de Black de la retroalimentación negativa en los amplificadores de tubo de vacío: el dispositivo resultante tenía una respuesta lineal de entrada/salida bien definida que no dependía de las características individuales de los tubos de vacío utilizados. Mayores niveles de automatización Una tendencia importante en el uso de la retroalimentación es su aplicación a niveles más altos de conciencia situacional y toma de decisiones. Esto incluye no sólo la lógica tradicional 20 CAPÍTULO 1. INTRODUCCIÓN Figura 1.14: Sistema de piloto automático de un avión. El piloto automático Sperry (izquierda) contenía un conjunto de cuatro giroscopios acoplados a un conjunto de válvulas de aire que controlaban las superficies del ala. El Curtiss de 1912 utilizaba un piloto automático para estabilizar el alabeo, el cabeceo y la guiñada del avión y era capaz de mantener el vuelo nivelado mientras un mecánico caminaba por el ala (derecha) [Hug93]. La ramificación basada en las condiciones del sistema, pero también la optimización, la adaptación, el aprendizaje e incluso niveles superiores de razonamiento abstracto. Estos problemas son del dominio de la comunidad de la inteligencia artificial, con un papel cada vez mayor de la dinámica, la robustez y la interconexión en muchas aplicaciones. Una de las áreas interesantes de investigación en los niveles superiores de decisión es el control autónomo de los coches. Los primeros experimentos con la conducción autónoma corrieron a cargo de Ernst Dickmanns, que en la década de 1980 equipó los coches con cámaras y otros sensores [Dic07]. En 1994 su grupo demostró la conducción autónoma con supervisión humana en una autopista cerca de París y en 1995 uno de sus coches condujo de forma autónoma (con supervisión humana) de Múnich a Copenhague a velocidades de hasta 175 km/hora. El coche era capaz de adelantar a otros vehículos y cambiar de carril automáticamente. Esta área de aplicación se ha explorado recientemente a través del DARPA Grand Challenge, una serie de concursos patrocinados por el gobierno de Estados Unidos para construir vehículos que puedan conducirse de forma autónoma en entornos desérticos y urbanos. Caltech compitió en los Grand Challenges de 2005 y 2007 con una furgoneta todoterreno Ford E-350 modificada apodada "Alice". Estaba totalmente automatizada, con dirección, acelerador, frenos, transmisión y encendido controlados electrónicamente. Sus sistemas de detección incluían múltiples cámaras de vídeo que escaneaban a 10-30 Hz, varias unidades de medición láser que escaneaban a 10 Hz y un paquete de navegación inercial capaz de proporcionar estimaciones de posición y orientación con una resolución temporal de 5 ms. Las fuentes informáticas incluían 12 servidores de alta velocidad conectados entre sí a través de un conmutador de Internet de 1 Gb/s. El vehículo se muestra en la figura 1.15, junto con un diagrama de bloques de su arquitectura de control. La infraestructura de software y hardware que se desarrolló permitió al vehículo recorrer largas distancias a velocidades considerables. En las pruebas, Alice recorrió más de 500 km en el desierto de Mojave (California), con la capacidad de seguir 21 1.4. PROPIEDADES DE RETROALIMENTACIÓN Control de supervisión Planif icador de rutas Seguid or del camino Actuació n del vehículo Búsqu eda de carreter as Map a de cost es Estima dor de estado Vehículo Sensor es de terreno Mapa de elevaci ón Figura 1.15: DARPA Grand Challenge. "Alice", la propuesta del equipo Caltech en las competiciones de 2005 y 2007 y su arquitectura de control en red [CFG+06]. El sistema de retroalimentación fusiona los datos de los sensores del terreno (cámaras y telémetros láser) para determinar un mapa de elevación digital. Este mapa se utiliza para calcular la velocidad potencial del vehículo sobre el terreno y, a continuación, un planificador de trayectorias basado en la optimización ordena la trayectoria que debe seguir el vehículo. Un módulo de control de supervisión realiza tareas de alto nivel, como la gestión de los fallos de los sensores y los actuadores. caminos de tierra y senderos (si los hay) y evitar los obstáculos del camino. Se obtuvieron velocidades de más de 50 km/h en el modo totalmente autónomo. Durante las pruebas en el desierto se afinaron mucho los algoritmos, en parte por la falta de herramientas de diseño de sistemas de este nivel de complejidad. Otros competidores de la carrera (incluido Stanford, que ganó la competición de 2005) utilizaron algoritmos de control adaptativo y aprendizaje, aumentando las capacidades de sus sistemas en entornos desconocidos. En conjunto, los competidores del Grand Challenge demostraron algunas de las capacidades de la próxima generación de sistemas de control y destacaron muchas direcciones de investigación en el control a niveles superiores de toma de decisiones. Inconvenientes de la retroalimentación Aunque la retroalimentación tiene muchas ventajas, también presenta algunos inconvenientes. El principal es la posibilidad de inestabilidad si el sistema no está bien diseñado. Todos conocemos los efectos de la retroalimentación positiva cuando la amplificación de un micrófono se eleva demasiado en una sala. Este es un ejemplo de inestabilidad por retroalimentación, algo que obviamente queremos evitar. Esto es complicado porque debemos diseñar el sistema no sólo para que sea estable en condiciones nominales, sino también para que permanezca estable bajo todas las posibles perturbaciones de la dinámica. Además del potencial de inestabilidad, la retroalimentación acopla intrínsecamente diferentes partes de un sistema. Un problema común es que la retroalimentación suele inyectar ruido de medición en el sistema. Las mediciones deben filtrarse cuidadosamente para que la dinámica de actuación y del proceso no responda a ellas, al tiempo que se garantiza que la señal de medición del sensor se acopla correctamente a la dinámica del bucle cerrado (para que se alcancen los niveles adecuados de rendimiento). Otro posible inconveniente del control es la complejidad de integrar un sistema de control en un producto. Mientras que el coste de la detección, el cálculo y el accionamiento ha 22 CAPÍTULO 1. INTRODUCCIÓN Si bien es cierto que el uso de microprocesadores ha disminuido drásticamente en las últimas décadas, no es menos cierto que los sistemas de control suelen ser complicados, por lo que hay que sopesar cuidadosamente los costes y los beneficios. El uso de microprocesadores en aplicaciones de automoción comenzó a principios de los años 70, impulsado por las normas de emisiones cada vez más estrictas, que sólo podían cumplirse mediante controles electrónicos. Los primeros sistemas eran caros y fallaban con más frecuencia de la deseada, lo que provocaba la insatisfacción de los clientes. Sólo gracias a las agresivas mejoras tecnológicas, el rendimiento, la fiabilidad y el coste de estos sistemas permitieron que se utilizaran de forma transparente. Incluso hoy en día, la complejidad de estos sistemas es tal que resulta difícil para un propietario individual de un coche solucionar los problemas. Feedforward La retroalimentación es reactiva: debe haber un error antes de que se tomen medidas correctoras. Sin embargo, en algunas circunstancias es posible medir una perturbación antes de que entre en el sistema, y esta información puede utilizarse para tomar medidas correctoras antes de que la perturbación haya influido en el sistema. El efecto de la perturbación se reduce así midiéndola y generando una señal de control que la contrarreste. Esta forma de controlar un sistema se denomina feedforward. El feedforward es especialmente útil para dar forma a la respuesta a las señales de mando porque éstas siempre están disponibles. Dado que el feedforward intenta ajustar dos señales, requiere buenos modelos de proceso; de lo contrario, las correcciones pueden tener un tamaño incorrecto o estar mal programadas. Las ideas de feedback y feedforward son muy generales y aparecen en muchos campos diferentes. En economía, el feedback y el feedforward son análogos a una economía de mercado frente a una economía planificada. En los negocios, una estrategia de feedforward corresponde a la gestión de una empresa basada en una amplia planificación estratégica, mientras que una estrategia de feedback corresponde a un enfoque reactivo. En biología, se ha sugerido que el feedforward es un elemento esencial para el control del movimiento en los seres humanos que se pone a punto durante el entrenamiento. La experiencia indica que a menudo es ventajoso combinar el feed-back y el feedforward, y el equilibrio correcto requiere una visión y comprensión de sus propiedades respectivas. Comentarios positivos En la mayor parte de este texto, consideraremos el papel de la retroalimentación negativa, en la que se intenta regular el sistema reaccionando a las perturbaciones de forma que disminuya el efecto de las mismas. En algunos sistemas, especialmente en los biológicos, la retroalimentación positiva puede desempeñar un papel importante. En un sistema con retroalimentación positiva, el aumento de alguna variable o señal conduce a una situación en la que esa cantidad aumenta aún más a través de su dinámica. Esto tiene un efecto desestabilizador y suele ir acompañado de una saturación que limita el crecimiento de la cantidad. Aunque a menudo se considera indeseable, este comportamiento se utiliza en los sistemas biológicos (y de ingeniería) para obtener una respuesta muy rápida a una condición o señal. 23 1.5. FORMAS SENCILLAS DE RETROALIMENTACIÓN u u e u e (a) Control de encendido y apagado e (c) Histéresis (b) Zona muerta Figura 1.16: Características de entrada/salida de los controladores on-off. Cada gráfico muestra la entrada en el eje horizontal y la salida correspondiente en el eje vertical. El control on-off ideal se muestra en (a), con modificaciones para una zona muerta (b) o histéresis (c). Obsérvese que para el control on-off con histéresis, la salida depende del valor de las entradas pasadas. Un ejemplo del uso de la retroalimentación positiva es crear un comportamiento de conmutación, en el que un sistema mantiene un estado determinado hasta que alguna entrada cruza un umbral. La histéresis suele estar presente para que las entradas ruidosas cerca del umbral no hagan que el sistema se tambalee. Este tipo de comportamiento se denomina biestabilidad y suele asociarse a los dispositivos de memoria. 1.5 Formas sencillas de Feedback La idea de la retroalimentación para realizar acciones correctivas basadas en la diferencia entre los valores deseados y los reales de una cantidad puede implementarse de muchas maneras diferentes. Los beneficios de la retroalimentación pueden obtenerse mediante leyes de retroalimentación muy simples como el control on-off, el control proporcional y el control proporcionalintegral-derivativo. En esta sección ofrecemos un breve avance de algunos de los temas que se estudiarán más formalmente en el resto del texto. Control de encendido y apagado Un mecanismo simple de retroalimentación puede f describirse como sigue: u= umax si e > 0 umin si e < 0, (1.1) donde el error de control e =- r y es la diferencia entre la señal de referencia (o señal de mando) r y la salida del sistema y, y u es la orden de actuación. La figura 1.16a muestra la relación entre el error y el control. Esta ley de control implica que siempre se utilicen las máximas medidas correctoras. La retroalimentación de la ecuación (1.1) se denomina control on-off. Una de sus principales ventajas es que es sencillo y no hay que elegir parámetros. El control on-off a menudo consigue mantener la variable del proceso cerca de la referencia, como el uso de un simple termostato para mantener la temperatura de una habitación. Suele dar lugar a un sistema en el que las variables controladas oscilan, lo que suele ser aceptable si la oscilación es lo suficientemente pequeña. Obsérvese que en la ecuación (1.1) la variable de control no está definida cuando el error 24 CAPÍTULO 1. INTRODUCCIÓN es cero. Es habitual realizar modificaciones introduciendo una zona muerta o una histéresis (véase la figura 1.16b y 1.16c). Control PID La razón por la que el control on-off suele dar lugar a oscilaciones es que el sistema reacciona de forma exagerada, ya que un pequeño cambio en el error hace que la variable actuada cambie en todo el rango. Este efecto se evita en el control proporcional, donde la característica del controlador es proporcional al error de control para pequeños errores. Esto se puede conseguir con la ley de umax si e ≥ control emax u= emax kp e umin si emin < e < (1.2) si e ≤ emin , donde kp es la ganancia del controlador, emin = umin /kp y emax = umax /kp . El intervalo (emin , emax ) se llama banda proporcional porque el comportamiento del controlador es lineal cuando el error está en este intervalo: u = kp (r - y) = kp e si emin ≤ e ≤ emax . (1.3) Aunque supone una gran mejora respecto al control on-off, el control proporcional tiene el inconveniente de que la variable del proceso se desvía a menudo de su valor de referencia. En particular, si se requiere algún nivel de señal de control para que el sistema mantenga un valor deseado, entonces / debemos tener e = 0 para generar la entrada requerida. Esto puede evitarse haciendo que la acción de control sea proporcional a la integral del error: Z t (1.4) ( )u t i k ( )e . 0 = Esta forma de control se llama control integral, y ki es la ganancia integral. Se puede demostrar con argumentos sencillos que un controlador con acción integral tiene un error de estado estacionario cero (Ejercicio 1.5). El problema es que no siempre hay un estado estacionario porque el sistema puede oscilar. Un refinamiento adicional consiste en dotar al controlador de una capacidad de anticipación mediante una predicción del error. Una predicción sencilla viene dada por la extrapolación lineal de(t) e(t + Td ) ≈ e(t) + Td , dt que predice el error Td unidades de tiempo por delante. Combinando el control proporcional, integral y derivativo, obtenemos un controlador que se puede expresar matemáticamente como Z t de(t) . (1.5) e( ) + kd ( ) u tkp e( t) ki dt 0 = + La acción de control es, por tanto, una suma de tres términos: el pasado representado por la integral del error, el presente representado por el término proporcional y el futuro representado por una extrapolación lineal del error (el término derivado). 25 1.6. MÁS LECTURAS Error Presente Pasado Futuro Tiem po Figura 1.17: Acción de un controlador PID. En el tiempo t, el término proporcional depende del valor instantáneo del error. La parte integral de la retroalimentación se basa en la integral del error hasta el tiempo t (parte sombreada). El término de la derivada proporciona una estimación del crecimiento o decaimiento del error a lo largo del tiempo observando la tasa de cambio del error. Td representa la cantidad aproximada de tiempo en la que el error se proyecta hacia adelante (véase el texto). t t + Td Esta forma de retroalimentación se denomina controlador proporcional-integral-derivativo (PID) y su acción se ilustra en la figura 1.17. Un controlador PID es muy útil y es capaz de resolver una amplia gama de problemas de control. Más del 95% de los problemas de control industrial se resuelven con control PID, aunque muchos de estos controladores son en realidad controladores proporcionales-integrales (PI) porque a menudo no se incluye la acción derivativa [DM02]. También existen controladores más avanzados, que se diferencian de los controladores PID por utilizar métodos más sofisticados de predicción. 1.6 Más información en El material de esta sección se basa en gran medida en el informe del Panel sobre Direcciones Futuras en Control, Dinámica y Sistemas [Mur03]. Otros artículos e informes han puesto de relieve los éxitos del control [NS99] y las nuevas perspectivas del control [Bro00, Kum01, Wis07]. El desarrollo temprano del control es descrito por Mayr [May70] y en los libros de Bennett [Ben79, Ben93], que cubren el periodo 1800-1955. Mindell [Min02] ha escrito un fascinante examen de la historia temprana del control en los Estados Unidos. Un libro popular que describe muchos conceptos de control en una amplia gama de disciplinas es Out of Control de Kelly [Kel94]. Hay muchos libros de texto disponibles que describen los sistemas de control en el contexto de disciplinas específicas. Para los ingenieros, los libros de texto de Franklin, Powell y EmamiNaeini [FPEN05], Dorf y Bishop [DB04], Kuo y Golnaraghi [KG02] y Seborg, Edgar y Mellichamp [SEM04] son muy utilizados. Entre los tratamientos más orientados a las matemáticas de la teoría de control se encuentran Sontag [Son98] y Lewis [Lew03]. El libro de Hellerstein et al. [HDPT04] ofrece una descripción del uso del control por retroalimentación en los sistemas informáticos. Varios libros analizan el papel de la dinámica y la retroalimentación en los sistemas biológicos, entre ellos Mil- horn [Mil66] (ahora agotado), J. D. Murray [Mur04] y Ellner y Gucken- heimer [EG05]. El libro de Fradkov [Fra07] y el artículo tutorial de Bechhoe- 26 CAPÍTULO 1. INTRODUCCIÓN fer [Bec05] cubren muchos temas específicos de interés para la comunidad física. Ejercicios 1.1 (Movimiento de los ojos) Realiza el siguiente experimento y explica tus resultados: Manteniendo la cabeza quieta, mueve una de tus manos a la izquierda y a la derecha delante de tu cara, siguiéndola con los ojos. Registra la rapidez con la que puedes mover la mano antes de empezar a perderla de vista. Ahora mantén la mano quieta y mueve la cabeza de izquierda a derecha, registrando de nuevo la rapidez con la que puedes moverla antes de perder la pista de tu mano. 1.2 Identifica cinco sistemas de retroalimentación que encuentres en tu entorno cotidiano. Para cada sistema, identifique el mecanismo de detección, el mecanismo de actuación y la ley de control. Describa la incertidumbre con respecto a la cual el sistema de retroalimentación proporciona robustez y/o la dinámica que se modifica mediante el uso de la retroalimentación. 1.3 (Sistemas de equilibrio) Mantén el equilibrio sobre un pie con los ojos cerrados durante 15 s. Utilizando la figura 1.3 como guía, describe el sistema de control responsable de evitar que te caigas. Ten en cuenta que el "controlador" será diferente al del dia- grama (a no ser que seas un androide leyendo esto en un futuro lejano). 1.4 (Control de crucero) Descargue el código MATLAB utilizado para producir simulaciones para el sistema de control de crucero en la Figura 1.13 desde el sitio web complementario. Utilizando el método de prueba y error, cambia los parámetros de la ley de control para que el exceso de velocidad no sea superior a 1 m/s para un vehículo con masa m = 1000 kg. 1.5 (Acción integral) Decimos que un sistema con una entrada constante alcanza el estado estacionario si la salida del sistema se aproxima a un valor constante a medida que aumenta el tiempo. Demuestre que un controlador con acción integral, como los dados en las ecuaciones (1.4) y (1.5), da error cero si el sistema de lazo cerrado alcanza el estado estacionario. 1.6 Busca en la web y elige un artículo de la prensa popular sobre un sistema de retroalimentación y control. Describe el sistema de retroalimentación utilizando la terminología que aparece en el artículo. En particular, identifique el sistema de control y describa (a) el proceso o sistema subyacente que se controla, junto con (b) el sensor, (c) el actuador y (d) el elemento computacional. Si parte de la información no está disponible en el artículo, indíquelo y haga una estimación de lo que podría haberse utilizado. Capítulo 2 Modelado del sistema ... Le pregunté a Fermi si no estaba impresionado por la concordancia entre nuestros números calculados y sus números medidos. Me contestó: "¿Cuántos parámetros arbitrarios habéis utilizado para vuestros cálculos?". Pensé por un momento en nuestros procedimientos de corte y dije: "Cuatro". Dijo: "Recuerdo que mi amigo Johnny von Neumann solía decir que con cuatro parámetros puedo hacer caber un elefante, y con cinco puedo hacer que mueva la trompa". Freeman Dyson al describir las predicciones de su modelo de dispersión mesón-protón a Enrico Fermi en 1953 [Dys04]. Un modelo es una representación precisa de la dinámica de un sistema que se utiliza para responder a preguntas mediante el análisis y la simulación. El modelo que elegimos depende de las preguntas que queremos responder, por lo que puede haber múltiples modelos para un mismo sistema dinámico, con diferentes niveles de fidelidad dependiendo de los fenómenos de interés. En este capítulo se ofrece una introducción al concepto de modelización y se presentan algunos materiales básicos sobre dos métodos específicos utilizados habitualmente en los sistemas de retroalimentación y control: las ecuaciones diferenciales y las ecuaciones en diferencia. 2.1 Modelado Conceptos Un modelo es una representación matemática de un sistema físico, biológico o de información. Los modelos nos permiten razonar sobre un sistema y hacer predicciones sobre su comportamiento. En este texto, nos interesarán principalmente los modelos de sistemas dinámicos que describen el comportamiento de entrada/salida de los sistemas, y a menudo trabajaremos en forma de "espacio de estados". A grandes rasgos, un sistema dinámico es aquel en el que los efectos de las acciones no se producen inmediatamente. Por ejemplo, la velocidad de un coche no cambia inmediatamente cuando se pisa el acelerador ni la temperatura de una habitación aumenta instantáneamente cuando se enciende la calefacción. Del mismo modo, un dolor de cabeza no desaparece justo después de tomar una aspirina, sino que requiere tiempo para que haga efecto. En los sistemas empresariales, el aumento de la financiación de un proyecto de desarrollo no incrementa los ingresos a corto plazo, aunque sí puede hacerlo a largo plazo (si ha sido una buena inversión). Todos ellos son ejemplos de sistemas dinámicos, en los que el comportamiento del sistema evoluciona con el tiempo. En el resto de esta sección ofrecemos una visión general de algunos de los conceptos clave de la modelización. Los detalles matemáticos que se introducen aquí se analizan con más detalle en el resto del capítulo. 28 CAPÍTULO 2. MODELADO DEL SISTEMA q c (q) m k Figura 2.1: Sistema muelle-masa con amortiguación no lineal. La posición de la masa se anota mediante q, correspondiendo q = 0 a la posición de reposo del muelle. Las fuerzas sobre la masa son generadas por un muelle lineal con constante de muelle k y un amortiguador con fuerza dependiente de la velocidad q˙. La herencia de los mecánicos El estudio de la dinámica tiene su origen en los intentos de describir el movimiento planetario. La base fueron las observaciones detalladas de los planetas realizadas por Tycho Brahe y los resultados de Kepler, que descubrió empíricamente que las órbitas de los planetas podían describirse bien mediante elipses. Newton se embarcó en un ambicioso programa para intentar explicar por qué los planetas se mueven en elipses, y descubrió que el movimiento podía explicarse mediante su ley de la gravitación y la fórmula que establece que la fuerza es igual a la masa por la aceleración. En el proceso también inventó el cálculo y las ecuaciones diferenciales. Uno de los triunfos de la mecánica de Newton fue la observación de que el movimiento de los planetas podía predecirse a partir de las posiciones y velocidades actuales de todos ellos. No era necesario conocer el movimiento pasado. El estado de un sistema dinámico es un conjunto de variables que caracterizan completamente el movimiento de un sistema con el fin de predecir el movimiento futuro. Para un sistema de planetas, el estado es simplemente las posiciones y las velocidades de los planetas. Llamamos espacio de estados al conjunto de todos los estados posibles. Una clase común de modelos matemáticos para sistemas dinámicos son las ecuaciones diferenciales ordinarias (EDO). En mecánica, una de las ecuaciones diferenciales más sencillas es la de un sistema muelle-masa con amortiguación: mq¨ + c(q˙) + kq = 0. (2.1) Este sistema se ilustra en la figura 2.1. La variable q R∈ representa la posición de la masa m con respecto a su posición de reposo. Utilizamos la notación q˙ para denotar la derivada de q con respecto al tiempo (es decir, la velocidad de la masa) y q¨ para representar la segunda derivada (aceleración). Se supone que el muelle satisface La ley de Hooke, que dice que la fuerza es proporcional al desplazamiento. El elemento de fricción (amortiguador) se toma como una función no lineal c(q˙), que puede modelar efectos como la adherencia y la resistencia viscosa. La posición q y la velocidad q˙ representan el estado instantáneo del sistema. Decimos que este sistema es un sistema de segundo orden ya que la dinámica depende de las dos primeras derivadas de q. La evolución de la posición y la velocidad puede describirse mediante un gráfico de tiempo o un retrato de fase, ambos mostrados en la figura 2.2. El gráfico de tiempo, en 29 2.1. CONCEPTOS DE MODELADO Po 2 sic ió 1 nq [m ], 0 vel oci da -1 d q˙ -2 [m 0 /s] 1 Posición Velocid ad 5 10 Tiempo t [s] 15 Ve 0.5 loc ida 0 d q˙ [m -0.5 /s] -1 -1 -0.5 0 0.5 Posición q [m] 1 Figura 2.2: Ilustración de un modelo de estado. Un modelo de estado proporciona la tasa de cambio del estado en función del mismo. El gráfico de la izquierda muestra la evolución del estado en función del tiempo. El gráfico de la derecha muestra la evolución de los estados entre sí, con la velocidad del estado denotada por las flechas. a la izquierda, muestra los valores de los estados individuales en función del tiempo. El retrato de fase, a la derecha, muestra el campo vectorial del sistema, que da la velocidad del estado (representada como una flecha) en cada punto del espacio de estados. Además, hemos superpuesto las trazas de algunos de los estados de diferentes condiciones. El retrato de fase ofrece una representación muy intuitiva de la ecuación como un campo vectorial o un flujo. Aunque los sistemas de segundo orden (dos estados) pueden representarse de esta manera, lamentablemente es difícil visualizar las ecuaciones de orden superior utilizando este enfoque. La ecuación diferencial (2.1) se denomina sistema autónomo porque no hay influencias externas. Este modelo es natural para su uso en mecánica celeste porque es difícil influir en el movimiento de los planetas. En muchos ejemplos, es útil modelar los efectos de las perturbaciones externas o las fuerzas controladas en el sistema. Una forma de captar esto es sustituir la ecuación (2.1) por mq¨ + c(q˙) + kq = u, (2.2) donde u representa el efecto de las entradas externas. El modelo (2.2) se denomina ecuación diferencial forzada o controlada. Implica que la tasa de cambio del estado puede verse influida por la entrada u(t). La adición de la entrada enriquece el modelo y permite plantear nuevas preguntas. Por ejemplo, podemos examinar qué influencia tienen las perturbaciones externas en las trayectorias de un sistema. O, en el caso de que la variable de entrada es algo que se puede modular de forma controlada, podemos analizar si es posible "dirigir" el sistema desde un punto del espacio de estado a otro mediante la elección adecuada de la entrada. El patrimonio de la ingeniería eléctrica Una visión diferente de la dinámica surgió de la ingeniería eléctrica, donde la designación de los amplificadores electrónicos llevó a centrarse en el comportamiento de entrada/salida. Un sistema se consideraba un dispositivo que transforma las entradas en salidas, como se ilustra en la figura 2.3. Conceptualmente, un modelo de entrada/salida puede verse como una tabla gigante de entradas y 30 CAPÍTULO 2. MODELADO DEL SISTEMA +v 7 Q9 Q8 Q14 (+) 3 Entradas (-) Q1 Q2 Q3 Q4 30pF R9 Salida 6 R10 Q16 Q20 Entrada Sistema Salida Q17 Q6 Q5 Q22 R1 4 Q18 R8 2 Q7 -v R7 Q15 R2 R12 R11 vos adj Figura 2.3: Ilustración de la vista de entrada/salida de un sistema dinámico. La figura de la izquierda muestra un diagrama de circuito detallado de un amplificador electrónico; la de la derecha es su representación como diagrama de bloques. salidas. Dada una señal de entrada u(t) en un intervalo de tiempo, el modelo debe producir la salida resultante y(t). El marco de entrada/salida se utiliza en muchas disciplinas de la ingeniería, ya que nos permite descomponer un sistema en componentes individuales conectados a través de sus entradas y salidas. Así, podemos tomar un sistema complicado como una radio o un televisor y descomponerlo en piezas manejables como el receptor, el demodulador, el amplificador y los altavoces. Cada una de estas piezas tiene un conjunto de entradas y salidas y, mediante un diseño adecuado, estos componentes pueden interconectarse para formar el sistema completo. La visión de entrada/salida es particularmente útil para la clase especial de sistemas lineales invariantes en el tiempo. Este término se definirá con más detalle más adelante en este capítulo, pero a grandes rasgos un sistema es lineal si la superposición (adición) de dos entradas produce una salida que es la suma de las salidas que corresponderían a las entradas individuales aplicadas por separado. Un sistema es invariable en el tiempo si la respuesta de salida para una entrada determinada no depende del momento en que se aplica dicha entrada. Muchos sistemas de ingeniería eléctrica pueden modelarse mediante sistemas lineales invariantes en el tiempo, por lo que se ha desarrollado un gran número de herramientas para analizarlos. Una de estas herramientas es la respuesta al escalón, que describe la relación entre una entrada que cambia de cero a un valor constante de forma abrupta (una entrada al escalón) y la salida correspondiente. Como veremos más adelante, la respuesta al escalón es muy útil para caracterizar el rendimiento de un sistema dinámico y suele utilizarse para especificar la dinámica deseada. En la figura 2.4a se muestra un ejemplo de respuesta escalonada. Otra forma de describir un sistema lineal invariante en el tiempo es representarlo por su respuesta a señales de entrada sinusoidales. Esto se denomina respuesta en frecuencia, y ha surgido una teoría rica y potente con muchos conceptos y resultados sólidos y útiles. Los resultados se basan en la teoría de las variables complejas y las transformadas de Laplace. La idea básica de la respuesta en frecuencia es que podemos caracterizar completamente el comportamiento de un sistema por su respuesta en estado estacionario a entradas sinusoidales. A grandes rasgos, 31 2.1. CONCEPTOS DE MODELADO 4 3 En tra da, 2 sal ida 1 0 100 Ga 10-2 nar 10-4 Entrad a Salida 0 10 Tiempo 20 (a) Respuesta al paso 30 0 Fa -90 se [d -180 eg ] -270 10-1 100 101 Frecuencia 102 (b) Respuesta en frecuencia Figura 2.4: Respuesta de entrada/salida de un sistema lineal. La respuesta escalonada (a) muestra la salida del sistema debido a una entrada que cambia de 0 a 1 en el tiempo t = 5 s. La respuesta en frecuencia (b) muestra la ganancia de amplitud y el cambio de fase debido a una entrada sinusoidal a diferentes frecuencias. En términos generales, esto se hace descomponiendo cualquier señal arbitraria en una combinación lineal de sinusoides (por ejemplo, utilizando la transformada de Fourier) y luego utilizando la linealidad para calcular la salida combinando la respuesta a las frecuencias individuales. En la figura 2.4b se muestra un ejemplo de respuesta en frecuencia. El punto de vista de la entrada/salida se presta naturalmente a la determinación experimental de la dinámica del sistema, donde un sistema se caracteriza registrando su respuesta a entradas particulares, por ejemplo, un escalón o un conjunto de sinusoides en un rango de frecuencias. La vista de control Cuando la teoría del control surgió como disciplina en la década de 1940, el enfoque de la dinámica estaba fuertemente influenciado por la visión de la ingeniería eléctrica (entrada/salida). Una segunda ola de desarrollos en control, que comenzó a finales de los años 50, se inspiró en la mecánica, donde se utilizó la perspectiva del espacio de estados. El surgimiento de los vuelos espaciales es un ejemplo típico, donde el control preciso de la órbita de una nave espacial es fundamental. Estos dos puntos de vista se fusionaron gradualmente en lo que es hoy la representación del espacio de estado de los sistemas de entrada/salida. El desarrollo de los modelos de espacio de estados implicó la modificación de los modelos de la mecánica para incluir actuadores y sensores externos y utilizar formas más generales de ecuaciones. En control, el modelo dado por la ecuación (2.2) se sustituyó por dx (2.3) = f (x, u), y = h(x, u), dt donde x es un vector de variables de estado, u es un vector de señales de control e y es un vector de medidas. El término dx/dt representa la derivada de x con respecto al tiempo, que ahora se considera un vector, y f y h son mapeos (posiblemente no lineales) de sus argumentos a vectores de la dimensión apropiada. Para los sistemas mecánicos, el estado consiste en la posición y la velocidad del sistema, de modo que x = (q, q˙) en el caso de un sistema muelle-masa amortiguado. Nótese que en la formulación de control 32 CAPÍTULO 2. MODELADO DEL SISTEMA La dinámica del modelo como ecuaciones diferenciales de primer orden, pero veremos que esto puede capturar la dinámica de las ecuaciones diferenciales de orden superior mediante la definición apropiada del estado y los mapas f y h. La adición de entradas y salidas ha aumentado la riqueza de los problemas clásicos y ha dado lugar a muchos conceptos nuevos. Por ejemplo, es natural preguntarse si se pueden alcanzar los posibles estados x con la elección adecuada de u (alcanzabilidad) y si la medición y contiene suficiente información para reconstruir el estado (observabilidad). Estos temas se tratarán con más detalle en los capítulos 6 y 7. Un último avance en la construcción del punto de vista del control fue la aparición de las perturbaciones y la incertidumbre del modelo como elementos críticos de la teoría. La forma simple de modelar las perturbaciones como señales deterministas, como pasos y sinusoides, tiene el inconveniente de que dichas señales no pueden predecirse con precisión. Un enfoque más realista es modelar las perturbaciones como señales aleatorias. Este punto de vista ofrece una conexión natural entre la predicción y el control. El punto de vista dual de las representaciones de entrada/salida y de las representaciones del espacio de estado es particularmente útil cuando se modela la incertidumbre, ya que los modelos de estado son convenientes para describir un modelo nominal, pero las incertidumbres son más fáciles de describir utilizando modelos de entrada/salida (a menudo a través de una descripción de la respuesta en frecuencia). La incertidumbre será un tema constante a lo largo del texto y se estudiará con especial detalle en el capítulo 12. Una observación interesante en el diseño de sistemas de control es que los sistemas de retroalimentación a menudo pueden ser analizados y diseñados sobre la base de modelos comparativamente simples. La razón de ello es la robustez inherente a los sistemas de retroalimentación. Sin embargo, otros usos de los modelos pueden requerir una mayor complejidad y precisión. Un ejemplo son las estrategias de control de avance, en las que se utiliza un modelo para precalcular las entradas que hacen que el sistema responda de una manera determinada. Otra área es la validación del sistema, en la que se desea verificar que la respuesta detallada del sistema funciona como se ha diseñado. Debido a estos diferentes usos de los modelos, es habitual utilizar una jerarquía de modelos de diferente complejidad y fidelidad. � Modelado multidominio La modelización es un elemento esencial de muchas disciplinas, pero las tradiciones y los métodos de cada una de ellas pueden diferir entre sí, como ilustra el debate anterior sobre la ingeniería mecánica y eléctrica. Una de las dificultades de la ingeniería de sistemas es que a menudo es necesario tratar con sistemas heterogéneos de muchos dominios diferentes, incluyendo sistemas químicos, eléctricos, mecánicos y de formación. Para modelar estos sistemas multidominio, empezamos por dividir un sistema en subsistemas más pequeños. Cada subsistema se representa mediante ecuaciones de equilibrio de masa, energía y momento, o mediante descripciones adecuadas del procesamiento de la información en el subsistema. El comportamiento en las interfaces se captura describiendo cómo se comportan las variables del subsistema cuando los subsistemas están interconectados. Estas interfaces actúan restringiendo las variables dentro de los subsistemas individuales para que sean iguales (como los flujos de masa, energía o momento). El modelo completo se obtiene entonces combinando las 2.1. CONCEPTOS DE MODELADO descripciones de 33 los subsistemas y las interfaces. 34 CAPÍTULO 2. MODELADO DEL SISTEMA Con esta metodología es posible construir bibliotecas de subsistemas que corresponden a componentes físicos, químicos e informativos. El procedimiento imita el enfoque de la ingeniería, en el que los sistemas se construyen a partir de subsistemas que, a su vez, se construyen a partir de componentes más pequeños. A medida que se adquiere experiencia, los componentes y sus interfaces pueden estandarizarse y reunirse en bibliotecas de modelos. En la práctica, se necesitan varias iteraciones para obtener una buena biblioteca que pueda reutilizarse para muchas aplicaciones. Los modelos de estado o las ecuaciones diferenciales ordinarias no son adecuados para el modelado basado en componentes de esta forma porque los estados pueden desaparecer cuando los componentes se conectan. Esto implica que la descripción interna de un componente puede cambiar cuando se conecta a otros componentes. Como ejemplo, consideremos dos condensadores en un circuito eléctrico. Cada condensador tiene un estado correspondiente a la tensión a través de los condensadores, pero uno de los estados desaparecerá si los condensadores se conectan en paralelo. Una situación similar ocurre con dos inercias en rotación, cada una de las cuales se modela individualmente utilizando el ángulo de rotación y la velocidad angular. Dos estados desaparecerán cuando las inercias estén unidas por un eje rígido. Esta dificultad puede evitarse sustituyendo las ecuaciones diferenciales por ecuaciones algebraicas diferenciales, que tienen la forma F(z, z˙) = 0, donde z ∈ Rn . Un caso especial sencillo es x˙ = f (x, y), g(x, y) = 0, (2.4) donde z = (x, y) y F = (x˙ - f (x, y), g(x, y)). La propiedad clave es que la derivada z˙ no está dada explícitamente y puede haber relaciones algebraicas puras entre los componentes del vector z. El modelo (2.4) recoge los ejemplos de los condensadores en paralelo y las inercias rotativas vinculadas. Por ejemplo, cuando se conectan dos condensadores, simplemente añadimos la ecuación algebraica que expresa que las tensiones a través de los condensadores son las mismas. Modelica es un lenguaje desarrollado para el modelado basado en componentes. Las ecuaciones algebraicas diferenciales se utilizan como descripción básica, y la programación orientada a objetos se utiliza para estructurar los modelos. Modelica se utiliza para modelar la dinámica de sistemas técnicos en ámbitos como los subsistemas mecánicos, eléctricos, térmicos, hidráulicos, de termofluidos y de control. Modelica pretende servir de formato estándar para que los modelos que surgen en diferentes dominios puedan ser intercambiados entre herramientas y usuarios. Existe un amplio conjunto de bibliotecas de componentes de Modelica, gratuitas y comerciales, que son utilizadas por un número creciente de personas en la industria, la investigación y el mundo académico. Para más información sobre Modelica, véase http://www.modelica.org o Tiller [Til01]. 2.1. CONCEPTOS DE MODELADO 35 2.2 Espacio de estados Modelos En esta sección presentamos las dos formas principales de modelos que utilizamos en este texto: las ecuaciones diferenciales y las ecuaciones en diferencias. Ambas hacen uso de las nociones de estado, entradas, salidas y dinámica para describir el comportamiento de un sistema. Ecuaciones diferenciales ordinarias El estado de un sistema es un conjunto de variables que resumen el pasado de un sistema con el fin de predecir el futuro. En el caso de un sistema físico, el estado se compone de las variables necesarias para dar cuenta del almacenamiento de masa, momento y energía. Una cuestión clave en la modelización es decidir con qué precisión debe representarse este almacenamiento. Las variables ∈ de estado se n reúnen en un vector x R llamado vector de estado. Las variables de control ∈ están representadas por otro vector u Rp∈, y la señal medida por el vector y Rq . Un sistema puede representarse entonces por la ecuación diferencial dx (2.5) = f (x, u), y = h(x, u), dt donde f : Rn × Rp → Rn y h : Rn × Rp → Rq son mapeos suaves. Llamamos a un modelo de esta forma un modelo de espacio de estados. La dimensión del vector de estado se denomina orden del sistema. El sistema (2.5) se llama invariante en el tiempo porque las funciones f y h no dependen explícitamente del tiempo t; hay sistemas más generales que varían en el tiempo en los que las funciones sí dependen del tiempo. El modelo consta de dos funciones: la función f da la tasa de cambio del vector de estado en función del estado x y del control u, y la función h da los valores medidos en función del estado x y del control u. Un sistema se denomina sistema lineal en el espacio de estados si las funciones f y h son lineales en x y u. Un sistema lineal en el espacio de estados puede representarse por dx (2.6) = Ax + Bu, y = Cx + Du, dt donde A, B, C y D son matrices constantes. Se dice que tal sistema es lineal e invariante en el tiempo, o LTI para abreviar. La matriz A se llama matriz dinámica, la matriz B se llama matriz de control, la matriz C se llama matriz de sensores y la matriz D se llama término directo. A menudo los sistemas no tienen un término directo, lo que indica que la señal de control no influye directamente en la salida. Una forma diferente de ecuaciones diferenciales lineales, que generaliza la dinámica de segundo orden de la mecánica, es una ecuación de la forma dn y dn-1y + a1 + - - - + an y = u, (2.7) dtn dtn-1 donde t es la variable independiente (tiempo), y(t) es la variable dependiente (salida) y u(t) es la entrada. La notación dk y/dtk se utiliza para denotar la kª derivada de y con respecto a t, a veces también escrita como y(k) . Se dice que la ecuación diferencial controlada (2.7) es un sistema de orden n. Este sistema puede convertirse en 35 2.2. MODELOS DE ESPACIO DE ESTADO forma de espacio de estados definiendo dn-1y/dtn-1 x1 x= dn-2y/dtn-2 x2 . = . xn-1 xn , .. dy/dt y y las ecuaciones del espacio de estado se convierten en x1 x2 d dt . = -1 n u -a1 x1 ---- - anxn x1 0 + ., . 0 0 . x xn-2 xn-1 xn y = xn. Con las definiciones adecuadas de A, B, C y D, esta ecuación está en forma de espacio de estados lineal. Un sistema aún más general se obtiene dejando que la salida sea una combinación lineal de los estados del sistema, es decir, y = b1 x1 + b2 x2 + - - + bn xn + du. Este sistema puede modelarse en el espacio de estados como x1 -a1 1 d x2 0 x3 dt = .. . n x 0 y= b1 -a2 0 1 . . . -an−1 ... 0 0 .. . 0 b2 1 . . . bn -an 1 0 0 +x . 0 0 0 0 u, .. (2.8) x + du. Esta forma particular de un sistema de espacio de estados lineal se denomina forma canónica alcanzable y se estudiará con más detalle en capítulos posteriores. Ejemplo 2.1 Sistemas de equilibrio Un ejemplo de un tipo de sistema que puede modelarse mediante ecuaciones diferenciales ordinarias es la clase de sistemas de equilibrio. Un sistema de equilibrio es un sistema mecánico en el que el centro de masa está equilibrado sobre un punto de pivote. En la figura 2.5 se muestran algunos ejemplos comunes de sistemas de equilibrio. El transportador personal Segway® (figura 2.5a) utiliza una plataforma motorizada para estabilizar a una persona que está de pie sobre ella. Cuando el conductor se inclina hacia delante, el dispositivo de transporte se propulsa por el suelo pero mantiene su posición vertical. Otro ejemplo es un cohete (figura 2.5b), en el que se utiliza una tobera cardánica en la parte inferior del cohete para estabilizar el cuerpo del cohete por encima de él. Otros ejemplos de sistemas de equilibrio son los seres humanos u otros animales que se mantienen en posición vertical, o una persona que mantiene el equilibrio con un bastón. 36 CAPÍTULO 2. MODELADO DEL SISTEMA m l F (a) Segway (b) Cohete Saturno M p (c) Sistema carro-pendular Figura 2.5: Sistemas de equilibrio. (a) Transportador personal Segway, (b) cohete Saturno y (c) péndulo invertido sobre un carro. Cada uno de estos ejemplos utiliza fuerzas en la parte inferior del sistema para mantenerlo en posición vertical. su mano. Los sistemas de equilibrio son una generalización del sistema muelle-masa que vimos anteriormente. Podemos escribir la dinámica para un sistema mecánico en la forma general M(q)q¨ + C(q, q˙) + K(q) = B(q)u, donde M(q) es la matriz de inercia del sistema, C(q, q˙) representa las fuerzas de Coriolis y la amortiguación, K(q) da las fuerzas debidas a la energía potencial y B(q) describe cómo las fuerzas externas aplicadas se acoplan a la dinámica. La forma específica de las ecuaciones puede derivarse utilizando la mecánica newtoniana. Obsérvese que cada uno de los términos depende de la configuración del sistema q y que estos términos suelen ser no lineales en las variables de configuración. La figura 2.5c muestra un diagrama simplificado para un sistema de equilibrio que consiste en un péndulo invertido sobre un carro. Para modelar este sistema, elegimos variables de estado que representen la posición y la velocidad de la base del sistema, p y p˙, y la velocidad an- gular y angular de la estructura sobre la base, y ˙. Dejamos que F represente la fuerza aplicada en la base del sistema, que se supone que está en la dirección horizontal (alineada con p), y elegimos la posición y el ángulo del sistema como salidas. Con este conjunto de definiciones, la dinámica del sistema puede calcularse utilizando la mecánica - forma newtoniana y tener la F (M + m) ml p¨ cp˙ + ml ˙2 = 0 , (2.9) ˙ n i s + 2 -ml (J + ml ) - mgl donde M es la masa de la base, m y J son la masa y el momento de inercia del sistema a equilibrar, l es la distancia de la base al centro de masa del cuerpo equilibrado, c y son coeficientes de fricción viscosa y g es la aceleración debida a la gravedad. Podemos reescribir la dinámica del sistema en forma de espacio de estados definiendo el estado como x = (p, , p˙, ˙), la entrada como u = F y la salida como y = (p, ). Si definimos 37 2.2. MODELOS DE ESPACIO DE ESTADO la masa total y la inercia total como Mt = M + m, Jt = J + ml2 , las ecuaciones de movimiento se convierten entonces en p˙ ˙ 2 ˙2 ˙ -mls + mg(ml /J )s c d t cp˙ -(/Jt )mlc + u = , 2 p˙ ˙ Mt - m(ml2/Jt )c -ml2 s c ˙2 + Mt gls - clc p˙ −(Mt /m)˙ + lc u p dt y= p Jt (Mt /m) - m(lc )2 , donde hemos utilizado la abreviatura c = y s = sin. En muchos casos, el ángulo será muy cercano a 0, por lo que podemos utilizar las aproximaciones ≈ ≈ y . Además, si ˙ es pequeño, podemos ignore cuadrática y términos superiores en ˙. Sustituyendo estas aproximaciones en nuestras ecuaciones, vemos que nos queda una ecuación lineal del espacio de estados 0 p 0 0 1 0 p d dt p˙ = ˙ 0 0 0 m2 l2 g/ 0 Mt mgl/ 0 100 y= x, 0100 donde = Mt Jt - m2 l2 . t 0 cJ -clm/ 1 + lm/ -/ ˙ −t p˙ 0 u, J t lm/ Ejemplo 2.2 Péndulo invertido Una variación del ejemplo anterior es aquella en la que no es necesario controlar la ubicación de la base p. Esto ocurre, por ejemplo, si sólo nos interesa estabilizar la orientación vertical de un cohete sin preocuparnos por la ubicación de la base del mismo. La dinámica de este sistema simplificado viene dada por d dt ˙ = mgl Jt ˙ ˙ l Jt u + Jt , y=, (2.10) donde es el coeficiente de fricción rotacional, Jt = J + ml2 y u es la fuerza aplicada en la base. Este sistema se denomina péndulo invertido. Ecuaciones de diferencia En algunas circunstancias, es más natural describir la evolución de un sistema en instantes discretos de tiempo que de forma continua en el tiempo. Si nos referimos a cada 38 CAPÍTULO 2. MODELADO DEL SISTEMA de estos tiempos por un número entero k = 0, 1, 2, . . . Al igual que en el caso de las ecuaciones diferenciales, definimos el estado como aquellos conjuntos de variables que resumen el pasado del sistema para el con el fin de predecir su futuro. Los sistemas descritos de esta manera se denominan sistemas de tiempo discreto. La evolución de un sistema de tiempo discreto puede escribirse de la forma x[k + 1] = f (x[k], u[k]), y[k] = h(x[k], u[k]), (2.11) donde x[k] ∈Rn es el estado del sistema en el momento k (un número entero), u[k] ∈ ∈ e y[k] Rq es la salida. Como antes, f y h son mapeos suaves de la Rp es la entrada dimensión apropiada. Llamamos a la ecuación (2.11) una ecuación de diferencia, ya que nos dice cómo difiere x[k + 1] de x[k]. El estado x[k] puede ser una cantidad de valor escalar o vectorial; en el caso de este último escribimos xj [k] para el valor del estado j en el momento k. Al igual que en el caso de las ecuaciones diferenciales, es frecuente que las ecuaciones sean lineales en el estado y la entrada, en cuyo caso podemos describir el sistema mediante x[k + 1] = Ax[k] + Bu[k], y[k] = Cx[k] + Du[k]. Al igual que antes, nos referimos a las matrices A, B, C y D como la matriz dinámica, la matriz de control, la matriz de sensores y el término directo. La solución de una ecuación de diferencia lineal con condición inicial x[0] y entrada u[0], . . . , u[T ] viene dada por k-1 k- j-1 k x[k] = A x[0] + A Bu[ j=0 k k-1 y[k] = CA x[0] + CA k > 0. j], k- j-1 (2.12) Bu[ j] + Du[k], j=0 Las ecuaciones en diferencia también son útiles como aproximación a las ecuaciones diferenciales, como mostraremos más adelante. Ejemplo 2.3 Depredador-presa Como ejemplo de sistema de tiempo discreto, consideremos un modelo sencillo para un sistema depredador-presa. El problema de depredador-presa se refiere a un sistema ecológico en el que tenemos dos especies, una de las cuales se alimenta de la otra. Este tipo de sistema se ha estudiado durante décadas y se sabe que presenta una dinámica interesante. La figura 2.6 muestra un registro histórico tomado durante 90 años de una población de linces frente a una población de liebres [Mac37]. Como puede verse en el gráfico, los registros anuales de las poblaciones de cada especie son de naturaleza oscilante. Se puede construir un modelo sencillo para esta situación utilizando un modelo de tiempo discreto, llevando la cuenta de la tasa de nacimientos y muertes de cada especie. Dejando que H represente la población de liebres y L la de linces, podemos describir el estado en términos de las poblaciones en periodos de tiempo discretos. Sea- 39 2.2. MODELOS DE ESPACIO DE ESTADO 160 140 120 100 80 60 40 20 Hare Lynx 1845 1855 1865 1875 1885 1895 1905 1915 1925 1935 Figura 2.6: Depredador contra presa. La fotografía de la izquierda muestra un lince canadiense y una liebre de raqueta, la principal presa del lince. El gráfico de la derecha muestra las poblaciones de liebres y linces entre 1845 y 1935 en una sección de las Rocosas canadienses [Mac37]. Los datos se recogieron anualmente durante un periodo de 90 años. (Fotografía con derechos de autor de Tom y Pat Leeson). Si k es el índice de tiempo discreto (por ejemplo, el número del día o del mes), podemos escribir H[k + 1] = H[k] + br (u)H[k] - aL[k]H[k], L[k + 1] = L[k] + cL[k]H[k] - df L[k], (2.13) donde br (u) es la tasa de natalidad de las liebres por unidad de periodo y en función del suministro de alimento u, df es la tasa de mortalidad de los linces y a y c son los coeficientes de interacción. El término de interacción aL[k]H[k] modela la tasa de depredación, que se supone proporcional a la tasa de encuentro entre depredadores y presas y, por tanto, viene dada por el producto de los tamaños poblacionales. El término de interacción cL[k]H[k] en la dinámica del lince tiene una forma similar y representa la tasa de crecimiento de la población de linces. de la población. Este modelo hace muchas suposiciones simplificadoras -como el hecho de que las liebres disminuyen en número sólo por la depredación de los linces- pero a menudo es suficiente para responder a las preguntas básicas sobre el sistema. Para ilustrar el uso de este sistema, podemos calcular el número de linces y liebres en cada punto temporal a partir de una población inicial. Esto se hace comenzando con x[0] = (H0 , L0 ) y luego utilizando la ecuación (2.13) para calcular las poblaciones en el siguiente periodo. Al iterar este procedimiento, podemos generar la población sobre tiempo. El resultado de este proceso para una elección específica de parámetros y condiciones iniciales se muestra en la figura 2.7. Aunque los detalles de la simulación difieren de los datos experimentales (como era de esperar dada la simplicidad de nuestras suposiciones), vemos tendencias cualitativamente similares y, por tanto, podemos utilizar el modelo para ayudar a explorar la dinámica del sistema. Ejemplo 2.4 Servidor de correo electrónico El servidor IBM Lotus es un sistema de software colaborativo que administra el correo electrónico, los documentos y las notas de los usuarios. Los equipos cliente interactúan con los usuarios finales para proporcionarles acceso a los datos y las aplicaciones. El servidor también se encarga de otras tareas administrativas. En los primeros desarrollos del sistema se observó que el rendimiento era escaso cuando la unidad central de procesamiento (CPU) se sobrecargaba debido a demasiadas peticiones de servicio, por lo que se introdujeron mecanismos para controlar la carga. La interacción entre el cliente y el servidor se realiza en forma de proce- dimiento remoto. 40 CAPÍTULO 2. MODELADO DEL SISTEMA 250 Liebr es 200 Linces Po 150 bla ció 100 n 50 0 1850 1860 1870 1880 Año 1890 1900 1910 1920 Figura 2.7: Simulación en tiempo discreto del modelo depredador-presa (2.13). Utilizando los parámetros a = c = 0,014, br (u) = 0,6 y d = 0,7 en la ecuación (2.13) con actualizaciones diarias, el periodo y la magnitud de los ciclos poblacionales del lince y la liebre coinciden aproximadamente con los datos de la Figura 2.6. llamadas de duración (RPCs). El servidor mantiene un registro de estadísticas de las peticiones completadas. También se mide el número total de peticiones que se están sirviendo, denominadas RIS (RPCs en el servidor). La carga del servidor se controla mediante un parámetro llamado MaxUsers, que establece el número total de conexiones de clientes al servidor. Este parámetro es controlado por el administrador del sistema. El servidor puede considerarse como un sistema dinámico en el que MaxUsers es la entrada y RIS la salida. La relación entre la entrada y la salida se investigó primero explorando el rendimiento en estado estacionario y se descubrió que era lineal. En [HDPT04] se utiliza un modelo dinámico en forma de ecuación en diferencias de primer orden para capturar el comportamiento dinámico de este sistema. Utilizando técnicas de identificación del sistema, construyen un modelo de la forma y[k + 1] = ay[k] + bu[k], donde u = MaxUsers -MaxUsers y y = RIS RIS. - Los parámetros a = 0,43 y b = 0,47 son parámetros que describen la dinámica del sistema en torno al punto de funcionamiento, y MaxUsers = 165 y RIS = 135 representan el punto de funcionamiento nominal del sistema. El número de solicitudes se promedió a lo largo de un período de muestreo de 60 s. Simulación y análisis Los modelos de espacio de estados pueden utilizarse para responder a muchas preguntas. Una de las más comunes, como hemos visto en los ejemplos anteriores, consiste en predecir la evolución del estado del sistema a partir de una condición inicial dada. Aunque en el caso de modelos sencillos esto puede hacerse de forma cerrada, lo más frecuente es que se realice mediante simulación por ordenador. También se pueden utilizar modelos de espacio de estados para analizar el comportamiento global del sistema sin recurrir directamente a la simulación. Consideremos de nuevo el sistema muelle-masa amortiguado del apartado 2.1, pero esta vez con una fuerza externa aplicada, como se muestra en la figura 2.8. Queremos predecir el 41 2.2. MODELOS DE ESPACIO DE ESTADO q c m u(t) = A sin t k Figura 2.8: Sistema muelle-masa accionado con amortiguación. Aquí utilizamos un elemento de amortiguación lineal con coeficiente de fricción viscosa c. La masa es impulsada con una fuerza sinusoidal de amplitud A. movimiento del sistema para una función de forzamiento periódica, con una condición inicial dada, y determinar la amplitud, la frecuencia y la tasa de decaimiento del movimiento resultante. Elegimos modelar el sistema con una ecuación diferencial ordinaria lineal. Utilizando la ley de Hooke para modelar el muelle y suponiendo que el amortiguador ejerce una fuerza proporcional a la velocidad del sistema, tenemos mq¨ + cq˙ + kq = u, (2.14) donde m es la masa, q es el desplazamiento de la masa, c es el coeficiente de fricción viscosa, k es la constante del muelle y u es la fuerza aplicada. En forma de espacio de estados, utilizando x = (q, q˙) como estado y eligiendo y = q como salida, tenemos x2 dx y = x1 k u , dt = -mx c . 2 - mx 1 +m Vemos que se trata de una ecuación diferencial lineal de segundo orden con una entrada u y una salida y. Ahora queremos calcular la respuesta del sistema a una entrada de la forma u = A sint. Aunque es posible resolver la respuesta analíticamente, en su lugar utilizar un enfoque computacional que no depende de la forma específica de este sistema. Consideremos el sistema general de espacio de estados dx = f (x, u). dt Dado el estado x en el momento t, podemos aproximar el valor del estado en un corto tiempo h > 0 posterior suponiendo que la tasa de cambio de f (x, u) es constante en el intervalo t a t + h. Esto da x(t + h) = x(t) + h f (x(t), u(t)). (2.15) Al iterar esta ecuación, podemos resolver x en función del tiempo. Esta aproximación se conoce como integración de Euler y es, de hecho, una ecuación en diferencia si dejamos que h represente el incremento de tiempo y escribimos x[k] = x(kh). Aunque las herramientas de simulación modernas, como MATLAB y Mathematica, utilizan métodos más precisos que la integración de Euler, siguen teniendo algunos de los mismos compromisos básicos. 42 CAPÍTULO 2. MODELADO DEL SISTEMA 2 1 Po sic ió 0 n q [m -1 ] -2 0 h=1 h = 0.5 h = 0.1 analítica 5 10 15 20 25 30 Tiempo t [seg] 35 40 45 50 Figura 2.9: Simulación del sistema muelle-masa forzado con diferentes constantes de tiempo de simulación. La línea continua representa la solución analítica. Las líneas discontinuas representan la solución aproximada mediante el método de integración de Euler, utilizando tamaños de paso decrecientes. Volviendo a nuestro ejemplo concreto, la figura 2.9 muestra los resultados del cálculo de x(t) mediante la ecuación (2.15), junto con el cálculo analítico. Vemos que a medida que h se reduce, la solución calculada converge a la solución exacta. La forma de la solución también es digna de mención: después de un transitorio inicial, el sistema se asienta en un movimiento periódico. La parte de la respuesta después del transitorio se llama respuesta en estado estacionario a la entrada. Además de generar simulaciones, los modelos también pueden utilizarse para responder a otro tipo de preguntas. Dos de ellas, que son fundamentales para los métodos descritos en este texto, se refieren a la estabilidad de un punto de equilibrio y a la respuesta en frecuencia de entrada/salida. Ilustramos estos dos cálculos a través de los siguientes ejemplos y volvemos a los cálculos generales en capítulos posteriores. Volviendo al sistema muelle-masa amortiguado, las ecuaciones de movimiento sin forzamiento de entrada vienen dadas por dx = dt c x2 k , - mx2 - mx 1 (2.16) donde x1 es la posición de la masa (respecto a la posición de reposo) y x2 es su velocidad. Queremos demostrar que si el estado inicial del sistema se aleja de la posición de reposo, el sistema volverá eventualmente a la posición de reposo (más adelante definiremos esta situación como que la posición de reposo es asintóticamente estable). Aunque podríamos demostrarlo de forma heurística simulando muchísimas condiciones iniciales, lo que pretendemos es demostrar que esto es cierto para cualquier condición inicial. Para ello, construimos una función V : Rn→R que asigna el estado del sistema a un número real positivo. En el caso de los sistemas mecánicos, una opción conveniente es la energía del sistema, 1 1 V (x) = kx2 + mx2 . (2.17) 1 2 2 2 43 2.2. MODELOS DE ESPACIO DE ESTADO Si observamos la derivada temporal de la función de energía, vemos que dV c k 2 = kx1 x˙1 + mx2 x˙2 = kx1 x2 + mx2 (- x2 - x1 ) = -cx 2 , dt m m que siempre es negativo o cero. Por lo tanto, V (x(t)) nunca es creciente y, utilizando un poco de análisis que veremos formalmente más adelante, los estados individuales deben permanecer acotados. Si queremos demostrar que los estados acaban volviendo al origen, debemos utilizar un análisis algo más detallado. Intuitivamente, podemos razonar de la siguiente manera: supongamos que durante algún periodo de tiempo, V (x(t)) deja de disminuir. Entonces debe ser cierto que V˙ (x(t)) = 0, lo que a su vez implica que x2 (t) = 0 para ese mismo periodo. En ese caso x˙2 (t) = 0, y podemos sustituir en la segunda línea de la ecuación (2.16) para obtener c k k 0 = x˙2 = - x2 - x1 = - x1 . m m m Por lo tanto debemos tener que x1 también es igual a cero, y por lo tanto el único momento en que V (x(t)) puede dejar de disminuir es si el estado está en el origen (y por lo tanto este sistema está en su reposo posición). Como sabemos que V (x(t)) nunca es creciente (porque V˙ ≤ 0), nos por tanto concluimos que el origen es estable (para cualquier condición inicial). Este tipo de análisis, denominado análisis de estabilidad de Lyapunov, se estudia en detalle en el capítulo 4. Muestra parte de la potencia del uso de modelos para el análisis de las propiedades del sistema. Otro tipo de análisis que podemos realizar con modelos es calcular la salida de un sistema a una entrada sinusoidal. Volvemos a considerar el sistema muellemasa, pero esta vez manteniendo la entrada y dejando el sistema en su forma original: mq¨ + cq˙ + kq = u. (2.18) Queremos entender cómo responde el sistema a una entrada sinusoidal de la forma u(t) = A sint. Veremos cómo hacer esto analíticamente en el capítulo 6, pero por ahora hacemos uso de simulaciones para calcular la respuesta. Comenzamos con la observación de que si q(t) es la solución de la ecuación (2.18) con la entrada u(t), entonces la aplicación de una entrada 2u(t) dará una solución 2q(t) (esto se verifica fácilmente por sustitución). Por lo tanto, basta con considerar una entrada con magnitud unitaria, A = 1. Una segunda observación, que demostraremos en el capítulo 5, es que la respuesta a largo plazo del sistema a una entrada sinusoidal es a su vez una sinusoide a la misma frecuencia, por lo que la salida tiene la forma q(t) = g() sin(t + ()), donde g() se llama ganancia del sistema y () se llama fase (o desfase). Para calcular la respuesta en frecuencia numéricamente, podemos simular el sistema en un conjunto de frecuencias1 , . . . ,N y trazar la ganancia y la fase en cada una de estas frecuencias. En la figura 2.10 se muestra un ejemplo de este tipo de cálculo. 44 CAPÍTULO 2. MODELADO DEL SISTEMA 4 101 2 Ga 0 10 na nci a (es 10-1 cal a lo 10-2 10ga 1 rít mi ca) Sa lid 0 ay -2 -4 0 10 20 30 Tiempo [s] 40 50 100 Frecuencia [rad/seg] (escala logarítmica) 101 Figura 2.10: Una respuesta en frecuencia (sólo ganancia) calculada midiendo la respuesta de sinusoides individuales. La figura de la izquierda muestra la respuesta del sistema en función del tiempo a una serie de entradas de diferente magnitud unitaria (a diferentes frecuencias). La figura de la derecha muestra estos mismos datos de forma diferente, con la magnitud de la respuesta trazada en función de la frecuencia de entrada. Los círculos rellenos corresponden a las frecuencias particulares mostradas en las respuestas temporales. 2.3 Modelado Metodología Para tratar sistemas grandes y complejos, es útil disponer de distintas representaciones del sistema que capten las características esenciales y oculten los detalles irrelevantes. En todas las ramas de la ciencia y la ingeniería es práctica habitual utilizar alguna descripción gráfica de los sistemas, denominada diagrama esquemático. Pueden ir desde imágenes estilizadas hasta símbolos estándar drásticamente simplificados. Estas imágenes permiten obtener una visión global del sistema e identificar los componentes individuales. En la figura 2.11 se muestran ejemplos de estos diagramas. Los diagramas esquemáticos son útiles porque ofrecen una imagen global de un sistema, mostrando los diferentes subprocesos y su interconexión e indicando las variables que pueden manipularse y las señales que pueden medirse. Diagramas de bloques En la ingeniería de control se ha desarrollado una representación gráfica especial denominada diagrama de bloques. El propósito de un diagrama de bloques es enfatizar el flujo de información y ocultar los detalles del sistema. En un diagrama de bloques, los diferentes elementos del proceso se muestran como cajas, y cada caja tiene entradas denotadas por líneas con flechas que apuntan hacia la caja y salidas denotadas por líneas con flechas que salen de la caja. Las entradas denotan las variables que influyen en el proceso, y las salidas las señales que nos interesan o que influyen en otros subsistemas. Los diagramas de bloques también pueden organizarse en jerarquías, donde los bloques individuales pueden contener a su vez diagramas de bloques más detallados. La figura 2.12 muestra parte de la notación que utilizamos para los diagramas de bloques. Las señales se representan como líneas, con flechas para indicar las entradas y salidas. El primer diagrama es la representación de una suma de dos señales. Una respuesta de entrada/salida se representa como un rectángulo con el nombre del sistema (o el nombre matemático). 45 2.3. METODOLOGÍA DE MODELIZACIÓN Símbolo del generador Símbolo del transformado 2r Autobús Autob ús codificación símbolo 1 Línea de conexión con el sistema vecino 3 -150 0° 4 NRINRI-P glnAp2 0° glnG Símbolo de línea 5 6 glnKp lacl Símbolo de carga Lacl (a) Electrónica de potencia (b) Biología celular (listo para enviar) LC p1 1 L (salida) D EN V (buffer en uso) t t5 (producir ) AC AC (ack. recibido) LC EN p6 B p3 (entrad a) p2 p5 p4 (espera ndo el ack.) (recibido) p7 t4 (recibir ack.) Proceso A (c) Control de procesos t3 (listo para recibir) t6 (consumir) (envi ar ack.) p8 (buffer en uso) (ack. Proceso B enviado) (d) Conexión en red Figura 2.11: Diagramas esquemáticos de diferentes disciplinas. Cada diagrama se utiliza para ilustrar la dinámica de un sistema de retroalimentación: (a) esquema eléctrico para un sistema de energía [Kun93], (b) un diagrama de circuito biológico para un circuito de reloj sintético [ASMN03], (c) un diagrama de proceso para una columna de destilación [SEM04] y (d) una descripción de red de Petri de un protocolo de comunicación. u2 u1 u1 + u2 (a) Unión de la suma u u k ku u (b) Bloque de ganancia f (u) u - (c) Saturación - t (t) 0 (d) Mapa no lineal sat(u) udt u Sistema y (f) Sistema de entrada/salida (e) Integrador Figura 2.12: Elementos del diagrama de bloques estándar. Las flechas indican las entradas y salidas de cada elemento, con la operación matemática correspondiente al bloqueo etiquetado en la salida. El bloque del sistema (f) representa la respuesta completa de entrada/salida de un sistema dinámico. 46 CAPÍTULO 2. MODELADO DEL SISTEMA Viento (d) Arrastre Aerodi námica Ref (a) Sensorial Motor Sistema -1 (b) Ala Aerodi námica (c) Dinámica corporal (e) Visión Sistema Figura 2.13: Representación en diagrama de bloques del sistema de control de vuelo de un insecto que vuela contra el viento. La parte mecánica del modelo consiste en la dinámica del cuerpo rígido de la mosca, la resistencia debida al vuelo en el aire y las fuerzas generadas por las alas. El movimiento del cuerpo hace que cambie el entorno visual de la mosca, y esta información se utiliza para controlar el movimiento de las alas (a través del sistema motor sensorial), cerrando el bucle. scripción) en el bloque. Dos casos especiales son una ganancia proporcional, que escala la entrada por un factor multiplicativo, y un integrador, que emite la integral de la señal de entrada. La figura 2.13 ilustra el uso de un diagrama de bloques, en este caso para modelar la respuesta de vuelo de una mosca. La dinámica de vuelo de un insecto es increíblemente intrincada e implica una cuidadosa coordinación de los músculos de la mosca para mantener un vuelo estable en respuesta a los estímulos externos. Una característica conocida de las moscas es su capacidad para volar contra el viento utilizando el flujo óptico de sus ojos compuestos como mecanismo de retroalimentación. A grandes rasgos, la mosca controla su orientación para que el punto de contracción del campo visual esté centrado en su campo visual. Para entender este complejo comportamiento, podemos descomponer la dinámica global del sistema en una serie de subsistemas (o bloques) interconectados. Si nos remitimos a la figura 2.13, podemos modelar el sistema de navegación de los insectos mediante una interconexión de cinco bloques. El sistema motor sensorial (a) toma la información del sistema visual (e) y genera órdenes musculares que intentan dirigir la mosca de forma que el punto de contracción esté centrado. Estas órdenes musculares se convierten en fuerzas mediante el batir de las alas (b) y las consiguientes fuerzas aerodinámicas que se producen. Las fuerzas de las alas se combinan con la resistencia de la mosca (d) para producir una fuerza neta sobre el cuerpo de la mosca. La velocidad del viento entra a través de la aerodinámica de arrastre. Finalmente, la dinámica del cuerpo (c) describe cómo la mosca se traslada y gira en función de las fuerzas netas que se le aplican. La posición, la velocidad y la orientación del insecto se devuelven a los bloques de aerodinámica de arrastre y sistema de visión como entradas. Cada uno de los bloques del diagrama puede ser en sí mismo un subsistema complicado. Por ejemplo, el sistema visual de una mosca de la fruta consta de dos complicados ojos compuestos (con unos 700 elementos por ojo), y el sistema sensorial motor tiene unos 47 2.3. METODOLOGÍA DE MODELIZACIÓN 200.000 neuronas que se utilizan para procesar la información. Un diagrama de bloques más detallado del sistema de control de vuelo de los insectos mostraría las interconexiones entre estos elementos, pero aquí hemos utilizado un bloque para representar cómo el movimiento de la mosca afecta a la salida del sistema visual, y un segundo bloque para representar cómo el campo visual es procesado por el cerebro de la mosca para generar órdenes musculares. La elección del nivel de detalle de los bloques y de los elementos que se separan en diferentes bloques depende a menudo de la experiencia y de las preguntas que se quieren responder con el modelo. Una de las características más potentes de los diagramas de bloques es su capacidad para ocultar información sobre los detalles de un sistema que puede no ser necesaria para comprender la dinámica esencial del sistema. Modelización a partir de experimentos Dado que los sistemas de control están provistos de sensores y actuadores, también es posible obtener modelos de la dinámica del sistema a partir de experimentos sobre el proceso. Los mod- eles se limitan a modelos de entrada/salida, ya que sólo estas señales son accesibles a los experimentos, pero el modelado a partir de experimentos también puede combinarse con el modelado a partir de la física mediante el uso de la retroalimentación y la interconexión. Una forma sencilla de determinar la dinámica de un sistema es observar la respuesta a un cambio escalonado de la señal de control. Un experimento de este tipo comienza ajustando la señal de control a un valor constante; luego, cuando se establece el estado estacionario, la señal de control se cambia rápidamente a un nuevo nivel y se observa la salida. El experimento proporciona la respuesta escalonada del sistema, y la forma de la respuesta ofrece información útil sobre la dinámica. En primer lugar, indica el tiempo de respuesta y permite saber si el sistema es oscilante o si la respuesta es monótona. Ejemplo 2.5 Sistema muelle-masa Consideremos el sistema muelle-masa del apartado 2.1, cuya dinámica viene dada por mq¨ + cq˙ + kq = u. (2.19) Queremos determinar las constantes m, c y k midiendo la respuesta del sistema a una entrada escalonada de magnitud F0 . Mostraremos en el capítulo 6 que cuando c2 < 4km, la respuesta al escalón para este sistema desde la configuración de reposo viene dada por ! r F0 1 k ct ¡q(t) = 1exp - sin(d t + ) , k m 2m d √4km √4km ! - c2 - c2 , = ¡tan-1 . d = 2m c A partir de la forma de la solución, vemos que la forma de la respuesta está determinada por los parámetros del sistema. Por lo tanto, midiendo ciertas características de la respuesta escalonada podemos determinar los valores de los parámetros. La figura 2.14 muestra la respuesta del sistema a un escalón de magnitud F0 = 20 N, junto con algunas mediciones. Comenzamos observando que la posición en estado estacionario 48 CAPÍTULO 2. MODELADO DEL SISTEMA 0.8 q(t ) 1 q(t ) 0.6 Po sic ió 0.4 n q [m 0.2 ] 0 0 q() 2 T 5 10 15 20 25 30 Tiempo t [s] 35 40 45 50 Figura 2.14: Respuesta escalonada de un sistema de muelle-masa. La magnitud de la entrada escalonada es F0 = 20 N. El periodo de oscilación T se determina observando el tiempo entre dos máximos locales posteriores en la respuesta. El período, combinado con el valor de estado estacionario q() y la disminución relativa entre los máximos locales, puede utilizarse para estimar los parámetros en un modelo del sistema. de la masa (después de que las oscilaciones se apaguen) es una función de la constante del muelle k: F0 q() = , (2.20) k donde F0 es la magnitud de la fuerza aplicada (F0 = 1 para una entrada de paso unitario). El parámetro 1/k se denomina ganancia del sistema. El período de la oscilación puede medirse entre dos picos y debe satisfacer √4km - c2 = . (2.21) T 2m Por último, la velocidad de decaimiento de las oscilaciones viene dada por el factor exponencial de la solución. Midiendo la cantidad de decaimiento entre dos picos, tenemos F0 F0 c -log q(t2 ) = (t2 - t1 ). (2.22) k k 2m Utilizando este conjunto de tres ecuaciones, podemos resolver los parámetros y determinar que para la respuesta escalonada de la figura 2.14 tenemos m ≈ 250 kg, c ≈ 60 N s/m y k ≈ 40 N/m. log q(t1 ) - La modelización a partir de experimentos también puede realizarse utilizando muchas otras señales. Las señales sinuosas se utilizan habitualmente (sobre todo en los sistemas con dinámica rápida) y pueden obtenerse mediciones precisas aprovechando las técnicas de correlación. Se puede obtener una indicación de las no linealidades repitiendo los experimentos con señales de entrada de diferentes amplitudes. Normalización y escalado Una vez obtenido un modelo, suele ser útil escalar las variables introduciendo variables sin dimensión. Este procedimiento a menudo puede simplificar las ecuaciones de un sistema reduciendo el número de parámetros y revelar propiedades interesantes de 49 2.3. METODOLOGÍA DE MODELIZACIÓN el modelo. El escalado también puede mejorar el acondicionamiento numérico del modelo para permitir simulaciones más rápidas y precisas. El procedimiento de escalado es sencillo: elegir unidades para cada variable independiente e introducir nuevas variables dividiendo las variables por la unidad de nor- malización elegida. Ilustramos el procedimiento con dos ejemplos. Ejemplo 2.6 Sistema muelle-masa Consideremos de nuevo el sistema muelle-masa introducido anteriormente. Despreciando la amortiguación, el sistema se describe por mq¨ + kq = u. El modelo tiene dos parámetros m y k. Para normalizar el modelo j introducimos variables sin dimensión x = q/l y =0 t, donde0 = k/m y l es el escala de longitud elegida. Escalamos la fuerza por e introducimos v = u/(). El 0 La ecuación a escala se convierte entonces en d2 x d2 q/l 1 = = (-kq + u) = -x + v, d(0t)2 0 0 que es el sistema muelle-masa no amortiguado normalizado. Nótese que el modelo normalizado no tiene parámetros, mientras que el modelo original tenía dos parámetros m y k. Introduciendo las variables de estado escaladas y sin dimensiones z1 = x = q/l y z2 = dx/d = q˙/(0 ), el modelo puede escribirse como d z1 0 1z1+ .0 = v dt z2 -1 0z2 Esta sencilla ecuación lineal describe la dinámica de cualquier sistema muellemasa, independientemente de los parámetros particulares, y por tanto nos permite conocer la dinámica fun- damental de este sistema oscilatorio. Para recuperar la frecuencia física de oscilación o su magnitud, debemos invertir el escalamiento que hemos aplicado. Ejemplo 2.7 Sistema de equilibrio Consideremos el sistema de equilibrio descrito en el apartado 2.1. Despreciando la amortiguación poniendo c = 0 y = 0 en la ecuación (2.9), el modelo puede escribirse como 2 d2 d2 p (M + m) - ml + ml = F, dt dt2 dt2 2 2 d p 2 d -ml + (J + ml ) - mgl = 0. dt2 dt2 j Sea0 = mgl/(J + ml2), elija la escala de longitud como l, deje que la escala de tiempo sea 1/0 , elegir la escala de fuerza como (M + m) e introducir las variables de escala =0 t, 0 x = p/l y u = F/((M + m)) 0 . Las ecuaciones se convierten entonces en 2 d 2 2 d2 d2 x = u, − d+x d-sin = − + 0,2 ). Obsérvese que el modelo original tiene donde = m/(M + m) y = ml2 /(J + ml cinco parámetros m, M, J, l y g, pero el modelo normalizado sólo tiene dos parámetros 50 CAPÍTULO 2. MODELADO DEL SISTEMA 102 Sa lid 100 ay 10-2 10−2 100 102 Entrad au 101 A m 100 pli tu 10d 1 (a) Incertidumbre estática M u 101 102 Frecuencia (b) Limón de la incertidumbre y 103 (c) Incertidumbre del modelo Figura 2.15: Caracterización de la incertidumbre del modelo. La incertidumbre de un sistema estático se ilustra en (a), donde la línea sólida indica la relación nominal de entrada/salida y las líneas discontinuas indican el rango de incertidumbre posible. El limón de la incertidumbre [GPD59] en (b) es una forma de capturar la incertidumbre en los sistemas dinámicos enfatizando que un modelo es válido sólo en algunos rangos de amplitud y frecuencia. En (c) un modelo es representado por un modelo nominal M y otro modelo que representa la incertidumbre análoga a la representación de la incertidumbre de los parámetros. 2 y . SiM ≫ my ml ≫ J, obtenemos ≈ 0y ≈ 1 y el modelo puede ser aproximado por d2 x d2 = u, -sin = u cos. El modelo puede interpretarse como una masa combinada con un péndulo invertido accionado por la misma entrada. Incertidumbre del modelo La reducción de la incertidumbre es una de las principales razones para utilizar la retroalimentación, por lo que es importante caracterizarla. Cuando se realizan mediciones, existe una buena tradición de asignar tanto un valor nominal como una medida de incertidumbre. Es útil aplicar el mismo principio a la modelización, pero desgraciadamente suele ser difícil expresar cuantitativamente la incertidumbre de un modelo. Para un sistema estático cuya relación entrada/salida puede caracterizarse por una función, la incertidumbre puede expresarse mediante una banda de incertidumbre, como se ilustra en la f i g u r a 2.15a. En niveles de señal bajos hay incertidumbres debidas a la resolución del sensor, la fricción y la cuantificación. Algunos modelos para sistemas de colas o celdas se basan en promedios que presentan variaciones significativas para poblaciones pequeñas. En niveles de señal grandes hay saturaciones o incluso fallos del sistema. Los rangos de señal en los que un modelo es razonablemente preciso varían drásticamente entre las aplicaciones, pero es raro encontrar modelos que sean precisos para rangos de señal superiores a 104 . La caracterización de la incertidumbre de un modelo dinámico es mucho más difícil. Podemos intentar capturar las incertidumbres asignando incertidumbres a los parámetros del modelo, pero a menudo esto no es suficiente. Puede haber errores debidos a fenómenos que se han despreciado, por ejemplo, pequeños retrasos temporales. En el control, la prueba definitiva es el rendimiento de un sistema de control basado en el modelo, y los retrasos temporales pueden ser importantes. También hay un aspecto relacionado con la frecuencia. Hay fenómenos lentos, como el envejecimiento, que 2.4. EJEMPLOS DE MODELIZACIÓN 51 pueden provocar cambios o derivas en los sistemas. También hay efectos de alta frecuencia: una resistencia dejará de ser una resistencia pura a frecuencias muy altas, y una viga tiene rigidez y mostrará una dinámica adicional cuando esté sujeta a una excitación de alta frecuencia. El limón de la incertidumbre [GPD59] mostrado en la Figura 2.15b es una forma de conceptualizar la incertidumbre de un sistema. Ilustra que un modelo es válido sólo en ciertos rangos de amplitud y frecuencia. En el capítulo 12 introduciremos algunas herramientas formales para representar la incertidumbre utilizando figuras como la de la figura 2.15c. Estas herramientas utilizan el concepto de función de transición, que describe la respuesta en frecuencia de un sistema de entrada/salida. Por el momento, nos limitamos a señalar que siempre hay que tener cuidado de reconocer los límites de un modelo y no hacer uso de modelos fuera de su rango de aplicabilidad. Por ejemplo, se puede describir el limón de la incertidumbre y luego comprobar que las señales permanecen en esta región. En los primeros tiempos de la informática analógica, se simulaba un sistema mediante amplificadores operacionales, y era habitual dar alarmas cuando se superaban ciertos niveles de señal. Se pueden incluir características similares en la simulación digital. 2.4 Modelado Ejemplos En esta sección introducimos ejemplos adicionales que ilustran algunos de los diferentes tipos de sistemas para los que se pueden desarrollar modelos de ecuaciones diferenciales y ecuaciones en diferencia. Estos ejemplos se han escogido específicamente de una serie de campos diferentes para destacar la amplia variedad de sistemas a los que se pueden aplicar los conceptos de retroalimentación y control. En el siguiente capítulo se ofrece un conjunto más detallado de aplicaciones que sirven de ejemplos a lo largo del texto. Sistemas de control de movimiento Los sistemas de control de movimiento implican el uso de la computación y la retroalimentación para controlar el movimiento de un sistema mecánico. Los sistemas de control de movimiento van desde los sistemas de nanoposicionamiento (microscopios de fuerza atómica, óptica adaptativa), pasando por los sistemas de control de los cabezales de lectura/escritura de una unidad de disco de un reproductor de CD, hasta los sistemas de fabricación (máquinas de transferencia y robots industriales), pasando por los sistemas de control de automóviles (frenos antibloqueo, control de la suspensión, control de la tracción), y los sistemas de control de vuelos aéreos y espaciales (aviones, satélites, cohetes y rovers planetarios). Ejemplo 2.8 Dirección del vehículo: el modelo de la bicicleta Un problema habitual en el control del movimiento es controlar la trayectoria de un vehículo mediante un actuador que provoca un cambio de orientación. El volante de un automóvil y la rueda delantera de una bicicleta son dos ejemplos, pero dinámicas similares se dan en la dirección de barcos o en el control de la dinámica de cabeceo de un avión. En muchos casos, podemos entender el comportamiento básico de estos sistemas mediante el uso de un modelo sencillo que capta la cinemática básica del sistema. Consideremos un vehículo con dos ruedas como el que se muestra en la 52 figura 2.16. A efectos de dirección nos interesa un velocidad del CAPÍTULO 2. MODELADO DEL SISTEMA modelo que describa cómo la 53 2.4. EJEMPLOS DE MODELIZACIÓN y O a b x Figura 2.16: Dinámica de dirección del vehículo. La figura de la izquierda muestra una vista aérea de un vehículo con cuatro ruedas. La base de las ruedas es b y el centro de masa está a una distancia a por delante de las ruedas traseras. Al aproximar el movimiento de los pares de ruedas delanteras y traseras por una sola rueda delantera y una sola rueda trasera, obtenemos una abstracción llamada modelo de bicicleta, que se muestra a la derecha. El ángulo de dirección es y la velocidad en el centro de masa tiene el en relación con el eje longitudinal del vehículo. La posición del vehículo viene dada por (x, y) y la orientación (rumbo) por . del vehículo depende del ángulo de giro . En concreto, consideremos la velocidad v en el centro de masa, a una distancia a de la rueda trasera, y dejemos que b sea la distancia entre las ruedas, como se muestra en la figura 2.16. Sean x e y las coordenadas del centro de masa, el ángulo de dirección y el ángulo entre el vector velocidad v y la línea central del vehículo. Como b = ra y a = ra tan, se deduce que = (a/b) y obtenemos la siguiente relación entre y el ángulo de giro : a tan () = arctan . (2.23) b Supongamos que las ruedas ruedan sin deslizamiento y que la velocidad de la rueda trasera es v0 . La velocidad del vehículo en su centro de masa es v = v0 / cos, y encontramos que el movimiento de este punto viene dado por dx = v cos( + ) = v0 dt cos( + ) , co sin( + ) . porqu (2.24) dy = v sin( + ) = v0 dt Para ver cómo influye el ángulo de dirección, observamos en la Fig. 2.16 que el vehículo gira con la velocidad angular v0 /ra alrededor del punto O. Por lo tanto, v0 v0 = = tan. (2.25) dt ra b Las ecuaciones (2.23)-(2.25) pueden usarse para modelar un automóvil bajo la suposición de que no hay deslizamiento entre las ruedas y la carretera y que las dos ruedas delanteras pueden ser aproximadas por una sola rueda en el centro del coche. La suposición de que no hay deslizamiento puede relajarse añadiendo una variable de estado adicional, lo que da lugar a un modelo más realista. Este modelo también describe la dinámica de dirección de los barcos 54 CAPÍTULO 2. MODELADO DEL SISTEMA r y F 2 x (a) Harrier "jump jet" F1 (b) Modelo simplificado Figura 2.17: Avión de empuje vectorial. El avión militar Harrier AV-8B (a) redirige el empuje de su motor hacia abajo para poder "flotar" sobre el suelo. Una parte del aire del motor se desvía hacia las puntas de las alas para utilizarlo en las maniobras. Como se muestra en (b), el empuje neto sobre la aeronave puede descomponerse en una fuerza horizontal F1 y una fuerza vertical F2 que actúa a una distancia r del centro de masa. como la dinámica de cabeceo de aviones y misiles. También es posible elegir las coordenadas para que el punto de referencia esté en las ruedas traseras (lo que corresponde a la configuración = 0), un modelo que suele denominarse coche de Dubins [Dub57]. La figura 2.16 representa la situación cuando el vehículo avanza y tiene dirección en las ruedas delanteras. El caso en el que el vehículo da marcha atrás se obtiene cambiando el signo de la velocidad, lo que equivale a un vehículo con dirección en las ruedas traseras. Ejemplo 2.9 Avión de empuje vectorial Consideremos el movimiento de las aeronaves con empuje vectorial, como el Harrier "jump jet" que se muestra en la Figura 2.17a. El Harrier es capaz de despegar verticalmente redirigiendo su empuje hacia abajo y mediante el uso de pequeños propulsores de maniobra situados en sus alas. En la Figura 2.17b se muestra un modelo simplificado del Harrier, en el que nos centramos en el movimiento del vehículo en un plano vertical a través de las alas del avión. Resolvemos las fuerzas generadas por el propulsor principal hacia abajo y los propulsores de maniobra como un par de fuerzas F1 y F2 que actúan a una distancia r por debajo de la aeronave (determinada por la geometría de los propulsores). Sean (x, y, ) la posición y la orientación del centro de masa de la aeronave. Sea m la masa del vehículo, J el momento de inercia, g la constante gravitacional y c el coeficiente de amortiguación. Entonces las ecuaciones de movimiento para el del vehículo vienen dadas por mx¨ = F1 - F2 - cx˙, my¨ = F1 + F2 - mg - (2.26) cy˙, = rF1 . Es conveniente redefinir las entradas para que el origen sea un punto de equilibrio 55 2.4. EJEMPLOS DE MODELIZACIÓN x mensajes entrantes cola de mensajes mensajes salientes Figura 2.18: Diagrama esquemático de un sistema de colas. Los mensajes llegan a un ritmo y se almacenan en una cola. Los mensajes se procesan y se retiran de la cola a un ritmo . El tamaño medio de la cola viene dado por x ∈ R. del sistema con entrada cero. Dejando que u1 = F1 y u2 = F2- mg, las ecuaciones convertirse en mx¨ = -mg - cx˙+ u1 - u2 sin, (2.27) my¨ = mg( - 1) - cy˙+ u1 + u2 cos, = ru1 . Estas ecuaciones describen el movimiento del vehículo como un conjunto de tres ecuaciones diferenciales de segundo orden acopladas. Sistemas de información Los sistemas de información abarcan desde los sistemas de comunicación como Internet hasta los sistemas de software que manipulan datos o gestionan los recursos de la empresa. La retroalimentación está presente en todos estos sistemas, y el diseño de estrategias de enrutamiento, control de flujo y gestión de búferes es un problema típico. Muchos resultados de la teoría de colas surgieron del diseño de sistemas de telecomunicaciones y, posteriormente, del desarrollo de la In- ternet y de los sistemas de comunicación informática [BG87, Kle75, Sch87]. La gestión de las colas para evitar la congestión es un problema central y, por tanto, empezaremos discutiendo el modelado de los sistemas de colas. Ejemplo 2.10 Sistemas de colas En la Figura 2.18 se muestra un esquema de una cola simple. Las solicitudes llegan, se ponen en cola y se procesan. Puede haber grandes variaciones en las tasas de llegada y de servicio, y la longitud de la cola se acumula cuando la tasa de llegada es mayor que la tasa de servicio. Cuando la cola es demasiado grande, se deniega el servicio mediante una política de control de admisión. El sistema puede modelarse de muchas maneras diferentes. Una de ellas es modelar cada solicitud entrante, lo que conduce a un modelo basado en eventos en el que el estado es un número entero que representa la longitud de la cola. La cola cambia cuando llega una solicitud o se atiende una solicitud. Las estadísticas de llegada y servicio suelen modelarse como procesos aleatorios. En muchos casos es posible determinar las estadísticas de cantidades como la longitud de la cola y el tiempo de servicio, pero los cálculos pueden ser bastante complicados. Se puede obtener una simplificación significativa utilizando un modelo de flujo. En lugar de hacer un seguimiento de cada solicitud, consideramos el servicio y las solicitudes como flujos, de forma similar a lo que se hace cuando se sustituyen las moléculas por un continuo al analizar 56 CAPÍTULO 2. MODELADO DEL SISTEMA fluidos. Suponiendo que la longitud media de la cola x es una variable continua y que las llegadas y los servicios son flujos con tasas y , el sistema puede modelarse mediante la ecuación diferencial de primer orden dx = − = −max f (x), x ≥ 0, (2.28) dt dondemax es la tasa de servicio máxima y f (x) es un número entre 0 y 1 que describe la tasa de servicio efectiva en función de la longitud de la cola. Es natural suponer que la tasa de servicio efectiva depende de la longitud de la cola porque las colas más grandes requieren más recursos. En estado estacionario tenemos f (x) = max , y suponemos que la longitud de la cola llega a cero cuando max va a cero y que va a infinito cuando max va a 1. Esto implica que f (0) = 0 y que f () = 1. Además, si suponemos que la tasa de servicio efectiva se deteriora monotónicamente con la longitud de la cola, entonces la función f (x) es monótona y cóncava. Una función sencilla que satisface los requisitos básicos es f (x) = x/(1 + x), que da el modelo dx x = −max . (2.29) dt x+1 Este modelo fue propuesto por Agnew [Agn76]. Se puede demostrar que si los procesos de llegada y servicio son procesos de Poisson, la longitud media de la cola viene dada por la ecuación (2.29) y que ésta es una buena aproximación incluso para longitudes de cola cortas; véase Tipper [TS90]. Para explorar las propiedades del modelo (2.29), investigaremos primero el valor equi- librado de la longitud de la cola cuando la tasa de llegada es constante. Fijando la derivada dx/dt en cero en la ecuación (2.29) y resolviendo para x, encontramos que la longitud de la cola x se aproxima al valor de estado estacionario xe = max − . (2.30) La figura 2.19a muestra la longitud de la cola en estado estacionario en función de max , el exceso de tasa de servicio efectivo. Obsérvese que la longitud de la cola aumenta rápidamente a medida que se acerca amax . Para que la longitud de la cola sea inferior a 20, es necesario que max < 0,95. El tiempo medio para atender una solicitud es Ts = (x + 1)max , y aumenta drásticamente a medida que se acerca amax . La figura 2.19b ilustra el comportamiento del servidor en una situación típica de sobrecarga. La tasa de servicio máxima esmax = 1, y la tasa de llegada comienza en = 0,5. La tasa de llegada se incrementa a = 4 en el tiempo 20, y vuelve a = 0,5 en el tiempo 25. La figura muestra que la cola se acumula rápidamente y se despeja muy lentamente. Dado que la El tiempo de respuesta es proporcional a la longitud de la cola, lo que significa que la calidad del servicio es pobre durante un largo periodo después de una sobrecarga. Este comportamiento se denomina efecto hora punta y se ha observado en servidores web y en muchos otros sistemas de colas, como el tráfico de automóviles. La línea discontinua de la figura 2.19b muestra el comportamiento del modelo de flujo, que describe la longitud media de las colas. El modelo simple capta el comportamiento cualitativo 57 2.4. EJEMPLOS DE MODELIZACIÓN 100 Lon gitu d de 50 la cola x 0 e 0 20 Lon gitu d de la col a xe 0.5 1 Exceso de tasa de servicio 10 0 0 40 20 60 80 Tiempo [s] max (a) Tamaño de la cola en estado estacionario (b) Condición de sobrecarga Figura 2.19: Dinámica de las colas. (a) La longitud de la cola en estado estacionario en función de . (b) El comportamiento de la longitud de la cola cuando hay una sobrecarga temporal en el sistema. La página web La línea sólida muestra una realización de una simulación basada en eventos, y la línea discontinua muestra el comportamiento del modelo de flujo (2.29). tivamente, pero hay variaciones de una muestra a otra cuando la longitud de la cola es corta. Muchos sistemas complejos utilizan acciones de control discretas. Dichos sistemas pueden modificarse caracterizando las situaciones que corresponden a cada acción de control, como se ilustra en el siguiente ejemplo. Ejemplo 2.11 Control de la paginación de la memoria virtual Un primer ejemplo del uso de la retroalimentación en los sistemas informáticos se aplicó en el sistema operativo OS/VS para el IBM 370 [BG68, Cro75]. El sistema utilizaba memoria virtual, que permite a los programas dirigirse a más memoria de la que está físicamente disponible como memoria rápida. Se accede directamente a los datos de la memoria rápida actual (memoria de acceso aleatorio, RAM), pero los datos que residen en la memoria más lenta (disco) se cargan automáticamente en la memoria rápida. El sistema está implementado de tal manera que al programador le parece una única gran sección de memoria. El sistema funcionó muy bien en muchas situaciones, pero se encontraron tiempos de ejecución muy largos en situaciones de sobrecarga, como muestran los círculos abiertos de la figura 2.20a. La dificultad se resolvió con un sencillo sistema de retroalimentación discreta. La carga del proceso centralTi 1500 em po 1000 de eje 500 cu 0 ció 0 n [s] Carga de la CPU bucle abierto bucle cerrado 1 2 3 Número de procesos (a) Rendimiento del sistema Normal Subcarga 4 Sobrecarga Cambios de memoria (b) Estado del sistema Figura 2.20: Ilustración de la retroalimentación en el sistema de memoria virtual del IBM/370. (a) El efecto de la retroalimentación en los tiempos de ejecución en una simulación, siguiendo [BG68]. Los resultados sin retroalimentación se muestran con o, y los resultados con retroalimentación con x. Nótese la drástica disminución del tiempo de ejecución para el sistema con retroalimentación. (b) Cómo se obtienen los tres estados a partir de las mediciones del proceso. 58 CAPÍTULO 2. MODELADO DEL SISTEMA 5 2 1 4 (a) Red de sensores 3 40 Est ado 30 s del age 20 nte x 10 i 0 10 20 Iteración 30 40 (b) Convergencia del consenso Figura 2.21: Protocolos de consenso para redes de sensores. (a) Una red de sensores sencilla con cinco nodos. En esta red, el nodo 1 se comunica con el nodo 2 y el nodo 2 se comunica con los nodos 1, 3, 4, 5, etc. (b) Una simulación que demuestra la convergencia del protocolo de consenso (2.31) al valor medio de las condiciones iniciales. La unidad de procesamiento de datos (CPU) se midió junto con el número de intercambios de páginas entre la memoria rápida y la memoria lenta. La región operativa se clasificó en uno de los tres estados: normal, subcarga o sobrecarga. El estado normal se caracteriza por una alta actividad de la CPU, el estado de subcarga se caracteriza por una baja actividad de la CPU y pocas sustituciones de páginas, el estado de sobrecarga tiene una carga de la CPU de moderada a baja pero muchas sustituciones de páginas; véase la Figura 2.20b. Los límites entre las regiones y el tiempo para medir la carga se determinaron a partir de simulaciones con cargas típicas. La estrategia de control fue no hacer nada en la condición de carga normal, excluir un proceso de la memoria en la condición de sobrecarga y permitir un nuevo proceso o un proceso previamente excluido en la condición de subcarga. Las cruces de la figura 2.20a muestran la eficacia del sistema de retroalimentación simple en las cargas simuladas. Se utilizan principios similares en muchas otras situaciones, por ejemplo, en la memoria caché rápida en el chip. Ejemplo 2.12 Protocolos de consenso en redes de sensores Las redes de sensores se utilizan en una gran variedad de aplicaciones en las que queremos recoger y agregar información en una región del espacio utilizando múltiples sensores que están conectados entre sí a través de una red de comunicaciones. Algunos ejemplos son el control de las condiciones ambientales en una zona geográfica (o en el interior de un edificio), el control del movimiento de animales o vehículos y el control de la carga de recursos en un grupo de ordenadores. En muchas redes de sensores, los recursos informáticos están distribuidos junto con los sensores, y puede ser importante que el conjunto de agentes distribuidos llegue a un consenso sobre una determinada propiedad, como la temperatura media de una región o la carga informática media entre un conjunto de ordenadores. Modelamos la conectividad de la red de sensores mediante un gráfico, en el que los nodos corresponden a los sensores y las aristas a la existencia de un enlace de comunicación directo entre dos nodos. Utilizamos la notación Ni para representar el conjunto de vecinos de un nodo i. Por ejemplo, en la red mostrada en la figura 2.21a { } N2 = 1, 3, 4, }5 y N3 = 2, 4 . Para resolver el problema de consenso, dejemos que xi sea el estado del i-ésimo sensor, correspondaa la estimación de ese sensor del valor medio que estamos tratando de calcular. Inicializamos el estado con el valor de la cantidad medida por el sensor individual. 59 2.4. EJEMPLOS DE MODELIZACIÓN El protocolo de consenso (algoritmo) puede realizarse ahora como una ley de actualización local xi [k + 1] = xi [k] + (xj [k] - xi [k]). (2.31) j∈Ni Este protocolo intenta calcular la media actualizando el estado local de cada agente en función del valor de sus vecinos. La dinámica combinada de todos los agentes puede escribirse de la forma x[k + 1] = x[k] −(D - A)x[k], (2.32) donde A es la matriz de adyacencia y D es una matriz diagonal con entradas que corresponden al número de vecinos de cada nodo. La constante describe la velocidad a la que se actualiza la estimación de la media en función de la información de los nodos vecinos. La -matriz L := D A se denomina laplaciana del grafo. Los puntos de equilibrio de la ecuación (2.32) son el conjunto de estados tales que xe [k + 1] = xe [k]. Se puede demostrar que xe = (, ,..., ) es un estado de equilibrio para el sistema, que corresponde a que cada sensor tiene una estimación idéntica para el promedio. Además, podemos demostrar que es efectivamente el valor medio de la estados. Como puede haber ciclos en el grafo, es posible que el estado del sistema entre en un bucle infinito y nunca converja al estado de consenso deseado. Un análisis formal requiere herramientas que se introducirán más adelante en el texto, pero se puede demostrar que para cualquier grafo conectado siempre podemos encontrar un tal que los estados de los agentes individuales convergen a la media. En la figura 2.21b se muestra una simulación que demuestra esta propiedad. Sistemas biológicos Los sistemas biológicos son quizá la fuente más rica de ejemplos de retroalimentación y control. El problema básico de la homeostasis, en el que una cantidad como la temperatura o el nivel de azúcar en sangre se regula a un valor fijo, no es más que uno de los muchos tipos de interacciones complejas de retroalimentación que pueden darse en máquinas moleculares, células, órganos y ecosistemas. Ejemplo 2.13 Regulación transcripcional La transcripción es el proceso por el que se genera ARN mensajero (ARNm) a partir de un segmento de ADN. La región promotora de un gen permite que la transcripción sea controlada por la presencia de otras proteínas, que se unen a la región promotora y reprimen o activan la ARN polimerasa, la enzima que produce una transcripción de ARNm a partir del ADN. A continuación, el ARNm se traduce en una proteína según su secuencia de nucleótidos. Este proceso se ilustra en la figura 2.22. Un modelo sencillo del proceso de regulación transcripcional es mediante el uso de una función Hill [dJ02, Mur04]. Consideremos la regulación de una proteína A con una concentración dada por pa y una concentración de ARNm correspondiente ma . Sea B una segunda proteína con concentración pb que reprime la producción de la proteína A a través de la regulación transcripcional. La dinámica resultante de pa y ma puede ser 60 CAPÍTULO 2. MODELADO DEL SISTEMA ARN polimerasa ADN Polipéptido Ribosoma Transcripción ARNm Traducción Figura 2.22: Circuito biológico. La célula de la izquierda es una célula pulmonar bovina, teñida para que sean visibles el núcleo, la actina y la cromatina. La figura de la derecha ofrece una visión general del proceso por el que se fabrican las proteínas en la célula. El ARN se transcribe a partir del ADN mediante una enzima ARN polimerasa. A continuación, el ARN es traducido a una proteína por un orgánulo llamado ribosoma. escrito como ab dma = +a0 -a ma , dt 1 + kab pnab b dpa dt =a ma − a pa , (2.33) dondeab +a0 es la tasa de transcripción no regulada,a representa la tasa de degradación del ARNm,ab , kab y nab son parámetros que describen cómo B reprensas A,a representa la tasa de producción de la proteína a partir de su ARNm correspondiente ya representa la tasa de degradación de la proteína A. El parámetroa0 describe la "fugacidad" del promotor, y nab se denomina coeficiente de Hill y se relaciona con la cooperatividad del promotor. Se puede utilizar un modelo similar cuando una proteína activa la producción de otra proteína en lugar de reprimirla. En este caso, las ecuaciones tienen la forma abkab pnab dma dpa b =a ma − a pa , (2.34) = + a0 -a ma , dt dt 1 + kab b pnab son las mismas que las descritas anteriormente. Nótese que donde las variables en el caso del activador, si pb es cero, la tasa de producción esa0 (frente aab +a0 para el represor). A medida que pb aumenta, el primer término de la expresión para ṁa se acerca a 1 y la tasa de transcripción se convierte enab +a0 (frente aa0 para el represor). De este modo, vemos que el activador y el represor actúan de forma opuesta entre sí. Como ejemplo de cómo se pueden utilizar estos modelos, consideramos el modelo de un "represor", originalmente debido a Elowitz y Leibler [EL00]. El represor es un circuito sintético en el que tres proteínas reprimen a otra en un ciclo. Esto se muestra esquemáticamente en la Figura 2.23a, donde las tres proteínas son TetR, cI y LacI. La idea básica del represor es que si TetR está presente, entonces reprime la producción de . Si se produce LacI (a la tasa de transcripción no regulada), que a su vez reprime a TetR. Una vez que TetR es reprimido, entonces cI deja de ser reprimido, y así sucesivamente. Si la dinámica del circuito se diseña de forma adecuada, las concentraciones de proteínas resultantes oscilarán. Podemos modelar este sistema utilizando tres copias de la ecuación (2.33), con A y 61 2.4. EJEMPLOS DE MODELIZACIÓN PLlacO1 ampR 5000 tetR-lite cI lacI tetR 4000 TetR SC101 origen PR cI LacI lacI-lite cI-lite PLtetO1 (a) Plásmido represor Pr ote 3000 ína s 2000 po r 1000 cél ula 0 0 100 200 Tiempo t [min] 300 (b) Simulación de represión Figura 2.23: La red de regulación genética del represor. (a) Un diagrama esquemático del represor, que muestra la disposición de los genes en el plásmido que contiene el circuito, así como el diagrama del circuito (centro). (b) Una simulación de un modelo simple para el represor, mostrando la oscilación de las concentraciones individuales de proteínas. (Figura por cortesía de M. Elowitz). B sustituido por la combinación adecuada de TetR, cI y LacI. El estado del sistema viene entonces dado por x = (mTetR , pTetR , mcI , pcI , mLacI , pLacI ). La figura 2.23b muestra las trazas de las tres concentraciones de proteínas para los parámetros n = 2, = 0,5, k = 4 × 0,12 y = 1,2 10−3 con × 6,25 × 10−4 ,0 = 5 10−× , = 5,8 10−3 , = condiciones iniciales x(0) = (1, 0, 0, 200, 0, 0) (siguiendo a [EL00]). Ejemplo 2.14 Propagación de ondas en redes neuronales La dinámica del potencial de membrana en una célula es un mecanismo fundamental para entender la señalización en las células, especialmente en las neuronas y las células musculares. Las ecuaciones de Hodgkin-Huxley ofrecen un modelo sencillo para estudiar las ondas de propagación en redes de neuronas. El modelo para una sola neurona tiene la forma CdV dt = -INa - IK - Ileak + Iinput, donde V es el potencial de membrana, C es la capacitancia, INa e IK son la corriente causada por el transporte de sodio y potasio a través de la membrana celular, Ileak es una corriente de fuga e Iinput es la estimulación externa de la célula. Cada corriente obedece a la ley de Ohm, es decir I = g(V - E), donde g es la conductancia y E es la tensión de equilibrio. La tensión de equilibrio viene dada por la ley de Nernst, RT ce E= log , nF ci donde R es la constante de Boltzmann, T es la temperatura absoluta, F es la constante de Faraday, n es la carga (o valencia) del ion y ci y ce son las concentraciones de iones dentro de la célula y en el fluido externo. A 20◦ C tenemos RT /F = 20 mV. El modelo Hodgkin-Huxley se desarrolló originalmente como un medio para predecir el comportamiento cuantitativo del axón gigante del calamar [HH52]. Hodgkin y Huxley 2.5.62 LECTURAS COMPLEMENTARIAS CAPÍTULO 2. MODELADO DEL 61 SISTEMA compartió el Premio Nobel de Fisiología de 1963 (junto con J. C. Eccles) por el análisis de los acontecimientos eléctricos y químicos en las descargas de las células nerviosas. La pinza de tensión descrita en el apartado 1.3 fue un elemento clave en los experimentos de Hodgkin y Huxley. 2.5 Más información en La modelización es omnipresente en la ingeniería y la ciencia y tiene una larga historia en las matemáticas aplicadas. Por ejemplo, la serie de Fourier fue introducida por Fourier cuando modeló la conducción del calor en los sólidos [Fou07]. Los modelos dinámicos se han desarrollado en muchos campos diferentes, incluyendo la mecánica [Arn78, Gol53], la conducción de calor [CJ59], los fluidos [BRS60], los vehículos [Abk69, Bla91, Ell94], la robótica [MLS94, SV89], los circuitos [Gui63], los sistemas de energía [Kun93], la acústica [Ber54] y los sistemas micromecánicos [Sen01]. La teoría de control requiere el modelado de muchos dominios diferentes, y la mayoría de los textos de teoría de control contienen varios capítulos sobre el modelado mediante ecuaciones diferenciales ordinarias y ecuaciones en diferencias (véase, por ejemplo, [FPEN05]). Un libro clásico sobre el modelado de sistemas físicos, especialmente mecánicos, eléctricos y de termofluidos, es Cannon [Can03]. El libro de Aris [Ari94] es muy original y tiene una discusión detallada sobre el uso de variables sin dimensión. Dos de los libros favoritos de los autores sobre modelado de sistemas biológicos son J. D. Murray [Mur04] y Wilson [Wil99]. Ejercicios 2.1 (Forma de cadena de integradores) Considere la ecuación diferencial ordinaria lineal (2.7). Demuestre que eligiendo una representación del espacio de estados con x1 = y, la dinámica puede escribirse como 0 0 1 0 0 .. .. , B= , C= 1. . . 00. . . 0 0 . . A= -0 -a11 1 -an 0 -a- n−1 Esta forma canónica se denomina forma de cadena de integradores. 2.2 (Péndulo invertido) Utilice las ecuaciones de movimiento de un sistema de equilibrio para derivar un modelo dinámico para el péndulo invertido descrito en el ejemplo 2.2 y verifique que para un valor pequeño la dinámica se aproxima por la ecuación (2.10). 2.3 (Dinámica en tiempo discreto) Considere el siguiente sistema en tiempo discreto x[k + 1] = Ax[k] + Bu[k], y[k] = Cx[k], donde x1 x = , x2 a11 A= 0 a12 , . a 22 B = 0, C = 110 62 CAPÍTULO 2. MODELADO DEL SISTEMA En este problema, exploraremos algunas de las propiedades de este sistema de tiempo discreto en función de los parámetros, las condiciones iniciales y las entradas. (a) Para el caso en que a12 = 0 y u = 0, dar una expresión de forma cerrada para la salida del sistema. (b) Un sistema discreto está en equilibrio cuando x[k + 1] = x[k] para todo k. Sea u = r una entrada constante y calcule el punto de equilibrio resultante para el | sistema.| Demuestre que si aii < 1 para todo i, todas las condiciones iniciales dan soluciones que convergen al punto de equilibrio. (c) Escriba un programa de ordenador para trazar la salida del sistema en respuesta a una entrada≥de paso unitario, u[k] = 1, k 0. Trace la respuesta de su sistema con x[0] = 0 y A dada por un11 = 0.5, un12 = 1 y un22 = 0.25. 2.4 (Economía keynesiana) El modelo simple de Keynes para una economía viene dado por Y [k] = C[k] + I[k] + G[k], donde Y , C, I y G son el producto nacional bruto (PNB), el consumo, la inversión y el gasto público para el año k. El consumo y la inversión se modelan mediante ecuaciones en diferencia de la forma C[k + 1] = aY [k], I[k + 1] = b(C[k + 1] -C[k]), donde a y b son parámetros. La primera ecuación implica que el consumo aumenta con el PNB, pero que el efecto se retrasa. La segunda ecuación implica que la inversión es proporcional a la tasa de variación del consumo. Demuestre que el valor de equilibrio del PNB viene dado por 1 Ye = (Ie + Ge ), 1-a donde el parámetro 1/(1 a )- es el multiplicador de Keynes (la ganancia de I o G a Y ). Con a = 0,75 un aumento del gasto público dará lugar a un aumento del PNB cuatro veces mayor. Demuestre también que el modelo puede escribirse de la siguiente manera discreta ] modelo de estado de tiempo: C[k + 1] = a a C[k aG + b [k], ] ab ] a I[k + 1 ab - b I[k Y [k] = C[k] + I[k] + G[k]. � 2.5 (Identificación del sistema por mínimos cuadrados) Considere una ecuación diferencial no lineal que puede escribirse en la forma M dx =i fi (x), dt i=1 donde fi (x) son funciones no lineales conocidas yi son parámetros desconocidos, pero constantes. Supongamos que tenemos mediciones (o estimaciones) del estado completo x en 63 EJERCICIOS instantes de tiempo t1 , t2 , , tN , con N > M. Demuestre que los parámetrosi pueden ser deterse obtiene encontrando la solución por mínimos cuadrados de una ecuación lineal de la forma = b, dond ∈ RM es el vector de todos los parámetros y HR ∈ N×M y bR debidamente definidos. ∈ N están 2.6 (Dinámica del oscilador normalizado) Considere un sistema amortiguado de muelle-masa con dinámica mq¨ + cq˙ + kq = F. j Sea0 = k/m la frecuencia natural y = c/(2√km) la relación de amortiguamiento. (a) Demuestre que reescalando las ecuaciones, podemos escribir la dinámica en la forma q¨ + 0 q˙ +2 q =2 u, (2.35) 0 0 donde u = F/k. Esta forma de la dinámica es la de un oscilador lineal con frecuencia natural0 y relación de amortiguación . (b) Demuestre que el sistema se puede normalizar aún más y escribirlo en la forma dz1 dz2 = z2 , = -z1 - 2 z2 + v. (2.36) La dinámica esencial del sistema se rige por un único parámetro de amortiguación . A veces se utiliza el valor Q definido como Q = en lugar de . 2.7 (Generador eléctrico) Un generador eléctrico conectado a una red eléctrica potente puede modelarse mediante un balance de momentos para el rotor del generador: d2 EV pecado, J = Pm - Pe = Pm X dt2 donde J es el momento de inercia efectivo del generador, el ángulo de giro, Pm la potencia mecánica que acciona el generador, Pe es la potencia eléctrica activa, E la tensión del generador, V la tensión de red y X la reactancia de la línea. Suponiendo que la dinámica de la línea es mucho más rápida que la del rotor, Pe = VI = (EV /X ) sin, donde I es la componente de la corriente en fase con la tensión E y es el ángulo de fase entre las tensiones E y V . Demuestre que la dinámica del generador eléctrico tiene una forma normalizada que es similar a la dinámica de un péndulo con forzamiento en el pivote. 2.8 (Control de admisión para una cola) Considere el sistema de colas descrito en el ejemplo 2.10. Los largos retrasos creados por las sobrecargas temporales pueden reducirse rechazando las solicitudes cuando la cola se hace grande. Esto permite que las solicitudes aceptadas sean atendidas rápidamente y que las solicitudes que no pueden ser atendidas reciban rápidamente un rechazo para que puedan probar en otro servidor. Consideremos un sistema de control de admisión descrito por dx x = u -max , u = sat(0,1) (k(r - x)), (2.37) dt x+1 64 CAPÍTULO 2. MODELADO DEL SISTEMA donde el controlador es un simple control proporcional con saturación (sat(a,b) está definido por la ecuación (3.9)) y r es la longitud de cola deseada (de referencia). Utilice una simulación para demostrar que este controlador reduce el efecto de la hora punta y explique cómo afecta la elección de r a la dinámica del sistema. 2.9 (Interruptor biológico) Un interruptor genético puede formarse conectando dos represores en un ciclo, como se muestra a continuación. u1 A u1 A u2 B B u2 Utilizando los modelos del Ejemplo 2.13 -suponiendo que los parámetros son los mismos para ambos genes y que las concentraciones de ARNm alcanzan rápidamente el estado estacionario- demuestre que la dinámica puede escribirse en coordenadas normalizadas como dz 1 dz 2 = - z1 - v1 , = - z2 - v2 , (2.38) 1 + zn2 1 + zn1 donde z1 y z2 son versiones escaladas de las concentraciones de proteína y la escala de tiempo también ha sido cambiada. Demuestre que 200 utilizando los ≈ parámetros del Ejemplo 2.13, y utilice simulaciones para demostrar el comportamiento tipo interruptor del sistema. 2.10 (Accionamiento del motor) Considere un sistema que consiste en un motor que acciona dos masas que están conectadas por un muelle de torsión, como se muestra en el siguiente diagrama. 1 I 2 Motor 1 2 J1 J2 Este sistema puede representar un motor con un eje flexible que acciona una carga. Suponiendo que el motor entrega un par proporcional a la corriente, la dinámica del sistema puede describirse mediante las ecuaciones d 21 + c 1 + ( 1 - 2) = kI I , dt2 dt dt (2.39) d 22 2 + J c + ( 2 - 1) = Td. 2 dt2 dt dt Se obtienen ecuaciones similares para un robot con brazos flexibles y para los brazos de las unidades de DVD y discos ópticos. Derive un modelo de espacio de estado para el sistema introduciendo j las variables de estado (normalizadas) x1 =1 , x2 =2 , x3 =1 0 , y x4 =2 0 , donde0 =k (J1 + J2 )/(J1 J2 ) es la frecuencia natural no amortiguada del sistema cuando la señal de control es cero. 1J Capítulo 3 Ejemplos ... No aplique ningún modelo hasta que comprenda los supuestos simplificadores en los que se basa y pueda comprobar su validez. Frase clave: utilizar sólo como se indica. No te limites a un solo modelo: Más de un modelo puede ser útil para comprender diferentes aspectos de un mismo fenómeno. Frase clave: legalizar la poligamia". Saul Golomb, "Mathematical Models-Uses and Limitations", 1970 [Gol70]. En este capítulo presentamos una colección de ejemplos que abarcan muchos campos diferentes de la ciencia y la ingeniería. Estos ejemplos se utilizarán a lo largo del texto y en los ejercicios para ilustrar diferentes conceptos. Los lectores noveles tal vez deseen centrarse sólo en algunos ejemplos con los que tengan más experiencia o conocimientos previos para comprender los conceptos de estado, entrada, salida y dinámica en un entorno familiar. 3.1 Crucero Control El sistema de control de crucero de un coche es un sistema de retroalimentación habitual en la vida cotidiana. El sistema intenta mantener una velocidad constante en presencia de perturbaciones causadas principalmente por cambios en la pendiente de una carretera. El controlador compensa estas incógnitas midiendo la velocidad del coche y ajustando el acelerador adecuadamente. Para modelar el sistema, partimos del diagrama de bloques de la figura 3.1. Sea v la velocidad del coche y vr la velocidad deseada (de referencia). El controlador, que suele ser del tipo proporcional-integral (PI) descrito brevemente en el capítulo 1, recibe las señales v y vr y genera una señal de control u que se envía a un actuador que controla la posición del acelerador. El acelerador, a su vez, controla el par T entregado por el motor, que se transmite a través de los engranajes y las ruedas, generando una fuerza F que mueve el coche. Existen fuerzas perturbadoras Fd debidas a las variaciones de la pendiente de la carretera, la resistencia a la rodadura y las fuerzas aerodinámicas. El controlador de crucero también tiene una interfaz hombre-máquina que permite al conductor fijar y modificar la velocidad deseada. También hay funciones que desconectan el control de crucero cuando se toca el freno. El sistema tiene muchos componentes individuales -actuador, motor, transmisión, ruedas y carrocería- y un modelo detallado puede ser muy complicado. A pesar de ello, el modelo necesario para diseñar el controlador de crucero puede ser bastante sencillo. Para desarrollar un modelo matemático empezamos con un balance de fuerzas para la carrocería del coche. Sea v la velocidad del coche, m la masa total (incluidos los pasajeros), F la fuerza generada por el contacto de las ruedas con la carretera y Fd la fuerza de perturbación 66 CAPÍTULO 3. EJEMPLOS F d Acelerado r y motor Actuador T u Engrana jes y ruedas Controlado r vr F Cuerpo v on/off Interfaz set/decel reanudar/acel del erar cancelar conducto Figura 3.1: Diagrama de bloques de un sistema de control r de crucero para un automóvil. El motor controlado por el acelerador genera un par T que se transmite al suelo a través de la caja de cambios y las ruedas. Combinada con las fuerzas externas del entorno, como la resistencia aerodinámica y las fuerzas gravitatorias en las colinas, la fuerza neta hace que el coche se mueva. La velocidad del coche v es medida por un sistema de control que ajusta el acelerador mediante un mecanismo de actuación. Una interfaz para el conductor permite encender y apagar el sistema y establecer la velocidad de referencia vr. debido a la gravedad, la fricción y la resistencia aerodinámica. La ecuación de movimiento del coche es simplemente mdv = - FF . (3.1) dt d La fuerza F es generada por el motor, cuyo par es proporcional a la tasa de inyección de combustible, que a su vez es proporcional a una señal de control ≤ ≤0 u 1 que controla la posición del acelerador. El par también depende de la velocidad del motor . Una representación sencilla del par a pleno rendimiento viene dada por la curva de par ! - 1 ¡2 T () = Tm 1 − , (3.2) m donde el par máximo Tm se obtiene a la velocidad del motorm . Los parámetros típicos son Tm = 190 Nm,m = 420 rad/s (unas 4000 RPM) y = 0,4. Sea n la relación de transmisión y r el radio de la rueda. La velocidad del motor está relacionada con la velocidad a través de la expresión nv = =:n v, r y la fuerza motriz puede escribirse como nu F= T () =n uT (n v). r Los valores típicos den para las marchas 1 a 5 son1 = 40,2 = 25,3 = 16,4 = 12 y5 = 10. La inversa den tiene una interpretación física como el radio efectivo de la rueda. La figura 3.2 muestra el par motor en función del régimen del motor y del vehículo velocidad. La figura muestra que el efecto del engranaje es "aplanar" la curva de par, de modo que se puede obtener un par casi completo en toda la gama de velocidades. La fuerza perturbadora Fd tiene tres componentes principales: Fg , las fuerzas debidas a 67 3.1. CONTROL DE CRUCERO 200 200 180 180 Pa r T 160 [N m] 140 Pa r T 160 [N m] 140 120 120 100 0 100 200 400 600 Velocidad angular rad/s] n=5 n=1 0 n=2 n=3 20 40 Velocidad v [m/s] n=4 60 Figura 3.2: Curvas de par de un motor típico de coche. El gráfico de la izquierda muestra el par generado por el motor en función de la velocidad angular del motor, mientras que la curva de la derecha muestra el par en función de la velocidad del coche para diferentes marchas. gravedad; Fr , las fuerzas debidas a la fricción de rodadura; y Fa , la resistencia aerodinámica. Si la pendiente de la carretera es , la gravedad da la fuerza Fg = mg sin, como se ilustra en la figura 3.3a, donde g = 9,8 m/s2 es la constante gravitatoria. Un modelo sencillo de rozamiento por rodadura es Fr = mgCr sgn(v), donde Cr es el coeficiente de rodadura y sgn(v) es el signo de v ( 1) o cero±si v = 0. Un valor típico del coeficiente de rodadura es Cr = 0,01. Por último, la resistencia aerodinámica es proporcional al cuadrado de la velocidad: Fa = 1 2 Cd Av2 , donde es la densidad del aire, Cd es el coeficiente de resistencia aerodinámica dependiente de la forma y A es el área frontal del coche. Los parámetros típicos son = 1,3 kg/m3 , Cd = 0,32 y A = 2,4 m2 . Resumiendo, encontramos que el coche puede ser modelado por mdv =n uT (n v) - mgCr sgn(v) dt 1 Cd Av2 - mg sin, 2 (3.3) donde la función T viene dada por la ecuación (3.2). El modelo (3.3) es un sistema dinámico de primer orden. El estado es la velocidad del coche v, que también es la salida. La entrada es la señal u que controla la posición del acelerador, y la perturbación es la fuerza Fd , que depende de la pendiente de la carretera. El sistema es no lineal debido a la curva de par, el término de gravedad y el carácter no lineal de la fricción de rodadura y la resistencia aerodinámica. También puede haber variaciones en los parámetros; por ejemplo, la masa del coche depende del número de pasajeros y de la carga que lleve el coche. Añadimos a este modelo un controlador de retroalimentación que intenta regular la velocidad del coche en presencia de perturbaciones. Utilizaremos un controlador proporcional-integral 68 CAPÍTULO 3. EJEMPLOS F F g mg Ve loc 20 ida dv [m 19 0 /s] 10 20 Tiempo t [s] 30 1 Ac ele ra do 0 ru 0 10 20 Tiempo t [s] 30 (b) Respuesta en bucle cerrado (a) Efecto de las fuerzas gravitatorias Figura 3.3: Coche con control de crucero que se encuentra con una carretera en pendiente. Un diagrama esquemático se muestra en (a), y (b) muestra la respuesta en la velocidad y el acelerador cuando se encuentra una pendiente de 4◦. La pendiente se modela como un cambio neto de 4◦ en el ángulo de la pendiente , con un cambio lineal en el ángulo entre t = 5 y t = 6. El controlador PI tiene una ganancia proporcional es kp = 0,5, y el La ganancia integral es ki = 0,1. que tiene la forma - t u( t) k pe (t ) ki e ( ) . 0 = + Este controlador puede realizarse como un sistema dinámico de entrada/salida definiendo un estado de controlador z e implementando la ecuación diferencial dz = vr - v, u = kp (vr - v) + ki z, (3.4) dt donde vr es la velocidad deseada (de referencia). Como se discutió brevemente en la Sección 1.5, el integrador (representado por el estado z) asegura que en el estado estacionario el error será conducido a cero, incluso cuando hay perturbaciones o errores de modelado. (El diseño de los controladores PI es el tema del capítulo 10.) La figura 3.3b muestra la respuesta del sistema de lazo cerrado, compuesto por las ecuaciones (3.3) y (3.4), cuando se encuentra con una colina. La figura muestra que incluso si la colina es tan empinada que el acelerador cambia de 0,17 a casi el máximo, el mayor error de velocidad es inferior a 1 m/s, y la velocidad deseada se recupera después de 20 s. Al derivar el modelo (3.3) se hicieron muchas aproximaciones. Puede parecer sorprendente que un sistema aparentemente tan complicado pueda ser descrito por el modelo simple (3.3). Es importante asegurarse de que restringimos nuestro uso del modelo al limón de incertidumbre conceptualizado en la Figura 2.15b. El modelo no es válido para cambios muy rápidos del acelerador porque hemos ignorado los detalles de la dinámica del motor, ni tampoco para cambios muy lentos porque las propiedades del motor cambiarán a lo largo de los años. No obstante, el modelo es muy útil para el diseño de un sistema de control de crucero. Como veremos en capítulos posteriores, la razón de esto es la robustez inherente a los sistemas de retroalimentación: incluso si el modelo no es perfectamente exacto, podemos utilizarlo para diseñar un controlador y hacer uso de la retroalimentación 69 3.2. DINÁMICA DE LA BICICLETA fuera de set en Fue ra de Standby fue ra de cancel ar Crucer o freno curriculum vitae Mant enga fue ra Figura 3.4: Máquina de estados finitos para eldesistema de control de crucero. La figura de la izquierda muestra algunos botones típicos utilizados para controlar el sistema. El controlador puede estar en uno de los cuatro modos, correspondientes a los nodos del diagrama de la derecha. La transición entre los modos se controla pulsando uno de los cinco botones de la interfaz de control de crucero: on, off, set, resume o cancel. en el controlador para gestionar la incertidumbre del sistema. El sistema de control de crucero también tiene una interfaz hombre-máquina que permite al conductor comunicarse con el sistema. Hay muchas formas de implementar este sistema; una versión se ilustra en la figura 3.4. El sistema tiene cuatro botones: encendido-apagado, fijar/desacelerar, reanudar/acelerar y cancelar. El funcionamiento del sistema se rige por una máquina de estados finitos que controla los modos del controlador PI y del generador de referencia. La implementación de los controladores y de los generadores de referencia se tratará con más detalle en el capítulo 10. El uso del control en los sistemas de automoción va mucho más allá del simple sistema de control de crucero aquí descrito. Las aplicaciones incluyen el control de emisiones, el control de tracción, el control de potencia (especialmente en vehículos híbridos) y el control de crucero adaptativo. Muchas aplicaciones de automoción se discuten en detalle en el libro de Kiencke y Nielsen [KN00] y en los documentos de estudio de Powers et al. [BP96, PN00]. 3.2 Bicicleta Dinámica La bicicleta es un interesante sistema dinámico con la característica de que una de sus propiedades clave se debe a un mecanismo de retroalimentación creado por el diseño de la horquilla delantera. Un modelo detallado de una bicicleta es complejo porque el sistema tiene muchos grados de libertad y la geometría es complicada. Sin embargo, se puede obtener una gran cantidad de información a partir de modelos sencillos. Para derivar las ecuaciones de movimiento suponemos que la bicicleta rueda en el plano hori- zontal xy. Introducimos un sistema de coordenadas que se fija a la bicicleta con el -El eje que pasa por los puntos de contacto de las ruedas con el suelo, el eje horizontal y el eje vertical, como se muestra en la figura 3.5. Sea v0 la velocidad de la bicicleta en la rueda trasera, b la base de la rueda, el ángulo de inclinación y el ángulo de dirección. El sistema de coordenadas gira alrededor del punto O con la velocidad angular = v0 /b, y un observador fijado a la bicicleta experimenta fuerzas debidas al movimiento del sistema de coordenadas. El movimiento de inclinación de la bicicleta es similar al de un péndulo invertido, como se muestra 70 CAPÍTULO 3. EJEMPLOS O λ h h C1 C1 C2 C2 a b (a) vista superior P1 (b) vista trasera P2 P3 (c) vista lateral Figura 3.5: Vistas esquemáticas de una bicicleta. El ángulo de dirección es , y el ángulo de balanceo es . El centro de masa tiene una altura h y una distancia a desde la vertical por el punto de contacto P1 de la rueda trasera. La base de la rueda es b, y la trayectoria es c. en la vista trasera de la figura 3.5b. Para modelar la inclinación, consideremos el cuerpo rígido que se obtiene cuando las ruedas, el ciclista y el conjunto de la horquilla delantera se fijan al cuadro de la bicicleta. Sea m la masa total del sistema, J el momento de inercia de este cuerpo con respecto al eje - y D el producto de inercia con respecto a los ejes. Además, dejemos que las coordenadas y del centro de masa con respecto al punto de contacto ≈ de la rueda trasera, P1 , sean a y h, respectivamente. Tenemos J mh2 y D = mah. Los pares que actúan sobre el sistema se deben a la gravedad y a la acción centrípeta. Suponiendo que el ángulo de giro es pequeño, la ecuación de movimiento se convierte en mv2 h d2 Dv0 0 J 2(3.5) b dt = mgh + b . dt El término mgh es el par generado por la gravedad. Los términos que contienen y su derivada son los pares generados por la dirección, con el término (Dv0 /b) a las fuerzas inerciales y el término (mv2 h/b) debido a 0 las fuerzas centrípetas. El ángulo de dirección está influenciado por el par de torsión que el piloto aplica al manillar barra. Debido a la inclinación del eje de dirección y a la forma de la horquilla delantera, el punto de contacto de la rueda delantera con la carretera P2 está detrás del eje de rotación del conjunto de la rueda delantera, como se muestra en la figura 3.5c. La distancia c entre el punto de contacto de la rueda delantera P2 y la proyección del eje de rotación del conjunto de la horquilla delantera P3 se denomina estela. Las propiedades de dirección de una bicicleta dependen en gran medida de la trayectoria. Una estela grande aumenta la estabilidad pero hace que la dirección sea menos ágil. Una consecuencia del diseño de la horquilla delantera es que el ángulo de dirección está influenciado tanto por el par de dirección T como por la inclinación del cuadro. Esto significa que una bicicleta con horquilla delantera es un sistema de retroalimentación, como se ilustra en el diagrama de bloques de la figura 3.6. El ángulo de dirección influye en el ángulo de inclinación y el ángulo de inclinación influye en el ángulo de dirección, dando lugar a la causalidad circular característica del razonamiento sobre la retroalimentación. Para una horquilla delantera con una trayectoria positiva 71 3.3. CIRCUITOS DE AMPLIFICADORES OPERACIONALES T Horq uilla dela ntera Marco Figura 3.6: Diagrama de bloques de una bicicleta con horquilla delantera. El par de dirección aplicado al manillar es T , el ángulo de balanceo es y el ángulo de dirección es . Obsérvese que la horquilla delantera crea una retroalimentación del ángulo de balanceo al ángulo de dirección que, en determinadas condiciones, puede estabilizar el sistema. la bicicleta se dirigirá hacia la inclinación, creando una fuerza centrífuga que intenta disminuir la inclinación. En determinadas condiciones, la retroalimentación puede llegar a estabilizar la bicicleta. Se obtiene un modelo empírico rudimentario suponiendo que el bloque B puede modelarse como el sistema estático = k1 T - k2 . (3.6) Este modelo ignora la dinámica de la horquilla delantera, la interacción neumático-carretera y el hecho de que los parámetros dependen de la velocidad. Un modelo más preciso, denominado modelo Whipple, se obtiene utilizando la dinámica de cuerpo rígido de la horquilla delantera y el cuadro. Suponiendo ángulos pequeños, este modelo se convierte en 0 ˙ M + ¨Cv0 + (K0˙ + K2 v2 ) = , 0 T (3.7) donde los elementos de las × 2 2 matrices M, C, K0 y K2 dependen de la geometría y de la distribución de masas de la bicicleta. Obsérvese que tiene una forma algo similar a la del sistema muelle-masa introducido en el capítulo 2 y al sistema de equilibrio del ejemplo 2.1. Incluso este modelo más complejo es inexacto porque se desprecia la interacción entre el neumático y la carretera; tenerlo en cuenta requiere dos variables de estado adicionales. De nuevo, el limón de la incertidumbre de la Figura 2.15b proporciona un marco para entender la validez del modelo bajo estos supuestos. En los libros de D. Wilson [Wil04] y Herlihy [Her04] se hacen interesantes presentaciones sobre el desarrollo de la bicicleta. El modelo (3.7) fue presentado en un artículo de Whipple en 1899 [Whi99]. Más detalles sobre el modelado de la bicicleta se dan en el documento [ ÅKL05], que tiene muchas referencias. 3.3 Amplificador operacional Circuitos Un amplificador operacional (op amp) es una implementación moderna del amplificador de retroalimentación de Black. Es un componente universal que se utiliza ampliamente para la instrumentación, el control y la comunicación. También es un elemento clave en la computación analógica. En la Figura 3.7 se muestran los diagramas esquemáticos del amplificador operacional. El amplificador tiene una entrada inversora (v− ), una entrada no inversora (v+ ) y una salida (vout ). También hay conexiones para las tensiones de alimentación, e− y e+ , y un ajuste del cero 72 CAPÍTULO 3. EJEMPLOS offset null entrada inversora entrada no inversora e- NC e+ salida vv + vout i + i- offset null (a) Configuraci ón de los pines del chip e + vv + + vou t e- (b) Esquema completo (c) Vista simple Figura 3.7: Un amplificador operacional y dos diagramas esquemáticos. (a) Las conexiones de los pines del amplificador en un chip de circuito integrado. (b) Un esquema con todas las conexiones. (c) Sólo las conexiones de señal. (desplazamiento nulo). Se obtiene un modelo sencillo suponiendo que las corrientes de entrada i− and i+ are zero and that the output is given by the static relation vout = sat(v min,vmax) k(v+ - v− ) , (3.8) donde sat denota la función de saturación si xa < ≤x≤ sat(a,b) (x) = a x si b a b si x > b. (3.9) Suponemos que la ganancia k es grande, en el rango de 106 -108 , y las tensiones vmin y vmax satisfacen e- ≤ vmin < vmax ≤ e+ y, por tanto, están en el rango de las tensiones de alimentación. Se obtienen modelos más precisos sustituyendo la función de saturación por una función suave, como se muestra en la figura 3.8. Para señales de entrada pequeñas, la característica del amplificador (3.8) es lineal: vout = k(v+ - v− ) =: -kv. vma x (3.10) vou t v+ - vvmi n Figura 3.8: Características de entrada/salida de un amplificador operacional. La entrada diferencial viene dada por v+ v-. La tensión de salida es una función lineal de la entrada en un pequeño rango alrededor de 0, con saturación en vmin y vmax. En el régimen lineal, el amplificador operacional tiene una alta ganancia. 73 3.3. CIRCUITOS DE AMPLIFICADORES OPERACIONALES R1 R2 v v1 i0 + (a) Circuito amplificador v1 v2 R2 R1 e v R1 R1 + R2 -k v2 (b) Diagrama de bloques Figura 3.9: Amplificador estable utilizando un amplificador operacional. El circuito (a) utiliza retroalimentación negativa alrededor de un amplificador operacional y tiene su correspondiente diagrama de bloques (b). Las resistencias R1 y R2 determinan la ganancia del amplificador. Como la ganancia de bucle abierto k es muy grande, el rango de señales de entrada en el que el sistema es lineal es muy pequeño. Un amplificador simple se obtiene disponiendo la realimentación alrededor del amplificador operacional básico como se muestra en la Figura 3.9a. Para modelar el amplificador realimentado en el rango lineal, asumimos que la corriente i0 = i− + i+ es cero y que la ganancia - de el amplificador es tan grande que la tensión v = v− v+ también es cero. Se deduce de La ley de Ohm que las corrientes a través de las resistencias R1 y R2 están dadas por v1 v2 =- , R1 R2 y por lo tanto la ganancia en lazo cerrado del amplificador es v2 R2 = -kcl , donde kcl = . (3.11) v1 R1 Se obtiene un modelo más preciso si se sigue despreciando la corriente i0 pero suponiendo que la tensión v es pequeña pero no despreciable. El equilibrio de la corriente es entonces v1 - v v - v2 = . (3.12) R1 R2 Asumiendo que el amplificador opera en el rango lineal y utilizando la ecuación (3.10), la ganancia del sistema de lazo cerrado se convierte en v2 R2 kR1 (3.13) kcl = - = v1 R1 R1 + R2 + kR1 Si la ganancia de lazo abierto k del amplificador operacional es grande, la ganancia de lazo cerrado kcl es la misma que en el modelo simple dado por la ecuación (3.11). Obsérvese que la ganancia de bucle cerrado depende sólo de los componentes pasivos y que las variaciones de k sólo tienen un efecto marginal en la ganancia de bucle cerrado. Por ejemplo, si k = 106 y R2 /R1 = 100, una variación de k en un 100% da sólo una variación del 0,01% en el cerrado ganancia del bucle. La drástica reducción de la sensibilidad es una buena ilustración de cómo la retroalimentación puede utilizarse para hacer sistemas precisos a partir de componentes inciertos. En este caso particular, la retroalimentación se utiliza para intercambiar alta ganancia y baja robustez por baja ganancia y alta robustez. La ecuación (3.13) fue la fórmula que inspiró a Black cuando inventó el amplificador de retroalimentación [Bla34] (véase la cita al principio del capítulo 12). 74 CAPÍTULO 3. EJEMPLOS R1 R2 v v1 i0 C + v2 Figura 3.10: Diagrama del circuito de un controlador PI obtenido por retroalimentación alrededor de un amplificador operacional. El condensador C se utiliza para almacenar carga y representa la integral de la entrada. Es instructivo desarrollar un diagrama de bloques para el amplificador de realimentación de la Fig. 3.9a. Para ello representaremos el amplificador puro con la entrada v y la salida v2 como un bloque. Para completar el diagrama de bloques, debemos describir cómo v depende de v1 y v2 . Resolviendo la ecuación (3.12) para v se obtiene R1 R1 R2 R2 v= v1 + v2 = v1 + v2 , R1 R1 + R1 + R1 + R R R 2 2 2 en la Figura 3.9b. El diagrama y obtenemos el diagrama de bloques mostrado muestra claramente que el sistema tiene retroalimentación y que la ganancia de v2 a v es R1 /(R1 + R2 ), lo que también puede leerse en el diagrama del circuito de la Figura 3.9a. Si el bucle es estable y la ganancia del amplificador es grande, se deduce - que el error e es pequeño, y encontramos que v2 = (R2 /R1 )v1 . Observe que la resistencia R1 aparece en dos bloques en el bloque diagrama. Esta situación es típica en los circuitos eléctricos, y es una de las razones por las que Los diagramas de bloques no siempre son adecuados para algunos tipos de modelado físico. El modelo simple del amplificador dado por la ecuación (3.10) proporciona una visión cualitativa, pero descuida el hecho de que el amplificador es un sistema dinámico. Un modelo más realista es dvout = -avout - bv. (3.14) dt El parámetro b que tiene dimensiones de frecuencia y se llama el producto de ganancia-ancho de banda del amplificador. El uso de un modelo más complicado depende de las preguntas a las que hay que responder y del tamaño requerido del limón de incertidumbre. El modelo (3.14) sigue sin ser válido para frecuencias muy altas o muy bajas, ya que la deriva provoca desviaciones a bajas frecuencias y hay dinámicas adicionales que aparecen a frecuencias cercanas a b. El modelo tampoco es válido para señales grandes -el límite superior viene dado por la tensión de la fuente de alimentación, normalmente en el rango de 5-10 V- ni para señales muy bajas debido al ruido eléctrico. Estos efectos pueden añadirse, si es necesario, pero aumentan la complejidad del análisis. El amplificador operacional es muy versátil, y se pueden construir muchos sistemas diferentes combinándolo con resistencias y condensadores. De hecho, cualquier sistema lineal puede implementarse combinando amplificadores operacionales con resistencias y condensadores. El ejercicio 3.5 muestra cómo se implementa un oscilador de segundo orden, y la figura 3.10 muestra el diagrama del circuito para un controlador analógico proporcional-integral. Para desarrollar un modelo simple para el circuito asumimos que la corriente i0 es cero y que la ganancia de lazo abierto k es tan grande que el voltaje de entrada v es despreciable. La corriente i 75 3.4. SISTEMAS INFORMÁTICOS Y REDES a través del condensador es i = Cdvc /dt, donde vc es la tensión a través del condensador. Como la misma corriente pasa por la resistencia R1 , obtenemos dvc v1 i= =C , R1 dt lo que implica que - t 1 vc(t ) = i (t dt = 1 ) . R1 v0 1( ) C La tensión de salida viene dada, por tanto, C por R2 - v 1t( ) - 1 t v v2tR ( )i = - v 2 - c = 0 R1C R1 que es la relación entrada/salida de un controlador PI. 1( ) , El desarrollo de los amplificadores operacionales fue promovido por Philbrick [Lun05, Phi48], y su uso se describe en muchos libros de texto (por ejemplo, [CD75]). También se puede obtener buena información de los proveedores [Jun02, Man02]. 3.4 Sistemas informáticos y redes La aplicación de la retroalimentación a los sistemas informáticos sigue los mismos principios que el control de los sistemas físicos, pero los tipos de mediciones y entradas de control que pueden utilizarse son algo diferentes. Las mediciones (sensores) suelen estar relacionadas con la utilización de recursos en el sistema informático o la red y pueden incluir cantidades como la carga del procesador, el uso de la memoria o el ancho de banda de la red. Las variables de control (actuadores) suelen implicar el establecimiento de límites en los recursos disponibles para un proceso. Esto puede hacerse controlando la cantidad de memoria, espacio en disco o tiempo que puede consumir un proceso, activando o desactivando el procesamiento, retrasando la disponibilidad de un recurso o rechazando las peticiones entrantes a un proceso del servidor. La modelización de los procesos de los sistemas informáticos en red también es un reto, y a menudo se utilizan modelos empíricos basados en mediciones cuando no se dispone de un modelo de primeros principios. Control del servidor web Los servidores web responden a las peticiones de Internet y proporcionan información en forma de páginas web. Los servidores web modernos inician múltiples procesos para responder a las peticiones, y cada proceso se asigna a una única fuente hasta que no se reciben más peticiones de esa fuente durante un periodo de tiempo predefinido. Los procesos que están inactivos pasan a formar parte de un pool que puede utilizarse para responder a nuevas peticiones. Para dar una respuesta rápida a las peticiones web, es importante que los procesos del servidor web no sobrecarguen la capacidad de cálculo del servidor ni agoten su memoria. Dado que otros procesos pueden estar ejecutándose en el servidor, la cantidad de potencia de procesamiento y memoria disponible es incierta, y la retroalimentación puede utilizarse para proporcionar un buen rendimiento en presencia de esta incertidumbre. 76 CAPÍTULO 3. EJEMPLOS Carga del procesador solicitude s entrante ssaliente datos MaxCliente s Oci oso cola de acepta ción Espe ra Ocup ado -1 Control ar KeepAlive Uso de la memoria Re f -1 Servidores de clientes Figura 3.11: Control de retroalimentación de un servidor web. Las solicitudes de conexión llegan a una cola de entrada, donde se envían a un proceso del servidor. Una máquina de estado finito mantiene un registro del estado de los procesos individuales del servidor y responde a las solicitudes. Un algoritmo de control puede modificar el funcionamiento del servidor mediante el control de los parámetros que afectan a su comportamiento, como el número máximo de solicitudes que pueden ser atendidas en un solo momento (MaxClients) o la cantidad de tiempo que una conexión puede permanecer inactiva antes de ser abandonada (KeepAlive). La figura 3.11 ilustra el uso de la retroalimentación para modular el funcionamiento de un servidor web Apache. El servidor web opera colocando las solicitudes de conexión entrantes en una cola y luego iniciando un subproceso para manejar las solicitudes de cada conexión aceptada. Este subproceso responde a las peticiones de una determinada conexión a medida que van llegando, alternando entre un estado de Ocupación y un estado de Espera. (Mantener el subproceso activo entre peticiones se conoce como persistencia de la conexión y proporciona una reducción sustancial de la latencia a las peticiones de múltiples piezas de información de un mismo sitio). Si no se reciben peticiones durante un periodo de tiempo suficientemente largo, controlado por el parámetro KeepAlive, la conexión se abandona y el subproceso entra en estado Idle, donde se le puede asignar otra conexión. Se atenderá un máximo de MaxClients de peticiones simultáneas, quedando el resto en la cola de peticiones entrantes. Los parámetros que controlan el servidor representan un equilibrio entre el rendimiento (la rapidez con la que las solicitudes reciben una respuesta) y el uso de recursos (la cantidad de potencia de procesamiento y memoria que utiliza el servidor). Aumentar el parámetro MaxClients permite que las solicitudes de conexión se retiren de la cola más rápidamente, pero aumenta la cantidad de potencia de procesamiento y el uso de memoria que se requiere. Aumentar el tiempo de espera de KeepAlive significa que las conexiones individuales pueden permanecer inactivas durante un período de tiempo más largo, lo que disminuye la carga de procesamiento en la máquina, pero aumenta el tamaño de la cola (y por lo tanto la cantidad de tiempo necesario para que un usuario inicie una conexión). El éxito de un servidor ocupado requiere una elección adecuada de estos parámetros, a menudo basada en la prueba y el error. Para modelar la dinámica de este sistema con más detalle, creamos un modelo en tiempo discreto con estados dados por la carga media del procesador xcpu y el porcentaje de uso de la memoria xmem . Las entradas al sistema se toman como el número máximo de clientes umc y el tiempo de mantenimiento de la conexión uka . Si asumimos un modelo lineal en torno al 3.4. SISTEMAS INFORMÁTICOS Y REDES 77 punto de equilibrio, la dinámica puede escribirse como xcpu [k + 1] A A12 xcpu [k] B B12uka [k] = 11 +1 , (3.15) ] ] ] xmem [k + 1 B21 B22 umc [k A21 A22xmem[k donde los coeficientes de las matrices A y B pueden determinarse en base a mediciones empíricas o a un modelado detallado del procesamiento y uso de memoria del servidor web. Utilizando la identificación del sistema, Diao et al. [DGH+02, HDPT04] identificaron la dinámica linealizada como 4 0.54 -0.11 -85 4. A= , B = × 10-4, 63 8 -0.0260. -2.5 2 . donde el sistema fue linealizado alrededor del punto de equilibrio xcpu = 0,58, uka = 11 s, xmem = 0,55, umc = 600. Este modelo muestra las características básicas descritas anteriormente. Observando en primer lugar la matriz B, vemos que el aumento del tiempo de espera KeepAlive (primera columna de la matriz B) disminuye tanto el uso del procesador como el de la memoria, ya que hay más persistencia en las conexiones y, por tanto, el servidor pasa más tiempo esperando a que se cierre una conexión en lugar de tomar una nueva conexión activa. La conexión MaxClients aumenta los requisitos de procesamiento y de memoria. Nótese que el mayor efecto sobre la carga del procesador es el tiempo de espera KeepAlive. La matriz A nos indica cómo evoluciona el uso del procesador y de la memoria en una región del espacio de estados cercana al punto de equilibrio. Los términos diagonales describen cómo los recursos individuales vuelven al equilibrio después de un aumento o disminución transitoria. Los términos no diagonales muestran que existe un acoplamiento entre los dos recursos, de modo que un cambio en uno de ellos puede provocar un cambio posterior en el otro. Aunque este modelo es muy sencillo, veremos en ejemplos posteriores que puede utilizarse para modificar los parámetros que controlan el servidor en tiempo real y proporcionar robustez respecto a las incertidumbres de la carga de la máquina. Se han utilizado mecanismos similares para otros tipos de servidores. Es importante volver a plantear los supuestos del modelo y su papel a la hora de determinar cuándo es válido el modelo. En particular, dado que hemos optado por utilizar cantidades medias a lo largo de un tiempo de muestreo determinado, el modelo no proporcionará una representación precisa de los fenómenos de alta frecuencia. Control de la congestión Internet se creó para obtener un sistema de comunicación amplio, altamente descentralizado, eficiente y ex- pandible. El sistema consta de un gran número de pasarelas interconectadas. Un mensaje se divide en varios paquetes que se transmiten por distintos caminos de la red, y los paquetes se vuelven a unir para recuperar el mensaje en el receptor. Cuando se recibe un paquete, se envía un mensaje de acuse de recibo ("ack") al remitente. El funcionamiento del sistema se rige por una estructura de control descentralizada, sencilla pero potente, que ha ido evolucionando con el tiempo. 78 CAPÍTULO 3. EJEMPLOS 1 Fuentes 0.8 Fu ent es Router Enla ce Router Enla Receptor ce ack Enla ce (a) Diagrama de bloques be 0.6 0.4 0.2 0 10−2 100 102 104 22N 2 1/( ) (escala logarítmica) (b) Punto de funcionamiento Figura 3.12: Control de la congestión en Internet. (a) Los ordenadores de origen envían información a los routers, que reenvían la información a otros routers que finalmente se conectan al ordenador receptor. Cuando se recibe un paquete, se envía un paquete de acuse de recibo a través de los routers (no se muestra). Los routers almacenan la información recibida de las fuentes y envían los datos a través del enlace de salida. (b) El tamaño de búfer de equilibrio para un conjunto de N ordenadores idénticos que envían paquetes a través de un único enrutador con una probabilidad de caída . El sistema cuenta con dos mecanismos de control denominados protocolos: el Protocolo de Control de Transmisión (TCP) para la comunicación de extremo a extremo de la red y el Protocolo de Internet (IP) para el encaminamiento de paquetes y para la comunicación de host a gateway o de gateway a gateway. Los protocolos actuales evolucionaron después de que se produjeran algunos colapsos de congestión espectaculares a mediados de los años 80, cuando el rendimiento podía caer inesperadamente por un factor de 1000 [Jac95]. El mecanismo de control en TCP se basa en conservar el número de paquetes en el bucle desde el emisor al receptor y de vuelta al emisor. La tasa de envío se incrementa exponencialmente cuando no hay congestión, y se reduce a un nivel bajo cuando hay congestión. Para derivar un modelo global de control de la congestión, modelamos tres elementos separados del sistema: la velocidad a la que los paquetes son enviados por las fuentes individuales (ordenadores), la dinámica de las colas en los enlaces (routers) y el mecanismo de control de admisión para las colas. La figura 3.12a es un diagrama de bloques del sistema. El mecanismo actual de control de fuentes en Internet es un protocolo conocido como TCP/Reno [LPD02]. Este protocolo funciona enviando paquetes a un receptor y esperando a recibir un acuse de recibo del receptor de que el paquete ha llegado. Si no se envía ningún acuse de recibo en un determinado periodo de tiempo, el paquete se vuelve a enviar. Para evitar esperar el acuse de recibo antes de enviar el siguiente paquete, Reno transmite múltiples paquetes hasta una ventana fija alrededor del último paquete que ha sido reconocido. Si la longitud de la ventana se elige correctamente, los paquetes al principio de la ventana serán reconocidos antes de que la fuente transmita los paquetes al final de la ventana, lo que permite al ordenador transmitir continuamente paquetes a una tasa elevada. Para determinar el tamaño de la ventana a utilizar, TCP/Reno utiliza un mecanismo de retroalimentación en el que (a grandes rasgos) el tamaño de la ventana se incrementa en 1 cada vez que se reconoce un paquete y el tamaño de la ventana se reduce a la mitad cuando se pierden paquetes. Este mecanismo permite un ajuste dinámico del tamaño de la ventana en el que cada 79 3.4. SISTEMAS INFORMÁTICOS Y REDES El ordenador actúa de forma codiciosa mientras se entregan paquetes, pero retrocede rápidamente cuando se produce una congestión. Se puede desarrollar un modelo para el comportamiento de la fuente describiendo la dinámica del tamaño de la ventana. Supongamos que tenemos N ordenadores y dejemos que wi sea el tamaño de ventana actual (medido en número de paquetes) para el i-ésimo ordenador. Dejemos que qi represente la probabilidad de extremo a extremo de que un paquete se pierda en algún punto entre el origen y el receptor. Podemos modelar la dinámica del tamaño de la ventana mediante la ecuación diferencial dwi wi wi ri(t −) = (1 - qi ) + qi (- ri (t −i )), ri = , (3.16) dt wi 2 i dondei es el tiempo de transmisión de extremo a extremo para que un paquete llegue a su destino y el acuse de recibo se envíe de vuelta y ri es la tasa resultante a la que se borran los paquetes de la lista de paquetes que se han recibido. El primer término de la dinámica representa el aumento del tamaño de la ventana cuando se recibe un paquete, y el segundo término representa la disminución del tamaño de la ventana cuando se pierde - un paquete. Observe que ri se evalúa en el momento ti , que representa el tiempo necesario para recibir acuses de recibo adicionales. La dinámica de los enlaces está controlada por la dinámica de la cola del router y el mecanismo de control de admisión de la cola. Supongamos que tenemos L enlaces en la red y utilizamos l para indexar los enlaces individuales. Modelamos la cola en términos del número actual de paquetes en el buffer del router bl y suponemos que el router puede contener un máximo de bl,max paquetes y transmite paquetes a una velocidad cl , igual a la capacidad del enlace. La dinámica del buffer puede escribirse entonces como dbl ri (t − f li), (3.17) = sl - cl , sl = dt {i: l∈Li} donde Li es el conjunto de enlaces que utiliza la fuente i,f es el tiempo que tarda li un paquete de la fuente i en llegar al enlace l y sl es la velocidad total a la que llegan los paquetes al enlace l. El mecanismo de control de admisión determina si un paquete dado es aceptado por un router. Dado que nuestro modelo se basa en las cantidades medias en la red y no en los paquetes individuales, un modelo sencillo es suponer que la probabilidad de que un paquete sea descartado depende de lo lleno que esté el búfer: pl = ml (bl , bmax ). Para simplificar, supondremos por ahora que pl =l bl (véase el ejercicio 3.6 para una mayor modelo detallado). La probabilidad de que un paquete se pierda en un enlace determinado puede ser utilizado para determinar la probabilidad de extremo a extremo de que un paquete se pierda en la transmisión: qi = 1 - (1 - pl ) l∈Li pl (t −b ), li (3.18) l∈Li donde bli es el retardo hacia atrás desde el enlace l hasta la fuente i y la aproximación es válida siempre que las probabilidades de caída individuales sean pequeñas. Utilizamos el retardo hacia atrás porque representa el tiempo necesario para que la fuente reciba el paquete de acuse de recibo. 80 CAPÍTULO 3. EJEMPLOS En conjunto, las ecuaciones (3.16), (3.17) y (3.18) representan un modelo de dinámica de control de la congestión. Podemos obtener una visión sustancial si consideramos un caso especial en el que tenemos N fuentes idénticas y 1 enlace. Además, suponemos por el momento que los retrasos hacia delante y hacia atrás pueden ignorarse, en cuyo caso la dinámica puede reducirse a la forma 2 b dwi = 1 - c(2 + w i) , db wNi , (3.19) c, = = dt 2 dt c i=1 ∈ i = 1, . . . , N, son los tamaños de las ventanas de las fuentes de∈datos, b R donde wi R, es el tamaño actual del búfer del router, controla la velocidad a la que los paquetes son y c es la capacidad del enlace que conecta el router con los ordenadores. La variable representa el tiempo necesario para que un paquete sea procesado por el router, en función del tamaño del buffer y de la capacidad del enlace. Sustituyendo en las ecuaciones, escribimos la dinámica del espacio de estados como ( N cwi db w2i dwi c 1 + , = - c. (3.20) = − b dt b 2 dt i=1 Se pueden encontrar modelos más sofisticados en [HMTG00, LPD02]. El punto de funcionamiento nominal del sistema se puede encontrar estableciendo w˙i = b˙ = 0: c 0 = − b ( 1+ w2i , 2 0= N i=1 cwi - c. b Aprovechando el hecho de que todas las dinámicas de las fuentes son idénticas, se deduce que todas las wi deben ser iguales, y se puede demostrar que existe un único equilibrio que satisface las ecuaciones w ,ie = be N = ce , N 1 22N2 (be )3 + (be ) - 1 = 0. (3.21) La solución de la segunda ecuación es un poco complicada, pero puede determinarse fácilmente de forma numérica. En la f i g u r a 3.12b se muestra un gráfico de su solución en función de 1/(22N2 ). También observamos que en el equilibrio tenemos la siguiente igualdad adicional idades: Nwe be we = , qe = Np e = e , re = . (3.22) e = c c e La figura 3.13 muestra una simulación de 60 fuentes que se comunican a través de un único enlace, con 20 fuentes que abandonan a t = 500 ms y el resto de fuentes que aumentan su velocidad (tamaño de las ventanas) para compensar. Obsérvese que el tamaño del búfer y de las ventanas se ajusta automáticamente a la capacidad del enlace. El libro de texto de Tannenbaum [Tan96] ofrece un tratamiento completo de las redes de ordenadores. Uno de los diseñadores de Internet, Van Jacobson, ofrece una buena presentación de las ideas en las que se basan los principios de control de Internet en [Jac95]. F. Kelly [Kel85] presenta un primer esfuerzo de análisis del sistema. El libro 81 3.5. MICROSCOPÍA DE FUERZA ATÓMICA Fu ent es Router Enlace Receptor . ack 20 Est ado s w 15 [pkt s/m s], 10 b [pkt s] 5 b i w -w 1 60 Enla ce 0 0 200 w -w 1 40 400 600 800 Tiempo t [ms] 1000 Figura 3.13: Control de la congestión en Internet para N fuentes idénticas a través de un único enlace. Como se muestra a la izquierda, varias fuentes intentan comunicarse a través de un router a través de un único enlace. Un paquete "ack" enviado por el receptor reconoce que el mensaje se ha recibido; de lo contrario, el paquete de mensajes se reenvía y la velocidad de envío se reduce en la fuente. La simulación de la derecha es para 60 fuentes que comienzan con tasas aleatorias, con 20 fuentes que abandonan a t = 500 ms. El tamaño del buffer se muestra en la parte superior, y las tasas individuales de 6 de las fuentes se muestran en la parte inferior. de Hellerstein et al. [HDPT04] da muchos ejemplos del uso de la retroalimentación en los sistemas informáticos. 3.5 Microscopía de fuerza atómica El Premio Nobel de Física de 1986 fue compartido por Gerd Binnig y Heinrich Rohrer por su diseño del microscopio de barrido en túnel. La idea de este instrumento es acercar una punta atómicamente afilada a una superficie conductora para que se produzca un efecto túnel. Se obtiene una imagen atravesando la punta por la muestra y midiendo la corriente de túnel en función de la posición de la punta. Esta invención ha estimulado el desarrollo de una familia de instrumentos que permiten la visualización de la estructura de la superficie a escala nanométrica, incluido el microscopio de fuerza atómica (AFM), en el que una muestra es sondeada por una punta en voladizo. Un AFM puede funcionar en dos modos. En el modo de golpeo, el cantiléver vibra y la amplitud de la vibración se controla mediante retroalimentación. En el modo de contacto, el cantiléver está en contacto con la muestra y su flexión se controla por retroalimentación. En ambos casos, el control se realiza mediante un elemento piezoeléctrico que controla la posición vertical de la base del voladizo (o de la muestra). El sistema de control influye directamente en la calidad de la imagen y la velocidad de exploración. En la figura 3.14a se muestra un esquema de un microscopio de fuerza atómica. Un microcantiléver con una punta que tiene un radio del orden de 10 nm se coloca cerca de la muestra. La punta puede moverse vertical y horizontalmente mediante un escáner piezoeléctrico. Se sujeta a la superficie de la muestra mediante fuerzas atractivas de Van der Waals y fuerzas repulsivas de Pauli. La inclinación del cantiléver depende de la topografía de la superficie y de la posición de la base del cantiléver, que se controla mediante el elemento piezoeléctrico. 82 CAPÍTULO 3. EJEMPLOS Fotod iodo Láser Voladizo Muestr Accio a Generad nami or de x,y ento barrido z piezo Controlad eléctr Amplificador or ico Amplifica dor Referencia de desviación (a) Diagrama esquemático (b) Imagen de AFM del ADN Figura 3.14: Microscopio de fuerza atómica. (a) Diagrama esquemático de un microscopio de fuerza atómica, que consiste en un accionamiento piezoeléctrico que escanea la muestra bajo la punta del AFM. Un láser se refleja en el voladizo y se utiliza para medir la detección de la punta a través de un controlador de retroalimentación. (b) Una imagen de AFM de hebras de ADN. (Imagen por cortesía de Veeco Instruments). La inclinación se mide detectando la desviación del rayo láser mediante un fotodiodo. La señal del fotodiodo se amplifica y se envía a un controlador que acciona el amplificador para la posición vertical del voladizo. Al controlar el elemento piezoeléctrico para que la desviación del voladizo sea constante, la señal que impulsa la desviación vertical del elemento piezoeléctrico es una medida de las fuerzas atómicas entre la punta del voladizo y los átomos de la muestra. Se obtiene una imagen de la superficie mediante el barrido del voladizo a lo largo de la muestra. La resolución permite ver la estructura de la muestra a escala atómica, como se ilustra en la Figura 3.14b, que muestra una imagen de AFM del ADN. El movimiento horizontal de un AFM se modela típicamente como un sistema de muelle-masa con baja amortiguación. El movimiento vertical es más complicado. Para modelar el sistema, comenzamos con el diagrama de bloques mostrado en la Figura 3.15. Las señales fácilmente accesibles son la tensión de entrada u al amplificador de potencia que acciona el elemento piezoeléctrico, la tensión v aplicada al elemento piezoeléctrico y la tensión de salida y del amplificador de señal para el fotodiodo. El controlador es un controlador PI implementado por un ordenador, que está conectado al sistema mediante convertidores analógico-digital (A/D) y digital-analógico (D/A). La desviación del voladizo también se muestra en la figura. El valor de referencia deseado para la desviación es una entrada para el ordenador. Hay varias configuraciones diferentes que tienen distintas dinámicas. Aquí discutiremos un sistema de alto rendimiento de [ SÅD+07] donde la base del cantiléver se posiciona verticalmente usando una pila piezoeléctrica. Comenzamos el modelado con un simple experimento sobre el sistema. La figura 3.16a muestra una respuesta escalonada de un escáner desde la tensión de entrada u al amplificador de potencia hasta la tensión de salida y del amplificador de señal para el fotodiodo. Este experimento captura la dinámica de la cadena de bloques desde u hasta y en el diagrama de bloques de la Figura 3.15. La figura 3.16a muestra que el sistema responde rápidamente, pero existe un modo oscilatorio poco amortiguado con un periodo de unas 35 µs. Una de las principales tareas de la modelización es comprender el origen del comportamiento oscilatorio. Para ello, exploraremos el sistema en más 83 3.5. MICROSCOPÍA DE FUERZA ATÓMICA Muestra de topografía Eleme nto piezoel éctrico z Voladizo Láser y fotodiodo Referencia de desviación u D Amplifi A y Amplifi Ordenador cador de A D cador de potencia señal Figura 3.15: Diagrama de bloques del sistema de posicionamiento vertical del cantiléver para un microscopio de fuerza atómica en modo de contacto. El sistema de control intenta mantener la deflexión del cantilever igual a su valor de referencia. La desviación del cantiléver se mide, se amplifica y se convierte en una señal digital, y luego se compara con su valor de referencia. El ordenador genera una señal correctora, que se convierte en analógica, se amplifica y se envía al elemento piezoeléctrico. v detalle. La frecuencia natural del voladizo sujetado suele ser de varios cientos de kilohercios, que es mucho más alta que la oscilación observada de unos 30 kHz. Como primera aproximación, lo modelaremos como un sistema estático. Dado que las deflexiones son pequeñas, podemos suponer que la flexión del voladizo es proporcional a la diferencia de altura entre la punta del voladizo en la sonda y el escáner piezoeléctrico. Se puede obtener un modelo más preciso modelando el cantiléver como un sistema muelle-masa del tipo discutido en el capítulo 2. La figura 3.16a también muestra que la respuesta del amplificador de potencia es rápida. El fotodiodo y el amplificador de señal también tienen respuestas rápidas y, por lo tanto, pueden modificarse como sistemas estáticos. El bloque restante es un sistema piezoeléctrico con suspensión. En la figura 3.16b se muestra una representación mecánica esquemática del movimiento vertical del escáner. Modelaremos el sistema como dos masas separadas por un elemento piezoeléctrico ideal. La masa m1 es la mitad del sistema piezoeléctrico, y la masa m2 es la otra mitad del sistema piezoeléctrico más la masa del soporte. Se obtiene un modelo sencillo suponiendo que el cristal piezoeléctrico genera una fuerza F entre las masas y que existe un amortiguamiento c en el muelle. Sean las posiciones del centro de las masas z1 y z2 . Un balance de momentos da el siguiente modelo para el sistema: d2 z1 d2 z2 dz2 m = F, m2 = -c2 - k2 z2 - F. 1 dt2 dt2 dt Sea la elongación del elemento piezoeléctrico l = - z1 z2 la variable de control y la altura z1 de la base del voladizo la salida. Eliminando la variable F en las ecuaciones anteriores y sustituyendo z1 - l por z2 se obtiene el modelo d2 z1 dz1 d2 l dl (m1 + m2 ) + c2 + k2 z1 = m2 + c2 + k2 l. (3.23) dt2 dt dt2 dt Resumiendo, encontramos que un modelo simple del sistema se obtiene por mod- 84 CAPÍTULO 3. EJEMPLOS m1 u Vp Cristal piezoeléctrico y m2 z1 (a) Respuesta al paso z2 (b) Modelo mecánico Figura 3.16: Modelado de un microscopio de fuerza atómica. (a) Una respuesta escalonada medida. La curva superior muestra la tensión u aplicada al amplificador de accionamiento (50 mV/div), la curva del medio es la salida Vp del amplificador de potencia (500 mV/div) y la curva inferior es la salida y del amplificador de señal (500 mV/div). La escala de tiempo es de 25 s/div. Los datos han sido suministrados por Georg Schitter. (b) Un modelo mecánico simple para el posicionador vertical y el cristal piezoeléctrico. elando el piezo por (3.23) y todos los demás bloques por modelos estáticos. Introduciendo las ecuaciones lineales l = k3 u e y = k4 z1 , tenemos ahora un modelo completo que relaciona la salida y con la señal de control u. Se puede obtener un modelo más preciso introduciendo la dinámica del voladizo y del amplificador de potencia. Como en los ejemplos anteriores, el concepto de limón de incertidumbre de la figura 2.15b proporciona un marco para describir la incertidumbre: el modelo será preciso hasta las frecuencias de los modos más rápidos modelados y en un rango de movimiento en el que se pueden utilizar modelos de rigidez linealizados. Los resultados experimentales de la figura 3.16a pueden explicarse cualitativamente de la siguiente manera. Cuando se aplica un voltaje al piezo, éste se expande en l0 , la masa m1 se mueve hacia arriba y la masa m2 se mueve hacia abajo instantáneamente. El sistema se asienta tras una oscilación poco amortiguada. Es muy deseable diseñar un sistema de control para el movimiento vertical de manera que responda rápidamente con poca oscilación. El diseñador del instrumento tiene varias opciones: aceptar la oscilación y tener un tiempo de respuesta lento, diseñar un sistema de control que pueda amortiguar las oscilaciones o rediseñar la mecánica para dar resonancias de mayor frecuencia. Las dos últimas alternativas proporcionan una respuesta más rápida y una imagen más rápida. Dado que el comportamiento dinámico del sistema cambia con las propiedades de la muestra, es necesario ajustar el bucle de retroalimentación. En los sistemas sencillos, esto se hace manualmente ajustando los parámetros de un controlador PI. Existen interesantes posibilidades para facilitar el uso de los sistemas de AFM mediante la introducción de la sintonización y la adaptación automáticas. El libro de Sarid [Sar91] ofrece una amplia cobertura de los microscopios de fuerza atómica. La interacción de los átomos cerca de las superficies es fundamental para la física del estado sólido, véase Kittel [Kit95]. El modelo discutido en esta sección se basa en Schitter [Sch01]. 85 3.6. ADMINISTRACIÓN DE MEDICAMENTOS Circulación sanguínea Límites de los tejidos k1 Dosis N0 k4 k2 k3 Química k5 inactivación "fijación" etc. Subcutis , etc. Figura 3.17: Abstracción utilizada para compartimentar el cuerpo con el fin de describir la distribución de fármacos (basada en Teorell [Teo37]). El cuerpo se abstrae mediante un número de compartimentos con una mezcla perfecta, y los complejos procesos de transporte se aproximan asumiendo que el flujo es proporcional a las diferencias de concentración en los compartimentos. Las constantes ki parametrizan las tasas de flujo entre los diferentes compartimentos. 3.6 Medicamento Administración La frase "Tómese dos pastillas tres veces al día" es una recomendación con la que todos estamos familiarizados. Detrás de esta recomendación está la solución de un problema de control de bucle abierto. La cuestión clave es asegurarse de que la concentración de un medicamento en una parte del cuerpo es lo suficientemente alta como para ser eficaz, pero no tan alta como para causar efectos secundarios indeseables. La acción de control está cuantificada, tomar dos pastillas, y muestreada, cada 8 horas. Las prescripciones se basan en modelos sencillos plasmados en tablas empíricas, y la dosis se basa en la edad y el peso del paciente. La administración de fármacos es un problema de control. Para resolverlo, debemos entender cómo se propaga un fármaco en el cuerpo después de su administración. Este tema, llamado farmacocinética, es ahora una disciplina propia, y los modelos utilizados se llaman modelos de compartimentos. Se remontan a la década de 1920, cuando Widmark modeló la propagación del alcohol en el cuerpo [WT24]. En la actualidad, los modelos compartimentados son importantes para el cribado de todos los fármacos utilizados por los seres humanos. El diagrama esquemático de la Figura 3.17 ilustra la idea de un modelo de compartimentos. El cuerpo se ve como un número de compartimentos como el plasma sanguíneo, el riñón, el hígado y los tejidos que están separados por membranas. Se supone que existe una mezcla perfecta, de modo que la concentración del fármaco es constante en cada compartimento. Los complejos procesos de transporte se aproximan suponiendo que los flujos entre los compartimentos son proporcionales a las diferencias de concentración en los mismos. Para describir el efecto de un fármaco es necesario conocer tanto su concentración como su influencia en el organismo. La relación entre la concentración c y su efecto e suele ser no lineal. Un modelo sencillo es e =c c0 + c emax . (3.24) El efecto es lineal para concentraciones bajas, y se satura a concentraciones altas. 86 CAPÍTULO 3. EJEMPLOS La relación también puede ser dinámica, y se denomina entonces farmacodinámica. 87 3.6. ADMINISTRACIÓN DE MEDICAMENTOS Modelos de compartimentos El modelo dinámico más sencillo para la administración de fármacos se obtiene suponiendo que el fármaco se distribuye uniformemente en un único compartimento tras su administración y que el fármaco se elimina a una velocidad proporcional a la concentración. Los compartimentos se comportan como tanques agitados con una mezcla perfecta. Sea c la concentración, V el volumen y q la velocidad de salida. Convirtiendo la descripción del sistema en ecuaciones diferenciales se obtiene el modelo V dc dt = - qc, c ≥ 0. (3.25) Esta ecuación tiene la solución c(t) = c0 e−qt/V = c0 e−kt , que muestra que la concentración decae exponencialmente con la constante de tiempo T = V /q después de una inyección. La entrada se introduce implícitamente como condición inicial en el modelo (3.25). Más En general, la forma en que la entrada entra en el modelo depende de cómo se administra el fármaco. Por ejemplo, la entrada puede representarse como un flujo de masa en el compartimento donde se inyecta el fármaco. Una píldora disuelta también puede interpretarse como una entrada en términos de flujo de masa. El modelo (3.25) se denomina modelo de un compartimento o de un solo depósito. El parámetro q/V se denomina constante de velocidad de eliminación. Este modelo simple se utiliza a menudo para modelar la concentración en el plasma sanguíneo. Midiendo la concentración en algunos momentos, se puede obtener la concentración inicial por extrapolación. Si se conoce la cantidad total de la sustancia inyectada, el volumen V se puede determinar como V = m/c0 ; este volumen se denomina volumen aparente de distribución. Este volumen es mayor que el volumen real si la concentración en el plasma es menor que en otras partes del cuerpo. El modelo (3.25) es muy simple, y hay son grandes variaciones individuales de los parámetros. Los parámetros V y q suelen normalizarse dividiéndolos por el peso de la persona. Los parámetros típicos para la aspirina son V = 0,2 L/kg y q = 0,01 (L/h)/kg. Estas cifras pueden compararse con un volumen sanguíneo de 0,07 L/kg, un volumen plasmático de 0,05 L/kg, un volumen de líquido intracelular de 0,4 L/kg y un flujo de salida de 0,0015 L/ min/kg. El modelo simple de un compartimento capta el comportamiento bruto de la distribución del fármaco, pero se basa en muchas simplificaciones. Se pueden obtener modelos mejorados si se considera que el cuerpo está compuesto por varios compartimentos. En la Figura 3.18 se muestran ejemplos de estos sistemas, en los que los compartimentos se representan como círculos y los flujos como flechas. La modelización se ilustrará con el modelo de dos compartimentos de la figura 3.18a. Suponemos que hay una mezcla perfecta en cada compartimento y que el transporte entre los compartimentos está impulsado por las diferencias de concentración. Además, suponemos que un fármaco con una concentración c0 se inyecta en el compartimento 1 con un flujo volumétrico de u y que la concentración en el compartimento 2 es la salida. Sea c1 y c2 las concentraciones del fármaco en los compartimentos y sea V1 y V2 las 88 CAPÍTULO 3. EJEMPLOS u V 3 k1 V1 k0 k3 k03 b0 V2 k2 u1 b1 V1 1 k1 k06 V 6 k2 1 k1 2 k5 4 3 V4 k6 4 k02 V2 k05 V5 k4 5 b4 u4 k4 6 (a) Modelo de dos compartimentos (b) Modelo de la hormona tiroidea Figura 3.18: Diagramas esquemáticos de modelos de compartimentos. (a) Un modelo simple de dos compartimentos. Cada compartimento está etiquetado por su volumen, y las flechas indican el flujo de sustancias químicas hacia, desde y entre los compartimentos. (b) Un sistema con seis compartimentos utilizado para estudiar el metabolismo de la hormona tiroidea [God83]. La notación ki j denota el transporte del compartimento j al compartimento i. volúmenes de los compartimentos. Los balances de masa de los compartimentos son dc1 = q(c2 - c1 ) - q0 c1 + c0 u, dt dc2 V2 = q(c1 - c2 ), c2 ≥ 0, dt y = c2 . V1 c1 ≥ 0, (3.26) Introduciendo las variables k0 = q0 /V1 , k1 = q/V1 , k2 = q/V2 y b0 = c0 /V1 y utilizando la notación matricial, el modelo puede escribirse como dc dt = -k0- k1 k2 k1 b0 c + u, 0 -k 2 1 y = 0 c. (3.27) Comparando este modelo con su representación gráfica en la figura 3.18a, encontramos que la representación matemática (3.27) se puede escribir por inspección. También hay que destacar que los modelos simples de compartimentos, como el de la ecuación (3.27), tienen un rango de validez limitado. Los límites de baja frecuencia existen porque el cuerpo humano cambia con el tiempo, y como el modelo de compartimentos utiliza concentraciones promedio, no representarán con precisión los cambios rápidos. También hay efectos no lineales que influyen en el transporte entre los compartimentos. Los modelos de compartimentos se utilizan ampliamente en medicina, ingeniería y ciencias ambientales. Una propiedad interesante de estos sistemas es que variables como la concentración y la masa son siempre positivas. Una 3.6. ADMINISTRACIÓN DE MEDICAMENTOS 89 dificultad esencial en la modelización de compartimentos es decidir cómo dividir un sistema complejo en compartimentos. Los modelos de compartimentos también pueden ser no lineales, como se ilustra en la siguiente sección. 90 CAPÍTULO 3. EJEMPLOS Glucosa Estómag o Páncreas Hígado Intestino grueso Intestino delgado Insulin a Páncreas Tejido Estómag o Glucosa en sangre Híga do Tejido 400 Gl uc os 200 a [m g/d 0 l] 0 (b) Diagrama esquemático 100 150 Ins uli 100 na U/ 50 ml] 0 0 (a) Órganos corporales relevantes 50 50 100 Tiempo t [min] 150 (c) Inyección intravenosa Figura 3.19: Dinámica insulina-glucosa. (a) Esquema de las partes del cuerpo que intervienen en el control de la glucosa. (b) Diagrama esquemático del sistema. (c) Respuestas de la insulina y la glucosa cuando se inyecta glucosa por vía intravenosa. De [PB86]. Dinámica de la insulina-glucosa Es esencial que la concentración de glucosa en sangre se mantenga dentro de un rango estrecho (0,7-1,1 g/L). La concentración de glucosa está influida por muchos factores, como la ingesta de alimentos, la digestión y el ejercicio. En las figuras 3.19a y b se muestra un esquema de las partes relevantes del cuerpo. Existe un sofisticado mecanismo que regula la concentración de glucosa. La concentración de glucosa se mantiene gracias al páncreas, que segrega las hormonas insulina y glucagón. El glucagón se libera en el torrente sanguíneo cuando el nivel de glucosa es bajo. Actúa sobre las células del hígado que liberan glucosa. La insulina se segrega cuando el nivel de glucosa es alto, y el nivel de glucosa se reduce haciendo que el hígado y otras células tomen más glucosa. En enfermedades como la diabetes juvenil, el páncreas es incapaz de producir insulina y el paciente debe inyectarse insulina en el cuerpo para mantener un nivel adecuado de glucosa. Los mecanismos que regulan la glucosa y la insulina son complicados; se han observado dinámicas con escalas de tiempo que van de segundos a horas. Se han desarrollado modelos de diferente complejidad. Los modelos suelen probarse con datos procedentes de experimentos en los que se inyecta glucosa por vía intravenosa y se miden las concentraciones de insulina y glucosa a intervalos de tiempo regulares. Bergman y sus colaboradores desarrollaron un modelo relativamente sencillo denominado modelo mínimo [Ber89]. Este modelo utiliza dos compartimentos, uno que representa la concentración de glucosa en el torrente sanguíneo y el otro que representa la concentración de insulina en el líquido intersticial. La insulina en el torrente sanguíneo se considera una entrada. La reacción de la glucosa a la insulina puede modelarse mediante las ecuaciones dx1 = -(p1 + x2 )x1 + p1 dt ge , dx2 dt = -p2 x2 + p3 (u - ie ), (3.28) 3.7. DINÁMICA DE LA POBLACIÓN 89 donde ge e ie representan los valores de equilibrio de la glucosa y la insulina, x1 es la concentración de glucosa y x2 es proporcional a la concentración de insulina intersticial. Nótese la presencia del término x2 x1 en la primera ecuación. Observe también que el modelo no capta el bucle de retroalimentación completo porque no describe cómo reacciona el páncreas a la glucosa. La figura 3.19c muestra un ajuste del modelo a una prueba en una persona normal en la que se inyectó glucosa por vía intravenosa en el momento t = 0. La concentración de glucosa aumenta rápidamente y el páncreas responde con una rápida inyección de insulina en forma de espiga. A continuación, los niveles de glucosa e insulina se aproximan gradualmente a los valores de equilibrio. Se han desarrollado modelos del tipo de la ecuación (3.28) y modelos más complicados que tienen muchos compartimentos y que se ajustan a los datos experimentales. Una de las dificultades de la modelización es que existen variaciones significativas en los parámetros del modelo a lo largo del tiempo y para diferentes pacientes. Por ejemplo, se ha informado de que el parámetro p1 de la ecuación (3.28) varía con un orden de magnitud para los individuos sanos. Los modelos se han utilizado para el diagnóstico y para desarrollar esquemas para el tratamiento de personas con enfermedades. Los intentos de desarrollar un páncreas artificial totalmente automático se han visto obstaculizados por la falta de sensores fiables. Los trabajos de Widmark y Tandberg [WT24] y Teorell [Teo37] son clásicos de la farmacocinética, que ahora es una disciplina establecida con muchos libros de texto [Dos68, Jac72, GP82]. Debido a su importancia médica, la farmacocinética es ahora un componente esencial del desarrollo de fármacos. El libro de Riggs [Rig63] es una buena fuente para el modelado de sistemas fisiológicos, y en [KS01] se ofrece un tratamiento más matemático. Los modelos de compartimentos se discuten en [God83]. El problema de la determinación de los coeficientes de tasa a partir de datos experimentales se discute en [ BÅ70] y [God83]. Hay muchas publicaciones sobre el modelo insulina-glucosa. El modelo mínimo se discute en [CT84, Ber89] y las referencias más recientes son [MLK06, FCF+06]. 3.7 Población Dinámica El crecimiento de la población es un proceso dinámico complejo que implica la interacción de una o varias especies con su entorno y el ecosistema en general. La dinámica de los grupos de población es interesante e importante en muchos ámbitos de la política social y medioambiental. Hay ejemplos en los que se han introducido nuevas especies en nuevos hábitats, a veces con resultados desastrosos. También ha habido intentos de controlar el crecimiento de la población, tanto mediante incentivos como mediante la legislación. En esta sección describimos algunos de los modelos que pueden utilizarse para entender cómo evolucionan las poblaciones con el tiempo y en función de su entorno. Modelo de crecimiento logístico Sea x la población de una especie en el momento t. Un modelo sencillo consiste en suponer que las tasas de natalidad y mortalidad son proporcionales a la población total. Esto da como resultado 90 CAPÍTULO 3. EJEMPLOS el modelo lineal dx = bx - dx = (b - d)x = rx, x ≥ 0, (3.29) dt donde la tasa de natalidad b y la tasa de mortalidad d son parámetros. El modelo da un aumento ex- ponencial si b > d o una disminución exponencial si b < d. Un modelo más realista es suponer que la tasa de natalidad disminuye cuando la población es grande. La siguiente modificación del modelo (3.29) tiene esta propiedad: dx x = rx(1 - ), x ≥ 0, (3.30) dt k donde k es la capacidad de carga del entorno. El modelo (3.30) se denomina modelo de crecimiento logístico. Modelos de depredador-presa Un modelo más sofisticado de la dinámica de poblaciones incluye los efectos de las poblaciones mixtas, en las que una especie puede alimentarse de otra. Esta situación, denominada problema depredador-presa, se introdujo en el ejemplo 2.3, en el que desarrollamos un modelo en tiempo discreto que recogía algunas de las características de los registros históricos de las poblaciones de linces y liebres. En este apartado, sustituimos el modelo de ecuaciones de diferencia utilizado allí por un modelo de ecuaciones diferenciales más sofisticado. Dejemos que H(t) represente el número de liebres (presa) y que L(t) represente el número de linces (depredador). La dinámica del sistema se modela como ( dH H aHL = rH 1 - , H ≥ 0, dt k c+ (3.31) dL aHL H = bc - dL, L ≥ 0. dt +H En la primera ecuación, r representa la tasa de crecimiento de las liebres, k representa la población máxima de las liebres (en ausencia de linces), a representa el término de in- teracción que describe cómo disminuyen las liebres en función de la población de linces y c controla la tasa de consumo de presas para una población baja de liebres. En la segunda ecuación, b representa el coeficiente de crecimiento de los linces y d representa la tasa de mortalidad de los linces. Nótese que la dinámica de la liebre incluye un término que se asemeja al modelo de crecimiento logístico (3.30). Son especialmente interesantes los valores en los que los valores de la población permanecen constantes, llamados puntos de equilibrio. Los puntos de equilibrio de este sistema se pueden determinar poniendo a cero el lado derecho de las ecuaciones anteriores. Dejando que He y Le representen el estado de equilibrio, a partir de la segunda ecuación tenemos cd Le = 0 o H∗ = . (3.32) e ab - d Sustituyendo esto en la primera ecuación, tenemos que para Le = 0 o bien He = 0 o bien 91 EJERCICIO S 100 100 Liebr e Linc e 80 Po 60 bla ció 40 n 80 Li nc es 40 20 20 0 0 60 10 20 30 40 50 Tiempo t [años] 60 70 0 0 50 Liebres 100 Figura 3.20: Simulación del sistema depredador-presa. La figura de la izquierda muestra una simulación de las dos poblaciones en función del tiempo. La figura de la derecha muestra las poblaciones enfrentadas, partiendo de diferentes valores de la población. La oscilación que se observa en ambas figuras es un ejemplo de ciclo límite. Los valores de los parámetros utilizados para las simulaciones son a = 3,2, b = 0,6, c = 50, d = 0,56, k = 125 y r = 1,6. He = k. Para Le /= 0, obtenemos L∗e = rHe (c + He ) He bcr(abk - cd - dk) 1= . aHe k (ab - d)2k (3.33) Así, tenemos tres posibles puntos de equilibrio xe = (Le , He ): xe=0, 0 xe = k, 0 ∗,e xe = H Le∗ donde He∗ y Le∗ se dan en las ecuaciones (3.32) y (3.33). Nótese que las poblaciones de equilibrio pueden ser negativas para algunos valores de los parámetros, lo que corresponde a un punto de equilibrio no alcanzable. La figura 3.20 muestra una simulación de la dinámica a partir de un conjunto de valores de población cercanos a los valores de equilibrio no nulos. Vemos que para esta elección de parámetros, la simulación predice un recuento de población oscilante para cada especie, que recuerda a los datos mostrados en la Figura 2.6. El volumen I del conjunto de dos volúmenes de J. D. Murray [Mur04] ofrece una amplia cobertura de la dinámica de poblaciones. Ejercicios 3.1 (Control de crucero) Considera el ejemplo de control de crucero descrito en el apartado 3.1. Construya una simulación que recree la respuesta a una colina mostrada en la figura 3.3b y muestre los efectos de aumentar y disminuir la masa del coche en un 25%. Rediseñe el controlador (usando ensayo y error está bien) para que vuelva a estar dentro del 1% de la velocidad deseada dentro de los 3 s de encontrar el comienzo de la colina. 92 CAPÍTULO 3. EJEMPLOS 3.2 (Dinámica de la bicicleta) Demuestre que la dinámica de un cuadro de bicicleta dada por la ecuación (3.5) puede aproximarse en forma de espacio de estados como d x1= 0 1x1 + Dv0 /(bJ) mv2u,h/(bJ) 0 0x dt x2 mgh/J 2 y = 1 0 x, donde la entrada u es el ángulo de dirección y la salida y es el ángulo de inclinación . ¿Qué representan los estados x1 y x2 ? 3.3 (Dirección de la bicicleta) Combine el modelo de la bicicleta dado por la ecuación (3.5) y el modelo de la cinemática de la dirección del ejemplo 2.8 para obtener un modelo que describa la trayectoria del centro de masa de la bicicleta. 3.4 (Circuito de amplificador operacional) Considere el circuito de amplificador operacional que se muestra a continuación. v2 R1 Rb Ra - v1 R2 vo + C C 2 1 v3 Demuestre que la dinámica puede escribirse en 1 forma de espacio de estados como 1 1 0 dx -RC RC RC 11 a1 1 1 x = 1 u, y = 0 1 x, Rb 1 dt + - R2 0 Ra R2 C2 C2 donde u = v1 e y = v3 . (Sugerencia: Utilice v2 y v3 como sus variables de estado). 3.5 (Oscilador de amplificador operacional) El circuito de amplificador operacional que se muestra a continuación es una implementación de un oscilador. C 2 R2 R3 + C 1 R4 v2 R1 + v3 + v1 Demuestre que la dinámica puede escribirse en forma de espacio de estados como R4 0 R1 R3 C1 dx x, = dt 1 0 - R2 C2 donde las variables de estado representan las tensiones en los condensadores x1 = v1 y x2 = v2 . 93 EJERCICIO S 3.6 (Control de la congestión mediante RED [LPW+02]) Se pueden introducir varias mejoras en el modelo de control de la congestión de Internet presentado en la sección 3.4. Para garantizar que el tamaño del búfer del enrutador siga siendo positivo, podemos modificar la dinámica del búfer para satisfacer fs dbl bl > 0 l - cl = dt sat(0,) (sl - cl ) bl = 0. Además, podemos modelar la probabilidad de caída de un paquete en función de lo cerca que estemos de los límites del buffer, un mecanismo conocido como detección temprana aleatoria (RED): 0 al (t) ≤ blower pl = ml (al ) = l ri(t) − l lri -(1 - 1 (t) super 2bl ior ) l soplador < al (t) l < bupper l bl ≤ al (t) < 2bsuper ior l al (t) ≥ 2bl upper upper dal , = −l cl (al - bl ), dt dondel , bupper , blower y pupper son parámetros del protocolo RED. l l l Utilizando el modelo anterior, escriba una simulación para el sistema y encuentre un conjunto de valores de los parámetros para los que existe un punto de equilibrio estable y un conjunto para el que el sistema presenta soluciones oscilatorias. Se deben explorar los siguientes conjuntos de parámetros: N = 20, 30,..., 60, c = 8, 9, . . . , 15 pkts/ms, = 55, 60,..., 100 ms. blower l = 40 pkts, l = 0,1, upper = 540 pkts, l = 10−4 , bl 3.7 (Microscopio de fuerza atómica con tubo piezoeléctrico) A continuación se muestra un diagrama esquemático de un AFM donde el escáner vertical es un tubo piezoeléctrico con precarga. F m1 F m2 k k2 c1 1 c2 Demuestre que la dinámica puede escribirse como d2 z1 dz1 d2 l dl (m1 + m2 ) + (c1 + c2 ) + (k1 + k2 )z1 = m2 + c2 + k2 l. dt2 dt dt2 dt ¿Hay valores de los parámetros que hacen que la dinámica sea especialmente sencilla? 94 CAPÍTULO 3. EJEMPLOS 3.8 (Administración de fármacos) El metabolismo del alcohol en el organismo puede modelarse mediante el modelo compartimental no lineal dcb dcl cl Vb = q(cl - cb ) + qiv , Vl = q(cb - cl ) - qmax + qgi , dt dtc0 + cl donde Vb = 48 L y Vl = 0,6 L son los volúmenes aparentes de distribución del agua corporal y del agua hepática, cb y cl son las concentraciones de alcohol en los compartimentos, qiv y qgi son las tasas de inyección para la ingesta intravenosa y gastrointestinal, q = 1,5 L/min es el flujo sanguíneo hepático total, qmax = 2,75 mmol/min y c0 = 0,1 mmol/L. Simule el sistema y calcule la concentración en la sangre para dosis orales e intravenosas de 12 g y 40 g de alcohol. 3.9 (Dinámica de la población) Considere el modelo de crecimiento logístico dado por la ecuación (3.30). Demuestre que la tasa de crecimiento máxima se produce cuando el tamaño de la población es la mitad del valor en estado estacionario. 3.10 (Gestión pesquera) La dinámica de una pesquería comercial puede describirse mediante el siguiente modelo sencillo: dx = f (x) - h(x, u), y = bh(x, u) - cu dt donde x es la biomasa total, f (x) = rx(1 - x/k) es la tasa de crecimiento y h(x, u) = axu es la tasa de captura. El resultado y es la tasa de ingresos, y los parámetros a, b y c son constantes que representan el precio del pescado y el coste de la pesca. Demuestre que existe un equilibrio en el que la biomasa en estado estacionario es xe = c/(ab). Compárelo con la situación en la que la biomasa se regula a un valor constante y encuentre el máximo rendimiento sostenible en ese caso. Capítulo 4 Comportamiento dinámico No significa nada si no tiene ese swing. Duke Ellington (1899-1974) En este capítulo presentamos una amplia discusión del comportamiento de los sistemas dinámicos centrada en los sistemas modelados por ecuaciones diferenciales no lineales. Esto nos permite considerar los puntos de equilibrio, la estabilidad, los ciclos límite y otros conceptos clave para entender el comportamiento dinámico. También introducimos algunos métodos para analizar el comportamiento global de las soluciones. 4.1 Resolución de ecuaciones diferenciales En los dos últimos capítulos hemos visto que uno de los métodos para modelar sistemas dinámicos es el uso de ecuaciones diferenciales ordinarias (EDO). Un sistema de entrada/salida en el espacio de estados tiene la forma dx (4.1) = f (x, u), y = h(x, u), dt donde x = (x1 , ... , ∈ xn ) Rn es el estado, ∈ u Rp es la entrada e∈y Rq es la salida. n p n → Los mapas suaves f : R× R → R y h : Rn Rp ×Rq representan la dinámica y las medidas del sistema. En general, pueden ser funciones no lineales de sus argumentos. En ocasiones nos centraremos en sistemas de una sola entrada y una sola salida (SISO), para los que p = q = 1. Comenzamos investigando los sistemas en los que la entrada se ha fijado en una función del estado, u = (x). Este es uno de los tipos más simples de retroalimentación, en el que el sistema regula su propio comportamiento. Las ecuaciones diferenciales en este caso se convierten en dx = f (x, (x)) =: F(x). (4.2) dt Para entender el comportamiento dinámico de este sistema, necesitamos analizar las características de las soluciones de la ecuación (4.2). Aunque en algunas situaciones sencillas podemos escribir las soluciones en forma analítica, a menudo debemos recurrir a enfoques computacionales. Comenzamos describiendo la clase de soluciones de este problema. Decimos que x(t) es una solución de la ecuación diferencial (4.2) en el intervalo de tiempo t0 ∈ R a tf ∈ R si dx(t) dt = F(x(t)) para todo t0 < t < tf . 96 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO Una ecuación diferencial dada puede tener muchas soluciones. La mayoría de las veces estaremos interesados en el problema de valor inicial, donde x(t) está prescrita en un momento dado t0 R y deseamos encontrar una solución válida ∈ para todo tiempo futuro t > t0 . Decimos que x(t) es una solución de la ecuación diferencial (4.2) con valor inicial x0 ∈ Rn en t0 ∈ R si dx(t) x(t0 ) = x0 y = F(x(t)) para todo t0 < t < tf . dt Para la mayoría de las ecuaciones diferenciales que encontraremos, existe una solución única que está definida para t0 < t < tf . La solución puede estar definida para todo el tiempo t > t0 , en cuyo caso tomamos tf = . Dado que nos interesan principalmente las soluciones del problema de valor inicial de las EDOs, normalmente nos referiremos a ella simplemente como la solución de una EDO. Normalmente supondremos que t0 es igual a 0. En el caso de que F sea independiente del tiempo (como en la ecuación (4.2)), podemos hacerlo sin pérdida de generalidad eligiendo una nueva variable independiente (tiempo), = t - t0 (Ejercicio 4.1). Ejemplo 4.1 Oscilador amortiguado Consideremos un oscilador lineal amortiguado con una dinámica de la forma q¨ + 0 q˙ +2 q = 0 0, donde q es el desplazamiento del oscilador desde su posición de reposo. Esta dinámica es equivalente a la de un sistema muelle-masa, como se muestra en el ejercicio 2.6. Suponemos que 1, lo que corresponde a un sistema ligeramente amortiguado (la razón de esta elección particular quedará clara más adelante). Podemos reescribir esto en forma de espacio de estados estableciendo x1 = q y x2 = q˙/0 , dando dx2 dx1 = −0 x1 - 0 x2 . =0 x2 , dt dt En forma vectorial, el lado derecho puede escribirse . como F(x) = 0x2 0 -x1 - 0 x2 La solución del problema de valor inicial puede escribirse de diferentes maneras y se estudiará con más detalle en el capítulo 5. Aquí simplemente afirmamos que la solución puede escribirse como ( 1 0t − x1 (t) = e x10 d t + (0 x10 + x20 ) d t , d ( 1 x2 (t) = e− 0t x20 d t - (2 x10 0 +0 x20 ) d t , d j donde x0 = (x10 , x20 ) es la condición inicial yd =0 1 2. Esta solución se puede verificar sustituyéndola en la ecuación diferencial. Vemos que la soLa solución depende explícitamente de la condición inicial, y puede demostrarse que esta solución es única. En la figura 4.1 se muestra un gráfico de la respuesta a la condición inicial. 97 4.1. RESOLUCIÓN DE ECUACIONES DIFERENCIALES 1 x x 1 Est ado sx, x 2 0.5 0 1 -0.52 -1 0 2 4 6 8 10 12 Tiempo t [s] 14 16 18 20 Figura 4.1: Respuesta del oscilador amortiguado a la condición inicial x0 = (1, 0). La solución es única para las condiciones iniciales dadas y consiste en una solución oscilatoria para cada estado, con una magnitud que decae exponencialmente. Observamos que esta forma de la solución se mantiene sólo para 0 < 1, lo que corresponde a un oscilador "subamortiguado". Sin imponer algunas condiciones matemáticas a la función F, la diferen- � c i a a ecuación (4.2) puede no tener una solución para todo t, y no hay garantía de que la solución sea única. Ilustramos estas posibilidades con dos ejemplos. Ejemplo 4.2 Tiempo de escape finito Sea x ∈ R y consideremos la ecuación diferencial dx = x2 (4.3) dt con la condición inicial x(0) = 1. Por diferenciación podemos comprobar que la function 1 x(t) = 1-t satisface la ecuación diferencial y que también satisface la condición inicial. En la figura 4.2a se muestra una gráfica de la solución; observe que la solución va al infinito a medida que t se hace 1. Decimos que este sistema tiene un tiempo de escape finito. Por tanto, la solución sólo existe en el intervalo de tiempo 0 ≤ t < 1. Ejemplo 4.3 Solución no única Sea x ∈ R y consideremos la ecuación diferencial dx = 2√x dt con la condición inicial x(0) = 0. Podemos demostrar que la función ()= 0 si 0 ≤ t ≤ a xf t 2 (t - a) si t > a (4.4) satisface la ecuación diferencial para todos los valores del parámetro a ≥ 0. Para ver esto, 98 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO 100 100 Es tad 50 ox Es tad 50 ox 0 0 0.5 1 Tiempo t (a) Tiempo de escape finito 1.5 0 a 0 2 4 6 8 10 Tiempo t (b) Soluciones no únicas Figura 4.2: Existencia y unicidad de soluciones. La ecuación (4.3) tiene una solución sólo para el tiempo t < 1, momento en el que la solución pasa a , como se muestra en (a). La ecuación (4.4) es un ejemplo de un sistema con muchas soluciones, como se muestra en (b). Para cada valor de a, obtenemos una solución diferente partiendo de la misma condición inicial. diferenciamos x(t) para obtener f dx 0 si 0 ≤ t ≤ a dt = 2(t - a) si t > a, y, por tanto, x˙ = 2√x para todo t 0 con x(0) = 0. En la figura 4.2b se presenta ≥ una gráfica de algunas de las posibles soluciones. Observe que en este caso hay muchas soluciones a la ecuación diferencial. Estos sencillos ejemplos muestran que puede haber dificultades incluso con ecuaciones diferenciales sencillas. La existencia y la unicidad pueden garantizarse exigiendo que la función F tenga la propiedad de que para algún c fijo ∈ R, \F(x) - F(y)\N < c\x - y\ para todo x, y, que se denomina continuidad de Lipschitz. Una condición suficiente para que una función sea Lipschitz es que el jacobiano F/ x esté uniformemente acotado para todo x. La dificultad en el ejemplo 4.2 es que la derivada F/ x se hace grande para x grandes, y la dificultad en el ejemplo 4.3 es que la derivada F/ x es infinita en el origen. 4.2 Análisis cualitativo El comportamiento cualitativo de los sistemas no lineales es importante para entender algunos de los conceptos clave de la estabilidad en la dinámica no lineal. Nos centraremos en una clase importante de sistemas conocidos como sistemas dinámicos planares. Estos sistemas tienen dos variables de estado x R2 , ∈ lo que permite trazar sus soluciones en el plano (x1 , x2 ). Los conceptos básicos que describimos son válidos en general y pueden utilizarse para comprender el comportamiento dinámico en dimensiones superiores. Retratos de fase Una forma conveniente de entender el comportamiento de los sistemas dinámicos con estado x ∈ R2 es trazar el retrato de fase del sistema, introducido brevemente en el capítulo 2. 99 4.2. ANÁLISIS CUALITATIVO x2 1 1 0.5 0.5 x2 0 -0.5 -0.5 -1 -1 0 -0.5 0 x1 0.5 (a) Campo vectorial 1 -1 -1 -0.5 0 x1 0.5 1 (b) Retrato de fase Figura 4.3: Retratos de fase. (a) Este gráfico muestra el campo vectorial de un sistema dinámico planar. Cada flecha muestra la velocidad en ese punto del espacio de estados. (b) Este gráfico incluye las soluciones (a veces llamadas líneas de corriente) de diferentes condiciones iniciales, con el campo vectorial superpuesto. Comenzamos introduciendo el concepto de campo vectorial. Para un sistema de ecuaciones diferenciales ordinarias dx = F(x), dt el lado derecho de la ecuación diferencial define en cada x Rn una∈velocidad F(x) ∈ velocidad nos dice cómo cambia x y se puede representar como un Rn . Esta vector∈F(x) Rn . En los sistemas dinámicos planares, cada estado corresponde a un punto del plano y F(x) es un vector que representa la velocidad de ese estado. Podemos trazar estos vectores en una cuadrícula de puntos en el plano y obtener una imagen visual de la dinámica del como se muestra en la figura 4.3a. Los puntos en los que las velocidades son nulas son de especial interés, ya que definen puntos estacionarios del flujo: si empezamos en un estado así, nos quedamos en ese estado. Un retrato de fase se construye trazando el flujo del campo vectorial correspondiente al sistema dinámico plano. Es decir, para un conjunto de condiciones iniciales, trazamos la solución de la ecuación diferencial en el plano R2 . Esto corresponde a seguir las flechas en cada punto del plano de fase y dibujar la trayectoria resultante. Al trazar las soluciones para varias condiciones iniciales diferentes, obtenemos un retrato de fase, como se muestra en la Figura 4.3b. Los retratos de fase también se denominan a veces diagramas del plano de fase. Los retratos de fase permiten conocer la dinámica del sistema al mostrar las so- luciones trazadas en el espacio de estados (bidimensional) del sistema. Por ejemplo, podemos ver si todas las trayectorias tienden a un único punto a medida que aumenta el tiempo o si hay comportamientos más complicados. En el ejemplo de la figura 4.3, correspondiente a un oscilador amortiguado, las soluciones se aproximan al origen para todas las condiciones iniciales. Esto es consistente con nuestra simulación de la Figura 4.1, pero nos permite inferir el comportamiento para todas las condiciones iniciales en lugar de una sola condición inicial. Sin embargo, el retrato de fase no nos indica fácilmente la tasa de cambio de los estados (aunque 100 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO 2 m 1 x2 l -1 u (a) 0 (b) -2 − − 0 x1 (c) Figura 4.4: Puntos de equilibrio de un péndulo invertido. Un péndulo invertido es un modelo para una clase de sistemas de equilibrio en los que deseamos mantener un sistema en posición vertical, como un cohete (a). Utilizando un modelo simplificado de un péndulo invertido (b), podemos desarrollar un retrato de fase que muestra la dinámica del sistema (c). El sistema tiene múltiples puntos de equilibrio, marcados por los puntos sólidos a lo largo de la línea x2 = 0. esto puede deducirse de las longitudes de las flechas en el gráfico del campo vectorial). Puntos de equilibrio y ciclos límite Un punto de equilibrio de un sistema dinámico representa una condición estacionaria para la dinámica. Decimos que un estado xe es un punto de equilibrio para un sistema dinámico dx = F(x) dt si F(xe ) = 0. Si un sistema dinámico tiene una condición inicial x(0) = xe , entonces permanecerá en el punto de equilibrio:≥x(t) = xe para todo t0, donde hemos tomado t0 = 0. Los puntos de equilibrio son una de las características más importantes de un sistema dinámico. tem ya que definen los estados correspondientes a condiciones de funcionamiento constantes. Un sistema dinámico puede tener cero, uno o varios puntos de equilibrio. Ejemplo 4.4 Péndulo invertido Consideremos el péndulo invertido de la figura 4.4, que forma parte del sistema de equilibrio que consideramos en el capítulo 2. El péndulo invertido es una versión simplificada del problema de estabilización de un cohete: aplicando fuerzas en la base del cohete, buscamos mantener el cohete estabilizado en la posición vertical. Las variables de estado son el ángulo = x1 y la velocidad angular = x2 , la variable de control es la aceleración u del pivote y la salida es el ángulo . Para simplificar suponemos que mgl/Jt = 1 y l/Jt = 1, de modo que la dinámica (ecuación (2.10)) se convierte en dx x2 = . (4.5) dt sin x1 - cx2 + u cos Se trata de un sistema no lineal xe1 invariable en el tiempo de segundo orden. Este mismo conjunto de ecuaciones también puede obtenerse mediante una normalización adecuada de la dinámica del sistema, como se ilustra en el ejemplo 2.7. 101 4.2. ANÁLISIS CUALITATIVO 1.5 2 x 1 x 2 1 x 2 1 0.5 x,x 0 12 0 -0.5 -1 -1 -1.5 -1 0 x 1 (a) 1 -2 0 10 Tiem po t 20 30 (b) Figura 4.5: Retrato de fase y simulación en el dominio del tiempo para un sistema con un ciclo límite. El retrato de fase (a) muestra los estados de la solución trazados para diferentes condiciones iniciales. El ciclo límite corresponde a una trayectoria de bucle cerrado. La simulación (b) muestra una única solución trazada en función del tiempo, con el ciclo límite correspondiente a una oscilación estable de amplitud fija. Consideramos la dinámica de bucle abierto fijando u = 0. Los puntos de equilibrio del sistema vienen dados por±n xe = , 0 donde n = 0, 1, 2, Los puntos de equilibrio para n par corresponden a la pendulum apuntando hacia arriba y los de n impares corresponden al péndulo colgando. A El retrato de fase para este sistema (sin entradas correctivas) se muestra en la Figura 4.4c. El retrato de fase - muestra ≤ ≤ x1 2, por lo que se muestran cinco de los puntos de equilibrio. Los sistemas no lineales pueden mostrar un comportamiento rico. Además de los equilibrios, también pueden presentar soluciones periódicas estacionarias. Esto tiene un gran valor práctico en la generación de voltajes que varían sinusoidalmente en los sistemas de energía o en la generación de señales periódicas para la locomoción animal. En el ejercicio 4.12 se presenta un ejemplo sencillo, que muestra el diagrama de un circuito para un oscilador electrónico. Un modelo normalizado del oscilador está dado por la ecuación dx1 dx2 (4.6) = x2 + x1 (1 - 1x2 - x2 ),2 = -x1 + x2 (1 - 1x2 - x22 ). dt dt Las soluciones en el plano de fase y en el dominio del tiempo se presentan en la figura 4.5. La figura muestra que las soluciones en el plano de fase convergen a una trayectoria circular. En el dominio del tiempo esto corresponde a una solución oscilante. Matemáticamente, el círculo se llama ciclo límite. Más formalmente, llamamos a una solución aislada x(t) un ciclo límite de periodo T > 0 si x(t + T ) = ∈ x(t) para todo t R . Existen métodos para determinar los ciclos límite de los sistemas de segundo orden, pero para los sistemas generales de orden superior tenemos que recurrir al análisis computacional. Los algoritmos computacionales encuentran ciclos límite buscando trayectorias periódicas en el estado 102 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO 4 Es tad 2 ox 0 0 1 2 3 Tiempo t 4 5 6 Figura 4.6: Ilustración del concepto de solución estable de Lyapunov. La solución representada por la línea continua es estable si podemos garantizar que todas las soluciones permanecen dentro de un tubo de diámetro eligiendo condiciones iniciales suficientemente cercanas a la solución. espacio que satisfagan la dinámica del sistema. En muchas situaciones, se pueden encontrar cíclicas límite estables simulando el sistema con diferentes condiciones iniciales. 4.3 Estabilidad La estabilidad de una solución determina si las soluciones cercanas a la solución permanecen cerca, se acercan o se alejan. A continuación damos una definición formal de estabilidad y describimos las pruebas para determinar si una solución es estable. Definiciones Sea x(t; a) una solución de la ecuación diferencial con condición inicial a. Una solución es estable si otras soluciones que comienzan cerca de a se mantienen cerca de x(t; a). Formalmente, decimos que la solución x(t; a) es estable si para todo 0, existe a > 0 tal que \b - a\b =⇒ \x(t; b) - x(t; a) \Npara todo t > 0. Obsérvese que esta definición no implica que x(t; b) se acerque a x(t; a) a medida que aumenta el tiempo, sino que se mantiene cerca. Además, el valor de puede depender de , de modo que si queremos estar muy cerca de la solución, es posible que tengamos que≪empezar muy, muy cerca ( ) . Este tipo de estabilidad, que se ilustra en la figura 4.6, se llama también estabilidad en el sentido de Lyapunov. Si una solución es estable en este sentido y las trayectorias no convergen, decimos que la solución es neutralmente estable. Un caso especial importante es cuando la solución x(t; a) = xe es una solución de equilibrio. En lugar de decir que la solución es estable, decimos simplemente que el equi El punto de equilibrio es estable. En la figura 4.7 se muestra un ejemplo de un punto de equilibrio neutral estable. A partir del retrato de fase, vemos que si empezamos cerca del punto de equilibrio, entonces nos quedamos cerca del punto de equilibrio. De hecho, para este ejemplo, dado cualquier que define el rango de condiciones iniciales posibles, podemos simplemente elegir = para satisfacer la definición de estabilidad ya que las trayectorias son círculos perfectos. Una solución x(t; a) es asintóticamente estable si es estable en el sentido de → x(t; b) x→(t; a) como t para b suficientemente cercano a a. Lyapunov y también Esto corresponde al caso en que todas las trayectorias cercanas convergen a la solución estable para grandes tiempo. La figura 4.8 muestra un ejemplo de un punto de equilibrio asintóticamente 4.2. ANÁLISIS CUALITATIVO estable. 103 103 4.3. ESTABILIDAD 1 x˙1 = x2 x˙2 = x1 0.5 x 2 2 0 x,x 12 -0.5 -1 -1 x x 1 2 0 -2 -0.5 0 x 0.5 1 0 2 4 1 Tiemp ot 6 8 10 Figura 4.7: Retrato de fase y simulación en el dominio del tiempo para un sistema con un único punto de equilibrio estable. El punto de equilibrio xe en el origen es estable, ya que todas las trayectorias que comienzan cerca de xe permanecen cerca de xe. Obsérvese en los retratos de fase que no sólo todas las trayectorias permanecen cerca del punto de equi- librio en el origen, sino que también todas se acercan al origen a medida que t se hace grande (las direcciones de las flechas en el retrato de fase muestran la dirección en que se mueven las trayectorias). Una solución x(t; a) es inestable si no es estable. Más concretamente, decimos que una solución x(t; a) es inestable si dado algún 0, no existe a > \ - si\ b a , entonces \ - b) x(t; \ a) para todo t. En la figura 4.9 se 0 tal que x(t; muestra un ejemplo de punto de equilibrio inestable. Las definiciones anteriores se dan sin una descripción cuidadosa de su dominio de aplicabilidad. Más formalmente, definimos que una solución es localmente estable (o localmente estable asintótica) si es estable para todas las condiciones iniciales x ∈ Br (a), donde Br (a) = {x : \x - a\ < r} es una bola de radio r alrededor de a y r > 0. Un sistema es globalmente estable si lo es para todo r > 0. Los sistemas cuyos puntos de equilibrio son sólo localmente estables pueden 1 x˙1 = x2 x˙2 = -x1 - x2 0.5 1 x 2 x 0 x,x 12 -0.5 -1 -1 -0.5 0 x1 0.5 1 x 1 2 0 -1 0 2 4 Tiemp ot 6 8 10 Figura 4.8: Retrato de fase y simulación en el dominio del tiempo para un sistema con un único punto de equilibrio asintóticamente estable. El punto de equilibrio xe en el origen es asintóticamente estable ya que las trayectorias convergen a este punto a medida que t → . 104 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO 1 x˙1 = 2x1 - x2 x˙2 = -x1 + 2x2 0.5 100 x 2 x 0 x,x 12 -0.5 -1 -1 -0.5 0 x 0.5 1 x 0 -100 0 1 1 Tiemp ot 2 1 2 3 Figura 4.9: Retrato de fase y simulación en el dominio del tiempo para un sistema con un único punto de equilibrio inestable. El punto de equilibrio xe en el origen es inestable, ya que no todas las trayectorias que comienzan cerca de xe permanecen cerca de xe. La trayectoria de muestra de la derecha muestra que las trayectorias se alejan muy rápidamente de cero. tienen un comportamiento interesante lejos de los puntos de equilibrio, como exploramos en la siguiente sección. Para los sistemas dinámicos planares, se han asignado nombres a los puntos de equilibrio en función de su tipo de estabilidad. Un punto de equilibrio asintóticamente estable se denomina sumidero o, a veces, atractor. Un punto de equilibrio inestable puede ser una fuente, si todas las trayectorias se alejan del punto de equilibrio, o una silla de montar, si algunas trayectorias se dirigen al punto de equilibrio y otras se alejan (esta es la situación representada en la figura 4.9). Por último, un punto de equilibrio que es estable pero no asintóticamente estable (es decir, neutral, como el de la figura 4.7) se llama centro. Ejemplo 4.5 Control de la congestión El modelo de control de la congestión en una red formada por N ordenadores idénticos conectados a un único router, introducido en la sección 3.4, viene dado por = − ( 1 , = N wc - c, dw db w2 dt bc dt b + 2 donde w es el tamaño de la ventana y b es el tamaño del buffer del router. En la Figura 4.10 se muestran los retratos de fase para dos conjuntos diferentes de valores de parámetros. En cada caso vemos que el sistema converge a un punto de equilibrio en el que el buffer está por debajo de su capacidad total de 500 paquetes. El tamaño de equilibrio del buffer representa un equilibrio entre las tasas de transmisión de las fuentes y la capacidad del enlace. A partir de los retratos de fase vemos que los puntos de equilibrio son asintóticamente estables, ya que todas las condiciones iniciales dan lugar a trayectorias que convergen a estos puntos. Estabilidad de los sistemas lineales Un sistema dinámico lineal tiene la forma dx = Ax, x(0) = x0 , dt (4.7) 105 4.3. ESTABILIDAD 500 Ta 400 ma ño 300 del bu 200 ffe r, 100 b [p 0 kts 0 ] 500 2 Ta 400 ma ño 300 del bu 200 ffe r, 100 b [p 0 kts 0 ] 4 6 8 10 Tamaño de la ventana, w [pkts] (a) = 2 × 10-4, c = 10 pkts/ms 2 4 6 8 10 Tamaño de la ventana, w [pkts] (b) = 4 × 10-4, c = 20 pkts/ms Figura 4.10: Retratos de fase para un protocolo de control de la congestión que se ejecuta con N = 60 ordenadores fuente idénticos. Los valores de equilibrio corresponden a una ventana fija en la fuente, que da lugar a un tamaño de búfer en estado estacionario y a la correspondiente velocidad de transmisión. Un enlace más rápido (b) utiliza un tamaño de búfer más pequeño, ya que puede manejar paquetes a un ritmo mayor. donde A R ∈n×n es una matriz cuadrada, correspondiente a la matriz dinámica de un sistema de control lineal (2.6). Para un sistema lineal, la estabilidad del equilibrio en el origen puede determinarse a partir de los valores propios de la matriz A: (A) = {s ∈ C : det(sI - A) = 0}. El polinomio det(sI A) -es el polinomio característico y los valores propios son ∈ j (A). sus raíces. Utilizamos la notaciónj para el jº valor propio de A, de modo que En general puede ser de valor complejo, aunque si A es de valor real, entonces para cualquier valor propio, su conjugado complejo ∗ también será un valor propio. El origen es siempre es un equilibrio para un sistema lineal. Dado que la estabilidad de un sistema lineal depende sólo de la matriz A, encontramos que la estabilidad es una propiedad del sistema. Por lo tanto, para un sistema lineal podemos hablar de la estabilidad del sistema y no de la estabilidad de una solución particular o de un punto de equilibrio. La clase de sistemas lineales más fácil de analizar son aquellos cuyas matrices del sistema están en forma diagonal. En este caso, la dinámica tiene la forma dx dt 0 1 2 = x. .. . 0 (4.8) n Es fácil ver que las trayectorias de estado de este sistema son independientes entre sí, por lo que podemos escribir la solución en términos de n sistemas individuales x˙j =j xj . Cada una de estas soluciones escalares es de la forma xj (t) = e jt xj (0). Vemos que el punto de equilibrio xe = 0 es estable sij estable sij < 0. ≤ 0 y asintóticamente 106 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO Otro caso sencillo es cuando la dinámica está en la forma diagonal de bloque 0 1 1 0 0. 0. - 1 1 dx .. = . . x. 0 0 . dt 0 0 m m 0 0 m m En este caso, se puede demostrar que los valores propios±sonj =j j . Una vez más podemos separar las trayectorias de los estados en soluciones independientes para cada par de estados, y las soluciones son de la forma x2 j 1(t) = ejt x2 j x 2j (t) = e jt 1(0) cos jt + x2 j(0) sin jt -, -x 2j−1 (0) j t + x 2j (0) j t , - donde j = 1, 2, . . . , m. Vemos que este sistema es asintóticamente estable si y sólo sij = j < 0. También es posible combinar valores propios reales y complejos en forma de diagonal (de bloque), dando lugar a una mezcla de soluciones de los dos tipos. Muy pocos sistemas se encuentran en una de las formas diagonales anteriores, pero algunos sistemas pueden transformarse en estas formas mediante transformaciones de coordenadas. Una de estas clases de sistemas es aquella en la que la matriz dinámica tiene valores propios distintos (no repetitivos). En este ∈ caso hay una matriz T Rn×n tal que la matriz TAT−1 está en forma diagonal (de bloque), con los elementos diagonales de bloque correspondientes a los valores propios de la matriz original A (ver Ejercicio 4.14). Si elegimos nuevas coordinates z = Tx, entonces dz = T x˙ = TAx = TAT−1 z dt y el sistema lineal tiene una matriz dinámica (en bloque). Además, los valores propios del sistema transformado son los mismos que los del sistema original, ya que si v es un vector propio de A, se puede demostrar que w = Tv es un vector propio de TAT−1 . Podemos razonar sobre la estabilidad del sistema original observando que x(t) = T−1 z(t), por lo que si el sistema transformado es estable (o asintóticamente estable), entonces el sistema original tiene el mismo tipo de estabilidad. Este análisis muestra que para los sistemas lineales con valores propios distintos, la estabilidad del sistema puede determinarse completamente examinando la parte real de los valores propios de la matriz dinámica. Para sistemas más generales, hacemos uso del siguiente teorema, demostrado en el siguiente capítulo: Teorema 4.1 (Estabilidad de un sistema lineal). El sistema dx = Ax dt es asintóticamente estable si y sólo si todos los valores propios de A tienen una parte real estrictamente negativa y es inestable si cualquier valor propio de A tiene una parte real estrictamente positiva. 107 4.3. ESTABILIDAD Ejemplo 4.6 Modelo de compartimentos Consideremos el módulo de dos compartimentos para la administración de fármacos introducido en la sección 3.6. Utilizando las concentraciones como variables de estado y denotando el vector de estado por x, la dinámica del sistema viene dada por dx -k0- k1 k1 b0 = x + u, y = 01x, 0 k2 -k 2 dt donde la entrada u es la tasa de inyección de un fármaco en el compartimento 1 y la concentración del fármaco en el compartimento 2 es la salida medida y. Deseamos diseñar una ley de control retroalimentada que mantenga una salida constante dada por y = yd . Elegimos una ley de control de retroalimentación de salida de la forma u = -k(y - yd ) + ud , donde ud es la tasa de inyección requerida para mantener la concentración deseada y k es una ganancia de retroalimentación que debe elegirse de manera que el sistema de lazo cerrado sea estable. Sustituyendo la ley de control en el sistema, obtenemos dx -k0- k1 k1 - b0k b0 = x + (ud + kyd ) =: Ax + Bu,e 0 k2 -k 2 dt 1 y = 0 x =: Cx. La concentración de equilibrio xe ∈ R2 viene dada por xe = -A−1 Bue y b0k2 y-e= CA−1 Bue= (ud + kyd). k0 k2 + b0 k2 k Eligiendo ud de forma que ye = yd se obtiene la tasa de inyección constante necesaria para mantener la producción deseada. Ahora podemos desplazar las coordenadas para situar el punto de equilibrio en el origen, lo que da como resultado (tras un poco de álgebra) dz -k- k k1 - b0 = 0 1 kz, k2 -k2 donde z = x- xe . Ahora dtpodemos aplicar los resultados del Teorema 4.1 para determinar la estabilidad del sistema. Los valores propios del sistema vienen dados por las raíces del polinomio característico (s) = s2 + (k0 + k1 + k2 )s + (k0 k2 + b0 k2 k). Aunque la forma específica de las raíces es confusa, se puede demostrar que las raíces tienen parte real negativa siempre que el término lineal y el término constante sean ambos positivos (Ejercicio 4.16). Por lo tanto, el sistema es estable para cualquier k > 0. Análisis de estabilidad mediante aproximación lineal Una característica importante de las ecuaciones diferenciales es que a menudo es posible determinar la estabilidad local de un punto de equilibrio aproximando el sistema por un sistema lineal. El siguiente ejemplo ilustra la idea básica. 108 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO Ejemplo 4.7 Péndulo invertido Consideremos de nuevo un péndulo invertido cuya dinámica de bucle abierto viene dada por dx x2 = , sin x1 −2 dt donde hemos definido el estado como x = (, ˙). Consideramos primero el punto de equilibrio en x = (0, 0), que corresponde a la posición recta. Si suponemos que el ángulo = x1 sigue siendo pequeño, entonces podemos sustituir sen x1 por x1 y cos x1 por 1, lo que da el sistema aproximado 0 1 dx = x2 = x. (4.9) 1 dt x1 − 2 Intuitivamente, este sistema debería comportarse de forma similar al modelo más complicado siempre que x1 sea pequeño. En particular, puede verificarse que el punto de equilibrio (0, 0) es inestable trazando el retrato de fase o calculando los valores propios de la matriz de la dinámica en la ecuación (4.9) También podemos aproximar el sistema alrededor del punto de equilibrio estable en x = (, 0). En este caso tenemos que expandir sin x1 y cos x1 alrededor de x1 = , según las expansiones sin( + ) = -sin ≈ -, cos( + ) = -cos() ≈ -1. Si definimos z1 = x-1 y z2 = x2 , la dinámica aproximada resultante viene dada por dz z2 0 1 = = z. (4.10) -z1 − z 2 -1 dt Nótese que z = (0, 0) es el punto de equilibrio de este sistema y que tiene la misma forma básica que la dinámica mostrada en la Figura 4.8. La figura 4.11 muestra los portes de fase del sistema original y del sistema aproximado en torno a los correspondientes puntos de equilibrio. Obsérvese que son muy similares, aunque no exactamente iguales. Se puede demostrar que si una aproximación lineal tiene puntos de equilibrio asintóticamente estables o inestables, entonces la estabilidad local del sistema original debe ser la misma (Teorema 4.3). De forma más general, supongamos que tenemos un sistema no lineal dx = F(x) dt que tiene un punto de equilibrio en xe . Calculando la expansión en serie de Taylor del campo vectorial, podemos escribir dx F = F(xe ) + 1 (x - xe ) + términos de orden superior en (x - xe ). dt x 1xe Como F(xe ) = 0, podemos aproximar el sistema eligiendo una nueva variable de estado 109 4.3. ESTABILIDAD x 2 2 2 1 1 z2 0 -1 -2 0 -1 0 /2 x1 -2 - − 0 z1 (b) Aproximación lineal (a) Modelo no lineal Figura 4.11: Comparación entre los retratos de fase de los sistemas no lineales completos (a) y su aproximación lineal alrededor del origen (b). Obsérvese que cerca del punto de equilibrio en el centro de los gráficos, los retratos de fase (y por tanto la dinámica) son casi idénticos. z = x - xe y escribir dz dt = Az, donde A= F 1 . x 1xe (4.11) Llamamos al sistema (4.11) la aproximación lineal del sistema no lineal original o la linealización en xe . El hecho de que un modelo lineal pueda usarse para estudiar el comportamiento de un sistema no lineal cerca de un punto de equilibrio es muy poderoso. De hecho, podemos llevar esto aún más lejos y utilizar una aproximación lineal local de un sistema no lineal para diseñar una ley de retroalimentación que mantenga el sistema cerca de su punto de equilibrio (diseño de la dinámica). Así, la retroalimentación puede utilizarse para asegurarse de que las soluciones se mantienen cerca del punto de equilibrio, lo que a su vez garantiza que la aproximación lineal utilizada para estabilizarlo es válida. Las aproximaciones lineales también pueden utilizarse para comprender la estabilidad de las soluciones noqui- libres, como se ilustra en el siguiente ejemplo. Ejemplo 4.8 Ciclo límite estable Consideremos el sistema dado por la ecuación (4.6), dx1 dx2 = x2 + x1 (1 - x12 - x2),2 = -x1 + x2 (1 - x12 - x2 ),2 dt dt cuyo retrato de fase se muestra en la figura 4.5. La ecuación diferencial tiene una solución peri-ódica x1 (t) = x1 (0) cos t + x2 (0) sin t, (4.12) con x2 (0) + x2 (0) = 1. 1 2 Para explorar la estabilidad de esta solución, introducimos las coordenadas polares r y que se relacionan con las variables de estado x1 y x2 mediante x1 = r cos, x2 = r sin. 110 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO La diferenciación da las siguientes ecuaciones lineales para r˙ y ˙: x˙1 = r˙cos - r˙ sin, x˙2 = r˙sin + r˙ cos. Resolviendo este sistema lineal para r˙ y ˙ se obtiene, tras algunos cálculos, dr = r(1 - r2 ), = -1. dt dt Obsérvese que las ecuaciones están desacopladas, por lo que podemos analizar la estabilidad de cada estado por separado. La ecuación para r tiene tres equilibrios: r = 0, r = 1 y r = 1- (no realizable ya que r debe ser positivo). Podemos analizar la estabilidad de estos equilibrios linealizando la dinámica radial con F(r) = -r(1 r2 ). La dinámica lineal correspondiente viene dada por Dr. F r = (1 - 3r2 )r, r = 0, 1, 1 e = e 1re dt r donde hemos abusado de la notación y hemos utilizado r para representar la desviación del punto de equilibrio. Del signo -de (1e 3r2 ) se deduce que el equilibrio r = 0 es inestable y el equilibrio r = 1 es asintóticamente estable. Por lo tanto, para cualquier condición inicial r > 0 la solución va a r = 1 a medida que el tiempo llega al infinito, pero si el sistema comienza con r = 0, permanecerá en el equilibrio para todos los tiempos. Esto implica que todas las soluciones 2del sistema original que no comienzan en x1 = x2 = 0 se acercarán a el círculo x + x2 = 1 al aumentar el tiempo. 1 2 Para demostrar la estabilidad de la solución completa (4.12), debemos investigar el comportamiento de las soluciones vecinas con diferentes condiciones iniciales. Ya hemos se ha demostrado que el radio r se acercará al de la solución (4.12) siempre que r(0) > 0. La ecuación del ángulo puede integrarse analíticamente para dar (t)- = t + (0), lo que demuestra que las soluciones que parten de ángulos diferentes no conni divergen. Por lo tanto, el círculo unitario es atrayente, pero la solución (4.12) es sólo estable, no asintóticamente estable. El comportamiento del sistema se ilustra con la simulación de la figura 4.12. Obsérvese que las soluciones se aproximan rápidamente al círculo, pero que hay un desplazamiento de fase constante entre las soluciones. � 4.4 Análisis de estabilidad de Lyapunov Volvemos ahora al estudio del sistema no lineal completo dx = F(x), x ∈ Rn . (4.13) dt Una vez definido cuándo una solución de un sistema dinámico no lineal es estable, podemos preguntarnos cómo demostrar que una solución dada es estable, asintóticamente estable o inestable. En el caso de los sistemas físicos, a menudo se puede argumentar sobre la estabilidad basándose en la disipación de energía. La generalización de esa técnica a sistemas dinámicos arbitrarios se basa en el uso de funciones de Lyapunov en lugar de energía. 111 4.4. ANÁLISIS DE ESTABILIDAD DE LYAPUNOV 2 2 x1 1 0 -1 0 1.5 1 x2 0.5 5 10 15 20 15 20 2 0 x2 1 0 -1 -0.5 -1 -1 0 x1 1 2 0 5 10 Tiempo t Figura 4.12: Curvas de solución para un ciclo límite estable. La representación de fase de la izquierda muestra que la trayectoria del sistema converge rápidamente al ciclo límite estable. Los puntos de partida de las trayectorias están marcados con círculos en el retrato de fase. Los gráficos del dominio del tiempo de la derecha muestran que los estados no convergen a la solución, sino que mantienen un error de fase constante. En esta sección describiremos las técnicas para determinar la estabilidad de las so- luciones de un sistema no lineal (4.13). Por lo general, estaremos interesados en la estabilidad de los puntos de equilibrio, y será conveniente suponer que xe = 0 es el punto de equi- librio de interés. (Si no es así, reescribir las ecuaciones en un nuevo conjunto de coordenadas z = x - xe .) Funciones de Lyapunov Una función de Lyapunov V :→ Rn R es una función similar a la energía que puede utilizarse para determinar la estabilidad de un sistema. A grandes rasgos, si podemos encontrar una función no negativa que siempre disminuye a lo largo de las trayectorias del sistema, podemos concluir que el mínimo de la función es un punto de equilibrio estable (localmente). Para describir esto más formalmente, empezamos con algunas definiciones. Decimos que una función continua V es definida positiva si V (x) / > 0 para todo x = 0 y V (0) = 0. Del mismo modo, una función es definida/negativa si V (x) < 0 para todo x = 0 y V (0) = 0. Decimos que una función ≥ V es semidefinida positiva si V (x) 0 para todo x, pero V (x) puede ser cero en otros puntos que no sean sólo x = 0. Para ilustrar la diferencia entre una función definida positiva y una función semidefinida, supongamos que x ∈ R2 y que V1 (x) = x2 , V2 (x) = x2 + x2 . 1 1 2 Tanto V1 como V2 son siempre no negativos. Sin embargo, es posible que V1 sea cero incluso / si x = 0. En concreto, si fijamos x = (0,∈c), donde c R es cualquier número no nulo, entonces V1 (x) = 0. Por otro lado, V2 (x) = 0 si y sólo si x = (0, 0). Por tanto, V1 es semidefinido positivo y V2 es definido positivo. Ahora podemos caracterizar la estabilidad de un punto de equilibrio xe = 0 para el sistema (4.13). Teorema 4.2 (Teorema de estabilidad de Lyapunov). Sea V una función no negativa sobre 112 CAPÍTULO 4. COMPORTAMIENTO V DINÁMICO x dx dt V (x) = c1 < c2 V (x) = c2 Figura 4.13: Ilustración geométrica del teorema de estabilidad de Lyapunov. Los contornos cerrados representan los conjuntos de niveles de la función de Lyapunov V (x) = c. Si dx/dt apunta hacia dentro de estos conjuntos en todos los puntos del contorno, entonces las trayectorias del sistema siempre harán que V (x) disminuya a lo largo de la trayectoria. Rn y que V˙ representan la derivada temporal de V a lo largo de las trayectorias del sistema dinámica (4.13): V dx V V˙ = = F(x). x dt x Sea Br = Br (0) una bola de radio r alrededor del origen. Si existe r > 0 tal que V es definida positiva y V˙ es semidefinida negativa para todo x∈Br , entonces x = 0 es localmente estable en el sentido de Lyapunov. Si V es definida positiva y V˙ es definida negativa en Br , entonces x = 0 es localmente estable asintóticamente. Si V satisface una de las condiciones anteriores, decimos que V es una función de Lyapunov (local) para el sistema. Estos resultados tienen una bonita interpretación geométrica. Las curvas de nivel para una función definida positiva son las curvas definidas por V (x) = c, c > 0, y para cada c se obtiene un contorno cerrado, como se muestra en la figura 4.13. El La condición de que V˙ (x) sea negativa significa simplemente que el campo vectorial apunta hacia contornos de nivel inferior. Esto significa que las trayectorias se mueven hacia valores cada vez más pequeños de V y si V˙ es negativa definida entonces x debe acercarse a 0. Ejemplo 4.9 Sistema no lineal escalar Consideremos el sistema escalar no lineal dx 2 = - x. dt 1 + x Este sistema tiene puntos de equilibrio en x = 1 y x = -2. Consideramos el punto de equilibrio en x = 1 y reescribimos la dinámica utilizando z = x - 1: dz 2 = - z - 1, dt 2 + z que tiene un punto de equilibrio en z = 0. Consideremos ahora el candidato Lyapunov función 1 V (z) = z2 , 2 113 4.4. ANÁLISIS DE ESTABILIDAD DE LYAPUNOV que es globalmente definida positiva. La derivada de V a lo largo de las trayectorias del sistema viene dada por 2z V˙ (z) = zz˙ = - z 2- z. 2+z Si restringimos nuestro análisis a un intervalo Br , donde r < 2, entonces 2 + z > 0 y podemos multiplicar por 2 + z para obtener 2z -(z2 + z)(2 + z) = -z3 - 3z2 = -z2 (z + 3) < 0, z ∈ Br , r < 2. Se deduce que V˙ (z) < 0 para todoz ∈ / Br , z = 0, y por tanto el punto de equilibrio xe = 1 es localmente estable asintóticamente. Una situación un poco más complicada se da si V˙ es semidefinido negativo. En este caso es posible que V˙ (x) = 0 cuando x = 0, y por lo tanto x podría dejar de disminuir su valor. El siguiente ejemplo ilustra este caso. Ejemplo 4.10 Péndulo colgante Un modelo normalizado para un péndulo colgante es dx1 dx2 = x2 , = -sin x1 , dt dt donde x1 es el ángulo entre el péndulo y la vertical, correspondiendo x1 positivo a la rotación en sentido contrario a las agujas del reloj. La ecuación tiene un equilibrio x1 = x2 = 0, que corresponde a que el péndulo cuelga en línea recta. Para explorar la estabilidad de este equilibrio elegimos la energía total como función de Lyapunov: 1 2 1 2 1 x ≈ x + x2 . 2 2 2 1 2 2 La aproximación en serie de Taylor muestra que la función es positiva definida para x pequeña. La derivada temporal de V (x) es V (x) = 1 -cos x1 + V˙ = x˙1 sin x1 + x˙2 x2 = x2 sin x1 - x2 sin x1 = 0. Como esta función es semidefinida negativa, se deduce del teorema de Lyapunov que el equilibrio es estable, pero no necesariamente estable asintóticamente. Cuando se per- turba, el péndulo se mueve realmente en una trayectoria que corresponde a una energía constante. Las funciones de Lyapunov no siempre son fáciles de encontrar y no son únicas. En muchos casos se pueden utilizar las funciones de energía como punto de partida, como se hizo en el ejemplo 4.10. Resulta que las funciones de Lyapunov siempre pueden encontrarse para cualquier sistema estable (bajo ciertas condiciones), y por lo tanto se sabe que si un sistema es estable, existe una función de Lyapunov (y viceversa). Resultados recientes que utilizan métodos de suma de cuadrados han proporcionado enfoques sistemáticos para encontrar sistemas de Lyapunov [PPP02]. Las técnicas de suma de cuadrados pueden aplicarse a una amplia variedad de sistemas, incluidos los sistemas cuya dinámica se describe mediante ecuaciones polinómicas, así como los sistemas híbridos, que pueden tener diferentes modelos para diferentes regiones del espacio de estados. 114 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO Para un sistema dinámico lineal de la forma dx = Ax, dt es posible construir funciones de Lyapunov de forma sistemática. Para ello, consideramos funciones cuadráticas de la forma V (x) = xT Px, donde PR ∈n×n es una matriz simétrica (P = PT ). La condición de que V sea positiva definida es equivalente a la condición de que P sea una matriz positiva definida: xT Px > 0, para todo x /= 0, que escribimos como P > 0. Se puede demostrar que si P es simétrica, entonces P es definida positiva si y sólo si todos sus valores propios son reales y positivos. Dada una función de Lyapunov candidata V (x) = xT Px, ahora podemos calcular su derivada a lo largo de los flujos del sistema: V˙ = V dx = xT (AT P + PA)x =: -xT Qx. x dt El requisito de que V˙ sea negativa definida (para la estabilidad asintótica) se convierte en una condición de que la matriz Q sea positiva definida. Así, para encontrar una función de Lyapunov para un sistema lineal basta con elegir una Q > 0 y resolver la ecuación de Lyapunov: AT P + PA = -Q. (4.14) Se trata de una ecuación lineal en las entradas de P, por lo que puede resolverse mediante álgebra lineal. Se puede demostrar que la ecuación siempre tiene solución si todos los valores propios de la matriz A están en el semiplano izquierdo. Además, la solución P es definida positiva si Q es definida positiva. Por tanto, siempre es posible encontrar una función de Lyapunov cuadrática para un sistema lineal estable. Aplazaremos la demostración de esto hasta el capítulo 5, donde se desarrollarán más herramientas para el análisis de sistemas lineales. Sabiendo que tenemos un método directo para encontrar las funciones de Lyapunov para los sistemas lineales, ahora podemos investigar la estabilidad de los sistemas no lineales. Consideremos el sistema dx = F(x) =: Ax + F̃( x), (4.15) dt donde F(0) = 0 y F̃( x) contiene términos de segundo orden y superiores en los elementos de x. La función Ax es una aproximación de F(x) cerca del origen, y podemos determinar la función de Lyapunov para la aproximación lineal e investisi también es una función de Lyapunov para el sistema no lineal completo. El siguiente ejemplo ilustra el enfoque. Ejemplo 4.11 Cambio genético Consideremos la dinámica de un conjunto de represores conectados entre sí en un ciclo, como se muestra en la Figura 4.14a. La dinámica normalizada para este sistema se dio en 115 4.4. ANÁLISIS DE ESTABILIDAD DE LYAPUNOV 5 u1 z1 , f (z1 ) z2 , f (z2 ) 4 A B z2 , 3 f 2 (z1 ) 1 u2 0 0 1 (a) Esquema del circuito 2 3 z1 , f (z2 ) 4 5 (b) Puntos de equilibrio Figura 4.14: Estabilidad de un interruptor genético. El diagrama del circuito en (a) representa dos proteínas que reprimen la producción de la otra. Las entradas u1 y u2 interfieren en esta represión, lo que permite modificar la dinámica del circuito. Los puntos de equilibrio de este circuito pueden determinarse mediante la intersección de las dos curvas mostradas en (b). Ejercicio 2.9: dz 1 = dz 2 = - z1 , - z2 , (4.16) 1 +2 1 +1 zn zn donde z1 y z2 son versiones escaladas de las concentraciones de proteínas, n y son parámetros que describen la interconexión entre los genes y hemos puesto a cero las entradas externas u1 y u2 . Los puntos de equilibrio del sistema se encuentran igualando las derivadas temporales a cero. Definimos d f −n−1 fu f′ u ()= , ()= = , 1 + un du (1 + un)2 y los puntos de equilibrio se definen como las soluciones de las ecuaciones z1 = f (z2 ), z2 = f (z1 ). Si trazamos las curvas (z1 , f (z1 )) y ( f (z2 ), z2 ) en un gráfico, estas ecuaciones tendrán una solución cuando las curvas se crucen, como se muestra en la Figura 4.14b. Debido a la forma de las curvas, se puede demostrar que siempre habrá tres soluciones: una en z1e = z2e , otra con z1e < z2e y otra con z1e > z2e . Si ≫ es 1, entonces podemos demostrar que las soluciones están dadas aproximadamente por z1e ≈ , z2e ≈ 1 n-1 ; z1e = z2e ; z1e ≈ 1 n-1 , z2e ≈ . (4.17) Para comprobar la estabilidad del sistema, escribimos f (u) en términos de su expansión en serie de Taylor sobre ue : f (u) = f (ue ) + f′ (ue )-(u - ue ) + 2 1 f′′ (ue )-(u - ue )2 + términos de orden superior, donde f′ representa la primera derivada de la función, y f′′ la segunda. Utilizando 116 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO estas aproximaciones, la dinámica puede escribirse entonces como dw dt = -1 f′ (z1e ) f′(z2e ) w + F̃(w), -1 donde w = zz - e es el estado desplazado y F̃( w) representa los términos cuadráticos y de orden superior. Ahora utilizamos la ecuación (4.14) para buscar una función de Lyapunov. Eligiendo Q = I y dejando que P ∈ R2×2 tenga elementos p ij , buscamos una solución de la ecuación -1 f1′ p11 p12 p p12-1 f2′ -1 0 + 11 = , -1 -1 p12 p22 f1′ f2′ -1p12 0 p22 donde f1′ = f′ (z1e ) y f2′ = f′ (z2e ). Nótese que hemos fijado p21 = p12 para forzar que P sea simétrica. Multiplicando las matrices, obtenemos -2p 11 + 2 f1′ p12 p11 f2′ - 2p 12 + p22 f1′ -1 0 = , -1 0 p11 f2′ - 2p12 + -2p22 + 2 f2′ que es un conjunto de ecuaciones lineales para las incógnitas p ij . Podemos resolver p22 f1′ lineales para obtener p12 estas ecuaciones 2 p11 f1′ - f2′ f1′ + 2 , =4( f1′ f2′ - 1) 2 f2′ - f1′ f2′ + 2 f1′ + f2′ p12 = - , 4( 1f′ 2f′ - 1) p22 = - 4( 1f′ f2′ - 1) . Para comprobar que V (w) = wT Pw es una función de Lyapunov, debemos verificar que V (w) es una función definida positiva o, equivalentemente, × que P > 0. Como P es una matriz simétrica 2 2, tiene dos valores propios reales1 y2 que satisfacen 1 +2 = trace(P),1 - 2 = det(P). Para que P sea definida positiva debemos tener que1 y2 son positivas, y por lo tanto requerimos que trace(P) = 2 f1′ -2 f2′ f1′ + f2′ + 4 4-4 f′ f ′ 2 > 0, det(P) = 2 f1′ -2 f2′ f1′ + f2′ +4 16 - 16 f′ f ′ 1 2 2 > 0. 1 2 Vemos que traza(P) = 4 det(P) y el numerador de las expresiones es simplemente - ( f1 2 f2 ) + 4 > 0, por lo que basta con comprobar - el signo de 1 f1′ f2′ . En particular, para que P sea definida positivamente, requerimos que f′ (z1e ) f′ (z2e ) < 1. Ahora podemos hacer uso de las expresiones para f′ definidas anteriormente y evaluar en las ubicaciones aproximadas de los puntos de equilibrio derivados en la ecuación (4.17). Para los puntos de equilibrio donde z1e /= z2e , podemos demostrar que 2 1 −−(n-1) f′ (z1e ) f′ (z2e ) ≈ f′ () f′ ( 1 ) −− ≈ n2 -n2+n. n2= n (1 + ) 1 + -n(n-1) Usando n = 2 y ≈ 200 del Ejercicio 2.9, vemos que f′ (z1e ) f′ (z2e ) ≪ 1 y por tanto P es una definida positiva. Esto implica que V es una función definida positiva y 117 4.4. ANÁLISIS DE ESTABILIDAD DE LYAPUNOV 5 Co 5 z1 (A) z2 (B) nc 4 4 ent Pr rac ote io 3 ína 3 ne B s 2 [a 2 de es pr 1 cal 1 ote a] ína 0 0 0 1 2 3 4 5 0 5 10 15 20 25 s Proteína A [a escala] Tiempo t [escalado] [a es Figura 4.15: Dinámica de un interruptor genético. El retrato de fase de la izquierda cal muestra que el interruptor tiene tres puntos de a]equilibrio, que corresponden a la proteína A con una concentración mayor, igual o menor que la proteína B. El punto de equilibrio con concentraciones iguales de proteínas es inestable, pero los otros puntos de equilibrio son estables. La simulación de la derecha muestra la respuesta temporal del sistema partiendo de dos condiciones iniciales diferentes. La parte inicial de la curva corresponde a las concentraciones iniciales z(0) = (1, 5) y converge al equilibrio donde z1e < z2e. En el tiempo t = 10, las concentraciones son perturbadas por -+2 en z1 y 2 en z2 , moviendo el estado a la región del espacio de estado cuyas soluciones convergen al punto de equilibrio donde z2e < z1e. por lo tanto una función potencial de Lyapunov para el sistema. Para determinar si el sistema (4.16) es estable, calculamos ahora el punto V˙ rium. Por construcciÛn, en el equilibrio- V˙ = wT (PA + AT P)w + F̃T(w)Pw + wT PF̃(w) = -wT w + F̃T(w)Pw + wT PF̃(w). Dado que todos los términos de F˜ son cuadráticos o de orden superior en w, se deduce que F̃T(w)Pw y wT PF̃(w) consisten en términos que son al menos de tercer orden en w. Por lo tanto, si w está suficientemente cerca de cero, entonces los términos cúbicos y de orden superior serán más pequeños que los cuadráticos. Por lo tanto, suficientemente cerca de w = 0, V˙ es definida negativa, lo que nos permite concluir que estos puntos de equilibrio son ambos estables. La figura 4.15 muestra el retrato de fase y las trazas de tiempo para un sistema con = 4, ilustrando la naturaleza biestable del sistema. Cuando la condición inicial comienza con una concentración de proteína B mayor que la de A, la solución converge a la punto de equilibrio en (aproximadamente) (1/n-1, ). Si A es mayor que B, entonces se va a (, 1/n-1). El punto de equilibrio con z1e = z2e es inestable. De forma más general, podemos investigar qué dice la aproximación lineal sobre la estabilidad de una solución de una ecuación no lineal. El siguiente teorema da una respuesta parcial para el caso de la estabilidad de un punto de equilibrio. Teorema 4.3. Consideremos el sistema dinámico (4.15) con F(0) = 0 y F˜ tal que lim F̃ las partes reales de todos los valores propios de \( x) /\x\0\como → x 0 \. Si \→ A son estrictamente menores que cero, entonces xe = 0 es un punto de equilibrio localmente asintóticamente estable de la ecuación (4.15). 118 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO Este teorema implica que la estabilidad asintótica de la aproximación lineal implica la estabilidad asintótica local del sistema no lineal original. El teorema es muy importante para el control porque implica que la estabilización de una aproximación lineal de un sistema no lineal resulta en un equilibrio estable para el sistema no lineal. La demostración de este teorema sigue la técnica utilizada en el Ejemplo 4.11. Se puede encontrar una demostración formal en [Kha01]. �� Principio de Invariancia de Krasovski-Lasalle Para los sistemas no lineales generales, especialmente los de forma simbólica, puede ser difícil encontrar una función V definida positiva cuya derivada sea estrictamente definida negativa. El teorema de Krasovski-Lasalle permite concluir la estabilidad asintótica de un punto de equilibrio en condiciones menos restrictivas, es decir, en el caso de que V˙ sea semidefinida negativa, lo que suele ser más fácil de construir. Sin embargo, sólo se aplica a sistemas invariables en el tiempo o periódicos. Esta sección hace uso de algunos conceptos adicionales de los sistemas dinámicos; véase Hahn [Hah67] o Khalil [Kha01] para una descripción más detallada. Nos ocuparemos del caso invariante en el tiempo y comenzaremos introduciendo algunas definiciones más. Denotamos las trayectorias de solución del sistema invariante en el tiempo dx = F(x) (4.18) dt como x(t; a), que es la solución de la ecuación (4.18) en el tiempo t partiendo de a en t0 = 0. El conjunto límite de una trayectoria x(t; a) es el ∈ conjunto de todos los puntos z Rn tales que existe una secuencia estrictamente creciente → de tiempos → n tn tal que⊂x(tn ; a) z como n . Se dice que un conjunto M R es un conjunto ∈ ∈ invariante ≥ si para todo b M, tenemos x(t; b) M para todo t 0. Se puede demostrar que el conjunto límite de toda trayectoria es cerrado y invariante. Ahora podemos enunciar el principio de Krasovski-Lasalle. Teorema 4.4 (Principio de Krasovski-Lasalle). Sea V : Rn → R una variable localmente positiva función definida tal que en el conjunto compacto r = {x ∈ Rn : V (x) ≤ r} tenemos V˙ (x) ≤ 0. Definir S = {x ∈r : V˙ (x) = 0}. A medida → que t , la trayectoria tiende al mayor conjunto invariante dentro de S; es decir, su conjunto límite está contenido dentro del mayor conjunto invariante en S. En particular, si S no contiene ningún conjunto invariante distinto de x = 0, entonces 0 es asintóticamente estable. Las pruebas se dan en [Kra63] y [LaS60]. Las funciones de Lyapunov pueden utilizarse a menudo para diseñar controladores estabilizadores, como se ilustra en el siguiente ejemplo, que también ilustra cómo puede aplicarse el principio de Krasovski-Lasalle. Ejemplo 4.12 Péndulo invertido Siguiendo el análisis del ejemplo 2.7, un péndulo invertido puede describirse mediante el siguiente modelo normalizado: dx1 dx2 (4.19) = x2 , = sen x1 + u cos x1 , dt dt 119 4.4. ANÁLISIS DE ESTABILIDAD DE LYAPUNOV 4 m ˙ 2 x2 l 0 -2 u (a) Sistema físico − -2 − 0 x1 (b) Retrato de fase (c) Vista del colector Figura 4.16: Péndulo invertido estabilizado. Una ley de control aplica una fuerza u en la parte inferior del péndulo para estabilizar la posición invertida (a). El retrato de fase (b) muestra que el punto de equilibrio correspondiente a la posición vertical está estabilizado. La región sombreada indica el conjunto de condiciones iniciales que convergen al origen. La elipse corresponde a un conjunto de niveles de una función de Lyapunov V (x) para la que V (x) > 0 y V˙ (x) < 0 para todos los puntos dentro de la elipse. Esto puede utilizarse como una estimación de la región de atracción del equilibrio punto. La dinámica real del sistema evoluciona en un colector (c). donde x1 es la desviación angular de la posición vertical y u es la aceleración (a escala) del pivote, como se muestra en la figura 4.16a. El sistema tiene un equilibrio en x1 = x2 = 0, que corresponde al péndulo en posición vertical. Este equilibrio es inestable. Para encontrar un controlador estabilizador consideramos el siguiente candidato para una función Lya- punov: 1 2 1 x2 . x + V (x) = (cos x1 - 1) + a(1 -cos2 x1 ) 1 x2 ≈ a 2 1 2 2 + 2 2 La expansión en serie de Taylor muestra que la función es positiva definida cerca del origen si a > 0,5. La derivada temporal de V (x) es V˙ = -x˙1 sen x1 + 2ax˙1 sen x1 cos x1 + x˙2 x2 = x2 (u + 2a sen x1 ) cos x1 . Elección de la ley de retroalimentación da u = -2a sen x1 - x2 cos x1 V˙ = -x22cos2 x1 . Del teorema de Lyapunov se deduce que el equilibrio es localmente estable. Sin embargo, como la función es sólo semidefinida negativa, no podemos concluir la estabilidad asintótica utilizando el Teorema 4.2. Sin embargo, nótese que V˙ = 0 implica que x2 = 0 o x1 = n.± Si restringimos nuestro análisis a una pequeña vecindad del origen≪ r , r , entonces podemos definir S = {(x1 , x2 ) ∈r : x2 = 0} 120 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO y podemos calcular el mayor conjunto invariante dentro de S. Para que una trayectoria permanezca en este conjunto debemos tener x2 = 0 para todo t y, por tanto, x˙2 (t) = 0 también. Utilizando la dinámica del sistema (4.19), vemos que x2 (t) = 0 y x˙2 (t) = 0 implica que x1 (t) = 0 también. Por tanto, el mayor conjunto invariante dentro de S es (x1 , x2 ) = 0, y podemos utilizar el principio de Krasovski-Lasalle para concluir que el origen es localmente asintótico estable. En la Figura 4.16b se muestra un retrato de fase del sistema de bucle cerrado. En el análisis y el retrato de fase, hemos tratado el ángulo del péndulo = x1 como un número real. De hecho, es un ángulo con = equivalente a = 0. Por lo tanto, la dinámica del sistema evoluciona realmente en un colector (superficie lisa) como se muestra en la figura 4.16c. El análisis de los sistemas dinámicos no lineales en colectores es más complicado, pero utiliza muchas de las mismas ideas básicas presentadas aquí. � 4.5 Comportamiento paramétrico y no local La mayoría de las herramientas que hemos explorado se centran en el comportamiento local de un sistema fijo cerca de un punto de equilibrio. En esta sección introducimos brevemente algunos conceptos relativos al comportamiento global de los sistemas no lineales y la dependencia del comportamiento de un sistema de los parámetros del modelo del sistema. Regiones de atracción Para conocer el comportamiento de un sistema no lineal podemos empezar por encontrar los puntos de equilibrio. Luego podemos proceder a analizar el comportamiento local alrededor de los equilibrios. El comportamiento de un sistema cerca de un punto de equilibrio se denomina comportamiento local del sistema. Las soluciones del sistema pueden ser muy diferentes lejos de un punto de equilibrio. Esto se ve, por ejemplo, en el péndulo estabilizado del ejemplo 4.12. El punto de equilibrio invertido es estable, con pequeñas oscilaciones que eventualmente llegan al origen. Pero lejos de este punto de equilibrio hay trayectorias que convergen a otros puntos de equilibrio o incluso casos en los que el péndulo gira alrededor de la cima múltiples veces, dando oscilaciones muy largas que son topo- lógicamente diferentes de las cercanas al origen. Para comprender mejor la dinámica del sistema, podemos examinar el conjunto de todas las condiciones iniciales que convergen a un determinado punto de equilibrio asintóticamente estable. Este conjunto se denomina región de atracción para el punto de equilibrio. Un ejemplo se muestra en la región sombreada del retrato de fase de la Figura 4.16b. En general, el cálculo de las regiones de atracción es difícil. Sin embargo, incluso si no podemos determinar la región de atracción, a menudo podemos obtener parches alrededor de los equilibrios estables que se atraen. Esto proporciona información parcial sobre el comportamiento del sistema. Un método para aproximar la región de atracción es mediante el uso de funciones de Lyapunov. Supongamos que V es una función de Lyapunov local para un sistema alrededor de un punto de equilibrio x . Sea0r un conjunto en el que V (x) tiene un valor menor que r, n r = {x ∈ R : V (x) ≤ r}, 4.5. COMPORTAMIENTO PARAMÉTRICO Y NO LOCAL 121 y supongamos que V˙ (x) ≤ 0 para todo∈r , con igualdad sólo en el punto de equilibrio x0 . Entoncesr está dentro de la región de atracción del punto de equilibrio. Como esta aproximación depende de la función de Lyapunov y la elección de la función de Lyapunov no es única, a veces puede ser una estimación muy conservadora. A veces se da el caso de que podemos encontrar una función de Lyapunov V tal que V es definida positiva y V˙ es negativa (semi) definida ∈ para todo x Rn . En muchos casos se puede demostrar entonces que la región de atracción para el punto de equilibrio es todo el espacio de estados, y se dice que el punto de equilibrio es globalmente estable. Ejemplo 4.13 Péndulo invertido estabilizado Consideremos de nuevo el péndulo invertido estabilizado del ejemplo 4.12. La función de Lya- punov para el sistema era 1 2 x , 2 2 y V˙ era semidefinido negativo para todo x y distinto de cero cuando x1 /= . Por lo tanto, cualquier x tal |que | x1 < y V (x) > 0 estará dentro del conjunto invariante definido por las curvas de nivel de V (x). Uno de estos conjuntos de nivel se muestra en la Figura 4.16b. V (x) = (cos x1 - 1) + a(1 -cos2 x1 ) + Bifurcaciones Otra propiedad importante de los sistemas no lineales es cómo cambia su comportamiento a medida que cambian los parámetros que rigen la dinámica. Podemos estudiar esto en el contexto de los modelos explorando cómo la ubicación de los puntos de equilibrio, su estabilidad, sus regiones de atracción y otros fenómenos dinámicos, como los ciclos límite, varían en función de los valores de los parámetros del modelo. Consideremos una ecuación diferencial de la forma dx = F(x, ), x ∈ Rn ∈ Rk , (4.20) dt donde x es el estado y es un conjunto de parámetros que describen la familia de ecuaciones. Las soluciones de equilibrio satisfacen F(x, ) = 0, y al variar, las soluciones correspondientes xe () también pueden variar. Decimos que el sistema (4.20) tiene una bifurcación en = ∗ si el comportamiento del sistema cambia cualitativamente en ∗. Esto puede ocurrir tanto por un cambio en el tipo de estabilidad como por un cambio en el número de soluciones a un valor dado de . Ejemplo 4.14 Depredador-presa Consideremos el sistema depredador-presa descrito en el apartado 3.7. La dinámica del sistema viene dada por ( dH H aHL dL aHL - dL, (4.21) = rH 1 - , =b dt k dt c+ c+ H H 122 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO 200 150 Inestable 150 c 100 H Establ e 100 50 50 Inestable 0 1.5 2 2.5 a 3 3.5 (a) Diagrama de estabilidad 4 0 2 4 a 6 8 (b) Diagrama de bifurcación Figura 4.17: Análisis de bifurcación del sistema depredador-presa. (a) Diagrama de estabilidad paramétrica que muestra las regiones del espacio de parámetros para las que el sistema es estable. (b) Diagrama de bifurcación que muestra la ubicación y la estabilidad del punto de equilibrio en función de a. La línea sólida representa un punto de equilibrio estable, y la línea discontinua representa un punto de equilibrio inestable. Las líneas discontinuas indican los límites superior e inferior del límite ciclo en ese valor de parámetro (calculado mediante simulación). Los valores nominales de los parámetros del modelo son a = 3,2, b = 0,6, c = 50, d = 0,56, k = 125 y r = 1,6. donde H y L son los números de liebres (presas) y linces (depredadores) y a, b, c, d, k y r son parámetros que modelan un sistema depredador-presa determinado (descrito con más detalle en el apartado 3.7). El sistema tiene un punto de equilibrio en He > 0 y Le > 0 que se puede encontrar numéricamente. Explorar cómo los parámetros del modelo afectan al comportamiento del sistema, elegimos centrarnos en dos parámetros específicos de interés: a, el coeficiente de interacción entre las poblaciones y c, un parámetro que afecta a la tasa de consumo de las presas. La figura 4.17a es un diagrama de estabilidad paramétrica calculado numéricamente que muestra las regiones del espacio de parámetros elegido para las que el punto de equilibrio es estable (dejando los demás parámetros en sus valores nominales). Vemos en esta figura que para ciertas combinaciones de a y c obtenemos un punto de equilibrio estable, mientras que en otros valores este punto de equilibrio es inestable. La figura 4.17b es un diagrama de bifurcación calculado numéricamente para el sistema. En este diagrama, elegimos un parámetro para variar (a) y luego trazamos el valor de equilibrio de uno de los estados (H) en el eje vertical. El resto de los parámetros se ajustan a sus valores nominales. Una línea sólida indica que el punto de equilibrio es estable; una línea discontinua indica que el punto de equilibrio es inestable. Obsérvese que la estabilidad en el diagrama de bifurcación coincide con la del diagrama de estabilidad paramétrica para c = 50 (el valor nominal) y a que varía de 1,35 a 4. Para el sistema depredadorpresa, cuando el punto de equilibrio es inestable, la solución converge a un punto estable ciclo límite. La amplitud de este ciclo límite se muestra con la línea discontinua de la Figura 4.17b. Una forma particular de bifurcación que es muy común cuando se controlan sistemas lineales es que el equilibrio permanece fijo pero la estabilidad del equilibrio 123 4.5. COMPORTAMIENTO PARAMÉTRICO Y NO LOCAL 15 10 Inestable 5 R Inestabl e 0 -5 V = 6.1 5 So 0 V -5 -10 -15 10 Establ e -10 0 10 Velocidad v [m/s] (a) Diagrama de estabilidad -10 V = 6.1 -10 0 R 10 (b) Diagrama de lugar de la raíz Figura 4.18: Gráficos de estabilidad para una bicicleta que se mueve a velocidad constante. El gráfico (a) muestra la parte real de los valores propios del sistema en función de la velocidad de la bicicleta v. El sistema es estable cuando todos los valores propios tienen parte real negativa (región sombreada). El gráfico de (b) muestra el lugar de los valores propios en el plano complejo a medida que se varía la velocidad v y ofrece una visión diferente de la estabilidad del sistema. Este tipo de gráfico se denomina diagrama de localización de raíces. cambia al variar los parámetros. En este caso es revelador trazar los valores propios del sistema en función de los parámetros. Estos gráficos se denominan diagramas de localización de la raíz porque dan el lugar de los valores propios cuando cambian los parámetros. Las bifurcaciones se producen cuando los valores de los parámetros son tales que hay valores propios con parte real cero. Los entornos informáticos como LabVIEW, MAT- LAB y Mathematica tienen herramientas para trazar los lugares de las raíces. Ejemplo 4.15 Diagrama de lugar de la raíz para un modelo de bicicleta Consideremos el modelo lineal de bicicleta dado por la ecuación (3.7) en la sección 3.2. Introduciendo las variables de estado x1 = , x2 = , x3 = ˙ y x4 = ˙ y fijando el par de dirección T = 0, las ecuaciones pueden escribirse como dx 0 I = x =: Ax, 0 1 2 1 − Cv dt -M− (K0 + K22 v2 y) v-Mes 0 donde I es una la velocidad de la bicicleta. La × matriz de identidad 0 figura 4.18a muestra las partes reales de los valores propios en función de la velocidad. La figura 4.18b muestra la dependencia de los valores propios de A en función de la velocidad v0 . Las figuras muestran que la bicicleta es inestable para velocidades bajas porque dos valores propios están en el semiplano derecho. Al aumentar la velocidad, estos valores propios se desplazan al semiplano izquierdo, lo que indica que la bicicleta se autoestabiliza. A medida que la velocidad aumenta, hay un valor propio cerca del origen que se desplaza al semiplano derecho, lo que hace que la bicicleta vuelva a ser inestable. Sin embargo, este valor propio es pequeño, por lo que puede ser fácilmente estabilizado por un ciclista. La figura 4.18a muestra que la bicicleta se autoestabiliza para velocidades entre 6 y 10 m/s. Los diagramas de estabilidad paramétrica y los diagramas de bifurcación pueden proporcionar información valiosa sobre la dinámica de un sistema no lineal. Suele ser necesario elegir cuidadosamente los parámetros que se trazan, incluida la combinación de los parámetros naturales 124 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO S Micrófono exterior n Teléf ono de cabez a Controlad or Micrófon o interno Micrófono externo (a) a, b Filtro - e Micróf ono interior w Parámetros (b) Figura 4.19: Auriculares con cancelación de ruido. El ruido es detectado por el microteléfono exterior (a) y enviado a un filtro de forma que anule el ruido que penetra en el auricular (b). Los parámetros del filtro a y b son ajustados por el controlador. S representa la señal de entrada a los auriculares. del sistema para eliminar los parámetros adicionales cuando sea posible. Programas informáticos como AUTO, LOCBIF y XPPAUT proporcionan algoritmos numéricos para producir diagramas de estabilidad y bifurcación. Diseño de dinámicas no lineales mediante retroalimentación En la mayor parte del texto nos basaremos en aproximaciones lineales para diseñar leyes de retroalimentación que estabilicen un punto de equilibrio y proporcionen un nivel de rendimiento deseado. Sin embargo, para algunas clases de problemas el controlador de retroalimentación debe ser no lineal para cumplir su función. Haciendo uso de las funciones de Lyapunov a menudo podemos diseñar una ley de control no lineal que proporcione un comportamiento estable, como vimos en el Ejemplo 4.12. Una forma de diseñar sistemáticamente un controlador no lineal es comenzar con una función de Lyapunov can- didata V (x) y un sistema de control x˙ = f (x, u). Decimos que V (x) es una función de Lyapunov de control si para cada x existe una u tal que V˙ (x) = V x f (x, u) < 0. En este caso, puede ser posible encontrar una función (x) tal que u = (x) estabiliza el sistema. El siguiente ejemplo ilustra el enfoque. Ejemplo 4.16 Anulación del ruido La cancelación del ruido se utiliza en la electrónica de consumo y en los sistemas industriales para reducir los efectos del ruido y las vibraciones. La idea es reducir localmente el efecto del ruido generando señales opuestas. Un par de auriculares con cancelación de ruido como los que se muestran en la figura 4.19a es un ejemplo típico. En la Figura 4.19b se muestra un diagrama esquemático del sistema. El sistema tiene dos micrófonos, uno fuera de los auriculares que capta el ruido exterior n y otro dentro de los auriculares que capta la señal e, que es una combinación de la señal deseada y el ruido exterior que penetra en el auricular. La señal del micrófono exterior se filtra y se envía a los auriculares de forma que anula el 125 4.5. COMPORTAMIENTO PARAMÉTRICO Y NO LOCAL ruido externo que penetra en los auriculares. Los parámetros del filtro se ajustan mediante un mecanismo de retroalimentación para que la señal de ruido en el microteléfono interno sea lo más pequeña posible. La retroalimentación es intrínsecamente no lineal porque actúa cambiando los parámetros del filtro. Para analizar el sistema suponemos, por simplicidad, que la propagación del ruido externo en los auriculares se modela mediante un sistema dinámico de primer orden descrito por dz = a0 z + b0 n, (4.22) dt donde z es el nivel sonoro y los parámetros a0 < 0 y b0 no se conocen. Supongamos que el filtro es un sistema dinámico del mismo tipo: dw dt = aw + bn. Deseamos encontrar un controlador que actualice a y b de manera que converjan a los parámetros (desconocidos) a0 y b0 . Introducimos x1 = e = w - z, x2 = a - a0 y x3 = b - b0 ; entonces dx1 dt = a0 (w - z) + (a - a0 )w + (b - b0 )n = a0 x1 + x2 w + x3 n. (4.23) Lograremos la cancelación del ruido si podemos encontrar una ley de retroalimentación para cambiar los parámetros a y b de manera que el error e vaya a cero. Para ello elegimos 1 V (x1 , x2 , x3 ) = 2 2 1x 2 +2 x2 + 3 x como función de Lyapunov candidata para (4.23). La derivada de V es V˙ = x1 x˙1 + x2 x˙2 + x3 x˙3 = a0 x12 + x2 (x˙2 + wx1 ) + x3 (x˙3 + nx1 ). Elección de x˙2 = −1 = −, x˙3 = −1 = −, (4.24) encontramos que V˙ =1 a0 x2 < 0, y se deduce que la función cuadrática disminuirá siempre que e = x1 = -w/ z = 0. La retroalimentación no lineal (4.24) intenta así cambiar los parámetros para que el error entre la señal y el ruido sea pequeño. Obsérvese que la ley de retroalimentación (4.24) no utiliza el modelo (4.22) explícitamente. En la figura 4.20 se muestra una simulación del sistema. En la simulación hemos representado la señal como una sinusoide pura y el ruido como un ruido de banda ancha. La figura muestra la espectacular mejora con la cancelación del ruido. La señal sinusoidal no es visible sin la cancelación del ruido. Los parámetros del filtro cambian rápidamente desde sus valores iniciales a = b = 0. Se utilizan filtros de orden superior con más coeficientes en la práctica. 126 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO No 5 ha y 0 an ula -5 ció n 0 0 a 50 100 150 -1 200 0 50 100 150 200 100 150 Tiempo t [s] 200 1 An 5 ula ció 0 n -5 0 -0.5 b 50 100 150 Tiempo t [s] 200 0.5 0 0 50 Figura 4.20: Simulación de cancelación de ruido. La figura superior izquierda muestra la señal de los auriculares sin cancelación de ruido, y la figura inferior izquierda muestra la señal con cancelación de ruido. Las figuras de la derecha muestran los parámetros a y b del filtro. 4.6 Más información El campo de los sistemas dinámicos tiene una rica literatura que caracteriza las posibles características de los sistemas dinámicos y describe cómo los cambios paramétricos en la dinámica pueden conducir a cambios topológicos en el comportamiento. Strogatz [Str94] y Abraham y Shaw [AS82] ofrecen introducciones amenas a los sistemas dinámicos. Los tratamientos más técnicos incluyen Andronov, Vitt y Khaikin [AVK87], Guckenheimer y Holmes [GH83] y Wiggins [Wig90]. Para los estudiantes con un gran interés en la mecánica, los textos de Arnold [Arn87] y Marsden y Ratiu [MR94] proporcionan un enfoque elegante utilizando herramientas de la geometría diferencial. Por último, Wilson [Wil99] y Ellner y Guckenheimer [EG05] ofrecen buenos tratamientos de los métodos de sistemas dinámicos en biología. Existe una amplia literatura sobre la teoría de la estabilidad de Lyapunov, incluyendo los textos clásicos de Malkin [Mal59], Hahn [Hah67] y Krasovski [Kra63]. Recomendamos encarecidamente el tratamiento exhaustivo de Khalil [Kha01]. Ejercicios 4.1 (Sistemas invariantes en el tiempo) Demuestre que si tenemos una solución de la ecuación diferencial (4.1) dada por x(t) con condición inicial x(t0 ) =- x0 , entonces x˜() = x(t t0 ) es una solución de la ecuación diferencial dx˜ nado. = F(x˜) con la condición inicial x˜(0) = x0 , donde = t - t0 . 4.2 (Flujo en un tanque) Un tanque cilíndrico tiene sección transversal A m2 , área efectiva de salida a m2 y flujo de entrada qin m3 /s. Un balance energético muestra que la velocidad de salida EJERCICIO S 127 es v = √2gh m/s, donde g m/s2 es la aceleración de la gravedad y h es la distancia entre la salida y el nivel del agua en el tanque (en metros). Demuestre que el sistema puede ser modelado por aj2gh dh a j2gh 1 =+ qin , qout = . dt A A Utilice los parámetros A = 0,2, a = 0,01. Simule el sistema cuando el flujo de entrada es cero y el nivel inicial es h = 0,2. ¿Esperas alguna dificultad en la simulación? 4.3 (Control de crucero) Considere el sistema de control de crucero descrito en la sección 3.1. Genere una representación de fase para el sistema de lazo cerrado en terreno plano ( = 0), en tercera velocidad, utilizando un controlador PI (con kp = 0.5 y ki = 0.1), m = 1000 kg y velocidad deseada 20 m/s. Tu modelo de sistema debe incluir los efectos de la saturación de la entrada entre 0 y 1. 4.4 (Funciones de Lyapunov) Consideremos el sistema de segundo orden dx1 dx2 = -ax1 , = -bx1 - cx2 , dt dt donde a, b, c > 0. Investiga si las funciones 1 1 1 1 b V1 (x) = x2 + x2 , V2 (x) = x2 + (x2 + x1 )2 1 2 1 2 2 2 c-a 2 son funciones de Lyapunov para el sistema y dar las condiciones que deben cumplirse. 4.5 (Sistema muelle-masa amortiguado) Consideremos un sistema muelle-masa � amortiguado con dinámica mq¨ + cq˙ + kq = 0. Un candidato natural para una función de Lyapunov es la energía total del sistema, dada por 1 1 V = mq˙2 + kq2 . 2 2 Utilice el teorema de Krasovski-Lasalle para demostrar que el sistema es asintóticamente estable. 4.6 (Generador eléctrico) El siguiente modelo simple para un generador eléctrico conectado a una red eléctrica fuerte fue dado en el Ejercicio 2.7: d2 EV = Pm - Pe = Pm J dt2 pecado. El parámetro Pmax EV X (4.25) a= = Pm X Pm es la relación entre la potencia máxima entregable Pmax = EV /X y la potencia media Pm . (a) Considere a como un parámetro de bifurcación y discuta cómo los equilibrios dependen de a. 128 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO (b) Para a > 1, demuestre que hay un centro en0 = arcsin(1/a) y una silla en = −0 . (c) Demuestre que si Pm /J = 1 existe una solución a través de la silla de montar que satisface 12 − + - a (4.26) 0 -ja 2 - 1 = 0. 2 dt Utilice la simulación para demostrar que la región de estabilidad es el interior del área encerrada por esta solución. Investiga qué ocurre si el sistema está en equilibrio con un valor de a ligeramente superior a 1 y a disminuye repentinamente, lo que corresponde a un aumento repentino de la reactancia de la línea. 4.7 (Ecuación de Lyapunov) Demuestre que la ecuación de Lyapunov (4.14) siempre tiene solución si todos los valores propios de A están en el semiplano izquierdo. (Sugerencia: Utilice el hecho de que la ecuación de Lyapunov es lineal en P y comience con el caso en que A tiene valores propios distintos). 4.8 (Control de la congestión) Considere el problema de control de la congestión descrito en la sección 3.4. Confirme que el punto de equilibrio del sistema viene dado por la ecuación (3.21) y calcule la estabilidad de este punto de equilibrio mediante una aproximación lineal. 4.9 (Balanceo hacia arriba de un péndulo) Considere el péndulo invertido, discutido en el Ejemplo 4.4, que es descrito por = + u cos, donde es el ángulo entre el péndulo y la vertical y la señal de control u es la aceleración del pivote. Utilizando la función de energía 1 ˙2 V (, ˙) = - 1 + , 2 demuestre que la retroalimentación de-estado u = k(V0 V )˙ hace que el péndulo se "balancee" hasta la posición vertical. 4.10 (Diagrama de lugar de la raíz) Considere el sistema lineal 0 dx 0 1 = x + -1u,4 y = 1x, dt 0 -3 con la retroalimentación- u =ky en función del parámetro k. . Traza la ubicación de los valores propios � 4.11 (Función de Lyapunov en tiempo discreto) Considere un sistema no lineal en tiempo discreto con dinámica x[k + 1] = f (x[k]) y punto de equilibrio xe = 0. Suponga que existe una función suave y positiva definida V : Rn → R tal que V ( f (x))-V (x) < 0 para x /= 0 y V(0) = 0. Demuestre que xe = 0 es (localmente) estable asintóticamente. 4.12 (Oscilador de amplificador operacional) En el ejercicio 3.5 se mostró un circuito de amplificador operacional para un oscilador. La solución oscilatoria para ese circuito lineal era estable 129 EJERCICIO S pero no es asintóticamente estable. En la figura siguiente se muestra un esquema de un circuito modificado que tiene elementos no lineales. ae ae C 2 R2 2 - R2 v2 R3 + v1 v1 2 R v2 v2 2 R + - v 3 R1 + R C 1 R1 1 R4 v1 + 2 v0 R R R - ae + La modificación se obtiene realizando una retroalimentación en torno a cada am- operativa. plificador que tiene condensadores que utilizan multiplicadores. La señal ae = v2 + v2 - v2 es la 1 2 0 error de amplitud. Demuestre que el sistema está modelado por dv1 = R4 v2 + 1 v1 (v2 - v2 - v2 ), 0 1 2 dt R1 R3 C1 R11C 1 dv2 = - 1 v1 + 1 v2 (v2 - v2 - v2 ). 0 1 2 dt R2 C2 R22C 2 Demuestre que, bajo condiciones adecuadas sobre los valores de los parámetros, el circuito da una os- cilación con un ciclo límite estable con amplitud v0 . (Sugerencia: utilice los resultados del ejemplo 4.8.) 4.13 (Circuito genético autoactivado) Considere la dinámica de un circuito genético que implementa la autoactivación: la proteína producida por el gen es un activador para la proteína, estimulando así su propia producción a través de la retroalimentación positiva. Utilizando los modelos presentados en el Ejemplo 2.13, la dinámica del sistema puede escribirse como dp dm p2 m p m (4.27) = , = + 0, dt dt 1 + kp2 para p, m≥ 0. Encuentre los puntos de equilibrio para el sistema y analice la estabilidad de cada uno utilizando el análisis de Lyapunov. n n 4.14 (Sistemas diagonales) Sea A ∈ R × sea una matriz cuadrada con valores propios reales 1 , . . . ,n y los correspondientes vectores propios v1 , . . . , vn . (a) Demuestre que si los valores propios son distintos (i /=j para i /= j), entonces vi /= vj para i /= j. (b) Demuestre que los vectores propios forman una base para Rn de modo que cualquier vector x puede escribirse como x =i vi parai ∈ R. 130 CAPÍTULO 4. COMPORTAMIENTO DINÁMICO (c) Sea T =v 1 v2 . . . vn y demuestre que T−1 AT es una matriz diagonal de la forma (4.8). (d) Demuestre que si algunos de losi son números complejos, entonces A puede escribirse como 1 .. A= 0 0 donde . i = ∈R o i = . − k en un conjunto adecuado de coordenadas. Esta forma de la dinámica de un sistema lineal suele denominarse forma modal. 4.15 (Péndulo Furuta) El péndulo Furuta, un péndulo invertido sobre un brazo giratorio, se muestra a la izquierda en la figura siguiente. 1 m z l x y r Án 0.5 gul o 0 del pé -0.5 nd ulo -1 0 5 10 15 Velocidad angular 20 Consideremos la situación en la que el brazo del péndulo gira con velocidad constante. El sistema tiene múltiples puntos de equilibrio que dependen de la velocidad angular , como se muestra en el diagrama de bifurcación de la derecha. Las ecuaciones de movimiento del sistema vienen dadas por Jp - J p02 - mp gl = 0, donde Jp es el momento de inercia del péndulo con respecto a su pivote, mp es la masa del péndulo, l es la distancia entre el pivote y el centro de masa del péndulo y0 es la velocidad de rotación del brazo. (a) Determine los equilibrios del sistema y la(s) condición(es) de estabilidad de cada punto de equilibrio (en términos de0 ). (b) Considere la velocidad angular como un parámetro de bifurcación y verifique el diagrama de bifurcación dado anteriormente. Este es un ejemplo de bifurcación en horquilla. 4.16 (Criterio de Routh-Hurwitz) Considere una ecuación diferencial lineal con el polinomio característico (s) = s2 + a1 s + a2 , (s) = s3 + a1 s2 + a2 s + a3 . Demuestre que el sistema es asintóticamente estable si y sólo si todos los coeficientes ai son positivos y si a1 a2 > a3 . Éste es un caso especial de un conjunto de criterios más general conocido como el criterio de Routh-Hurwitz. Capítulo 5 Sistemas lineales Pocos elementos físicos presentan características verdaderamente lineales. Por ejemplo, la relación entre la fuerza en un muelle y el desplazamiento del muelle es siempre no lineal en cierto grado. La relación entre la corriente que pasa por una resistencia y la caída de tensión a través de ella también se desvía de una relación rectilínea. Sin embargo, si en cada caso la relación es razonablemente lineal, se encontrará que el comportamiento del sistema será muy cercano al que se obtiene suponiendo un elemento físico ideal y lineal, y la simplificación analítica es tan enorme que hacemos suposiciones lineales siempre que podemos hacerlo en conciencia. Robert H. Cannon, Dynamics of Physical Systems, 1967 [Can03]. En los capítulos 2-4 hemos considerado la construcción y el análisis de modelos de ecuaciones diferenciales para sistemas dinámicos. En este capítulo especializamos nuestros resultados al caso de sistemas lineales de entrada/salida invariables en el tiempo. Dos conceptos centrales son el exponencial matricial y la ecuación de convolución, mediante los cuales podemos caracterizar completamente el comportamiento de un sistema lineal. También describimos algunas propiedades de la respuesta de entrada/salida y mostramos cómo aproximar un sistema no lineal por uno lineal. 5.1 Definiciones básicas Hemos visto varios casos de ecuaciones diferenciales lineales en los ejemplos de los capítulos anteriores, incluyendo el sistema muelle-masa (oscilador amortiguado) y el amplificador operacional en presencia de pequeñas señales de entrada (no saturadas). En general, muchos sistemas dinámicos pueden modelarse con precisión mediante ecuaciones diferenciales lineales. Los circuitos eléctricos son un ejemplo de una amplia clase de sistemas para los que se pueden utilizar eficazmente modelos lineales. Los modelos lineales también son ampliamente aplicables en ingeniería mecánica, por ejemplo, como modelos de pequeñas desviaciones de los equilibrios en mecánica de sólidos y fluidos. Los sistemas de procesamiento de señales, incluidos los filtros digitales del tipo utilizado en los reproductores de CD y MP3, son otra fuente de buenos ejemplos, aunque a menudo se modelan mejor en tiempo discreto (como se describe con más detalle en los ejercicios). En muchos casos, creamos sistemas con una respuesta lineal de entrada/salida mediante el uso de la retroalimentación. De hecho, fue el deseo de un comportamiento lineal lo que llevó a Harold S. Black a la invención del amplificador de retroalimentación negativa. Casi todos los sistemas modernos de procesamiento de señales, ya sean analógicos o digitales, utilizan la retroalimentación para producir características de entrada/salida lineales o casi lineales. Para estos sistemas, a menudo es útil representar las características de entrada/salida como lineales, ignorando los detalles internos necesarios para obtener esa respuesta lineal. 132 CAPÍTULO 5. SISTEMAS LINEALES Para otros sistemas, las no linealidades no pueden ser ignoradas, especialmente si uno se preocupa por el comportamiento global del sistema. El problema depredador-presa es un ejemplo de ello: para captar el comportamiento oscilatorio de las poblaciones interdependientes debemos incluir los términos de acoplamiento no lineal. Otros ejemplos son el comportamiento cambiante y la generación de movimientos periódicos para la locomoción. Sin embargo, si nos preocupamos por lo que ocurre cerca de un punto de equilibrio, a menudo basta con aproximar la dinámica no lineal mediante su linealización local, como ya exploramos brevemente en la sección 4.3. La linealización es esencialmente una aproximación de la dinámica no lineal alrededor del punto de funcionamiento deseado. Linealidad A continuación, procedemos a definir la linealidad de los sistemas de entrada/salida de manera más formal. Consideremos un sistema de espacio de estados de la forma dx dt = f (x, u), y = h(x, u), (5.1) donde x R ∈ n , u Rp∈e y Rq . Al∈igual que en los capítulos anteriores, normalmente nos limitaremos al caso de una sola entrada y una sola salida tomando p = q = 1. También suponemos que todas las funciones son suaves y que para una clase razonable de entradas (por ejemplo, funciones continuas a trozos del tiempo) las soluciones de la ecuación (5.1) existen para todo el tiempo. Será conveniente suponer que el origen x = 0, u = 0 es un punto de equilibrio para este sistema (x˙ = 0) y que h(0, 0) = 0. De hecho, podemos hacerlo sin pérdida de generalidad. Para ver esto,/supongamos que (xe , ue ) = (0, 0) es un punto de equilibrio del sistema con salida ye = h(xe , ue ). Entonces podemos definir un nuevo conjunto de estados, entradas y salidas, x˜ = x - xe , u˜ = u - ue , y˜ = y - ye , y reescribir las ecuaciones de movimiento en términos de estas variables: d x˜ = f (x˜+ xe , u˜ + ue ) =: f˜(x˜, u˜), dt y˜ = h(x˜+ xe , u˜ + ue ) - ye =: h̃(x,̃ u˜). En el nuevo conjunto de variables, el origen es un punto de equilibrio con salida 0, y por tanto podemos realizar nuestro análisis en este conjunto de variables. Una vez que hemos obtenido nuestras respuestas en este nuevo conjunto de variables, simplemente las "traducimos" de nuevo a las coordenadas originales utilizando x = x˜+ xe , u = u˜ + ue e y = y˜+ ye . Volviendo a las ecuaciones originales (5.1), suponiendo ahora sin pérdida de genSi el origen es el punto de equilibrio de interés, escribimos la salida y(t) correspondiente a la condición inicial x(0) = x0 y la entrada u(t) como y(t; x0 , u). Utilizando esta notación, se dice que un sistema es un sistema lineal de entrada/salida si 133 5.1. DEFINICIONES BÁSICAS Ho m 2 og én 0 eo -2 0 2 Pa rti 0 cul are -2 0 s 2 Co m 0 ple ta -2 0 Entrad au Estado x1 , x2 2 Salida y 2 0 20 20 40 40 20 40 Tiemp [sec] ot 60 60 60 -2 0 0 20 40 60 -2 0 20 40 60 0 20 40 60 0 20 40 Tiemp [sec] ot 60 2 2 0 0 -2 0 20 40 60 -2 2 2 0 0 -2 0 20 40 Tiemp [sec] ot 60 -2 Figura 5.1: Superposición de soluciones homogéneas y particulares. La primera fila muestra la entrada, el estado y la salida correspondientes a la respuesta de la condición inicial. La segunda fila muestra las mismas variables correspondientes a una condición inicial nula pero una entrada distinta de cero. La tercera fila es la solución completa, que es la suma de las dos soluciones particulares. se cumplen las condiciones: (i) y(t; x1 + x2 , 0) = y(t; x1 , 0) + y(t; x2 , 0), (ii) y(t; x0 , u) = y(t; x0 , 0) + y(t; 0, u), (5.2) (iii) y(t; 0, u1 + u2 ) = y(t; 0, u1 ) + y(t; 0, u2 ). Así, definimos que un sistema es lineal si las salidas son conjuntamente lineales en la respuesta de la condición inicial (u = 0) y la respuesta forzada (x(0) = 0). La propiedad (iii) es una declaración del principio de superposición: la respuesta de un sistema lineal a la suma de dos entradas u1 y u2 es la suma de las salidas y1 e y2 correspondientes a las entradas individuales. La forma general de un sistema de espacio de estados lineal es dx (5.3) = Ax + Bu, y = Cx + Du, dt donde A R D Rq×p . En el caso ∈n×n , B Rn×p∈, C Rq×n y ∈ ∈ especial de un sistema de una sola entrada y una sola salida, B es un vector columna, C es un vector fila y D es escalar. La ecuación (5.3) es un sistema de ecuaciones diferenciales lineales de primer orden con la entrada u, el estado x y la salida y. Es fácil demostrar que, dadas las soluciones x1 (t) y x2 (t) para este conjunto de ecuaciones, éstas satisfacen las condiciones de linealidad. Definimos xh (t) como la solución con entrada cero (la solución homogénea) y la solución xp (t) como la solución con condición inicial cero (una solución particular). La figura 5.1 ilustra cómo estas dos soluciones particulares pueden ser super impuestas para formar la solución completa. 134 CAPÍTULO 5. SISTEMAS LINEALES También es posible demostrar que si un sistema dinámico de dimensión finita es lineal de entrada/salida en el sentido que hemos descrito, siempre puede representarse mediante una ecuación del espacio de estados de la forma (5.3) a través de una elección adecuada de las variables de estado. En la sección 5.2 daremos una solución explícita de la ecuación (5.3), pero ilustramos la forma básica mediante un ejemplo sencillo. Ejemplo 5.1 Sistema escalar Consideremos la ecuación diferencial de primer orden dx = ax + u, y = x, dt con x(0) = x0 . Sea u1 = A 1 t y u2 = B 2 t. La solución homogénea es xh (t) = eat x0 , y dos soluciones particulares con x(0) = 0 son en +1 1 t + a 1 t a2 , +2 1 aeat a 2 t +2 2 t xp2 (t) = . B a2 + 22 Supongamos que ahora elegimos x(0) = x0 y u = u1 + u2 . Entonces la solución resultantees la suma ponderada de las soluciones individuales: Ba A1 x(t) = eat (x0 + + xp1 (t) = -A -1e a2 + 12 a2 + 22 (5.4) -a 2 t +2 2 t 1 1 t + a 1 t -A +B . a2 + 21 a2 + 22 Para ver esto, sustituya la ecuación (5.4) en la ecuación diferencial. Así, se satisfacen las propiedades de un sistema lineal. Invarianza temporal La invariancia temporal es un concepto importante que se utiliza para describir un sistema cuyas propiedades no cambian con el tiempo. Más concretamente, para un sistema invariante en el tiempo, si la entrada u(t) da la salida y(t), entonces si desplazamos el momento en que la entrada se aplica una cantidad constante a, u(t + a) da la salida y(t + a). Sistemas que son lineales e invariables en el tiempo, a menudo llamados sistemas LTI, tienen la interesante propiedad de que su respuesta a una entrada arbitraria está completamente caracterizada por su respuesta a entradas escalonadas o su respuesta a "impulsos" cortos. Para explorar las consecuencias de la invariancia temporal, primero calculamos la respuesta a una entrada constante a trozos. Supongamos que el sistema está inicialmente en reposo y consideremos la entrada constante a trozos que se muestra en la Figura 5.2a. La entrada tiene saltos en tiempos tk , y sus valores después de los saltos son u(tk ). La entrada puede verse como una combinación de pasos: el primer paso en el tiempo t0 tiene una amplitud u(t0 ), el segundo paso - en el tiempo t1 tiene una amplitud u(t1 ) u(t0 ), etc. Suponiendo que el sistema se encuentra inicialmente en un punto de equilibrio (por lo que el respuesta de la condición es cero), la respuesta a la entrada se puede obtener por superim- 135 5.1. DEFINICIONES BÁSICAS 1 1 0.8 En 0.6 tra da 0.4 (u) 0.2 0 0 u(t0 ) 2 0.5 Sa lid a (y) u(t1 )-u(t0 ) u(t1 ) 0 -0.5 4 Tiempo (s) 6 8 0 (a) Entrada constante a trozos Pasos completo s 5 10 Tiempo (s) 15 (b) Respuesta de salida Figura 5.2: Respuesta a entradas constantes a trozos. Una señal constante a trozos puede representarse como una suma de señales escalonadas (a), y la salida resultante es la suma de las salidas individuales (b). planteando las respuestas a una combinación de entradas de escalón. Sea H(t) la respuesta a un escalón unitario aplicado en el tiempo 0. La respuesta al primer escalón es entonces H(t - t0 )u(t0 ), la respuesta al segundo paso es H(t t1 u(t ) - u(t 1 0 y encontramos que el ) ) la respuesta completa viene dada por y(t) = H(t t0 )u(t0 ) + H(t t1 ) u(t )1 - u(t0 )- + = H(t - t0 ) - H(t - t1- )- -u(t0 ) + H(t - t1 ) - H(t - t2 ) u(t1 ) + - tn< = t H(t - tn ) - H(t - tn+1 ) u(tn ) tn< n=0 t H(t - tn ) - H(t - tn+1 ) = n=0 u(tn ) tn+1 - tn . tn+1 - tn En la figura 5.2b se muestra un ejemplo de este cálculo. La respuesta a una señal de entrada continua se obtiene tomando el límite como tn+1 - tn → 0, lo que da (y )t = -t 0 H′(t - u) ( ) , (5.5) donde H′ es la derivada de la respuesta al escalón, también llamada respuesta al impulso. La respuesta de un sistema lineal invariable en el tiempo a cualquier entrada puede ser calculada a partir de la respuesta al escalón. Observe que la salida depende sólo de la entrada, ya que asumimos que el sistema estaba inicialmente en reposo, x(0) = 0. Derivaremos la ecuación (5.5) de una manera ligeramente diferente en la Sección 5.3. 136 CAPÍTULO 5. SISTEMAS LINEALES 5.2 La Matriz Exponencial La ecuación (5.5) muestra que la salida de un sistema lineal puede escribirse como una integral sobre las entradas u(t). En esta sección y en la siguiente derivamos una versión más general de esta fórmula, que incluye condiciones iniciales no nulas. Comenzamos explorando la respuesta de la condición inicial utilizando la matriz exponencial. Condición inicial Respuesta Aunque hemos demostrado que la solución de un conjunto lineal de ecuaciones diferenciales define un sistema lineal de entrada/salida, no hemos calculado completamente la solución del sistema. Comenzamos considerando la respuesta homogénea correspondiente al sistema dx = Ax. (5.6) dt Para la ecuación diferencial escalar dx = ax, x ∈ R, a ∈ R, dt la solución viene dada por la exponencial x(t) = eat x(0). Queremos generalizar esto al caso vectorial, donde A se convierte en una matriz. Definimos la exponencial matricial como la serie infinita 12 1 3 X k 1 (5.7) ¡e = I + X + X + X+ ---= X , 2 3! ¡ ! k=0 donde X ∈ Rn×n es una matriz cuadrada e I es la×matriz de identidad nn. Utilizamos la notación X0 = I, X2 = XX , X n = X n− 1 X , que define lo que entendemos por "potencia" de una matriz. La ecuación (5.7) es fácil de recordar ya que no es más que la serie de Taylor para la exponencial escalar, aplicada a la matriz X . Se puede demostrar que la serie en la ecuación (5.7) converge para cualquier matriz X ∈ Rn×n de la misma manera que la exponencial normal se define para cualquier escalar a ∈ R. Sustituyendo X en la ecuación (5.7) por At, donde t ∈ R, encontramos que 1 22 1 33 En kk 1 e ¡= I + At + A t + At+ ---= At, 2 3! ¡ ! k=0 y diferenciando esta expresión con respecto a t se obtiene d En 1 32 2 kk En e = A + A t + A + - - - = ¡A 1 A t = Ae . dt ! 2 k=0 t (5.8) 137 5.2. LA MATRIZ EXPONENCIAL Multiplicando por x(0) desde la derecha, encontramos que x(t) = eAt x(0) es la solución de la ecuación diferencial (5.6) con condición inicial x(0). Resumimos este importante resultado como una proposición. Proposición 5.1. La solución del sistema homogéneo de ecuaciones diferenciales (5.6) viene dada por x(t) = eAt x(0). Obsérvese que la forma de la solución es exactamente la misma que para las ecuaciones escalares, pero debemos poner el vector x(0) a la derecha de la matriz eAt . La forma de la solución nos permite ver inmediatamente que la solución es lineal in the initial condition. In particular, if xh1(t) is the solution to equation (5.6) with initial condition x(0) = x01 and xh2(t) with initial condition x(0) = x02, then the solution with initial condition x(0) = x01 + x02 is given by x(t) = eAt x01 + x02 = eAt x01 + eAt x02 ) = xh1 (t) + xh2 (t). Del mismo modo, vemos que la salida correspondiente viene dada por y(t) = Cx(t) = yh1 (t) + yh2 (t), donde yh1 (t) e yh2 (t) son las salidas correspondientes a xh1 (t) y xh2 (t). Ilustramos el cálculo de la matriz exponencial con dos ejemplos. Ejemplo 5.2 Integrador doble Un sistema lineal muy sencillo que resulta útil para entender los conceptos básicos es el sistema de segundo orden dado por q¨ = u, y = q. Este sistema se llama integrador doble porque la entrada u se integra dos veces para determinar la salida y. En forma de espacio de estados, escribimos x = (q, q˙) y dx 01 = x+ u. 00 1 dt 0 La matriz dinámica de un integrador doble es 1 0 A= ,0 y encontramos por cálculo directo que A2 = 0 y por lo tanto 1 t eAt = . 01 Así, la solución homogénea (u = 0) para el integrador doble viene dada por 1 t x1 (0) x1 (0) + 0 (tx 2 x(t) = = ), ) 0 1x2 (0 x2 (0) y(t) = x1 (0) + tx2 (0). 138 CAPÍTULO 5. SISTEMAS LINEALES Ejemplo 5.3 Oscilador no amortiguado Un modelo sencillo para un oscilador, como el sistema muelle-masa con amortiguación cero, es q¨ +2 q0 = u. Poniendo el sistema en forma de espacio de estados, la matriz dinámica de este sistema puede escribirse como 0 0 0 0 A= y eAt = t. -sin t0 0 t 0 Esta expresión para eAt puede verificarse por 0 diferenciación: d − 0 0 0 eAt = 0 t dt 0 − 0 0 − 0 0 0 t 0 0 = = AeAt . -0 -sin t t 0 0 0 0 t La solución viene dada x(t) entonces = eAtx(0) = por 0 t x1 (0) . − t Si el sistema tiene amortiguación, t x (0)0 q¨ + 0 q˙ +2 q0 = u, 0 2 la solución es más complicada, pero se puede demostrar que la matriz exponencial es eidt - e-idt eidt − e-idt eidt + e-idt + 2 2j 2 - 1 2j 2 - 1 e-0 t , e-idt - eidt e-idt - eidt eidt + e-idt + 2 2j 2 - 1 2j 2 - 1 j j - ser reales o complejos, pero las donded =0 2 1 . Nótese qued y 2 1 pueden combinaciones de términos siempre darán - un valor real a las entradas de la matriz exponencial. Una clase importante de sistemas lineales son los que pueden convertirse en forma diagonal. Supongamos que nos dan un sistema dx = Ax dt tal que todos los valores propios de A son distintos. Se puede demostrar (Ejercicio 4.14) que podemos encontrar una matriz invertible T tal que TAT−1 sea diagonal. Si elegimos un conjunto de coordenadas z = Tx, entonces en las nuevas coordenadas la dinámica se convierte en dz dx = T = TAx = TAT−1 z. dt dt Por construcción de T , este sistema será diagonal. 139 5.2. LA MATRIZ EXPONENCIAL Consideremos ahora una matriz diagonal A y la correspondiente potencia k de At, que también es diagonal: ktk 0 1 k= 2 A = .. , . 0 ( At) 0 1 ktk 2 , . kt 0 n .. n De la expansión de la serie se deduce que la exponencial de la matriz viene dada por 0 eAt = .. 0 . . e nt Se puede hacer una expansión similar en el caso de que los valores propios sean complejos, utilizando una matriz diagonal de bloques, de forma similar a lo que se hizo en la sección 4.3. Formulario de Jordania � Algunas matrices con valores propios iguales no pueden transformarse a la forma diagonal. Sin embargo, pueden transformarse a una forma estrechamente relacionada, llamada forma de Jordan, en la que la matriz dinámica tiene los valores propios a lo largo de la diagonal. Cuando hay valores propios iguales, pueden aparecer 1's en la superdiagonal que indican que hay acoplamiento entre los estados. Más concretamente, definimos que una matriz está en forma de Jordan si se puede escribir como 1 0 . .. 0 J1 0 . . . 0 0 i 0 i 1 0 0 J2 0 0 0 . . . . . . . . . .. .. . J= . . , donde Ji = . . . (5.9) 0 0 1 . i 0 0 . Jk−1 0 0 0 ... 0 i 0 0 ... 0 Jk Cada matriz Ji se denomina bloque de Jordan, yi para ese bloque corresponde a un valor propio de J. Un bloque de Jordan de primer orden puede representarse como un sistema que consiste en un integrador con retroalimentación. Un bloque de Jordan de orden superior puede representarse como conexiones en serie de tales sistemas, como se ilustra en la figura 5.3. Teorema 5.2 (descomposición de Jordan). Cualquier ∈ matriz A Rn×n puede transformarse en forma de Jordan con los valores propios de A determinandoi en la forma de Jordan. Prueba. Véase cualquier texto estándar sobre álgebra lineal, como el de Strang [Str88]. El caso especial en el que los valores propios son distintos se examina en el ejercicio 4.14. Convertir una matriz en forma de Jordan puede ser complicado, aunque MATLAB puede realizar esta conversión para matrices numéricas utilizando la función jordan. La estructura de la forma de Jordan resultante es especialmente interesante, ya que no hay 140 R x1 R CAPÍTULO 5. SISTEMAS LINEALES x2 1 x3 x R R R x2 x1 R Figura 5.3: Representaciones de sistemas lineales donde las matrices dinámicas son bloques de Jordan. Un bloque de Jordan de primer orden puede representarse como un integrador con retroalimentación, como se muestra a la izquierda. Los bloques de Jordan de segundo y tercer orden pueden representarse como conexiones en serie de integradores con retroalimentación, como se muestra a la derecha. requisito de que losi individuales sean únicos, y por lo tanto para un valor propio dado podemos tener uno o más bloques de Jordan de diferentes tamaños. Una vez que una matriz está en forma de Jordan, la exponencial de la matriz puede calcularse en términos de los bloques de Jordan: eJ 1 0 0 eJ 2 J e= . 0 . ... ... 0 . . . 0 0 eJ k . . (5.10) Esto se deduce de la forma diagonal de los bloques de J. Los exponenciales de los bloques de Jordan pueden escribirse a su vez como 1 0 eJit = t 1 . 0... ¡2 ! t2 n-1 t . . .¡(n-1)! . .. .. . 1 .. . t 0 tn-2 ¡(n-2)! . t e it . (5.11) 1 Cuando hay múltiples valores propios, los subespacios invariantes asociados a cada valor propio corresponden a los bloques de Jordan de la matriz A. Nótese que puede ser compleja, en cuyo caso la transformación T que convierte una matriz en forma Jor- dan también será compleja. Cuando tiene una componente imaginaria no nula, las soluciones tendrán componentes oscilantes ya que e(+i)t = et (coste + i sint). Ahora podemos utilizar estos resultados para demostrar el Teorema 4.1, que establece que el punto de equilibrio xe = 0 de un sistema lineal es asintóticamente estable si y sólo si i < 0. Prueba del teorema 4.1. Sea∈T Cn×n una matriz invertible que transforma A en la forma de Jordan, J = TAT−1 . Usando las coordenadas z = Tx, podemos escribir la solución z(t) como z(t) = eJt z(0). 141 5.2. LA MATRIZ EXPONENCIAL Dado que cualquier solución x(t) puede escribirse en términos de una solución z(t) con z(0) = Tx(0), se deduce que es suficiente demostrar el teorema en las coordenadas transformadas. La solución z(t) puede escribirse en términos de los elementos de la matriz expo- nencial. A partir de la ecuación (5.11) todos estos elementos decaen a cero para z(0) arbitrario si y sólo si i < 0. Además, si cualquieri tiene parte real positiva, entonces existe una condición inicial z(0) tal que la solución correspondiente aumenta sin límite. Dado que podemos escalar esta condición inicial para que sea arbitrariamente pequeña, resulta que que el punto de equilibrio es inestable si cualquier valor propio tiene parte real positiva. La existencia de una forma canónica nos permite demostrar muchas propiedades de los sistemas lineales cambiando a un conjunto de coordenadas en el que la matriz A está en forma de Jordan. Lo ilustramos en la siguiente proposición, que sigue la misma línea que la prueba del teorema 4.1. Proposición 5.3. Supongamos que el sistema dx = Ax dt no tiene valores propios con parte real estrictamente positiva y uno o más valores propios con parte real cero. Entonces el sistema es estable si y sólo si los bloques de Jordan que responden a cada valor propio con parte real cero son bloques escalares (1 × 1). Prueba. Véase el ejercicio 5.6b. El siguiente ejemplo ilustra el uso de la forma Jordan. Ejemplo 5.4 Modelo lineal de un avión de empuje vectorial Consideremos la dinámica de un avión de empuje vectorial como el descrito en el ejemplo 2.9. Supongamos que elegimos u1 = u2 = 0 para que la dinámica del sistema convertirse en = z4 dz z5 z6 , (5.12) c -g sin z3 - m z4 dt g(cos z3 - 1)0- c z5m donde z = (x, y, , x˙, y˙, ˙). Los puntos de equilibrio del sistema se obtienen fijando las velocidades x˙, y˙ y ˙ en cero y eligiendo las restantes variables para satisfacer -g sin z3,e = 0 g(cos z3,e - 1) = 0 =⇒ z3,e =e = 0. Esto corresponde a la orientación vertical de la aeronave. Obsérvese que no se especifican xe ni ye . Esto se debe a que podemos trasladar el sistema a una nueva posición (vertical) y seguir obteniendo un punto de equilibrio. 142 CAPÍTULO 5. SISTEMAS LINEALES (a) Modo 1 (b) Modo 2 Figura 5.4: Modos de vibración de un sistema formado por dos masas conectadas por muelles. En (a) las masas se mueven a la izquierda y a la derecha de forma sincronizada en (b) se mueven hacia o contra la otra. Para calcular la estabilidad del punto de equilibrio, calculamos la linealización mediante la ecuación (4.11): 0 0 1 0 0 0 0 0 0 0 0 1 = 0 1. F 0 0 0 0 0 0 A1= 1ze 0 -g -c/m 0 z - c/m 0 00 0 0 00 0 0 0 0 Los valores propios del sistema pueden calcularse como (A) = {0, 0, 0, 0, -c/m, -c/m}. Vemos que el sistema linealizado no es asintóticamente estable ya que no todos los valores propios tienen parte real estrictamente negativa. Para determinar si el sistema es estable en el sentido de Lyapunov, debemos hacer uso de la forma de Jordan. Se puede demostrar que la forma de Jordan de A viene dada por 0 0 000 0 0 010 0 0 J= . 0 001 0 0 0 000 0 0 0 000 0 -c/m Como el segundo bloque de Jordan tiene el valor propio 0 y no es un valor 0 000 0 -c/m propio simple, la linealización es inestable. Valores propios y modos Los valores y vectores propios de un sistema proporcionan una descripción de los tipos de comportamiento que puede presentar el sistema. En el caso de los sistemas oscilantes, el término modo se utiliza a menudo para describir los patrones de vibración que pueden producirse. La figura 5.4 ilustra los modos de un sistema formado por dos masas conectadas por muelles. Un patrón es cuando ambas masas oscilan al unísono a la izquierda y a la derecha, y otro es cuando las masas se acercan y se alejan la una de la otra. La respuesta en condiciones iniciales de un sistema lineal puede escribirse en términos de una matriz exponencial que involucra a la matriz dinámica A. Las propiedades de la matriz A 143 5.2. LA MATRIZ EXPONENCIAL 1 1 0.5 x2 0 x1 x2 Modo lento x1 , 0.5 x2 0 0 Ráp ido 10 20 30 40 50 20 30 Tiempo t 40 50 1 -0.5 Lent -1 o -0.5 -1 Modo rápido x1 , 0.5 x2 0 0 x1 0.5 1 0 10 Figura 5.5: La noción de modos para un sistema de segundo orden con valores propios reales. La figura de la izquierda muestra el retrato de fase y los modos correspondientes a las soluciones que comienzan en los vectores propios (líneas en negrita). A la derecha se muestran las funciones temporales correspondientes. por lo tanto, determinan el comportamiento resultante del sistema. Dada ∈ una matriz A Rn×n , recordemos que v es un vector propio de A con valor propio si Av = . En general y v pueden ser de valor complejo, aunque si A es de valor real, entonces para cualquier valor propio su conjugado complejo ∗ también será un valor propio (con v∗ como el correspondiente vector propio). Supongamos en primer lugar que y v son un par de valores propios/vectores propios de A. Si observamos la solución de la ecuación diferencial para x(0) = v, se deduce de la definición de la matriz exponencial que eAt v = I + At + 2 2 1 A t + - - - v = v + tv 2+ 2t2 t 2 v + - - - = e v. La solución se encuentra, pues, en el subespacio abarcado por el vector propio. El valor propio describe cómo varía la solución en el tiempo, y esta solución suele llamarse modo del sistema. (En la literatura, el término "modo" también se utiliza a menudo para referirse al valor propio en lugar de a la solución). Si observamos los elementos individuales de los vectores x y v, resulta que xi (t) xj (t) = et vi tv j = vi vj , y, por tanto, las relaciones de los componentes del estado x son constantes para un modo (real). Por tanto, el vector propio da la "forma" de la solución y también se denomina forma del modo del sistema. La figura 5.5 ilustra los modos de un sistema de segundo orden compuesto por un modo rápido y un modo lento. Observe que las variables de estado tienen el mismo signo para el modo lento y signos diferentes para el modo rápido. La situación es más complicada cuando los valores propios de A son complejos. Como A tiene elementos reales, los valores propios y los vectores propios son complejos con- 144 CAPÍTULO 5. SISTEMAS LINEALES jugates = ± y v = u ± iw, lo que implica que v + v∗ v - v∗ , w= . 2 2i Making use of the matrix exponential, we have u= eAt v = et (u + iw) = et (u coste - w sint) + i(u sint + w coste) , de lo que se deduce que 1 t eAt u = eAt v + eAt v∗ = uet costwe sint, 2 1 eAt w = eAt veAt- v∗ = uet sint + wet cost. 2i Una solución con condiciones iniciales en el subespacio abarcado por la parte real u y la parte imaginaria w del vector propio permanecerá por tanto en ese subespacio. La solución será una espiral logarítmica caracterizada por y . Volvemos a llamar a la solución correspondiente a un modo del sistema, y v a la forma del modo. Si una matriz A tiene n valores propios distintos1 , . . . ,n , entonces la respuesta de la condición inicial puede escribirse como una combinación lineal de los modos. Para ver esto, supongamos para simplificar que tenemos todos los valores propios reales con los correspondientes valores propios unitarios. tores v1 , . . . , vn . A partir del álgebra lineal, estos vectores propios son linealmente independientes, y podemos escribir la condición inicial x(0) como x(0) =1 v1 +2 v2 + - - +n vn . Utilizando la linealidad, la respuesta de la condición inicial puede escribirse como x(t) =1 e 1tv1 +2 e 2tv2 + - - +n e ntvn . Así, la respuesta es una combinación lineal de los modos del sistema, con la amplitud de los modos individuales creciendo o decayendo como e it . El caso de los valores propios complejos distintos es similar (el caso de los valores propios no distintos es más sutil y requiere el uso de la forma de Jordan discutida en la sección anterior). Ejemplo 5.5 Sistema acoplado muelle-masa Consideremos el sistema muelle-masa mostrado en la figura 5.4, pero con la adición de amortiguadores en cada masa. Las ecuaciones de movimiento del sistema son mq¨1 = -2kq1 - cq˙1 + kq2 , mq¨2 = kq1 - 2kq2 - cq˙2 . En forma de espacio de estados, definimos el estado como x = (q1 , q2 , q˙1 , q˙2 ), y podemos reescribir las ecuaciones como dx dt k =- 0 0 2 m k m 0 0 k m 2 k -m 1 0 -c 0 1 0 m 0 -m c x. 145 5.3. RESPUESTA DE ENTRADA/SALIDA Ahora definimos una transformación z = Tx que pone este sistema en una forma más simple. 1 1 Sea z1 = 2 (q1 + q2 ), z2 = z˙1 , z3 = 2 (q1 - q2 ) y z4 = z˙3 , de modo que 1 1 1 0 0 z = Tx = 2 1-1 0 0 0 0 1 0 1 x. 0 1 -1 En las nuevas coordenadas, la dinámica se convierte en 0 1 0 0 k c 0 0 = -m -m z, dz dt 0 0 0 1 c 3k -m 0 0 m y vemos que el sistema está en forma de bloque diagonal (o modal). En ≈ las coordenadas z, los estados z1 y z2 parametrizan un modo con valores j propios- ≈ c/(2m i k )m±(para /c pequeño), y los estados z y z otro modo 3 4 con c/(2m) i j - la forma de ± la transformación T vemos que estos modos corresponden 3k/m. Por exactamente a los modos de la figura 5.4, en los que q1 y q2 se acercan o se oponen. Las partes real e imaginaria de los valores propios dan las tasas de decaimiento y las frecuencias de cada modo. 5.3 Respuesta de entrada/salida En la sección anterior vimos cómo calcular la respuesta de la condición inicial utilizando la matriz exponencial. En esta sección derivamos la ecuación de convolución, que incluye también las entradas y salidas. La ecuación de convolución Volvemos al caso general de entrada/salida en la ecuación (5.3), que se repite aquí: dx (5.13) = Ax + Bu, y = Cx + Du. dt Utilizando la matriz exponencial, la solución de la ecuación (5.13) puede escribirse como sigue. Teorema 5.4. La solución de la ecuación diferencial lineal (5.13) viene dada por x(t) = eAt x(0) + - t 0 e B( )d. A(t-) (5.14) Prueba. Para demostrarlo, diferenciamos ambos lados y utilizamos la propiedad (5.8) de la exponencial matricial. Esto da dx t AeA(t-) Bu() + Bu(t) = Ax + Bu, E x(0) n dt = Ae + 0 146 CAPÍTULO 5. SISTEMAS LINEALES 1.5 u 1 1 y 0.5 0 0 2 4 6 Tiempo t 8 Respuestas al impulso Respuesta al impulso 0.5 0 0 10 (a) Funciones de pulso e impulso 10 20 t 30 40 (b) Respuestas a impulsos y pulsos Figura 5.6: Respuesta al pulso y respuesta al impulso. (a) Los rectángulos muestran pulsos de anchura 5, 2,5 y 0,8, cada uno con un área total igual a 1. La flecha denota un impulso (t) definido por la ecuación (5.17). Las respuestas al impulso correspondientes para un sistema lineal con valores propios = 0,08, en (b) como líneas discontinuas. La línea continua es la {- 0,62 - se muestran } verdadera respuesta al impulso, que se aproxima bien con un pulso de duración 0,8. que demuestra el resultado. Obsérvese que el cálculo es esencialmente el mismo que para demostrar el resultado de una ecuación de primer orden. De las ecuaciones (5.13) y (5.14) se deduce que la relación entrada/salida de un sistema lineal viene dada por y(t) = CeAt x(0) + - t ( ) + Du(t). A(t-) Ce 0 (5.15) B Es fácil ver en esta ecuación que la salida es conjuntamente lineal tanto en las condiciones iniciales como en la entrada, lo que se deduce de la linealidad de la multiplicación de matrices/vectores y de la integración. La ecuación (5.15) se denomina ecuación de convolución y representa la forma general de la solución de un sistema de ecuaciones diferenciales lineales acopladas. Vemos inmediatamente que la dinámica del sistema, caracterizada por la matriz A, juega un papel crítico tanto en la estabilidad como en el rendimiento del sistema. De hecho, la matriz exponencial describe tanto lo que ocurre cuando perturbamos la condición inicial como la forma en que el sistema responde a las entradas. � Otra interpretación de la ecuación de convolución puede darse utilizando el concepto de respuesta al impulso de un sistema. Consideremos la aplicación de una señal de entrada u(t) dada por la siguiente ecuación: u(t) = p (t) = 0 0 0 t< 1/ 0≤t t≥. (5.16) Esta señal es un impulso de duración y amplitud 1/, como se ilustra en la figura 5.6a. Definimos un impulso (t) como el límite de esta señal como → 0: (t) = lim p (t). →0 (5.17) 147 5.3. RESPUESTA DE ENTRADA/SALIDA Esta señal, a veces llamada función delta, no es físicamente realizable, pero proporciona una abstracción conveniente para entender la respuesta de un sistema. Tenga en cuenta- tque la- tintegral de un impulso- es t 1: lim p t lim t p = () = 0 ( ( ) →0 0 0 → 0 − ) = lim 0 1/ = 1 t> →0 0. En particular, la integral de un impulso sobre un periodo de tiempo arbitrariamente corto es idéntica a 1. Definimos la respuesta al impulso de un sistema h(t) como la salida correspondiente a tener un impulso como entrada: h(t) = - t 0 CeA(t-) () = CeAt (5.18) B, donde la segunda igualdad se deduce del hecho de que (t) es cero en todas partes excepto en el origen y su integral es idéntica a 1. Ahora podemos escribir la ecuación de convolución en términos de la respuesta de la condición inicial, la convolución del impulso y la señal de entrada, y el término directo: -t ht y(t ) Ce x( ) u (5.19) + Du(t ). 0 ( - ) ( ) 0= + Una interpretación de esta ecuación, explorada en el Ejercicio 5.2, es que la respuesta del sistema lineal es la superposición de la respuesta a un conjunto infinito de impulsos desplazados cuyas magnitudes están dadas por la entrada u(t). Este es esencialmente el argumento utilizado en el análisis de la Figura 5.2 y la derivación de la ecuación (5.5). Obsérvese que el El segundo término de la ecuación (5.19) es idéntico al de la ecuación (5.5), y se puede demostrar que la respuesta al impulso es formalmente equivalente a la derivada de la respuesta al escalón. El uso de pulsos como aproximaciones de la función de impulso también proporciona un mecanismo para identificar la dinámica de un sistema a partir de los datos. La figura 5.6b muestra las respuestas de los pulsos de un sistema para diferentes anchos de pulso. Obsérvese que las respuestas de los pulsos se aproximan a la respuesta al impulso a medida que la anchura del -pulso llega a cero. Como regla general, si el valor propio más rápido de un sistema estable ≪ tiene parte realmax , entonces un pulso de longitud proporcionará una buena estimación de la respuesta al impulso max 1. Obsérvese que para la figura 5.6, una anchura de pulso de = 1 s damax = 0,62 y la respuesta al pulso ya se acerca a la respuesta al impulso. At Invarianza de coordenadas Los componentes del vector de entrada u y del vector de salida y vienen dados por las entradas y salidas elegidas de un modelo, pero las variables de estado dependen del marco de coordenadas elegido para representar el estado. Esta elección de coordenadas afecta a los valores de las matrices A, B y C que se utilizan en el modelo. (El término directo D no se ve afectado, ya que asigna las entradas a las salidas). 148 CAPÍTULO 5. SISTEMAS LINEALES q1 q2 c c m m u(t) = sin t k k k Figura 5.7: Sistema de masa con muelles acoplados. Cada masa está conectada a dos muelles con rigidez k y a un amortiguador viscoso con coeficiente de amortiguación c. La masa de la derecha se acciona a través de un muelle conectado a un accesorio que varía sinusoidalmente. consecuencias del cambio de sistemas de coordenadas. Introducir nuevas coordenadas z mediante la transformación z = Tx, donde T es una matriz in- vertible. De la ecuación (5.3) se deduce que dz = T (Ax + Bu) = TAT−1 z + TBu =: Ãz+ B˜u, dt y = Cx + Du = CT−1 z + Du =: C˜z + Du. El sistema transformado tiene la misma forma que la ecuación (5.3), pero las matrices A, B y C son diferentes: A˜ = TAT−1 , C˜ = CT−1 . B˜= TB, (5.20) A menudo hay elecciones especiales de sistemas de coordenadas que nos permiten ver una propiedad particular del sistema, por lo que las transformaciones de coordenadas pueden utilizarse para obtener una nueva visión de la dinámica. También podemos comparar la solución del sistema en coordenadas transformadas con la de las coordenadas del estado original. Hacemos uso de una importante propiedad del mapa exponencial, -1 eTST = TeST -1, lo que puede verificarse por sustitución en la definición de la matriz exponencial. Utilizando esta propiedad, es fácil demostrar que x(t) = T−1 z(t) = T−1 eA˜t Tx(0) + t 1 0 ˜ A(t-) ˜T e( ) d. B A partir de esta forma de la ecuación, vemos que si es posible transformar A en una forma A˜ para la cual la exponencial matricial es fácil de calcular, podemos utilizar ese cálculo para resolver la ecuación de convolución general para el estado no transformado x mediante simples multiplicaciones matriciales. Esta técnica se ilustra en el siguiente ejemplo. Ejemplo 5.6 Sistema acoplado muelle-masa Considere el sistema acoplado muelle-masa que se muestra en la figura 5.7. La entrada a este sistema es el movimiento sinusoidal del extremo del muelle de la derecha, y la salida 149 5.3. RESPUESTA DE ENTRADA/SALIDA es la posición de cada masa, q1 y q2 . Las ecuaciones del movimiento vienen dadas por mq¨1 = -2kq1 - cq˙1 + kq2 , mq¨2 = kq1 - 2kq2 - cq˙2 + ku. En forma de espacio de estados, definimos el estado como x = (q1 , q2 , q˙1 , q˙2 ), y podemos reescribir las ecuaciones como 0 0 1 0 dx 02 x + 00 u. k0 - c0 1 =k - 0 0 dt m m m 2 k c mk 0 -m k m -m Se trata de un conjunto acoplado de cuatro ecuaciones diferenciales y es bastante complicado de resolver en forma analítica. La matriz de la dinámica es la misma que en el ejemplo 5.5, y podemos utilizar la transformación coor- dinada definida allí para poner el sistema en forma modal: 0 1 0 0 0 k c k 0 0 + m m dz 2m z u. 0 0 0 1 0 dt = 0 0 k -m c 3k 2 m m resultantes son diagonales de bloque y, Obsérvese que las ecuaciones matriciales por tanto, están desacopladas. Podemos resolver las soluciones calculando las soluciones de dos conjuntos de sistemas de segundo orden representados por los estados (z1 , z2 ) y (z3 , z4 ). De hecho, la forma funcional de cada conjunto de ecuaciones es idéntica a la de un único sistema muelle-masa. (La solución explícita se deriva en la sección 6.3.) Una vez que hayamos resuelto los dos conjuntos de ecuaciones de segundo orden independientes, podemos recuperar la dinámica en las coordenadas originales invirtiendo el trans- estado. y escribiendo x = T−1 z. También podemos determinar la estabilidad del sistema observando la estabilidad de los sistemas independientes de segundo orden. Respuesta en estado estacionario Dado un sistema lineal de entrada/salida dx (5.21) = Ax + Bu, y = Cx + Du, dt la forma general de la solución de la ecuación (5.21) viene dada por la ecuación de convolución: y(t) = CeAt x(0) + t 0 A(t-) Ce ( ) + Du(t). B De la forma de esta ecuación se desprende que la solución consiste en una respuesta de la condición inicial y una respuesta de entrada. 150 CAPÍTULO 5. SISTEMAS LINEALES 0.1 1 En tra 0 da u -1 0 Sa lid ay 20 40 60 Tiempo t [seg] 0 -0.1 80 Transitori o 20 0 (a) Entrada Estado estable 40 60 Tiempo t [seg] 80 (b) Salida Figura 5.8: Respuesta transitoria frente a la de estado estable. La entrada a un sistema lineal se muestra en (a), y la salida correspondiente con x(0) = 0 se muestra en (b). La señal de salida experimenta inicialmente un transitorio antes de estabilizarse en su comportamiento de estado estacionario. La respuesta de entrada, que corresponde a los dos últimos términos de la ecuación anterior, consta de dos componentes: la respuesta transitoria y la respuesta en estado estacionario. La respuesta transitoria se produce en el primer periodo de tiempo tras la aplicación de la entrada y refleja el desajuste entre la condición inicial y la solución en estado estacionario. La respuesta en estado estacionario es la parte de la respuesta de salida que refleja el comportamiento a largo plazo del sistema bajo las entradas dadas. Para las entradas periódicas, la respuesta en estado estacionario suele ser periódica, y para las entradas constantes, la respuesta suele ser constante. En la figura 5.8 se muestra un ejemplo de respuesta transitoria y de estado estable para una entrada periódica. Una forma particularmente común de entrada es la entrada escalonada, que representa un cambio abrupto en la entrada de un valor a otro. Un escalón unitario (a veces llamado función de escalón Heav- iside) se define como f 0 t=0 u = S(t) = 1 t > 0. La respuesta escalonada del sistema (5.21) se define como la salida y(t) partiendo de una condición inicial cero (o del punto de equilibrio apropiado) y dada una entrada escalonada. Observamos que la entrada escalonada es discontinua y, por lo tanto, no se puede aplicar en la práctica. mentable. Sin embargo, es una abstracción conveniente que se utiliza ampliamente en el estudio de los sistemas de entrada/salida. Podemos calcular la respuesta escalonada de un sistema lineal utilizando la ecuación de convolución. Fijando x(0) = 0 y utilizando la definición de la entrada escalonada anterior, tenemos y(t) = - t A(t-) Ce 0 B - =C t 0 ( ) + Du(t) C = eA Bd + D = C A-1 e B - t 0 eA(t-)Bd = + =0 +D D = CA−1 eAt B -CA−1 B + D. Si A tiene valores propios con parte real negativa (lo que implica que el origen es un 151 5.3. RESPUESTA DE ENTRADA/SALIDA 2 1.5 Sa lid a Sobregiro Mp 1 0.5 Tiempo de subida Tr 0 0 5 10 Tiempo de estabilización Ts 15 Tiempo [seg] Valor de estado estable yss 20 25 30 Figura 5.9: Muestra de la respuesta al escalón. El tiempo de subida, el rebasamiento, el tiempo de estabilización y el valor de estado estacionario proporcionan las principales propiedades de rendimiento de la señal. punto de equilibrio en ausencia de cualquier entrada), entonces podemos reescribir la solución como y(t) = CA−1 eAt B + D -CA−1 B, t > 0. (5.22) "- .. ,. ., "- .. . , tran s ient stead y, -estado. El primer término es la respuesta transitoria y decae a cero como → t . El segundo término es la respuesta en estado estacionario y representa el valor de la salida para un tiempo grande. En la figura 5.9 se muestra un ejemplo de respuesta escalonada. Se utilizan varios términos para referirse a una respuesta escalonada. El valor de estado estable yss de una respuesta escalonada es el nivel final de la salida, suponiendo que converge. El tiempo de subida Tr es el tiempo necesario para que la señal pase del 10% de su valor final al 90% de su valor final. También es posible definir otros límites, pero en este libro utilizaremos estos porcentajes a menos que se indique lo contrario. El rebasamiento Mp es el porcentaje del valor final en el que la señal sube inicialmente por encima del valor final. Normalmente se asume que los valores futuros de la señal no sobrepasan el valor final en más de este transitorio inicial, de lo contrario el término puede ser ambiguo. Por último, el tiempo de estabilización Ts es la cantidad de tiempo necesaria para que la señal se mantenga dentro del 2% de su valor final para todos los tiempos futuros. El tiempo de estabilización también se define a veces como el alcance del 1% o el 5% del valor final (véase el ejercicio 5.7). En general, estas medidas de rendimiento pueden depender de la amplitud del paso de entrada, pero para los sistemas lineales las tres últimas cantidades definidas anteriormente son independientes del tamaño del paso. Ejemplo 5.7 Modelo de compartimentos Consideremos el modelo de compartimentos ilustrado en la figura 5.10 y descrito con más detalle en el apartado 3.6. Supongamos que se administra un fármaco por infusión constante en el compartimento V1 y que el fármaco tiene su efecto en el compartimento V2 . Para evaluar la rapidez con la que la concentración en el compartimento alcanza el estado estacionario, calculamos la respuesta al escalón, que se muestra en la Figura 5.10b. La respuesta escalonada es bastante lenta, con un tiempo de estabilización de 39 minutos. Es posible obtener la concentración en estado estacionario mucho más rápido teniendo una tasa de inyección más rápida inicialmente, como se muestra en la Figura 5.10c. La respuesta del sistema en este caso puede calcularse combinando dos escalones 152 CAPÍTULO 5. SISTEMAS LINEALES Co 2 nce ntr 1 aci ón 0 C2 0 u b0 k1 V1 k0 V2 k2 20 40 Tiempo t [min] Do 0.4 sis de 0.2 ent ra 0 0 da 20 Do 0.4 sis de 0.2 ent ra 0 0 da (a) Esquema 40 Co 2 nce ntr 1 aci ón 0 C2 0 (b) Entrada de pasos 20 40 20 40 Tiempo t [min] (c) Entrada de pulsos Figura 5.10: Respuesta de un modelo de compartimentos a una infusión constante de fármacos. En (a) se muestra un diagrama simple del sistema. La respuesta escalonada (b) muestra la velocidad de aumento de la concentración en el compartimento 2. En (c) se utiliza un pulso de concentración inicial para acelerar la respuesta. respuestas (Ejercicio 5.3). Otra señal de entrada común a un sistema lineal es una sinusoide (o una combinación de sinusoides). La respuesta en frecuencia de un sistema de entrada/salida mide la forma en que el sistema responde a una excitación sinusoidal en una de sus entradas. Como ya hemos visto para los sistemas escalares, la solución particular asociada a una excitación sinusoidal es a su vez una sinusoide a la misma frecuencia. Por tanto, podemos comparar la magnitud y la fase de la sinusoide de salida con la de entrada. Más generalmente, si un sistema tiene una respuesta de salida sinusoidal a la misma frecuencia que el forzamiento de entrada, podemos hablar de la respuesta en frecuencia del sistema. Para ver esto con más detalle, debemos evaluar la ecuación de convolución (5.15) para u = coste. Esto resulta ser un cálculo muy complicado, pero podemos aprovechar el hecho de que el sistema es lineal para simplificar la derivación. En particular, observamos que 1 coste = eit + e−it . 2 Como el sistema es lineal, basta con calcular la respuesta del sistema a la entrada compleja u(t) = est y podemos reconstruir la entrada en una sinusoide promediando las respuestas correspondientes a s = y s = - i. Aplicando la ecuación de convolución a la entrada u = est tenemos y(t) = Ce x(0) At + = CeAt x(0) + Ce - t 0 CeA(t-) + Dest t En 0 e(sI-A) Bd + Dest . Si suponemos que ninguno de los valores propios de A es igual a s = ±i, entonces la 153 5.3. RESPUESTA DE ENTRADA/SALIDA la matriz sI - A es invertible, y podemos escribir 1t y(t) = CeAt x(0) + CeAt (sI - A)−1 e(sI−A) B 1 + 0 Dest At At (sI-A)t e - I B + Dest = Ce x(0) + Ce (sI A)−1 = CeAt x(0) + C(sI - A)−1 est B -CeAt (sI - A)−1 B + Dest , y obtenemos y(t) = CeAt x(0) -(sI - A)−1 B + C(sI - A)−1 B + D est . ".. ,. .. ,. ., ., "tran s (5.23) stead y -estado ient Obsérvese que, una vez más, la solución consta de un componente transitorio y un componente de estado estacionario. El componente transitorio decae a cero si el sistema es asintóticamente estable y el componente de estado estacionario es proporcional a la entrada (compleja) u = est . Podemos simplificar un poco más la forma de la solución reescribiendo la fórmula estacionaria respuesta del estado como yss(t) = Mei est = Me(st+i), donde Mei = C(sI - A)−1 B + D (5.24) y M y representan la magnitud y la fase del número complejo C(sI A)−1 B + D. Cuando s = i, decimos que M es la ganancia y es la fase del sistema a una frecuencia de forzamiento dada . Utilizando la linealidad y combinando las soluciones para s = -+i y s =i , podemos demostrar que si tenemos una entrada u = Au sin(t +) y una salida y = Ay sin(t + ), entonces gain() = Ay Au = M, fase() = - =. La solución en estado estacionario para una sinusoide u = coste viene dada ahora por yss (t) = M cos(t + ). Si la fase es positiva, decimos que la salida adelanta a la entrada, en caso contrario decimos que la retrasa. En la Figura 5.11a se ilustra un ejemplo de respuesta sinusoidal. La línea discontinua muestra la sinusoide de entrada, que tiene amplitud 1. La sinusoide de salida se muestra como una línea sólida y tiene una amplitud diferente más una fase desplazada. La ganancia es la relación de las amplitudes de las sinusoides, que puede determinarse midiendo la altura de los picos. La fase se determina comparando la relación del tiempo entre los cruces por cero de la entrada y la salida con el periodo global de la sinusoide T : = -- . T 154 CAPÍTULO 5. SISTEMAS LINEALES 101 2 1 En tra 0 da, sal ida -1 Ay Entra da Salida Ga 10-1 nar Au 10-3 0 T T -2 0 5 10 Tiempo [seg] 15 20 (a) Respuesta de entrada/salida Fa se -90 [d -180 eg ] -270 0.5 Frecuencia [rad/s] 5 (b) Respuesta en frecuencia Figura 5.11: Respuesta de un sistema lineal a una sinusoide. (a) Una entrada sinusoidal de magnitud Au (discontinua) da una salida sinusoidal de magnitud Ay (sólida), retrasada por T segundos. (b) Respuesta en frecuencia, mostrando la ganancia y la fase. La ganancia viene dada por la relación entre la amplitud de salida y la amplitud de entrada, M- = Ay/Au. El retraso de fase viene dado por = /T ; es negativo para el caso mostrado porque la salida se retrasa respecto a la entrada. Una forma conveniente de ver la respuesta en frecuencia es trazar cómo la ganancia y la fase en la ecuación (5.24) dependen de (a través de s = i). La figura 5.11b muestra un ejemplo de este tipo de representación. Ejemplo 5.8 Filtro pasabanda activo Considere el circuito de amplificadores operacionales mostrado en la Figura 5.12a. Podemos derivar la dinámica del sistema escribiendo las ecuaciones nodales, que establecen que la suma de las corrientes en cualquier nodo debe ser cero. Asumiendo que v− = v+ = 0, como lo hicimos en la Sección 3.3, tenemos v1 - v2 dv2 dv2 dv3 v3 0= -C1 , 0 = C1 + + C2 . R1 dt dt R2 dt Si elegimos v2 y v3 como nuestros estados y utilizamos estas ecuaciones, obtenemos dv2 v1 - v 2 = , dt R1 C1 dv3 -v3 v1 - v2 = . dt R2 R1 C2 C2 Reescribiendo esto en forma de espacio de estado lineal, obtenemos 11 1 1 R1 C1 01 = 1 dt u, y= 01 x, x -1 -RC dx + R C12 R2 C 2 R C 12 (5.25) donde x = (v2 , v3 ), u = v1 e y = v3 . La respuesta en frecuencia del sistema puede calcularse mediante la ecuación (5.24): R1C1s R2 Mej = C(sIA)-−1 B + D = , s = i. R1 (1 + R1 C1 s)(1 + R2 C2 s) La magnitud y la fase se representan en la Figura 5.12b para R1 = 100 , R2 = 5 y C1 = C2 = 100 µF. Vemos que el circuito pasa por señales con frecuencias 155 5.3. RESPUESTA DE ENTRADA/SALIDA 100 C2 Ga nar v2 R1 v1 C 1 R2 + (a) Esquema del circuito v3 10-1 0 Fa -90 se [d -180 eg -270 ] -360 10−1 100 101 102 Frecuencia [rad/s] 103 (b) Respuesta en frecuencia Figura 5.12: Filtro pasabanda activo. El diagrama del circuito (a) muestra un amplificador óptico con dos filtros RC dispuestos para proporcionar un filtro pasa-banda. El gráfico en (b) muestra la ganancia y la fase del filtro en función de la frecuencia. Observe que la fase comienza en -90◦ debido a la ganancia negativa del amplificador operacional. a unos 10 rad/s, pero atenúa las frecuencias inferiores a 5 rad/s y superiores a 50 rad/s. A 0,1 rad/s la señal de entrada se atenúa en×20 (0,05). Este tipo de circuito se denomina filtro pasabanda, ya que atraviesa las señales en la banda de frecuencias entre 5 y 50 rad/s. Como en el caso de la respuesta escalonada, se definen una serie de propiedades estándar para las respuestas en frecuencia. La ganancia de un sistema a = 0 se denomina ganancia de frecuencia cero y corresponde a la relación entre una entrada constante y la salida estable: M0 = -CA−1 B + D. La ganancia de frecuencia cero está bien definida sólo si A es invertible (y, en particular, si no tiene valores propios en 0). También es importante señalar que la ganancia de frecuencia cero es una cantidad relevante sólo cuando un sistema es estable alrededor del punto de equilibrio correspondiente. Así, si aplicamos una entrada constante u = r, entonces la correspondiente 1 − punto de equilibrio xe = Un Br debe ser estable para poder hablar del cero ganancia de frecuencia. (En ingeniería eléctrica, la ganancia de frecuencia cero suele llamarse la ganancia de CC. DC significa corriente continua y refleja la separación común de las señales en ingeniería eléctrica en un término de corriente continua (frecuencia cero) y un término de corriente alterna (AC)). El ancho de bandab de un sistema es el √ rango de frecuencias en el que la ganancia tiene disminuido en un factor no superior a 1/ 2 con respecto a su valor de referencia. Para los sistemas con ganancia de freq√uencia cero no nula, el ancho de banda es la frecuencia en la que la ganancia ha disminuido en 1/ 2 desde la ganancia de frecuencia cero. Para los sistemas que atenúan las bajas frecuencias pero pasan las altas, la ganancia de referencia se toma como la ganancia de alta frecuencia. Para un sistema como el filtro pasa banda de Ejemplo 5.8, el √anchodebandase define como el rango de frecuencias donde la ganancia es mayor que 1/ 2 de la ganancia en el centro de la banda. (Para el ejemplo 5.8 esto sería dan un ancho de banda de aproximadamente 50 rad/s). 156 CAPÍTULO 5. SISTEMAS LINEALES Fotod iodo Láser Voladizo Muestr Generad Accioa or de nami x,y z barrido ento piezo Controlad Amplifica Amplifica eléctr or ico dor dor Referencia de desviación (a) Diagrama de bloques del AFM 101 Ga nar 10-1 Mr 1 =r 1 Mr 2 =r 2 0 Fa se [d -90 eg ] -180 104 105 106 Frecuencia [rad/s] 107 (b) Respuesta en frecuencia Figura 5.13: Respuesta en frecuencia del AFM. (a) Un diagrama de bloques para la dinámica vertical de un microscopio de fuerza atómica en modo de contacto. El gráfico de (b) muestra la ganancia y la fase de la pila piezoeléctrica. La respuesta contiene dos picos de frecuencia en las resonancias del sistema, a lo largo de con una antirresonancia a = 268 krad/s. La combinación de un pico resonante seguido de una antirresonancia es habitual en los sistemas con múltiples modos ligeramente amortiguados. Otra propiedad importante de la respuesta en frecuencia es el pico de resonancia Mr , el mayor valor de la respuesta en frecuencia, y la frecuencia de picomr , la frecuencia en la que se produce el máximo. Estas dos propiedades describen la frecuencia de la entrada sinusoidal que produce la mayor salida posible y la ganancia en la frecuencia. Ejemplo 5.9 Microscopio de fuerza atómica en modo de contacto Consideremos el modelo para la dinámica vertical del microscopio de fuerza atómica en modo de contacto, discutido en la sección 3.5. La dinámica básica está dada por la ecuación (3.23). La pila piezoeléctrica puede ser modelada por un sistema de segundo orden con frecuencia natural no amortiguada3 y relación de amortiguamiento3 . La dinámica se describe entonces mediante el sistema lineal 0 1 0 0 0 dx -k2 /(m1 + m2 ) -c2 /(m1 + m2 ) 1/m2 x+ 0 u, 0 = 0 dt 0 0 0 3 3 0 0 −− 33 3 1 0x, m1 k2 m1 c2 y =m2 m1 + m1 + m1 + m2 m2 m2 donde la señal de entrada es la señal de accionamiento del amplificador y la salida es la elongación del piezo. La respuesta en frecuencia del sistema se muestra en la figura 5.13b. La ganancia en frecuencia cero del sistema es M0 = 1. Hay dos polos resonantes con picos Mr1 = 2,12 enmr1 = 238 kra d /s y Mr2 = 4,29 enmr2 = 746 kr a d√/ s. El ancho de banda del sistema, definido como la frecuencia más baja en la que la ganancia es2 menor que la ganancia de frecuencia cero, esb = 292 krad/s. También hay una caída en la ganancia Md = 0,556 paramd = 268 krad/s. Esta depresión, llamada antirresonancia, está asociada a una depresión de la fase y limita el rendimiento cuando el sistema se controla mediante simples controladores, como veremos en el capítulo 10. 157 5.3. RESPUESTA DE ENTRADA/SALIDA Muestreo A menudo es conveniente utilizar tanto las ecuaciones diferenciales como las de diferencias en la modelización y el control. Para los sistemas lineales es sencillo transformar de una a otra. Consideremos el sistema lineal general descrito por la ecuación (5.13) y supongamos que la señal de control es constante a lo largo de un intervalo de muestreo de longitud constante h. De la ecuación (5.14) del teorema 5.4 se deduce que x(t + h) eAh x(t) = + - t+h e B( ) = x(t) + u(t), A(t+h-) t (5.26) donde hemos supuesto que la señal de control discontinua es continua por la derecha. El comportamiento del sistema en los tiempos de muestreo t = kh se describe mediante la ecuación en diferencias x[k + 1] = x[k] + u[k], y [ k] = Cx[k] + Du[k]. (5.27) Nótese que la ecuación de diferencia (5.27) es una representación exacta del comportamiento del sistema en los instantes de muestreo. También se pueden obtener expresiones similares si la señal de control es lineal en el intervalo de muestreo. La transformación de (5.26) a (5.27) se llama muestreo. Las relaciones entre las matrices del sistema en las representaciones continua y muestreada son las siguientes: -h h = eA , = eAs ds B; A 1 , = h 0 -h B = eAs ds − 0 (5.28) . Notice that if A is invertible, we have = A−1 eAh - I B. Todos los sistemas de tiempo continuo pueden ser muestreados para obtener una versión de tiempo discreto, pero hay sistemas de tiempo discreto que no tienen un equivalente de tiempo continuo. Las condiciones precisas dependen de las propiedades de la matriz exponencial exp(Ah) en la ecuación (5.26). Ejemplo 5.10 Servidor Lotus de IBM En el ejemplo 2.4 describimos cómo se obtenía la dinámica de un servidor IBM Lotus como sistema de tiempo discreto y[k + 1] = ay[k] + bu[k], donde a = 0,43, b = 0,47 y el periodo de muestreo es h = 60 s. Se necesita un modelo de ecuaciones diferenciales si queremos diseñar sistemas de control basados en la teoría del tiempo continuo. Dicho modelo se obtiene aplicando la ecuación (5.28); por lo que -h -1b regis B eAt dt trar 0.0141, 0.0116, un 0 = = A= =h y encontramos que la ecuación de diferencia puede interpretarse como una versión muestreada de 158 CAPÍTULO 5. SISTEMAS LINEALES la ecuación diferencial ordinaria dx dt = -0,0141x + 0,0116u. 5.4 Linealización Como se describe al principio del capítulo, una fuente común de modelos de sistemas lineales es la aproximación de un sistema no lineal por uno lineal. Estas aproximaciones tienen como objetivo estudiar el comportamiento local de un sistema, donde se espera que los efectos no lineales sean pequeños. En esta sección se discute cómo aproximar un sistema de forma lineal mediante su linealización y qué se puede decir de la aproximación en términos de estabilidad. Comenzamos con una ilustración del concepto básico utilizando el ejemplo del control de crucero del capítulo 3. Ejemplo 5.11 Control de crucero La dinámica para el sistema de control de crucero se derivó en la sección 3.1 y tiene la forma mdv =n uT (n v) - mgCr sgn(v) dt 1 Cv Av2 - mg sin, 2 (5.29) donde el primer término del lado derecho de la ecuación es la fuerza generada por el motor y los tres términos restantes son la fricción de rodadura, la resistencia aerodinámica y la fuerza gravitatoria perturbadora. Existe un equilibrio (ve , ue ) cuando la fuerza aplicada por el motor equilibra las fuerzas perturbadoras. Para explorar el comportamiento del sistema cerca del equilibrio vamos a linealizar el sistema. Una expansión en serie de Taylor de la ecuación (5.29) alrededor del equilibrio da d(v - ve) = a(v - ve ) - bg ( − e ) + b(u - ue ) + términos de orden superior, dt (5.30) donde a= ue 2T′ (n ve ) n m - Cv Ave , bg = g e , n b= T (n ve ) m . (5.31) Obsérvese que el término correspondiente a la fricción de rodadura desaparece si v = 0. Para un coche en cuarta velocidad con ve = 25 m/s,e = 0 y los valores numéricos del coche del apartado 3.1, el valor de equilibrio del acelerador es ue = 0,1687 y los parámetros son a = 0,0101, b = 1,32 y c = 9,8. Este modelo lineal describe cómo evolucionan en el tiempo las pequeñas perturbaciones de la velocidad respecto a la velocidad nominal. La figura 5.14 muestra una simulación de un controlador de crucero con modelos lineales y no lineales; las diferencias entre los modelos lineales y no lineales son pequeñas, por lo que el modelo linealizado proporciona una aproximación razonable. 159 5.4. LINEARIZACIÓN 20.5 Ve loc 20 ida d v 19.5 [m /s] 19 0 F F g No lineal Lineal 10 20 30 10 20 Tiempo t [s] 30 1 mg Ac ele 0.5 ra do ru 0 0 Figura 5.14: Respuesta simulada de un vehículo con control de crucero PI al subir una colina con una pendiente de 4◦. La línea continua es la simulación basada en un modelo no lineal, y la línea discontinua muestra la simulación correspondiente utilizando un modelo lineal. Las ganancias del controlador son kp = 0,5 y ki = 0,1. Linealización jacobiana en torno a un punto de equilibrio Para proceder de manera más formal, consideremos un sistema no lineal de una sola entrada y una sola salida dx = f (x, u), x ∈ Rn , u ∈ R, dt y = h(x, u), (5.32) y ∈ R, con un punto de equilibrio en x = xe , u = ue . Sin pérdida de generalidad podemos suponer que xe = 0 y ue = 0, aunque inicialmente consideraremos el caso general para hacer explícito el desplazamiento de coordenadas. Para estudiar el comportamiento local del sistema en torno al punto de equilibrio (xe , ue -), suponemos - que x xe y u ue son ambos pequeños, de modo que las perturbaciones no lineales en torno a este punto de equilibrio pueden ser ignoradas en comparación con las de (menor orden) lintérminos del oído. Este es más o menos el mismo tipo de argumento que se utiliza cuando hacemos aproximaciones de ángulos pequeños, sustituyendo por y por 1 para cerca de cero. Como hicimos en el capítulo 4, definimos un nuevo conjunto de variables de estado z, así como entradas v y salidas w: z = x - xe , v = u - ue , w = y - h(xe , ue ). Estas variables son todas cercanas a cero cuando estamos cerca del punto de equilibrio, por lo que en estas variables los términos no lineales pueden ser considerados como los términos de orden superior en una expansión en serie de Taylor de los campos vectoriales relevantes (asumiendo por ahora que estos existen). 160 CAPÍTULO 5. SISTEMAS LINEALES Formalmente, la linealización jacobiana del sistema no lineal (5.32) es dz (5.33) = Az + Bv, w = Cz + Dv, dt donde f f h h . (5.34) A = x , B = u , C = x , D = u (xe,ue) (xe,ue) (xe,ue) (xe,ue) El sistema (5.33) se aproxima al sistema original (5.32) cuando estamos cerca del punto de equilibrio sobre el que se linealizó el sistema. Usando el Teorema 4.3, si la linealización es asintóticamente estable, entonces el punto de equilibrio xe es localmente estable asintóticamente para el sistema no lineal completo. Es importante señalar que podemos definir la linealización de un sistema sólo cerca de un punto de equilibrio. Para ver esto, consideremos un sistema polinómico dx = a0 + a1 x + a2 x2 + a3 x3 + u, dt donde a0 /= 0. Un conjunto de puntos de equilibrio para este sistema viene dado por (xe , ue ) =(xe , -a0 - a1 xe - a2 x2 - a3 x3 ), y podemos linealizar e e alrededor de cualquiera de ellos. Supongamos que que tratamos de linealizar alrededor del origen del sistema x = 0, u = 0. Si eliminamos la términos de orden superior en x, entonces obtenemos dx = a0 + a1 x + u, dt que no es la linealización jacobiana si a/0 = 0. El término constante debe mantenerse, y no está presente en (5.33). Además, aunque mantuviéramos el término constante en el modelo aproximado, el sistema se alejaría rápidamente de este punto (ya que es "conducido" por el término constante a0 ), y por lo tanto la aproximación podría fallar pronto. Los programas informáticos de modelización y simulación suelen disponer de medios para realizar la linealización de forma simbólica o numérica. El comando trim de MATLAB encuentra el equilibrio, y linmod extrae modelos lineales del espacio de estados de un sistema SIMULINK en torno a un punto de funcionamiento. Ejemplo 5.12 Dirección del vehículo Considere el sistema de dirección del vehículo introducido en el Ejemplo 2.8. Las ecuaciones de movimiento no lineal del sistema vienen dadas por las ecuaciones (2.23)-(2.25) y pueden escribirse como d x vcos(() + ) bronceado y = v sin(() + ) , () = arctan un , v 0 dt b b donde x, y y son la posición y orientación del centro de masa del vehículo, v0 es la velocidad de la rueda trasera, b es la distancia entre las ruedas delantera y trasera y es el ángulo de la rueda delantera. La función () es el ángulo entre el vector velocidad y el eje longitudinal del vehículo. 161 5.4. LINEARIZACIÓN Nos interesa el movimiento del vehículo sobre una trayectoria rectilínea ( =0 ) con velocidad fija v0 /= 0. Para encontrar el punto de equilibrio relevante, primero fijamos ˙ = 0 y vemos que debemos tener = 0, lo que corresponde a que el volante está recto. Esto también da como resultado = 0. Observando las dos primeras ecuaciones de la dinámica, vemos que el movimiento en la dirección xy no está, por definición, en equilibrio, ya que x˙2 + y˙2 = v2 = 0. Por lo tanto, no / podemos linealizar formalmente el modelo completo. Supongamos, en cambio, que nos preocupa la desviación lateral del vehículo respecto a una línea recta. Para simplificar, dejamos quee = 0, lo que corresponde a la conducción a lo largo del eje x. Entonces podemos centrarnos en las ecuaciones de movimiento en las direcciones y. Abusando un poco de la notación, introducimos el estado x = (y, ) y u = . El sistema está entonces en forma estándar con vsin((u) + x2 a tan u ) (u) = arctan , h(x, u) = x . f (x, u) = , 1 v0 b tan u b El punto de equilibrio de interés está dado por x = (0, 0) y u = 0. Para calcular el modelo linealizado alrededor de este punto de equilibrio, hacemos uso de la forma (5.34). Un cálculo sencillo da como resultado f 0v0 av/b f = , 0 B= 1 = 0 , 1 A= 1 1 0 u x=0 x x=0 v0 /b u=0 u=0 h h = 10, D= 1 C = 11 = 0, x x=0 u x=0 u=0 u=0 y el sistema linealizado dx (5.35) = Ax + Bu, y = Cx + Du dt proporciona así una aproximación a la dinámica no lineal original. El modelo linealizado puede simplificarse aún más si se introducen variantes normalizadas, como se explica en la sección 2.3. Para este sistema, elegimos la base de la rueda b como la unidad de longitud y la unidad como el tiempo requerido para recorrer una base de la rueda. El estado normalizado es entonces z = (x1 /b, x2 ), y la nueva variable de tiempo es = v0 t/b. El modelo (5.35) se u convierte dz entonces = z2 + en 01 = z + u, y=0 1z, u 0 1 0 donde = a/b. El modelo lineal normalizado para la (5.36) dirección del vehículo con ruedas no deslizantes es, pues, un sistema lineal con un solo parámetro. Linealización de la retroalimentación Otro tipo de linealización es el uso de la retroalimentación para convertir la dinámica de un sistema no lineal en la de uno lineal. Ilustramos la idea básica con un ejemplo. 162 CAPÍTULO 5. SISTEMAS LINEALES Dinámica linealizada r e Controla dor lineal v (x,v) u Proceso no lineal y -1 Figura 5.15: Linealización de la retroalimentación. Una retroalimentación no lineal de la forma u = (x, v) se utiliza para modificar la dinámica de un proceso no lineal de manera que la respuesta de la entrada v a la salida y sea lineal. A continuación, se puede utilizar un controlador lineal para regular la dinámica del sistema. Ejemplo 5.13 Control de crucero Consideremos de nuevo el sistema de control de crucero del ejemplo 5.11, cuya dinámica viene dada por la ecuación (5.29): 1 mdv =n uT (n v) - mgCr sgn(v) - Cd Av2 - mg sin. dt 2 Si elegimos u como ley de retroalimentación de la forma ( 1 1 u= u′ + mgCr sgn(v) + Cv Av2 , (5.37) T (n v) entonces la dinámica resultante se convierte en n 2 mdv = u′ + d, (5.38) dt donde d =mg es la fuerza de perturbación debida a la pendiente de la carretera. Si ahora definimos una ley de retroalimentación para u′ (como una proporcional-integral-derivada [PID] ), podemos utilizar la ecuación (5.37) para calcular la entrada final que debe ser comandada. La ecuación (5.38) es una ecuación diferencial lineal. Esencialmente hemos "invertido" la no linealidad mediante el uso de la ley de retroalimentación (5.37). Esto requiere que tengamos una medición precisa de la velocidad del vehículo v, así como un modelo preciso de las características de par del motor, las relaciones de transmisión, las características de resistencia y fricción y la masa del coche. Mientras que tal modelo no está generalmente disponible (recordando que los valores de los parámetros pueden cambiar), si diseñamos una buena ley de retroalimentación para u′ , entonces podemos lograr robustez a estas incertidumbres. De forma más general, decimos que un sistema de la forma dx = f (x, u), y = h(x), dt es linealizable por retroalimentación si podemos encontrar una ley de control u = (x, v) tal que el sistema de lazo cerrado resultante es lineal de entrada/salida con la entrada v y la salida y, como se muestra en la Figura 5.15. La caracterización completa de estos sistemas está fuera del alcance de este texto, pero observamos que además de los cambios en la entrada, la teoría general también permite cambios (no lineales) en los estados que se utilizan para describir el sistema, 163 5.5. LECTURAS COMPLEMENTARIAS manteniendo fijas sólo las variables de entrada y salida. Se pueden encontrar más detalles de este proceso en los libros de texto de Isidori [Isi95] y Khalil [Kha01]. Un caso que aparece con relativa frecuencia, y que por tanto merece una � mención especial, es el conjunto de sistemas mecánicos de la forma M(q)q¨ + C(q, q˙) = B(q)u. Here q ∈Rn is the configuration of the mechanical system, M(q)∈ Rn×n is the configuration-dependent inertia matrix, C(q, q˙)∈ Rn represents the Coriolis forces and additional nonlinear forces (such as stiffness and friction) and B(q)∈ Rn×p is the input matrix. If p = n, then we have the same number of inputs and configuration variables, and if we further have that B(q) is an invertible matrix for all configurations q, then we can choose u = B−1 (q) M(q)v + C(q, q˙) . (5.39) La dinámica resultante se convierte en M(q)q¨ = M(q)v q¨ = v, = ⇒ que es un sistema lineal. Ahora podemos utilizar las herramientas de la teoría de sistemas lineales para analizar y diseñar leyes de control para el sistema linealizado, recordando aplicar la ecuación (5.39) para obtener la entrada real que se aplicará al sistema. Este tipo de control es común en la robótica, donde recibe el nombre de par com- puesto, y en el control de vuelo de aeronaves, donde se denomina inversión dinámica. Algunas herramientas de modelado, como Modelica, pueden generar automáticamente el código del modelo inverso. Hay que tener en cuenta que la linealización de la retroalimentación a menudo puede anular los términos beneficiosos de la dinámica natural, por lo que debe utilizarse con cuidado. Las extensiones que no requieren la cancelación completa de las no linealidades se discuten en Khalil [Kha01] y Krstic' et al. [KKK95]. 5.5 Más información La mayor parte del material de este capítulo es clásico y se puede encontrar en la mayoría de los libros sobre dinámica y teoría de control, incluidos los primeros trabajos sobre control como los de James, Nichols y Phillips [JNP47] y libros de texto más recientes como los de Dorf y Bishop [DB04], Franklin, Powell y EmamiNaeini [FPEN05] y Ogata [Oga01]. En el libro de Brockett [Bro70] se ofrece una excelente presentación de los sistemas lineales basada en la exponencial matricial, en Rugh [Rug95] se ofrece un tratamiento más completo y en Sontag [Son98] se ofrece un elegante tratamiento matemático. El material sobre la linealización de la retroalimentación se puede encontrar en libros sobre la teoría de control no lineal como Isidori [Isi95] y Khalil [Kha01]. La idea de caracterizar la dinámica considerando las respuestas a entradas escalonadas se debe a Heaviside, él también introdujo un cálculo de operadores para analizar sistemas lineales. Por lo tanto, el escalón unitario también se denomina función escalón de Heaviside. El análisis de los sistemas lineales se simplificó significativamente, pero el trabajo de Heaviside fue muy criticado debido a la falta de rigor matemático, 164 CAPÍTULO 5. SISTEMAS LINEALES como se describe en la biografía de Nahin [Nah88]. Las dificultades fueron aclaradas posteriormente por el matemático Laurent Schwartz, que desarrolló la teoría de la distribución a finales de los años 40. En ingeniería, los sistemas lineales se han analizado tradicionalmente utilizando las transformadas de Laplace, como se describe en Gardner y Barnes [GB42]. El uso de la exponencial ma- trix comenzó con los desarrollos de la teoría de control en la década de 1960, fuertemente estimulada por un libro de texto de Zadeh y Desoer [ZD63]. El uso de las técnicas matriciales se expandió rápidamente cuando los poderosos métodos del álgebra lineal numérica fueron empaquetados en programas como LabVIEW, MATLAB y Mathematica. Ejercicios 5.1 (Response to the derivative of a signal) Show that if y(t) is the output of a linear system corresponding to input u(t), then the output corresponding to an input u˙(t) ( )t = lim is given by y˙ (t ). (Hint: Use the definition of the derivative: y˙ y( t+ 0 → ) - y(t) /. ) � 5.2 (Respuesta al impulso y convolución) Demuestre que una señal u(t) puede descomponerse en términos de la función de impulso (t) como -t ( )u t (t - ) u( ) 0 = y utilizar esta descomposición más el principio de superposición para demostrar que la respuesta de un sistema lineal a una entrada u(t) (suponiendo una condición inicial nula) puede se escriba como -t ( )y t (h-t ) u( ) 0 = donde h(t) es la respuesta al impulso del sistema. , 5.3 (Respuesta al impulso para un modelo de compartimentos) Considere el modelo de compartimentos dado en el ejemplo 5.7. Calcule la respuesta al escalón para el sistema y compárela con la Figura 5.10b. Utilice el principio de superposición para calcular la respuesta a la entrada de pulso de 5 s que se muestra en la Figura 5.10c. Utilice los valores de los parámetros k0 = 0.1, k1 = 0,1, k2 = 0,5 y b0 = 1,5. 5.4j (Matriz exponencial para sistema de segundo orden) Supongamos que < 1 y dejemos qued = 2 0 1 − . Demuestre que − e− 0t d e− 0t dt d exp 0 -0 t = t . − -e− 0t d e− 0t d 5.5 (Función de Lyapunov para un sistema lineal) Considere un sistema lineal x˙ = Ax con j < 0 para todos los valores propiosj de la matriz A. Demuestre que la matriz P = T eA QeA 0 define una función de Lyapunov de la forma V (x) = xT Px. 165 EJERCICIOS 5.6 (Forma de Jordan no diagonal) Considere un sistema lineal con una forma de Jordan que no es diagonal. (a) Demuestre la proposición 5.3 demostrando que si el sistema contiene un valor propio real = 0 con un bloque de Jordan no trivial, entonces existe una condición inicial con una solución que crece en el tiempo. (b) Extienda este argumento al caso de valores propios complejos con = 0 utilizando la forma de Jordan en bloque 0 J= 0 0 0 0 1 0 0 0 − 0 1 0 � .i 5.7 (Tiempo de subida para un sistema de primer orden) Consideremos un sistema de primer orden de la forma dx =x+ - u, y = x. dt Decimos que el parámetro es la constante de tiempo para el sistema ya que el sistema de entrada cero se aproxima al origen como e−t/ . Para un sistema de primer orden de esta forma, demuestre que el tiempo de subida para una respuesta escalonada del sistema es aproximadamente 2, y que los tiempos de asentamiento del 1%, 2% y 5% corresponden aproximadamente a 4,6, y 3. 5.8 (Sistemas de tiempo discreto) Consideremos un sistema lineal de tiempo discreto de la forma x[k + 1] = Ax[k] + Bu[k], y[k] = Cx[k] + Du[k]. (a) Demuestre que la forma general de la salida de un sistema lineal de tiempo discreto viene dada por la ecuación de convolución de tiempo discreto: k k-1 y[k] = CA x[0] + CA k- j-1 Bu[ j] + Du[k]. j=0 (b) Demuestre que un sistema lineal de tiempo discreto es asintóticamente estable si y sólo si todos los valores propios de A tienen una magnitud estrictamente menor que 1. (c) Sea u[k] = sin(k) una entrada oscilante con frecuencia (para evitar el "aliasing"). Demuestre que el componente de estado estacionario de la respuesta tiene una ganancia M y una fase , donde Mei = C(ei I - A)−1 B + D. (d) Demuestre que si tenemos un sistema no lineal de tiempo discreto x[k + 1] = f (x[k], u[k]), y[k] = h(x[k], u[k]), x[k] ∈ Rn , u ∈ R, y ∈ R, entonces podemos linealizar el sistema alrededor de un punto de equilibrio (xe , ue ) definiendo las matrices A, B, C y D como en la ecuación (5.34). 166 CAPÍTULO 5. SISTEMAS LINEALES 5.9 (Economía keynesiana) Considere el siguiente modelo macroeconómico keynesiano simple en la forma de un sistema lineal de tiempo discreto discutido en el Ejercicio 5.8: C[t + 1] = a a C[t ] a G + b [t], ] ab ] a I[t + 1 ab - b I[t Y [t] = C[t] + I[t] + G[t]. Determina los valores propios de la matriz dinámica. ¿Cuándo las magnitudes de los valores propios son menores que 1? Suponga que el sistema está en equilibrio con valores constantes del gasto de capital C, la inversión I y el gasto público G. Explore lo que ocurre cuando el gasto público aumenta un 10%. Utilice los valores a = 0,25 y b = 0,5. 5.10 Consideremos un sistema escalar dx = 1x-3 + u. dt Calcule los puntos de equilibrio para el sistema no forzado (u = 0) y utilice una expansión en serie de Taylor alrededor del punto de equilibrio para calcular la linealización. Verifique que esto concuerda con la linealización en la ecuación (5.33). 5.11 (Regulación transcripcional) Considere la dinámica de un circuito genético que implementa la autorrepresión: la proteína producida por un gen es un represor para ese gen, restringiendo así su propia producción. Utilizando los modelos presentados en el examen 2.13, la dinámica del sistema puede escribirse como dm dp +0 − - u, = m − p, (5.40) dt = 1 + kp2 dt donde u es un término de perturbación que afecta a la transcripción del ARN ≥ y m, p0 . Encuentre los puntos de equilibrio para el sistema y utilice la dinámica linealizada alrededor de cada uno punto de equilibrio para determinar la estabilidad local del punto de equilibrio y la respuesta escalonada del sistema a una perturbación. Capítulo 6 Comentarios del Estado Intuitivamente, el estado puede considerarse como una especie de almacenamiento de información o memoria o acúmulo de causas pasadas. Por supuesto, debemos exigir que el conjunto de estados internos sea lo suficientemente rico como para llevar toda la información sobre la historia pasada de para predecir el efecto del pasado sobre el futuro. Sin embargo, no insistimos en que el estado sea la mínima información de este tipo, aunque a menudo sea una suposición conveniente. R. E. Kalman, P. L. Falb y M. A. Arbib, Topics in Mathematical System Theory, 1969 [KFA69]. En este capítulo se describe cómo la retroalimentación del estado de un sistema puede utilizarse para modelar el comportamiento local de un sistema. Se introduce el concepto de alcanzabilidad y se utiliza para investigar cómo diseñar la dinámica de un sistema mediante la asignación de sus valores propios. En particular, se demostrará que, bajo ciertas condiciones, es posible asignar los valores propios del sistema de forma arbitraria mediante una retroalimentación adecuada del estado del sistema. 6.1 Alcanzabilidad Una de las propiedades fundamentales de un sistema de control es qué conjunto de puntos del espacio de estados puede alcanzarse mediante la elección de una entrada de control. Resulta que la propiedad de la alcanzabilidad también es fundamental para entender hasta qué punto puede utilizarse la retroalimentación para diseñar la dinámica de un sistema. Definición de alcanzabilidad Comenzamos por prescindir de las medidas de salida del sistema y nos centramos en la evolución del estado, dada por dx = Ax + Bu, (6.1) dt donde x ∈Rn , u ∈ R, A es una matriz n n y B un vector columna. Una cuestión × fundamental es si es posible encontrar señales de control de forma que se pueda alcanzar cualquier punto del espacio de estados mediante alguna elección de entrada. Para estudiar ≤ esto, definimos el conjunto alcanzable R(x0 , T ) como el ≤ de ≤ todos los puntos xf tales que existe una entrada conjunto u(t), 0 t T que dirige el sistema desde x(0) = x0 hasta x(T ) = xf , como se ilustra en Figura 6.1a. Definición 6.1 (Alcanzabilidad). Un sistema lineal es alcanzable si ∈para cualquier x0 , xf Rn existe un→T > 0 y u : [0, T ] R tal que la solución correspondiente satisface x(0) = x0 y x(T ) = xf . 168 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO E x(T ) x0 R(x0 , ≤ T ) (a) Conjunto alcanzable (b) Alcance a través del control Figura 6.1: El conjunto alcanzable para un sistema de control. ≤ El conjunto R(x0 , T ) mostrado en (a) es el conjunto de puntos alcanzables desde x0 en un tiempo inferior a T . El retrato de fase en (b) muestra la dinámica para un integrador doble, con la dinámica natural dibujada como flechas horizontales y el control entradas dibujadas como flechas verticales. El conjunto de puntos de equilibrio alcanzables es el eje x. Ajustando las entradas de control en función del estado, es posible dirigir el sistema hacia el origen, como se muestra en la trayectoria de muestra. La definición de alcanzabilidad se refiere a si es posible alcanzar todos los puntos del espacio de estados de forma transitoria. En muchas aplicaciones, el conjunto de puntos que más nos interesa alcanzar es el conjunto de puntos de equilibrio del sistema (ya que podemos permanecer en esos puntos una vez que llegamos a ellos). El conjunto de todos los equilibrios posibles para controles constantes viene dado por E = {xe : Axe + Bue = 0 para alguna ue ∈ R}. Esto significa que los posibles equilibrios se encuentran en un subespacio de una dimensión (o posiblemente mayor). Si la matriz A es invertible, este subespacio lo abarca A−1 B. El siguiente ejemplo ofrece una idea de las posibilidades. Ejemplo 6.1 Integrador doble Consideremos un sistema lineal formado por un integrador doble cuya dinámica viene dada por dx1 dx2 = x2 , = u. dt dt La figura 6.1b muestra un retrato de fase del sistema. La dinámica de bucle abierto (u = 0) se muestra como flechas horizontales que apuntan a la derecha para x2 > 0 y a la izquierda para x2 < 0. La entrada de control está representada por una flecha de doble punta en la dirección vertical, que corresponde a nuestra capacidad de fijar el valor de x˙2 . El conjunto de puntos de equilibrio E corresponde al eje x1 , con ue = 0. Supongamos primero que queremos llegar al origen desde una condición inicial (a, 0). Podemos mover directamente el estado hacia arriba y hacia abajo en el plano de fase, pero debemos confiar en la dinámica natural para controlar el movimiento hacia la izquierda y la derecha. Si a > 0, podemos mover el origen estableciendo primero u < 0, lo que hará que x2 se vuelva negativo. Una vez que x2 < 0, el valor de x1 comenzará a disminuir y nos moveremos hacia la izquierda. Después de un tiempo, podemos poner u2 en positivo, moviendo x2 de nuevo hacia cero y frenando el movimiento en la dirección x1 . Si llevamos x2 > 0, podemos mover el estado del sistema en la dirección opuesta. 169 6.1. REACHABILIDAD La figura 6.1b muestra una trayectoria de ejemplo que lleva al sistema al origen. Nótese que si dirigimos el sistema a un punto de equilibrio, es posible permanecer allí indefinidamente (ya que x˙1 = 0 cuando x2 = 0), pero si vamos a cualquier otro punto del estado espacio, podemos pasar por el punto sólo de forma transitoria. Para encontrar las condiciones generales en las que un sistema lineal es alcanzable, primero daremos un argumento heurístico basado en cálculos formales con funciones de impulso. Observamos que si podemos alcanzar todos los puntos del espacio de estados mediante alguna elección de entrada, entonces también podemos alcanzar todos los puntos de equilibrio. Pruebas de accesibilidad Cuando el estado inicial es cero, la respuesta del sistema a una entrada u(t) viene dada por x(t) = - t 0 e B( ) d. A(t-) (6.2) Si elegimos que la entrada sea una función de impulso (t) como la definida en el apartado 5.3, el el estado se convierte en - t dxS = eAt B. x = eA(t-) () = dt 0 (Podemos encontrar la respuesta a la derivada de una función de impulso tomando la derivada de la respuesta al impulso (Ejercicio 5.1): dx = AeAt B. dt Continuando este proceso y utilizando la linealidad del sistema, la entrada x ˙= u(t) =1 (t) +2 ˙(t) +3 (t) + - - + n (n−1) (t) da el estado x(t) =1 eAt B +2 AeAt B +3 A2 eAt B + - - +n An−1 eAt B. Tomando el límite a medida que t va a cero a través de valores positivos, obtenemos lim x(t) =1 B +2 AB + A32 B + n 1 - - + An − B. t→0+ A la derecha hay una combinación lineal de las columnas de la matriz Wr = B AB - - - An−1 B . (6.3) Para alcanzar un punto arbitrario en el espacio de estados, requerimos que haya n columnas lineales independientes de la matriz Wr . La matriz Wr se denomina matriz de alcanzabilidad. Una entrada formada por una suma de funciones impulsivas y sus derivadas es una señal muy violenta. Para ver que se puede alcanzar un punto arbitrario con señales más suaves 170 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO podemos hacer uso de la ecuación de convolución. Suponiendo que la condición inicial es cero, el estado de un sistema lineal viene dado por -t -t eA(t−) eA Bu (x)t ( ) = ( -t ) . 0 0 = De la teoría de las funciones matriciales, concretamente del teorema de CayleyHamilton (véase el ejercicio 6.10), se deduce que eA = 0 () + 1 () + - - + A n−1n−1 (), dondei () son funciones escalares, y encontramos que x(t ) = B - t 0 u0(t ) ( - ) + - - - + An-1B − t 0 + AB n-1( - t 0 u1t( ) ( - ) u ) (t - ) . De nuevo observamos que el lado derecho es una combinación lineal de las columnas de la matriz de alcanzabilidad Wr dada por la ecuación (6.3). Este enfoque básico nos lleva al siguiente teorema. Teorema 6.1 (Condición de rango de alcanzabilidad). Un sistema lineal es alcanzable si y sólo si la matriz de alcanzabilidad Wr es invertible. La demostración formal de este teorema está fuera del alcance de este texto, pero sigue la línea del esquema anterior y puede encontrarse en la mayoría de los libros sobre teoría de control lineal, como Callier y Desoer [CD91] o Lewis [Lew03]. Ilustramos el concepto de alcanzabilidad con el siguiente ejemplo. Ejemplo 6.2 Sistema de equilibrio Considere el sistema de equilibrio introducido en el ejemplo 2.1 y mostrado en la figura 6.2. Recordemos que este sistema es un modelo para una clase de ejemplos en los que el centro de masa está equilibrado sobre un punto de giro. Un ejemplo es el transportador personal Segway que se muestra en la figura 6.2a, sobre el cual una pregunta natural que se puede hacer es si podemos movernos de un punto estacionario a otro mediante la aplicación adecuada de fuerzas a través de las ruedas. Las ecuaciones de movimiento no lineal del sistema se dan en la ecuación (2.9) y se repiten aquí: (M + m)p¨- ml = - cp˙- ml ˙2 + F, (6.4) (J + ml2 ) - ml p¨ = -˙ + mgl sin. Para simplificar, tomamos c = = 0. Linealizando alrededor del punto de equilibrio xe = (p, 0, 0, 0), la matriz de dinámica y la matriz de control son 0 0 1 0 0A = , 0001 B= ,0 2 2 J 0 m l g/0 0 t lm/ 0 0 Mt mgl/ 0 171 6.1. REACHABILIDAD m l F M p (b) Sistema carro-pendular (a) Segway Figura 6.2: Sistema de equilibrio. El transportador personal Segway que se muestra en (a) es un ejemplo de sistema de equilibrio que utiliza el par de torsión aplicado a las ruedas para mantener al conductor en posición vertical. En (b) se muestra un diagrama simplificado de un sistema de equilibrio. El sistema consiste en una masa m sobre una varilla de longitud l conectada por un pivote a un carro con masa M. donde = Mt Jt - m2 l2 , Mt = M + m y Jt = J + ml2 . La matriz de alcanzabilidad es 0 Wr = t 0 J lm/ Jt lm/ 0 0 gl3 m3 /2 0 0 gl2 m2 (m + M)/2 3 gl m /2 0 2 2 gl m (m + M)/2 0 3 . (6.5) El determinante de esta matriz es det(Wr ) = g2l4m4 /= 0, ()4 y podemos concluir que el sistema es alcanzable. Esto implica que podemos mover el sistema desde cualquier estado inicial a cualquier estado final y, en particular, que siempre podemos encontrar una entrada para llevar el sistema desde un estado inicial a un punto de equilibrio. Es útil tener una comprensión intuitiva de los mecanismos que hacen que un sistema sea inalcanzable. En la figura 6.3 se presenta un ejemplo de un sistema de este tipo. El sistema consiste en dos sistemas idénticos con la misma entrada. Está claro que no podemos hacer que el primer sistema y el segundo hagan algo diferente por separado, ya que tienen la misma entrada. Por lo tanto, no podemos alcanzar estados arbitrarios, por lo que el sistema no es alcanzable (Ejercicio 6.3). También pueden darse mecanismos más sutiles de no alcanzabilidad. Por ejemplo, si existe una combinación lineal de estados que siempre permanece constante, entonces el sistema no es alcanzable. Para ver esto, supongamos que existe un vector de filas H tal que 0= d Hx = H(Ax + Bu), todo u. dt para 172 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO m m 1 2 l S l S F M p Figura 6.3: Un sistema inalcanzable. El sistema carro-pendulo mostrado a la izquierda tiene una única entrada que afecta a dos péndulas de igual longitud y masa. Como las fuerzas que afectan a las dos péndulas son las mismas y su dinámica es idéntica, no es posible controlar arbitrariamente el estado del sistema. La figura de la derecha es una representación en forma de diagrama de bloques de esta situación. Entonces H está en el espacio nulo izquierdo de A y B y se deduce que HWr = HB AB - - - An−1 B = 0. Por lo tanto, la matriz de alcanzabilidad no es de rango completo. En este caso, si tenemos una condición inicial x0 y deseamos alcanzar un estado / xf para el que Hx0 = Hx f , entonces como Hx(t) es constante, ninguna entrada u puede moverse de x0 a xf . Forma canónica alcanzable Como ya hemos visto en capítulos anteriores, a menudo es conveniente cambiar de coordenadas y escribir la dinámica del sistema en las coordenadas transformadas z = Tx. Una aplicación del cambio de coordenadas es convertir un sistema en una forma canónica en la que sea fácil realizar ciertos tipos de análisis. Un sistema lineal de espacio de estados está en forma canónica alcanzable si su dinámica viene dada por -a1 -a2 -a3 . . . -an 1 1 0 0 ... 0 dz 0 0 1 0 ... 0 + = 0 u, .. .. dt z . . 0. . 0. (6.6) . 0 1 y = b1 b2 b3 . . . bn z + du. En la figura 6.4 se muestra un diagrama de bloques para un sistema en forma canónica alcanzable. Vemos que los coeficientes que aparecen en las matrices A y B aparecen directamente en el diagrama de bloques. Además, la salida del sistema es una simple combinación lineal de las salidas de los bloques de integración. El polinomio característico de un sistema en forma canónica alcanzable está dado 173 6.1. REACHABILIDAD ... d b1 I u . -1 z1 a1 y b2 I z2 bn-1 .. I zn-1 bn I an-1 a2 zn an ... Figura 6.4: Diagrama de bloques de un sistema en forma canónica alcanzable. Los estados individuales del sistema están representados por una cadena de integradores cuya entrada depende de los valores ponderados de los estados. La salida viene dada por una combinación adecuada de la entrada del sistema y otros estados. por (s) = sn + a1 sn−1 + - - + an−1 s + an . (6.7) La matriz de accesibilidad también tiene una estructura relativamente sencilla: 1-a1 a2 - a2 - - - ∗ 1-a1 0 1 - -- ∗ n− 1 . ....................... , . Wr = B AB . . . A B=. 0 0 0 1 ∗ 0 0 0 --- 1 donde ∗indica un término posiblemente distinto de cero. Esta matriz es de rango completo, ya que ninguna columna puede escribirse como una combinación lineal de las demás debido a la estructura triangular de la matriz. Consideramos ahora el problema de cambiar las coordenadas de manera que la dinámica de un sistema pueda escribirse en forma canónica alcanzable. Dejemos que A, B representen la dinámica de un sistema dado y que Ã, B˜ sean las dinámicas en forma canónica alcanzable. Supongamos que deseamos transformar el sistema original en forma canónica alcanzable utilizando una transformación de coordenadas z = Tx. Como se mostró en el último capítulo, la matriz de dinámica y la matriz de control para el sistema transformado son A˜ = TAT−1 , B˜= TB. La matriz de alcanzabilidad para el sistema transformado se convierte entonces en W̃= r B̃ ÃB̃ -- A˜n-1B˜. 174 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO Transformando cada elemento individualmente, tenemos A˜B˜= TAT−1 TB = TAB, A˜2B˜= (TAT−1 )2 TB = TAT−1 TAT−1 TB = TA2 B, . ÃnB̃= TAn B, y por lo tanto la matriz de alcanzabilidad para el sistema transformado es W̃= r TB AB - - - An−1 B = TWr . (6.8) Como Wr es invertible, podemos resolver la transformación T que lleva el sistema a la forma canónica alcanzable: T = W̃rW-1r. El siguiente ejemplo ilustra este enfoque. Ejemplo 6.3 Transformación a forma alcanzable Consideremos un sistema bidimensional simple de la forma dx = 0 - x + u. 1 dt Queremos encontrar la transformación que convierta el sistema en una forma canónica alcanzable: -a1 -a2 A˜no= , B˜ = 1. Los coeficientes a1 y a2 se pueden a partir0del polinomio característico 1 determinar 0 para el sistema original: (s) = det(sI - A) = s2 - + (2 +2 ) =⇒ La matriz de alcanzabilidad de cada sistema es 0 1-a1 W̃= r . Wr = , 0 1 1 1 La transformación T se convierte -(a1 + ) -1 en T = W̃rW = 0 = r 1/ 1/ y por tanto las coordenadas a1 = -2, a2 =2 +2 . 1 0 , x + x2 = Tx = 1 z2 x1 poner el sistema en forma canónica alcanzable. z1 Resumimos los resultados de esta sección en el siguiente teorema. 6.2. ESTABILIZACIÓN POR RETROALIMENTACIÓN DE ESTADO Controlador r 175 d Proceso u kr x˙ = Ax + Bu y = Cx + Du -K y x Figura 6.5: Un sistema de control retroalimentado con retroalimentación de estado. El controlador utiliza el estado del sistema x y la entrada de referencia r para comandar el proceso a través de su entrada u. Modelamos las perturbaciones a través de la entrada aditiva d. Teorema 6.2 (Forma canónica alcanzable). Sean A y B las matrices de dinámica y control de un sistema alcanzable. Entonces existe una transformación z = Tx tal que en las coordenadas transformadas las matrices de dinámica y control están en forma canónica alcanzable (6.6) y el polinomio característico de A viene dado por det(sI - A) = sn + a1 sn−1 + - - + an−1 s + an . Una implicación importante de este teorema es que, para cualquier sistema alcanzable, podemos suponer sin pérdida de generalidad que las coordenadas se eligen de forma que el sistema está en forma canónica alcanzable. Esto es particularmente útil para las pruebas, como veremos más adelante en este capítulo. Sin embargo, para los sistemas de alto orden, pequeños cambios en los coeficientes ai pueden dar grandes cambios en los valores propios. Por lo tanto, la forma canónica alcanzable no siempre está bien condicionada y debe utilizarse con cierto cuidado. 6.2 Estabilización por retroalimentación del Estado El estado de un sistema dinámico es un conjunto de variables que permite predecir la evolución futura de un sistema. A continuación exploraremos la idea de diseñar la dinámica de un sistema mediante la retroalimentación del estado. Supondremos que el sistema a controlar está descrito por un modelo de estado lineal y tiene una sola entrada (por simplicidad). La ley de control por retroalimentación se desarrollará paso a paso utilizando una sola idea: el posicionamiento de los valores propios del bucle cerrado en los lugares deseados. Estructura del controlador del espacio de estado La figura 6.5 es un diagrama de un sistema de control típico que utiliza retroalimentación de estado. El sistema completo consiste en la dinámica del proceso, que consideramos lineal, los elementos del controlador K y kr , la entrada de referencia (o señal de comando) r y las perturbaciones del proceso d. El objetivo del controlador de retroalimentación es regular la salida del sistema y de manera que siga la entrada de referencia en presencia de perturbaciones y también de incertidumbre en la dinámica del proceso. Un elemento importante del diseño del control es la especificación del rendimiento. La especificación de rendimiento más sencilla es la de la estabilidad: en ausencia de 176 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO Si se trata de un sistema con perturbaciones, se desea que el punto de equilibrio del sistema sea asintóticamente estable. Las especificaciones de rendimiento más sofisticadas suelen incluir las propiedades deseadas de la respuesta de paso o de frecuencia del sistema, como especificar el tiempo de subida, el rebasamiento y el tiempo de estabilización deseados de la respuesta de paso. Por último, a menudo nos preocupan las propiedades de atenuación de las perturbaciones del sistema: ¿hasta qué punto podemos experimentar entradas de perturbación d y seguir manteniendo la salida y cerca del valor deseado? Consideremos un sistema descrito por la ecuación diferencial lineal dx (6.9) = Ax + Bu, y = Cx + Du, dt donde por ahora hemos ignorado la señal perturbadora d. Nuestro objetivo es llevar la salida y a un determinado valor de referencia r y mantenerlo ahí. Obsérvese que puede no ser posible mantener todos los equilibrios; véase el ejercicio 6.8. Comenzamos asumiendo que todos los componentes del vector de estado se miden. Dado que el estado en el momento t contiene toda la información necesaria para predecir el comportamiento futuro del sistema, la ley de control invariable en el tiempo más general es una función del estado y de la entrada de referencia: u = (x, r). Si se restringe la retroalimentación para que sea lineal, se puede escribir como u = -Kx + kr r, (6.10) donde r es el valor de referencia, que por ahora se supone constante. Esta ley de control corresponde a la estructura mostrada en la figura 6.5. El signo negativo es una convención para indicar que la retroalimentación negativa es la situación normal. El sistema de lazo cerrado que se obtiene al aplicar la retroalimentación (6.10) al sistema (6.9) viene dado por dx = (A - BK)x + Bkr r. (6.11) dt Intentamos determinar la ganancia de retroalimentación K para que el sistema de lazo cerrado tenga el polinomio característico p(s) = sn + p1 sn−1 + - - + pn−1 s + pn . (6.12) Este problema de control se llama problema de asignación de valores propios o problema de colocación de polos (definiremos los polos más formalmente en el capítulo 8). Nótese que kr no afecta a la estabilidad del sistema (que viene determinada por los valores propios - de A BK) pero sí a la solución de estado estacionario. En particular, el punto de equilibrio y la salida en estado estacionario para el sistema de bucle cerrado vienen dados por xe = -(A - BK)−1 Bkr r, ye = Cxe + Due , por lo que kr debe elegirse de forma que ye = r (el valor de salida deseado). Como kr es un escalar, podemos resolver fácilmente para demostrar que si D = 0 (el caso más común), kr = -1/ C(A - BK)−1 B . (6.13) 177 6.2. ESTABILIZACIÓN POR RETROALIMENTACIÓN DE ESTADO Nótese que kr es exactamente la inversa de la ganancia en frecuencia cero del sistema de lazo cerrado. La/solución para D = 0 se deja como ejercicio. Utilizando las ganancias K y kr , somos capaces de diseñar la dinámica de la sistema de bucle para satisfacer nuestro objetivo. Para ilustrar cómo construir una ley de control de retroalimentación de estado de este tipo, comenzamos con algunos ejemplos que proporcionan algunas intuiciones y conocimientos básicos. Ejemplo 6.4 Dirección del vehículo En el ejemplo 5.12 derivamos un modelo lineal normalizado para la dirección del vehículo. La dinámica que describe la desviación lateral viene dada por 0 A = 1, C= 0 B = 1, 0 , 10 D = 0. La matriz de alcanzabilidad del sistema es, por tanto, la siguiente AB = 01 Wr = B 1. -/1 = 0. El sistema es alcanzable ya que detWr = Ahora queremos diseñar un controlador que estabilice la dinámica y siga un un valor de referencia r dado de la posición lateral del vehículo. Para ello introducimos la retroalimentación u = -Kx + kr r = -k1 x1 - k2 x2 + kr r, y el sistema de bucle cerrado se convierte en dx − = (A - BK)x + Bkr r = dt - k1 y = Cx + Du = 1 0 1 − kr x + r, kr k2 - (6.14) x. El sistema de bucle cerrado tiene el polinomio característico 1 s + k1 k2 det(sI - A + BK) = det = s2 + (k1 + k2 )s + k1 . k s + k1 Supongamos que queremos utilizar la retroalimentación para diseñar la dinámica 2 del sistema para tener el polinomio característico p(s) = s2 + cc s +2 .c Comparando este polinomio con el polinomio característico del sistema de lazo cerrado, vemos que las ganancias de retroalimentación deben ser elegidas como k1 =c 2 , La ecuación (6.13) da kr = k1 = 2 c, k2 = c c-2 . c y la ley de control puede escribirse como u = k1 (r - x1 ) - k2 x2 c=2 (r - x1 ) -(c c-2 )xc2 . 178 Po sic 1 ió n 0.5 lat era 0 0 l y/b Án 4 gul o de 2 dir ecc 0 ión ra 0 d] c 2 4 6 8 10 c 2 4 6 8 Tiempo normalizado v0 t 10 (a) Respuesta escalonada para variar c Po sic 1 ió n 0.5 lat era 0 0 l y/b 1 Án gul o 0.5 de dir 0 ecc ión -0.5 ra 0 d] CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO c 2 4 6 8 10 c 2 4 6 8 Tiempo normalizado v0 t 10 (b) Respuesta escalonada para variar c Figura 6.6: Control de retroalimentación de estado de un sistema de dirección. Las respuestas escalonadas obtenidas con controladores diseñados con c = 0,7 y c = 0,5, 1 y 2 [rad/s] se muestran en (a). Obsérvese que la velocidad de respuesta aumenta con el incremento de c, pero que c grandes también dan grandes acciones de control inicial. Las respuestas escalonadas obtenidas con un controlador diseñado con c = 1 y c = 0,5, 0,7 y 1 se muestran en (b). En la figura 6.6 se muestran las respuestas escalonadas del sistema de bucle cerrado para distintos valores de los parámetros de desalineación. El efecto dec se muestra en la Figura 6.6a, que muestra que la velocidad de respuesta aumenta con el incremento dec . Las respuestas parac = 0,5 y 1 tienen un sobreimpulso razonable. El tiempo de estabilización es de unos 15 car longitudes parac = 0,5 (más allá del final de la parcela) y disminuye hasta aproximadamente 6 coches parac = 1. La señal de control es grande inicialmente y va a cero a medida que aumenta el tiempo porque la dinámica de bucle cerrado tiene un integrador. El 2r, por valor inicial de la señal de control es lo que el tiempo de c u(0) = kr = respuesta alcanzable está limitado por la señal disponible del actuador. Obsérvese, en particular, el espectacular aumento en la señal de control cuandoc cambia de 1 a 2. El efecto dec se muestra en la Fig. 6.6b. La velocidad de respuesta y el rebasamiento aumentan con la disminución del amortiguamiento. Usando estos gráficos, concluimos que los valores razonables de los parámetros de diseño son tenerc en el rango de 0.5 a 1 yc ≈ 0.7. El ejemplo del sistema de dirección del vehículo ilustra cómo la retroalimentación de estado puede utilizarse para establecer los valores propios de un sistema de bucle cerrado en valores arbitrarios. Retroalimentación de estado para sistemas en forma canónica alcanzable La forma canónica alcanzable tiene la propiedad de que los parámetros del sistema son los coeficientes del polinomio característico. Por lo tanto, es natural considerar los sistemas en esta forma al resolver el problema de asignación de valores propios. 179 6.2. ESTABILIZACIÓN POR RETROALIMENTACIÓN DE ESTADO Consideremos un sistema en forma canónica alcanzable, es decir -a1 dz dt = Ãz+ B˜u = -a2 0 1 1 0 -a3 0 0 .. . y = Cz ˜ = b1 0 b2 - - - bn 1 . . . -an ... 0 0. u z ... 0 + . .. . 0 0 . 1 0 . (6.15) z. Se deduce de(6.7) que el sistema de bucle abierto tiene el polinomio característico det(sI - A) = sn + a1 sn−1 + - - + an−1 s + an . Antes de hacer un análisis formal, podemos obtener alguna información investigando el diagrama de bloques del sistema que se muestra en la figura 6.4. El polinomio característico está dado por los parámetros ak en la figura. Obsérvese que el parámetro ak puede cambiarse mediante la retroalimentación del estado zk a la entrada u. Por tanto, es sencillo cambiar los coeficientes del polinomio característico mediante la retroalimentación del estado. Volviendo a las ecuaciones, introduciendo la ley de control u = -K˜z + kr r = -k˜1z1 - k˜2z2 ---- - k˜nzn + kr r, (6.16) el sistema de bucle cerrado se convierte en -a1 - k˜1 -a2 - k˜2 -a3 - k˜3 1 0 dz dt = y= 0 1 0 0 .. 0. b1 b2 - - - bn . . . . -an - k̃n ... ... .. . 1 0 0 +z . 0 kr 0 0 0 .. r, (6.17) z. La retroalimentación cambia los elementos de la primera fila de la matriz A, que corresponde a los parámetros del polinomio característico. El sistema de bucle cerrado tiene así el polinomio característico sn + (a1 + k˜1)sn−1 + (a2 + k˜2)sn−2 + - - + (an−1 + k˜n-1)s + an + k˜n. Exigiendo que este polinomio sea igual al polinomio de bucle cerrado deseado p(s) = sn + p1 sn−1 + - - + pn−1 s + pn , encontramos que las ganancias del controlador deben ser elegidas como k˜1 = p1 - a1 k˜2 = p2 - a2 , , . .. k˜n = pn - an . Esta retroalimentación simplemente reemplaza los parámetros ai en el sistema (6.15) por pi . La ganancia de retroalimentación para un sistema en forma canónica alcanzable es, por lo tanto K˜= p1-ap1 - - - pn - an . (6.18) 2 - a2 180 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO Para tener una ganancia de frecuencia cero igual a la unidad, se debe elegir el parámetro k r como k = an + k˜n= pn . (6.19) r bn bn Obsérvese que es esencial conocer los valores precisos de los parámetros an y bn para obtener la ganancia de frecuencia cero correcta. La ganancia de frecuencia cero se obtiene, pues, mediante una calibración precisa. Esto es muy diferente a la obtención del valor correcto de estado estacionario por acción integral, que veremos en secciones posteriores. Asignación de valores propios Hemos visto a través de los ejemplos cómo la retroalimentación puede ser utilizada para diseñar la dinámica de un sistema a través de la asignación de sus valores propios. Para resolver el problema en el caso general, simplemente cambiamos las coordenadas para que el sistema esté en forma canónica alcanzable. Consideremos el sistema dx dt = Ax + Bu, y = Cx + Du. (6.20) Podemos cambiar las coordenadas mediante una transformación lineal z = Tx de modo que el sistema transformado esté en forma canónica alcanzable (6.15). Para un sistema de este tipo el La retroalimentación está dada por la ecuación (6.16), donde los coeficientes están dados por la ecuación (6.18). Transformando de nuevo a las coordenadas originales se obtiene la retroalimentación u = -K˜z + kr r = -K˜T x + kr r. Los resultados obtenidos pueden resumirse como sigue. Teorema 6.3 (Asignación de valores propios por retroalimentación de estado). Consideremos el sistema dado por la ecuación (6.20), con una entrada y una salida. Sea (s) = sn + a1 sn−1 + - - -+ a −n1 s + an sea el polinomio característico de A. Si el sistema es alcanzable, entonces existe una retroalimentación u = -Kx + kr r que da un sistema de bucle cerrado con el polinomio característico p(s) = sn + p1 sn−1 + - - + pn−1 s + pn y la ganancia de frecuencia cero entre r e y. La ganancia de retroalimentación viene dada por K = KT̃= p1 - a p1 - - - pn - an W˜rWr-1, (6.21) 2 - a2 donde ai son los coeficientes del polinomio característico de la matriz A y las matrices Wr y W̃rvienen dadas por 181 6.2. ESTABILIZACIÓN POR RETROALIMENTACIÓN DE ESTADO 1 a1 0 1 Wr = B AB - - - An−1 B, W̃r= . 0 0 0 0 a2 - - - an-1 a1 - - - an−2 .. .. . . . --- 1 a1 0 --- 1 -1 . La ganancia de referencia viene dada por kr = −1/ C(A − BK)−1B . Para problemas sencillos, el problema de asignación de valores propios puede resolverse introduciendo los elementos ki de K como variables desconocidas. A continuación, calculamos el polinomio característico (s) = det(sI - A + BK) y equiparar los coeficientes de potencias iguales de s a los coeficientes del polinomio característico deseado p(s) = sn + p1 sn−1 + - - + pn−1 s + pn . Esto da un sistema de ecuaciones lineales para determinar ki . Las ecuaciones siempre pueden resolverse si el sistema es alcanzable, exactamente como hicimos en el ejemplo 6.4. La ecuación (6.21), denominada fórmula de Ackermann [Ack72, Ack85], puede utilizarse para cálculos numéricos. Se implementa en la función de MATLAB acker. La función de MATLAB place es preferible para sistemas de alto orden porque está mejor condicionada numéricamente. Ejemplo 6.5 Depredador-presa Consideremos el problema de regular la población de un ecosistema modulando el suministro de alimentos. Utilizamos el modelo depredador-presa introducido en la sección 3.7. La dinámica del sistema viene dada por ( dH H aHL = (r + u)H 1 - , H ≥ 0, dt k c+H dL aHL = bc - dL, L ≥ 0. dt +H Elegimos los siguientes parámetros nominales para el sistema, que corresponden a los valores utilizados en simulaciones anteriores: a = 3,2, b = 0,6, c = 50, d = 0,56, k = 125 r = 1,6. Tomamos el parámetro r, correspondiente a la tasa de crecimiento de las liebres, como entrada al sistema, que podríamos modular controlando una fuente de alimento para las liebres. Esto se refleja en nuestro modelo mediante el término (r + u) en la primera ecuación. Elegimos el número de linces como la salida de nuestro sistema. Para controlar este sistema, primero linealizamos el sistema alrededor del punto de equilibrio del sistema (He , Le ), que puede determinarse numéricamente como xe ≈ 182 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO (20.6, 29.5). Esto da lugar a un sistema dinámico lineal d z1 0,13 -0,93 z1 17,2 z = + v, w = 0 1 1, z2 z2 0 dt 0.57 0 z2 donde z1 = H-He , z2 = L-Le y v = u. Es fácil comprobar que el sistema es alcanzable en torno al equilibrio (z, v) = (0, 0), y por tanto podemos asignar los valores propios del sistema utilizando la retroalimentación de estado. La determinación de los valores propios del sistema de bucle cerrado requiere equilibrar la capacidad de modular la entrada con la dinámica natural del sistema. Esto puede hacerse mediante el proceso de prueba y error o utilizando algunas de las técnicas más sistemáticas que se discuten en el resto del texto. Por ahora, simplemente elegimos los valores propios {- deseados } de lazo cerrado para ser en = 0 ,1, 0,2 . A continuación, podemos resolver para las ganancias de retroalimentación utilizando las técnicas descritas anteriormente, lo que resulta en K = 0.025 - 0 .052 . Finalmente, resolvemos la ganancia de referencia kr , utilizando la ecuación (6.13) para obtener kr = 0.002. Juntando estos pasos, nuestra ley de control se convierte en v = -Kz + kr Ld , donde Ld es el número deseado de linces. Para aplicar la ley de control, debemos reescribirla utilizando las coordenadas originales del sistema, obteniendo u = ue - K(x - xe ) + kr (Ld - ye ) = - 0.025 -0.052 H - 20.6 5 L - 29. + 0,002 (Ld - 29,5). Esta regla nos indica cuánto debemos modular u en función del número actual de linces y liebres en el ecosistema. La figura 6.7a muestra una simulación del sistema de bucle cerrado resultante utilizando los parámetros definidos anteriormente y comenzando con una población inicial de 15 liebres y 20 linces. Obsérvese que el sistema estabiliza rápidamente la población de linces en el valor de referencia (Ld = 30). Una fase porLa figura 6.7b muestra cómo otras condiciones iniciales convergen a la población de equilibrio estabilizada. Obsérvese que la dinámica es muy diferente de la dinámica natural (mostrada en la Figura 3.20). Los resultados de esta sección muestran que podemos utilizar la retroalimentación de estado para diseñar la dinámica de un sistema, bajo la fuerte suposición de que podemos medir todos los estados. Abordaremos la disponibilidad de los estados en el próximo capítulo, cuando consideremos la retroalimentación de salida y la estimación de estados. Además, el teorema 6.3, que afirma que los valores propios pueden asignarse a lugares arbitrarios, también está muy ideado y supone que la dinámica del proceso se conoce con gran precisión. La robustez de la retroalimentación de estado combinada con los estimadores de estado se considera en el capítulo 12, después de haber desarrollado las herramientas necesarias. 183 6.3. DISEÑO DE RETROALIMENTACIÓN DE ESTADO 100 80 Liebre Lince 60 Po bla ció n 80 Li nc es 40 20 0 60 40 20 0 20 40 60 80 0 0 100 50 Liebres Tiempo (años) 100 (b) Retrato de fase (a) Respuesta a la condición inicial Figura 6.7: Resultados de la simulación del sistema depredador-presa controlado. La población de linces y liebres en función del tiempo se muestra en (a), y un retrato de fase para el sistema controlado se muestra en (b). La retroalimentación se utiliza para que la población sea estable a He = 20,6 y Le = 30. 6.3 Diseño de la retroalimentación del Estado La ubicación de los valores propios determina el comportamiento de la dinámica de bucle cerrado y, por lo tanto, la ubicación de los valores propios es la principal decisión de diseño que hay que tomar. Como en todos los demás problemas de diseño de retroalimentación, existen compensaciones entre la magnitud de las entradas de control, la robustez del sistema frente a las perturbaciones y el rendimiento de lazo cerrado del sistema. En esta sección examinamos algunas de estas compensaciones empezando por el caso especial de los sistemas de segundo orden. Sistemas de segundo orden Una clase de sistemas que aparece con frecuencia en el análisis y diseño de sistemas de retroalimentación son las ecuaciones diferenciales lineales de segundo orden. Debido a su naturaleza ubicua, es útil aplicar los conceptos de este capítulo a esa clase específica de sistemas y construir más intuición sobre la relación entre la estabilidad y el rendimiento. El sistema canónico de segundo orden es una ecuación diferencial de la forma (6.22) q¨ + 0 q˙ +2 q = 2 u, y = q. 0 0 En forma de espacio de estados, este sistema puede representarse como 0 dx 0 0 = 0 u, y = 1x. x + −− 0 dt 0 Los valores propios de este sistema vienen dados por = −0 ±J ( - 1), 2 0 (6.23) 2 y vemos que el origen es un punto de equilibrio estable si0 > 0 y > 0. Nótese que los valores propios son complejos si < 1 y reales en caso contrario. Ecuaciones (6.22) 184 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO y (6.23) pueden utilizarse para describir muchos sistemas de segundo orden, incluyendo osciladores amortiguados, filtros activos y estructuras flexibles, como se muestra en los ejemplos siguientes. La forma de la solución depende del valor de , que se denomina relación de amortiguación del sistema. Si 1, decimos que el sistema está sobreamortiguado, y la respuesta natural (u = 0) del sistema viene dada por x10 + x20 −t x10 + x20 −t y(t) = e e , j j - consiste en la suma de dos donde =0 ( + 2 1) y =0 ( 2 1). Vemos que la respuesta señales que decaen exponencialmente. Si = 1, entonces el sistema está críticamente amortiguado y la solución se convierte en y(t) = e−0t x10 + (x20 + 0x10)t . Obsérvese que esto sigue siendo asintóticamente estable mientras0 > 0, aunque el segundo término de la solución aumenta con el tiempo (pero más lentamente que el exponencial decadente que lo multiplica). Finalmente, si 0 < 1, entonces la solución es oscilatoria y se dice que la ecuación (6.22) está infraamortiguada. El parámetro0 se conoce como la frecuencia natural del sistema, debido a que para pequeños , los valores propios del sistema son j1 = −0 ± 0 − 2. La respuesta natural del sistema viene dada por ( 1 0 0t − y(t) = e x10 d t + x10 + x20 d t , d d j donded =0 1 2 se llama- la frecuencia amortiguada. Para 1, d0 de-≪ fine la frecuencia ≈ de oscilación de la solución y da la tasa de amortiguación relativa a0 . Debido a la forma simple de un sistema de segundo orden, es posible resolver las respuestas de paso y de frecuencia en forma analítica. La solución de la respuesta al escalón depende de la magnitud de : y(t) = k 1 - e− 0t d t y(t) = k(1 - e− 0t (1 +0 t) , y(t) = k 1 - 2 √ 2 -1 1− 2 e− 0t d t\, = 1; (6.24) + 1 e-0t( -√ 2-1) - 1 e-0t( +√ 2-1) , 1 √ +2 2-1 < 1; > 1, donde hemos tomado x(0) = 0. Nótese que para el caso ligeramente amortiguado ( < 1) tenemos una solución oscilante a la frecuenciad . En la figura 6.8 se muestran las respuestas escalonadas de sistemas con k = 1 y diferentes valores de . La forma de la respuesta está determinada por , y la velocidad de la respuesta está determinada por0 (incluida en la escala del eje del tiempo): la respuesta es 185 6.3. DISEÑO DE RETROALIMENTACIÓN DE ESTADO So y = 0.4 =0 = 0.7 =1 2 1.5 Re y = 1.2 1 0.5 0 0 5 10 Tiempo normalizado0 t (a) Valores propios 15 (b) Respuestas al paso Figura 6.8: Respuesta al escalón para un sistema de segundo orden. Respuestas escalonadas normalizadas h para el sistema (6.23) para = 0, 0.4, 0.7, 1 y 1.2. A medida que aumenta la relación de amortiguación, el tiempo de subida del sistema se alarga, pero hay menos sobreimpulso. El eje horizontal está en unidades de escala 0 t; los valores más altos de0 dan lugar a una respuesta más rápida (tiempo de subida y de asentamiento). más rápido si0 es mayor. Además de la forma explícita de la solución, también podemos calcular las propiedades de la respuesta al escalón que se definieron en la sección 5.3. Por ejemplo, para calcular el máximo rebasamiento para un sistema subamortiguado, reescribimos la salida como 1 y(t) = k 1 - j e− 0t sin(d t + )\N, (6.25) 1− 2 donde = arccos . El máximo rebasamiento se producirá en el primer momento en que la derivada de y sea cero, lo que puede demostrarse que es 2 Mp = e- /√1- . Pueden hacerse cálculos similares para las demás características de una respuesta escalonada. La tabla 6.1 resume los cálculos. La respuesta en frecuencia de un sistema de segundo orden también puede calcularse exTabla 6.1: Propiedades de la respuesta escalonada para un sistema de segundo orden con 0 < < 1. Propiedad Valor = 0.5 = 1/√2 =1 Valor de estado estacionario k k k k Tiempo de subida Tr ≈ 1/0 1.8/0 2.2/0 2.7/0 Sobregiro Mp = e- /√1- 16% 4% 0% Tiempo de asentamiento (2%) -e/ 2 Ts ≈ 4/ 0 8.0/0 5.9/0 5.8/0 186 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO = 0.08 = 0.2 = 0.5 102 Ga 0 nar 10 Im ≈ 0 =1 10-2 0 Re Fa se [d -90 eg ] -180 10−1 (a) Valores propios 100 Frecuencia normalizada 0 101 (b) Respuestas en frecuencia Figura 6.9: Respuesta en frecuencia de un sistema de segundo orden (6.23). (a) Valores propios en función de . (b) Respuesta en frecuencia en función de . La curva superior muestra la relación de ganancia M, y la curva inferior muestra el desplazamiento de fase . Para un valor pequeño hay un gran pico en la magnitud de la respuesta en frecuencia y un rápido cambio de fase centrado en =0 . A medida que se aumenta, la magnitud del pico cae y la fase cambia más suavemente entre 0◦ y -180◦. plícitamente y viene dada por Yo = 0 0 . 2 = -2 2 (i)2 + 0 (i) + 0 + 2i 0 0 En la figura 6.9 se ofrece una ilustración gráfica de la respuesta en frecuencia. Obsérvese el pico de resonancia que aumenta con la disminución de . El pico se suele caracterizar por su valor Q, definido como Q = . Las propiedades de la respuesta en frecuencia para un sistema de segundo orden se resumen en la Tabla 6.2. Ejemplo 6.6 Administración de medicamentos Para ilustrar el uso de estas fórmulas, consideremos el modelo de dos compartimentos para la administración de fármacos, descrito en la sección 3.6. La dinámica del sistema es dc -k0- k1 k1 b0 = c + u, y = 01c, 0 k2 -k 2 dt donde c1 y c2 son las concentraciones del fármaco en cada compartimento, ki , i = Tabla 6.2: Propiedades de la respuesta en frecuencia para un sistema de segundo orden con 0 < 1. = 1/√2 Propiedad Valor = 0.1 = 0.5 Ganancia de frecuencia cero Ancho de banda M0 k k k b 1.54 0 1.27 0 0 Ganancia de pico de resonancia Frecuencia de resonancia Sr. 1.54 k 1.27 k k Sr. 0 0.7070 0 6.3. DISEÑO DE RETROALIMENTACIÓN DE ESTADO 1.5 Co nce 1 ntr aci ón, 0.5 C2 0 0 5 10 Do 0.6 sis de 0.4 ent 0.2 ra da 0 0 5 10 187 15 20 25 30 Tiempo t [min] 35 Retroalimenta ción del estado Pulsos 40 45 50 15 20 25 30 Tiempo t [min] 35 40 45 50 Figura 6.10: Administración de fármacos en bucle abierto frente a bucle cerrado. Comparación entre la administración del fármaco mediante una secuencia de dosis frente a la monitorización continua de las concentraciones y el ajuste continuo de la dosis. En ambos casos, la concentración se mantiene (aproximadamente) en el nivel deseado, pero el sistema de bucle cerrado tiene una variabilidad sustancialmente menor en la concentración del fármaco. 0, . . . , 2 y b0 son parámetros del sistema, u es el flujo del fármaco hacia el compartimento 1 e y es la concentración del fármaco en el compartimento 2. Suponemos que podemos medir las concentraciones del fármaco en cada compartimento, y quisiera diseñar una ley de retroalimentación para mantener la salida en un valor de referencia r dado. Elegimos = 0,9 para minimizar el rebasamiento y elegimos que el tiempo de subida sea Tr = 10 min. Usando las fórmulas de la Tabla 6.1, esto da un valor para0 = 0.22. Ahora podemos calcular la ganancia para colocar los valores propios en este lugar. Estableciendo u = -Kx + kr r, los valores propios de lazo cerrado para el sistema satisfacen (s) = -0,198 ± 0,0959i. Eligiendo k1 = -0.2027 y k2 = 0.2005 se obtiene el comportamiento deseado en lazo cerrado. La ecuación (6.13) da la ganancia de referencia kr = 0.0645. La respuesta del controlador se muestra en la Figura 6.10 y se compara con una estrategia de lazo abierto que implica administrando dosis periódicas del fármaco. Sistemas de orden superior Hasta ahora sólo hemos considerado sistemas de segundo orden. Para los sistemas de orden superior, la asignación de valores propios es considerablemente más difícil, especialmente cuando se trata de tener en cuenta las numerosas compensaciones que están presentes en un diseño de retroalimentación. Otra de las razones por las que los sistemas de segundo orden desempeñan un papel tan importante en los sistemas de retroalimentación es que, incluso en los sistemas más complicados, la respuesta suele estar caracterizada por los valores propios dominantes. Para definirlos con mayor precisión, 188 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO Consideremos un sistema con valores propiosj , j = 1, . . . , n. Definimos la relación de amortiguación para que un valor propio complejo sea = -Re . | Decimos que un par complejo conjugado de valores propios , ∗ es un par dominante si tiene la menor relación de amortiguamiento en comparación con todos los demás valores propios del sistema. Suponiendo que un sistema es estable, el par dominante de valores propios tiende a ser el elemento más importante de la respuesta. Para ver esto, supongamos que tenemos un sistema en forma de Jordan con un bloque de Jordan simple correspondiente al par dominante de valores propios: dz 2 = dt ∗ z + Bu, J .. . y = Cz. k J (La respuesta del sistema será una combinación lineal de las respuestas de cada uno de los subsistemas de Jordan. Como vemos en la figura 6.8, para < 1 el subsistema con la respuesta más lenta es precisamente el que tiene la menor relación de amortiguamiento. Por lo tanto, cuando sumamos las respuestas de cada uno de los subsistemas individuales, es el par de valores propios dominantes el que será el factor principal después de que los transitorios iniciales debidos a los otros términos de la solución se extingan. Aunque este sencillo análisis no siempre se cumple (por ejemplo, si algunos términos no dominantes tienen coeficientes mayores debido a la forma particular del sistema), suele ocurrir que los valores propios dominantes determinan la respuesta (escalonada) del sistema. El único requisito formal para la asignación de valores propios es que el sistema sea alcanzable. En la práctica, existen muchas otras restricciones, ya que la selección de los valores propios tiene un fuerte efecto sobre la magnitud y la velocidad de cambio de la señal de control. Los valores propios grandes requerirán, en general, señales de control grandes, así como cambios rápidos de las señales. Por lo tanto, la capacidad de los actuadores impondrá restricciones a la posible ubicación de los valores propios de lazo cerrado. Estas cuestiones se discutirán en profundidad en los capítulos 11 y 12. Ilustramos algunas de las ideas principales utilizando el sistema de balanza como ejemplo. Ejemplo 6.7 Sistema de equilibrio Considere el problema de estabilizar un sistema de equilibrio, cuya dinámica fue dada en el Ejemplo 6.2. La dinámica viene dada por 0 0 0 1 0 0 0 0 1 , B=, 0 A= 2 2 J 0 m l g/ - cJt - Jt lm/ t lm/ / 0 Mt mgl/ -clm/ −t 189 6.3. DISEÑO DE RETROALIMENTACIÓN DE ESTADO donde Mt = M + m, Jt = J + ml2 , = M - t Jt m2 l2 y hemos dejado c y no cero. Utilizamos los siguientes parámetros para el sistema (que corresponden aproximadamente a un ser humano equilibrado en un carro estabilizador): M = 10 kg, J = 100 kg m /s , 2 2 m = 80 kg, c = 0,1 N s/m, l = 1 m, = 0,01 N m s, g = 9,8 m/s2 . Los valores propios de la dinámica de lazo abierto vienen ≈ dados -por , ± 4,7, 1,9 2,7i. Ya hemos verificado en el Ejemplo 6.2 que el sistema es alcanzable, y por lo tanto podemos utilizar la retroalimentación de estado para estabilizar el sistema y proporcionar un nivel deseado de rendimiento. Para decidir dónde colocar los valores propios del bucle cerrado, observamos que la dinámica del bucle cerrado constará aproximadamente de dos componentes: un conjunto de dinámicas rápidas que estabilizan el péndulo en la posición invertida y un conjunto de dinámicas más lentas que controlan la posición del carro. Para la dinámica rápida, nos fijamos en el periodo natural del j péndulo (en la posición colgada), que viene dado por0 = mgl/(J + ml2) ≈ 2,1 rad/s. Para proporcionar una respuesta rápida elegimos una relación de amortiguación de = 0,5 y tratar de situar el primer par de valores propios en1,2 ≈ -0 ± 0 ≈ j - 1± 2i, donde hemos utilizado la aproximación de que1 − 2 1.Para la dinámica lenta, elegimos que la relación de amortiguación sea de 0,7 para ≈ proporcionar un pequeño rebasamiento y elegimos que la frecuencia natural sea de 0,5 para dar un tiempo de- subida ± de aproximadamente 5 s. Esto da valores propios3,4 = 0,35 0,35i. El controlador consta de una retroalimentación sobre el estado y una ganancia de alimentación para la entrada de referencia. La ganancia de retroalimentación viene dada por K= -15.6 1730 -50.1 443 , que puede ser calculado usando el Teorema 6.3 o usando el com- mandamiento de lugar de MATLAB. La ganancia es kr = -1/(C(A BK)−1 B) = - feedforward 15.5. La respuesta al paso para el controlador resultante (aplicado al sistema linealizado) está dada en Figura 6.11a. Aunque la respuesta escalonada da las características deseadas, la entrada requerida (abajo a la izquierda) es excesivamente grande, casi tres veces la fuerza de la gravedad en su punto máximo. Para proporcionar una respuesta más realista, podemos rediseñar el controlador para que tenga una dinámica más lenta. Vemos que el pico de la fuerza de entrada se produce en la escala de tiempo rápida, y por lo tanto elegimos ralentizarla en un factor de 3, dejando la relación de amortiguación sin cambios. También ralentizamos el segundo conjunto de valores propios, con la intuición de que deberíamos mover la posición del carro más despacio de lo que establecemos la dinámica del péndulo. Dejando la relación de amortiguación para la dinámica lenta sin cambios en 0,7 y cambiando la frecuencia a 1 (correspondiente a un tiempo de subida de aproximadamente 10 s), los valores propios deseados pasan a ser = {-0,33 ± 0,66i, -0,18 ± 0,18i}. El rendimiento del controlador resultante se muestra en la Figura 6.11b. Como vemos en este ejemplo, puede ser difícil determinar dónde colocar 190 2 Po sic ió 1 n p [m 0 0 ] 30 Fu erz 20 a 10 de ent 0 ra da -10 0 F [N ] 5 5 10 15 10 Tiempo t [s] 15 (a) 1,2 = -1 ± 2i 2 Po sic ió 1 n p [m 0 0 ] CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO 10 20 30 30 Fu erz 20 a 10 de ent 0 ra da -10 0 10 20 30 F Tiempo t [s] [N (b) 1 ,2 = -0,33 ± 0,66i ] 40 40 Figura 6.11: Control de retroalimentación de estado de un sistema de equilibrio. La respuesta al escalón de un controlador diseñado para ofrecer un rendimiento rápido se muestra en (a). Aunque las características de la respuesta (arriba a la izquierda) parecen muy buenas, la magnitud de entrada (abajo a la izquierda) es muy grande. En (b) se muestra un controlador menos agresivo. Aquí el tiempo de respuesta es más lento, pero la magnitud de entrada es mucho más razonable. Ambas respuestas escalonadas se aplican a la dinámica linealizada. los valores propios utilizando la retroalimentación de estado. Esta es una de las principales limitaciones de este enfoque, especialmente para sistemas de mayor dimensión. Las técnicas de control óptimo, como el problema del regulador cuadrático lineal que se discute a continuación, son un enfoque que está disponible. También se puede centrar en la respuesta en frecuencia para realizar el diseño, que es el tema de los capítulos 8-12. � Reguladores lineales cuadráticos Como alternativa a la selección de las ubicaciones de los valores propios del bucle cerrado para lograr un determinado objetivo, las ganancias de un controlador de retroalimentación de estado pueden elegirse intentando optimizar una función de coste. Esto puede ser particularmente útil para ayudar a equilibrar el rendimiento del sistema con la magnitud de las entradas necesarias para lograr ese nivel de rendimiento. El problema del regulador cuadrático lineal (LQR) de horizonte infinito es uno de los problemas de control óptimo más comunes. Dado un sistema lineal de múltiples entradas dx = Ax + Bu, x ∈ Rn , u∈ Rp , dt intentamos minimizar la función de coste cuadrática - J˜= 0 x TQ x x+ uT Qu u dt, (6.26) donde Qx 0≥y Qu > 0 son matrices simétricas, positivas (semi) definidas de las dimensiones adecuadas. Esta función de coste representa un compromiso entre la distancia del estado al origen y el coste de la entrada de control. Al elegir 191 6.3. DISEÑO DE RETROALIMENTACIÓN DE ESTADO las matrices Qx y Qu , podemos equilibrar la tasa de convergencia de las soluciones con el coste del control. La solución del problema LQR viene dada por una ley de control lineal de la forma u = -Qu-1BT Px, donde P ∈ Rn×n es una matriz simétrica definida positiva que satisface la ecuación PA + AT P - PBQu-1BT P + Qx = 0. (6.27) La ecuación (6.27) se denomina ecuación algebraica de Riccati y puede resolverse numéricamente (por ejemplo, utilizando el comando lqr de MATLAB). Una de las cuestiones clave en el diseño de LQR es cómo elegir los pesos Qx y Qu . Para garantizar que existe una solución, debemos ≥ tener Qx 0 y Qu > 0. Además, existen ciertas condiciones de "observabilidad" sobre Qx que limitan su elección. Aquí asumimos Qx > 0 para garantizar que las soluciones de la ecuación algebraica de Riccati siempre existen. Para elegir los valores específicos de las ponderaciones de la función de costes Qx y Qu , debemos utilizar nuestro conocimiento del sistema que estamos tratando de controlar. Una elección especialmente sencilla es utilizar pesos diagonales q1 0 1 0 . . .. Qx = , Q = u . . . n 0 n 0 q Para esta elección de Qx y Qu , los elementos diagonales individuales describen cuánto debe contribuir cada estado y entrada (al cuadrado) al coste global. Por lo tanto, podemos tomar los estados que deben permanecer pequeños y asignarles valores de peso más altos. Del mismo modo, podemos penalizar una entrada frente a los estados y otras entradas mediante la elección del peso de la entrada correspondiente. Ejemplo 6.8 Avión de empuje vectorial Consideremos la dinámica original del sistema (2.26), escrita en forma de espacio de estados como 0 0 z4 0 1 1 z5 dz = z6 + m F1 - m F2 dt - z4c m F+ F 1 sin 1 g - mc z 5 1 m m 2 0 rJ F1 (véase también el ejemplo 5.4). Los parámetros del sistema son m = 4 kg, J = 0,0475 kg m2 , r = 0,25 m, g = 9,8 m/s2 , c = 0,05 N s/m, lo que corresponde a un modelo a escala del sistema. El punto de equilibrio del sistema viene dado por F1 = 0, F2 = mg y ze = (xe , ye , 0, 0, 0, 0). Para derivar el modelo linealizado cerca de un punto de equilibrio, nosotros 192 calcular la linealización según la ecuación (5.34): A= 00 00 00 0 0 0 1 0 0 0 0 -g -c/m 00 0 00 0 10 0 0 C= 0, 010000 0 1 0 0 0 1 0 0 -c/m 0 0 0 0 , CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO B= 0 0 0 0 0 0 0 1/m 0 0 1/m 0 r/J 0 D = .0 0 , 0 Dejando = z - ze y v = F - Fe , el sistema linealizado viene dado por = + Bv, y=. dt Se puede comprobar que el sistema es accesible. Para calcular un regulador lineal cuadrático para el sistema, escribimos la función de coste como J T − vT Q v dt = ( de nuevo + lasv coordenadas ) , donde = z ze-y v = F Fe representan locales alrededor 0 del punto de equilibrio deseado (ze , Fe ). Comenzamos con matrices diagonales para los costes de estado y de insumos: 0 10 0 0 0 0 0 0 0 01 = Qv 0. 1 0 0 0, 00 Q= 00 0 0 0 01 01 0 0 0 000001 Esto da una ley de control de la forma v -= , que puede utilizarse para derivar la ley de control en términos de las variables originales: F = v + Fe = -K(z - ze ) + Fe . Como se calculó en el Ejemplo 5.4, los puntos de equilibrio tienen Fe = (0, mg) y ze = (xe , ye , 0, 0, 0, 0). La respuesta del controlador a un cambio de paso en la posición deseada se muestra en la figura 6.12a para = 1. La respuesta puede ajustarse mediante el ajuste de los pesos en el coste LQR. La figura 6.12b muestra la respuesta en la dirección x para diferentes elecciones del peso . Los reguladores cuadráticos lineales también pueden diseñarse para sistemas de tiempo discreto, como se ilustra en el siguiente ejemplo. Ejemplo 6.9 Control del servidor web Consideremos el ejemplo del servidor web dado en la sección 3.4, donde se dio un modelo de tiempo discreto para el sistema. Deseamos diseñar una ley de control que establezca el servidor 193 6.3. DISEÑO DE RETROALIMENTACIÓN DE ESTADO Po sic 1 ió n 0.5 x, y 0 [m 0 ] x y 2 4 6 Tiempo t [s] 8 10 Po 1 sic ió n x 0.5 [m 0 ] 0 2 4 6 Tiempo t [s] 8 10 (b) Efecto del control (a) Respuesta al paso en x e y Figura 6.12: Respuesta escalonada de una aeronave de empuje vectorial. El gráfico de (a) muestra las posiciones x e y de la aeronave cuando se le ordena moverse 1 m en cada dirección. En (b) se muestra el movimiento x para pesos de control = 1, 102 , 104 . Un mayor peso del término de entrada en la función de costes provoca una respuesta más lenta. para que la carga media del procesador del servidor se mantenga en un nivel deseado. Dado que otros procesos pueden estar ejecutándose en el servidor, el servidor web debe ajustar sus parámetros en respuesta a los cambios en la carga. En la Figura 6.13 se muestra un diagrama de bloques del sistema de control. Nos centramos en el caso especial en el que deseamos controlar sólo la carga del procesador utilizando los parámetros KeepAlive y MaxClients. También incluimos una "perturbación" en la carga medida que representa el uso de los ciclos de procesamiento por parte de otros procesos que se ejecutan en el servidor. El sistema tiene la misma estructura básica que el sistema de control genérico de la figura 6.5, con la variación de que la perturbación entra después de la dinámica del proceso. La dinámica del sistema viene dada por un conjunto de ecuaciones en diferencia de la forma x[k + 1] = Ax[k] + Bu[k], ycpu [k] = Ccpu x[k] + dcpu [k], donde x = (xcpu , xmem ) es el estado, u = (uka , umc ) es la entrada, dcpu es la carga de procesamiento de otros procesos en el ordenador y ycpu es la carga total del procesador. Precompensación rcpu kr Comentarios Controlador e u C d Servidor P y -1 Figura 6.13: Control de retroalimentación de un servidor web. El controlador establece los valores de los parámetros del servidor web en función de la diferencia entre los parámetros nominales (determinados por krr) y la carga actual ycpu. La perturbación d representa la carga debida a otros procesos que se ejecutan en el servidor. Obsérvese que la medición se realiza después de la perturbación, de modo que se mide la carga total del servidor. 194 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO Elegimos que nuestro controlador sea un controlador de retroalimentación de estado de la forma ycpu u = -K + kr rcpu , xme donde rcpu es la carga deseada del procesador. Obsérvese que hemos utilizado la m lugar del estado para asegurarnos de que carga medida del procesador ycpu en ajustamos el funcionamiento del sistema en función de la carga real. (Esta modificación es necesaria debido a la forma no estándar en que la perturbación entra en la dinámica del proceso). La matriz de ganancia de retroalimentación K puede ser elegida por cualquiera de los métodos descritos en este capítulo. Aquí utilizamos un regulador lineal cuadrático, con la función de coste dada por 5 2 Q= 0 , 1/50 0 . 1 Qu = x 0 1/1000 2 0 La función de coste para el estado Qx se elige de forma que pongamos más énfasis en la carga del procesador frente al uso de la memoria. La función de coste para las entradas Qu se elige para normalizar las dos entradas, con un tiempo de espera KeepAlive de 50 s que tiene el mismo peso que un valor MaxClients de 1000. Estos valores se elevan al cuadrado ya que el coste asociado a las entradas viene dado por uT Qu u. Utilizando la dinámica de la sección 3.4 y el comando dlqr de MATLAB, las ganancias resultantes son K= . 22.3 10.1 382.7 77.7 Como en el caso de un sistema de control de tiempo continuo, la ganancia de referencia kr se elige para obtener el punto de equilibrio deseado para el sistema. Fijando x[k + 1] = x[k] = xe , el punto de equilibrio en estado estacionario y la salida para una entrada de referencia dada r vienen dados por xe = (A - BK)xe + Bkr r, ye = Cxe . Se trata de una ecuación diferencial matricial en la que kr es un vector columna que establece los valores de las dos entradas en función de la referencia deseada. Si tomamos la salida deseada de la forma ye = (r, 0), entonces debemos resolver 1 1 0 = C(A - BK - I)− Bkr . Resolviendo esta ecuación para kr , obtenemos -1 49,3 k = C(A - BK - I)−1 B 1= . 0 5 r 539. La dinámica del sistema de bucle cerrado se ilustra en la figura 6.14. Aplicamos un cambio en la carga de dcpu = 0,3 en el tiempo t = 10 s, obligando al controlador a ajustar el funcionamiento del servidor para intentar mantener la carga deseada en 0,57. Nótese que se ajustan los parámetros KeepAlive y MaxClients. Aunque el carga disminuye, se mantiene aproximadamente 0,2 por encima del estado estacionario deseado. (Pueden obtenerse mejores resultados utilizando las técnicas de la siguiente sección). 195 6.4. ACCIÓN INTEGRAL 1 xcp 0.8 u, xm 0.6 em 0.4 0 50 xmem xcpu 20 40 Tiempo k [ms] 60 1500 Ke 40 ep 30 Al iv 20 e 10 0 0 ka (l) 20 40 Tiempo k [ms] (a) Estado del sistema 1200 Ma xC 900 li 600 en te mc (r) 300 s 0 60 (b) Entradas del sistema Figura 6.14: Servidor web con control LQR. El gráfico de (a) muestra el estado del sistema sin un cambio en la carga externa aplicada a k = 10 ms. Los parámetros correspondientes del servidor web (entradas del sistema) se muestran en (b). El controlador es capaz de reducir el efecto de la perturbación en aproximadamente un 40%. 6.4 Acción integral Los controladores basados en la retroalimentación de estado consiguen la respuesta correcta en estado estacionario a las señales de mando mediante una cuidadosa calibración de la ganancia kr . Sin embargo, uno de los principales usos de la retroalimentación es permitir un buen rendimiento en presencia de incertidumbre, y por lo tanto, exigir que tengamos un modelo exacto del proceso no es deseable. Una alternativa a la calibración es hacer uso de la retroalimentación integral, en la que el controlador utiliza un integrador para proporcionar un error de estado estacionario cero. El concepto básico de la retroalimentación integral se expuso en la sección 1.5 y en la sección 3.1; aquí ofrecemos una descripción y un análisis más completos. El enfoque básico en la retroalimentación integral es crear un estado dentro del controlador que calcule la integral de la señal de error, que luego se utiliza como término de retroalimentación. Para ello, aumentamos la descripción del sistema con un nuevodestado z:Bu Ax+ Bu x= Ax + = . (6.28) dt z y- r Cx - r El estado z se ve como la integral de la diferencia entre la salida real y y la salida deseada r. Nótese que si encontramos un compensador que estabilice el sistema, entonces tendremos necesariamente z˙ = 0 en estado estacionario y por tanto y = r en estado estacionario. Dado el sistema aumentado, diseñamos un controlador del espacio de estados en la forma habitual con una ley de control de la forma u = -Kx - ki z + kr r, (6.29) donde K es el término de retroalimentación de estado habitual, ki es el término integral y kr se utiliza para establecer la entrada nominal para el estado estacionario deseado. El punto de equilibrio resultante para el sistema viene dado por xe = -(A - BK)−1 B(kr r - ki ze ). Obsérvese que el valor de ze no se especifica, sino que se establece automáticamente en el valor que hace que z˙ = y r = 0, lo que implica que en el equilibrio la producción será igual al valor de referencia. Esto se mantiene independientemente de los valores específicos de A, 196 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO B y K siempre que el sistema sea estable (lo que puede hacerse mediante la elección adecuada de K y ki ). El compensador final viene dado por dz = y - r, dt donde ahora hemos incluido la dinámica del integrador como parte de la especificación del controlador. Este tipo de compensador se conoce como compensador dinámico, ya que tiene su propia dinámica interna. El siguiente ejemplo ilustra el enfoque básico. u = -Kx - ki z + kr r, Ejemplo 6.10 Control de crucero Consideremos el ejemplo de control de crucero introducido en la Sección 3.1 y considerado más adelante en el Ejemplo 5.11. La dinámica linealizada del proceso alrededor de un punto de equilibrio ve , ue viene dada por dx = ax - bg + bw, y = v = x + ve , dt donde x-=v ve , w- =u ue , m es la masa del coche y es el ángulo de la carretera. La constante a depende de la característica del acelerador y se da en el ejemplo 5.11. Si aumentamos el sistema con un integrador, la dinámica del proceso se convierte en dx dz = ax - bg + bw, = y - vr = ve + x - vr , dt dt o, en forma de espacio de estados, b dx a0 x -bg 0 0+ 0 0z =z 1 + w + ve - v r . dt Nótese que cuando el sistema está en equilibrio, tenemos que z˙ = 0, lo que implica que la velocidad del vehículo v = ve + x debe ser igual a la velocidad de referencia deseada vr . Nuestro controlador será de la forma dz = y - vr , w = -kp x - ki z + kr vr , dt y las ganancias kp , ki y kr se elegirán para estabilizar el sistema y proporcionar la entrada correcta para la velocidad de referencia. Supongamos que deseamos diseñar el sistema de bucle cerrado para que tenga el polinomio característico (s) = s2 + a1 s + a2 . Fijando la perturbación = 0, el polinomio característico del sistema de lazo cerrado viene dado por det sI -(A - BK) = s2 + (bkp - a)s + bki , y, por lo tanto, fijamos a+a kp = 1 b a , ki = , b 2 a kr = -1/ C(A - BK)−1 B= b . 197 6.5. LECTURAS COMPLEMENTARIAS Ve 20 loc ida d v 19 [m /s] 18 0 1 10 20 30 Tiempo t [s] 40 Ac ele 0.5 ra do ru 0 0 Control PI proporcional 10 20 30 Tiempo t [s] 40 Figura 6.15: Velocidad y acelerador de un coche con control de crucero basado en el control proporcional (punteado) y PI (sólido). El controlador PI es capaz de ajustar el acelerador para compensar el efecto de la colina y mantener la velocidad en el valor de referencia de vr = 20 m/s. El controlador resultante estabiliza el sistema y, por lo tanto, lleva-z˙ = y vr a cero, dando lugar a un seguimiento perfecto. Obsérvese que aunque tengamos un pequeño error en los valores de los parámetros que definen el sistema, siempre que los valores propios de lazo cerrado sean sigue siendo estable, entonces el error de seguimiento se acercará a cero. Por lo tanto, la calibración exacta requerida en nuestro enfoque anterior (utilizando kr ) no es necesaria aquí. De hecho, podemos incluso elegir kr = 0 y dejar que el controlador de retroalimentación haga todo el trabajo. La retroalimentación integral también puede utilizarse para compensar las perturbaciones constantes. La Figura 6.15 muestra los resultados de una simulación en la que el coche se encuentra con una colina con ángulo = 4◦ a t = 8 s. La estabilidad del sistema no se ve afectada por esta perturbación externa, y así vemos de nuevo que la velocidad del coche converge a la velocidad de referencia. Esta capacidad de manejar perturbaciones constantes es una propiedad general de los controladores con retroalimentación integral (ver Ejercicio 6.4). 6.5 Más información La importancia de los modelos de estado y de la retroalimentación de estado se discutió en el artículo seminal de Kalman [Kal60], donde la ganancia de la retroalimentación de estado se obtuvo resolviendo un problema de optimización que minimizaba una función de pérdida cuadrática. Las nociones de alcanzabilidad y observabilidad (capítulo 7) también se deben a Kalman [Kal61b] (véase también [Gil63, KHN63]). Kalman define la controlabilidad y la alcanzabilidad como la capacidad de alcanzar el origen y un estado arbitrario, respectivamente [KFA69]. Observamos que en la mayoría de los libros de texto se utiliza el término "controlabilidad" en lugar de "alcanzabilidad", pero preferimos este último término porque es más descriptivo de la propiedad fundamental de poder alcanzar estados arbitrarios. La mayoría de los libros de texto sobre control contienen material sobre sistemas de espacio de estados, incluyendo, por ejemplo, Franklin, Powell y Emami-Naeini [FPEN05] y Ogata [Oga01]. El libro de texto de Friedland [Fri04] cubre el material del capítulo anterior, el actual y el siguiente con bastante detalle, incluyendo el tema del control óptimo. 198 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO Ejercicios 6.1 (Integrador doble) Considere el integrador doble. Encuentre una estrategia de control constante a trozos que conduzca el sistema desde el origen hasta el estado x = (1, 1). 6.2 (Alcanzabilidad a partir de un estado inicial distinto de cero) Amplíe el argumento del apartado 6.1 para demostrar que si un sistema es alcanzable a partir de un estado inicial de cero, es alcanzable a partir de un estado inicial distinto de cero. 6.3 (Sistemas inalcanzables) Considere el sistema mostrado en la figura 6.3. Escriba la dinámica de los dos sistemas como dx dz = Ax + = Az + Bu. dt dt Bu, Si x y z tienen la misma condición inicial, siempre tendrán el mismo estado independientemente de la entrada que se aplique. Demuestre que esto viola la definición de alcanzabilidad y demuestre además que la matriz de alcanzabilidad Wr no es de rango completo. 6.4 (Retroalimentación integral para rechazar perturbaciones constantes) Considere un sistema lineal de la forma dx = Ax + Bu + Fd, y = Cx dt donde u es un escalar y d es una perturbación que entra en el sistema a través de un vector de perturbación F Rn . Supongamos que la matriz A es invertible y la ∈ ganancia de frecuencia cero CA−1 B es distinta de cero. Demuestre que la retroalimentación integral puede utilizarse para compensar una perturbación constante dando un error de salida de estado estacionario cero incluso cuando d /= 0. 6.5 (Bicicleta con dirección trasera) Un modelo simple para una bicicleta fue dado por la ecuación (3.5) en la Sección 3.2. Un modelo para una bicicleta con dirección trasera se obtiene invirtiendo el signo de la velocidad en el modelo. Determine las condiciones en las que este sistema es alcanzable y explique cualquier situación en la que el sistema no sea alcanzable. 6.6 (Polinomio característico para la forma canónica alcanzable) Demuestre que el polinomio característico para un sistema en forma canónica alcanzable viene dado por la ecuación (6.7) y que dn zk dzk dndn-ku 1zk + a1 + - - + an−1 + an zk = , dtn dtn-1 dt dtn-k donde zk es el estado k. 6.7 (Matriz de alcanzabilidad para la forma canónica alcanzable) Considere un sistema en forma canónica alcanzable. Demostrar que la inversa de la matriz de alcanzabilidad viene dada por 1a1 a2 - - - a n W̃-1r = 0 0 . . 0 1 0 a1 1 0 -. . - a n−1 . . . ... a1 1 0 --- 199 EJERCICIOS 6.8 (Equilibrios no mantenidos) Considere el modelo normalizado de un péndulo sobre un carro d2 x d2 = u, = − + u, dt2 dt2 donde x es la posición del carro y es el ángulo del péndulo. ¿Se puede mantener / el ángulo =0 para0 = 0? 6.9 (Asignación de valores propios para un sistema inalcanzable) Considere el sistema 0 dx dt = 001x + 1u, 0 y = 10x, con la ley de control u = -k1 x1 - k2 x2 + kr r. Demuestre que los valores propios del sistema no pueden asignarse a valores arbitrarios. 6.10 (Teorema de Cayley-Hamilton) Sea ∈ A Rn×n una matriz con polinomio n característico (s) = det(sI-A) = s + a1 sn−1 + -+- -a n1 −s + an . Supongamos que la matriz A puede ser diagonalizada y demostremos que satisface (A) = An + a1 An−1 + - - + an−1 A + an I = 0, Utilice el resultado para demostrar ≥ que Ak , k n, puede reescribirse en términos de potencias de A de orden menor que n. 6.11 (Accionamiento del motor) Considere el modelo normalizado del accionamiento del motor en el Ejercicio 2.10. Utilizando los siguientes parámetros normalizados, J1 = 10/9, J2 = 10, c = 0,1, k = 1, kI = 1, Verificar que los valores propios del sistema de lazo abierto - son 0, ± 0, 0,05 i . Diseñar una retroalimentación de estado que dé un sistema de- lazo - cerrado - ±con valores propios 2 , 1 y 1 i . Esta elección implica que los valores propios oscilantes estarán bien amortiguados y que los valores propios en el origen se sustituyen por valores propios en el eje real negativo. Simular las respuestas del sistema de lazo cerrado a los cambios de paso en la señal de comando para2 y un cambio de paso en un par perturbador en el segundo rotor. 6.12 (Modelo de bicicleta de Whipple) Considere el modelo de bicicleta de Whipple dado por la ecuación (3.7) en la Sección 3.2. Utilizando los parámetros del sitio web complementario, el modelo es inestable a la velocidad v = 5 m/s y ± de lazo abierto son -1,84, los valores propios -14,29 y 1. 304,60i. Encuentre las ganancias de un controlador que estabilice la bicicleta y da valores propios de bucle cerrado en -2, -10 y- ± 1 i. Simule la respuesta de el sistema a un cambio de paso en la referencia de dirección de 0,002 rad. 200 CAPÍTULO 6. RETROALIMENTACIÓN DEL ESTADO 6.13 (Microscopio de fuerza atómica) Considere el modelo de un AFM en modo de contacto dado en el Ejemplo 5.9: 0 1 0 0 0 dx -k2 /(m1 + m2 ) -c2 /(m1 + m2 ) 1/m2 x+ u, 0 = 0 dt 0 0 0 3 3 0 0 0 −− 3 33 1 0x. m1 k2 m1 c2 y =m2 m1 + m1 + m1 + m2 m2 m2 Utilice el script de MATLAB afm_data.m del sitio web complementario para generar las matrices del sistema. (a) Calcula la matriz de alcanzabilidad del sistema y determina numéricamente su rango. Escalar el modelo utilizando milisegundos en lugar de segundos como unidades de tiempo. Re- turna el cálculo de la matriz de alcanzabilidad y su rango. (b) Encuentre un controlador de retroalimentación de estado que dé un sistema de lazo cerrado con polos complejos que tenga una relación de amortiguamiento de 0.707. Utilice el modelo a escala para los cálculos. (c) Calcule las ganancias de retroalimentación de estado utilizando el control cuadrático lineal. Experimente utilizando diferentes pesos. Calcule las ganancias para q1 = q2 = 0, q3 = q4 = 1 y1 = 0,1 y explica el resultado. Elige q1 = q2 = q3 = q4 = 1 y explora lo que ocurre a las ganancias de retroalimentación y a los valores propios del lazo cerrado cuando se cambia1 . Utilice el sistema a escala para este cálculo. 6.14 Consideremos el sistema de segundo orden d2 y dy du + 0,5 + y = a + u. dt2 dt dt Que las condiciones iniciales sean cero. (a) Demuestre que la pendiente inicial de la respuesta del escalón unitario es a. Discuta lo que significa que a < 0. (b) Demuestre que hay puntos en la respuesta del paso unitario que son invariantes con a. Discuta cualitativamente el efecto del parámetro a en la solución. (c) Simula el sistema y explora el efecto de a en el tiempo de subida y el rebasamiento. 6.15 (Regla de Bryson) Bryson y Ho [BH75] han sugerido el siguiente método para elegir las matrices Qx y Qu en la ecuación (6.26). Comience eligiendo Qx y Qu como matrices diagonales cuyos elementos son los inversos de los cuadrados de los máximos de las variables correspondientes. A continuación, modifique los elementos para obtener un compromiso entre el tiempo de respuesta, la amortiguación y el esfuerzo de control. Aplique este método al accionamiento del motor del ejercicio 6.11. Suponga que los valores más grandes de las variables1 y 2 son 1, los mayores valores de ˙1 y ˙2 son 2 y la mayor señal de control es 10. Simular el sistema de lazo cerrado para2 (0) = 1 y todos los demás estados se inicializan a 0. Explora los efectos de diferentes valores de los elementos diagonales para Qx y Qu . Capítulo 7 Retroalimentación de salida Se puede separar el problema de la realización física en dos etapas: el cálculo de la "mejor aproximación" xˆ(t1 ) del estado a partir del conocimiento de y(t)≤para t1 y el cálculo de u(t1 ) dado xˆ(t1 ). R. E. Kalman, "Contributions to the Theory of Optimal Control", 1960 [Kal60]. En este capítulo mostramos cómo utilizar la retroalimentación de salida para modificar la dinámica del sistema mediante el uso de observadores. Introducimos el concepto de observador y mostramos que si un sistema es observable, es posible recuperar el estado a partir de las medidas de las entradas y salidas del sistema. A continuación, mostramos cómo diseñar un controlador con retroalimentación del estado del observador. Un concepto importante es el principio de separación citado anteriormente, que también se demuestra. La estructura de los controladores derivados en este capítulo es bastante general y se obtiene mediante muchos otros métodos de diseño. 7.1 Observabilidad En la sección 6.2 del capítulo anterior se demostró que es posible encontrar una ley de retroalimentación de estado que dé los valores propios deseados en bucle cerrado siempre que el sistema sea alcanzable y que se midan todos los estados. Para muchas situaciones, es muy poco realista asumir que todos los estados son medidos. En esta sección investigamos cómo se puede estimar el estado utilizando un modelo matemático y unas pocas mediciones. Se demostrará que el cálculo de los estados puede ser realizado por un sistema dinámico llamado observador. Definición de observabilidad Consideremos un sistema descrito por un conjunto de ecuaciones diferenciales dx = Ax + Bu, y = Cx + Du, (7.1) dt q donde x ∈Rn es el estado, u ∈Rp la entrada e y R∈ la salida medida. Queremos estimar el estado del sistema a partir de sus entradas y salidas, como se ilustra en la figura 7.1. En algunas situaciones supondremos que sólo hay una señal medida, es decir, que la señal y es un escalar y que C es un vector (fila). Esta señal puede estar corrompida por el ruido n, aunque empezaremos considerando el caso sin ruido. Escribimos xˆ para la estimación de estado dada por el observador. 202 n Proceso u x˙ = Ax + Bu y = Cx + Du CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA y Observador xˆ Figura 7.1: Diagrama de bloques de un observador. El observador utiliza la medida del proceso y (posiblemente corrompida por el ruido n) y la entrada u para estimar el estado actual del proceso, denominado xˆ. Definición 7.1 (Observabilidad). Un sistema lineal es observable si para cualquier T > 0 es posible determinar el estado del sistema x(T ) mediante medidas de y(t) y u(t) en el intervalo [0, T ]. La definición anterior también es válida para los sistemas no lineales, y los resultados que aquí se discuten tienen extensiones para el caso no lineal. El problema de la observabilidad tiene muchas aplicaciones importantes, incluso fuera de los sistemas de retroalimentación. Si un sistema es observable, entonces no hay dinámicas "ocultas" dentro de él; podemos entender todo lo que está pasando a través de la observación (en el tiempo) de las entradas y salidas. Como veremos, el problema de la observabilidad tiene un gran interés práctico porque determinará si un conjunto de sensores es suficiente para controlar un sistema. Los sensores combinados con un modelo matemático también pueden considerarse como un "sensor virtual" que proporciona información sobre variables que no se miden directamente. El proceso de reconciliar las señales de muchos sensores con los modelos matemáticos también se denomina fusión de sensores. Pruebas de observabilidad Al hablar de la alcanzabilidad en el último capítulo, descuidamos la salida y nos centramos en el estado. De la misma manera, es conveniente aquí despreciar inicialmente la entrada y centrarse en el sistema autónomo dx dt = Ax, y = Cx. (7.2) Queremos entender cuándo es posible determinar el estado a partir de las observaciones de la salida. La propia salida da la proyección del estado sobre vectores que son filas de la matriz C. El problema de observabilidad puede resolverse inmediatamente si la matriz C es invertible. Si la matriz no es invertible, podemos tomar derivadas de la salida para obtener dy dx = C = CAx. dt dt A partir de la derivada de la salida obtenemos así la proyección del estado sobre los vectores 7.1. OBSERVABILIDAD 203 que son filas de la matriz CA. Procediendo de este modo, obtenemos y˙ CA y = C y¨ x. .. CAn-1 CA. 2 (n-1) y (7.3) Así, encontramos que el estado se puede determinar si la matriz de CA C observabilidad = Wo CA2 . CAn-1 (7.4) tiene n filas independientes. Resulta que no necesitamos considerar ninguna derivada mayor - que n 1 (esto es una aplicación del teorema de Cayley-Hamilton [Ejercicio 6.10]). El cálculo puede ampliarse fácilmente a sistemas con entradas. El estado viene dado entonces por una combinación lineal de entradas y salidas y sus derivadas superiores. El criterio de observabilidad no cambia. Dejamos este caso como ejercicio para el lector. En la práctica, la diferenciación de la salida puede dar grandes errores cuando hay ruido de medición, por lo que el método esbozado anteriormente no es especialmente práctico. Abordaremos esta cuestión con más detalle en la siguiente sección, pero por ahora tenemos el siguiente resultado básico. Teorema 7.1 (Condición de rango de observabilidad). Un sistema lineal de la forma (7.1) es observable si y sólo si la matriz de observabilidad Wo es de rango completo. Prueba. La suficiencia de la condición de rango de observabilidad se desprende � del análisis anterior. Para demostrar la necesidad, supongamos que el sistema es observable pero∈Wo no /es de rango completo. Sea v Rn , v = 0, un vector en el espacio nulo de Wo , de modo que Wo v = 0. Si dejamos que x(0) = v sea la condición inicial del sistema y elegimos u = 0, entonces la salida viene dada por y(t) = CeAt v. Como eAt puede escribirse como una serie de potencias en A y como An y las potencias superiores pueden reescribirse en términos de potencias inferiores de A (por el teorema de Cayley-Hamilton), se deduce que la salida será idénticamente cero (el lector debe completar los pasos que faltan si esto no está claro). Sin embargo, si tanto la entrada como la salida del sistema son 0, entonces una estimación válida del estado es xˆ = 0 para / todo el tiempo, lo cual es claramente incorrecto ya que x(0) = v = 0. Por lo tanto, por contradicción debe tener que Wo es de rango completo si el sistema es observable. Ejemplo 7.1 Modelo de compartimentos Considere el modelo de dos compartimentos de la Figura 3.18a, pero suponga que la concentración en el primer compartimento puede medirse. El sistema está descrito por la 204 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA C2 R1 S v1 S R1 + R2 R3 v2 R2 R3 C2 Figura 7.2: Un sistema no observable. Dos subsistemas idénticos tienen salidas que se suman para formar la salida total del sistema. Los estados individuales del subsistema no pueden determinarse porque las contribuciones de cada uno a la salida no son distinguibles. El diagrama de circuito de la derecha es un ejemplo de este tipo de sistema. sistema lineal dc -k0- k1 = k2 dt k1 b0 c + u, 0 -k 2 y = 10c. El primer compartimento representa la concentración del fármaco en el plasma sanguíneo, y el segundo compartimento la concentración del fármaco en el tejido donde es activo. Para determinar si es posible encontrar la concentración en el compartimento tisular a partir de una medición del plasma sanguíneo, investigamos la observabilidad del sistema formando la matriz de observabilidad C 10 Wo = = . A C -k0 - k1 k1 Las filas son linealmente independientes/ si k1 = 0, y bajo esta condición es posible determinar la concentración del fármaco en el compartimento activo a partir de las mediciones de la concentración del fármaco en la sangre. Es útil conocer los mecanismos que hacen que un sistema sea inobservable. En la figura 7.2 se muestra un sistema de este tipo. El sistema está compuesto por dos sistemas idénticos cuyas salidas se suman. Parece intuitivamente claro que no es posible deducir los estados a partir de la salida, ya que no podemos deducir las contribuciones individuales de la salida a partir de la suma. Esto también puede verse formalmente (Ejercicio 7.2). Forma canónica observable Como en el caso de la alcanzabilidad, ciertas formas canónicas serán útiles para estudiar la observabilidad. Un sistema lineal de espacio de estados de una entrada y una salida está en observabilidad. 205 7.1. OBSERVABILIDAD ... u bn 1 bn- I I zn an b2 b1 zn- 1 . .. I z2 I a2 an-1 d a1 z1 y -1 ... Figura 7.3: Diagrama de bloques de un sistema en forma canónica observable. Los estados del sistema están representados por integradores individuales cuyas entradas son una combinación ponderada del siguiente integrador de la cadena, el primer estado (integrador más a la derecha) y la entrada del sistema. La salida es una combinación del primer estado y la entrada. forma canónica si su dinámica viene dada por dz dt = -2 -a1 a -a. n-1 -an 1 0 - -01 .. 00 . 0 0 - -0 0 0 1 b1 b2 z + . n-1 bb u, n y = 1 0 0 - -0 z + Du. La definición puede extenderse a sistemas con muchas entradas; la única diferencia es que el vector que multiplica a u se sustituye por una matriz. La figura 7.3 es un diagrama de bloques para un sistema en forma canónica observable. Como en el caso de la forma canónica alcanzable, vemos que los coeficientes de la descripción del sistema aparecen directamente en el diagrama de bloques. El polinomio característico de un sistema en forma canónica observable es (s) = sn + a1 sn−1 + - - + an−1 s + an . (7.5) Es posible razonar sobre la observabilidad de un sistema en forma canónica observable estudiando el diagrama de bloques. Si la entrada u y la salida y están disponibles, el estado z1 puede ser claramente calculado. Diferenciando z1 , obtenemos la entrada al integrador que genera z1 , y ahora podemos - obtener z2 = z˙1 + a1 z1 b1 u. Procediendo de este modo, podemos calcular todos los estados. Sin embargo, el cálculo requerirá que las señales sean diferenciadas. Para comprobar la observabilidad de manera más formal, calculamos la matriz de observabilidad para 206 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA un sistema en forma canónica observable, que viene dado por 1 00 . . . 10 . . . 0 0 a1 -a1-2 - a2 -a1 1 0 , Wo = . . . .. . . . . ∗ ∗ ... 1 donde * representa una entrada cuyo valor exacto no es importante. Las filas de esta matriz son linealmente independientes (ya que es triangular inferior), y por lo tanto Wo es de rango completo. Un cálculo sencillo pero tedioso muestra que la inversa de la matriz de ob- servabilidad tiene una forma simple dada por = W -1 1 0 0 -- 0 -- - 0 a1 1 0 a2 a1 10 . . . o . . . . --- 1 an-1 an-2 an-3 Como en el caso de la alcanzabilidad, resulta que si un sistema es observable entonces siempre existe una transformación T que convierte el sistema en forma canónica observable. Esto es útil para las pruebas, ya que nos permite asumir que un sistema está en forma canónica observable sin ninguna pérdida de generalidad. La forma canónica observable puede estar mal condicionada numéricamente. 7.2 Estimación del estado Una vez definido el concepto de observabilidad, volvemos a la cuestión de cómo construir un observador para un sistema. Buscaremos observadores que puedan ser representados como un sistema dinámico lineal que toma las entradas y salidas del sistema que estamos observando y produce una estimación del estado del sistema. Es decir, queremos construir un sistema dinámico de la forma dxˆ = Fxˆ+ Gu + Hy, dt donde u e y son la entrada y la salida del sistema original y xˆ ∈ Rn es una estimación del estado con la propiedad de que xˆ(t) → x(t) a medida que t → . El Observador Consideramos el sistema de la ecuación (7.1) con D fijado en cero para simplificar la expo- sición: dx = Ax + Bu, y = Cx. (7.6) dt 207 7.2. ESTIMACIÓN DEL ESTADO Podemos intentar determinar el estado simplemente simulando las ecuaciones con la entrada correcta. Una estimación del estado viene dada entonces por dxˆ = Axˆ+ Bu. (7.7) dt Para encontrar las propiedades de esta estimación, introduzca el error de estimación x˜ = xx ˆ. De las ecuaciones (7.6) y (7.7) se deduce que dx˜ nado. = Ax˜. dt Si la matriz A tiene todos sus valores propios en el semiplano izquierdo, el error x˜ irá a cero, y por tanto la ecuación (7.7) es un sistema dinámico cuya salida converge al estado del sistema (7.6). El observador dado por la ecuación (7.7) sólo utiliza la entrada del proceso u; la señal medida no aparece en la ecuación. También debemos requerir que el sistema sea estable, y esencialmente nuestro estimador converge porque el estado tanto del observador como del estimador van a cero. Esto no es muy útil en un contexto de diseño de control, ya que queremos que nuestra estimación converja rápidamente a un estado no nulo para poder hacer uso de ella en nuestro controlador. Por lo tanto, intentaremos modificar el observador para que la salida sea utilizada y sus propiedades de convergencia puedan ser de- firmadas para ser rápidas en relación con la dinámica del sistema. Esta versión también funcionará para sistemas inestables. Considere el observador dxˆ = Axˆ+ Bu + L(y -Cxˆ). (7.8) dt Esto puede considerarse como una generalización de la ecuación (7.7). La retroalimentación de la salida medida se proporciona - añadiendo el término L(y Cxˆ), que es proporcional a la diferencia entre la salida observada y la salida predicha por el ob-servador. De las ecuaciones (7.6) y (7.8) se deduce que dx˜ nado. = (A - LC)x˜. dt Si la matriz L puede elegirse de forma que la matriz A LC tenga - valores propios con partes reales negativas, el error x˜ irá a cero. La tasa de convergencia viene determinada por una selección adecuada de los valores propios. Nótese la similitud entre los problemas de encontrar una retroalimentación de estado y encontrar el observador. El diseño de la retroalimentación de estado mediante la asignación de valores - propios es equivalente a encontrar una matriz K de modo que A BK tenga valores propios dados. El diseño de un observador con valores propios prescritos es equivalente a encontrar una matriz L para que A LC tenga valores propios dados. Dado que los valores propios de una matriz y su transposición son iguales, podemos establecer las siguientes equivalencias: A ↔ AT , B ↔ CT , K ↔ LT , Wr ↔ WoT . El problema de diseño del observador es el dual del problema de diseño de la retroalimentación de estado. Utilizando los resultados del Teorema 6.3, obtenemos el siguiente teorema sobre el diseño del observador. 208 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA Teorema 7.2 (Diseño de observadores por asignación de valores propios). Consideremos el sistema dado por dx = Ax + Bu, y = Cx, (7.9) dt con una entrada y una salida. Sea (s) = sn + a1 sn−1 - + - - + −a n1 s + an el polinomio característico de A. Si el sistema es observable, entonces el sistema dinámico dxˆ = Axˆ+ Bu + L(y -Cxˆ) (7.10) dt es un observador para el sistema, con L elegido como L= W−1 o p1-a 1 p2 a2 W. o . pn-an (7.11) - por y las matrices Wo y Wo dadas W= CA o C , .CAn-1 W -o = 1 0 0 --- 0 0-1 a1 a2 1 a1 0 1 0 0 . . --- 0 0 .. . 1 . . . a1 n-2a an-1 El error del observador resultante- x˜ = xxˆ que tiene el polinomio característico an-3 an-4 an-2 an-3 . 0 1 . se rige por una ecuación diferencial p(s) = sn + p1 sn−1 + - - + pn . El sistema dinámico (7.10) se denomina observador de (los estados del) sistema (7.9) porque generará una aproximación de los estados del sistema a partir de sus entradas y salidas. Esta forma de observador es mucho más útil que la dada por la diferenciación pura en la ecuación (7.3). Ejemplo 7.2 Modelo de compartimentos Consideremos el modelo de compartimentos del ejemplo 7.1, que se caracteriza por las matrices -k0- k1 k1 b0 A= , B =0 , C = 10 . k2 -k2 La matriz de observabilidad fue calculada en el Ejemplo 7.1, donde concluimos que el sistema era observable si k/1 = 0. La matriz de dinámica tiene el polinomio característico (s) = det s+ k0 + k1 -k2 k2 -k1 = s2 + (k0 + k1 + k2 )s + k0 k2 . s+ 209 7.2. ESTIMACIÓN DEL ESTADO u b0 k1 V1 k0 V2 k2 Co 0.6 nc ent 0.5 rac 0.4 ión c1 , 0.3 c2 0.2 [g/ L] 0.1 0 0 real estimado c2 c1 2 4 Tiempo t [min] 6 Figura 7.4: Observador de un sistema de dos compartimentos. A la izquierda se muestra un modelo de dos compartimentos. El observador mide la concentración de entrada u y la concentración de salida y = c1 para determinar las concentraciones de los compartimentos, que se muestran a la derecha. Las concentraciones reales se muestran con líneas sólidas y las estimaciones generadas por el observador con líneas discontinuas. Sea el polinomio característico deseado del observador s2 + p1 s + p2 , y la ecuación (7.11) da la ganancia del observador −1 1 0-1 p1 - k0 - k1 - k 2 1 0 1 L= -k0 - k1 k1 k0 + k1 + k2 p2 - k0 k 2 = p1 - k0 - k1 - k2 . (p2 - p1 k2 + k1 k2 +2 k2 )/k1 Nótese que la condición de observabilidad k1 = 0 es esencial. El / comportamiento del observador se ilustra con la simulación de la Figura 7.4b. Obsérvese cómo las concentraciones observadas se aproximan a las verdaderas. El observador es un sistema dinámico cuyas entradas son la entrada del proceso u y la salida del proceso y. La tasa de cambio de la estimación se compone de dos términos. Uno Axˆ + Bu, es la tasa de cambio calculada a partir del modelo con xˆ sustituido - yˆ), es proporcional a la diferencia e =- yˆ entre la por x. El otro término, L(y salida medida y y su estimación yˆ = Cxˆ. La ganancia del observador L es una matriz que indica cómo se pondera y distribuye el error e entre los estados. Así, el observador combina las mediciones con un modelo dinámico del sistema. En la figura 7.5 se muestra un diagrama de bloques del observador. Cálculo de la ganancia del observador Para problemas simples de bajo orden es conveniente introducir los elementos de la ganancia del observador L como parámetros desconocidos y resolver los valores requeridos para dar el polinomio característico deseado, como se ilustra en el siguiente ejemplo. Ejemplo 7.3 Dirección del vehículo El modelo lineal normalizado para la dirección del vehículo derivado en los Ejemplos 5.12 y 6.4 da la siguiente dinámica del modelo del espacio de estados que relaciona la desviación lateral de la trayectoria y con 210 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA y -1 L yˆ u x˙ˆ B xˆ I C xˆ A Figura 7.5: Diagrama de bloques del observador. El observador toma las señales y y u como entradas y produce una estimación x. Obsérvese que el observador contiene una copia del modelo del proceso que es dirigido por y - yˆ a través de la ganancia L del observador. ángulo de dirección u: dx 01 0 dt = 0 x + u, y = 10x. 1 (7.12) Recordemos que el estado x1 representa la desviación lateral de la trayectoria y que x2 representa la velocidad de giro. Ahora derivaremos un observador que utiliza el modelo del sistema para determinar la velocidad de giro a partir de la desviación de la trayectoria medida. La matriz de observabilidad es 0 1 Wo = ,01 es decir, la matriz de identidad. El sistema es, pues, observable, y el problema de asignación de valores propios puede resolverse. Tenemos A - LC = -l1 que tiene el polinomio característico det(sI - A + LC) = det s+ l1 l2 1, -l 0 2 -1 = s2 + l1 s + l2. s Suponiendo que queremos tener un observador con el polinomio característico s2 + p1 s + p2 = s2 + oo s +2o, las ganancias del observador deben elegirse como l1 = p1 = o o, l2 = p2 =2 o. El observador es entonces dxˆ 0 01 1 l1 l2 dt = Axˆ+ Bu + L(y -Cxˆ)0= xˆ+ u + (y- xˆ1 ). 211 7.3. CONTROL MEDIANTE EL ESTADO ESTIMADO 30 6 25 x1 , 4 xˆ1 2 20 0 0 y 15 [m ] 10 4 0.4 x1 xˆ1 0.2 0 6 2 5 0 2 Act uar Est 0 10 x [m] 20 30 x2 , 1 xˆ2 0 -1 0 0 2 4 6 1 x2 xˆ2 0.5 2 4 6 Tiempo normalizado t 0 0 2 4 6 Tiempo normalizado t Figura 7.6: Simulación de un observador para un vehículo que circula por una carretera con curvas (izquierda). El observador tiene un error de velocidad inicial. Los gráficos del centro muestran la desviación lateral x1 , la velocidad lateral x2 mediante líneas sólidas y sus estimaciones xˆ1 y xˆ2 mediante líneas discontinuas. Los gráficos de la derecha muestran los errores de estimación. En la figura 7.6 se simula el observador de un vehículo que circula por una carretera con curvas. La longitud del vehículo es la unidad de tiempo en el modelo normalizado. La figura muestra que el error del observador se asienta en unas 3 longitudes de vehículo. Para los sistemas de alto orden tenemos que utilizar cálculos numéricos. La dualidad entre el diseño de una retroalimentación de estado y el diseño de un observador significa que los algoritmos informáticos para la retroalimentación de estado también pueden utilizarse para el diseño del observador; simplemente utilizamos la transposición de la matriz de dinámica y la matriz de salida. El comando de MATLAB acker, que esencialmente es una implementación directa de los cálculos dados en el Teorema 7.2, puede utilizarse para sistemas con una salida. El comando de MATLAB place puede utilizarse para sistemas con muchas salidas. También está mejor condicionado numéricamente. 7.3 Control mediante el estado estimado En esta sección consideraremos un sistema de espacio de estados de la forma dx = Ax + Bu, y = Cx. (7.13) dt Obsérvese que hemos supuesto que no hay ningún término directo en el sistema (D = 0). Esto suele ser una suposición realista. La presencia de un término directo en combinación con un controlador de acción proporcional crea un bucle algebraico, que se discutirá en la sección 8.3. El problema puede resolverse incluso si hay un término directo, pero los cálculos son más complicados. Deseamos diseñar un controlador de retroalimentación para el sistema donde sólo se mide la salida. Como antes, supondremos que u e y son escalares. También asumimos que el sistema es alcanzable y observable. En el capítulo 6 encontramos una retroalimentación de la forma u = -Kx + kr r 212 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA para el caso de que todos los estados pudieran ser medidos, y en la sección 7.2 desarrollamos un observador que puede generar estimaciones del estado xˆ basado en las entradas y salidas. En esta sección combinaremos las ideas de estas secciones para encontrar una retroalimentación que dé los eigenvalores de bucle cerrado deseados para los sistemas en los que sólo las salidas están disponibles para la retroalimentación. Si todos los estados no son medibles, parece razonable probar la retroalimentación u = -Kxˆ+ kr r, (7.14) donde xˆ es la salida de un observador del estado, es decir, dxˆ = Axˆ+ Bu + L(y -Cxˆ). (7.15) dt Como el sistema (7.13) y el observador (7.15) son ambos de dimensión de estado n, el sistema de bucle cerrado tiene dimensión de estado 2n con el estado (x, xˆ). La evolución de los estados se describe mediante las ecuaciones (7.13)-(7.15). Para analizar el sistema de bucle cerrado, la variable de estado xˆ se sustituye por x˜ = x - xˆ. (7.16) Al restar la ecuación (7.15) de la ecuación (7.13) se obtiene dx˜ nado. = Ax - Axˆ- L(Cx -Cxˆ) = Ax˜- LCx˜ = (A - LC)x˜. dt Volviendo a la dinámica del proceso, introduciendo u de la ecuación (7.14) en la ecuación (7.13) y utilizando la ecuación (7.16) para eliminar xˆ se obtiene dx = Ax + Bu = Ax - BKxˆ+ Bkr r = Ax - BK(x - x˜) + Bkr r dt = (A - BK)x + BKx˜+ Bkr r. Así, el sistema de bucle cerrado se rige por x d x A- BK BK Bkr = + r. LCx˜ dt x˜ ndose 0 Aen el tiempo. 0 (7.17) Nótese que el estado x˜, que representa el error del observador, no se ve afectado por la señal de refe- rencia. Esto es deseable ya que no queremos que la señal de referencia genere errores en el observador. Como la matriz de la dinámica es diagonal de bloques, encontramos que el polinomio característico del sistema de bucle cerrado es (s) = det(sI - A + BK) det(sI - A + LC). Este polinomio es un producto de dos términos: el polinomio característico del sistema de lazo cerrado obtenido con la retroalimentación de estado y el polinomio característico del error del observador. La retroalimentación (7.14) que fue motivada heurísticamente proporciona así una solución clara al problema de asignación de valores propios. El resultado se resume como sigue. 213 7.3. CONTROL MEDIANTE EL ESTADO ESTIMADO r u kr x˙ B I x y C A Proceso -K e L B ˙ xˆ -yˆ I xˆ -C A Controlad or Observad or Figura 7.7: Diagrama de bloques de un sistema de control basado en un observador. El observador utiliza la salida medida y y la entrada u para construir una estimación del estado. Esta estimación es utilizada por un controlador de retroalimentación de estado para generar la entrada correctiva. El controlador está formado por el observador y la retroalimentación de estado; el observador es idéntico al de la figura 7.5. Teorema 7.3 (Asignación de valores propios por retroalimentación de salida). Consideremos el sistema dx = Ax + Bu, y = Cx. dt El controlador descrito por dxˆ = Axˆ+ Bu + L(y -Cxˆ) = (A - BK - LC)xˆ+ Bkr r + Ly, dt u = -Kxˆ+ kr r da un sistema de bucle cerrado con el polinomio característico (s) = det(sI - A + BK) det(sI - A + LC). A este polinomio se le pueden asignar raíces arbitrarias si el sistema es alcanzable y observable. El controlador tiene un fuerte atractivo intuitivo: se puede pensar que está compuesto por dos partes, una retroalimentación de estado y un observador. La dinámica del controlador es generada por el observador. La ganancia de retroalimentación K puede calcularse como si todas las variables de estado pudieran medirse, y depende sólo de A y B. La ganancia del observador L depende sólo de A y C. La propiedad de que la asignación de valores propios para la retroalimentación de salida puede separarse en una asignación de valores propios para una retroalimentación de estado y un observador se denomina principio de separación. En la figura 7.7 se muestra un diagrama de bloques del controlador. Obsérvese que el con- 214 1 8 x2 , 0 xˆ2 -1 0 6 x1 , xˆ1 4 2 0 -2 0 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA 5 10 15 1 Retroalimentaci ón de estado Retroalimentaci ón de salida 5 10 15 Referenciat Tiempo normalizado u, 0 usfb -1 0 5 10 Tiempo normalizado t 15 Figura 7.8: Simulación de un vehículo que circula por una carretera con curvas con un controlador basado en retroalimentación de estado y un observador. El gráfico de la izquierda muestra los límites del carril (punteado), la posición del vehículo (sólido) y su estimación (punteado), el gráfico superior derecho muestra la velocidad (sólido) y su estimación (punteado), y el gráfico inferior derecho muestra la señal de control utilizando retroalimentación de estado (sólido) y la señal de control utilizando el estado estimado (punteado). El controlador contiene un modelo dinámico de la planta. Esto se llama el principio del modelo interno: el controlador contiene un modelo del proceso que se controla. Ejemplo 7.4 Dirección del vehículo Consideremos de nuevo el modelo lineal normalizado para la dirección del vehículo del ejemplo 6.4. La dinámica que relaciona el ángulo de dirección u con la desviación lateral de la trayectoria y está dada por el modelo de espacio de estado (7.12). Combinando la retroalimentación de estado derivada en el Ejemplo 6.4 con el observador determinado en el Ejemplo 7.3, encontramos que el controlador está dado por dxˆ 01 l1 = Axˆ+ Bu + L(y -Cxˆ) = xˆ+ u + (y- xˆ1 ), 1 l2 0 0 dt u = -Kxˆ+ kr r = k1 (r - xˆ1 ) - k2 xˆ2 . La eliminación de la variable u da como resultado dxˆ = (A - BK - LC)xˆ+ Ly + Bkr r dt -l − 1 −2 l1 = 1 -k11 - l2 l2 k1r. -k 2 xˆ+ y + 1 El controlador es un sistema dinámico de segundo orden, con dos entradas y y r y una salida u. La figura 7.8 muestra una simulación del sistema cuando el vehículo circula por una carretera con curvas. Como estamos utilizando un modelo normalizado, la unidad de longitud es la longitud del vehículo y la unidad de tiempo es el tiempo que se tarda en recorrer una longitud del vehículo. El estimador se inicializa con todos los estados iguales a cero, pero el sistema real tiene una velocidad inicial de 0,5. Las cifras muestran que las estimaciones convergen rápidamente a sus valores reales. El vehículo sigue la trayectoria deseada, que está en el centro de la carretera, pero hay errores porque la carretera es irregular. El error de seguimiento puede mejorarse introduciendo el feedforward (apartado 7.5). 215 7.4. FILTRADO KALMAN �� 7.4 Filtrado Kalman Uno de los principales usos de los observadores en la práctica es estimar el estado de un sistema en presencia de mediciones ruidosas. Todavía no hemos tratado el ruido en nuestro análisis, y un tratamiento completo de los sistemas dinámicos estocásticos está fuera del alcance de este texto. En esta sección, presentamos una breve introducción al uso del análisis de sistemas estocásticos para construir observadores. Trabajamos principalmente en tiempo discreto para evitar algunas de las complicaciones asociadas a los procesos aleatorios en tiempo continuo y para mantener los prerrequisitos matemáticos al mínimo. Esta sección requiere conocimientos básicos de variables aleatorias y procesos estocásticos; véase Kumar y Varaiya [KV86] o Åström[ Åst06] para el material necesario. Consideremos un sistema lineal de tiempo discreto con dinámica x[k + 1] = Ax[k] + Bu[k] + Fv[k], y [ k] = Cx[k] + w[k], (7.18) donde v[k] y w[k] son procesos de ruido blanco gaussiano que satisfacen f { E{v[k]} = 0, E v[k]vT [ j] }= 0 k /= j Rv k = j, f { E{w[k]} = 0, E w[k]wT [ j] }= 0 k /= j Rw k = j, (7.19) E{v[k]wT [ j]} = 0. E {v[k] }representa el valor esperado de v[k] y E v[k]vT [ j] la }correlación ma- trix. Las matrices Rv y Rw son las matrices de covarianza para la perturbación del proceso v y el ruido de medición w. Suponemos que la condición inicial también es modelada como una variable aleatoria gaussiana con E{x[0]} = x0 , E{x[0]xT [0]} = P0 . (7.20) Queremos encontrar una estimación xˆ[k] que minimice el error cuadrático T { } { : 0 t . ≤Consideramos ≤} medio E- (x[k] xˆ[k])(x[k] xˆ[k]) dadas las medidas y() un observador de la misma forma básica que la derivada anteriormente: xˆ[k + 1] = Axˆ[k] + Bu[k] + L[k](y[k] -Cxˆ[k]). (7.21) El siguiente teorema resume el resultado principal. Teorema 7.4 (Kalman, 1961). Consideremos un proceso aleatorio x[k] con una dinámica dada por la ecuación (7.18) y procesos de ruido y condiciones iniciales descritas por las ecuaciones (7.19) y (7.20). La ganancia del observador L que minimiza el cuadrado medio error viene dado por L[k] = AP[k]CT (Rw + CP[k]CT )−1 , donde T P[k + 1] = (A - LC)P[k](A - LC)T + FR v F + LR w T L (7.22) P0 = E{x[0]xT [0]}. Antes de demostrar este resultado, reflexionamos sobre su forma y función. En primer lugar, hay que tener en cuenta que el filtro de Kalman tiene la forma de un filtro recursivo: dado el error cuadrático medio 216 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA P[k] = E { (x[k]- xˆ[k])(x[k]- xˆ[k])}T en el momento k, podemos calcular cómo cambian la estimación y el error. Por lo tanto, no necesitamos llevar la cuenta de los valores antiguos de la salida. Además, el filtro de Kalman da la estimación xˆ[k] y la covarianza del error P[k], por lo que podemos ver la fiabilidad de la estimación. También se puede demostrar que el filtro de Kalman extrae la máxima información posible sobre los datos de salida. Si forman el residuo entre la producción medida y la producción estimada, e[k] = y[k] -Cxˆ[k], podemos demostrar que para el filtro de Kalman la matriz de correlación es f1 j=k T Re ( j, k) = E{e[ j]e [k]} = W [kjk , jk = 0 j /= k. En otras palabras, el error es un proceso de ruido blanco, por lo que no queda contenido de información dinámica en el error. El filtro de Kalman es extremadamente versátil y puede utilizarse incluso si el proceso, el ruido o las perturbaciones no son estacionarios. Cuando el sistema es estacionario y si P[k] converge, la ganancia del observador es constante: L = APCT (Rw + CPCT ), where P satisfies P = APAT + FR v F T - APCT Rw + CPC T−1 CPAT . Vemos que la ganancia óptima depende tanto del ruido del proceso como del ruido de la medida, pero de una manera no trivial. Al igual que el uso de LQR para elegir las ganancias de retroalimentación de estado, el filtro de Kalman permite una derivación sistemática de las ganancias del observador dada una descripción de los procesos de ruido. La solución para el caso de ganancia constante se resuelve con el comando dlqe de MATLAB. Prueba del teorema. Deseamos minimizar el cuadrado medio del error E { (x[k] xˆ[k])(x[k]- xˆ[k])}T . Definiremos esta cantidad como P[k] y luego mostraremos que satisface la recursión dada en la ecuación (7.22). Por definición, P[k + 1] = E{(x[k + 1] - xˆ[k + 1])(x[k + 1] - xˆ[k + 1])T } = (A - LC)P[k](A - LC)T + FR v F T + LRw LT = AP[k]AT + FRv FT - AP[k]CT LT - LCP[k]AT + L(Rw + CP[k]CT )LT . Dejando que R = (Rw + CP[k]CT ), tenemos P[k + 1] = AP[k]AT + FRvFT − AP[k]CT LT − LCP[k]AT + LR LT = AP[k]AT + FRv FT + L-AP[k]CT R− 1 R L-AP[k]CT R-1 - AP[k]CT R− 1CPT [k]AT . T 217 7.4. FILTRADO KALMAN Para minimizar esta expresión, elegimos L = AP[k]CT R− 1, y se demuestra el teorema. El filtro de Kalman también puede aplicarse a procesos estocásticos de tiempo continuo. La derivación matemática de este resultado requiere herramientas más sofisticadas, pero la forma final del estimador es relativamente sencilla. Consideremos un sistema estocástico continuo dx = Ax + Bu + Fv, dt y = Cx + w, E{v(s)vT (t)} = Rv (t) (t - s), E{w(s)wT (t)} = Rw (t) (t - s), donde () es la función de impulso unitaria. Supongamos que la perturbación v y el ruido w son de media cero y gaussianos (pero no necesariamente estacionarios): 1 1 1 1 e- 2 wT Rw-1w. e- 2 vT Rv- , pdf(w) = √ n pdf(v) = R w v 1v √n R Deseamos encontrar la estimación xˆ(t) que minimice el error cuadrático medio E{(x(t) xˆ(t))(x(t) - xˆ(t))T } dado {y() : 0 ≤ ≤ t}. Teorema 7.5 (Kalman-Bucy, 1961). El estimador óptimo tiene la forma de un linobservador del oído dxˆ = Axˆ+ Bu + L(y -Cxˆ), dt dP donde L(t) = P(t)CTRw-1y P(t) = E{(x(t) - xˆ(t))(x(t) - xˆ(t))T } y satisface = T AP + PAT - PCT R−1 (t)CP P[0] = E{x[0]xT [0]}. w + FRv (t)F , dt Como en el caso discreto, cuando el sistema es estacionario y si P(t) converge, la ganancia del observador es constante: L = PCTRw-1 T donde AP + PAT - PCTRw-1C+ P FRv F = 0. La segunda ecuación es la ecuación algebraica de Riccati. Ejemplo 7.5 Avión de empuje vectorial Consideramos la dinámica lateral del sistema, formada por los subsistemas cuyos estados vienen dados por z = (x, , x˙, ˙). Para diseñar un filtro Kalman para el sistema, debemos incluir una descripción de las perturbaciones del proceso y del ruido de los sensores. En este sentido, por lo que se aumenta el sistema para que tenga la forma dz = Az + Bu + Fv, y = Cz + w, dt donde F representa la estructura de las perturbaciones (incluyendo los efectos de las no linealidades que hemos ignorado en la linealización), v representa la fuente de perturbación (modelada como ruido blanco gaussiano de media cero) y w representa ese ruido de medición (también de media cero, gaussiano y blanco). Para este ejemplo, elegimos F como la matriz de identidad y elegimos las perturbaciones vi , i = 1, . . . , n, sean perturbaciones independientes con covarianza dada por Rii = 0,1, 218 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA 0.1 0.1 Est 0 ad os -0.1 zi [un -0.2 ida des mi -0.3 xta s] -0.4 0 x xd d 0.5 1 1.5 Tiempo t [s] 2 (a) Sólo medición de la posición Est 0 ad os -0.1 zi [un -0.2 ida des mi -0.3 xta s] -0.4 0 x xd d 0.5 1 1.5 Tiempo t [s] 2 (b) Posición y orientación Figura 7.9: Diseño del filtro Kalman para un avión de empuje vectorial. En el primer diseño (a) sólo se mide la posición lateral de la aeronave. Si se añade una medición directa del ángulo de balanceo se obtiene un observador mucho mejor (b). La condición inicial para ambas simulaciones es (0,1, 0,0175, 0,01, 0). R ij = 0, i /= j. El ruido del sensor es una única variable aleatoria que modelamos como si tuviera una covarianza Rw = 10−4 . Utilizando los mismos parámetros que antes, la ganancia de Kalman resultante viene dada por 37.0 -46.9 L= . 185 -31.6 El rendimiento del estimador se muestra en la figura 7.9a. Vemos que, aunque el estimador converge al estado del sistema, contiene un sobreimpulso significativo en la estimación del estado, lo que puede llevar a un mal rendimiento en un entorno de bucle cerrado. Para mejorar el rendimiento del estimador, exploramos el impacto de añadir una nueva medida de salida. Supongamos que en lugar de medir sólo la posición de salida x, también medimos la orientación del avión. La salida se convierte en 10 0 0 w y= z + 1, 0 w2 010 y si suponemos que w1 y w2 son fuentes de ruido independientes, cada una con una covarianza Rw i = 10−4 , entonces la matriz de ganancia del estimador óptimo se convierte en 32.6 -0.150 L= 32.7 -0.0033 -0.150 32.6 . -9.79 31.6 Estas ganancias proporcionan una buena inmunidad al ruido y un alto rendimiento, como se ilustra en la figura 7.9b. 219 7.5. UNA ESTRUCTURA GENERAL DEL CONTROLADOR uff r Generació n de trayectoria s xd d e Comen tarios del Estado -1 xˆ ufb n u y Proceso Observad or Figura 7.10: Diagrama de bloques de un controlador basado en una estructura de dos grados de libertad que combina la retroalimentación y la alimentación. El controlador consta de un generador de trayectorias, una retroalimentación de estado y un observador. El subsistema de generación de trayectorias calcula un comando feedforward uff junto con el estado deseado xd . El controlador de retroalimentación de estado utiliza el estado estimado y el estado deseado para calcular una entrada correctiva ufb. 7.5 Una estructura de controladores generales Los estimadores de estado y la retroalimentación de estado son componentes importantes de un controlador. En esta sección, añadiremos la realimentación para llegar a una estructura de controlador general que aparece en muchos lugares de la teoría de control y es el corazón de la mayoría de los sistemas de control modernos. También esbozaremos brevemente cómo se pueden utilizar los ordenadores para implementar un controlador basado en la retroalimentación de salida. Feedforward En este capítulo y en el anterior hemos hecho hincapié en la retroalimentación como mecanismo para minimizar el error de seguimiento; los valores de referencia se introdujeron simplemente añadiéndolos a la retroalimentación de estado a través de una ganancia kr . Una forma más sofisticada de hacer esto se muestra en el diagrama de bloques de la Figura 7.10, donde el controlador consta de tres partes: un observador que calcula las estimaciones de los estados basándose en un modelo y en las entradas y salidas medidas del proceso, una realimentación de estado y un generador de trayectorias que genera el comportamiento deseado de todos los estados xd y una señal de realimentación uff . En condiciones ideales de ausencia de perturbaciones y de errores de modelización, la señal uff genera el comportamiento deseado xd cuando se aplica al proceso. La señal xd puede ser generada por un sistema que da la respuesta deseada del estado. Para generar la señal uff , también debemos tener un modelo de la inversa de la dinámica del proceso. Para tener una idea del comportamiento del sistema, suponemos que no hay perturbaciones y que el sistema está en equilibrio con una señal de referencia constante y con el estado del observador xˆ igual al estado del proceso x. Cuando se cambia la señal de referencia, las señales uff y xd cambiarán. El observador sigue perfectamente el estado porque el estado inicial era correcto. El estado estimado xˆ es, por tanto, igual a el estado deseado xd , y la señal de retroalimentación ufb-= K(xd xˆ) también será cero. Toda la acción es, pues, creada por las señales del generador de trayectorias. Si hay algunos perturbaciones o algunos errores de modelado, la señal de retroalimentación intentará corregir la situación. Se dice que este controlador tiene dos grados de libertad porque las respuestas 220 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA a las señales de mando y a las perturbaciones están desacopladas. Las respuestas a las perturbaciones se rigen por el observador y la retroalimentación de estado, mientras que la respuesta a las señales de mando se rige por el generador de trayectorias (feedforward). Para una descripción analítica comenzamos con la dinámica no lineal completa del proceso dx = f (x, u), y = h(x, u). (7.23) dt Supongamos que el generador de trayectorias es capaz de calcular una trayectoria deseada (xd , uff ) que satisface la dinámica (7.23) y satisface r = h(xd , uff ). Para diseñar el controlador, construimos el - sistema de error. - Sea z = x xd y v = uff y calcule la dinámica para el error: z˙ = x˙- x˙d = f (x, u) - f (xd , uff ) = f (z + xd , v + uff ) - f (xd , uff ) =: F(z, v, xd (t), uff (t)). En general, este sistema es variable en el tiempo. Obsérvese que z = e en la figura 7.10 debido a la convención de utilizar la retroalimentación negativa en el diagrama de bloques. Para el seguimiento de la trayectoria, podemos asumir que e es pequeño (si nuestro controlador está haciendo un buen trabajo), y así podemos linealizar alrededor de z = 0: dz F 1 F 1 ≈ A(t)z + B(t)v, A(t) = , B(t) = . dt z1 v1 (xd (t),uff(t)) (xd (t),uff(t)) A menudo se da el caso de que A(t) y B(t) dependen sólo de xd , en cuyo caso es conveniente escribir A(t) = A(xd ) y B(t) = B(xd ). Supongamos ahora que xd y uff son constantes o varían lentamente (con respecto a al criterio de rendimiento). Esto nos permite considerar sólo el sistema lineal (constante) dado por (A(xd ), B(xd )). Si diseñamos un controlador de retroalimentación de estado K(xd ) para cada xd , entonces podemos regular el sistema utilizando la retroalimentación v = -K(xd )z. Sustituyendo de nuevo las definiciones de z y v, nuestro controlador se convierte en u = -K(xd )(x - xd ) + uff . Esta forma de controlador se denomina controlador lineal de ganancia programada con alimentación uff . Por último, consideramos el observador. La dinámica no lineal completa puede utilizarse para la parte de predicción del observador y el sistema linealizado para el término de corrección: dxˆ = f (xˆ, u) + L(xˆ)(y - h(xˆ, u)), dt donde L(xˆ) es la ganancia del observador obtenida al linealizar el sistema alrededor del estado estimado actualmente. Esta forma del observador se conoce como filtro de Kalman ampliado y ha demostrado ser un medio muy eficaz para estimar el estado de un sistema no sistema lineal. 221 7.5. UNA ESTRUCTURA GENERAL DEL CONTROLADOR 5 y 0 [m ] -5 0 xf , y f 1 2 3 4 2 3 Tiempo t [s] 4 0.5 [ra d] x0 , y0 0 -0.5 (a) Vista aérea 0 1 (b) Posición y dirección Figura 7.11: Generación de la trayectoria para el cambio de carril. Queremos cambiar del carril izquierdo al derecho en una distancia de 30 m en 4 s. La trayectoria planificada en el plano xy se muestra en (a) y la posición lateral y y el ángulo de giro en el intervalo de tiempo de la maniobra se muestran en (b). . Hay muchas maneras de generar la señal de feedforward, y también hay muchas maneras diferentes de calcular la ganancia de retroalimentación K y la ganancia del observador L. Tenga en cuenta que, una vez más, se aplica el principio de modelo interno: el controlador contiene un modelo del sistema a controlar a través del observador. Ejemplo 7.6 Dirección del vehículo Para ilustrar cómo podemos utilizar un diseño de dos grados de libertad para mejorar el rendimiento del sistema, consideremos el problema de dirigir un coche para cambiar de carril en una carretera, como se ilustra en la figura 7.11a. Utilizamos la forma no normalizada de la dinámica, que se derivó en el examen 2.8. Utilizando el centro de las ruedas traseras como referencia ( = 0), la dinámica puede escribirse como v dx dy = v, = v, = tan, dt dt dt b donde v es la velocidad de avance del vehículo y es el ángulo de dirección. Para generar una trayectoria para el sistema, observamos que podemos resolver los estados y entradas del sistema dados x, y resolviendo los siguientes conjuntos de ecuaciones: x˙ = v cos, x¨ = v˙cos - v˙ sin, y˙ = v sin, ˙ = (v/b) tan. y¨ = v˙sin + v˙ cos, (7.24) Este conjunto de cinco ecuaciones tiene cinco incógnitas ( , ˙, v, v˙ y ) que pueden resolverse mediante trigonometría y álgebra lineal. Se deduce que podemos calcular una trayectoria factible para el sistema dada cualquier trayectoria x(t), y(t). (Esta propiedad especial de un sistema se conoce como planitud diferencial [FLMR92, FLMR95]). Encontrar una trayectoria desde un estado inicial (x0 , y0 ,0 ) hasta un estado final (xf , yf ,f ) en 222 un tiempo T , buscamos una trayectoria x(t), y(t) que satisfaga x(0) = x0 , y(0) = y0 , x˙(0) 0 - y˙(0) 0 = 0, y˙(0) 0 + x˙(0) 0 = v0 , CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA x(T ) = xf , (7.25) y(T ) = yf , x˙(T ) f - y˙(T ) f = 0, y˙(T ) f + x˙(T ) f = vf . Una de estas trayectorias puede encontrarse eligiendo que x(t) e y(t) tengan la forma xd (t) =0 +1 t +2 t2 +3 t3 , yd (t) =0 +1 t +2 t2 +3 t3 . Sustituyendo estas ecuaciones en la ecuación (7.25), nos queda un conjunto de ecuaciones lineales que pueden resolverse para ,ii , i = 0, 1, 2, 3. Esto da una trayectoria factible para el sistema utilizando la ecuación (7.24) para resolver parad , vd yd . La figura 7.11b muestra una trayectoria de muestra generada por un conjunto de ecuaciones de orden superior que también establecen el ángulo de dirección inicial y final en cero. Obsérvese que la entrada de alimentación es bastante diferente de 0, lo que permite al controlador ordenar un ángulo de dirección que ejecuta el giro en ausencia de errores. � Descomposición de Kalman de un sistema lineal En este capítulo y en el anterior hemos visto que dos propiedades fundamentales de un sistema lineal de entrada/salida son la alcanzabilidad y la observabilidad. Resulta que estas dos propiedades pueden utilizarse para clasificar la dinámica de un sistema. El resultado clave es el teorema de descomposición de Kalman, que dice que un sistema lineal puede dividirse en cuatro subsistemas: ro que es alcanzable y observable,ro¯ que es alcanzable pero no observable,r¯o que no es alcanzable pero es observable yr¯o¯ que no es ni alcanzable ni observable. Primero consideraremos esto en el caso especial de los sistemas en los que la matriz A tiene valores propios distintos. En este caso podemos encontrar un conjunto de coordenadas tal que la matriz A es diagonal y, con algún reordenamiento adicional de los estados, el sistema puede escribirse como dx dt Aro 0 = 0 0 y = Cro 0 Aro¯ 0 0 0 0 Ar¯o 0 0 0 A0r¯o¯ 0 0 Cr¯o + Bro Bro¯ x , 0 0 u (7.26) x + Du. Todos los estados xk tales /que Bk = 0 son alcanzables, y todos los estados / tales que Ck = 0 son observables. Si fijamos el estado inicial en cero (o, de forma equivalente, observamos la respuesta del estado estacionario si A es estable), los estados dados por xr¯o y xr¯o¯ serán cero y xro¯ no afecta a la salida. Por lo tanto, la salida y puede determinarse a partir del sistema dxro = A xroro + Bro u, y = C xroro + Du. dt 223 7.5. UNA ESTRUCTURA GENERAL DEL CONTROLADOR u ro ro¯ + r¯o r¯o¯ (a) Valores propios distintos y u ro ro¯ + y r¯o r¯o¯ (b) Caso general Figura 7.12: Descomposición de Kalman de un sistema lineal. La descomposición en (a) es para un sistema con valores propios distintos y la de (b) es el caso general. El sistema se divide en cuatro subsistemas, que representan las distintas combinaciones de estados alcanzables y observables. La relación entrada/salida sólo depende del subconjunto de estados alcanzables y observables. Así, desde el punto de vista de la entrada/salida, sólo importa la dinámica alcanzable y observable. En la figura 7.12a se muestra un diagrama de bloques del sistema que ilustra esta propiedad. El caso general de la descomposición de Kalman es más complicado y requiere algo de álgebra lineal adicional; véase el artículo original de Kalman, Ho y Narendra [KHN63]. El resultado clave es que el espacio de estado todavía puede descomponerse en cuatro partes, pero habrá un acoplamiento adicional de modo que las ecuaciones tienen la forma Bro Aro 0 ∗ 0 dx ∗ x + Bro¯ u, ∗ Aro¯ ∗ 0 Ar¯o dt = 0 0 0 ∗ A0r¯o¯ 0 (7.27) 0 0 y = Cro 0 Cr¯o x, donde se matrices de bloques de dimensiones adecuadas. La ∗ indican las respuesta de entrada/salida del sistema viene dada por dxro (7.28) = A xroro + Bro u, y = C xroro + Du, dt que son la dinámica del subsistema alcanzable y observablero . En la figura 7.12b se muestra un diagrama de bloques del sistema. El siguiente ejemplo ilustra la descomposición de Kalman. Ejemplo 7.7 Sistema y controlador con retroalimentación de los estados del observador Considere el sistema dx = Ax + Bu, y = Cx. dt El siguiente controlador, basado en la retroalimentación del estado del observador, fue dado en 224 Teorema 7.3: CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA dxˆ = Axˆ+ Bu + L(y -Cxˆ), u = -Kxˆ+ kr r. dt Introduciendo los estados x y x˜ = x - xˆ, el sistema de lazo cerrado puede escribirse como d x A- BK BK = x + Bkr r, 0x, y=C LCx˜ 0 x˜ x˜ ndose dt 0 Aen el tiempo. que es una descomposición de Kalman como la que se muestra en la Figura 7.12b con sólo dos subsistemasro yr¯o . El subsistemaro , con el estado x, es alcanzable y observable, y el subsistemar¯o , con el estado x˜, no es alcanzable pero sí observable. Es natural que el estado x˜ no sea alcanzable desde la señal de referencia r porque no tendría sentido diseñar un sistema en el que los cambios en la señal de mando pudieran generar errores en el observador. La relación entre la referencia r y la salida y viene dada por dx = (A - BK)x + Bkr r, y = Cx, dt que es la misma relación que para un sistema con retroalimentación de estado completa. Aplicación informática Los controladores obtenidos hasta ahora se han descrito mediante ecuaciones diferenciales ordinarias. Pueden implementarse directamente utilizando componentes analógicos, ya sean circuitos electrónicos, válvulas hidráulicas u otros dispositivos físicos. Dado que en las aplicaciones modernas de ingeniería la mayoría de los controladores se implementan utilizando ordenadores, discutiremos brevemente cómo se puede hacer esto. Un sistema controlado por computadora típicamente opera periódicamente: cada ciclo, las señales de los sensores son muestreadas y convertidas a forma digital por el convertidor A/D, la señal de control es calculada y la salida resultante es convertida a forma de análogo para los actuadores, como se muestra en la Figura 7.13. Para ilustrar los principios principales de cómo implementar la retroalimentación en este entorno, consideramos el controlador descrito por las ecuaciones (7.14) y (7.15), es decir, dxˆ = Axˆ+ Bu + L(y -Cxˆ), u = -Kxˆ+ kr r. dt La segunda ecuación sólo consta de sumas y multiplicaciones, por lo que puede aplicarse directamente en un ordenador. La primera ecuación puede implementarse aproximando la derivada por una diferencia dxˆ xˆ(tk+1) - xˆ(tk) ≈ = Axˆ(tk ) + Bu(tk ) + L y(tk ) -Cxˆ(tk ) , dt donde tk son los instantes - tk es el período de muestreo. h de muestreo y h = tk+1 Reescribiendo la ecuación para aislar xˆ(tk+1 ), obtenemos la ecuación de diferencia xˆ(tk+1 ) = xˆ(tk ) + h Axˆ(tk ) + Bu(tk ) + L y(tk ) -Cxˆ(tk ) . (7.29) 225 7.5. UNA ESTRUCTURA GENERAL DEL CONTROLADOR ruido perturbaciones externas Actuadore s ruido Sistema Salida Sensores Proceso Reloj D/A Ordenador A/D Filtro Controlad or entrada del operador Figura 7.13: Componentes de un sistema controlado por ordenador. El controlador consta de convertidores analógico-digital (A/D) y digital-analógico (D/A), así como de un ordenador que implementa el algoritmo de control. Un reloj del sistema controla el funcionamiento del controlador, sincronizando los procesos A/D, D/A y de computación. La entrada del operador también llega al ordenador como entrada externa. El cálculo del estado estimado en el momento tk+1 sólo requiere una suma y una multiplicación y puede ser realizado fácilmente por un ordenador. Una sección del pseudocódigo del programa que realiza este cálculo es Algoritmo de control - bucle principal r = adin(ch1) % leer referencia y = adin(ch2) % obtener la salida del proceso u = K*(xd - xhat) + uff% calcula la variable de control daout(ch1, u) % establecer salida analógica xhat= xhat + h*(A*x+B*u+L*(y-C*x)) % actualizar estimación de estado El programa se ejecuta periódicamente a una velocidad fija h. Observe que el número de com- putaciones entre la lectura de la entrada analógica y la configuración de la salida analógica se ha minimizado actualizando el estado después de que se haya configurado la salida analógica. El programa tiene una matriz de estados xque representa la estimación del estado. La elección del periodo de muestreo requiere cierto cuidado. Hay formas más sofisticadas de aproximar una ecuación diferencial por una ecuación en diferencias. Si la señal de control es constante entre los instantes de muestreo, es posible obtener ecuaciones exactas; véase [ ÅW97]. Hay varias cuestiones prácticas que también deben ser tratadas. Por ejemplo, es necesario filtrar las señales medidas antes de muestrearlas para que la señal filtrada tenga poco contenido de frecuencia por encima de fs /2, donde fs es la frecuencia de muestreo. Esto evita un fenómeno conocido como aliasing. Si se utilizan controladores con acción integral, también es necesario proporcionar protección para que la integral no se vuelven demasiado grandes cuando el actuador se satura. Este problema, denominado "windup del integrador", se estudia con más detalle en el capítulo 10. También hay que tener cuidado para que el parámetro 226 los cambios no causan perturbaciones. CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA 7.6 Más información La noción de observabilidad se debe a Kalman [Kal61b] y, combinada con la noción dual de alcanzabilidad, fue un paso importante hacia el establecimiento de la teoría de control del espacio de estados a partir de la década de 1960. El observador apareció por primera vez como el filtro de Kalman, en el artículo de Kalman [Kal61a] sobre el caso de tiempo discreto y Kalman y Bucy [KB61] sobre el caso de tiempo continuo. Kalman también conjeturó que el controlador para la retroalimentación de salida podría obtenerse combinando una retroalimentación de estado con un observador; véase la cita al principio de este capítulo. Este resultado fue demostrado formalmente por Josep y Tou [JT61] y Gunckel y Franklin [GF71]. El resultado combinado se conoce como la teoría de control gaussiano cuadrático lineal; un tratamiento compacto se da en los libros de Anderson y Moore [AM90] y Å srötm[ Åst06]. Mucho más tarde se demostró que las soluciones a los problemas de control robusto también tenían una estructura similar pero con diferentes formas de calcular las ganancias del observador y de la retroalimentación de estado [DGKF89]. La estructura general del controlador discutida en la Sección 7.5, que combina retroalimentación y feedforward, fue descrita por Horowitz en 1963 [Hor63]. La forma particular de la Figura 7.10 apareció en [ ÅW97], que también trata la implementación digital del controlador. La hipótesis de que el control del movimiento en los seres humanos se basa en una combinación de retroalimentación y feedforward fue propuesta por Ito en 1970 [Ito70]. Ejercicios 7.1 (Transformaciones de coordenadas) Considere un sistema bajo una transformación de coordenadas z = Tx, donde T Rn×n es una matriz invertible. ∈ Demuestre que la matriz de observabilidad -para el sistema transformado viene dada por Wo = Wo T−1 y, por tanto, la observabilidad es independiente de la elección de las coordenadas. 7.2 Demuestre que el sistema representado en la figura 7.2 no es observable. 7.3 (Forma canónica observable) Demuestre que si un sistema es observable, entonces existe un cambio de coordenadas z = Tx que pone el sistema transformado en forma canónica observable. 7.4 (Dinámica de la bicicleta) El modelo linealizado para una bicicleta viene dado por la ecuación (3.5), que tiene la forma mv2 h d2 Dv0 0 J 2b dt = mgh + b , dt donde es la inclinación de la bicicleta y es el ángulo de giro. Indica las condiciones en las que el sistema es observable y explica las situaciones especiales en las que pierde observabilidad. EJERCICIOS 227 7.5 (Acción integral) El modelo (7.1) supone que la entrada u = 0 corresponde a x = 0. En la práctica, es muy difícil conocer el valor de la señal de control que da un valor preciso del estado o de la salida, ya que esto requeriría una sistema perfectamente calibrado. Una forma de evitar esta suposición es suponer que el modelo viene dado por dx = Ax + B(u + u0 ), y = Cx + Du, dt donde u0 es una constante desconocida que puede ser modelada como du0 /dt = 0. Considere u0 como una variable de estado adicional y derive un controlador basado en la retroalimentación del estado observado. Demuestre que el controlador tiene acción integral y que no requieren un sistema perfectamente calibrado. 7.6 (Avión de empuje vectorial) La dinámica lateral del ejemplo de avión de � empuje vectorial descrito en el Ejemplo 6.8 puede obtenerse considerando el movimiento descrito por los estados z = (x, , x˙, ˙). Construya un estimador para estas dinámicas. ics mediante el establecimiento de los valores propios del observador en un patrón de Butterworth con 9.24i, 9.24 3.83i. Usando este estimador combinado con el ± bw = -3.83 ± controlador de espacio de estado calculado en el Ejemplo 6.8, grafique la respuesta de paso del sistema de lazo cerrado. 7.7 (Singularidad de los observadores) Demuestre que el diseño de un observador por asignación de valores propios es único para sistemas de una sola salida. Construya ejemplos que muestren que el problema no es necesariamente único para sistemas con muchas salidas. 7.8 (Observadores que utilizan la diferenciación) Considere el sistema lineal (7.2), y suponga que la matriz de observabilidad Wo es invertible. Demuestre que )T xˆ = Wo−1y y˙ y¨ - - - y(n-1 es un observador. Demostrar que tiene la ventaja de dar el estado de forma instantánea, pero que también tiene algunos inconvenientes prácticos graves. 7.9 (Observador del modelo de compartimentos de Teorell) El modelo de compartimentos de Teorell, mostrado en la Figura 3.17, tiene la siguiente representación del espacio de estados: 1 -k1 0 0 0 0 0 -k2 - k4 0 k3 0 dx = k1 dt 0 k4 0 0 0 x+ 0 0 u, 0 k 02 - k3 - k5 0 0 0 0 0 k5 0 � donde los parámetros representativos son k1 = 0,02, k2 = 0,1, k3 = 0,05, k4 = k5 = 0.005. La concentración de un fármaco activo en el compartimento 5 se mide en el torrente sanguíneo (compartimento 2). Determinar los compartimentos observables a partir de la medición de la concentración en el torrente sanguíneo y diseñar un estimador para estas concentraciones basado en la asignación de valores propios. Elija los valores propios de bucle cerrado 0,03, 0,05 y 0,1. Simule el sistema cuando la entrada es una inyección de pulsos. 228 CAPÍTULO 7. RETROALIMENTACIÓN DE LA SALIDA 7.10 (Diseño del observador para el accionamiento del motor) Considere el modelo normalizado del accionamiento del motor en el Ejercicio 2.10 donde el sistema - de lazo ± abierto tiene los v a l o r e s p r o p i o s 0, 0, 0.05 i. En el Ejercicio 6.11 se- diseñó una- ± retroalimentación de estado que dio un sistema de lazo cerrado con valores propios en 2 , 1 y 1 i. Diseñe un observador para el sistema que tiene los valores -propios - 4 , 2-y±2 2i. Combine el observador con la retroalimentación de estado del Ejercicio 6.11 para obtener una retroalimentación de salida y simule el sistema completo. 7.11 (Diseño feedforward para el accionamiento del motor) Considere el modelo normalizado del accionamiento del motor del ejercicio 2.10. Diseñe la dinámica del bloque etiquetado como "generación de trayectorias" en la Figura 7.10 de manera que la dinámica que relaciona la salida con la señal de referencia r tenga la dinámica d3 ym d2 ym dym + am1 + am2 + am3 ym = am3 r, (7.30) dt3 dt2 dt 52 3 con los parámetros am1 = 2,m , am2 = 2, y am3 = . Discuta cómo el mayor m m El valor de la señal de avance para un paso unitario de la señal de mando depende de m. 7.12 (Modelo de bicicleta Whipple) Considere el modelo de bicicleta Whipple dado por la ecuación (3.7) en la Sección 3.2. En el ejercicio 6.12 se diseñó una retroalimentación de estado para el sistema. Diseñe un observador y una retroalimentación de salida para el sistema. � 7.13 (Paseo aleatorio en tiempo discreto) Supongamos que queremos estimar la posición de una partícula que está experimentando un paseo aleatorio en una dimensión (es decir, a lo largo de una línea). Modelamos la posición de la partícula como x[k + 1] = x[k] + u[k], donde x es la posición de la partícula y u es un proceso de ruido blanco con { E }u[i] { } = 0 y E u[i] u[ j] = Ru (i j). Suponemos que podemos medir x sujeta a un ruido blanco gaussiano ad- ditivo, de media cero, con covarianza 1. (a) Calcula el valor esperado y la covarianza de la partícula en función de k. (b) Construya un filtro de Kalman para estimar la posición de la partícula dadas las mediciones ruidosas de su posición. Calcule el valor esperado en estado estacionario y la covarianza del error de su estimación. (c) Supongamos que =/= 0 pero que, por lo demás, no cambia. ¿Cómo { E u[0] } cambiarían tus respuestas a las partes (a) y (b)? 7.14 (Descomposición de Kalman) Considere un sistema lineal caracterizado por las ma- trices 2 -2 1 -1 2 A= 1 1 0 1 -4 2 -3 0 2 1 -1 -1 , 1 B = 2 2, C = 0 1 -1 0 , Construye una descomposición de Kalman para el sistema. (Sugerencia: 0. Intenta hacer una diagonalización). D= Capítulo 8 Funciones de transferencia El sistema regulador típico suele describirse, en esencia, mediante ecuaciones diferenciales de no más que quizás el segundo, tercer o cuarto orden En cambio, el orden de el conjunto de ecuaciones diferenciales que describen el típico amplificador de retroalimentación negativa utilizado en telefonía es probablemente mucho mayor. Como curiosidad ociosa, una vez conté para averiguar cuál habría sido el orden del conjunto de ecuaciones de un amplificador que acababa de diseñar, si hubiera trabajado con las ecuaciones diferenciales directamente. Resultó ser 55. Hendrik Bode, 1960 [Bod60]. Este capítulo introduce el concepto de función de transferencia, que es una descripción compacta de la relación entrada/salida de un sistema lineal. La combinación de las funciones de transferencia con los diagramas de bloques ofrece un método potente para tratar sistemas lineales complejos. También se analiza la relación entre las funciones de transferencia y otras descripciones de la dinámica del sistema. 8.1 Modelado en el dominio de la frecuencia La figura 8.1 es un diagrama de bloques de un sistema de control típico, que consiste en un proceso a controlar y un controlador que combina retroalimentación y alimentación. En los dos capítulos anteriores hemos visto cómo analizar y diseñar estos sistemas utilizando descripciones del espacio de estados de los bloques. Como se mencionó en el capítulo 2, un enfoque alternativo es centrarse en las características de entrada/salida del sistema. Dado que son las entradas y salidas las que se utilizan para conectar los sistemas, cabría esperar que este punto de vista permitiera comprender el comportamiento global del sistema. r Conforma ción de referenci a F Controlad or Controla dor de e retroalim C entación d u Dinámic a del proceso P n y -1 Figura 8.1: Un diagrama de bloques para un sistema de control de retroalimentación. La señal de referencia r pasa por un bloque de conformación de referencia, que produce la señal que se seguirá. El error entre esta señal y la salida se introduce en un controlador, que produce la entrada al proceso. Las perturbaciones y el ruido se incluyen como señales externas en la entrada y la salida de la dinámica del proceso. 230 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA Las funciones de transferencia son la principal herramienta para aplicar este punto de vista a los sistemas lineales. La idea básica de la función de transferencia proviene de observar la respuesta en frecuencia de un sistema. Supongamos que tenemos una señal de entrada que es periódica. Entonces podemos descomponer esta señal en la suma de un conjunto de senos y cosenos, u(t) = ak sin() + bk cos(), k=0 donde es la frecuencia fundamental de la entrada periódica. Cada uno de los términos de esta entrada genera una salida sinusoidal correspondiente (en estado estacionario), con magnitud y fase posiblemente desplazadas. La ganancia y la fase en cada frecuencia están determinadas por la respuesta en frecuencia dada en la ecuación (5.24): G(s) = C(sI - A)−1 B + D, (8.1) donde establecemos s = i(k) para cada k = 1, . . . , e i = √ 1. Si conocemos la respuesta en frecuencia del estado estacionario G(s), podemos calcular la respuesta a cualquier señal (periódica) utilizando la superposición. La función de transferencia generaliza esta noción para permitir una clase más amplia de señales de entrada además de las periódicas. Como veremos en la siguiente sección, la función de transferencia representa la respuesta del sistema a una entrada exponencial, u = est . Resulta que la forma de la función de transferencia es precisamente la misma que la de la ecuación (8.1). Esto no debería sorprender, ya que derivamos la ecuación (8.1) escribiendo sinusoides como sumas de exponenciales complejos. Formalmente, la función de transferencia es la relación de las transformadas de Laplace de la salida y la entrada, aunque no es necesario entender los detalles de las transformadas de Laplace para poder utilizar las funciones de transferencia. El modelado de un sistema a través de su respuesta a señales sinusoidales y exponenciales se conoce como modelado en el dominio de la frecuencia. Esta terminología proviene del hecho de que representamos la dinámica del sistema en términos de la frecuencia generalizada s en lugar de la variable del dominio del tiempo t. La función de transferencia proporciona una representación completa de un sistema lineal en el dominio de la frecuencia. El poder de las funciones de transferencia es que proporcionan una representación particularmente conveniente en la manipulación y el análisis de sistemas complejos de retroalimentación lineal. Como veremos, hay muchas representaciones gráficas de las funciones de transferencia que capturan propiedades interesantes de la dinámica subyacente. Las funciones de transferencia también permiten expresar los cambios en un sistema debido al error de modelado, lo que es esencial cuando se considera la sensibilidad a las variaciones del proceso del tipo que se discute en el capítulo 12. Más específicamente, utilizando las funciones de transferencia, es posible analizar lo que sucede cuando los modelos dinámicos se aproximan por modelos estáticos o cuando los modelos de alto orden se aproximan por modelos de bajo orden. Una consecuencia es que podemos introducir conceptos que expresan el grado de estabilidad de un sistema. Mientras que muchos de los conceptos de modelado y análisis del espacio de estado se aplican di- rectamente a los sistemas no lineales, el análisis en el dominio de la frecuencia se aplica principalmente a los sistemas lineales. Las nociones de ganancia y fase pueden generalizarse a los sistemas no lineales 231 8.2. DERIVACIÓN DE LA FUNCIÓN DE TRANSFERENCIA y, en particular, la propagación de señales sinusoidales a través de un sistema no lineal puede ser capturada aproximadamente por un análogo de la respuesta en frecuencia llamado función descriptiva. Estas extensiones de la respuesta en frecuencia se discutirán en la sección 9.5. 8.2 Derivación de la función de transferencia Como hemos visto en capítulos anteriores, la dinámica de entrada/salida de un sistema lineal tiene dos componentes: la respuesta en condiciones iniciales y la respuesta forzada. Además, podemos hablar de las propiedades transitorias del sistema y de su respuesta en estado estacionario a una entrada. La función de transferencia se centra en la respuesta forzada en estado estacionario a una entrada dada y proporciona un mapeo entre las entradas y sus salidas correlativas. En esta sección, derivaremos la función de transferencia en términos de la respuesta exponencial de un sistema lineal. Transmisión de señales exponenciales Para calcular formalmente la función de transferencia de un sistema, haremos uso de un tipo especial de señal, llamada señal exponencial, de la forma est , donde s = + es un número complejo. Las señales exponenciales desempeñan un papel importante en las sistemas. Aparecen en la solución de ecuaciones diferenciales y en el impulso respuesta de los sistemas lineales, y muchas señales pueden representarse como exponenciales o sumas de exponenciales. Por ejemplo, una señal constante es simplemente et con = 0. Las señales seno y coseno amortiguadas pueden representarse mediante e(+i)t = et eit = et (coste + i sint), donde < 0 determina la tasa de decaimiento. La figura 8.2 da ejemplos de señales que pueden representarse mediante exponenciales complejas; muchas otras señales pueden repre enviados por combinaciones lineales de estas señales. Al igual que en el caso de las señales sinusoidales, en la derivación que sigue permitiremos señales de valor complejo, aunque en la práctica siempre sumamos combinaciones de señales que dan lugar a funciones de valor real. Para investigar cómo responde un sistema lineal a una entrada exponencial u(t) = est consideramos el sistema de espacio de estados dx dt = Ax + Bu, y = Cx + Du. (8.2) Sea la señal de entrada u(t) = est y supongamos que s/ =j (A), j = 1, . . . , n, donde j (A) es el jº valor propio de A. El estado viene dado entonces por x(t) = e x(0) At + - t 0 eA (t-) - t = e x(0) eAt At + 0 e(sI-A) Bd . 232 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA 3 1 1 Se ñal 0.5 u(t ) 0 0 0.5 Tiempo t 1 Se ñal 0.5 u(t ) 0 0 2 Tiempo t s=0 0.5 Tiempo t Se ñal 0 u(t ) -1 10 Tiempo t 15 Se ñal 0 u(t ) -1 0 s=i 1 s=1 20 1 5 0 s = -1 1 0 4 Se 2 ñal u(t 1 ) 0 Se ñal u(t ) 5 10 Tiempo t 15 0 -20 0 s = -0,2 + i 5 10 Tiempo t 15 s = 0,2 + i Figura 8.2: Ejemplos de señales exponenciales. La fila superior corresponde a las señales exponenciales con exponente real, y la inferior a las que tienen exponente complejo. La línea discontinua en los dos últimos casos denota la envolvente límite de las señales oscilatorias. En cada caso, si la parte real del exponente es negativa, la señal decae, mientras que si la parte real es positiva, crece. Como vimos en el apartado 5.3, si s /= (A), la integral puede evaluarse y obtenemos x(t) = eAtx(0) + eAt(sI − A)−1 e(sI−A)t − I B = eAt x(0) -(sI - A)−1 B + (sI - A)−1 Best . El resultado de la ecuación (8.2) es, por tanto, el siguiente y(t) = Cx(t) + Du(t) = CeAt x(0) -(sI - A)−1 B + C(sI - A)−1 B + D est , (8.3) una combinación lineal de las funciones exponenciales est y eAt . El primer término de la ecuación (8.3) es la respuesta transitoria del sistema. Recordemos que eAt puede escribirse en términos de los valores propios de A (utilizando la forma de Jordan en el caso de valores propios repetidos), y por tanto la respuesta transitoria es una combinación lineal de términos de la forma e jt , dondej son valores propios de A. Si el sistema es estable, entonces eAt → 0 como →t y este término desaparece. El segundo término de la salida (8.3) es proporcional a la entrada u(t) = est . Esto se denomina respuesta exponencial pura. Si el estado inicial se elige como x(0) = (sI - A)−1 B, entonces la salida consiste sólo en la respuesta exponencial pura y tanto el estado 233 8.2. DERIVACIÓN DE LA FUNCIÓN DE TRANSFERENCIA y la salida son proporcionales a la entrada: x(t) = (sI − A)−1Best = (sI − A)−1Bu(t), y(t) = C(sI - A)−1 B + D est = C(sI - A)−1 B + D u(t). Esta es también la salida que vemos en estado estacionario, cuando los transitorios representados por el primer término de la ecuación (8.3) se han extinguido. El mapa de la entrada a la salida, Gyu (s) = C(sI - A)−1 B + D, (8.4) es la función de transferencia de u a y para el sistema (8.2), y podemos escribir y(t) = Gyu (s)u(t) para el caso de que u(t) = est . Compárese con la definición de respuesta en frecuencia dada por la ecuación (5.24). Un punto importante en la derivación de la función de transferencia es el hecho de que hemos restringido / s de manera que s =j (A), los valores propios de A. En esos valores de s, vemos que la respuesta del sistema es singular (ya que sI A no será invertible). Si s =j (A), la respuesta del sistema a la entrada exponencial u = e jt es y = p(t)e jt , donde p(t) es un polinomio de grado menor o igual a la multiplicidad del valor propioj (ver Ejercicio 8.2). Ejemplo 8.1 Oscilador amortiguado Consideremos la respuesta de un oscilador lineal amortiguado, cuya dinámica en el espacio dx de0estados se 0estudió en la sección 6.3: = 0 u, y = 10x. (8.5) x + −− 0 dt 0 Este sistema es estable si > 0, por lo que podemos observar la respuesta en estado estacionario a una entrada u = est , −1 0 s −0 1 0 Gyu (s) =( C(sI - A)− B = 1 0 0 s+ 0 1 s+ 0 -00 = 10 (8.6) s 2 2 0 s+s+ 0 0 0 = 2. s2 + 0 s + 0 Para calcular la respuesta en estado estacionario a una función escalonada, fijamos s = 0 y vemos que u=1 =⇒ y = Gyu (0)u = k. Si queremos calcular la respuesta en estado estacionario a una sinusoide, escribimos 1 u = sint = 2 ie-it - ieit , 1 y= 2 iGyu (-i)e−it - iGyu (i)eit . 234 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA Ahora podemos escribir G(i) en términos de su magnitud y fase, 0 G(i) = 2= Mei , s2 + 0 s + 0 donde la magnitud (o ganancia) M y la fase vienen dadas por M=J 0 (0 −2 2) 2 + (0 ) 2 , si = − 0 2 -2 . 0 También podemos hacer uso del hecho de-que G( i) viene dado por su conjugado - G( i) = Me−i . Sustituyendo estas expresiones complejo G∗ (i), y se deduce que en nuestra ecuación de salida, obtenemos 1 y = i(Me−i )e−it i(Mei )eit2 1 i e −i(t+) =Miei(t+) -= M sin(t + ). 2 Las respuestas a otras señales pueden calcularse escribiendo la entrada como una combinación adecuada de respuestas exponenciales y utilizando la linealidad. Cambios de coordenadas Las matrices A, B y C de la ecuación (8.2) dependen de la elección del sistema de coordenadas para los estados. Dado que la función de transferencia relaciona las entradas con las salidas, debería ser invariable a los cambios de coordenadas en el espacio de estados. Para mostrar esto, considere el modelo (8.2) e introduzca nuevas coordenadas z mediante la transformación z = Tx, donde T es una matriz no singular. El sistema se describe entonces por dz = T (Ax + Bu) = TAT−1 z + TBu =: Ãz+ B˜u, dt y = Cx + Du = CT−1 z + Du =: C˜z + Du. Este sistema tiene la misma forma que la ecuación (8.2), pero las matrices A, B y C son diferentes: A˜ = TAT−1 , B˜= TB, C˜ = CT−1 . (8.7) Calculando la función de transferencia del modelo transformado, obtenemos G̃ (s) = C˜(sI − à ) − 1 B̃ + D̃ = CT −1(sI − TAT −1)−1TB + D = C T−1 (sI - TAT−1 )T−1 B + D = C(sI - A)−1 B + D = G(s), que es idéntica a la función de transferencia (8.4) calculada a partir de la descripción del sistema (8.2). La función de transferencia es, por tanto, invariable a los cambios de las coordenadas en el espacio de estado. � Otra propiedad de la función de transferencia es que corresponde a la parte de la dinámica del espacio de estados que es alcanzable y observable. En particular, si 8.2. DERIVACIÓN DE LA FUNCIÓN DE TRANSFERENCIA 235 hacemos uso de la descomposición de Kalman (Sección 7.5), entonces la función de transferencia sólo depende de la dinámica en el subespacio alcanzable y observablero (Ejercicio 8.7). Funciones de transferencia para sistemas lineales Consideremos un sistema lineal de entrada/salida descrito por la ecuación diferencial controlada dn y dm u dn-1y dm-1u + a1 + - - + an y = b0 + b1 + - - + bm u, (8.8) dtn dtn-1 dtm dtm-1 donde u es la entrada e y es la salida. Este tipo de descripción surge en muchas aplicaciones, como se describe brevemente en la sección 2.2; la dinámica de las bicicletas y el modelado de AFM son dos ejemplos específicos. Nótese que aquí hemos generalizado nuestra descripción anterior del sistema para permitir que aparezcan tanto la entrada como sus derivadas. Para determinar la función de transferencia del sistema (8.8), dejemos que la entrada sea u(t) = est . Como el sistema es lineal, hay una salida del sistema que también es una función exponencial y(t) = y0 est . Insertando las señales en la ecuación (8.8), encontramos (sn + a1 sn−1 + - - + an )y0 est = (b0 sm + b1 sm−1 - - - + bm )est , y la respuesta del sistema puede describirse completamente mediante dos polinomios a(s) = sn + a1 sn−1 + - - + an , b(s) = b0 sm + b1 sm−1 + - - + bm . (8.9) El polinomio a(s) es el polinomio característico de la ecuación diferencial ordinaria. Si a(s) /= 0, resulta que b(s) st y(t) = y0 est = e . (8.10) a(s) La función de transferencia del sistema (8.8) es, pues, la función racional b(s) G(s) = , (8.11) a(s) donde los polinomios a(s) y b(s) vienen dados por la ecuación (8.9). Obsérvese que la función de transferencia del sistema (8.8) puede obtenerse por inspección ya que los coeficientes de a(s) y b(s) son precisamente los coeficientes de las derivadas de u y y. El orden de la función de transferencia se define como el orden del denominador polinomio. Las ecuaciones (8.8)-(8.11) pueden utilizarse para calcular las funciones de transferencia de muchas ecuaciones diferenciales ordinarias simples. La tabla 8.1 presenta algunas de las formas más comunes. Las cinco primeras se derivan directamente del análisis anterior. Para el controlador proporcional-integralderivativo (PID), hacemos uso del hecho de que la integral de una entrada exponencial está dada por (1/s)est . La última entrada de la tabla 8.1 corresponde a un retardo de tiempo puro, en el que la salida es identica a la entrada en un momento anterior. Los retrasos temporales aparecen en muchos sistemas: ejemplos típicos son los retrasos en la propagación de los nervios, la comunicación y el transporte de masas. A 236 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA Tabla 8.1: Funciones de transferencia para algunas ecuaciones diferenciales ordinarias comunes. Tipo ODE Integrador y˙ = u Diferenciador y = u˙ Sistema de primer orden Función de transferencia 1 s s 1 y˙+ ay = u s+a 1 y¨ = u Integrador doble y¨ + s2 0 y˙+ 2y = u 1 Oscilador amortiguado 0 s2 + 0s + 2 Controlador PID y = kpu + kd u˙ + ki ki ukp + kds + Retraso temporal y(t) = u(t −) e-s I 0 s El sistema con retardo de tiempo tiene la relación entrada/salida y(t) = u(t −). (8.12) Como antes, dejemos que la entrada sea u(t) = e . Suponiendo que hay una salida de la forma y(t) = y0 est e insertando en la ecuación (8.12), obtenemos st y(t) = y0 est = es(t−) = e−s est = e−s u(t). La función de transferencia de un retardo de tiempo es, pues, G(s) = e−s , que no es una función racional pero es analítica excepto en el infinito. (Una función compleja es analítica en una región si no tiene singularidades en ella). Ejemplo 8.2 Elementos del circuito eléctrico El modelado de circuitos eléctricos es un uso común de las funciones de transferencia. Consideremos, por ejemplo, una resistencia modelada por la ley de Ohm V = IR, donde V es la tensión a través de la resistencia, I es la corriente a través de la resistencia y R es el valor de la resistencia. Si consideramos que la corriente es la entrada y la tensión la salida, la resistencia tiene la función de transferencia Z(s) = R. Z(s) también se denomina impedancia del elemento del circuito. A continuación consideramos un inductor cuya característica de entrada/salida viene dada por LdI = V. dt st Si la corriente es I(t) = e , encontramos que la tensión es V (t) = Lsest y la función de transferencia de un inductor es, por tanto, Z(s) = Ls. Un condensador se caracteriza por CdV dt = I, 237 8.2. DERIVACIÓN DE LA FUNCIÓN DE TRANSFERENCIA 106 R1 R2 4 Ga 10 nar 102 - v1 + v2 100 100 104 102 106 Frecuencia rad/s] 108 Figura 8.3: Amplificador estable basado en la retroalimentación negativa alrededor de un amplificador operacional. El diagrama de bloques de la izquierda muestra un amplificador típico con ganancia de baja frecuencia R2 /R1 . Si modelamos la respuesta dinámica del amplificador operacional como G(s) = ak/(s + a), entonces la ganancia cae en frecuencia = aR1 k/R2 , como se muestra en las curvas de ganancia de la derecha. La respuesta en frecuencia se calcula para k = 107, a = 10 rad/s, R2 =106 , y R1 = 1, 102, 104 y 106 . y un análisis similar da una función de transferencia de corriente a tensión de Z(s) = 1/(Cs). Utilizando las funciones de transferencia, los circuitos eléctricos complejos pueden analizarse de forma algebraica utilizando la impedancia compleja Z(s) de la misma forma que se utilizaría el valor de la resistencia en una red de resistencias. Ejemplo 8.3 Circuito de amplificador operacional Para ilustrar mejor el uso de las señales exponenciales, consideremos el circuito del amplificador operacional introducido en la Sección 3.3 y reproducido en la Figura 8.3a. El modelo introducido en la Sección 3.3 es una simplificación porque el comportamiento lineal del amplificador fue modelado como una ganancia constante. En realidad hay - una dinámica significativa en el amplificador, y el modelo estático vout = kv (ecuación (3.10)) debe ser por tanto sustituido por un modelo dinámico. En el rango lineal del amplificador, podemos modelar que el amplificador operacional tenga una respuesta en frecuencia en estado estacionario vout ak ==: -G(s). (8.13) v s+a Esta respuesta corresponde a un sistema de primer orden con constante de tiempo 1/a. El parámetro k se denomina ganancia de bucle abierto, y el producto ak se denomina producto ganancia-ancho de banda; los valores típicos de estos parámetros son k = 107 y ak = 107 - 109 rad/s. Dado que todos los elementos del circuito se modelan como lineales, si conducimos la entrada v1 con una señal exponencial est , entonces en estado estacionario todas las señales serán exponenciales de la misma forma. Esto nos permite manipular las ecuaciones que describen el sistema de forma algebraica. Así, podemos escribir v1 - v vy v2 = -G(s)v, (8.14) = v2 R1 R2 utilizando el hecho de que la corriente en el amplificador es muy pequeña, como hicimos en la sección 3.3. Eliminando v entre estas ecuaciones se obtiene la siguiente función de transferencia del sistema v2 v1 = -R2 G(s) -R2 ak = . R1 + R2 + R1 G(s) R1 ak + (R1 + R2 )(s + a) 238 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA La ganancia de baja frecuencia se obtiene fijando s = 0, por lo que -kR2 R2 G vv (0) = ≈- , 21 (k + 1)R1 + R2 R1 que es el resultado dado por (3.11) en la sección 3.3. El ancho de banda del circuito amplificador es R1 (k + 1) + R2 R1 k ≈a , b= a R1 + R2 R2 donde la aproximación se mantiene para≫ R2 /R1 1. La ganancia del sistema de bucle cerrado disminuye a altas frecuencias como R2 k/((R1 + R2 )). La respuesta en frecuencia de la función de transferencia se muestra en la figura 8.3b para k = 107 , a = 10 rad/s, R2 = 106 y R1 = 1, 102 , 104 y 106 . Obsérvese que en la resolución de este ejemplo, hemos evitado escribir explícitamente las señales como v = v0 est y en su lugar hemos trabajado directamente con v, asumiendo que era una exponencial. Este atajo es útil para resolver problemas de este tipo y para manipular diagramas de bloques. Una comparación con la sección 3.3, en la que hicimos el mismo cálculo cuando G(s) era una constante, muestra que el análisis de sistemas que utilizan funciones de transferencia es tan fácil como utilizar sistemas estáticos. Los cálculos son los mismos si las resistencias R1 y R2 se sustituyen por impedancias, tal y como se ha comentado en el ejemplo 8.2. � Aunque hasta ahora nos hemos centrado en las ecuaciones diferenciales ordinarias, las funciones de transferencia también pueden utilizarse para otros tipos de sistemas lineales. Lo ilustramos con un ejemplo de función de transferencia para una ecuación diferencial parcial. Ejemplo 8.4 Propagación del calor Consideremos el problema de la propagación unidimensional del calor en una varilla metálica semi-infinita. Supongamos que la entrada es la temperatura en un extremo y que la salida es la temperatura en un punto a lo largo de la varilla. Sea (x, t) la temperatura en la posición x y el tiempo t. Con una elección adecuada de las escalas de longitud y las unidades, la propagación del calor se describe mediante la ecuación diferencial parcial = , (8.15) t 2x y se puede suponer que el punto de interés tiene x = 1. La condición de contorno para la ecuación diferencial parcial es (0, t) = u(t). Para determinar la función de transferencia elegimos la entrada como u(t) = est . Supongamos que existe una solución a la ecuación diferencial parcial de la forma (x, t) = (x)est e insertarla en la ecuación (8.15) para obtener s(x) = d2 dx2 , con la condición de contorno (0) = 1. Esta ecuación diferencial ordinaria (con inde- 239 8.2. DERIVACIÓN DE LA FUNCIÓN DE TRANSFERENCIA variable colgante x) tiene la solución (x) = Aex √s √s + Be−x . Si se cumplen las condiciones de contorno se obtiene A = 0 y B = 1, por lo que la solución es y(t) = (1, t) = (1)est = e− √se st = e− √su (t). √s El sistema tiene entonces la función de transferencia G(s) = e− . Como en el caso de un retardo de tiempo, la función de transferencia no es una función racional sino una función analítica. Ganancias, polos y ceros La función de transferencia tiene muchas interpretaciones útiles y las características de una función de transferencia suelen asociarse con propiedades importantes del sistema. Tres de las características más importantes son la ganancia y la ubicación de los polos y los ceros. La ganancia de frecuencia cero de un sistema viene dada por la magnitud de la función de transferencia en s = 0. Representa la relación del valor de estado estacionario de la salida con respecto a una entrada escalonada (que puede representarse como u = est con s = 0). Para un sistema de espacio de estado, calculamos la ganancia de frecuencia cero en la ecuación (5.22): G(0) = D -CA−1 B. Para un sistema escrito como una ecuación diferencial lineal dn y dm u dn-1y dm-1u + a1 + - - + an y = b0 + b1 + - - + bm u, dtn dtn-1 dtm dtm-1 si suponemos que la entrada y la salida del sistema son constantes y0 y u0 , entonces encontramos que an y0 = bm u0 . Por lo tanto la ganancia de frecuencia cero es y0 bm G(0) = = . (8.16) u0 an A continuación, consideremos un sistema lineal con la función de transferencia racional b(s) G(s) = . a(s) Las raíces del polinomio a(s) se llaman polos del sistema, y las raíces de b(s) se llaman ceros del sistema. Si p es un polo, resulta que y(t) = ept es una solución de la ecuación (8.8) con u = 0 (la solución homogénea). Un polo p corresponde a un modo del sistema con la correspondiente solución modal ept . El El movimiento no forzado del sistema tras una excitación arbitraria es una suma ponderada de modos. Los ceros tienen una interpretación diferente. Dado que la salida exponencial pura que corresponde a la entrada u(t) = e/st con a(s) = 0 es G(s)est , se deduce que la salida exponencial pura es cero si b(s) = 0. Los ceros de la función de transferencia bloquean así la transmisión de las señales exponenciales correspondientes. 240 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA Para un sistema de espacio de estados con función de transferencia G(s) = 1 − C(sI A) B + D, los polos de la función de transferencia son los valores propios de la matriz A en el modelo de espacio de estados. Una forma fácil de ver esto es notar que el valor de G(s) es ilimitado cuando s es un valor propio de un sistema ya que este es precisamente el conjunto- de puntos donde el- polinomio característico (s) = det(sI A) = 0 (y por lo tanto sI A es no invertible). De ello se desprende que los polos de un sistema de espacio de estados dependen únicamente de la matriz A, que representa la dinámica intrínseca del sistema. Decimos que una función de transferencia es estable si todos sus polos tienen parte real negativa. Para encontrar los ceros de un sistema de espacio de estados, observamos que los ceros son números complejos s tales que la entrada u(t) = u e0st da una salida cero. Insertando la respuesta exponencial pura x(t) = x e0st e y(t) = 0 en la ecuación (8.2) se obtiene sest x0 = Ax0 est + Bu0 est que puede escribirse como A- sI C 0 = Cest x0 + Dest u0 , Bx0est =0. Du0 Esta ecuación tiene una solución con x no cero0 , u0 sólo si la matriz de la izquierda no tiene rango completo. Los ceros son, pues, los valores s tales que la matriz A- sI (8.17) B C D pierde el rango. Dado que los ceros dependen de A, B, C y D, dependen, por tanto, de cómo se acoplen las entradas y salidas a los estados. Obsérvese, en particular, que si la matriz B tiene rango completo de filas, entonces la matriz de la ecuación (8.17) tiene n filas linealmente independientes para todos los valores de s. Del mismo modo, hay n columnas linealmente independientes si la matriz C tiene rango completo de columnas. Esto implica que los sistemas en los que la matriz B o C es cuadrada y de rango completo no tienen ceros. En particular, significa que un sistema no tiene ceros si está totalmente actuado (cada estado puede ser controlado independientemente) o si se mide el estado completo. Una forma conveniente de ver los polos y los ceros de una función de transferencia es a través de un diagrama polo-cero, como se muestra en la figura 8.4. En este diagrama, cada polo está marcado con una cruz, y cada cero con un círculo. Si hay varios polos o ceros en un lugar fijo, suelen indicarse con cruces o círculos superpuestos (u otras anotaciones). Los polos en el semiplano izquierdo corresponden a modos estables del sistema, y los polos en el semiplano derecho corresponden a modos inestables. Por tanto, llamamos polo estable a un polo situado en el semiplano izquierdo y polo inestable a un polo situado en el semiplano derecho. Una terminología similar se utiliza para los ceros, aunque los ceros no están directamente relacionados con la estabilidad o la inestabilidad del sistema. Obsérvese que la ganancia también debe darse para tener una descripción completa de la función de transferencia. Ejemplo 8.5 Sistema de equilibrio Consideremos la dinámica de un sistema de equilibrio, mostrada en la figura 8.5. La función de transferencia de un sistema de equilibrio puede derivarse directamente de la ecuación de segundo orden. 241 8.2. DERIVACIÓN DE LA FUNCIÓN DE TRANSFERENCIA So y 2 Re -6 -4 -2 2 -2 Figura 8.4: Diagrama de polos cero para una función de transferencia en 5 y 1 y - con ceros - polos -en±3 y 2 2 j. Los círculos representan las ubicaciones de los ceros, y las cruces las ubicaciones de los polos. Una caracterización completa requiere que especifiquemos también la ganancia del sistema. tiones, dadas en el ejemplo 2.1: 2 cdp d2 p d2 + - ml + ml = F, dt2 dt2 2 dt dt 2 d p d ˙ -ml + Jt - mgl + = 0. dt2 dt2 Mt Si suponemos que y ˙ son pequeños, podemos aproximar este sistema no lineal por un conjunto de ecuaciones diferenciales lineales de segundo orden, M t d2 p - ml d2 +c dp = F, dt dt2 2 dt2 d2 p d -ml + Jt + - mgl = 0. dt2 dt2 dt Si dejamos que F sea una señal exponencial, la respuesta resultante satisface Mt s2 p - mls2 + cs p = F, Jt s2 - mls2 p + s - mgl = 0, donde todas las señales son exponenciales. Las funciones de transferencia resultantes para la posición del carro y la orientación del péndulo se dan resolviendo para p y en términos de F para obtener F= HpF = mls (Mt Jt - m2l2)s3 + (Mt + cJt )s2 + ( - Mt mgl)s - mglc Jt s2 + s - mgl , (Mt Jt - m2l2)s4 + (Mt + cJt )s3 + ( - Mt mgl)s2 - mglcs , donde cada uno de los coeficientes es positivo. Los diagramas de polos cero para estas dos funciones de transferencia se muestran en la Figura 8.5 utilizando los parámetros del Ejemplo 6.7. 242 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA So y m Re 1 -4 -2 2 4 -1 l (b) Diagrama del polo cero para F F So y M Re 1 p (a) Sistema carro-pendular -4 -2 2 4 -1 (c) Diagrama del polo cero para HpF Figura 8.5: Polos y ceros de un sistema de equilibrio. El sistema de equilibrio (a) puede modelarse alrededor de su punto de equilibrio vertical mediante un sistema lineal de cuarto orden. Los polos y ceros de las funciones de transferencia F y HpF se muestran en (b) y (c), respectivamente. Si suponemos que el amortiguamiento es pequeño y fijamos c = 0 y = 0, obtenemos ml HF = , m2l2 (Mt Jt )s2 - Mt mgl J t-s2 mgl H pF = . s2 (Mt Jt - m2l2)s2 - Mt mgl Esto da polos no nulos y ceros en ) ) mglMt mgl p=± ≈ ±2.68, z=± ≈ ±2,09. m2l2 Jt M t Jt Vemos que están bastante cerca de los lugares del polo y del cero en la figura 8.5. 8.3 Diagramas de bloques y funciones de transferencia La combinación de diagramas de bloques y funciones de transferencia es una forma poderosa de representar sistemas de control. Las funciones de transferencia que relacionan diferentes señales en el sistema pueden derivarse mediante manipulaciones puramente algebraicas de las funciones de transferencia de los bloques utilizando el álgebra de los diagramas de bloques. Para mostrar cómo se puede hacer esto, comenzaremos con combinaciones simples de sistemas. Considere un sistema que es una combinación en cascada de sistemas con las funciones de transferencia G1 (s) y G2 (s), como se muestra en la Figura 8.6a. Sea la entrada del sistema u = est . La salida exponencial pura del primer bloque es la señal exponencial G1 u, que también es la entrada del segundo sistema. La salida exponencial pura de el segundo sistema es y = G2 (G1 u) = (G2 G1 )u. 243 8.3. DIAGRAMAS DE BLOQUES Y FUNCIONES DE TRANSFERENCIA G1 u G1 G2 u y y u e G1 y G2 -G2 (a) Gyu = G2G1 (b) Gyu = G1 + G2 (c) Gyu = G1 1+ G1G2 Figura 8.6: Interconexiones de sistemas lineales. Se muestran las conexiones en serie (a), en paralelo (b) y de retroalimentación (c). Las funciones de transferencia de los sistemas compuestos pueden derivarse mediante manipulaciones algebraicas asumiendo funciones exponenciales para todas las señales. La función de transferencia de la conexión en serie es, pues, G = G2 G1 , es decir, el producto de las funciones de transferencia. El orden de las funciones de transferencia individuales se debe a que colocamos la señal de entrada en el lado derecho de esta expresión, por lo tanto, primero multiplicamos por G1 y luego por G2 . Desafortunadamente, esto tiene el orden opuesto a los diagramas que usamos, donde típicamente tenemos el flujo de la señal de izquierda a derecha, por lo que hay que tener cuidado. El orden es importante si G1 o G2 es una función de transferencia vectorial, como veremos en algunos ejemplos. Consideremos a continuación una conexión paralela de sistemas con las funciones de transferencia G1 y G2 , como se muestra en la figura 8.6b. Si la entrada del sistema es u = est , la salida exponencial pura del primer sistema es y1 = G1 u y la salida del segundo sistema es y2 = G2 u. La salida exponencial pura de la conexión paralela es entonces y = G1 u + G2 u = (G1 + G2 )u, y la función de transferencia para una conexión en paralelo es G = G1 + G2 . Por último, considere una conexión de retroalimentación de sistemas con las funciones de transferencia G1 y G2 , como se muestra en la Figura 8.6c. Sea u = est la entrada al sistema, y la salida exponencial pura, y e la parte exponencial pura de la señal intermedia dada por la suma de u y la salida del segundo bloque. Escribiendo las relaciones para los diferentes bloques y la unidad de suma, encontramos y = G1 e, e = u - G2 y. La eliminación de e da como resultado G1 u. 1 + G1 2 La función de transferencia de la conexión de retroalimentación es,Gpor tanto, la siguiente G1 G= . 1 + G1 G2 Estas tres interconexiones básicas pueden servir de base para calcular las funciones de transferencia de sistemas más complicados. y = G1 (u - G2 y) =⇒ (1 + G1 G2 )y = G u1 =⇒ y= 244 d r e F(s) C(s) u CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA n P(s) y -1 Figura 8.7: Diagrama de bloques de un sistema de retroalimentación. Las entradas del sistema son la señal de referencia r, la perturbación del proceso d y el ruido de medición n. El resto de las señales del sistema pueden elegirse como posibles salidas, y las funciones de transferencia pueden utilizarse para relacionar las entradas del sistema con las otras señales etiquetadas. Funciones de transferencia del sistema de control Considere el sistema de la figura 8.7, que se dio al principio del capítulo. El sistema tiene tres bloques que representan un proceso P, un controlador de retroalimentación C y un controlador de avance F. Juntos, C y F definen la ley de control para el sistema. Hay tres señales externas: la referencia (o señal de mando) r, la perturbación de la carga d y el ruido de medición n. Un problema típico es averiguar cómo se relaciona el error e con las señales r, d y n. Para derivar las funciones de transferencia relevantes asumimos que todas las señales son señales expo- nenciales, dejamos de lado los argumentos de las señales y las funciones de transferencia y trazamos las señales alrededor del bucle. Comenzamos con la señal que nos interesa, en este caso el error de control e, dado por e = Fr - y. La señal y es la suma de n y , donde es la salida del proceso: y=n+, = P(d + u), u = Ce. Combinando estas ecuaciones se obtiene e = Fry = Fr - (n + ) = Fr - n + P(d + u)- = Fr - n + P(d + Ce) , y por lo tanto e = Fr - n - Pd - PCe. Finalmente, resolviendo esta ecuación para e se obtiene 1 F P re= nd = Ger r + Gen n + Ged d, (8.18) 1+ 1+ 1 + PC PC PC y el error es, por tanto, la suma de tres términos, que dependen de la referencia r, del ruido de medición n y de la perturbación de la carga d. Las funciones F -P -1 , Ger = Ged = , Gen = 1 (8.19) + PC 1 + PC 1+ PC son funciones de transferencia de la referencia r, el ruido n y la perturbación d al error e. 8.3. DIAGRAMAS DE BLOQUES Y FUNCIONES DE TRANSFERENCIA r F e PC y 245 r PC 1+PC F y (b) -1 (a) r PCF 1+PC y (c) Figura 8.8: Ejemplo de álgebra de diagrama de bloques. Los resultados de la multiplicación de las funciones de transferencia del proceso y del controlador (de la figura 8.7) se muestran en (a). Si se sustituye el bucle de realimentación por su función de transferencia equivalente, se obtiene (b) y, por último, si se multiplican los dos bloques restantes, se obtiene la representación de la referencia a la salida en (c). También podemos derivar las funciones de transferencia manipulando los diagramas de bloques di- rectamente, como se ilustra en la Figura 8.8. Supongamos que deseamos calcular la función de transferencia entre la referencia r y la salida y. Supongamos que deseamos calcular la función de transferencia entre la referencia r y la salida y. Comenzamos combinando los bloques del proceso y del controlador en la Figura 8.7 para obtener el diagrama de la Figura 8.8a. Ahora podemos eliminar el bucle de retroalimentación utilizando el álgebra para una interconexión de retroalimentación (Figura 8.8b) y luego utilizar la regla de interconexión en serie para obtener PCF Gyr = . (8.20) 1 + PC Manipulaciones similares pueden ser utilizadas para obtener las otras funciones de transferencia (Ejercicio 8.8). La derivación ilustra una forma eficaz de manipular las ecuaciones para obtener las relaciones entre las entradas y las salidas en un sistema de retroalimentación. La idea general es empezar con la señal de interés y trazar las señales alrededor del bucle de realimentación hasta volver a la señal con la que empezamos. Con algo de práctica, las ecuaciones (8.18) y (8.19) pueden escribirse directamente mediante la inspección del diagrama de bloques. Observe, por ejemplo, que todos los términos de la ecuación (8.19) tienen los mismos denominadores y que los numeradores son los bloques por los que se pasa cuando se va directamente de la entrada a la salida (ignorando la realimentación). Este tipo de regla se puede utilizar para calcular las funciones de transferencia por inspección, aunque para los sistemas con múltiples bucles de retroalimentación puede ser difícil calcularlos sin escribir el álgebra explícitamente. Ejemplo 8.6 Dirección del vehículo Considere el modelo linealizado para la dirección del vehículo introducido en el Ejemplo 5.12. En los Ejemplos 6.4 y 7.3 diseñamos un compensador de retroalimentación de estado y un estimador de estado para el sistema. Un diagrama de bloques para el sistema de control resultante se da en la Figura 8.9. Note que hemos dividido el estimador en dos componentes, Gxˆu (s) y Gxˆy (s), correspondiente a sus entradas u e y. El controlador puede describirse como el suma de dos funciones de transferencia (bucle abierto) u = Guy (s)y + Gur (s)r. La primera función de transferencia, Guy (s), describe el término de retroalimentación y la segunda, 246 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA Gur (s), describe el término de alimentación. Llamamos a estas funciones de transferencia de bucle abierto 247 8.3. DIAGRAMAS DE BLOQUES Y FUNCIONES DE TRANSFERENCIA r u kr K y P(s) Gxˆu Gxˆy r(t) -1 y(t) xˆ Estimado r Controlad or Figura 8.9: Diagrama de bloques de un sistema de control de la dirección. El sistema de control está diseñado para mantener la posición lateral del vehículo a lo largo de una curva de referencia (izquierda). La estructura del sistema de control se muestra a la derecha como un diagrama de bloques de funciones de transferencia. El estimador consta de dos componentes que calculan el estado estimado xˆ a partir de la combinación de la entrada u y la salida y del proceso. El estado estimado se alimenta a través de un controlador de retroalimentación de estado y se combina con una ganancia de referencia para obtener el ángulo de dirección comandado u. porque representan las relaciones entre las señales sin considerar la dinámica del proceso (por ejemplo, eliminando P(s) de la descripción del sistema). Para derivar estas funciones, calculamos las funciones de transferencia de cada bloque y luego utilizamos el álgebra del diagrama de bloques. Comenzamos con el estimador, que toma u e y como entradas y produce una estimación xˆ. La dinámica de este proceso se derivó en el ejemplo 7.3 y viene dada por dxˆ = (A - LC)xˆ+ Ly + Bu, dt -1Bu -1Ly xˆ = sI -(A - LC) + sI -(A - LC) . ".. ,. ., ".. . ., G x ˆu G x, ˆy Utilizando las expresiones para A, B, C y L del ejemplo 7.3, obtenemos s+1 l1 s + l 2 s2 + l s + l 1 2 xˆy Gxˆu s2 + ll1ss + l2 , s + −l (s) l , G (s) 2 1 2 = = s2 + l1 s + s2 + l1 s + donde l1 y l2 son las ganancias del observador y es la posición escalada del centro l2 l2 de masa de las ruedas traseras. El controlador era un compensador de retroalimentación de estado, que puede ser visto como una función de transferencia -constante, de múltiples entradas y una sola salida de la forma u = Kxˆ. Ahora podemos proceder a calcular la función de transferencia para el control global sistema. Utilizando el álgebra del diagrama de bloques, tenemos Guy(s) = -KGxˆy (s) s(k1 l1 + k2 l2 ) + k1 l2 1 + KGxˆu (s) = - s2 + s(k1 + k2 + l1 ) + k1 + l2 + k2 l1 − 2 l2 248 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA y G ur(s) = kr 1 + KGxˆu (s) = kr (s2 + l1 s + l2 ) s2 + s(k1 + k2 + l1 ) + k1 + l2 + k2 l1 − 2 l 2 , donde k1 y k2 son las ganancias de retroalimentación de estado y kr es la ganancia de referencia. Por último, calculamos la dinámica completa del bucle cerrado. Comenzamos derivando la función de transferencia para el proceso P(s). Podemos calcularla directamente a partir de la descripción del espacio de estados de la dinámica, que se dio en el ejemplo 5.12. Usando esa descripción, tenemos -1 −1 s+1 s 1= 1 0 . P(s) = Gyu (s) = C(sI - A)− B + D = 1 s s2 0 La función de transferencia para el sistema de bucle cerrado completo entre la entrada r y la salida y viene dada entonces por P(s)Gur kr (s + 1) Gyr = = . 1 - P(s)Guy (s) s2 + (k1 + k2 )s + k1 Nótese que las ganancias del observador l1 y l2 no aparecen en esta ecuación. Esto se debe a que estamos considerando el análisis de estado estacionario y, en estado estacionario, el estado estimado sigue exactamente el estado del sistema asumiendo modelos perfectos. Volveremos a este ejemplo en el capítulo 12 para estudiar la robustez de este enfoque particular. Anulaciones de polos/cero Dado que las funciones de transferencia suelen ser polinomios en s, a veces puede ocurrir que el numerador y el denominador tengan un factor común, que puede ser cancelado. A veces estas cancelaciones son simplemente simplificaciones algebraicas, pero en otras situaciones pueden enmascarar posibles fragilidades en el modelo. En particular, si una cancelación de polo/cero se produce porque los términos en bloques separados que sólo coinciden, la cancelación puede no ocurrir si uno de los sistemas está ligeramente perturbado. En algunas situaciones, esto puede dar lugar a graves diferencias entre el comportamiento esperado y el real. Para ilustrar cuándo podemos tener cancelaciones de polos/cero, consideremos el diagrama de bloques de la Figura 8.7 con F = 1 (sin compensación de avance) y C y nc(s) P dados por np(s) C(s) = , P(s) = . dc (s) dp (s) La función de transferencia de r a e viene dada entonces por 1 dc (s)dp (s) Ger (s) = = . 1 + PC dc (s)dp (s) + nc (s)np (s) Si hay factores comunes en los polinomios del numerador y del denominador, entonces estos términos pueden ser factorizados y eliminados tanto del numerador como del de- nominador. Por ejemplo, si el regulador tiene un cero en s = -a y el proceso tiene 249 8.3. DIAGRAMAS DE BLOQUES Y FUNCIONES DE TRANSFERENCIA un polo en s = -a, entonces tendremos Ger (s) = (s + a)dc (s)d′ p(s) (s + a)dc (s)d′p(s) + (s + a)n′c(s)np (s) = dc (s)d′ p(s) dc (s)d′p(s) + n′c(s)np (s) , donde n′ c(s) y d′ p(s) representan los polinomios relevantes con el término s + a fac- tado. En el caso de que a < 0 (para que el cero o polo esté en el semiplano derecho), vemos que no hay impacto en la función de transferencia Ger . Supongamos que calculamos la función de transferencia de d a e, que representa el efecto de una perturbación en el error entre la referencia y la salida. Esta función de transferencia viene dada por Gd -e (s) = dc (s)np (s) . (s + a)dc (s)d′p(s) + (s + a)n′c(s)np (s) Observe que si a < 0, entonces el polo está en el semiplano derecho y la función de transferencia Ged es inestable. Por lo tanto, aunque la función de transferencia de r a e parece estar bien (suponiendo una perfecta cancelación de polos/cero), la función de transferencia de d a e puede exhibir un comportamiento sin límites. Este comportamiento no deseado es típico de una cancelación inestable de polo/cero. Resulta que la cancelación de un polo con un cero también puede entenderse en términos de la representación del espacio de estados de los sistemas. La alcanzabilidad u observabilidad se pierde cuando hay cancelaciones de polos y ceros (Ejercicio 8.11). Una consecuencia es que la función de transferencia representa la dinámica sólo en el subespacio alcanzable y observable de un sistema (véase la sección 7.5). Ejemplo 8.7 Control de crucero La respuesta de entrada/salida del acelerador a la velocidad para el modelo linealizado para un coche tiene la función- de transferencia G(s) = b/(s a ), a < 0. Una manera simple (pero no necesariamente buena) de diseñar un controlador PI es elegir los parámetros del controlador PI de manera que el cero del controlador en s = ki /kp cancele el polo del proceso en s = a. La función de transferencia de la referencia a la velocidad es Gvr (s) = bkp /(s + bkp ), y el control el diseño es simplemente una cuestión de elegir la ganancia kp . La dinámica del sistema de bucle cerrado es de primer orden con la constante de tiempo 1/bkp . La figura 8.10 muestra el error de velocidad cuando el coche se encuentra con un aumento de la pendiente de la carretera. Una comparación con el controlador utilizado en la figura 3.3b (reproducido en curvas discontinuas) muestra que el controlador basado en la cancelación de polos/cero tiene un rendimiento muy pobre. El error de velocidad es mayor y tarda mucho tiempo en asentarse. Obsérvese que la señal de control se mantiene prácticamente constante después de t = 15 aunque el error sea grande después de ese tiempo. Para entender lo que ocurre vamos a analizar el sistema. - Los parámetros del sistema son a = 0.0101 y b = 1.32, y los parámetros del controlador son kp = 0.5 y ki = 0.0051. La constante de tiempo del lazo cerrado es 1/(bkp ) = 2,5 s, y se espera que el error se estabilice en unos 10 s (4 constantes de tiempo). Las funciones de transferencia de la pendiente de la carretera a la velocidad y al control 250 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA Ve 20 loc ida d v 19 [m /s] 18 0.6 0 10 20 Tiempo t [s] 30 Ac 0.4 ele ra 0.2 do 0 r 0 40 ki = 0,0051 ki = 0,5 10 20 30 Tiempo t [s] 40 Figura 8.10: Coche con control de crucero PI que se encuentra con una carretera en pendiente. El error de velocidad se muestra a la izquierda y el acelerador a la derecha. Los resultados con un controlador PI con kp = 0,5 y ki =- 0,0051, donde el polo del proceso s = 0,0101, se muestra con líneas sólidas, y un controlador con kp = 0,5 y ki = 0,5 se muestra con líneas discontinuas. Compárese con la figura 3.3b. las señales son Gv (s) = bgs (s - a)(s + bkp ) , Gu (s) = bkp . s + bkp Observe que el modo cancelado s = a =- 0,0101 aparece en Gv pero no en Gu . La razón por la que la señal de control permanece constante es que el controlador tiene un cero en s = 0.0101, que cancela el modo de proceso que decae lentamente. Nótese que el error divergiría si el polo cancelado fuera inestable. La lección que podemos aprender de este ejemplo es que es una mala idea intentar cancelar polos inestables o de procesos lentos. En el apartado 12.4 se ofrece un análisis más detallado de las cancelaciones de polos/cero. Bucles algebraicos Al analizar o simular un sistema descrito por un diagrama de bloques, es necesario formar las ecuaciones diferenciales que describen el sistema completo. En muchos casos, las ecuaciones pueden obtenerse combinando las ecuaciones diferenciales que describen cada subsistema y sustituyendo las variables. Este sencillo procedimiento no puede utilizarse cuando hay bucles cerrados de subsistemas que tienen todos una conexión directa entre las entradas y las salidas, lo que se conoce como bucle algebraico. Para ver lo que puede ocurrir, consideremos un sistema con dos bloques, un sistema no lineal de primer orden, dx = f (x, u), y = h(x), (8.21) dt y un controlador proporcional descrito por u = - ky. No hay término directo ya que la función h no depende de u. En ese caso podemos obtener la ecuación del sistema de lazo cerrado simplemente sustituyendo u por -ky en (8.21) para dar dx = f (x, -ky), y = h(x). dt Este procedimiento puede automatizarse fácilmente mediante una simple manipulación de fórmulas. 251 8.3. DIAGRAMAS DE BLOQUES Y FUNCIONES DE TRANSFERENCIA La situación es más complicada si hay un término directo. Si y = h(x, u), al sustituir u por -ky se obtiene dx = f (x, -ky), y = h(x, -ky). dt Para obtener una ecuación diferencial para x, hay que resolver la- ecuación algebraica y = h(x, ky) para obtener y = (x), lo que en general es una tarea complicada. Cuando hay bucles algebraicos, es necesario resolver ecuaciones algebraicas para obtener las ecuaciones diferenciales del sistema completo. Resolver los bucles algebraicos es un problema no trivial porque requiere la solución simbólica de ecuaciones algebraicas. La mayoría de los lenguajes de modelado orientados a los diagramas de bloques no pueden manejar los bucles algebraicos, y simplemente dan un diagnóstico de que tales bucles están presentes. En la era de la computación analógica, los bucles algebraicos se eliminaron introduciendo una dinámica rápida entre los bucles. Esto creó ecuaciones diferenciales con modos rápidos y lentos que son difíciles de resolver numéricamente. Los lenguajes de modelado avanzados como Modelica utilizan varios métodos sofisticados para resolver los bucles algebraicos. 8.4 La trama de Bode La respuesta en frecuencia de un sistema lineal puede calcularse a partir de su función de transferencia estableciendo s = i, que corresponde a una exponencial compleja u(t) = eit = cos(t) + i sin(t). La salida resultante tiene la forma y(t) = G(i)eit = Mei(t+) = M cos(t + ) + iM sin(t + ), donde M y son la ganancia y la fase de G: M = |G(i)|, = arctan Im G(i) . Re G(i) La fase de G también se denomina argumento de G, término que procede de la teoría de las variables complejas. De la linealidad se deduce que la respuesta a una única sinusoide (sin o cos) está amplificada por M y desfasada por . Nótese que - , por≤lo que la arctangente debe tomarse respetando los signos del numerador y del denominador. A menudo será conveniente representar la fase en grados en lugar de en radianes. Utilizaremos el notación ∠G(i) para la fase en grados y arg G(i) para la fase en radianes. Además, mientras que siempre tomamos arg G(i) para estar en- el rango ( , ], tomaremos ∠G(i) para ser continua, de modo que puede tomar valores fuera del rango de - 180◦ a 180◦ . La respuesta en frecuencia G(i) puede representarse mediante dos curvas: la curva de ganancia y la curva de fase. La curva de da G(i) en función de | ganancia | la frecuencia y la curva de fase da ∠G(i). Una forma especialmente útil de dibujar 251 8.4. LA PARCELA DE LOS BODEOS 104 3 |G(i)10 | 102 101 90 ∠ G(i 0 ) [de g] -90 10−2 Actual Aprox. 10−1 100 Frecuencia rad/s] 101 102 Figura 8.11: Diagrama de Bode de la función de transferencia C(s) = 20 + 10/s + 10s correspondiente a un controlador PID ideal. El gráfico superior es la curva de ganancia y el inferior la de fase. Las líneas discontinuas muestran las aproximaciones rectilíneas de la curva de ganancia y las correspondientes curva de fase. estas curvas es utilizar una escala logarítmica para el gráfico de ganancia y una escala logarítmica/lineal para el gráfico de fase. Este tipo de gráfico se denomina gráfico de Bode y se muestra en la Figura 8.11. Trazado e interpretación de los gráficos de Bode Parte de la popularidad de los gráficos de Bode es que son fáciles de dibujar e interpretar. Como la escala de frecuencias es logarítmica, cubren el comportamiento de un sistema lineal en un amplio rango de frecuencias. Consideremos una función de transferencia que es una función racional de la forma G(s) = Tenemo s b1 (s)b2 (s) . a1 (s)a2 (s) log|G(s)| = log|b1 (s)| + log|b2 (s)| -log|a1 (s)| -log|a2 (s)|, y, por tanto, podemos calcular la curva de ganancia simplemente sumando y restando las ganancias correspondientes a los términos del numerador y del denominador. Del mismo modo, ∠G(s) = ∠b1 (s) + ∠b2 (s) -∠a1 (s) -∠a2 (s), y, por tanto, la curva de fase puede determinarse de forma análoga. Dado que un polinomio puede escribirse como un producto de términos del tipo k, s, s + a, s2 + 0 s +2 ,0 basta con poder trazar los diagramas de Bode de estos términos. El diagrama de Bode de un sistema complejo se obtiene entonces sumando las ganancias y las fases de los términos. 252 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA 102 s-1 |G(i) 100 | 102 s-2 |G(i) 100 | 1 10-2 180 ∠ G(i 0 ) [de g] -180 10−1 1 s-1 s-2 10−1 s s2 10-2 180 ∠ G(i 0 ) [de g] -180 1 100 101 Frecuencia rad/s] s 2 s 1 100 Frecuencia rad/s] 101 Figura 8.12: Gráficos de Bode de las funciones de transferencia G(s) - - = sk para k = 2, 1, 0, 1, 2. En una escala logarítmica, la curva de ganancia es una línea recta con pendiente k. Utilizando una escala logarítmica-lineal, las curvas de fase de× las funciones de transferencia son constantes, con fase igual a 90◦ k . El término más simple en una función de transferencia es uno de la forma sk , donde k > 0 si el término aparece en el numerador y k < 0 si el término está en el denominador. La ganancia y la fase del término vienen dadas por log|G(i)| = k log, ∠G(i) = 90k. La curva de ganancia es, pues, una línea recta con pendiente k, y la curva de fase es una×constante a 90◦ k. El caso en que k = 1 corresponde a un diferenciador y tiene pendiente 1 con fase 90◦ . -El caso cuando k = 1 c o r r e s p o n d-e a u n integrador y tiene pendiente 1 con fase 90◦ . En la figura 8.12 se muestran los gráficos de Bode de las distintas potencias de k. Consideremos a continuación la función de transferencia de un sistema de primer orden, dada por G(s) = Tenemos |G(s) |= |a| |s + a| , a . s+a ∠G(s) = ∠(a) - ∠(s + a), y por lo tanto 1 log|G(i)| = log a - log(2 + a2 ) 2 ,∠G(i) = - 180 arctan . a El diagrama de Bode se muestra en la Figura 8.13a, con la magnitud normalizada por la ganancia de frecuencia cero. Tanto la curva de ganancia como la de fase pueden aproximarse 253 8.4. LA PARCELA DE LOS BODEOS 102 |G(i) | 102 Aproxi mación exacta 100 |G(i) | Aproxi mación exacta 100 10-2 10-2 0 ∠ G(i -90 ) [de -180 g] a/100 0 ∠ G(i -90 ) [de -180 g] 0 /100 a/10 a 10a Frecuencia rad/s] 100a (a) Sistema de primer orden 0 0 /10 0 Frecuencia rad/s] 0 (b) Sistema de segundo orden Figura 8.13: Diagramas de Bode para sistemas de primer y segundo orden. (a) El sistema de primer orden G(s) = a/(s + a) puede ser aproximado por curvas asintóticas (punteadas) tanto en la ganancia como en la frecuencia, con el punto de ruptura en la curva de ganancia en = a y la fase disminuyendo en 90◦. sobre un factor de 100 en frecuencia. (b) El sistema de segundo orden G(s) = 2/(s2 +2 0s+2) 0 0 tiene un pico en la frecuencia a y luego una - pendiente de 2 más allá del pico; la fase disminuye de 0◦ a 180◦. La altura del pico y la tasa de cambio de fase dependen de la relación de amortiguación ( = 0,02, 0,1, 0,2, 0,5 y 1,0 mostrados). por las siguientes líneas rectas f | ( )| ≈ ∠G(i) ≈ log G 0si < a log a -logif > a, 0si< a/10 -45 - 45( -log a) -90si > 10a. a/10 < < 10a La curva de ganancia aproximada consiste en una línea horizontal hasta la frecuencia = a, llamada punto de ruptura o frecuencia de esquina, después de la - cual la curva es una línea de pendiente 1 (en una escala log-log). La curva de fase es cero hasta la frecuencia a/10 y luego disminuye linealmente en 45◦ /década hasta la frecuencia 10a, momento en el que permanece constante en 90◦ . Obsérvese que un sistema de primer orden se comporta como una constante para las bajas frecuencias y como un integrador para las altas frecuencias; compárese con el sistema de Bode en la Figura 8.12. Por último, consideremos la función de transferencia para un sistema de segundo orden, G(s) = 2 0 s2 + 0 s + 2, 0 254 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA para lo cual tenemos log|G(i)| = 2 0 - 1 log4 + 22 (2 - 1) +4 , 0 2 180 ∠G(i) = arctan . 0 2 -2 0 La curva de ganancia tiene una asíntota con pendiente cero≪para0 . Para valores grandes de la curva de ganancia tiene una asíntota con- pendiente 2 . La mayor ganancia || ≈ Q = ≈ max G(i) 1/( ), llamada valor Q, se obtiene para0 . La fase es cero para frecuencias bajas y se aproxima a 180◦ para frecuencias grandes. Las curvas puede aproximarse con las siguientes expresiones lineales a trozos f | 0si 0 ( )| ≈ log G 2 0 - 2 si 0 , f 0si 0 ( ) ≈ ∠G -180 si 0 . El gráfico de Bode se muestra en la Figura 8.13b. Nótese que la aproximación asintótica es pobre cerca de =0 y que el diagrama de Bode depende fuertemente de cerca de esta frecuencia. Teniendo en cuenta los gráficos de Bode de las funciones básicas, podemos ahora esbozar la respuesta en frecuencia para un sistema más general. El siguiente ejemplo ilustra la función básica idea. Ejemplo 8.8 Aproximación asintótica para una función de transferencia Consideremos la función de transferencia dada por G( s) = k(s + b) a≪ b≪ .0 , (s + a)(s2 + 0 s + 2) 0 El diagrama de Bode para esta función de transferencia aparece en la Figura 8.14, con la función de transferencia completa mostrada como línea sólida y la aproximación asintótica mostrada como línea discontinua. Comenzamos con la curva de ganancia. A baja frecuencia, la magnitud viene dada por kb G(0) = . 0 Cuando llegamos a = a, comienza el efecto del polo y la ganancia disminuye con pendiente 1 . En = b, entra en juego el cero y aumentamos la pendiente en 1, dejando la asíntota con pendiente neta 0. Esta pendiente se utiliza hasta que se ve el efecto del polo de segundo orden en =0 , momento en el que la asíntota cambia a pendiente - 2. Vemos que la curva de ganancia es bastante precisa excepto en la región del pico debido al polo de segundo orden (ya que para este caso es razonablemente pequeño). La curva de fase es más complicada, ya que el efecto de la fase se extiende mucho más. El efecto del polo comienza en = a/10, momento en el que pasamos de la fase 0 a una pendiente de 45◦ /década. El cero comienza a afectar a la fase en = b/10, produciendo una sección plana en la fase. A = 10a la fase 255 8.4. LA PARCELA DE LOS BODEOS 102 Aproxi mación exacta |G(i) 0 10 | =a =b =0 10-2 0 ∠ G(i = -90 ) [de -180 g] 10-2 a/1 0 = b/10 = 10a = 10b 10-1 100 Frecuencia rad/s] 101 102 Figura 8.14: Aproximación asintótica a un gráfico de Bode. La línea delgada es el gráfico de Bode para la función de transferencia G(s) = k(s + b)/(s + a)(s2 + ≪ + 2), donde a 0s≪ 0 b 0 . Cada segmento de las curvas de ganancia y fase representa una porción separada de la aproximación, donde empieza a tener efecto un polo o un cero. Cada segmento de la aproximación es una línea recta entre estos puntos con una pendiente dada por las reglas para calcular los efectos de los polos y los ceros. contribuciones desde el extremo del polo, y nos quedamos con una pendiente de +45◦ /década (desde el cero). En la ubicación del polo ≈ de segundo orden, s 0 , obtenemos un salto de fase de 180◦ . Finalmente, en = 10b terminan las - del cero, y nos quedamos con una fase de 180 grados. contribuciones de fase Vemos que la aproximación en línea recta para la fase no es tan precisa como lo era para la curva de ganancia, pero capta las características básicas de los cambios de fase en función de la frecuencia. El diagrama de Bode ofrece una rápida visión general de un sistema. Dado que cualquier señal puede descomponerse en una suma de sinusoides, es posible visualizar el comportamiento de un sistema para diferentes rangos de frecuencia. El sistema puede verse como un filtro que puede cambiar la amplitud (y la fase) de las señales de entrada según la respuesta en frecuencia. Por ejemplo, si hay rangos de frecuencia en los que la curva de ganancia tiene una pendiente constante y la fase es cercana a cero, la acción del sistema para las señales con estas frecuencias puede interpretarse como una ganancia pura. Del mismo modo, para las frecuencias en las que la pendiente es +1 y la fase cercana a 90 ◦ , la acción del sistema puede interpretarse como un diferenciador, como se muestra en la figura 8.12. En la figura 8.15 se muestran tres tipos comunes de respuestas en frecuencia. El sistema de la figura 8.15a se denomina filtro de paso bajo porque la ganancia es constante para las frecuencias bajas y disminuye para las altas. Observe que la fase es cero para las - frecuencias bajas y 180◦ para las frecuencias altas. Los sistemas de las figuras 8.15b y c se denominan filtro pasa banda y filtro pasa alto por razones similares. Para ilustrar los diferentes comportamientos del sistema que pueden leerse en los gráficos de Bode, consideremos el filtro pasabanda de la figura 8.15b. Para frecuencias en torno a =0 , la señal pasa sin cambios en la ganancia. Sin embargo, para frecuencias bien 256 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA 100 100 100 |G(i) |G(i) |G(i) | | | 10-1 10-1 10-2 10-2 180 180 ∠ 0 G(i ) -180 0 0 0 /100 Frecuencia rad/s] G(s) = 02 s2 + 0 s + 10-2 180 ∠ 0 G(i ) -180 0 0 0 /100 Frecuencia rad/s] 2 0 s G(s) = ∠ 0 G(i ) -180 0 0 0 /100 Frecuencia rad/s] G(s) = s2 2 2 s2 + 0 s + 0 (a) Filtro de paso bajo 10-1 0 (b) Filtro pasa banda s2 + 0 s + 0 (c) Filtro de paso alto Figura 8.15: Diagramas de Bode para los filtros de paso bajo, paso banda y paso alto. Los gráficos superiores son las curvas de ganancia y los inferiores las de fase. Cada sistema pasa frecuencias en un rango diferente y atenúa las frecuencias fuera de ese rango. por debajo o muy por encima de0 , la señal se atenúa. La fase de la señal también se ve afectada por el filtro, como muestra la curva de fase. Para frecuencias inferiores a0 /100 hay un adelanto de fase de 90◦ , y para frecuencias superiores a 0 hay un retraso de fase de 90◦ . Estas acciones corresponden a la diferenciación e integración de la señal en estos rangos de frecuencia. Ejemplo 8.9 Regulación transcripcional Consideremos un circuito genético formado por un solo gen. Queremos estudiar la respuesta de la concentración de proteínas a las fluctuaciones de la dinámica del ARNm. Consideramos dos casos: un promotor constitutivo (sin regulación) y la autorrepresión (retroalimentación negativa), ilustrados en la Figura 8.16. La dinámica del sistema viene dada por dm dp = (p) − - v, = m − p, dt dt donde v es un término de perturbación que afecta a la transcripción del ARNm. Para el caso de no retroalimentación tenemos (p) =0 , y el sistema tiene un punto de equi- librio en me =0 /, pe =0 /(). La función de transferencia de v a p viene dada por − Gol (s) = . pv (s + )(s + ) Para el caso de la regulación negativa, tenemos (p) = 1 1 + kpn +0 , y los puntos de equilibrio satisfacen me = pe , +0 = me = pe . 1 + kpn e 257 8.4. LA PARCELA DE LOS BODEOS RNAP 100 A (a) Bucle abierto |Gpv (i)| 10-1 RNAP A bucle abierto de retroalimentación negativa 10-3 10-2 Frecuencia rad/s] 10-2 10-4 (c) Respuesta en frecuencia (b) Comentarios negativos Figura 8.16: Atenuación del ruido en un circuito genético. El sistema de bucle abierto (a) consiste en un promotor constitutivo, mientras que el circuito de bucle cerrado (b) está autorregulado con retroalimentación negativa (represor). La respuesta en frecuencia de cada circuito se muestra en (c). La función de transferencia resultante viene dada por , n−1 = 1 kp e . G (s) = pv 2 (s + )(s + ) + (1 + kpn) e La figura 8.16c muestra la respuesta en frecuencia de los dos circuitos. Vemos que el circuito de realimentación atenúa la respuesta del sistema a las perturbaciones con contenido de baja frecuencia, pero amplifica ligeramente las perturbaciones a alta frecuencia (en comparación con el sistema de bucle abierto). Observe que estas curvas son muy similares a las curvas de respuesta en frecuencia del amplificador de operación mostradas en la Figura 8.3b. cl Funciones de transferencia de los experimentos La función de transferencia de un sistema proporciona un resumen de la respuesta de entrada/salida y es muy útil para el análisis y el diseño. Sin embargo, el modelado a partir de los primeros principios puede ser difícil y llevar mucho tiempo. Afortunadamente, a menudo podemos construir un modelo de entrada/salida para una aplicación determinada midiendo directamente la respuesta en frecuencia y ajustando una función de transferencia a la misma. Para ello, perturbamos la entrada del sistema con una señal sinusoidal a una frecuencia fija. Cuando se alcanza el estado estacionario, la relación de amplitud y el desfase dan la respuesta en frecuencia para la frecuencia de excitación. La respuesta en frecuencia completa se obtiene barriendo sobre un rango de frecuencias. Mediante el uso de técnicas de correlación es posible determinar la respuesta en frecuencia con gran precisión, y se puede obtener una función de transferencia analítica a partir de la respuesta en frecuencia mediante el ajuste de curvas. El éxito de este enfoque ha dado lugar a instrumentos y programas informáticos que automatizan este proceso, denominados analizadores de espectro. Ilustramos el concepto básico con dos ejemplos. Ejemplo 8.10 Microscopio de fuerza atómica Para ilustrar la utilidad del análisis del espectro, consideramos la dinámica del 258 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA 102 101 |G| 100 10-1 Modelo medido 0 ∠ -90 G [de -180 g] -270 102 103 Frecuencia f [Hz] 104 Figura 8.17: Respuesta en frecuencia de un accionamiento piezoeléctrico precargado para un mi- croscopio de fuerza atómica. El diagrama de Bode muestra la respuesta de la función de transferencia medida (sólido) y la función de transferencia ajustada (punteada). microscopio de fuerza atómica, presentado en la sección 3.5. La determinación experimental de la respuesta en frecuencia es especialmente atractiva para este sistema porque su dinámica es muy rápida y, por lo tanto, los experimentos pueden realizarse rápidamente. En la figura 8.17 se muestra un ejemplo típico de respuesta en frecuencia determinada experimentalmente (línea continua). En este caso, la respuesta en frecuencia se obtuvo en menos de un segundo. La función de transferencia 4 (s2 + 11 s + 2)(s2 + 44 s + 2)e−s , G(s) = 2 2 235 1 22 2 1 4 (s2 + 22 s + 2 )(s2 + 33 s + 3 )(s2 + 55 s + 5 ) conk = fk y f1 = 2,42 kHz,1 = 0,03, f2 = 2,55 kHz,2 = 0,03, f3 = 6,45 kHz,3 = 0,042, f4 = 8,25 kHz,4 = 0,025, f5 = 9,3 kHz,5 = 0,032, = 10−4 s y k = 5, se ajustó a los datos (línea discontinua). Las frecuencias asociadas a la ze- ros se encuentran donde la curva de ganancia tiene mínimos, y las frecuencias asociadas con los polos se sitúan donde la curva de ganancia tiene máximos locales. Las relaciones de amortiguación relativas se ajustan para dar un buen ajuste a los máximos y mínimos. Cuando se obtiene un buen ajuste a la curva de ganancia, se ajusta el retardo de tiempo para dar un buen ajuste a la curva de fase. El accionamiento piezoeléctrico está precargado y en el ejercicio 3.7 se obtiene un modelo simple de su dinámica. El polo a 2,42 kHz corresponde al modo trampolín derivado en el ejercicio; las otras resonancias son modos superiores. Ejemplo 8.11 Dinámica del reflejo luminoso pupilar El ojo humano es un órgano fácilmente accesible para los experimentos. Tiene un sistema de control que ajusta la apertura de la pupila para regular la intensidad de la luz en la retina. Este sistema de control fue explorado ampliamente por Stark en la década de 1960 [Sta68]. Para determinar la dinámica, se variaba la intensidad de la luz sobre el ojo de forma sinusoidal y se medía la apertura de la pupila. Una dificultad fundamental es que el bucle cerrado 259 8.5. TRANSFORMADAS DE LAPLACE (a) Bucle cerrado (b) Bucle abierto (c) Alta ganancia Figura 8.18: Estimulación luminosa del ojo. En (a) el haz de luz es tan grande que siempre cubre toda la pupila, dando una dinámica de bucle cerrado. En (b) la luz se enfoca en un haz tan estrecho que no se ve influenciado por la apertura de la pupila, dando una dinámica de bucle abierto. En (c) el haz de luz se enfoca en el borde de la apertura de la pupila, lo que tiene el efecto de aumentar la ganancia del sistema ya que pequeños cambios en la apertura de la pupila tienen un gran efecto en la cantidad de luz que entra en el ojo. De Stark [Sta68]. es insensible a los parámetros internos del sistema, por lo que el análisis de un sistema de bucle cerrado ofrece poca información sobre las propiedades internas del sistema. Stark utilizó una ingeniosa técnica experimental que le permitió investigar tanto la dinámica de bucle abierto como la de bucle cerrado. Excitó el sistema variando la intensidad de un haz de luz enfocado en el ojo y midió el área de la pupila, como se ilustra en la figura 8.18. Utilizando un haz de luz ancho que cubre toda la pupila, la medición da la dinámica de bucle cerrado. La dinámica de bucle abierto se obtuvo utilizando un haz de luz estrecho, que es lo suficientemente pequeño como para no estar influenciado por la apertura de la pupila. En la figura 8.19 se muestra el resultado de un experimento para determinar la dinámica de bucle abierto. El ajuste de una función de transferencia a la curva de ganancia proporciona un buen ajuste para G(s) = 0,17/(1 + 0,08s)3 . Esta curva da un mal ajuste a la curva de fase como se muestra en la curva punteada de la Figura 8.19. El ajuste a la curva de fase se mejora añadiendo un retardo de tiempo, lo que deja la curva de ganancia sin cambios mientras que sustancialmente modificando la curva de fase. El ajuste final da el modelo 0.17 G(s) = e-0,2s. (1 + 0.08s)3 El diagrama de Bode de esto se muestra con curvas sólidas en la Figura 8.19. El modelado del reflejo pupilar a partir de primeros principios se discute en detalle en [KS01]. Obsérvese que, tanto para el accionamiento del AFM como para la dinámica de la pupila, no es fácil elaborar modelos adecuados a partir de los primeros principios. En la práctica, a menudo resulta fructífero utilizar una combinación de modelos analíticos e identificación experimental de los parámetros. La determinación experimental de la respuesta en frecuencia es menos atractiva para los sistemas con una dinámica lenta porque el experimento requiere mucho tiempo. 8.5 Transformadas de Laplace Las funciones de transferencia se introducen convencionalmente utilizando las transformadas de Laplace, y en esta sección derivamos la función de transferencia utilizando este formalismo. Asumimos una familiaridad básica con las transformadas de Laplace; los estudiantes que no estén familiarizados con � 260 ellas pueden CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA 261 8.5. TRANSFORMADAS DE LAPLACE 30 0.2 |G(i) 0.1 0.05 | 0.02 0.01 0 ∠ G(i -180 ) [de -360 Flujo de 20 luz (m lm 10 ) 30 Modelo medido Área de 20 la Modelo sin retardo pu pil 10 0 2 5 10 20 5 10 15 20 g] a Frecuencia rad/s] Tiempo (s) (m m2 Figura 8.19: Curvas de muestra de una respuesta en frecuencia de bucle abierto del ojo ) (izquierda) y un gráfico de Bode para la dinámica de bucle abierto (derecha). La curva sólida muestra un ajuste de los datos utilizando una función de transferencia de tercer orden con retardo de tiempo. La curva discontinua del diagrama de Bode es la fase del sistema sin retardo, lo que demuestra que el retardo es necesario para capturar correctamente la fase. (Figura redibujada a partir de los datos de Stark [Sta68]). omitir con seguridad esta sección. Una buena referencia para el material matemático de esta sección es el libro clásico de Widder [Wid41]. Tradicionalmente, las transformadas de Laplace se utilizaban para calcular las respuestas de los sistemas lineales a diferentes estímulos. Hoy en día podemos generar fácilmente las respuestas utilizando ordenadores. Sólo se necesitan algunas propiedades elementales para las aplicaciones básicas de control. Sin embargo, existe una hermosa teoría para las transformadas de Laplace que permite utilizar muchas herramientas poderosas de la teoría de funciones de una variable compleja para obtener una visión profunda del comportamiento de los sistemas. Consideremos una función f (t), f : R+ → R, que es integrable y no crece más rápido que es 0t para algún s finito0 ∈ R y t grande. La transformada de Laplace mapea f a una función F = L f : C → C de una variable compleja. Está definida por e-st f F(s) = 0 (t) dt, Re > s0 (8.22) s . La transformada tiene algunas propiedades que la hacen muy adecuada para tratar sistemas lineales. Primero observamos que la transformación es lineal porque e-st 0 L (a f + bg) (a (t) bg(t)) dt (8.23) f + = - e- g(t) dt = aL f + bL g. e-Sta f (t) dt + st 0 0 . b A continuación calculamos la transformada de Laplace de la derivada de una función. Tenemos 11 s e−st f t dt d f - e-st f ′t dt f0 sL f e-st f t L = () + () = () =- ()+ , dt 0 0 0 integración por partes. Así, donde la segunda igualdad se obtiene mediante obtenemos =a L df = sL f - f (0) = sF(s) - f (0). dt (8.24) 262 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA Esta fórmula es especialmente sencilla si las condiciones iniciales son cero, ya que se deduce que la diferenciación de una función corresponde a la multiplicación de la trans- forma por s. Como la diferenciación corresponde a la multiplicación por s, podemos esperar que la integración corresponda a la división por s. Esto es cierto, como se puede ver calculando la transformada de Laplace de una integral. Utilizando la integración por partes, obtenemos L - t f 0 - () - t e-st = 0 - t e-st =- s por lo que 0 () dt f 0 1 - e-s 1 -s e f () = f () 1 + 0 s s 0 0 - t f () d, 1 1 (8.25) = L = F (s). s s 0 f A continuación, consideremos un sistema lineal invariante en el tiempo con estado inicial cero. Hemos visto en la sección 5.3 que la relación entre la entrada u y la salida y viene dada por la integral de convolución yt -ht u ( ) ( ) ( )Tomando , donde h(t) es la respuesta al impulso0 del sistema. la transformada de = Laplace de esta expresión, tenemos L f () - - Y (s) = - e−st y t (dt = e-st h t ( - ) ( ) dt 0 0 0 - - t ) - -s(t-) = e e h(t −)u() dt -0 = 0 0 - e- u() 0 e- h(t) dt = H(s)U (s). st Así, la respuesta de entrada/salida viene dada por Y (s) = H(s)U (s), donde H, U e Y son las transformadas de Laplace de h, u e y. La interpretación teórica del sistema es que la transformada de Laplace de la salida de un sistema lineal es un producto de dos términos, la transformada de Laplace de la entrada U (s) y la transformada de Laplace de la respuesta al impulso del sistema H(s). Una interpretación matemática es que el La transformada de Laplace de una convolución es el producto de las transformadas de las funciones que se conviven. El hecho de que la fórmula Y (s) = H(s)U (s) sea mucho más sencilla que una convolución es una de las razones por las que las transformadas de Laplace se han hecho populares en ingeniería. También podemos utilizar la transformada de Laplace para derivar la función de transferencia de un sistema de espacio de estados. Consideremos, por ejemplo, un sistema lineal de espacio de estados descrito por dx = Ax + Bu, y = Cx + Du. dt Tomando las transformadas de Laplace bajo el supuesto de que todos los valores iniciales son cero da sX (s) = AX (s) + BU (s) Y (s) = CX (s) + DU (s). 263 8.5. TRANSFORMADAS DE LAPLACE La eliminación de X (s) da como resultado Y (s) = C(sI - A)−1 B + D U (s). (8.26) La función de transferencia es G(s) = C(sI - A)−1 B + D (comparar con la ecuación (8.4)). 8.6 Más información La idea de caracterizar un sistema lineal por su respuesta en estado estacionario a las sinusoides fue introducida por Fourier en su investigación sobre la conducción del calor en los sólidos [Fou07]. Mucho más tarde, fue utilizada por el ingeniero eléctrico Steinmetz, que introdujo el método para analizar los circuitos eléctricos. Las funciones de transferencia fueron introducidas mediante la transformada de Laplace por Gardner Barnes [GB42], que también las utilizó para calcular la respuesta de los sistemas lineales. La transformada de Laplace fue muy importante en la fase inicial del control porque hizo posible encontrar transitorios a través de tablas (ver, por ejemplo, [JNP47]). En combinación con los diagramas de bloques, las funciones de transferencia y las transformadas de Laplace proporcionaron poderosas técnicas para tratar con sistemas complejos. El cálculo de las respuestas basado en las transformadas de Laplace es menos importante hoy en día, cuando las respuestas de los sistemas lineales pueden generarse fácilmente utilizando ordenadores. Hay muchos libros excelentes sobre el uso de las transformadas de Laplace y las funciones de transferencia para el modelado y el análisis de sistemas lineales de entrada/salida. Los textos tradicionales sobre control como [DB04], [FPEN05] y [Oga01] son ejemplos representativos. La cancelación de polos/cero era uno de los misterios de la primera teoría de control. Está claro que los factores comunes pueden ser cancelados en una función racional, pero las cancelaciones tienen consecuencias teóricas del sistema que no fueron claramente entendidas hasta que se introdujo la descomposición de Kalman de un sistema lineal [KHN63]. En los siguientes capítulos, utilizaremos ampliamente las funciones de transferencia para analizar la estabilidad y describir la incertidumbre del modelo. Ejercicios 8.1 Sea G(s) la función de transferencia de un sistema lineal. Demuestre que si aplicamos una entrada u(t) = A sin(t), entonces la salida en estado estacionario |está dada | por y(t) = G(i) A sin(t + arg G(i)). (Sugerencia: Comience por mostrar que la parte real de un número com- plejo es una operación lineal y luego utilice este hecho). 8.2 Considere el sistema dx = ax + u. dt Calcule la respuesta exponencial del sistema y utilícela para derivar la función de transferencia de u a x. Demuestre que cuando s = a, un polo de la función de transferencia, la respuesta a la entrada exponencial u(t) = est es x(t) = eat x(0) + teat . 263 EJERCICIO S 8.3 (Péndulo invertido) En el ejemplo 2.2 se introdujo un modelo para un péndulo invertido. Despreciando el amortiguamiento y linealizando el péndulo alrededor de la posición vertical se obtiene un sistema lineal caracterizado por las matrices A= 0 mgl/Jt 1, 0 B= 0 , 1/J t C=10 , D = 0. Determina la función de transferencia del sistema. 8.4 (Soluciones correspondientes a los polos y a los ceros) Consideremos la ecuación diferencial dn y dn-1y dn-1u dn-2u + a1 + - - + an y = b1 + b2 + - - + bn u. dtn dtn-1 dtn-1 dtn-2 (a) Sea una raíz del polinomio característico sn + a1 sn−1 + - - + an = 0. Demuestre que si u(t) = 0, la ecuación diferencial tiene la solución y(t) = et . (b) Sea un cero del polinomio b(s) = b1 sn−1 + b2 sn−2 + - - + bn . Demuestre que si la entrada es u(t) = et , entonces hay una solución de la ecuación diferencial que es idénticamente cero. 8.5 (Amplificador operacional) Considere el amplificador operacional introducido en la Sección 3.3 y analizado en el Ejemplo 8.3. Se puede construir un controlador PI utilizando un amplificador operacional sustituyendo la resistencia R2 por una resistencia y un condensador en serie, como se muestra en la Figura 3.10. La función de transferencia resultante del circuito viene dada por ( , 1 kCs s + 1 \ G(s) = - R2 + Cs (k + 1)R1 C + R2 C donde k es la ganancia del amplificador óptico, R1 y R2 son las resistencias de la red de compensación y C es la capacitancia. (a) Dibuje el diagrama de Bode para el sistema bajo la suposición de≫ que k R2 > R1 . Debe etiquetar las características clave de su diagrama, incluyendo la ganancia y la fase a baja frecuencia, las pendientes de la curva de ganancia, las frecuencias a las que cambia la ganancia pendiente, etc. (b) Supongamos ahora que incluimos algo de dinámica en el amplificador, como se indica en el ejemplo 8.1. Esto implicaría sustituir la ganancia k por la función de transferencia k H(s) = . 1 + sT Calcule la función de transferencia resultante para el sistema (es decir, sustituya k por H(s)) y encuentre los polos y ceros suponiendo los siguientes valores de los parámetros R2 R1 = 100, k = 106 , R2 C = 1, T = 0.01. 264 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA (c) Dibuje el diagrama de Bode para la función de transferencia de la parte (b) utilizando aproximaciones de líneas rectas y compárelo con el diagrama exacto de la función de transferencia (utilizando MATLAB). Asegúrate de etiquetar las características importantes de tu gráfico. 8.6 (Función de transferencia para el sistema de espacio de estados) Considere el sistema de espacio de estados lineal dx = Ax + Bu, y = Cx. dt Demuestre que la función de transferencia es G(s) = donde b1 =CB, b1sn-1 + b2sn-2+- - +bn sn + a sn-1 + - - -+ a 1 n , b2 =CAB + a1 CB, . . . , bn =CAn−1 B + a1 CAn−2 B + - - - + an−1 CB y (s) = sn + a1 sn−1 + - - + an es el polinomio característico de A. � 8.7 (Descomposición de Kalman) Demuestre que la función de transferencia de un sistema depende sólo de la dinámica en el subespacio alcanzable y observable de la descomposición de Kalman. (Sugerencia: considere la representación dada por la ecuación (7.27)). 8.8 Utilizando el álgebra del diagrama de bloques, demuestre que las funciones de transferencia de d a y y n a y en la Figura 8.7 vienen dadas por P 1 Gyd = Gyn = . 1 + PC 1 + PC 8.9 (Diagrama de Bode para un cero simple) Demuestre que el diagrama de Bode para la función de transferencia G(s) = (s + a)/a puede aproximarse mediante f | 0si < a ( )| ≈ log G -log a si > a, ∠G(i) ≈ 0si< a/10 45 + 45( log a) 90if > 10a. a/10 < < 10a 8.10 (Avión de empuje vectorial) Considere la dinámica lateral de un avión de empuje vectorial como el descrito en el Ejemplo 2.9. Demuestre que la dinámica puede describirse mediante el siguiente diagrama de bloques: u1 r Js2 -mg 1 ms2 + cs x 265 EJERCICIO S Utilice este diagrama de bloques para calcular las funciones de transferencia de u1 a y x y demuestre que satisfacen r Hxu1 = Js2 - mgr . H u1 = , Js2(ms2 + cs) Js2 8.11 (Polos comunes) Considere un sistema de bucle cerrado de la forma de la � figura 8.7, con F = 1 y P y C con una cancelación de polos/cero. Demuestre que si cada sistema se escribe en forma de espacio de estados, el sistema de bucle cerrado resultante no es alcanzable ni observable. 8.12 (Control de la congestión) Consideremos el modelo de control de la congestión descrito en la sección 3.4. Sea w el tamaño de la ventana individual para un conjunto de N fuentes idénticas, q la probabilidad de que se pierda un paquete de extremo a extremo, b el número de paquetes en el búfer del enrutador y p la probabilidad de que un paquete sea abandonados por el router. Escribimos w¯ = Nw para representar el número total de paquetes que se reciben de todas las N fuentes. Demuestre que el modelo linealizado puede describirse mediante las funciones de transferencia e- f s N Gbw¯ (s) = Gw¯q (s) = , Gpb (s) = , s, f es + eqe(es + qewe) donde (we , be ) es el punto de equilibrio del sistema,e es el tiempo de ida y vuelta en estado estacionario yf es el tiempo de propagación hacia adelante. 8.13 (Péndulo invertido con control PD) Considere el sistema de péndulo 2 invertido normalizado, cuya función de transferencia está dada - por P(s) = 1/(s 1) (Ejercicio 8.3). Una ley de control proporcional-deriva para este sistema tiene la función de transferencia C(s) = kp + kd s (ver Tabla 8.1).- Supongamos que elegimos C(s) = (s 1). Calcule la dinámica de lazo cerrado y demuestre que el sistema tiene un buen seguimiento de la referencia pero no tiene buenas propiedades de rechazo a las perturbaciones. 8.14 (Suspensión del vehículo [HB90]) La amortiguación activa y pasiva se utiliza en los coches para proporcionar una conducción suave en una carretera llena de baches. En la figura siguiente se muestra un diagrama esquemático de un coche con un sistema de amortiguación. xb Cuer po F + xw Actuado r - F Rueda xr (Coche de carreras Porter Clase I conducido por Todd Cuffaro) Este modelo se denomina modelo de cuarto de coche, y el coche se aproxima con dos masas, una que representa una cuarta parte de la carrocería del coche y la otra una rueda. La página web 266 CAPÍTULO 8. FUNCIONES DE TRANSFERENCIA El actuador ejerce una fuerza F entre la rueda y el cuerpo en función de la distancia entre el cuerpo y el centro de la rueda (el espacio de traqueteo). Sean xb , xw y xr las alturas del cuerpo, de la rueda y de la carretera medidas desde sus equilibrios. Un modelo sencillo del sistema viene dado por las ecuaciones de Newton para el cuerpo y la rueda, m x¨bb = F, mw x¨w = -F + kt (xr - xw ), donde mb es la cuarta parte de la masa de la carrocería, mw es la masa efectiva de la rueda incluyendo los frenos y parte del sistema de suspensión (la masa no suspendida) y kt es la rigidez del neumático. Para un amortiguador convencional compuesto por un muelle y un amortiguador, tenemos F = k(xw xb ) + c(x˙w x˙b ). En el caso de un amortiguador activo, la fuerza F puede ser más general y también puede depender de las condiciones de conducción. La comodidad del piloto puede ser caracterizada por la función de transferencia Gax r de la altura de la carretera xr a la aceleración del cuerpo a = x¨b . Demuestre que esta función de transferencia j tiene la propiedad Gax r (t ) = kt /mb , dondet = kt /mw (la frecuencia de salto del neumático). La ecuación implica que hay limitaciones fundamentales en cuanto al confort que se puede conseguir con cualquier amortiguador. 8.15 (Amortiguador de vibraciones) La amortiguación de las vibraciones es un problema común de ingeniería. A continuación se muestra un diagrama esquemático de un amortiguador: F m1 x1 k2 c1 k1 m2 x2 La vibración perturbadora es una fuerza sinusoidal que actúa sobre la masa m1 , y el amortiguador está formado por la masa m2 y el muelle k2 . Demuestre que la función de transferencia de la fuerza perturbadora a la altura x1 de la masa m1 es m2 s2 + k2 G . x1F = m1 m2 s4 + m2 c1 s3 + (m1 k2 + m2 (k1 + k2 ))s2 + k2 c1 s + k1 k2 ¿Cómo deben elegirse la masa m2 y la rigidez k2 para eliminar una oscilación sinusoidal con frecuencia0 . (En el texto clásico de Den Hartog [DH85, pp. 8793] se ofrecen más detalles sobre los absorbedores de vibraciones). Capítulo Nueve Análisis en el dominio de la frecuencia El Sr. Black propuso un repetidor de retroalimentación negativa y demostró mediante pruebas que poseía las ventajas que había previsto para él. En particular, su ganancia era constante en un alto grado, y era lo suficientemente lineal como para que las señales espurias causadas por la interacción de los distintos canales pudieran mantenerse dentro de los límites permisibles. Para obtener los mejores resultados, el factor de retroalimentación debía ser numéricamente mucho mayor que la unidad. La posibilidad de estabilidad con un factor de retroalimentación mayor que la unidad era desconcertante. Harry Nyquist, "The Regeneration Theory", 1956 [Nyq56]. En este capítulo estudiamos cómo se puede determinar la estabilidad y la robustez de los sistemas de bucle cerrado investigando cómo se propagan las señales sinusoidales de diferentes frecuencias alrededor del bucle de realimentación. Esta técnica nos permite razonar sobre el comportamiento en lazo cerrado de un sistema a través de las propiedades en el dominio de la frecuencia de la función de transferencia en lazo abierto. El teorema de estabilidad de Nyquist es un resultado clave que proporciona una forma de analizar la estabilidad e introducir medidas de grados de estabilidad. 9.1 La función de transferencia del bucle Determinar la estabilidad de los sistemas interconectados por retroalimentación puede ser complicado porque cada sistema influye en el otro, lo que lleva a un razonamiento potencialmente circular. De hecho, como ilustra la cita de Nyquist, el comportamiento de los sistemas de retroalimentación puede ser a menudo desconcertante. Sin embargo, el uso del marco matemático de las funciones de transferencia proporciona una forma elegante de razonar sobre estos sistemas, que llamamos análisis de bucle. La idea básica del análisis de bucles es rastrear cómo se propaga una señal sinusoidal en el bucle de retroalimentación y explorar la estabilidad resultante investigando si la señal propa- gada crece o decae. Esto es fácil de hacer porque la transmisión de señales sinusoidales a través de un sistema dinámico lineal se caracteriza por la respuesta en frecuencia del sistema. El resultado clave es el teorema de estabilidad de Nyquist, que proporciona una gran cantidad de información sobre la estabilidad de un sistema. A diferencia de la demostración de la estabilidad con funciones de Lyapunov, estudiada en el capítulo 4, el criterio de Nyquist nos permite determinar algo más que si un sistema es estable o inestable. Proporciona una medida del grado de estabilidad a través de la definición de los márgenes de estabilidad. El teorema de Nyquist también indica cómo debe modificarse un sistema inestable para hacerlo estable, lo que estudiaremos en detalle en los capítulos 10-12. Considere el sistema de la figura 9.1a. La forma tradicional de determinar si el sistema de bucle cerrado es estable es investigar si el polinomio característico de bucle cerrado tiene todas sus raíces en el semiplano izquierdo. Si el proceso y el controlador tienen 268 r e C(s) u CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA P(s) y B A L(s) -1 (a) -1 (b) Figura 9.1: La función de transferencia del bucle. La estabilidad del sistema de retroalimentación (a) se puede determinar trazando señales alrededor del bucle. Dejando que L = PC represente la función de transferencia del bucle, rompemos el bucle en (b) y preguntamos si una señal inyectada en el punto A tiene la misma magnitud y fase cuando llega al punto B. funciones de transferencia racionales P(s) = np (s)/dp (s) y C(s) = nc (s)/dc (s), entonces el sistema de lazo cerrado tiene la función de transferencia PC np (s)nc (s) Gyr (s) = = 1 + PC dp (s)dc (s) + np (s)nc (s), y el polinomio característico es (s) = dp (s)dc (s) + np (s)nc (s). Para comprobar la estabilidad, basta con calcular las raíces del polinomio característico y comprobar que cada una de ellas tiene parte real negativa. Este enfoque es sencillo, pero ofrece poca orientación para el diseño: no es fácil saber cómo debe modificarse el controlador para hacer estable un sistema inestable. La idea de Nyquist era investigar las condiciones en las que pueden producirse oscilaciones en un bucle de realimentación. Para estudiar esto, introducimos la función de transferencia del bucle L(s) = P(s)C(s), que es la función de transferencia obtenida al romper el bucle de realimentación, como se muestra en la figura 9.1b. La función de transferencia del bucle es simplemente la función de transferencia de la entrada en la posición A a la salida en la posición B multiplicado por 1 (para tener en cuenta la convención habitual de retroalimentación negativa). Primero determinaremos las condiciones para tener una oscilación periódica en el bucle. Supongamos que se inyecta una sinusoide de frecuencia0 en el punto A. En estado estacionario la señal en el punto B será también una sinusoide con la frecuencia0 . Parece razonable que se pueda mantener una oscilación si la señal en B tiene la misma amplitud y fase que la señal inyectada porque entonces podemos desconectar la señal inyectada y conectar A con B. Trazando señales alrededor del bucle, encontramos que las señales en A y B son idénticas si L(0 ) = -1, (9.1) lo que proporciona una condición para mantener una oscilación. La idea clave del criterio de estabilidad de Nyquist es entender cuándo puede ocurrir esto en un entorno general. Como veremos, este argumento básico se vuelve más sutil cuando la función de transferencia del bucle tiene polos en el semiplano derecho. Ejemplo 9.1 Circuito de amplificador operacional Considere el circuito de amplificador operacional de la Figura 9.2a, donde Z1 y Z2 son las funciones de transferencia. 269 9.1. LA FUNCIÓN DE TRANSFERENCIA DEL BUCLE Z1 Z2 I v1 v v1 + v2 e Z2 Z 1 (a) Circuito amplificador Z1 Z1 + Z2 v -G(s) v2 (b) Diagrama de bloques Figura 9.2: Función de transferencia de bucle para un amplificador óptico. El circuito del amplificador de operación (a) tiene una función de transferencia nominal v2/v1 = Z2(s)/Z1(s), donde Z1 y Z2 son las impedancias de los elementos del circuito. El sistema se puede representar mediante su diagrama de bloques (b), donde ahora incluimos la dinámica del amplificador de operación G(s). La función de transferencia del bucle es L = Z1 G/(Z1 + Z2 ). de los elementos de retroalimentación de la tensión a la corriente. Hay retroalimentación porque la tensión v2 está relacionada con -la tensión v a través de la función de transferencia G que describe la dinámica del amplificador de operación y la tensión v está relacionada con la tensión v2 a través de la función de transferencia Z1 /(Z1 + Z2 ). La función de transferencia del bucle es, por tanto, la siguiente GZ1 L= . (9.2) Z1 + Z2 Suponiendo que la corriente I es cero, la corriente que atraviesa los elementos Z1 y Z2 es es la misma, lo que implica quev1 - v v - v2 . = Z1 Z2 Resolviendo para v se obtiene Z 2 v1 + Z 1 v2 Z2 v1 - Z1 Gv Z2 L v= = = v1 - Lv. Z1 G Z1 + Z2 Z1 + Z2 Dado que v2 = -Gv la relación entrada/salida del circuito se convierte en Z2 L Gv2v1 = . Z1 1 + L En la figura 9.2b se muestra un diagrama de bloques. De (9.1) se deduce que la condición para la oscilación del circuito del amplificador operacional es L( ) = Z1 (i)G(i) Z1 (i) + Z2 (i) =-1 (9.3) Uno de los poderosos conceptos incluidos en el enfoque de Nyquist para el análisis de la estabilidad es que nos permite estudiar la estabilidad del sistema de retroalimentación observando las propiedades de la función de transferencia del bucle. La ventaja de hacer esto es que es fácil ver cómo el controlador debe ser elegido para obtener una función de transferencia de bucle deseada. Por ejemplo, si cambiamos la ganancia del controlador, la función de transferencia del lazo se escalará en consecuencia. Una forma -sencilla de estabilizar un sistema inestable es entonces reducir la ganancia para evitar el punto 1. Otra forma es introducir un controlador con la propiedad de desviar la función de transferencia del bucle 270 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA So y So y r Re R Re -1 L(i) (a) Contorno D de Nyquist (b) Gráfico de Nyquist Figura 9.3: El contorno de Nyquist y el gráfico de Nyquist. El contorno de Nyquist (a) encierra el semiplano derecho, con un pequeño semicírculo alrededor de cualquier polo de L(s) en el eje imaginario (ilustrado aquí en el origen) y un arco en el infinito, representado → por R . El gráfico de Nyquist (b) es la imagen de la función de transferencia del bucle L(s) cuando s se desplaza en el sentido de las agujas del reloj. La línea continua corresponde a 0, y la línea discontinua a 0. La ganancia y la fase en la frecuencia son g = L(i) y = | | ∠L(i). La curva se genera para L(s) = 1,4e-s/(s + 1)2 . del punto crítico, como veremos en la siguiente sección. Se desarrollarán diferentes formas de hacerlo, denominadas conformación del bucle, que se analizarán en el capítulo 11. 9.2 El criterio de Nyquist En esta sección presentamos el criterio de Nyquist para determinar la estabilidad de un sistema de retroalimentación mediante el análisis de la función de transferencia del bucle. Comenzamos introduciendo una herramienta gráfica conveniente, el gráfico de Nyquist, y mostramos cómo se puede utilizar para determinar la estabilidad. El diagrama de Nyquist En el último capítulo vimos que la dinámica de un sistema lineal puede representarse mediante su respuesta en frecuencia e ilustrarse gráficamente mediante un gráfico de Bode. Para estudiar la estabilidad de un sistema, haremos uso de una representación diferente de la respuesta en frecuencia llamada gráfico de Nyquist. El gráfico de Nyquist∈ de la función de transferencia de bucle L(s) se forma trazando s C alrededor del "contorno D" de Nyquist, que consiste en del eje imaginario combinado con un arco en el infinito que conecta los puntos extremos del eje imaginario. El contorno, denotado como , ∈ se ilustra en la figura 9.3a. La imagen de L(s) cuando s atraviesa da una curva cerrada en el plano complejo y se denomina gráfico de Nyquist para L(s), como se muestra en la Figura 9.3b. Obsérvese que si la función de transferencia L(s) llega a cero a medida que s se hace grande (el caso habitual), entonces la porción del contorno "en el infinito" mapea al origen. Además, la porción del gráfico correspondiente a < 0 es la imagen especular de la porción con > 0. Hay una sutileza en el gráfico de Nyquist cuando la función de transferencia del bucle tiene polos en el eje imaginario porque la ganancia es infinita en los polos. Para resolver esto 9.2. EL CRITERIO DE NYQUIST 271 modificamos el contorno para incluir pequeñas desviaciones que eviten cualquier polo en el eje imaginario, como se ilustra en la figura 9.3a (suponiendo un polo de L(s) en el origen). La desviación consiste en un pequeño semicírculo a la derecha de la ubicación del polo del eje imaginario. La condición de oscilación dada en la ecuación (9.1) implica que el gráfico de Nyquist de la función de transferencia del bucle pase por el punto L = 1, que se denomina punto crítico. Dejemos quec represente una frecuencia en la que ∠L(c ) = 180◦ , que corresponde a la curva de Nyquist que cruza el eje real negativo. | sea estable si L(c ) < 1, lo que Intuitivamente parece razonable que el| sistema significa que el punto crítico 1 está en el lado izquierdo de la curva de Nyquist, como se indica en la figura 9.3b. Esto significa que la señal en el punto B tendrá una amplitud menor que la señal in- jectada. Esto es esencialmente cierto, pero hay varias sutilezas que requieren un análisis matemático adecuado para aclararlas. Por el momento, aplazamos los detalles y establecemos la condición de Nyquist para el caso especial en el que L(s) es una función de transferencia estable. Teorema 9.1 (Criterio de Nyquist simplificado). Sea L(s) la función de transferencia del bucle para un sistema de retroalimentación negativa (como se muestra en la figura 9.1a) y suponga que L tiene no hay polos en el semiplano derecho cerrado≥(Re s 0) excepto los polos simples en el eje imaginario. Entonces el sistema de bucle cerrado es estable si y sólo si el contorno dado por = {L(i) : - < } ⊂ C no tiene ningún círculo neto del punto crítico s = -1. El siguiente procedimiento conceptual puede utilizarse para determinar que no hay circunvalaciones. Fijar un alfiler en el punto- crítico s = 1, ortogonal al plano. Fijar una cuerda con un extremo en el punto crítico y el otro en la curva de Nyquist. Deja que el extremo de la cuerda atado a la curva de Nyquist atraviese toda la curva. No hay circunvalación si la cuerda no se enrolla en el perno cuando la curva está rodeado. Ejemplo 9.2 Sistema de tercer orden Consideremos una función de transferencia de tercer orden 1 L(s) = . (s + a)3 Para calcular el diagrama de Nyquist empezamos evaluando los puntos del eje imaginario s = i, lo que da como resultado 3 1 (a - i)3 a3 - 3a2 - 3a 2 L i ( )= = = + . ( + a)3 (a2 + 2)3 (a2 + 2)3 (a2 + 2)3 Esto se representa en el plano complejo en la Figura 9.4, con los puntos correspondientes a a > 0 dibujada como línea sólida y < 0 como línea discontinua. Obsérvese que estas curvas son imágenes especulares entre sí. Para completar el gráfico de Nyquist, calculamos L(s) para s en el arco exterior del contorno D de Nyquist. Este arco tiene la forma s = Rei para R → . Esto da 1 L(Rei ) = → 0 como R → . (Rei + a)3 272 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA Im L(i) 2 Re L(i) -1 1 3 5 -2 Figura 9.4: Diagrama de Nyquist para una función de transferencia de tercer orden. El gráfico de Nyquist consiste en un trazado de la función de transferencia del bucle L(s) = 1/(s + a)3 . La línea continua representa la porción de la función de transferencia a lo largo del eje imaginario positivo, y la línea discontinua la porción negativa. eje imaginario. El arco exterior del contorno D se sitúa en el origen. Por lo tanto, el arco exterior del contorno D se corresponde con el origen en el gráfico de Nyquist. Una alternativa al cálculo explícito del gráfico de Nyquist es determinar el gráfico a partir de la respuesta en frecuencia (gráfico de Bode), que da la curva de Nyquist para s = i, > 0. Empezamos por trazar L(i) desde = 0 hasta = , que se puede leer a partir de la magnitud y la fase de la función de transferencia. A continuación, trazamos L(Rei ) con [ , siempre es cero. Las partes restantes de la gráfica se ∈ -] y R , que casi→ pueden determinar tomando la imagen especular de la curva hasta ahora (normalmente trazada con una línea discontinua). El gráfico puede etiquetarse con flechas que corresponden a un recorrido en el sentido de las agujas del reloj alrededor del contorno D (la misma dirección en la que se trazó la primera parte de la curva). Ejemplo 9.3 Sistema de tercer orden con un polo en el origen Considere la función de transferencia k L(s) = , 2 s(s + 1) donde la ganancia tiene el valor nominal k = 1. El diagrama de Bode se muestra en la figura 9.5a. El sistema tiene un polo único en s = 0 y un- polo doble en s = 1. La curva de ganancia del diagrama de Bode tiene, por tanto, la pendiente 1 para las bajas frecuencias, -y en el doble polo s = 1 la≈pendiente cambia a 3. Para s pequeños tenemos L k/s, lo que significa que la asíntota de baja frecuencia cruza la línea de ganancia unitaria en = -k. La curva de fase comienza en 90◦ para las bajas frecuencias, es 180◦ en el punto de ruptura = 1 y es - 270◦ a altas frecuencias. Una vez obtenido el diagrama de Bode, podemos trazar el diagrama de Nyquist, que se muestra en la Figura 9.5b. - Comienza con una fase de 90 ◦ para las frecuencias bajas, cruza el eje real negativo en el punto - de ruptura = 1 donde L(i) = 0,5 y va a cero a lo largo de el eje imaginario para las frecuencias altas. El pequeño semicírculo del contorno en el origen se sitúa en un gran círculo que encierra el semiplano derecho. La curva de Nyquist no rodea el punto crítico, y se deduce del teorema simplificado de Nyquist que el bucle cerrado es estable. Como L(i) = -k/2, encontramos el 9.2. EL CRITERIO DE NYQUIST sistema 273 274 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA Im L(i) 0 |L(i)|10 10-2 Re L(i) -90 ∠L -180 (i) -270 10−1 -1 100 Frecuencia rad/s] (a) Diagrama de Bode 101 (b) Diagrama de Nyquist Figura 9.5: Trazado de los gráficos de Nyquist y Bode. La función de transferencia del bucle es L(s) = 1/(s(s + 1)2 ). El semicírculo grande es el mapa del semicírculo pequeño del contorno alrededor del polo en el origen. El bucle cerrado es estable porque la curva de Nyquist no rodea el punto crítico. El punto donde la fase es -180◦ está marcado con un círculo en el gráfico de Bode. se vuelve inestable si se aumenta la ganancia a k = 2 o más. El criterio de Nyquist no exige que | L(c |) < 1 para todos losc correspondientes a un cruce del eje real negativo. Más bien dice que el número de endebe ser cero, lo que permite la posibilidad de que la curva de Nyquist pueda cruzar el eje real negativo y volver a cruzar a magnitudes superiores a 1. El hecho de que fuera posible tener altas ganancias de realimentación sorprendió a los primeros diseñadores de amplificadores de realimentación, como se menciona en la cita del principio de este capítulo. Una de las ventajas del criterio de Nyquist es que nos indica cómo influye en el sistema la modificación de los parámetros del controlador. Por ejemplo, es muy fácil visualizar lo que ocurre cuando se modifica la ganancia, ya que ésta sólo escala la curva de Nyquist. Ejemplo 9.4 Control de la congestión Consideremos el sistema de control de la congestión de Internet descrito en la sección 3.4. Supongamos que tenemos N fuentes idénticas y una perturbación d que representa una fuente de datos externa, como se muestra en la Figura 9.6a. Dejamos que w represente el tamaño de la ventana individual para una fuente, q represente la probabilidad de extremo a extremo de un paquete perdido, b represente el número de paquetes en el buffer del router y p represente la probabilidad de que un paquete sea perdido por el router. Escribimos w¯ para el número total de paquetes que se reciben de todas las N fuentes. También incluimos un retardo de tiempo entre el router y los remitentes, que representa los retrasos de tiempo entre el remitente y el receptor. Para analizar la estabilidad del sistema, utilizamos las funciones de transferencia calculadas en el Ejercicio 8.12: 1 1 G̃bw̄(s) = , Gpb (s) = , s , Gwq(s) = − qe (e s + qe es + e we ) donde (we , be ) es el punto de equilibrio del sistema, N es el número de fuentes, e es el tiempo de ida y vuelta en estado estacionario yf es el tiempo de propagación hacia delante. En 275 9.2. EL CRITERIO DE NYQUIST Control de admisión Router d w¯ e-b s b G˜bw¯( s) Retra so en la cone xiónN w Gpb(s) Im L(i) p Re L(i) Retr e-f s aso del enlac q e Gwq(s) -0.5 TCP Figura 9.6: Control de la congestión en Internet. Un conjunto de N fuentes que utilizan TCP/Reno envían mensajes a través de un único router con control de admisión (izquierda). Se incluyen los retrasos de los enlaces para las direcciones de avance y retroceso. El gráfico de Nyquist para la función de transferencia del bucle se muestra a la derecha. utilizar Gb̃w¯para representar la función de transferencia con el retardo de tiempo hacia adelante eliminado ya que esto se contabiliza como un bloque separado en la Figura 9.6a. Del mismo modo, Gwq = Gw¯q /N ya que hemos sacado el multiplicador N como un bloque separado también. La función de transferencia del bucle viene dada por N L(s) = e - 1 s + e− f s qe (e s + qe we ) e-es. Utilizando el hecho de que qe e≈ 2N/w2 = 2N3 /(e c)2 y we = be /N =e c/N de la ecuación (3.22), podemos demostrar que N L(s) = 3 3e e-es. − f s 2N3( e + 2N2) e s + e Observe que hemos elegido el signo de L(s) para utilizar la misma convención de signos que en la figura 9.1b. El término exponencial que representa el retardo de tiempo da una fase significativa por encima de = 1/e , y la ganancia en la frecuencia de cruce determinará la estabilidad. Para comprobar la estabilidad, exigimos que la ganancia sea suficientemente pequeña en el cruce. Si suponemos que el polo debido a la dinámica de la cola es lo suficientemente rápido como para que la dinámica del TCP sea dominante, la ganancia en la frecuencia de crucec viene dada por c 2e c33e |L( )|c = -N = . 2 2N c3 e22N c Utilizando el criterio de Nyquist, el sistema de bucle cerrado será inestable si esta cantidad es mayor que 1. En particular, para un retardo de tiempo fijo, el sistema se volverá inestable a medida que aumente la capacidad del enlace c. Esto indica que el protocolo TCP puede no ser escalable a redes de alta capacidad, como señalan Low et al. [LPD02]. El ejercicio 9.7 proporciona algunas ideas de cómo se podría superar esto. 276 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA Im L(i) Im L(i) Re L(i) Re L(i) -200 -1 2 Figura 9.7: Curva de Nyquist para la función de transferencia s(del bucle L(s) = 3(s+6) . El )2s+1 gráfico de la derecha es una ampliación de la caja alrededor del origen del gráfico de la izquierda. La curva de Nyquist se cruza con el eje real negativo dos veces, pero no tiene circunvalaciones netas de -1. Estabilidad condicional Normalmente, encontramos que los sistemas inestables pueden estabilizarse simplemente reduciendo la ganancia del bucle. Sin embargo, hay situaciones en las que un sistema puede estabilizarse aumentando la ganancia. Este problema lo encontraron por primera vez los ingenieros eléctricos en el diseño de amplificadores de retroalimentación, que acuñaron el término estabilidad condicional. El problema fue en realidad una fuerte motivación para que Nyquist desarrollara su teoría. Lo ilustraremos con un ejemplo. Ejemplo 9.5 Sistema de tercer orden Consideremos un sistema de retroalimentación con la función de transferencia del bucle 3(s + 6)2 L(s) = . (9.4) s(s + 1)2 El gráfico de Nyquist de la función de transferencia del bucle se muestra en la Figura 9.7. Obsérvese que la curva de Nyquist cruza el eje real negativo dos veces. La primera intersección se produce en L = 12 - para = 2, y la segunda en L = 4,5 para = 3. El argumento intuitivo basado en el trazado de la señal alrededor del bucle de la Figura 9.1b es muy erróneo. que lleva en este caso. La inyección de una sinusoide con frecuencia 2 rad/s y amplitud 1 en A da, en estado estacionario, una oscilación en B que está en fase con la entrada y tiene amplitud 12. Intuitivamente, parece poco probable que el cierre del bucle dé lugar a un sistema estable. Sin embargo, a partir del criterio de estabilidad de Nyquist se deduce que el sistema es estable porque no se producen rodeos netos del punto crítico. Nótese, sin embargo, que si disminuimos la ganancia, entonces podemos obtener un encierro, lo que implica que la ganancia debe ser suficientemente grande para la estabilidad. Criterio general de Nyquist El teorema 9.1 requiere que L(s) no tenga polos en el semiplano derecho cerrado. En algunas situaciones no es así y se requiere un resultado más general. Nyquist consideró originalmente este caso general, que resumimos como un teorema. Teorema 9.2 (Teorema de estabilidad de Nyquist). Consideremos un sistema de bucle cerrado con la función de transferencia de bucle L(s) que tiene P polos en la región delimitada por el 277 9.2. EL CRITERIO DE NYQUIST Im L(i) m Re L(i) l -1 u (a) Péndulo invertido (b) Gráfico de Nyquist Figura 9.8: Control de DP de un péndulo invertido. (a) El sistema consiste en una masa que se equilibra aplicando una fuerza en el punto de giro. Un controlador proporcionalderivativo con La función de transferencia C(s) = k(s + 2) se utiliza para comandar u en base a . (b) Un gráfico de Nyquist de la función de transferencia del bucle para la ganancia k = 1. Hay un círculo en sentido contrario al de las agujas del reloj del punto crítico, lo que da N = -1 círculos en el sentido de las agujas del reloj. Contorno de Nyquist. Sea N el número neto de circunvalaciones de 1-en el sentido de las agujas del reloj por L(s) cuando s rodea el contorno de Nyquist en el sentido de las agujas del reloj. El sistema de bucle cerrado tiene entonces Z = N + P polos en el semiplano derecho. El criterio de Nyquist completo establece que si L(s) tiene P polos en el semiplano derecho, entonces la curva de Nyquist para L(s) debe tener P círculos | de -1 en sentido contrario a las agujas del reloj (de |modo que N = P). En particular, esto requiere que L(c ) > 1 para algúnc correspondiente a un cruce del eje real negativo. Hay que tener cuidado para obtener el signo correcto de los círculos. El contorno de Nyquist tiene que ser atravesado en el sentido de las agujas del reloj,- lo que significa que se mueve de a y N es positivo si la curva de Nyquist serpentea en el sentido de las agujas del reloj. Si la curva de Nyquist gira en sentido contrario a las agujas del reloj, entonces N / será negativo (el caso deseado si P = 0). Como en el caso del criterio de Nyquist simplificado, utilizamos pequeños semicírculos de radio r para evitar cualquier polo en el eje imaginario. Dejando → r 0, podemos utilizar el Teorema 9.2 para razonar sobre la estabilidad. Nótese que la imagen de los semicírculos pequeños genera una sección de la curva de Nyquist cuya magnitud se aproxima al infinito, lo que requiere cuidado al calcular el número de enrollamiento. Al trazar las curvas de Nyquist en el ordenador, hay que tener cuidado de que esos polos se manejen correctamente, y a menudo hay que trazar esas partes del gráfico de Nyquist a mano, teniendo cuidado de hacer el bucle correcto alrededor de los polos. Ejemplo 9.6 Péndulo invertido estabilizado La dinámica linealizada de un péndulo invertido normalizado puede representarse mediante la función - de transferencia P(s) = 1/(s2 1), donde la entrada es la aceleración del pivote y la salida es el ángulo del péndulo , como se muestra en la Figura 9.8 (Ejercicio 8.3). Nos intentan estabilizar el péndulo con un controlador proporcional-derivativo (PD) que tiene la función de transferencia C(s) = k(s + 2). La función de transferencia del bucle es L(s) = k(s + 2) . 278 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA s2 - 1 279 9.2. EL CRITERIO DE NYQUIST El gráfico de Nyquist de la función de transferencia del bucle se muestra en la Figura 9.8b. Tenemos L(0) = 2k y L() = 0. Si k > 0,5, la curva de Nyquist rodea - el punto crítico s = 1 en el sentido contrario a las agujas del reloj cuando el contorno de Nyquist se rodea en el sentido de las agujas del reloj. El - número de círculos es, pues, N = 1. Como la función de transferencia del bucle tiene un polo en el semiplano derecho (P = 1), encontramos que Z = N + P = 0 y el sistema es, por tanto, estable para k > 0,5. Si k < 0,5, no hay encierro y el bucle cerrado tendrá un polo en el semiplano derecho. Derivación del teorema de estabilidad de Nyquist � Ahora demostraremos el teorema de estabilidad de Nyquist para una función de transferencia de bucle general L(s). Esto requiere algunos resultados de la teoría de variables complejas, para los que el lector puede consultar Ahlfors [Ahl66]. Dado que se necesita cierta precisión para enunciar correctamente el criterio de Nyquist, utilizaremos un estilo más matemático de pre sentación. También seguimos la convención matemática de contar los círculos en el sentido contrario a las agujas del reloj para el resto de esta sección. El resultado clave es el siguiente teorema sobre las funciones de variables complejas. Teorema 9.3 (Principio de variación del argumento). Sea D una región cerrada en el plano complejo y sea la frontera de la región. Supongamos que la función f : C C→es analítica en D y en , excepto en un número finito de polos y ceros. Entonces el número de enrollamiento wn viene dado por - 1 1 f ′(z) wn = arg f (z) = dz = Z - P, f (z) donde es la variación neta del ángulo cuando z atraviesa el contorno en el sentido contrario a las agujas del reloj, Z es el número de ceros en D y P es el número de polos en D. Los polos y ceros de multiplicidad m se cuentan m veces. Prueba. Supongamos que z = a es un cero de multiplicidad m. En la vecindad de z = a tenemos f (z) = (z - a)m g(z), donde la función g es analítica y distinta de cero. La relación de la derivada de f con respecto a sí misma viene dada entonces por f′ (z) m g′ (z) = + , f (z) z - a g(z) y el segundo término es analítico en z = a. La función f′ / f tiene pues un único polo en z = a con el residuo m. La suma de los residuos en los ceros de la función es Z. Del mismo modo, encontramos que la suma de los residuos de los polos es -P, y por lo tanto Z-P= 1 - f′ (z) 1 dz = f (z) - d 1 log f (z) dz = log f (z), dz donde denota de nuevo la variación a lo largo del contorno . Tenemos log f (z) = log| f (z)| + i arg f (z), 280 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA y como la variación de | f (z)| alrededor de un contorno cerrado es cero se deduce que log f (z) = arg f (z), y se demuestra el teorema. Este teorema es útil para determinar el número de polos y ceros de una función de variables complejas en una región dada. Eligiendo una región cerrada apropiada D con frontera , podemos determinar la diferencia entre el número de polos y ceros mediante el cálculo del número de enrollamiento. El teorema 9.3 puede utilizarse para demostrar el teorema de estabilidad de Nyquist eligiendo como contorno de Nyquist el que se muestra en la figura 9.3a, que encierra el semiplano derecho. Para construir el contorno, con - comenzamos ≤≤ una parte del eje imaginario jR s jR y un semicírculo a la derecha con radio R. Si la función f tiene polos en el eje imaginario, introducimos pequeños semicírculos con radios r a la derecha de los polos como se muestra en → la figura. El→contorno de Nyquist se obtiene dejando que R y r s e a n 0 . Observe que tiene una orientación opuesta a la mostrada en la figura 9.3a. (La convención en ingeniería es atravesar el contorno de Nyquist en el sentido de las agujas del reloj, ya que esto corresponde a moverse hacia arriba a lo largo del eje imaginario, lo que facilita el esbozo del contorno de Nyquist a partir de un gráfico de Bode). Para ver cómo utilizamos el principio de variación del argumento para calcular la estabilización, consideremos un sistema de bucle cerrado con la función de transferencia de bucle L(s). Los polos de lazo cerrado del sistema son los ceros de la función f (s) = 1 + L(s). Para encontrar el número de ceros en el semiplano derecho, investigamos el número de bobinado de la función f (s) = 1 + L(s) a medida que s se mueve a lo largo del contorno de Nyquist en la dirección contraria a las agujas del reloj. El número de enrollamiento puede determinarse convenientemente a partir de el gráfico de Nyquist. Una aplicación directa del Teorema 9.3 da el criterio de Nyquist, teniendo cuidado de invertir la orientación. Dado que la imagen de 1 + L(s) es una versión desplazada de L(s), solemos plantear el criterio de-Nyquist como círculos netos del punto 1 por la imagen de L(s). 9.3 Márgenes de estabilidad En la práctica, no basta con que un sistema sea estable. También deben existir unos márgenes de estabilidad que describan el grado de estabilidad del sistema y su robustez ante las perturbaciones. Hay muchas formas de expresarlo, pero una de las más comunes es el uso de márgenes de ganancia y fase, inspirados en el criterio de estabilidad de Nyquist. La idea clave es que es fácil trazar la función de transferencia del bucle L(s). Un aumento de la conLa ganancia del controlador simplemente amplía el gráfico de Nyquist de forma radial. Un aumento de la fase de el controlador tuerce el gráfico de Nyquist. Por lo tanto, a partir del gráfico de Nyquist podemos elegir fácilmente la cantidad de ganancia o fase que se puede añadir sin que el sistema se vuelva inestable. Formalmente, el margen de ganancia gm de un sistema se define como la cantidad más pequeña que se puede aumentar la ganancia en bucle abierto antes de que el sistema en bucle cerrado se vuelva inestable. Para un sistema cuya fase disminuye monotónicamente en función de la frecuencia 279 9.3. MÁRGENES DE ESTABILIDAD 101 Im L(i) |L(i)| 0 10 -1/gm -1 Re L(i) ∠L -120 (i) -150 -180 sm m log10 gm 10-1 -90 10−1 (a) Gráfico de Nyquist m 100 Frecuencia rad/s] 101 (b) Gráfico de Bode Figura 9.9: Márgenes de estabilidad. El margen de ganancia gm y el margen de fase m se muestran en el gráfico de Nyquist (a) y en el gráfico de Bode (b). El margen de ganancia corresponde al menor aumento de la ganancia que crea un cerco, y el margen de fase es el menor cambio de fase que crea un cerco. El gráfico de Nyquist también muestra el margen de estabilidad sm, que es la distancia más corta al punto crítico -1. a partir de 0◦ , el margen de ganancia puede calcularse basándose en la frecuencia más pequeña en la que la fase de la función de transferencia del bucle L(s) es de 180◦ . Dejemos quepc represente esta frecuencia, llamada frecuencia de cruce de fase. Entonces el margen de ganancia del sistema viene dado por 1 gm = . (9.5) |L(pc )| Del mismo modo, el margen de fase es la cantidad de retardo de fase necesaria para alcanzar el límite de estabilidad. Seagc la frecuencia de cruce de la ganancia, la frecuencia más pequeña en la que la función de transferencia del bucle L(s) tiene magnitud unitaria. Entonces, para un sistema con ganancia monotónica decreciente, el margen de fase viene dado por m = + arg L(gc ). (9.6) Estos márgenes tienen interpretaciones geométricas sencillas en el diagrama de Nyquist de la función de transferencia del bucle, como se muestra en la Figura 9.9a, donde hemos trazado la parte de la curva correspondiente a 0. El margen de ganancia viene dado por el in- verso de la -distancia al punto más cercano entre 1 y 0 donde la función de transferencia del bucle cruza el eje real negativo. El margen de fase viene dado por el pequeñoEs el ángulo en el círculo unitario entre - 1 y la función de transferencia del bucle. Cuando la ganancia o la fase son monótonas, esta interpretación geométrica concuerda con las fórmulas anteriores. Un inconveniente de los márgenes de ganancia y de fase es que es necesario dar ambos para garantizar que la curva de Nyquist no está cerca del punto crítico. Una forma alternativa de expresar los márgenes es mediante un único número, el margen de estabilidad sm , que es la distancia más corta entre la curva de Nyquist y el punto crítico. Este número está relacionado con la atenuación de las perturbaciones, como se verá en la sección 11.3. Para muchos sistemas, los márgenes de ganancia y de fase pueden determinarse a partir del 280 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA 101 Im L(i) |L(i)| 10-1 Re L(i) -1 10-3 0 ∠L -90 (i) -180 -270 10−1 100 Frecuencia rad/s] 101 Figura 9.10: Márgenes de estabilidad para una función de transferencia de tercer orden. El gráfico de Nyquist de la izquierda permite determinar los márgenes de ganancia, fase y estabilidad midiendo las distancias de las características relevantes. Los márgenes de ganancia y fase también pueden leerse en el gráfico de Bode de la derecha. Gráfico de Bode de la función de transferencia del bucle. Para encontrar el margen de ganancia, primero encontramos la frecuencia de cruce de fasepc donde la fase es de 180◦ . El margen de ganancia es la inversa de la ganancia a esa frecuencia. Para determinar el margen de fase, primero definimos la frecuencia de cruce de la gananciagc , es decir, la frecuencia en la que la ganancia de la función de transferencia del bucle es 1. El margen de fase es la fase de la función de transferencia del bucle a esa frecuencia más 180◦ . La figura 9.9b ilustra cómo se encuentran los márgenes en el diagrama de Bode de la función de transferencia del bucle. Tenga en cuenta que la interpretación del gráfico de Bode de los márgenes de ganancia y de fase puede ser incorrecta si hay múltiples frecuencias en las que la ganancia es igual a 1 o la fase es igual a -180 .◦ Ejemplo 9.7 Sistema de tercer orden Considere una función de transferencia de bucle L(s) = 3/(s + 1)3 . Los gráficos de Nyquist y Bode se muestran en la Figura 9.10. Para calcular los márgenes de ganancia, fase y estabilidad, podemos utilizar el gráfico de Nyquist que se muestra en la Figura 9.10. De este modo se obtienen los siguientes valores: gm = 2,67,m = 41,7◦ , sm = 0,464. Los márgenes de ganancia y de fase también pueden determinarse a partir del diagrama de Bode. Los márgenes de ganancia y de fase son medidas clásicas de robustez que se han utilizado durante mucho tiempo en el diseño de sistemas de control. El margen de ganancia está bien definido si la curva de Nyquist interseca el eje real negativo una vez. Análogamente, el margen de fase está bien definido si la curva de Nyquist interseca el círculo unitario en un solo punto. En el capítulo 12 se presentarán otras medidas de robustez más generales. Incluso si los márgenes de ganancia y de fase son razonables, el sistema puede no ser robusto, como se ilustra en el siguiente ejemplo. Ejemplo 9.8 Buenos márgenes de ganancia y fase, pero pobres márgenes de estabilidad Consideremos un sistema con la función de transferencia de bucle 0,38(s2 + 0,1s + 0,55) L(s) = . s(s + 1)(s2 + 0,06s + 0,5) 281 9.3. MÁRGENES DE ESTABILIDAD 101 Im L(i) 1.5 |L(i)| Sa lid ay 10-1 -90 Re L( ) ∠L (i) -180 10−1 100 Frecuencia rad/s] (a) 1 0.5 0 (b) 0 50 100 Tiempo t [s] 150 (c) Figura 9.11: Sistema con buenos márgenes de ganancia y fase, pero con un margen de estabilidad pobre. Nyquist (a) y gráficos de Bode (b) de la función de transferencia del bucle y de la respuesta al escalón (c) para un sistema con buenos márgenes de ganancia y fase pero con un margen de estabilidad pobre. El gráfico de Nyquist muestra en la parte de la curva correspondiente a > 0. Un cálculo numérico da el margen de ganancia como gm = 266, y el margen de fase es de 70◦ . Estos valores indican que el sistema es robusto, pero la curva de Nyquist sigue estando cerca del punto crítico, como se muestra en la figura 9.11. El margen de estabilidad es sm = 0,27, que es muy bajo. El sistema de bucle cerrado tiene dos modos resonantes, uno con relación de amortiguación = 0,81 y el otro con = 0,014. La respuesta al escalón del sistema es muy oscilante, como se muestra en la figura 9.11c. El margen de estabilidad no se puede encontrar fácilmente a partir del gráfico de Bode de la función de transferencia del bucle. Sin embargo, hay otros gráficos de Bode que darán sm ; estos serán discutidos en el Capítulo 12. En general, es mejor utilizar el gráfico de Nyquist para comprobar la estabilidad, ya que proporciona una información más completa que el gráfico de Bode. Cuando se diseñan sistemas de retroalimentación, suele ser útil definir la robustez del sistema utilizando márgenes de ganancia, fase y estabilidad. Estas cifras nos indican cuánto puede variar el sistema respecto a nuestro modelo nominal y seguir siendo estable. Los valores reactivos de los márgenes son: margen de fasem = 30◦ -60◦ , margen de ganancia gm = 2-5 y margen de estabilidad sm = 0,5-0,8. También hay otras medidas de estabilidad, como el margen de retardo, que es el El menor retardo necesario para que el sistema sea inestable. Para las funciones de transferencia de bucle que decaen rápidamente, el margen de retardo está estrechamente relacionado con el margen de fase, pero para los sistemas en los que la curva de ganancia de la función de transferencia de bucle tiene varios picos a altas frecuencias, el margen de retardo es una medida más relevante. Ejemplo 9.9 Sistema de nanoposicionamiento para un microscopio de fuerza atómica Considere el sistema de posicionamiento horizontal de la muestra en un microscopio de fuerza atómica. El sistema tiene una dinámica oscilante, y un modelo simple es un sistema de muelle-masa con bajo amortiguamiento. La función de transferencia normalizada viene dada por P(s) = 20 2, (9.7) 282 s2 + CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA 0 s + 0 283 9.3. MÁRGENES DE ESTABILIDAD Im L(i) 100 |L(i)| Re L(i) -1 10-2 -90 ∠L -180 (i) -270 10−2 100 Frecuencia normalizada 0 102 Figura 9.12: Diagramas de Nyquist y Bode de la función de transferencia del lazo para el sistema AFM (9.7) con un controlador integral. La frecuencia en el gráfico de Bode está normalizada por a. Los parámetros son = 0,01 y ki = 0,008. donde la relación de amortiguación suele ser un número muy pequeño, por ejemplo, = 0,1. Comenzaremos con un controlador que sólo tiene acción integral. El bucle resultante la función de ki 2 0 transferencia es L(s) = , s(s2 + 0 s + 2) 0 donde ki es la ganancia del controlador. En la figura 9.12 se muestran los gráficos de Nyquist y Bode de la función de transferencia del bucle. Observe que la parte de la curva de Nyquist que - está cerca del punto crítico 1 es aproximadamente circular. A partir del diagrama de Bode de la Figura 9.12b, vemos que la frecuencia de cruce de fase espc = a, que será independiente de la ganancia ki . Evaluando la función de transferencia del bucle a esta frecuencia, tenemos L(0 ) = ki /(0 ), lo que significa que el margen de estabilidad es sm = 1 ki /(0 ). Para tener un margen de estabilidad deseado de sm la ganancia integral debe elegirse como ki = 0 (1 - sm ). La figura 9.12 muestra los gráficos de Nyquist y Bode para el sistema con margen de ganancia gm = 2,5 y margen de estabilidad sm = 0,6. La curva de ganancia en el diagrama de Bode es casi una línea recta para las frecuencias bajas y tiene un pico de resonancia a =0 . La frecuencia de cruce de la ganancia es aproximadamente igual a ki . -La fase disminuye monótonamente de 90◦ a 270◦ : es igual a 180◦ a =0 . La curva puede desplazarse verticalmente cambiando ki : el aumento de ki desplaza la curva de ganancia hacia arriba y aumenta la frecuencia de cruce de la ganancia. Como la fase es -180◦ en el pico de resonancia, es necesario que el pico no toque la línea |L(i)| = 1. 9.4 Relaciones de Bode y sistemas de fase mínima Un análisis de los gráficos de Bode revela que parece haber una relación entre la curva de ganancia y la curva de fase. Consideremos, por ejemplo, los gráficos de Bode para el diferenciador y el integrador (mostrados en la Figura 8.12). En el caso del diferenciador, la 9.4.284 RELACIONES DE BODE Y SISTEMAS DE FASE CAPÍTULO MÍNIMA 9. ANÁLISIS EN EL DOMINIO DE 283LA FRECUENCIA la pendiente es +1 y la fase es una constante radianes. Para el integrador la pendiente es 1 y la-fase . Para el sistema de primer orden G(s) = s + a, la curva de amplitud tiene la pendiente 0 para frecuencias pequeñas y la pendiente +1 para frecuencias altas, y la fase es 0 para las frecuencias bajas y para las altas. Bode investigó las relaciones entre las curvas para sistemas sin polos y ceros en el semiplano derecho. Descubrió que la fase venía dada únicamente por la forma de la curva de ganancia, y viceversa: − d log|G(i)| d log|G(i)| 1 d arg G( 0) = , (9.8) ( ) ≈2 1 d d 2 0 =0 donde f es el núcleo de ponderación 2 + f () = 1 1 1 10log −0 2 . La curva de fase es, pues, una media ponderada de la derivada de la curva de ganancia. Si la curva de ganancia tiene una pendiente constante n, la curva de fase tiene un valor constante . Las relaciones de Bode (9.8) se mantienen para sistemas que no tienen polos ni ceros en la en el semiplano derecho. Estos sistemas se denominan sistemas de fase mínima porque los sistemas con polos y ceros en el semiplano derecho tienen un mayor desfase. La distinción es importante en la práctica porque los sistemas de fase mínima son más fáciles de controlar que los sistemas con un retraso de fase mayor. A continuación, daremos algunos ejemplos de funciones de transferencia de fase no mínima. La función de transferencia de un retardo de unidades es G(s) = e−s . Esta función de transferencia | tiene| ganancia unitaria G(i) = 1, y la fase - es arg G(i) = . El sistema correlativo de fase mínima con ganancia unitaria tiene la función de transferencia G(s) = 1. Por lo tanto, el retardo de tiempo tiene un retardo de fase adicional de . Obsérvese que el desfase aumenta linealmente con la frecuencia. La figura 9.13a muestra el diagrama de Bode de la función de transferencia. (Como utilizamos una escala logarítmica para la frecuencia, la fase cae exponencialmente en el gráfico). Consideremos un sistema con la función de transferencia - G(s) = (a s )/(a + s) con a > 0, que tiene un cero s = a en el semiplano derecho. La función de | | transferencia tiene ganancia unitaria G(i) -= 1, y la fase es arg G(i) = 2 arctan(/a). El correspondiente sistema de fase mínima con ganancia unitaria tiene la función de transferencia G(s) = 1. La f i g u r a 9.13b muestra el diagrama de Bode de la función -de transferencia. Un análisis similar de la - a > 0, que tiene un polo en el función de transferencia G(s) = (s + a)/(s a) con semiplano derecho, muestra que su fase es arg G(i) = 2 arctan(a/). El gráfico de Bode se muestra en la Figura 9.13c. La presencia de polos y ceros en el semiplano derecho impone severas limitaciones al rendimiento alcanzable. Este tipo de dinámica debe evitarse rediseñando el sistema siempre que sea posible. Mientras que los polos son propiedades intrínsecas del sistema y no dependen de los sensores y actuadores, los ceros dependen de cómo se acoplen las entradas y salidas de un sistema a los estados. Por lo tanto, los ceros pueden cambiarse moviendo los sensores y actuadores o introduciendo nuevos sensores y actuadores. Los sistemas de fase no mínima son, por desgracia, bastante comunes en la práctica. 284 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA 101 101 101 |G(i) 100 | |G(i) 0 10 | |G(i) 0 10 | 10-1 0 ∠ -180 G(i ) -360 10−1 100 101 Frecuencia normalizada T (a) Tiempo de demora 10-1 0 10-1 0 ∠ -180 G(i ) -360 10−1 100 101 Frecuencia normalizada /a (b) RHP cero ∠ -180 G(i ) -360 10−1 100 101 Frecuencia normalizada /a (c) Poste RHP Figura 9.13: Diagramas de Bode de sistemas que no son de fase mínima. (a) Retardo de tiempo G(s) = e-sT , (b) sistema con un medio plano derecho (RHP) cero G(s)- = (a s)/(a + s) y (c) sistema con un polo medio plano derecho. El sistema de fase mínima correspondiente tiene la función de transferencia G(s) = 1 en todos los casos, las curvas de fase para ese sistema se muestran como líneas discontinuas. El siguiente ejemplo ofrece una interpretación teórica del sistema de la experiencia común de que es más difícil conducir en marcha atrás e ilustra algunas de las propiedades de las funciones de transferencia en términos de sus polos y ceros. Ejemplo 9.10 Dirección del vehículo La función de transferencia no normalizada del ángulo de dirección a la velocidad lateral para el modelo de vehículo simple es av0 s + v02 G(s) = , bs donde v0 es la velocidad del vehículo y a, b > 0 (véase el ejemplo 5.12). La función de transferencia tiene un cero en s = v0 /a. En conducción normal este cero está en el semiplano izquierdo, pero está en el semiplano derecho cuando se conduce en reversa, v0 < 0. La respuesta de paso unitario es 2 av0 v t 0 y(t) = b + b. Así, la velocidad lateral responde inmediatamente a una orden de dirección. En el caso de la dirección inversa v0 es negativo y la respuesta inicial es en la dirección equivocada, un comportamiento que es representativo de los sistemas de fase no mínima (llamado respuesta inversa). La figura 9.14 muestra la respuesta escalonada para la conducción hacia adelante y hacia atrás. En esta simulación hemos añadido un polo extra con la constante de tiempo T a aproximadamente para tener en cuenta la dinámica del sistema de dirección. Los parámetros son a = b = 1, T = 0,1, v0 = 1 para la conducción - hacia adelante y v0 = 1 para la conducción hacia atrás. Obsérvese que para t > t0 = a/v0 , donde t0 es el tiempo necesario para recorrer la distancia a, la respuesta escalonada para la conducción hacia atrás es la de la conducción hacia delante con el retardo t0 . La posición del cero v0 /a depende de la ubicación del sensor. En nuestro cálculo hemos supuesto que el sensor está en el centro de masa. El cero en la transferencia desaparece si el sensor está situado en la rueda trasera. La dificultad con 285 9.5. NOCIONES GENERALIZADAS DE GANANCIA Y FASE 101 5 Ve loc ida d lat era ly [m /s] Reverso hacia adelante 4 |G(i) 100 | 3 10-1 0 2 1 0 -1 0 1 2 3 4 ∠ -90 G(i ) -180 10-1 Tiempo t [s] (a) Respuesta al paso 100 Frecuencia rad/s] 101 (b) Respuesta en frecuencia Figura 9.14: Dirección del vehículo para conducir en reversa. (a) Respuestas escalonadas desde el ángulo de dirección hasta la traslación lateral para un modelo de cinemática simple cuando se conduce hacia adelante (punteado) y hacia atrás (sólido). Con la dirección de la rueda trasera, el centro de masa se mueve primero en la dirección equivocada y la respuesta global con la dirección de la rueda trasera se retrasa significativamente en comparación con la de la dirección de la rueda delantera. (b) Respuesta en frecuencia para la conducción hacia delante (discontinua) y hacia atrás (sólida). Obsérvese que las curvas de ganancia son idénticas, pero la curva de fase para la conducción en reversa tiene una fase no mínima. Así, los ceros en el semiplano derecho pueden visualizarse mediante un experimento mental en el que conducimos un coche hacia delante y hacia atrás y observamos la posición lateral a través de un agujero en el suelo del coche. 9.5 Nociones generalizadas de ganancia y fase Una idea clave en el análisis en el dominio de la frecuencia es trazar el comportamiento de las señales sinusoidales a través de un sistema. Los conceptos de ganancia y fase representados por la función de transferencia son muy intuitivos porque describen las relaciones de amplitud y fase entre la entrada y la salida. En esta sección veremos cómo extender los conceptos de ganancia y fase a sistemas más generales, incluyendo algunos sistemas no lineales. También mostraremos que existen análogos del criterio de estabilidad de Nyquist si las señales son aproximadamente sinusoidales. Ganancia del sistema Comenzamos considerando el caso de un sistema lineal estático y = Au, donde A es una matriz cuyos elementos son números complejos. La matriz no tiene que ser cuadrada. Sean las entradas y salidas vectores cuyos elementos son números complejos y utilizar la norma euclidiana J \u\ = i |2. (9.9) La norma de la salida es \y\2 = u∗ A∗ Au, � 286 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA donde denota la transposición compleja conjugada. La matriz A∗ A es simétrica y ∗ semidefinida positiva, y el lado derecho es una forma cuadrática. La raíz cuadrada de los valores propios de la matriz A∗ A son todos reales, y tenemos \y\2 ≤max (A∗ A)\u\2. La ganancia del sistema puede definirse entonces como la relación máxima entre la salida y la entrada sobre todas las entradas posibles: = max \y\ = max (A∗A). (9.10) u \u\ La raíz cuadrada de los valores propios de la matriz A∗ A se denominan valores singulares de la matriz A, y el mayor valor singular se denota (A). Para generalizar esto al caso de un sistema dinámico de entrada/salida, necesitamos pensar en las entradas y salidas no como vectores de números reales sino como vectores de señales. Para simplificar, consideremos primero el caso de las señales escalares y dejemos que el espacio de señales L2 sean funciones cuadradas-integrables con la norma )− \2 = () d. 2 0 |u| Esta definición puede generalizarse a las señales vectoriales sustituyendo el valor absoluto por la norma vectorial (9.9). Ahora podemos definir formalmente la ganancia de un sistema que toma entradas u ∈ L2 y produce salidas y ∈ L2 como = sup \y \ , u∈L2 \ N - u ∈ L 2 (9.11) donde sup es el sumo, definido como el menor número que es mayor que su argumento. La razón de utilizar el supremum es que el máximo puede no estar definido para∈u L2 . Esta definición de la ganancia del sistema es bastante general y puede utilizarse incluso para algunas clases de sistemas no lineales, aunque hay que tener cuidado con el tratamiento de las condiciones iniciales y las no linealidades globales. La norma (9.11) tiene algunas buenas propiedades en el caso de los sistemas lineales. En particular, dado un sistema lineal estable de una sola entrada y una sola salida con función de transferencia G(s), puede demostrarse que la norma del sistema viene dada por = sup|G(i)| =: \G\ . (9.12) En otras palabras, la ganancia del sistema corresponde al valor máximo de la respuesta en frecuencia. Esto corresponde a nuestra intuición de que una entrada produce la mayor salida cuando estamos en las frecuencias resonantes \ \ del sistema. G se denomina norma del infinito de la función de transferencia G(s). Esta noción de ganancia puede generalizarse al caso de múltiples entradas y salidas como Bueno. Para un sistema lineal multivariable con una matriz de función de transferencia racional real G(s) podemos definir la ganancia como = \G\ = sup (G(i)). (9.13) 287 9.5. NOCIONES GENERALIZADAS DE GANANCIA Y FASE H1 H2 Figura 9.15: Una conexión de retroalimentación de dos sistemas generales no lineales H1 y H2 . La esta- bilidad del sistema puede ser explorada usando el teorema de la pequeña ganancia. Así, podemos combinar la idea de la ganancia de una matriz con la idea de la ganancia de un sistema lineal observando el máximo valor singular sobre todas las frecuencias. Pequeña ganancia y pasividad Para los sistemas lineales se deduce del teorema de Nyquist que el bucle cerrado es estable si la ganancia de la función de transferencia del bucle es menor que 1 para todas las frecuencias. Este resultado puede extenderse a una clase mayor de sistemas utilizando el concepto de ganancia del sistema definido en la ecuación (9.11). Teorema 9.4 (Teorema de la pequeña ganancia). Consideremos el sistema de bucle cerrado mostrado en la figura 9.15, donde H1 y H2 son sistemas estables y los espacios de señal están correctamente definidos. Sean las ganancias de los sistemas H1 y H 21 y2 . Entonces el sistema de lazo cerrado es estable de entrada/salida si1 2< 1, y la ganancia del sistema de lazo cerrado es 1 = 1 − 12 . Obsérvese que si los sistemas H1 y H2 son lineales, se deduce del teorema de estabilidad de Nyquist que el bucle cerrado es estable porque si1 2< 1, la curva de Nyquist está siempre dentro del círculo unitario. El teorema de la pequeña ganancia es por tanto una extensión del teorema de estabilidad de Nyquist. Aunque nos hemos centrado en los sistemas lineales, el teorema de la pequeña ganancia también es válido para los sistemas de entrada/salida no lineales. La definición de la ganancia en la ecuación (9.11) también es válida para los sistemas no lineales, con cierto cuidado en el manejo de la condición inicial. La principal limitación del teorema de la pequeña ganancia es que no considera el desfase de las señales alrededor del bucle, por lo que puede ser muy conservador. Para definir la noción de fase requerimos que exista un producto escalar. Para funciones cuadradas-integrables se puede definir como - (u, y) = 0 u(y) ( ) . La fase entre dos señales puede definirse ahora como (u, y) = \u\y\ncos(). Los sistemas en los que la fase entre las entradas y las salidas es de 90 ◦ o menos para todas las entradas se denominan sistemas pasivos. Del teorema de estabilidad de Nyquist se deduce que un sistema lineal de bucle cerrado es estable si la fase de la función de transferencia del bucle es 288 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA So y B A L(s) Re -1/N(a) -N(-) G(i) (a) Diagrama de bloques (b) Diagrama de Nyquist Figura 9.16: Análisis de la función descriptiva. En (a) se muestra una conexión de retroalimentación entre una no linealidad estática y un sistema lineal. El sistema lineal se caracteriza por su función de transferencia L(s), que depende de la frecuencia, y la no linealidad por su función descriptiva N(a), que depende de la amplitud a de su entrada. El gráfico de Nyquist de L(i) y el gráfico del 1/N(a) se muestran en (b). La intersección de las curvas representa un posible ciclo límite. entre y . -Este resultado puede extenderse también a los sistemas no lineales. Se denomina teorema de la pasividad y está estrechamente relacionado con el teorema de la pequeña ganancia. Véase Khalil [Kha01] para una descripción más detallada. En el capítulo 12 se presentan otras aplicaciones del teorema de la pequeña ganancia y su aplicación a la estabilidad robusta. � Descripción de las funciones Para sistemas no lineales especiales como el que se muestra en la Figura 9.16a, que consiste en una conexión de retroalimentación entre un sistema lineal y una no linealidad estática, es posible obtener una generalización del criterio de estabilidad de Nyquist basada en la idea de funciones descriptivas. Siguiendo el enfoque de la condición de estabilidad de Nyquist, investigaremos las condiciones para mantener una oscilación en el sistema. Si el subsistema lineal tiene carácter de paso bajo, su salida es aproximadamente sinusoidal aunque su entrada sea muy irregular. La condición de oscilación se puede encontrar entonces explorando la propagación de una sinusoide que corresponde al primer armónico. Para llevar a cabo este análisis, tenemos que analizar cómo una señal sinusoidal se propaga a través de un sistema no lineal estático. En particular, investigamos cómo se relaciona el primer armónico de la salida de la no linealidad con su entrada (sinusoidal). Dejando que F represente la función no lineal, expandimos F(eit ) en términos de su armónico. icos: F(aeit ) = Mn(a)ei(+(a)), n=0 donde Mn (a) yn (a) representan la ganancia y la fase del enésimo armónico, que dependen de la amplitud de entrada ya que la función F es no lineal. Definimos la función descriptiva como la ganancia compleja del primer armónico: N(a) = M1 (a)ei 1(a). (9.14) 289 9.5. NOCIONES GENERALIZADAS DE GANANCIA Y FASE y 6 b E n 4 Fue ra So y 1er har. 2 c u Re 0 -2 -4 0 (a) 5 10 15 (b) 20 (c) Figura 9.17: Análisis de la función descriptiva de un relé con histéresis. La relación entrada/salida de la histéresis se muestra en (a) y la entrada con amplitud a = 2, la salida y su primer armónico se muestran en (b). Los gráficos de Nyquist de la función de transferencia L(s) = (s + 1)-4 y el negativo de la función descriptiva inversa para el relé con b = 3 y c = 1 se muestran en (c). La función también puede calcularse suponiendo que la entrada es una sinusoide y utilizando el primer término de la serie de Fourier de la salida resultante. Argumentando como lo hicimos al derivar el criterio de estabilidad de Nyquist, encontramos que una oscilación puede mantenerse si L(i)N(a) = -1. (9.15) Esta ecuación significa que si inyectamos una sinusoide en A en la figura 9.16, la misma señal aparecerá en B y se puede mantener una oscilación conectando los puntos. La ecuación (9.15) da dos condiciones para encontrar la frecuencia de la oscilación y su amplitud a: la fase debe ser 180◦ , y la magnitud debe ser la unidad. Una forma conveniente de resolver la ecuación es trazar L(i) -y 1/N(a) en el mismo diagrama, como se muestra en la figura 9.16b. El diagrama es similar al de Nyquist donde el punto crítico 1 se sustituye por la curva 1/N(a) y -a va de 0 a . Es posible definir funciones descriptivas para otros tipos de entradas que no sean si- nusoides. El análisis de la función descriptiva es un método sencillo, pero es aproximado porque asume que los armónicos superiores pueden ser despreciados. Se pueden encontrar excelentes tratamientos de las técnicas de funciones descriptivas en los textos de Atherton [Ath75] y Graham y McRuer [GM61]. Ejemplo 9.11 Relé con histéresis Considere un sistema lineal con una no linealidad que consiste en un relé con histéresis. La salida tiene una amplitud b y el relé conmuta cuando la entrada ± es c, como se muestra en la figura 9.17a. Suponiendo que la entrada es u = a sin(t), ≤ encontramos que la salida es cero si a c , y si a > c, la salida es una onda cuadrada con amplitud b que cambia en tiempos t = arcsin(c/a) + n. El primer armónico es entonces y(t) = (4b/) -sin(t ) , donde = c/a. Para a > c la función descriptiva y su inversa son ) - c2 c2 c 1 4b c 1 − −i , +i , N(a) = = 2 4b 4b a a N(a) 290 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA donde la inversa se obtiene tras sencillos cálculos. La figura 9.17b muestra la respuesta del relé a una entrada sinusoidal con el primer armónico de la salida mostrado como línea discontinua. El análisis de la función descriptiva se ilustra en la figura 9.17c, que muestra el gráfico de Nyquist de la función de transferencia L(s) = 2/(s + 1)4 (línea discontinua línea) y la función descriptiva inversa negativa de un relé con b = 1 y c = 0,5. Las curvas se cruzan para a = 1 y = 0,77 rad/s, indicando la amplitud y frecuencia para una posible oscilación si el proceso y el relé están conectados en un bucle de retroalimentación. 9.6 Más información en El artículo original de Nyquist, en el que se da su ahora famoso criterio de estabilidad, se publicó en el Bell Systems Technical Journal en 1932 [Nyq32]. Se pueden encontrar versiones más accesibles en el libro [BK64], que también incluye otros interesantes artículos sobre control. El artículo de Nyquist también se ha reimpreso en una colección del IEEE de artículos fundamentales sobre control [Bas01]. Nyquist utilizó +1 como punto crítico, pero Bode lo cambió por 1, que es ahora la notación estándar. Perspectivas interesantes sobre los primeros desarrollos Los cálculos de Nyquist se basan en su conocimiento de la propagación de señales sinusoidales a través de sistemas. Nyquist hizo un cálculo directo basado en su conocimiento de la propagación de señales sinusoidales a través de sistemas; no utilizó resultados de la teoría de funciones complejas. La idea de que se puede dar una prueba corta utilizando el principio de variación del argumento se presenta en el delicioso libro de MacColl [Mac45]. Bode hizo un amplio uso de la teoría de las funciones complejas en su libro [Bod45], que sentó las bases del análisis de la respuesta en frecuencia, donde la noción de fase mínima se trató en detalle. Una buena fuente para la teoría de las funciones complejas es el clásico de Ahlfors [Ahl66]. El análisis de la respuesta en frecuencia fue un elemento clave en la aparición de la teoría de control, tal como se describe en los primeros textos de James et al. [JNP47], Brown y Campbell [BC48] y Oldenburger [Old56], y se convirtió en una de las piedras angulares de la primera teoría de control. Los métodos de respuesta en frecuencia experimentaron un resurgimiento cuando surgió el control robusto en la década de 1980, como se discutirá en el capítulo 12. Ejercicios 9.1 (Amplificador operacional) Considere un circuito de amplificador operacional con Z1 = Z2 que da un sistema de bucle cerrado con ganancia nominalmente unitaria. Sea la función de transferencia del amplificador operacional ka1a2 G(s) = , (s + a)(s + a1 )(s + a2 ) donde a1 , a2≫a. Demuestre que la condición para la oscilación es k < a1 + a2 y calcule el margen de ganancia del sistema. Sugerencia: Suponga que a = 0. 9.2 (Microscopio de fuerza atómica) La dinámica del modo de golpeo de un microscopio de fuerza atómica está dominada por la amortiguación de las vibraciones del voladizo y el sistema que promedia las vibraciones. Modelización del cantiléver como un muelle-masa 291 EJERCICIOS con bajo amortiguamiento, encontramos que la amplitud de las vibraciones decae como- exp( ), donde es la relación de amortiguamiento y es la frecuencia natural no amortiguada del voladizo. La dinámica del voladizo puede ser modelada por la transferencia función a G(s) = , s+a donde a =0 . El proceso de promediación -puede ser modelado por la relación de entrada/salida 1 t yt u v dv () , () = t− donde el tiempo de promediación es un múltiplo n del período de la oscilación . La dinámica del escáner piezoeléctrico puede despreciarse en la primera aproximación porque suele ser mucho más rápida que a. Un modelo sencillo para el sistema completo es por lo que viene dada por la función de transferencia a(1 - e−s ) . s(s + a) Trace la curva de Nyquist del sistema y determine la ganancia de un controlador proporcional que lleve al sistema al límite de la estabilidad. P(s) = 9.3 (Conducción de calor) Un modelo sencillo para la conducción de calor en un sólido viene dado por la función de transferenciaP s ke-√s ()= . Dibuje el diagrama de Nyquist del sistema. Determine la frecuencia en la que la fase del proceso- es de 180◦ y la ganancia a esa frecuencia. Demuestre que la ganancia requerida para llevar el sistema al límite de estabilidad es k = e . 9.4 (Avión de empuje vectorial) Considere el controlador de espacio de estado � diseñado para el avión de empuje vectorial en los Ejemplos 6.8 y 7.5. El controlador consta de dos componentes: un estimador óptimo para calcular el estado del sistema a partir de la salida y un compensador de retroalimentación de estado que calcula la entrada dado el estado (estimado). Calcule la función de transferencia del lazo del sistema y determine los márgenes de ganancia, fase y estabilidad de la dinámica del lazo cerrado. 9.5 (Dirección del vehículo) Considere el modelo linealizado para la dirección del vehículo con un controlador basado en retroalimentación de estado discutido en el Ejemplo 7.4. Las funciones de transferencia para el proceso y el controlador están dadas por s+1 s(k1 l1 + k2 l2 ) + k1 l2 , C(s) = , s2 s2 + s(k1 + k2 + l1 ) + k1 + l2 + k2 l1 − 2 l2 como se calculó en el ejemplo 8.6. Sea el parámetro del proceso = 0.5 y suponga que las ganancias de retroalimentación de estado son k1 = 1 y k2 = 0.914 y que las ganancias del observador son l1 = 2.828 y l2 = 4. Calcule los márgenes de estabilidad numéricamente. P(s) = 9.6 (Márgenes de estabilidad para sistemas de segundo orden) Un proceso cuya dinámica es descrita por un integrador doble es controlado por un controlador PD ideal con la 292 CAPÍTULO 9. ANÁLISIS EN EL DOMINIO DE LA FRECUENCIA función de transferencia C(s) = kd s + kp , donde las ganancias son kd = 0 y kp0 = 2. Calcula y traza los márgenes de ganancia, fase y estabilidad en función . 9.7 (Control de la congestión en condiciones de sobrecarga) Un modelo de flujo muy simplificado de un bucle TCP en condiciones de sobrecarga viene dado por la función de transferencia del bucle L(s) = ke−s , s donde la dinámica de las colas se modela mediante un integrador, el control de la ventana TCP es un retardo de tiempo y el controlador es simplemente un controlador proporcional. Una dificultad importante es que el retardo de tiempo puede cambiar significativamente durante el funcionamiento del sistema. Demostrar que si podemos medir el retardo de tiempo, es posible elegir una ganancia que da un margen de estabilidad de sm ≥ 0,6 para todos los retrasos de tiempo . 9.8 (Fórmula de Bode) Considere la fórmula de Bode (9.8) para la relación entre ganancia y fase para una función de transferencia que tiene todas sus singularidades en el semiplano izquierdo. Trace la función de ponderación y haga una evaluación de las frecuencias en las que es válida la aproximación arg G ≈ ()d log|G|/d . 9.9 (Aproximación de Pade a un retardo de tiempo) Considere las funciones de transferencia 1 - G1 (s) = e−s , G2 (s) = e−s ≈ . (9.16) 1 + Demuestre que las propiedades de fase mínima de las funciones de transferencia son similares para frecuencias < 1/. Un retardo de tiempo largo es, por tanto, equivalente a un pequeño cero de medio plano derecho. La aproximación (9.16) se denomina aproximación de Pade' de primer orden. 9.10 (Respuesta inversa) Considere un sistema cuya respuesta de entrada/salida está modelada - por G(s) = 6( s + 1)/(s2 + 5s + 6), que tiene un cero en el semiplano derecho. Calcule la respuesta escalonada del sistema y demuestre que la salida va en la dirección equivocada inicialmente, lo que también se conoce como respuesta inversa. Compare la respuesta con un sistema de fase mínima sustituyendo el cero en s = 1 por un cero en s = -1. 9.11 (Análisis de la función descriptiva) . Considere el sistema con el diagrama de bloques que se muestra a la izquierda a continuación. y r e R(-) u P(s) y b c u -1 El bloque R es un relé con histéresis cuya respuesta de entrada/salida se muestra a la derecha y la función de transferencia del proceso es P(s) = e−s /s. Utilice el análisis de la función descriptiva para determinar la frecuencia y la amplitud de los posibles ciclos límite. Simule el sistema y compárelo con los resultados del análisis de la función descriptiva. Capítulo 10 Control PID Según una encuesta realizada a más de once mil controladores de las industrias de refinado, química y de pasta y papel, el 97% de los controladores de regulación utilizan retroalimentación PID. L. Desborough y R. Miller, 2002 [DM02]. Este capítulo trata las propiedades básicas del control proporcional-integralderivativo (PID) y los métodos para elegir los parámetros de los controladores. También se analizan los efectos de la saturación del actuador y el retardo de tiempo, dos características importantes de muchos sistemas de retroalimentación, y se describen los métodos para compensar estos efectos. Por último, discutiremos la implementación de los controladores PID como un ejemplo de cómo implementar sistemas de control de retroalimentación utilizando la computación analógica o digital. 10.1 Control básico Funciones El control PID, que se introdujo en la sección 1.5 y se ha utilizado en varios ejemplos, es con mucho la forma más común de utilizar la retroalimentación en los sistemas de ingeniería. Aparece en dispositivos sencillos y en grandes fábricas con miles de controladores. Los controladores PID aparecen de muchas formas diferentes: como controladores autónomos, como parte de sistemas de control jerárquicos y distribuidos, e incorporados en componentes integrados. La mayoría de los controladores PID no utilizan la acción derivativa, por lo que en sentido estricto deberían llamarse controladores PI; no obstante, utilizaremos PID como término genérico para esta clase de controladores. También hay una creciente evidencia de que el control PID aparece en los sistemas biológicos [YHSD00]. En la figura 10.1 se muestran diagramas de bloques de sistemas de lazo cerrado con controladores PID. La señal de control u para el sistema de la figura 10.1a se forma enteramente a partir del error e; no hay ningún término de feedforward (que correspondería a kr r en el caso de retroalimentación de estado). En la figura 10.1b se muestra una alternativa común en la que la acción proporcional y derivada no actúa sobre la referencia; las combinaciones de los esquemas se discutirán en la sección 10.5. La señal de comando r se denomina señal de referencia en los problemas de regulación, o el punto de ajuste en la literatura de control PID. La relación entrada/salida para un controlador PID ideal con retroalimentación de error es + i - t ( ) + dde = p + 1 - t ( ) + dde . dt dt Ti k e e k ke (10.1) = esp T e 0 0 La acción de control es, pues, la suma de tres términos: la retroalimentación proporcional, el término in- tegral y la acción derivativa. Por esta razón, los controladores PID se denominaron originalmente controladores de tres términos. Los parámetros del controlador son la ganancia proporcional 294 CAPÍTULO 10. CONTROL PID r ki/s r e kp u P(s) ki/s y kp kds Controlad or u P(s) y kds -1 (a) PID con retroalimentación de error -1 Controlad or (b) PID con dos grados de libertad Figura 10.1: Diagramas de bloques de sistemas de bucle cerrado con controladores PID ideales. Ambos controladores tienen una salida, la señal de control u. El controlador en (a), que se basa en la retroalimentación de errores,-tiene una entrada, el error de control e = r y . Para este controlador proporcional, integral y la acción derivativa actúa sobre el error e -= r y . El controlador de dos grados de libertad en (b) tiene dos entradas, la referencia r y la salida del proceso y. La acción integral actúa sobre el error, pero La acción proporcional y la derivada actúan sobre la salida del proceso y. kp , la ganancia integral ki y la ganancia derivativa kd . Las constantes de tiempo Ti y Td , denominadas tiempo (constante) integral y tiempo (constante) derivativa, se utilizan a veces en lugar de las ganancias integral y derivativa. El controlador (10.1) representa un controlador idealizado. Es una abstracción útil para entender el controlador PID, pero hay que hacer varias modificaciones para obtener un controlador que sea útil en la práctica. Antes de discutir estas cuestiones prácticas, desarrollaremos algunas intuiciones sobre el control PID. Comenzamos considerando la retroalimentación proporcional pura. La figura 10.2a muestra las respuestas de la salida del proceso a un paso unitario en el valor de referencia para un sistema con control proporcional puro en diferentes ajustes de ganancia. En ausencia de un término de retroalimentación, la salida nunca alcanza la referencia, y por lo tanto nos quedamos con un error de estado estacionario no nulo. Si el proceso y el controlador tienen funciones de transferencia P(s) y C(s), la función de transferencia de la referencia a la salida es PC Gyr = , (10.2) 1 + PC y por lo tanto el error de estado estacionario para un paso unitario es 1 1 - yrG (0) = . 1 + kp P(0) Para el sistema de la figura 10.2a con ganancias kp = 1, 2 y 5, el error en estado estacionario es de 0,5, 0,33 y 0,17. El error disminuye al aumentar la ganancia, pero el sistema también se vuelve más oscilante. Observe en la figura que el valor inicial de la señal de control es igual a la ganancia del regulador. Para evitar tener un error de estado estacionario, el término proporcional puede cambiarse a u(t) = kp e(t) + uff , (10.3) donde uff es un término de alimentación que se ajusta para dar el estado estacionario deseado 295 10.1. FUNCIONES BÁSICAS DE CONTROL 1.5 0 0 4 En 2 tra da 0 u -2 0 1.5 kp Sa 1 lid a y 0.5 10 1.5 ki Sa 1 lid a y 0.5 20 0 Sa 1 lid a y 0.5 0 10 20 4 kp 10 Tiempo t 20 (a) Control proporcional -2 0 0 0 10 20 10 20 4 ki En 2 tra da 0 u kd En 2 tra da 0 u 10 Tiempo t 20 (b) Control PI -2 0 kd Tiempo t (c) Control PID Figura 10.2: Respuestas a cambios en el valor de referencia para un sistema con un controlador proporcional (a), un controlador PI (b) y un controlador PID (c). El proceso tiene la función de transferencia P(s) = 1/(s + 1)3 , el controlador proporcional tiene parámetros kp = 1, 2 y 5, el El controlador PI tiene los parámetros kp = 1, ki = 0, 0,2, 0,5 y 1, y el controlador PID tiene los parámetros etros kp = 2,5, ki = 1,5 y kd = 0, 1, 2 y 4. valor. Si elegimos uff = r/P(0) = kr r, la salida será exactamente igual al valor de referencia, como en el caso del espacio de estado, siempre que no haya perturbaciones. Sin embargo, esto requiere un conocimiento exacto de la dinámica del proceso, que normalmente no está disponible. Por lo tanto, el parámetro uff , llamado reset en la literatura del PID, debe ajustarse manualmente. Como vimos en la sección 6.4, la acción integral garantiza que la salida del proceso concuerda con la referencia en el estado estacionario y proporciona una alternativa al término de avance. Como este resultado es tan importante, proporcionaremos una prueba general. Considere el controlador dado por la ecuación (10.1). Supongamos que existe un estado estacionario con u = u0 y e = e0 . Entonces se deduce de la ecuación (10.1) que u0 = kp e0 + ki e0 t, lo cual es una contradicción a menos que e0 o ki sea cero. Por lo tanto, podemos concluir que con una acción integral el error será cero si alcanza un estado estacionario. Nótese que no hemos hecho ninguna suposición sobre la linealidad del proceso o las perturbaciones. Sin embargo, hemos asumido que existe un equilibrio. El uso de la acción integral para lograr un error cero en el estado estacionario es mucho mejor que el uso de la alimentación, que requiere un conocimiento preciso de los parámetros del proceso. El efecto de la acción integral también puede entenderse a partir del análisis en el dominio de la frecuencia. La función de transferencia del controlador PID es ki C(s) = kp + + kd s. (10.4) s El controlador tiene una ganancia infinita a frecuencia cero (C(0) = ), y entonces se deduce de la ecuación (10.2) que Gyr (0) = 1, lo que implica que no hay estado estacionario 296 e CAPÍTULO 10. CONTROL PID u kp 1 1 + sTi (a) Reinicio automático e u kp -1 1+ d (b) Acción sT derivada Figura 10.3: Implementación de los controladores PI y PD. El diagrama de bloques de (a) muestra cómo se implementa la acción integral utilizando la retroalimentación positiva con un sistema de primer orden, a veces llamado reinicio automático. El diagrama de bloques de (b) muestra cómo se puede implementar la acción derivativa tomando las diferencias entre un sistema estático y un sistema de primer orden. error para una entrada de paso. La acción integral también puede verse como un método para generar automáticamente el término de alimentación uff en el controlador proporcional (10.3). Una forma de hacerlo es la que se muestra en la figura 10.3a, en la que la salida del controlador se filtra en paso bajo y se realimenta con ganancia positiva. Esta implementación, llamada reajuste automático, fue una de las primeras invenciones del control integral. La función de transferencia del sistema de la figura 10.3a se obtiene mediante el álgebra del diagrama de bloques; tenemos 1 + sTi kp Gue = kp = kp + , sTi sTi que es la función de transferencia de un controlador PI. Las propiedades de la acción integral se ilustran en la figura 10.2b para una entrada escalonada. La ganancia proporcional es constante, kp = 1, y las ganancias integrales son ki = 0, 0.2, 0,5 y 1. El caso ki = 0 corresponde a un control proporcional puro, con un error de estado del 50%. El error de estado estacionario se elimina cuando la acción de ganancia integral se utiliza. La respuesta se arrastra lentamente hacia la referencia para valores pequeños de ki y va más rápido para ganancias integrales mayores, pero el sistema también se vuelve más oscilante. La ganancia integral ki es una medida útil para la atenuación de las perturbaciones de la carga. Considere un sistema de lazo cerrado bajo control PID y asuma que el sistema es estable e inicialmente en reposo con todas las señales siendo cero. Aplique una perturbación de paso unitario en la entrada del proceso. Después de un transitorio la salida del proceso va a cero y la salida del controlador se establece en un valor que compensa la perturbación. De (10.1) se - deduce que ( ) ik e t( dt . 0 = ) El error integrado es, pues, inversamente proporcional a la ganancia integral ki . La ganancia integral es, pues, una medida de la eficacia de la atenuación de las perturbaciones. Una ganancia grande ki atenúa las perturbaciones de forma eficaz, pero una ganancia demasiado grande da un comportamiento oscilatorio, poca robustez y posiblemente inestabilidad. Ahora volvemos al controlador PID general y consideramos el efecto del término de la derivada kd . Recordemos que la motivación original para la retroalimentación de la derivada era proporcionar una acción predictiva o anticipatoria. Obsérvese que la combinación de la 10.1. FUNCIONES BÁSICAS DE CONTROL 297 proporcional y los términos derivados pueden escribirse como de de u = kp e + kd = kp e + Td = k epp , dt dt donde ep (t) puede interpretarse como una predicción del error en el tiempo t + Td por extrapolación lineal. El tiempo de predicción Td = kd /kp es la constante de tiempo de derivación del controlador. La acción derivativa puede implementarse tomando la diferencia entre la señal y su versión filtrada de paso bajo, como se muestra en la figura 10.3b. La función de transferencia del sistema es 1 sTd = kp . (10.5) 1+ 1+ sTd El sistema tiene así la función de transferencia G(s)sT=d sTd /(1 + sTd ), que se aproxima a una derivada para las bajas |frecuencias ( s < 1/Td ). La figura 10.2c ilustra el efecto de la| acción derivativa: el sistema es oscilante cuando no se utiliza ninguna acción derivativa, y se amortigua más a medida que se aumenta la ganancia derivativa. El rendimiento se deteriora si la ganancia de la derivada es demasiado alta. Cuando la entrada es un escalón, la salida del controlador generada por el término de la derivada será un impulso. Esto es claramente visible en la Figura 10.2c. El impulso puede evitarse utilizando la configuración del controlador que se muestra en la figura 10.1b. Aunque el control PID se desarrolló en el contexto de las aplicaciones de ingeniería, también aparece en la naturaleza. La atenuación de la perturbación por medio de la retroalimentación en los sistemas biológicos suele denominarse adaptación. Un ejemplo típico es el reflejo pupilar discutido en el Ejemplo 8.11, donde se dice que el ojo se adapta a la intensidad cambiante de la luz. Análogamente, la retroalimentación con acción integral se llama adaptación perfecta [YHSD00]. En los sistemas biológicos la acción proporcional, integral y derivada se genera combinando subsistemas con comportamiento dinámico de forma similar a lo que se hace en los sistemas de ingeniería. Por ejemplo, la acción PI puede ser generada por la interacción de varias hormonas [ESGK02]. Gue (s) = k p 1 - Ejemplo 10.1 Acción de la EP en la retina La respuesta de los fotorreceptores de los conos en la retina es un ejemplo en el que la acción proporcional y derivada se genera mediante una combinación de conos y células horizontales. Los conos son los receptores primarios estimulados por la luz, que a su vez estimulan las células horizontales, y las células horizontales dan una retroalimentación inhibitoria (negativa) a los conos. En la Figura 10.4a se muestra un diagrama esquemático del sistema. El sistema puede modelarse mediante ecuaciones diferenciales ordinarias representando las señales de las neuronas como variables continuas que representan la frecuencia media del pulso. En [Wil99] se muestra que el sistema puede ser representado por las ecuaciones diferenciales dx 11 dx 12 = (-x1 - kx2 + u), = (x1 - x2 ), dt Tc dt Th donde u es la intensidad de la luz y x1 y x2 son las frecuencias medias de los pulsos de los conos y las células horizontales. En la figura 10.4b se muestra un diagrama de bloques del sistema. La respuesta escalonada del sistema mostrada en la Figura 10.4c muestra que el 298 CAPÍTULO 10. CONTROL PID C u 1 1+ 1 sTc H -k 1+ sTh (a) (b) x 0.6 Fr ec 0.4 ue nci a 0.2 de 0 pu 0 lso del co no y 0.2 Tiempo t [s] 0.4 (c) Figura 10.4: Diagrama esquemático de los fotorreceptores de cono (C) y las células horizontales (H) en la retina. En el diagrama esquemático de (a), la retroalimentación excitatoria se indica con flechas y la retroalimentación in- hibitoria con círculos. En (b) se muestra un diagrama de bloques y en (c) la respuesta escalonada. El sistema tiene una gran respuesta inicial seguida de una respuesta de estado estacionario más baja y constante, típica de la acción proporcional y derivada. Los parámetros utilizados en la simulación son k = 4, Tc = 0,025 y Th = 0,08. 10.2 Controladores sencillos para sistemas complejos Muchos de los métodos de diseño discutidos en capítulos anteriores tienen la propiedad de que la complejidad del controlador se refleja directamente en la complejidad del modelo. Cuando diseñamos controladores por retroalimentación de salida en el Capítulo 7, encontramos para sistemas de una sola entrada y una sola salida que el orden del controlador era el mismo que el orden del modelo, posiblemente un orden más alto si se requería una acción integral. La aplicación de métodos de diseño similares para el control PID requerirá que tengamos modelos de bajo orden de los procesos para poder analizar fácilmente los resultados. Los modelos de bajo orden pueden obtenerse a partir de los primeros principios. Cualquier sistema estable puede modelarse mediante un sistema estático si sus entradas son lo suficientemente lentas. Del mismo modo, un modelo de primer orden es suficiente si el almacenamiento de masa, momento o energía puede ser capturado por una sola variable; ejemplos típicos son la velocidad de un coche en una carretera, la velocidad angular de un sistema rotativo rígido, el nivel en un tanque y la concentración en un volumen con buena mezcla. La dinámica del sistema es de segundo orden si el almacenamiento de masa, energía y momento puede ser capturado por dos variables de estado; ejemplos típicos son la posición de un coche en la carretera, la estabilización de satélites rígidos, los niveles en dos tanques conectados y los modelos de dos compartimentos. También existe una amplia gama de técnicas para la reducción de modelos. En este capítulo nos centraremos en las técnicas de diseño en las que simplificamos los modelos para capturar las propiedades esenciales que se necesitan para el diseño del PID. Comenzamos analizando el caso del control integral. Un sistema estable puede ser controlado por un controlador integral siempre que los requisitos del sistema de lazo cerrado sean modestos. Para diseñar el controlador suponemos que la función de transferencia del proceso es una constante K = P(0). La función de transferencia del lazo bajo la integral control se convierte entonces en Kki /s, y el polinomio característico del bucle cerrado 10.1. FUNCIONES BÁSICAS DE CONTROL es sim- 299 ply s + Kki . Especificando el rendimiento por la constante de tiempo deseada Tcl del cerrado 299 10.2. CONTROLADORES SENCILLOS PARA SISTEMAS COMPLEJOS 102 Im L(i) |L(i)|100 10-2 10-4 0 -90 ∠L -180 (i) -270 -360 10-2 Re L( ) 10-1 100 Frecuencia rad/s] (a) Gráfico de Nyquist 101 102 (b) Gráfico de Bode Figura 10.5: Control integral para el AFM en modo de roscado. Se diseña un controlador integral basado en la pendiente de la función de transferencia del proceso en 0. El controlador ofrece buenas propiedades de robustez basadas en un análisis muy sencillo. sistema de bucle, encontramos que la ganancia integral viene dada por ki = 1/(Tcl P(0)). El análisis requiere que Tcl sea lo suficientemente grande como para que la función de transferencia del proceso pueda ser aproximada por una constante. Para los sistemas que no están bien representados por una ganancia constante, podemos obtener una mejor aproximación utilizando la expansión en serie de Taylor de la función de transferencia del bucle: ki P(s) ki (P(0) + sP′ (0)) ki P(0) ≈ = kiP′(0) + . s s s Eligiendo ki P′ (0) =0 - .5 se obtiene un sistema con buena robustez, como se discutirá en la sección 12.5. La ganancia del controlador viene dada entonces por 1 ki-= , (10.6) 2P′(0) L(s) = y la constante de tiempo de bucle cerrado esperada es Tcl ≈ -P′ (0)/P(0). Ejemplo 10.2 Control integral del AFM en modo de golpeo En el ejercicio 9.2 se discutió un modelo simplificado de la dinámica del movimiento vertical de un microscopio de fuerza atómica en modo de golpeo. La función de transferencia para la dinámica del sistema es a(1 - e−s ) , s(s + a) donde a =0 , = 0 y la ganancia se ha normalizado a 1. Tenemos P(0) = 1 y P′ (0) = 1/a, y se deduce - de-(10.6) que la ganancia integral puede elegirse como ki = a/(2 + a). Los gráficos de Nyquist y Bode para la función de transferencia del bucle resultante se muestran en la Figura 10.5. P(s) = 300 CAPÍTULO 10. CONTROL PID Un sistema de primer orden tiene la función de transferencia b P(s) = . s+a Con un controlador PI el sistema de lazo cerrado tiene el polinomio característico s(s + a) + bkp s + bki = s2 + (a + bkp )s + bki . Los polos de lazo cerrado pueden así asignarse a valores arbitrarios mediante la elección adecuada de las ganancias del controlador. Si se exige que el sistema de bucle cerrado tenga el polinomio característico p(s) = s2 + a1 s + a2 , encontramos que los parámetros del controlador son a1 - a a2 kp = , ki = . (10.7) b b Si se requiere una respuesta del sistema de bucle cerrado más lenta que la del sistema de bucle abierto, una elección razonable es a1 = a + y a2 = a. Si se requiere una respuesta más rápida que la del sistema de bucle abierto, es razonable elegir a1 = 0 0 y a2 = 2, donde0 y son la frecuencia natural no amortiguada y la relación de amortiguamiento del modo dominante. Estas elecciones tienen un impacto significativo en la robustez del sistema y se discutirá en la sección 12.4. El límite superior de 0 viene dado por la validez del modelo. Los valores grandes de0 requerirán acciones de control rápidas, y los actuadores pueden saturarse si el valor es demasiado grande. Un modelo de primer orden es poco probable que represente la verdadera dinámica para altas frecuencias. Ilustramos el diseño con un ejemplo. Ejemplo 10.3 Control de crucero con retroalimentación PI Consideremos el problema de mantener la velocidad de un coche mientras sube una colina. En el Ejemplo 5.14 encontramos que había poca diferencia entre los modelos lineales y no lineales al investigar el control PI, siempre que el acelerador no alcanzara los límites de saturación. En el Ejemplo 5.11 se dio un modelo lineal simple de un coche: d(v - ve) = -a(v - ve ) + b(u - ue ) - g, (10.8) dt donde v es la velocidad del coche, u es la entrada del motor y es la pendiente de la colina. Los parámetros fueron a = 0,0101, b = 1,3203, g = 9,8, ve = 20 y ue = 0,1616. Este modelo se utilizará para encontrar los parámetros adecuados de un controlador de velocidad del vehículo. La función de transferencia del acelerador a la velocidad es un sistema de primer orden. Dado que la dinámica de lazo abierto es tan lenta, es natural especificar un sistema de lazo cerrado más rápido requiriendo que el sistema de lazo cerrado sea de segundo orden con relación de amortiguamiento y frecuencia natural no amortiguada0 . Las ganancias del controlador vienen dadas por (10.7). La figura 10.6 muestra la velocidad y el acelerador para un coche que se desplaza inicialmente por una carretera horizontal y se encuentra con una colina con una pendiente de 4◦ en el tiempo t = 6 s. Para diseñar un controlador PI elegimos = 1 para obtener una respuesta sin sobreimpulso, ya que 301 10.2. CONTROLADORES SENCILLOS PARA SISTEMAS COMPLEJOS 0 vve [m/s-1 ] -2 0 0 vve [m/s-1 ] 10 20 30 40 -2 0.8 0.8 0.6 u0.4 ue 0.2 0.6 u0.4 ue 0.2 0 0 10 20 30 Tiempo t [s] (a) 0 = 0,5, = 0,5, 1, 2 40 0 0 0 0 10 20 30 40 20 30 Tiempo t [s] 40 0 10 (b) = 1,0 = 0,2, 0,5, 1 Figura 10.6: Control de crucero mediante retroalimentación PI. Las respuestas escalonadas para el error y la entrada ilustran el efecto de los parámetros = 1 y0 en la respuesta de un coche con control de crucero. Un cambio en la pendiente de la carretera de 0◦ a 4◦ se aplica entre t = 5 y 6 s. (a) Respuestas para 0 = 0,5 y = 0,5, 1 y 2. Si se elige = 1 no se produce ningún rebasamiento. (b) Respuestas para = 1 y0 = 0,2, 0,5 y 1,0. que se muestra en la figura 10.6a. La elección de0 es un compromiso entre la velocidad de respuesta y las acciones de control: un valor grande da una respuesta rápida, pero requiere una acción de control rápida. El compromiso se ilustra en la Figura 10.6b. El mayor error de velocidad disminuye con el aumento de0 , pero la señal de control también cambia más rápidamente. En el modelo simple (10.8) se asumió que la fuerza responde instantáneamente a los comandos del acelerador. Para los cambios rápidos puede haber dinámicas adicionales que tienen que ser tenidas en cuenta. También hay limitaciones físicas a la tasa de cambio de la fuerza, que también restringe el valor admisible de0 . Una elección razonable 0 está en el rango de 0,5-1,0. Obsérvese en la figura 10.6 que incluso con0 = 0,2 el mayor error de velocidad es de sólo 1 m/s. Un controlador PI también puede ser utilizado para un proceso con dinámica de segundo orden, pero habrá restricciones en las posibles ubicaciones de los polos de lazo cerrado. Utilizando un controlador PID, es posible controlar un sistema de segundo orden de manera que los polos de lazo cerrado tengan ubicaciones arbitrarias; véase el Ejercicio 10.2. En lugar de encontrar un modelo de bajo orden y diseñar controladores para ellos, también podemos utilizar un modelo de alto orden e intentar colocar sólo unos pocos polos dominantes. Un controlador integral tiene un solo parámetro, y es posible colocar un solo polo. Consideremos un proceso con la función de transferencia P(s). La función de transferencia de lazo con un controlador integral es L(s) = ki P(s)/s. Las raíces del polinomio característico del lazo cerrado son las raíces de- s + ki P(s) = 0. Si se requiere que s = a sea una raíz, encontramos que la ganancia del controlador debe elegirse como a . (10.9) ki = P(-a) 302 CAPÍTULO 10. CONTROL PID Im P(i) y =c Re P(i) t -a (a) Método de respuesta escalonada (b) Método de respuesta en frecuencia Figura 10.7: Experimentos de paso y respuesta en frecuencia de Ziegler-Nichols. La respuesta al paso unitario en (a) se caracteriza por los parámetros a y . El método de respuesta en frecuencia (b) caracteriza la dinámica del proceso por el punto en el que la curva de Nyquist de la función de transferencia del proceso cruza por primera vez el eje real negativo y la frecuencia c en la que esto ocurre. El polo s =- a será dominante si a es pequeño. Un enfoque similar puede aplicarse a los controladores PI y PID. 10.3 PID Sintonización Los usuarios de los sistemas de control se enfrentan con frecuencia a la tarea de ajustar los parámetros del controlador para obtener un comportamiento deseado. Hay muchas formas diferentes de hacerlo. Un enfoque es pasar por los pasos convencionales de modelado y diseño de control como se describe en la sección anterior. Dado que el controlador PID tiene tan pocos parámetros, también se han desarrollado una serie de métodos empíricos especiales para el ajuste directo de los parámetros del controlador. Las primeras reglas de ajuste fueron desarrolladas por Ziegler y Nichols [ZN42]. Su idea era realizar un experimento simple, extraer algunas características de la dinámica del proceso del experimento y determinar los parámetros del controlador a partir de las características. Afinación de Ziegler-Nichols En la década de 1940, Ziegler y Nichols desarrollaron dos métodos para la sintonización de controladores basados en una simple caracterización de la dinámica del proceso en los dominios del tiempo y la frecuencia. El método en el dominio del tiempo se basa en la medición de una parte de la respuesta al escalón unitario de bucle abierto del proceso, como se muestra en la figura 10.7a. La respuesta al escalón se mide aplicando una entrada de escalón unitario al proceso y registrando la respuesta. La respuesta se caracteriza por los parámetros a y , que son las intercepciones de la tangente más empinada de la respuesta al escalón con los ejes de coordenadas. El parámetro es una aproximación al retardo temporal del sistema y a/ es la mayor pendiente de la respuesta escalonada. Obsérvese que no es necesario esperar a que el estado estacionario sea para encontrar los parámetros, basta con esperar a que la respuesta tenga un punto de inflexión. Los parámetros del regulador se indican en la tabla 10.1. Los parámetros 303 10.3. SINTONIZACIÓN DEL PID Tabla 10.1: Reglas de sintonización de Ziegler-Nichols. (a) Los métodos de respuesta al escalón dan los parámetros en términos del intercepto a y el retardo aparente . (b) El método de respuesta en frecuencia da los parámetros del controlador en términos de la ganancia crítica kc y el período crítico Tc. Tipo kp P 1/a PI 0.9/a PID 1.2/a Ti Td 0. (a) Método de respuesta escalonada Ti Tipo kp P 0,5kc PI 0,4kc 0,8Tc PID 0,6kc 0,5Tc Td 0,125Tc (b) Método de respuesta en frecuencia se obtuvieron mediante la simulación exhaustiva de una serie de procesos representativos. Se ajustó manualmente un controlador para cada proceso y se intentó correlacionar los parámetros del controlador con a y . En el método del dominio de la frecuencia, se conecta un controlador al proceso, se ponen a cero las ganancias integral y derivativa y se aumenta la ganancia proporcional hasta que el sistema empieza a oscilar. El valor crítico de la ganancia proporcional kc se observa junto con el periodo de oscilación Tc . Del criterio de estabilidad de Nyquist se deduce que la función de transferencia del bucle L = kc P(s) interseca el valor crítico punto en la frecuenciac = c . Por lo tanto, el experimento da el punto en la Curva de Nyquist de la función de transferencia del proceso donde el desfase es de 180 ◦ , como que se muestra en la figura 10.7b. Los métodos de Ziegler-Nichols tuvieron un gran impacto cuando se introdujeron en la década de 1940. Las reglas eran sencillas de utilizar y ofrecían condiciones iniciales para el ajuste manual. Las ideas fueron adoptadas por los fabricantes de controladores para su uso rutinario. Por desgracia, las reglas de ajuste de Ziegler-Nichols tienen dos graves inconvenientes: se utiliza muy poca información del proceso y los sistemas de bucle cerrado que se obtienen carecen de robustez. El método de respuesta al escalón puede mejorarse significativamente caracterizando la respuesta al escalón unitario mediante los parámetros K, y T en el modelo K P(s) = e−s . (10.10) 1 + sT Los parámetros pueden obtenerse ajustando el modelo a una respuesta escalonada medida. Obsérvese que el experimento lleva más tiempo que el de la figura 10.7a porque para determinar K es necesario esperar a que se alcance el estado estacionario. Observe también que el intercepto a en la regla de ZieglerNichols viene dado por a = . El método de respuesta en frecuencia puede mejorarse midiendo más puntos en la curva de Nyquist, por ejemplo, la ganancia de frecuencia cero K o el punto en el que el proceso tiene un desfase de 90◦ . Este último punto puede obtenerse conectando un controlador integral y aumentando su ganancia hasta que el sistema alcance el límite de estabilidad. El experimento también puede automatizarse utilizando la retroalimentación de los relés, como se verá más adelante en esta sección. 304 CAPÍTULO 10. CONTROL PID Proceso ZeiglerNichols Modificado ZN So y Re (a) De 1.5 spl 1 az am 0.5 ien 0 0 to y 15 Co 10 ntr ol 5 u 0 0 Ziegler-Nichols modificado ZN 2 2 4 6 8 4 6 8 Tiempo normalizado en 10 10 (b) Figura 10.8: Control PI de un AFM en modo tapping. Gráficos de Nyquist (a) y respuestas de paso (b) para el control PI del movimiento vertical de un microscopio de fuerza atómica en modo de golpeo. El parámetro de promedio es n = 20. Los resultados con la sintonización Ziegler-Nichols se muestran con líneas discontinuas, y la sintonización Ziegler-Nichols modificada se muestra con líneas sólidas. El gráfico de Nyquist de la función de transferencia del proceso se muestra con líneas punteadas. Hay muchas versiones de reglas de sintonía mejoradas. A modo de ilustración damos las siguientes reglas para el control PI, basadas en [ ÅH05]: 0, + 0,35T 0,9T 0, + 0,02T 0.3T kp = , ki = , (10.11) 0,07 0,16kc 0,5kc 0,4kc , ki = + . kp = 0,22kc K 0,62 Tc KTc Tc Los valores de la regla de Ziegler-Nichols se indican entre paréntesis. Obsérvese que las fórmulas mejoradas suelen dar ganancias de controlador más bajas que el método de Ziegler-Nichols. La ganancia integral es mayor para los sistemas donde la dinámica está dominada por el retardo, ≫ T . Ejemplo 10.4 Microscopio de fuerza atómica en modo de golpeo En el ejemplo 10.2 se discutió un modelo simplificado de la dinámica del movimiento vertical de un microscopio de fuerza atómica en modo de golpeo. La función de transferencia se normaliza eligiendo 1/a como unidad de tiempo. La función de transferencia normalizada es 1 - e-sTn P( s) = , sTn (s + 1) donde Tn = 2na/0 = 2n . El gráfico de Nyquist de la función de transferencia se muestra en la Figura 10.8a para = 0,002 y n = 20. La intersección más a la izquierda de la curva de Nyquist con el eje- real se produce en Re s = 0,0461 para = 13,1. La ganancia crítica es, pues, kc = 21,7 y el período crítico es Tc = 0,48. Utilizando la regla de ajuste de Ziegler-Nichols, encontramos los parámetros kp = 8,87 y ki = 22,6 (Ti = 0,384) para un controlador PI. Con este controlador el margen de estabilidad es sm = 0,31, que es bastante pequeño. La respuesta al escalón del controlador se muestra en la figura 10.8. Observe en particular que haya un gran rebasamiento en la señal de control. 305 10.3. SINTONIZACIÓN DEL PID r e u G(s) 2 y u u, y -1 (a) Retroalimentac ión de los relés y 1 0 -1 0 10 20 Tiempo [s] 30 (b) Respuesta oscilante Figura 10.9: Diagrama de bloques de un proceso con retroalimentación de relé (a) y señales típicas (b). La salida del proceso y es una línea sólida, y la salida del relé u es una línea discontinua. Observe que las señales u e y tienen fases opuestas. La regla de Ziegler-Nichols modificada (10.11) da los parámetros del controlador kp = 3,47 y ki = 8,73 (Ti = 0,459) y el margen de estabilidad pasa a ser sm = 0,61. La respuesta al escalón con este controlador se muestra en la figura 10.8. Una comparación de la reLas respuestas obtenidas con la regla original de Ziegler-Nichols muestran que el rebasamiento se ha reducido. Obsérvese que la señal de control alcanza su valor de estado estacionario de forma casi instantánea. Se deduce del Ejemplo 10.2 que un controlador integral puro tiene la ganancia normalizada ki = 1/(2 + Tn ) = 0.44. Comparando esto con las ganancias de un controlador PI, podemos concluir que un controlador PI da un rendimiento mucho mejor que un controlador integral puro. Retroalimentación de los relés El método de respuesta en frecuencia de Ziegler-Nichols incrementa la ganancia de un controlador proporcional hasta la oscilación para determinar la ganancia crítica kc y el período crítico correspondiente Tc o, de forma equivalente, el punto en el que la curva de Nyquist incide en el eje real negativo. Una forma de obtener esta información automáticamente es conectar el proceso en un bucle de realimentación con un elemento no lineal que tenga una función de relé, como se muestra en la figura 10.9a. Para muchos sistemas habrá entonces una oscilación, como se muestra en la figura 10.9b, donde la salida del relé u es una onda cuadrada y la salida del proceso y es cercana a una sinusoide. Además, la entrada y la salida están desfasadas, lo que significa que el sistema oscila con el período crítico Tc , donde el proceso tiene un desfase de 180◦ . Obsérvese que se establece rápidamente una oscilación con período constante. El periodo crítico es simplemente el periodo de la oscilación. Para determinar la ganancia crítica, expandimos la salida del relé de onda cuadrada en una serie de Fourier. Obsérvese en la figura que la salida del proceso es prácticamente sinusoidal porque el proceso atenúa eficazmente los armónicos superiores. Por tanto, basta con considerar sólo la primera componente armónica de la entrada. Siendo d la amplitud del relé, la primera El armónico de la onda cuadrada de entrada tiene una amplitud de 4d/. Si a es la amplitud de la salida del proceso, la ganancia del proceso a la frecuencia críticac = c es |P(c )| = 306 CAPÍTULO 10. CONTROL PID a/(4d) y la ganancia crítica es Kc = 4d . (10.12) a Una vez obtenida la ganancia crítica Kc y el periodo crítico Tc , se pueden determinar los parámetros del controlador mediante las reglas de Ziegler-Nichols. Se puede obtener una mejor sintonía ajustando un modelo a los datos obtenidos en el experimento con relés. El experimento con el relé puede ser automatizado. Como la amplitud de la oscilación es proporcional a la salida del relé, es fácil controlarla ajustando la salida del relé. La sintonización automática basada en la retroalimentación del relé se utiliza en muchos controladores PID comerciales. La sintonización se realiza simplemente pulsando un botón que activa la retroalimentación del relé. La amplitud del relé se ajusta automáticamente para mantener las oscilaciones lo suficientemente pequeñas, y la retroalimentación del relé se cambia a un controlador PID tan pronto como la sintonización haya terminado. 10.4 Integrador Windup Muchos aspectos de un sistema de control pueden entenderse a partir de modelos lineales. Sin embargo, hay algunos fenómenos no lineales que deben tenerse en cuenta. Suelen ser limitaciones de los actuadores: un motor tiene una velocidad limitada, una válvula no puede estar más que totalmente abierta o cerrada, etc. En un sistema que funciona en una amplia gama de condiciones, puede ocurrir que la variable de control alcance los límites del actuador. Cuando esto ocurre, el bucle de retroalimentación se rompe y el sistema funciona en bucle abierto porque el actuador permanece en su límite independientemente de la salida del proceso mientras el actuador permanezca saturado. El término integral también se acumulará ya que el error es típicamente distinto de cero. El término integral y la salida del controlador pueden entonces llegar a ser muy grandes. La señal de control permanecerá saturada incluso cuando el error cambie, y puede pasar mucho tiempo antes de que el integrador y la salida del controlador entren en el rango de saturación. La consecuencia es que se producen grandes transitorios. Esta situación se denomina "windup del integrador" y se ilustra en el siguiente ejemplo. Ejemplo 10.5 Control de crucero El efecto windup se ilustra en la Figura 10.10a, que muestra lo que ocurre cuando un coche se encuentra con una colina tan empinada (6◦ ) que el acelerador se satura cuando el controlador de crucero intenta mantener la velocidad. Al encontrar la pendiente en el tiempo t = 5, la velocidad disminuye y el acelerador aumenta para generar más par. Sin embargo, el par requerido es tan grande que el acelerador se satura. El error disminuye lentamente porque el par generado por el motor es un poco mayor que el par necesario para compensar la gravedad. El error es grande y la integral sigue aumentando hasta que el error llega a cero en el tiempo 30, pero la salida del controlador sigue siendo mayor que el límite de saturación y el actuador sigue saturado. El término integral comienza a disminuir, y en el tiempo 45 y la velocidad se asienta rápidamente en el valor deseado. Nótese que se necesita un tiempo considerable antes de que la salida del controlador entre en el rango en el que no se satura, lo que resulta en un gran sobreimpulso. 307 10.4. INTEGRACIÓN DE LA BOBINA Ve loc ida d [m /s] 21 20 19 18 0 20 40 60 2 Ac ele 1 ra do r 0 0 Ve loc ida d [m /s] 21 20 19 18 0 20 40 60 2 Ordenada Aplicada 20 40 Tiempo t [s] (a) Windup 60 Ac ele 1 ra do r 0 0 Ordenada Aplicada 20 40 Tiempo t [s] 60 (b) Antirretorno Figura 10.10: Simulación del control de crucero PI con windup (a) y anti-windup (b). La figura muestra la velocidad v y el acelerador u para un coche que se encuentra con una pendiente tan pronunciada que el acelerador se satura. La salida del controlador es una línea discontinua. Los parámetros del controlador son kp = 0,5 y ki = 0,1. El compensador antiwindup elimina el sobreimpulso evitando que el error se acumule en el término integral del controlador. Hay muchos métodos para evitar el windup. Un método se ilustra en la Figura 10.11: el sistema tiene una ruta de retroalimentación extra que se genera midiendo la salida real del actuador, o la salida de un modelo matemático del actuador saturado, y formando una señal de error es como la diferencia entre la salida del controlador v y la salida del actuador u. La señal es se alimenta a la entrada del integrador a través de la ganancia kt . La señal es es cero cuando no hay saturación y el bucle de retroalimentación extra no tiene efecto en el sistema. Cuando el actuador se satura, la señal es se retroalimenta al integrador de tal manera que es va hacia cero. Esto implica que la salida del controlador se mantiene cerca del límite de saturación. La salida del controlador cambiará entonces tan pronto como el error cambie de signo y se evite el windup integral. La velocidad a la que se restablece la salida del controlador se rige por la ganancia de retroalimentación kt ; un valor grande de kt da un tiempo de restablecimiento corto. El parámetro kt no puede ser demasiado grande porque el ruido de las mediciones puede causar un reinicio indeseable. Una elección razonable es elegir kt como una fracción de 1/Ti . Ilustramos cómo se puede evitar el windup integral investigando el sistema de control de crucero. Ejemplo 10.6 Control de crucero con antivuelco La figura 10.10b muestra lo que ocurre cuando se aplica un controlador con antiwindup al sistema simulado en la figura 10.10a. Debido a la retroalimentación del modelo del acelerador, la salida del integrador se restablece rápidamente a un valor tal que la salida del controlador está en el límite de saturación. El comportamiento es drásticamente diferente al de la Figura 10.10a y se evita el gran sobreimpulso. La ganancia de seguimiento es kt = 2 en la simulación. 308 CAPÍTULO 10. CONTROL PID -y 1 1+sTf kds Actuado r e=r-y kp ki 1 s - u P(s) y + es kt Figura 10.11: Controlador PID con derivada filtrada y anti-windup. La entrada al integrador (1/s) consiste en el término de error más un "reset" basado en la saturación de la entrada. Si el actuador no está saturado, - entonces es = u , de lo contrario es disminuirá la entrada del integrador para evitar el windup. 10.5 Aplicación Son muchos los aspectos prácticos que hay que tener en cuenta a la hora de implementar los controladores PID. Se han desarrollado a lo largo del tiempo basándose en la experiencia práctica. En esta sección consideramos algunos de los más comunes. Consideraciones similares se aplican también a otros tipos de controladores. Filtrar la derivada Un inconveniente de la acción derivativa es que una derivada ideal tiene una alta ganancia para las señales de alta frecuencia. Esto significa que el ruido de medición de alta frecuencia generará grandes variaciones en la señal de control. El efecto del ruido de medición puede reducirse sustituyendo el término kd s por kd s/(1 + sTf ), que puede interpretarse como una derivada ideal de una señal filtrada de paso bajo. Para s pequeños la función de transferencia es aproximadamente kd s y para s grandes es igual a kd /Tf . La aproximación actúa como una derivada para las señales de baja frecuencia y como una ganancia constante para las señales de alta frecuencia. El tiempo de filtrado se elige como Tf = (kd /kp )/N, con N en el rango 2-20. El filtrado se obtiene automáticamente si la derivada se implementa tomando la diferencia entre la señal y su versión filtrada, como se muestra en la figura 10.3b (véase la ecuación (10.5)). En lugar de filtrar sólo la derivada, también es posible utilizar un controlador ideal y filtrar la señal medida. La función de transferencia de un controlador de este tipo con un filtro es entonces ( 1 1 C(s) = kp 1 + + sT d , (10.13) sTi 1 + sTf + (sTf )2/2 donde se utiliza un filtro de segundo orden. 309 10.5. IMPLEMENTACIÓN Ponderación de la consigna La figura 10.1 muestra dos configuraciones de un controlador PID. El sistema de la Fig. 10.1a tiene un controlador con retroalimentación de error donde la acción proporcional, integral y derivativa actúa sobre el error. En la simulación de los controladores PID de la Fig. 1 0 . 2 c hay un gran pico inicial en la señal de control, que es causado por la derivada de la señal de referencia. El pico puede evitarse utilizando el controlador de la figura 10.1b, donde la acción proporcional y derivativa actúa sólo sobre la salida del proceso. Una forma intermedia viene dada por = ukp r - y + ki - t 0 ( ) - y( ) dr + kd y - d , dt dt (10.14) donde las acciones proporcional y derivativa actúan sobre las fracciones y de la ref- erencia. La acción integral tiene que actuar sobre el error para asegurarse de que éste llega a cero en estado estacionario. Los sistemas de lazo cerrado obtenidos para diferentes valores de y responden a las perturbaciones de la carga y al ruido de la medición de la misma manera. La respuesta a las señales de referencia es diferente porque depende de los valores de y que se denominan pesos de referencia o pesos de consigna. Ilustramos el efecto de la ponderación del punto de ajuste con un ejemplo. Ejemplo 10.7 Control de crucero con ponderación de consigna Considere el controlador PI para el sistema de control de crucero derivado en el Ejemplo 10.3. La figura 10.12 muestra el efecto de la ponderación del punto de ajuste en la respuesta del sistema a una señal de referencia. Con = 1 (retroalimentación de error) hay un exceso de velocidad y la señal de control (acelerador) está inicialmente cerca del límite de saturación. No hay El rebasamiento con = 0 y la señal de control es mucho menor, lo que supone claramente un mayor confort de conducción. Las respuestas en frecuencia ofrecen otra visión del mismo efecto. El parámetro suele estar en el rango 0-1, y normalmente es cero para evitar grandes transitorios en la señal de control cuando se cambia la referencia. El controlador dado por la ecuación (10.14) es un caso especial de la estructura general del controlador con dos grados de libertad, que se discutió en la sección 7.5. Implementación basada en amplificadores operacionales Los controladores PID se han implementado en diferentes tecnologías. La figura 10.13 muestra cómo se pueden implementar los controladores PI y PID mediante la retroalimentación en torno a los amplificadores operacionales. Para demostrar que el circuito de la Figura 10.13b es un controlador PID utilizaremos la relación aproximada entre la tensión de entrada e y la tensión de salida u del amplificador operacional derivada en el Ejemplo 8.3, u =Z2 e. Z1 En esta ecuación Z1 es la impedancia entre la entrada negativa del amplificador y la tensión de entrada e, y Z2 es la impedancia entre la entrada cero del 310 CAPÍTULO 10. CONTROL PID 100 Ve 21 loc ida d v 20.5 [m /s] 20 |Gvr (i)| 10-1 10-2 10−1 0 5 10 100 101 100 Frecuencia rad/s] 101 15 100 0.8 |Gur (i)| 10-1 Ac 0.6 ele ra 0.4 do 0.2 ru 10-2 10−1 0 0 5 Tiempo t [s] 10 15 (b) Respuestas en frecuencia (a) Respuesta al paso Figura 10.12: Respuestas en tiempo y frecuencia para el control de crucero PI con ponderación de consigna. Las respuestas escalonadas se muestran en (a), y las curvas de ganancia de las respuestas en frecuencia en (b). Las ganancias del controlador son kp = 0.74 y ki = 0.19. Las ponderaciones de consigna son = 0, 0,5 y 1, y = 0. y la tensión de salida u. Las impedancias vienen dadas por R1 1 Z1 (s) = Z2 (s) = R2 + , 1 + R C11 s C2 s y encontramos la siguiente relación entre la tensión de entrada e y la tensión de salida u: Z2 R2 (1 + R1 C1 s)(1 + R2 C2 s) u=- e=e. Z1 R1 R2 C2 s Esta es la relación entrada/salida para un controlador PID de la forma (10.1) con parámetros = R1C1 + R2C2 R1R2C1C2 kp , Ti = R1 C1 + R2 C ,2 Td = . R1 C2 R1 C1 + R2 C2 C1 R1 e R2 R1 C2 + (a) Controlador PI e u R2 C2 + u (b) Controlador PID Figura 10.13: Diagramas esquemáticos de los controladores PI y PID que utilizan op amps. El circuito en (a) utiliza un condensador en la ruta de retroalimentación para almacenar la integral del error. El circuito en (b) añade un filtro en la entrada para proporcionar una acción derivativa. 311 10.5. IMPLEMENTACIÓN Los resultados correspondientes para un controlador PI se obtienen fijando C1 = 0 (volviendo a mover el condensador). Aplicación informática En esta sección describimos brevemente cómo se puede implementar un controlador PID utilizando un ordenador. El ordenador suele funcionar periódicamente, con las señales de los sensores muestreadas y convertidas a forma digital por el convertidor A/D, y la señal de control calculada y luego convertida a forma analógica para los actuadores. La secuencia de operación es la siguiente: 1. Espera de la interrupción del reloj 4. Enviar la salida al actuador 2. Leer la entrada del sensor 6. Repita 5. Actualizar las variables del controlador 3. Calcular la señal de control Obsérvese que una salida se envía a los actuadores tan pronto como está disponible. El tiempo de retardo se minimiza haciendo que los cálculos del paso 3 sean lo más cortos posible y realizando todas las actualizaciones después de que se ordene la salida. Esta sencilla forma de reducir la latencia es, por desgracia, poco utilizada en los sistemas comerciales. Como ilustración consideramos el controlador PID de la figura 10.11, que tiene una derivada filtrada, ponderación del punto de ajuste y protección contra el windup integral. El controlador es un sistema dinámico de tiempo continuo. Para implementarlo con un ordenador, el sistema de tiempo continuo tiene que ser aproximado por un sistema de tiempo discreto. En la figura 10.11 se muestra un diagrama de bloques de un controlador PID con anti-saturación. La señal v es la suma de los términos proporcional, integral y derivativo, y la salida del controlador es u = sat(v), donde sat es la función de saturación que modela la actuador. El término proporcional kp ( r y) se implementa simplemente sustituyendo el variables continuas con sus versiones muestreadas. Por lo tanto, P(tk ) = kp ( r(tk ) - y(tk )), (10.15) donde {tk}denota los instantes de muestreo, es decir, los momentos en que el ordenador lee su entrada. Dejamos que h represente el tiempo de muestreo, de modo que tk+1 = tk + h. El término integral se obtiene aproximando la integral con una suma, h I(tk+1 ) = I(tk ) + ki he(tk ) + sat(v) - v , (10.16) Tt donde Tt = h/kt representa el término de anti-viento. El término de la derivada filtrada D viene dado por la ecuación diferencial dD + D = -kd y˙. dt Aproximando la derivada con una diferencia hacia atrás se obtiene Tf Tf D(tk ) - D(tk−1 ) y(tk ) - y(tk−1 ) + D(tk) = -kd , h h 312 CAPÍTULO 10. CONTROL PID que puede reescribirse como Tf D(tk ) = D(tk Tf + h −1) y(tk - kd Tf + h (y(tk ) - −1)). (10.17) La ventaja de usar una diferencia hacia atrás es que el parámetro Tf /(Tf + h) es no negativo y menor que 1 para todo h > 0, lo que garantiza que la ecuación de diferencia es estable. Reorganizando las ecuaciones (10.15)-(10.17), el controlador PID puede puede describirse con el siguiente pseudocódigo: % Precalcular los coeficientes del regulador bi=ki*h ad=Tf/(Tf+h) bd=kd/(Tf+h) br=h/Tt % Algoritmo de control - bucle principal while (running) { r=adin(ch1) % leer punto de consigna de ch1 y=adin(ch2) % leer la variable de proceso de ch2 P=kp*(b*r-y)% calcula la parte proporcional D=ad*Dbd*(y-yold) % actualiza la parte derivada v=P+I+D% calcula la salida temporal u=sat(v,ulow,uhigh) % simula la saturación del actuador daout(ch1) % fija la salida analógica ch1 I=I+bi*(r-y)+br*(u-v) % actualiza la integral yold=y% actualizar la salida del proceso antiguo sleep(h) % espera hasta el siguiente intervalo de actualización } El cálculo previo de los coeficientes bi, ad, bd y br ahorra tiempo de cálculo en el bucle principal. Estos cálculos sólo tienen que hacerse cuando se modifican los parámetros del controlador. El bucle principal se ejecuta una vez cada periodo de muestreo. El programa tiene tres estados: yold, I y D. Se puede eliminar una variable de estado a costa de un código menos legible. La latencia entre la lectura de la entrada analógica y el ajuste de la salida analógica consiste en cuatro multiplicaciones, cuatro sumas y la evaluación de la función sat. Todos los cálculos pueden realizarse utilizando cálculos de punto fijo si es necesario. Obsérvese que el código calcula la derivada filtrada de la salida del proceso y que dispone de ponderación del punto de consigna y protección contra el viento. 10.6 Más información en La historia del control PID es muy rica y se remonta al principio de la fundación de la teoría de control. Bennett [Ben79, Ben93] y Mindel [Min02] ofrecen tratamientos muy amenos. Las reglas de Ziegler-Nichols para el ajuste de los controladores PID, presentadas por primera vez en 1942 [ZN42], se desarrollaron sobre la base de extensos experimentos con simuladores neumáticos y el analizador diferencial de Vannevar Bush en el MIT. Una interesante visión del desarrollo de las reglas de Ziegler-Nichols se ofrece en una entrevista con Ziegler [Bli90]. Una perspectiva industrial sobre el control PID se da 313 EJERCICIOS en [Bia95], [Shi96] y [YH91] y en el trabajo [DM02] citado al principio de este capítulo. En [ ÅH05] se ofrece una presentación completa del control PID. Las herramientas de aprendizaje interactivo para el control PID pueden descargarse de http: //www.calerga.com/contrib. Ejercicios 10.1 (Controladores PID ideales) Considere los sistemas representados por los bloques de la figura 10.1. Suponga que el proceso tiene la función de transferencia P(s) = b/(s + a) y demuestre que las funciones de transferencia de r a y son bkd s2 + bkp s + bki (a) Gyr (s) = , (1 + bkd )s2 + (a + bkp )s + bki bki (b) Gyr (s) = . (1 + bkd )s2 + (a + bkp )s + bki Escoge algunos parámetros y compara las respuestas escalonadas de los sistemas. 10.2 Consideremos un proceso de segundo orden con la función de transferencia b P(s) = . s2 + a1 s + a2 El sistema de lazo cerrado con un controlador PI es un sistema de tercer orden. Demuestre que es posible posicionar los polos del lazo cerrado siempre que la suma - de los polos sea un1 . Dé ecuaciones para los parámetros que dan el polinomio característico del lazo cerrado (s +0 )(s2 + 00 s +2 ).0 10.3 Considere un sistema con la función de transferencia P(s) = (s + 1)−2 . Encuentre un controlador in- tegral que dé un polo -de lazo cerrado en s = a y determine el valor de a que maximiza la ganancia integral. Determine los otros polos del sistema y juzgar si el polo puede considerarse dominante. Compara con el valor de la ganancia integral dada por la ecuación (10.6). 10.4 (Sintonización de Ziegler-Nichols) Considere un sistema con función de transferencia P(s) = e−s /s. Determine los parámetros de los controladores P, PI y PID utilizando los métodos de pasos y respuesta en frecuencia de ZieglerNichols. Compare los valores de los parámetros obtenidos por las diferentes reglas y discutir los resultados. 10.5 (Dirección del vehículo) Diseñe un controlador proporcional-integral para el sistema de dirección del vehículo que dé el polinomio característico de lazo cerrado s3 + 0 s2 + 0 s +3 .0 10.6 (Control de la congestión) En [HMTG00, LPD02] se describe un modelo de flujo simplificado para la transmisión TCP. La dinámica linealizada se modela mediante la transferencia 314 CAPÍTULO 10. CONTROL PID función Gqp (s) = b e-se , (s + a1 )(s + a2 ) que describe la dinámica que relaciona la longitud de cola esperada q con la caída de paquetes esperada p. Los parámetros vienen dados por a1 e= 2N2 /(), a2 = 1/e y b = c2 /(2N). El parámetro c es la capacidad del cuello de botella, N es el número de fuentes que alimentan el enlace ye es el tiempo de retardo de ida y vuelta. Utilice los valores de los parámetros N = 75 fuentes, C = 1250 paquetes/s ye = 0,15 y encuentre los parámetros de un controlador PI utilizando una de las reglas de Ziegler-Nichols y la correspondiente imregla probada. Simular las respuestas de los sistemas de lazo cerrado obtenidos con los controladores PI. 10.7 (Accionamiento del motor) Considere el modelo del accionamiento del motor del ejercicio 2.10. Desarrolle un modelo aproximado de segundo orden del sistema y utilícelo para diseñar un controlador de DP i d e a j l que dé un sistema de conun valores 0 ±como se muestra en la ecuación (10.13) 0 lazo1 cerrado − 2. Añade filtro propios de paso en bajo y explora cómo de grande puede ser0 manteniendo un buen margen de estabilidad. Simule el sistema de lazo cerrado con el controlador elegido y compare los resultados con el controlador basado en la retroalimentación de estado del Ejercicio 6.11. 10.8 Considere el sistema del Ejercicio 10.7 investigue qué ocurre si el filtro de segundo orden de la derivada se sustituye por un filtro de primer orden. 10.9 (Reglas de sintonía) Aplicar las reglas de sintonía de Ziegler-Nichols y las modificadas para diseñar controladores PI para sistemas con las funciones de transferencia P 1 e-s = , s P2 = e-s s+1 P3 = e−s . , Calcula los márgenes de estabilidad y explora cualquier patrón. 10.10 (Considere un controlador PI de la forma C(s) = 1 + 1/s para un proceso | lineal está dada por la con entrada que satura cuando u > 1, y cuya dinámica | del sistema a cambios función de transferencia P(s) = 1/s. Simule la respuesta de escalón en la señal de referencia de magnitud 1, 2 y 3. Repita la simulación cuando se utiliza el esquema de protección contra el viento de la figura 10.11. 10.11 (Protección contra el windup mediante integración condicional) Se han propuesto muchos métodos para evitar el windup del integrador. Un método llamado integración condicional consiste en actualizar la integral sólo cuando el error es suficientemente pequeño. Para ilustrar este método consideramos un sistema con control PI descrito por dx1 dx2 fe si |e| < e0 = u, u = satu (kp e + ki x2 ), = 0 dt dt 0 si |e| ≥ e0 , donde e = r- x. Trace el retrato de fase del sistema para los valores de los parámetros kp = 1, ki = 1, u0 = 1 y e0 = 1 y discuta las propiedades del sistema. El ejemplo ilustra las dificultades de introducir no linealidades ad hoc sin cuidado. de análisis. Capítulo 11 Diseño en el dominio de la frecuencia La mejora de la sensibilidad en una gama de frecuencias debe pagarse con el deterioro de la sensibilidad en otra gama de frecuencias, y el precio es mayor si la planta es inestable en lazo abierto. Esto se aplica a todos los controladores, independientemente de cómo se hayan diseñado. Gunter Stein en la conferencia inaugural del IEEE Bode, 1989 [Ste03]. En este capítulo continuamos explorando el uso de las técnicas del dominio de la frecuencia con un enfoque en el diseño de sistemas de retroalimentación. Comenzamos con una descripción más exhaustiva de las especificaciones de rendimiento de los sistemas de control y, a continuación, introducimos el concepto de "conformación del bucle" como mecanismo para diseñar controladores en el dominio de la frecuencia. También introducimos algunas limitaciones fundamentales para el rendimiento de los sistemas con retrasos temporales y polos y ceros del semiplano derecho. 11.1 Sensibilidad Funciones En el capítulo anterior, consideramos el uso de la retroalimentación proporcional-integral-derivada (PID) como un mecanismo para diseñar un controlador de retroalimentación para un proceso dado. En este capítulo ampliaremos nuestro enfoque para incluir un repertorio más rico de herramientas para dar forma a la respuesta en frecuencia del sistema de bucle cerrado. Una de las ideas clave de este capítulo es que podemos diseñar el comportamiento del sistema de bucle cerrado centrándonos en la función de transferencia de bucle abierto. Este mismo enfoque se utilizó en el estudio de la estabilidad utilizando el criterio de Nyquist: trazamos el gráfico de Nyquist para la función de transferencia de bucle abierto para determinar la estabilidad del sistema de bucle cerrado. Desde el punto de vista del diseño, el uso de herramientas de análisis de bucle es muy potente: puesto que la función de transferencia del bucle es L = PC, si podemos especificar el rendimiento deseado en términos de propiedades de L, podemos ver directamente el impacto de los cambios en el controlador C. Esto es mucho más fácil, por ejemplo, que intentar rea- lizar directamente la respuesta de seguimiento del sistema de bucle cerrado, cuya función de transferencia viene dada por Gyr = PC/(1 + PC). Empezaremos por investigar algunas propiedades clave del bucle de retroalimentación. A El diagrama de bloques de un bucle de realimentación básico se muestra en la figura 11.1. El bucle del sistema está formado por dos componentes: el proceso y el controlador. El controlador en sí tiene dos bloques: el bloque de retroalimentación C y el bloque de alimentación F. Hay dos perturbaciones que actúan sobre el proceso, la perturbación de carga d y el ruido de medición n. La perturbación de carga representa las perturbaciones que alejan al proceso de su comportamiento deseado, mientras que el ruido de medición representa las perturbaciones que corrompen la información sobre el proceso dada por los 316 sensores. En la figura, el CAPÍTULO 10. CONTROL PID 316 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA d r e F(s) C(s) -1 Controlad or n u y P(s) y Proceso Figura 11.1: Diagrama de bloques de un bucle de realimentación básico con dos grados de libertad. El controlador tiene un bloque de retroalimentación C y un bloque de alimentación F. Las señales externas son la señal de referencia r, la perturbación de la carga d y el ruido de medición n. La salida del proceso es , y la señal de control es u. Se supone que la perturbación de la carga actúa en la entrada del proceso. Se trata de una simplificación, ya que las perturbaciones suelen entrar en el proceso de muchas maneras diferentes, pero nos permite racionalizar la presentación sin una pérdida significativa de generalidad. La salida del proceso es la variable real que queremos controlar. El control se basa en la señal medida y, en la que las mediciones están corrompidas por el ruido de medición n. El proceso está influenciado por el controlador a través de la variable de control u. El proceso es, por tanto, un sistema con tres entradas -la variable de control u, la perturbación de la carga d y el ruido de medición n- y una salida -la señal medida y-. El controlador es un sistema con dos entradas y una salida. Las entradas son la señal medida y y la señal de referencia r, y la salida es la señal de control u. Nótese que la señal de control u es una entrada al proceso y la salida del controlador, y que la señal medida y es la salida del proceso y una entrada al controlador. El bucle de realimentación de la figura 11.1 está influenciado por tres señales externas, la referencia r, la perturbación de la carga d y el ruido de medición n. Cualquiera de las señales de realimentación puede ser de interés en el diseño del controlador, dependiendo de la aplicación particular. Dado que el sistema es lineal, las relaciones entre las entradas y las señales de interés pueden expresarse en términos de funciones de transferencia. Las siguientes relaciones se obtienen a partir del diagrama de bloques de la figura 11.1: y = eu PCF 1 + PC PCF 1 + PC CF 1 + PC CF 1 + PC F 1+ PC P 1 1 + PC 1 + PC P PC 1 + PC 1 + PC 1 1 + PC - PC 1+ PC -P 1+ PC -C 1 + PC -C 1 + PC -1 1+ PC r n d . (11.1) Además, podemos escribir la función de transferencia para el error entre la referencia 317 11.1. FUNCIONES DE SENSIBILIDAD r y la salida (no es una señal explícita en el diagrama), que satisface PCF -P PC =r− =1r+ d+ n. 1+ 1+ 1+ PC PC PC extraer de estas Hay varias conclusiones interesantes que podemos ecuaciones. En primer lugar, podemos observar que varias funciones de transferencia son iguales y que la mayoría de las relaciones vienen dadas por el siguiente conjunto de seis funciones de transferencia, que llamamos la Pandilla de los Seis: PC P PCF TF = , PS = , T= 1 + PC 1 + PC 1+ (11.2) , PC CF C 1 CFS = , CS = , S= . 1+ 1 + PC 1 + PC PC Las funciones de transferencia de la primera columna dan la respuesta de la salida del proceso y de la señal de control a la señal de referencia. La segunda columna da la respuesta de la variable de control a la perturbación de la carga y al ruido, y la última columna da la respuesta de la salida del proceso a esas dos entradas. Obsérvese que sólo se necesitan cuatro funciones de transferencia para describir cómo reacciona el sistema a las perturbaciones de carga y al ruido de medición, y que se necesitan dos funciones de transferencia adicionales para describir cómo responde el sistema a las señales de referencia. El comportamiento lineal del sistema viene determinado por las seis funciones de transferencia de la ecuación (11.2), y las especificaciones pueden expresarse en términos de estas funciones de transferencia. El caso especial cuando F = 1 se denomina sistema con retroalimentación (pura) del error. En este caso todas las acciones de control se basan en la retroalimentación del error solamente y el sistema se caracteriza completamente por cuatro funciones de transferencia, a saber, las cuatro funciones de transferencia de la derecha en la ecuación (11.2), que tienen nombres específicos: S = 1 sensibilidad P PS = carga función de (11.3) sensibilid PC PC ad función de función C PC CS = T= sensibilidad de 1 + PC complementari 1+ sensibilid PC a ad al ruido Estas funciones de transferencia y sus sistemas equivalentes se denominan Gang of Four. La función de sensibilidad de carga se llama a veces función de sensibilidad de entrada y la función de sensibilidad de ruido se llama a veces función de sensibilidad de salida. Estas funciones de transferencia tienen muchas propiedades interesantes que se discutirán en detalle en el resto del capítulo. Una buena comprensión de estas propiedades es esencial para entender el desempeño de los sistemas de retroalimentación para propósitos de análisis y diseño. Analizando el Gang of Six, encontramos que el controlador de 1+ función 1+ 318 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA retroalimentación C influye en los efectos de las perturbaciones de la carga y el ruido de la medición. Obsérvese que el ruido de medición entra en el proceso a través de la retroalimentación. En la Sección 12.2 se mostrará que el controlador influye en la sensibilidad del lazo cerrado a las variaciones del proceso. 318 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA w P u z y C Figura 11.2: Una representación más general de un sistema de retroalimentación. La entrada del proceso u representa la señal de control, que puede ser manipulada, y la entrada del proceso w representa otras señales que influyen en el proceso. La salida del proceso y es el vector de variables medidas y z son otras señales de interés. La parte feedforward F del controlador influye sólo en la respuesta a las señales de mando. En el capítulo 9 nos centramos en la función de transferencia del bucle, y descubrimos que sus propiedades proporcionaban información útil sobre las propiedades de un sistema. Para hacer una evaluación adecuada de un sistema de retroalimentación es necesario considerar las propiedades de todas las funciones de transferencia (11.2) en la Banda de Seis o la Banda de Cuatro, como se ilustra en el siguiente ejemplo. Ejemplo 11.1 La función de transferencia del bucle sólo ofrece una visión limitada Consideremos un proceso con la función de transferencia P(s) = 1/(s a) controlado por un controlador PI con retroalimentación de error que - tiene la función de transferencia C(s) = k(s a)/s. La función de transferencia del lazo es L = k/s, y las funciones de sensibilidad son k P s PC = , T= , PS = = 1+ 1 + PC s + (s - a)(s + k) PC C k k(s - a) 1 s CS = = , S= = . 1 + PC s+ 1+ s+k k PC Obsérvese que el factor- s a se cancela al calcular la función de transferencia del bucle y que este factor tampoco aparece en la función de sensibilidad ni en la función de sensibilidad complementaria. Sin embargo, la cancelación del factor es muy grave si a > 0 ya que la función de transferencia PS que relaciona las perturbaciones de carga con la salida del proceso es entonces inestable. En particular, una pequeña perturbación d puede conducir a una salida no limitada, lo que claramente no es deseable. El sistema de la figura 11.1 representa un caso especial porque se supone que la perturbación de la carga entra en la entrada del proceso y que la salida medida es la suma de la variable del proceso y el ruido de la medición. Las perturbaciones pueden entrar de muchas maneras diferentes, y los sensores pueden tener dinámica. Una forma más abstracta de capturar el caso general se muestra en la figura 11.2, que tiene sólo dos bloques que representan el proceso (P) y el controlador (C ). El proceso tiene dos entradas, la señal de control u y un vector de perturbaciones w, y dos salidas, la señal medida y y un vector de señales z que se utiliza para especificar el rendimiento. Si omitimos el entrada de referencia r, el sistema de la Figura 11.1 puede capturarse eligiendo w = (d, n) y z = (, , e, ). La función de transferencia del proceso P es una matriz de 5 × 3, y la función de transferencia del controlador C es una matriz de 1 × 1; compárese con el Ejercicio 11.3. 319 11.2. DISEÑO FEEDFORWARD Fu(s) ufd ufr r d Fd (s) uff Fm(s) ym e C(s) ufb P1(s) P2(s) y -1 Figura 11.3: Diagrama de bloques de un sistema con compensación de avance para mejorar la respuesta a las señales de referencia y a las perturbaciones medidas (sistema de 2 DOF). Hay tres elementos feedforward: Fm(s) establece el valor de salida deseado, Fu(s) genera el feedforward comando ufr y Fd (s) intenta anular las perturbaciones. Los procesos con múltiples entradas y salidas también pueden considerarse considerando u e y como vectores. Las representaciones a estos niveles superiores de abstracción son útiles para el desarrollo de la teoría porque permiten centrarse en los fundamentos y resolver problemas generales con una amplia gama de aplicaciones. Sin embargo, hay que tener cuidado para mantener el acoplamiento con los problemas de control del mundo real que pretendemos resolver. 11.2 Diseño de Feedforward Hasta ahora, la mayoría de nuestras herramientas de análisis y diseño se han centrado en el papel de la retroalimentación y su efecto en la dinámica del sistema. El feedforward es una técnica sencilla y potente que complementa la retroalimentación. Puede utilizarse tanto para mejorar la respuesta a las señales de referencia como para reducir el efecto de las perturbaciones medibles. La compensación feedforward admite la eliminación perfecta de las perturbaciones, pero es mucho más sensible a las variaciones del proceso que la compensación por retroalimentación. En la sección 7.5 se discutió un esquema general para el feedforward utilizando la figura 7.10. Una forma simple de feedforward para controladores PID se discutió en la Sección 10.5. El controlador de la Figura 11.1 también tiene un bloque de feedforward para mejorar la respuesta a las señales de comando. Una versión alternativa de feedforward se muestra en la Figura 11.3, que usaremos en esta sección para entender algunas de las compensaciones entre feedforward y retroalimentación. Los controladores con dos grados de libertad (feedforward y feedback) tienen la ventaja de que la respuesta a las señales de referencia puede diseñarse independientemente del diseño para la atenuación de las perturbaciones y la robustez. En primer lugar, consideraremos la respuesta a las señales de referencia, por lo que supondremos inicialmente que la perturbación de la carga d es nula. Dejemos que Fm represente la respuesta ideal del sistema a las señales de referencia. El compensador feedforward se caracteriza por las funciones de transferencia Fu y Fm . Cuando se cambia la referencia, la función de transferencia Fu genera la señal ufr , que se elige para dar la salida deseada cuando se aplica como entrada al proceso. En condiciones ideales la salida y es entonces igual a ym , la señal de error 320 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA es cero y no habrá ninguna acción de retroalimentación. Si hay perturbaciones o errores de modelización, las señales ym e y serán diferentes. La retroalimentación intenta entonces llevar el error a cero. Para hacer un análisis formal, calculamos la función de transferencia de la entrada de referencia a la salida del proceso: P(CFm + Fu) PFu - Fm Gyr (s) = = Fm + , (11.4) 1 + PC 1 + PC donde P = P2 P1 . El primer término representa la función de transferencia deseada. El segundo término puede hacerse pequeño de dos maneras. Se puede utilizar la -compensación feedforward para hacer que PFu Fm sea pequeño, o se puede utilizar la compensación de retroalimentación para hacer que 1 + PC sea grande. La compensación perfecta de avance se obtiene eligiendo Fm Fu = . (11.5) P El diseño del feedforward mediante funciones de transferencia es, por tanto, una tarea muy sencilla. Obsérvese que el compensador de avance Fu contiene un modelo inverso de la dinámica del proceso. La retroalimentación y el feedforward tienen propiedades diferentes. La acción de feedforward se obtiene haciendo coincidir dos funciones de transferencia, lo que requiere un conocimiento preciso de la dinámica del proceso, mientras que la retroalimentación intenta hacer que el error sea pequeño dividiéndolo por una cantidad grande. Para un controlador con acción integral, la ganancia del bucle es grande para las frecuencias bajas, y por lo tanto es suficiente para asegurarse de que la condición para el feedforward ideal se mantiene en las frecuencias más altas. Esto es más fácil que tratar de satisfacer la condición (11.5) para todas las frecuencias. Ahora consideraremos la reducción de los efectos de la perturbación de la carga d en la Figura 11.3 mediante el control de avance. Suponemos que la señal de perturbación se mide y que la perturbación entra en la dinámica del proceso de una manera conocida (captado por P1 y P2 ). El efecto de la perturbación puede reducirse alimentando la señal medida a través de un sistema dinámico con la función de transferencia Fd . Suponiendo que la referencia r es cero, podemos utilizar el álgebra del diagrama de bloques para encontrar que la función de transferencia de la perturbación a la salida del proceso es P2(1 + Fd P1) , (11.6) 1 + PC donde P = P1 P2 . El efecto de la perturbación puede reducirse haciendo 1 + Fd P1 pequeño (feedforward) o haciendo 1 + PC grande (feedback). La compensación perfecta se obtiene eligiendo Fd = -P1-1, (11.7) Gyd = que requiere la inversión de la función de transferencia P1 . Como en el caso del seguimiento de la referencia, la atenuación de las perturbaciones se puede lograr mediante la combinación de la retroalimentación y el control de avance. Ya que las perturbaciones de baja frecuencia pueden ser eliminadas por retroalimentación, requerimos el uso de la retroalimentación sólo para las perturbaciones de alta frecuencia, y la función de transferencia Fd en la ecuación (11.7) puede ser calculada usando una aproximación de P1 para altas frecuencias. 321 11.2. DISEÑO FEEDFORWARD 5 y 0 [m ] -5 0 2 4 6 8 10 4 6 8 Tiempo normalizado t 10 1 [ra d] 0 -1 (a) Vista aérea 0 2 (b) Posición y dirección Figura 11.4: Control feedforward para la dirección del vehículo. El gráfico de la izquierda muestra la trayectoria generada por el controlador para el cambio de carril. Los gráficos de la derecha muestran la desviación lateral y (arriba) y el ángulo de dirección (abajo) para un control de cambio de carril suave utilizando feedforward (basado en el modelo linealizado). Las ecuaciones (11.5) y (11.7) dan expresiones analíticas para el compensador de avance. Para obtener una función de transferencia que pueda ser implementada sin dificultades requerimos que el compensador feedforward sea estable y que no requiera diferenciación. Por lo tanto, puede haber restricciones en las posibles elecciones de la respuesta deseada Fm , y se necesitan aproximaciones si el proceso tiene ceros en el semiplano derecho o retrasos de tiempo. Ejemplo 11.2 Dirección del vehículo En el ejemplo 6.4 se presentó un modelo linealizado para la dirección del vehículo. La función de transferencia normalizada del ángulo de dirección a la desviación lateral y es P(s) = (s + 1)/s2 . Para un sistema de transferencia de carril nos gustaría tener una respuesta agradable sin sobrepasar el límite, y por lo tanto elegimos la respuesta deseada como Fm (s) = a2 /(s + a)2 , donde la velocidad de respuesta o agresividad de la dirección está gobernada por el parámetro a. La ecuación (11.5) da Fm a2s2 F = = , u P (s + 1)(s + a)2 que es una función de transferencia estable siempre que 0. La figura 11.4 muestra las respuestas del sistema para a = 0,5. La figura muestra que un cambio de carril se realiza en unas 10 longitudes de vehículo con ángulos de dirección suaves. El mayor ángulo de dirección es ligeramente superior a 0,1 rad (6◦ ). Utilizando las variables a escala, la curva que muestra las desviaciones laterales (y en función de t) también puede interpretarse como la trayectoria del vehículo (y en función de x) con la longitud del vehículo como unidad de longitud. Una de las principales ventajas de los controladores con dos grados de libertad que combinan la retroalimentación y el feedforward es que el problema de diseño del control puede dividirse en dos partes. El controlador de retroalimentación C puede diseñarse para proporcionar una buena robustez y una atenuación eficaz de las perturbaciones, y la parte de avance puede diseñarse de forma independiente para proporcionar la respuesta deseada a las señales de comando. 322 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA 11.3 Rendimiento Especificaciones Un elemento clave del proceso de diseño de controles es la forma de especificar el rendimiento deseado del sistema. También es importante que los usuarios entiendan las especificaciones de rendimiento para saber qué pedir y cómo probar un sistema. Las especificaciones se dan a menudo en términos de robustez frente a las variaciones del proceso y las respuestas a las señales de referencia y las perturbaciones. Pueden darse en términos de respuestas en tiempo y en frecuencia. En la figura 5.9 del apartado 5.3 y en el apartado 6.3 se han dado especificaciones para la respuesta a las señales de referencia. Las especificaciones de robustez basadas en los conceptos del dominio de la frecuencia se proporcionaron en la sección 9.3 y se estudiarán más a fondo en el capítulo 12. Las especificaciones comentadas anteriormente se basaban en la función de transferencia del bucle. Dado que en la sección 11.1 hemos comprobado que una única función de transferencia no siempre caracteriza las propiedades del bucle cerrado de forma completa, en esta sección daremos un análisis más completo de las especificaciones, basado en el Gang of Six completo. La función de transferencia ofrece una buena caracterización del comportamiento lineal de un sistema. Para proporcionar especificaciones es deseable capturar las propiedades características de un sistema con unos pocos parámetros. Las características comunes de las respuestas temporales son el rebasamiento, el tiempo de subida y el tiempo de estabilización, como se muestra en la figura 5.9. Las características más comunes de las respuestas en frecuencia son el pico de resonancia, la frecuencia de pico, la frecuencia de cruce de la ganancia y el ancho de banda. Un pico de resonancia es un máximo de la ganancia, y la frecuencia de pico es la frecuencia correspondiente. La frecuencia de cruce de la ganancia es la frecuencia en la que la ganancia de bucle abierto es igual a u n o √ . El ancho de banda se define como la gama de frecuencias en la que la ganancia del bucle cerrado es 1/ 2 de la ganancia de baja frecuencia (low-pass), ganancia de frecuencia media (band-pass) o ganancia de frecuencia alta (high-pass). Existen relaciones interesantes entre las especificaciones en los dominios del tiempo y la frecuencia. A grandes rasgos, el comportamiento de las respuestas temporales para tiempos cortos está relacionado con el comportamiento de las respuestas frecuenciales a altas frecuencias, y viceversa. Las relaciones precisas no son triviales. Respuesta a las señales de referencia Considere el bucle básico de retroalimentación de la figura 11.1. La respuesta a las señales de referencia se describe mediante las funciones de transferencia Gyr = PCF/(1 + PC) y Gur = CF/(1 + PC) (F = 1 para sistemas con retroalimentación de error). Obsérvese que es útil considerar tanto la respuesta de la salida como la de la señal de control. En particular, la La respuesta de la señal de control nos permite juzgar la magnitud y la velocidad de la señal de control necesaria para obtener la respuesta de salida. Ejemplo 11.3 Sistema de tercer orden Considere un proceso con la función de transferencia P(s) = (s + 1)−3 y un controlador PI con retroalimentación de error que tiene las ganancias kp = 0.6 y ki = 0.5. Las respuestas se ilustran en la figura 11.5. Las líneas continuas muestran los resultados de un controlador proporcional-integral (PI) 11.2. DISEÑO FEEDFORWARD 323 controlador con retroalimentación de errores. Las líneas discontinuas muestran los resultados de un controlador con feedforward diseñado para dar la función de transferencia Gyr = (0.5s + 1)−3 . Observando las respuestas temporales, encontramos que el controlador con feedforward da un 323 11.3. ESPECIFICACIONES DE RENDIMIENTO 1.5 |Gyr 100 (i)| Sa 1 lid a y 0.5 0 0 5 10 Retroalimentació n de errores Con feedforward 15 20 25 10−1 100 101 100 Frecuencia rad/s] 101 101 10 En tra 5 da u 0 10-1 |Gur (i)| 100 0 5 10 15 Tiempo t [s] 20 (a) Respuestas al paso 25 10-1 10−1 (b) Respuestas en frecuencia Figura 11.5: Respuestas de la señal de referencia. Las respuestas en la salida del proceso y y la señal de control u a un paso unitario en la señal de referencia r se muestran en (a), y las curvas de ganancia de Gyr y Gur se muestran en (b). Los resultados con control PI con retroalimentación de error se muestran con líneas sólidas, y las líneas discontinuas muestran los resultados para un controlador con un compensador de avance. respuesta sin rebasamiento. Sin embargo, se necesitan señales de control mucho mayores para obtener la respuesta rápida. El valor más grande de la señal de control es 8, en comparación con 1,2 para el controlador PI normal. El controlador con feedforward tiene un mayor ancho de banda (marcado con ) y no tiene pico de resonancia. La función de ◦ transferencia Gur también tiene una mayor ganancia a altas frecuencias. Respuesta a las perturbaciones de la carga y al ruido de las mediciones Un criterio sencillo para la atenuación de las perturbaciones consiste en comparar la salida del sistema de bucle cerrado de la figura 11.1 con la salida del correspondiente sistema de bucle abierto obtenida fijando C = 0. Si dejamos que las perturbaciones de los sistemas de bucle abierto y cerrado sean idénticas, la salida del sistema de bucle cerrado se obtiene entonces simplemente pasando la salida del bucle abierto a través de un sistema con la función de transferencia La función de sensibilidad indica cómo las variaciones en la salida son influenciadas por la retroalimentación (Ejercicio 11.7). Las perturbaciones | | con frecuencias tales como S(i) < 1 son atenuadas, pero las | perturbaciones con | frecuencias tales como S(i) > 1 son am- plificadas por la retroalimentación. La máxima sensibilidad Ms , que ocurre en la frecuencia ms , es por tanto una medida de la mayor amplificación de las perturbaciones. La magnitud máxima de 1/(1 + L) es también el mínimo de | | 1 + L , que es precisamente el margen de estabilidad sm definido en la sección 9.3, de modo que Ms = 1/sm . Por tanto, la sensibilidad máxima es también una medida de robustez. Si se conoce la función de sensibilidad, las mejoras potenciales por retroalimentación pueden evaluarse simplemente registrando una salida típica y filtrándola a través de la función de sensibilidad. Un gráfico de la curva de ganancia de la función de sensibilidad es una buena manera de hacer una evaluación de la atenuación de las perturbaciones. Dado que la sensibilidad 324 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA 101 So y |L(i)| 0 10 Re -1 10-1 101 sm ms |S(i)| 0 10 sc 10-1 10−1 0 10 Frecuencia rad/s] (a) Curvas de ganancia (b) Diagrama de Nyquist Figura 11.6: Interpretación gráfica de la función de sensibilidad. Las curvas de ganancia de la función de transferencia de bucle y la función de sensibilidad (a) pueden utilizarse para calcular las propiedades de la función de sensibilidad mediante la relación S = 1/(1 + L). La frecuencia de cruce de la sensibilidad sc y la frecuencia ms donde la sensibilidad tiene su mayor valor se indican en el gráfico de sensibilidad. El gráfico de Nyquist (b) muestra la misma información de forma diferente. Todos los puntos dentro del círculo discontinuo tienen sensibilidades superiores a 1. depende sólo de la función de transferencia del bucle, sus propiedades también pueden visualizarse gráficamente utilizando el gráfico de Nyquist de la función de transferencia del bucle. Esto se ilustra en la Figura 11.6. El número complejo 1 + L(i) puede representarse - como el vector del punto 1 al punto L(i) de la curva de Nyquist. El sensies menor que 1 para todos los puntos fuera de un círculo con radio 1 y centro en - 1. Las perturbaciones con frecuencias en este rango son atenuadas por la retroalimentación. La función de transferencia Gyd de la perturbación de carga d a la salida de proceso y para el sistema de la figura 11.1 es P T Gyd = = PS = . (11.8) C 1 + PC Dado que las perturbaciones de la carga suelen tener frecuencias bajas, es natural centrarse en el comportamiento de la función de transferencia a bajas / frecuencias. Para un sistema con P(0) = 0 y un controlador con acción integral, la ganancia del controlador va al infinito para frecuencias pequeñas y tenemos la siguiente aproximación para s pequeños: T 1 s G = ≈ ≈ , (11.9) yd C C ki donde ki es la ganancia integral. Dado que la función de sensibilidad S va a 1 para grandes s, tenemos la aproximación Gyd P para altas frecuencias. ≈ El ruido de medición, que suele tener altas frecuencias, genera variaciones rápidas en la variable de control que son perjudiciales porque causan desgaste en muchos actuadores y pueden incluso saturar un actuador. Por lo tanto, es importante mantener las variaciones de la señal de control debidas al ruido de la medición en niveles razonables; un requisito típico es que las variaciones sean sólo una fracción del intervalo de la señal de control. Las variaciones pueden ser influenciadas por el filtrado y por el diseño adecuado de la señal de control. 325 11.3. ESPECIFICACIONES DE RENDIMIENTO 20 0.4 Sa lid ay 0.2 0 -0.2 0 5 10 15 Tiempo t [s] 20 En tra 10 da u 0 0 0.5 1 1.5 Tiempo t [s] 2 102 100 |Gyd (i)| 10-1 |Gun (i)| 101 10-2 10−1 100 101 Frecuencia rad/s] (a) Respuesta de la carga de salida 100 10−1 100 101 Frecuencia rad/s] 102 (b) Respuesta al ruido de entrada Figura 11.7: Respuestas a las perturbaciones. Las respuestas en tiempo y frecuencia de la salida del proceso y a la perturbación de la carga d se muestran en (a) y las respuestas de la señal de control u al ruido de medición n se muestran en (b). propiedades de frecuencia del controlador. Los efectos del ruido de la medición se captan mediante la función de transferencia del ruido de la medición a la señal de control, C T -Gun = = CS = . (11.10) 1 + PC P La función de sensibilidad complementaria es cercana a 1 para las frecuencias bajas ( < gc ), y Gun puede aproximarse por -1/P. La función de sensibilidad se aproxima a 1 para frecuencias altas ( >gc ), y Gun puede aproximarse por -C. Ejemplo 11.4 Sistema de tercer orden Consideremos un proceso con la función de transferencia P(s) = (s + 1)−3 y un controlador proporcional-integral-derivativo (PID) con ganancias kp = 0,6, ki = 0,5 y kd = 2,0. Aumentamos el controlador utilizando un filtro de ruido de segundo orden con Tf = 0,1, de modo que su la función de k s2 + s + k k transferencia es d p i C(s) = . 2 s(s2T /2 + sTf + 1) f Las respuestas del sistema se ilustran en la figura 11.7. La respuesta de la salida a un escalón en la perturbación de la carga en la parte superior de la Figura 11.7a tiene un pico de 0,28 en el tiempo t = 2,73 s. La respuesta en frecuencia en la Figura 11.7a muestra que la ganancia tiene un máximo de 0,58 a = 0,7 rad/s. En la figura 11.7b se muestra la respuesta de la señal de control a un escalón de ruido de medición. La caída de alta frecuencia de la función de transferencia Gun (i) se debe al filtrado; sin él, la curva de ganancia de la figura 11.7b seguiría aumentando después de 20 rad/s. La respuesta al escalón tiene un pico de 13 a t = 0,08 s. La respuesta en frecuencia tiene su pico 20 a = 14 rad/s. Observe que el pico se produce muy por encima del pico 326 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA Atenuación de las perturbaciones de la carga log|L (i)| log|S (i)| Robustez gc Ruido de medición de alta frecuencia registr log|T (i)| registr Figura 11.8: Curva de ganancia y funciones de sensibilidad para una función de transferencia de bucle típica. El gráfico de la izquierda muestra la curva de ganancia y los gráficos de la derecha muestran la función de sensibilidad y la función de sensibilidad complementaria. La frecuencia de cruce de la ganancia gc y la pendiente ngc de la curva de ganancia en el cruce son parámetros importantes que determinan la robustez de los sistemas de bucle cerrado. A baja frecuencia, una magnitud grande para L proporciona un buen rechazo de la perturbación de la carga y el seguimiento de la referencia, mientras que a alta frecuencia se utiliza una ganancia de bucle pequeña para evitar la amplificación del ruido de medición. de la respuesta a las perturbaciones de la carga y muy por encima de la frecuencia de cruce de la ganancia gc = 0,78 rad/s. Una aproximación√derivada en el Ejercicio 11.9 da max|CS(i)| ≈ kd /Tf = 20, que se produce en = 2/Td = 14,1 rad/s. 11.4 Diseño de la retroalimentación mediante el bucle Shaping Una ventaja del teorema de estabilidad de Nyquist es que se basa en la función de transferencia del bucle, que está relacionada con la función de transferencia del controlador a través de L = PC. Por lo tanto, es fácil ver cómo el controlador influye en la función de transferencia del bucle. Para hacer estable un sistema inestable simplemente tenemos que doblar la curva de Nyquist lejos del punto crítico. Esta sencilla idea es la base de varios métodos de diseño diferentes, denominados colectivamente "conformación del bucle". Estos métodos se basan en la elección de un compensador que proporcione una función de transferencia de bucle con la forma deseada. Una posibilidad es determinar una función de transferencia de bucle que dé un sistema de bucle cerrado con las propiedades deseadas y calcular el controlador como C = L/P. Otra es empezar con el proceso función de transferencia, cambiar su ganancia y luego añadir polos y ceros hasta la forma se obtiene. En esta sección exploraremos diferentes métodos de conformación del bucle para el diseño de la ley de control. Consideraciones sobre el diseño Primero discutiremos una forma adecuada para la función de transferencia de bucle que proporciona un buen rendimiento y buenos márgenes de estabilidad. La figura 11.8 muestra una función de transferencia de bucle típica. Una buena robustez requiere buenos márgenes de estabilidad (o buena ganancia y 327 11.4. DISEÑO DE LA RETROALIMENTACIÓN MEDIANTE LA CONFORMACIÓN DEL BUCLE márgenes de fase), lo que impone requisitos a la función de transferencia del bucle en torno a las frecuencias de crucepc ygc . La ganancia de L a bajas frecuencias debe ser grande para tener un buen seguimiento de las señales de mando y una buena atenuación de las perturbaciones de baja frecuencia. Dado que S = 1/(1 | + L), se deduce que para las frecuencias donde |L > 101 las perturbaciones serán atenuadas por un factor de 100 y el seguimiento es inferior al 1%. Por lo tanto, es deseable tener una gran frecuencia de cruce y una pendiente pronunciada (negativa) de la curva de ganancia. La ganancia a bajas frecuencias puede aumentarse con un controlador de acción integral, lo que también se denomina compensación de retardo. Para evitar inyectar demasiado ruido de medición en el sistema, la función de transferencia del bucle debe tener una ganancia baja a altas frecuencias, lo que se denomina roll-off de alta frecuencia. La elección de la frecuencia de cruce de la ganancia es un compromiso entre la atenuación de las perturbaciones de la carga, la inyección de ruido de medición y la robustez. Las relaciones de Bode (véase el apartado 9.4) imponen restricciones a la forma de la función de transferencia del bucle. La ecuación (9.8) implica que la pendiente de la curva de ganancia en el cruce de ganancia no puede ser demasiado pronunciada. Si la curva de ganancia tiene una pendiente constante, tenemos la siguiente relación entre la pendiente ngc y el margen de fasem : ngc = -2 + . (11.11) Esta fórmula es una aproximación razonable cuando la curva de ganancia no se desvía demasiado de una línea recta. De la ecuación (11.11) se deduce que los márgenes de fase 30◦ , 45◦ y 60◦ corresponden a las-pendientes 5/3, 3/2 - y 4/3. El modelado del bucle es un procedimiento de prueba y error. Por lo general, empezamos con un gráfico de Bode de la función de transferencia del proceso. A continuación, intentamos dar forma a la función de transferencia del bucle cambiando la ganancia del controlador y añadiendo polos y ceros a la función de transferencia del controlador. Se evalúan diferentes especificaciones de rendimiento para cada controlador, ya que intentamos equilibrar muchos requisitos diferentes ajustando los parámetros y la complejidad del controlador. El modelado del bucle es sencillo de aplicar a sistemas de una sola entrada y una sola salida. También puede aplicarse a sistemas con una entrada y muchas salidas cerrando los bucles de uno en uno, empezando por el más interno. La única limitación para los sistemas de fase mínima es que pueden ser necesarios grandes avances de fase y elevadas ganancias del controlador para obtener sistemas de bucle cerrado con una respuesta rápida. Existen muchos procedimientos específicos: todos ellos requieren experiencia, pero también ofrecen una buena visión de los requisitos conflictivos. Existen limitaciones fundamentales a lo que se puede conseguir en los sistemas que no son de fase mínima; se discutirán en la siguiente sección. Compensación por adelantado y por atraso Una forma sencilla de hacer la conformación del bucle es comenzar con la función de transferencia del proceso y añadir compensadores simples con la función de transferencia +a C(s) = ks . s+b (11.12) 328 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA 101 101 |C(i) 0 10 | |C(i) 0 10 | PD princ ipal 10-1 90 ∠ 45 C(i ) 0 a b Frecuencia rad/s] (a) Compensación de plomo, a<b Lag PI 10-1 0 ∠ -45 C(i ) -90 b a Frecuencia rad/s] (b) Compensación del retraso, b < a Figura 11.9: Respuesta en frecuencia de los compensadores de adelanto y retraso C(s) = k(s + a)/(s + b). La compensación de avance (a) se produce cuando a < b y proporciona un avance de fase entre = a y = b. La compensación de retraso (b) corresponde a a > b y proporciona una ganancia de baja frecuencia. El control PI es un caso especial de compensación de retraso y el control PD es un caso especial de compensación de avance. Las respuestas en frecuencia de PI/PD se muestran con curvas discontinuas. El controlador PI es un caso especial de un compensador de retardo con b = 0, y el controlador PD ideal es un caso especial de un compensador de retardo con a = 0. En la figura 11.9 se muestran los gráficos de Bode de los compensadores de retardo y de retardo. La compensación de retardo, que incrementa la ganancia a bajas frecuencias, se utiliza típicamente para mejorar la pervivencia del seguimiento y la atenuación de las perturbaciones a bajas frecuencias. También se pueden diseñar compensadores adaptados a perturbaciones específicas, como se muestra en el Ejercicio 11.10. La compensación de plomo se utiliza normalmente para mejorar el margen de fase. Los siguientes ejemplos son ilustrativos. Ejemplo 11.5 Microscopio de fuerza atómica en modo de golpeo En el ejercicio 9.2 se ha dado un modelo simple de la dinámica del movimiento vertical de un micróscopo de fuerza atómica en modo de golpeo. La función de transferencia para la dinámica del sistema es s a(1 - e− ) P(s) = , s(s + a) donde a =0 , = 0 y la ganancia se ha normalizado a 1. En la figura 11.10a se muestra un diagrama de Bode de esta función de transferencia para los parámetros a = 1 y = 0,25 en curvas discontinuas. Para mejorar la atenuación de las perturbaciones de la carga inAumentamos la ganancia de baja frecuencia introduciendo un controlador integral. La función de transición del bucle se convierte entonces en L = ki P(s)/s, y ajustamos la ganancia para que el margen de fase sea cero, dando ki = 8,3. Obsérvese el aumento de la ganancia a bajas frecuencias. El diagrama de Bode se muestra con la línea punteada en la Figura 11.10a, donde el valor crítico El punto se indica con ◦ . Para mejorar el margen de fase introducimos la acción proporcional y aumentamos la ganancia proporcional kp gradualmente hasta obtener valores razonables de las sensibilidades. El valor kp = 3,5 da la máxima sensibilidad 329 11.4. DISEÑO DE LA RETROALIMENTACIÓN MEDIANTE LA CONFORMACIÓN DEL BUCLE 102 |L(i) 100 |, 100 |P(i) | 10-2 |T (i)| P(s) PI Integral 10−2 |PS(i 100 )| 10-1 10-1 10-2 100 102 100 102 10-2 10-2 100 102 100 102 101 0 ∠L (i), -90 ∠P -180 (i) |CS(i |S(i)|100 )| 100 -270 10-2 10-2 100 102 Frecuencia rad/s] (a) Formación de bucles 100 102 Frecuencia rad/s] 10-1 10-2 Frecuencia rad/s] (b) Pandilla de cuatro Figura 11.10: Diseño de lazo de un controlador para un microscopio de fuerza atómica en modo de toma. (a) Diagramas de Bode del proceso (discontinuo), la función de transferencia del bucle para un controlador integral con ganancia crítica (discontinuo) y un controlador PI (sólido) ajustado para dar una robustez razonable. (b) Curvas de ganancia para el Gang of Four del sistema. Ms = 1,6 y la máxima sensibilidad complementaria Mt = 1,3. La función de transferencia del bucle se muestra en líneas sólidas en la figura 11.10a. Obsérvese el aumento significativo del margen de fase en comparación con el controlador puramente integral (línea punteada). Para evaluar el diseño también calculamos las curvas de ganancia de las funciones de transferencia en el Gang of Four. Se muestran en la Figura 11.10b. Los picos de las curvas de sensibilidad son razonables, y el gráfico de PS muestra que el mayor valor de PS es 0,3, lo que implica que las perturbaciones de la carga están bien atenuadas. El gráfico de CS muestra que la mayor ganancia del controlador es 6. El controlador tiene una ganancia de 3,5 a altas frecuencias, y por lo tanto podemos considerar la adición de roll-off de alta frecuencia. Un problema común en el diseño de los sistemas de retroalimentación es que el margen de fase es demasiado pequeño, y entonces hay que añadir adelanto de fase al sistema. Si fijamos a < b en la ecuación (11.12), añadimos adelanto de fase en el rango de frecuencias × entre el par polo/cero (y extendiéndose aproximadamente 10 en frecuencia en cada dirección). Por aproeligiendo la ubicación de este conductor de fase, podemos proporcionar un margen de fase adicional en la frecuencia de cruce de la ganancia. Dado que la fase de una función de transferencia está relacionada con la pendiente de la magnitud, el aumento de la fase requiere el aumento de la ganancia de la función de transferencia del bucle en el rango de frecuencia en el que se aplica la compensación de plomo. En el Ejercicio 11.11 se muestra que la ganancia aumenta exponencialmente con la cantidad de plomo de fase. También podemos pensar que el compensador de plomo cambia la pendiente de la función de transferencia y, por lo tanto, da forma a la función de transferencia del bucle en la región de cruce (aunque también se puede aplicar en otros lugares). Ejemplo 11.6 Control de alabeo para un avión de empuje vectorial 330 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA Símbolo m r y F 2 x Descripción Masa del vehículo4 Valor ,0 kg J Inercia del vehículo, eje 3 0,0475 kg m2 r Brazo de fuerza25 c ,0 cm Coeficiente de amortiguación g Constante gravitacional9 0,05 kg m/s 2 ,8 m/s F1 (a) Modelo simplificado (b) Valores de los parámetros Figura 11.11: Control del alabeo de un avión de empuje vectorial. (a) El ángulo de balanceo se controla aplicando propulsores de maniobra, lo que da lugar a un momento generado por F1 . (b) La tabla enumera los valores de los parámetros para una versión de laboratorio del sistema. Consideremos el control del alabeo de un avión de empuje vectorial como el ilustrado en la Figura 11.11. Siguiendo el ejercicio 8.10, modelamos el sistema con una función de transferencia de segundo orden de la forma r P(s) = , Js2 con los parámetros indicados en la figura 11.11b. Tomamos como especificación de rendimiento que nos gustaría tener menos del 1% de error en estado estacionario y menos del 10% de error de seguimiento hasta 10 rad/s. La función de transferencia en bucle abierto se muestra en la figura 11.12a. Para lograr nuestra especificación de rendimiento, nos gustaría tener una ganancia de al menos 10 a una frecuencia de 10 rad/s, lo que requiere que la frecuencia de cruce de la ganancia esté en una frecuencia más alta. Vemos por la forma del bucle que para conseguir el rendimiento deseado no podemos simplemente aumentar la ganancia ya que esto daría un margen de fase muy bajo. En su lugar, debemos aumentar la fase a la frecuencia de cruce deseada. Para ello, utilizamos un compensador de plomo (11.12) con a = 2 y b = 50. A continuación, ajustamos la ganancia del sistema para proporcionar una gran ganancia de bucle hasta el ancho de banda deseado, como se muestra en la figura 11.12b. Vemos que este sistema tiene una ganancia superior a de 10 en todas las frecuencias hasta 10 rad/s y que tiene más de 60 ◦ de margen de fase. La acción de un compensador de plomo es esencialmente la misma que la de la parte derivativa de un controlador PID. Como se describe en la Sección 10.5, a menudo usamos un filtro para la acción derivativa de un controlador PID para limitar la ganancia de alta frecuencia. Este mismo efecto está presente en un compensador líder a través del polo en s = b. La ecuación (11.12) es un compensador de primer orden y puede proporcionar hasta 90◦ de de fase. Se puede obtener un mayor adelanto de fase utilizando un plomo de orden superior com- 331 11.5. LIMITACIONES FUNDAMENTALES 103 |L(i)| 100 102 |P(i) 0 | 10 10-2 0 10-3 0 ∠P -90 (i) ∠L -90 (i) -180 10−1 101 -180 10−1 101 100 Frecuencia rad/s] (a) Dinámica del proceso 100 102 103 Frecuencia rad/s] (b) Compensador de plomo Figura 11.12: Diseño de control para un avión de empuje vectorial utilizando compensación de plomo. El gráfico de Bode para el proceso de bucle abierto P se muestra en (a) y la función de transferencia del bucle L = PC utilizando un compensador de plomo en (b). Nótese la ventaja de fase en la región de cruce cerca de = 100 rad/s. pensador (Ejercicio 11.11): C(s) = k (s + a)n (s + b)n , a < b. 11.5 Fundamental Limitaciones Aunque la conformación del bucle nos ofrece una gran flexibilidad a la hora de diseñar la respuesta de bucle cerrado de un sistema, existen ciertos límites fundamentales sobre lo que se puede conseguir. Aquí consideramos algunas de las principales limitaciones de rendimiento que pueden producirse debido a una dinámica difícil; las limitaciones adicionales relacionadas con la robustez se consideran en el siguiente capítulo. Polos y ceros del semiplano derecho y retardos Hay sistemas lineales que son intrínsecamente difíciles de controlar. Las limitaciones están relacionadas con los polos y ceros en el semiplano derecho y los retrasos. Para explorar las limitaciones causadas por los polos y ceros en el semiplano derecho, factorizamos la función de transferencia del proceso como P(s) = Pmp (s)Pap (s), (11.13) donde Pmp es la parte de fase mínima y Pap es la parte de fase no mínima. La factorización se normaliza de modo | que Pap | (i) = 1, y el signo se elige de modo que Pap tenga fase negativa. La función de transferencia Pap se denomina sistema de paso total porque tiene ganancia unitaria para todas las frecuencias. Exigiendo que el margen de fase seam , obtenemos arg L(gc ) = arg Pap (gc ) + arg Pmp (gc ) + argC(gc ) ≥ − +m , (11.14) 332 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA donde C es la función de transferencia del regulador. Sea ngc la pendiente de la curva de ganancia en la frecuencia de cruce. Como |Pap (i)| = 1, se deduce que ngc = d log|L(i)| d 11 = = d log|Pmp (i)C(i)| d 1=gc . Suponiendo que la pendiente ngc es negativa, tiene que ser mayor - que 2 para que el sistema sea estable. De las relaciones de Bode, ecuación (9.8), se deduce que arg Pmp (i) + argC(i) ≈ ngc . 2 Combinando esto con la ecuación (11.14) se obtiene la siguiente desigualdad para el desfase permitido de la parte de paso total en la frecuencia de cruce de la ganancia: -arg Pap (gc ) ≤ −m + ngc =:l . (11.15) 2 Esta condición, que denominamos desigualdad de frecuencia de cruce de ganancia, muestra que la frecuencia de cruce de ganancia debe elegirse de forma que el desfase de la componente de fase no mínima no sea demasiado grande. Para sistemas con altos requisitos de robustez podemos elegir un margen de fase de 60◦ -(m = /3) y una pendiente ngc = 1, lo que da un desfase admisiblel = /6 = 0,52 rad (30◦ ). Para sistemas en los que podemos aceptar una menor robustez podemos elegir un margen de fase de 45◦ (m = /4) y la pendiente ngc = 1/2, lo que da un desfase admisible ◦ l = = 1,57 rad (90 ). La desigualdad de la frecuencia de cruce muestra que los componentes de fase no mínimos imponen severas restricciones a las posibles frecuencias de cruce. También significa que hay sistemas que no pueden controlarse con márgenes de estabilidad suficientes. Ilustramos las limitaciones en una serie de situaciones habituales. Ejemplo 11.7 Cero en el semiplano derecho La parte de fase no mínima de la función de transferencia del proceso para un sistema con un medio plano derecho cero es z-s Pap (s) = , z+s donde z > 0. El desfase de la parte de fase no mínima es -arg Pap (i) = 2 arctan . z Como el desfase de Pap aumenta con la frecuencia, la desigualdad (11.15) da el siguiente límite en la frecuencia de cruce: gc < z tan(l /2). (11.16) Conl = /3 obtenemosgc < 0,6 z. Por lo tanto, los ceros lentos del semiplano derecho (z pequeño) dan restricciones más estrictas a las posibles frecuencias de cruce de ganancia que los ceros rápidos del semiplano derecho. 333 11.5. LIMITACIONES FUNDAMENTALES Los retardos temporales también imponen limitaciones similares a las dadas por los ceros en el semiplano derecho. Podemos entender esto intuitivamente a partir de la aproximación de Pade 1 - 0,5s 2/ - s e-s ≈ = . 1 + 0.5s 2/ + s Por lo tanto, un gran retardo equivale a un medio plano derecho lento z = 2/. Ejemplo 11.8 Polo en el semiplano derecho La parte de fase no mínima de la función de transferencia para un sistema con un polo en el semiplano derecho es s+p Pap (s) = , s-p donde p > 0. El desfase de la parte de fase no mínima es p -arg Pap (i) = 2 arctan , y la desigualdad de la frecuencia de cruce se convierte en p gc > . tan(l /2) (11.17) Los polos del semiplano derecho requieren, por tanto, que el sistema de bucle cerrado tenga un ancho de banda suficientemente alto. Conl = /3 obtenemosgc > 1,7p. Por lo tanto, los polos semiplanos derechos rápidos (p grande) ofrecen restricciones más estrictas sobre las posibles frecuencias de cruce de la ganancia que los polos semiplanos derechos lentos. El control de los sistemas inestables impone unos requisitos mínimos de ancho de banda para los actuadores y sensores del proceso. Ahora consideraremos sistemas con un medio plano derecho cero z y un polo medio plano derecho p. Si p = z, habrá un subsistema inestable que no es alcanzable ni observable, y el sistema no puede ser estabilizado (véase la sección 7.5). Por lo tanto, podemos esperar que el sistema sea difícil de controlar si el polo del semiplano derecho y el cero están cerca. Una forma directa de utilizar la frecuencia de cruce en igualdad es trazar la fase del factor de fase no mínimo Pap de la función de transferencia del proceso. Este gráfico, que puede incorporarse a un gráfico de Bode ordinario, mostrará inmediatamente las frecuencias de cruce de ganancia permitidas. En la figura 11.13 se ilustra la fase de Pap para sistemas con un par polo/cero en el semiplano derecho y sistemas con un polo en el semiplano derecho y un retardo de tiempo. Si exigimos que el desfasel del factor de fase no mínimo sea inferior a 90◦ , debemos exigir que la relación z/p sea mayor que 6 o menor que 1/6 para los sistemas con polos y ceros del semiplano derecho y que el producto sea menor que 0,3 para sistemas con retardo de tiempo y un polo de medio plano derecho. Observe la simetría del problema para z > p y z < p: en ambos casos los ceros y los polos deben estar suficientemente separados (Ejercicio 11.12). Observe también que los posibles valores de la frecuencia de cruce de la gananciagc son bastante restringidos. Utilizando la teoría de funciones de variables complejas, se puede demostrar que para sistemas con un polo p de medio plano derecho y un cero de medio plano derecho z (o un retardo de tiempo 334 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA 0 b=0.01 b=0.05 =0.02 =0.1 b=20 ∠P ap 0 b=100 ∠P -90 b=0.2 (i) ap b=5 -90 =0.5 (i) =1 -180 10−2 -180 10−2 100 102 Frecuencia rad/s] 100 Frecuencia rad/s] 102 (b) Poste de RHP y tiempo de retardo (a) Polo/par de cero RHP Figura 11.13: Ejemplo de limitaciones debidas a la desigualdad de la frecuencia de cruce de la ganancia. Las figuras muestran el desfase del factor de paso total Pap en función de la frecuencia. Dado que el desfase de Pap en la frecuencia de cruce de ganancia no puede ser demasiado grande, es necesario elegir el ganancia de la frecuencia de cruce correctamente. Todos los sistemas tienen un polo medio plano derecho en s = 1. El sistema de (a) tiene ceros en s = 2, 5, 20 y 100 (líneas continuas) y en s = 0,5, 0,2, 0,05 y 0,01 (líneas discontinuas). El sistema de (b) tiene retrasos de tiempo = 0,02 0,1, 0,5 y 1. ), cualquier controlador estabilizador da funciones de sensibilidad con la propiedad sup|S(i)| ≥ p+z , |p - z| sup|T (i)| ≥ ep . (11.18) Este resultado se demuestra en el ejercicio 11.13. Como muestran los ejemplos anteriores, los polos y los ceros del semiplano derecho limitan considerablemente el rendimiento de un sistema, por lo que es conveniente evitarlos siempre que sea posible. Los polos de un sistema dependen de la dinámica intrínseca del sistema y vienen dados por los valores propios de la matriz dinámica A de un sistema lineal. Los sensores y actuadores no tienen ningún efecto sobre los polos; la única manera de cambiar los polos es rediseñar el sistema. Hay que tener en cuenta que esto no implica que haya que evitar los sistemas inestables. De hecho, los sistemas inestables pueden tener ventajas; un ejemplo son los aviones supersónicos de alto rendimiento. Los ceros de un sistema dependen de cómo se acoplen los sensores y los actuadores a los estados. Los ceros dependen de todas las matrices A, B, C y D de un sistema lineal. Por lo tanto, los ceros pueden ser influenciados por el movimiento de los sensores y actuadores o por la adición de sensores y actuadores. Obsérvese que un sistema totalmente actuado B = I no tiene ningún cero. Ejemplo 11.9 Sistema de equilibrio Como ejemplo de un sistema con polos y ceros en el semiplano derecho, consideremos el 335 11.5. LIMITACIONES FUNDAMENTALES sistema de equilibrio con amortiguación cero, cuya dinámica viene dada por ml HF = , m2l2 -(Mt Jt )s2 + mglMt 2 mgl Js+ tHpF = . s2 -(Mt Jt - m2l2)s2 + mglMt Supongamos que queremos estabilizar el péndulo utilizando la posición del carro como señal de la fuerza de entrada F a j medición. La función de transferencia de{ j ± la posición del carro m2l2 p tiene polos 0, 0, mglMt /(Mt Jt ) y ceros mgl/Jt . Utilizando los parámetros } {± } del ejemplo 6.7, el polo del semiplano derecho está en p = 2,68 y el cero está en | S(i)| ≥8, lo que muestra que no es z = 2,09. La ecuación (11.18) da entonces posible controlar el sistema de manera robusta. El medio plano derecho del sistema puede eliminarse cambiando la salida del sistema. Por ejemplo, si elegimos que la salida corresponda a una posición a una distancia r a lo largo del péndulo, tenemos -y = p r y la función de transferencia para la salida linealizada se convierte en H y,F = H pF - rH F= (mlr - Jt )s2 + mgl s2 -(Mt Jt - m2l2)s2 + mglMt . Si elegimos r suficientemente grande, entonces - mlr Jt > 0 y eliminamos el cero del semiplano derecho, obteniendo en su lugar dos ceros imaginarios puros. La desigualdad de la frecuencia de cruce de la ganancia se basa entonces sólo en el polo del semiplano derecho (Ejemplo 11.8). Si nuestro desfase admisible para la parte de fase no mínima esl = 45◦ , entonces nuestro cruce de ganancia debe satisfacer p gc > = 6,48 rad/s. tan(l /2) Si los actuadores tienen un ancho de banda suficientemente alto, por ejemplo, un factor de 10 por encima degc o aproximadamente 10 Hz, entonces podemos proporcionar un seguimiento robusto hasta esta frecuencia. Fórmula integral de Bode Además de proporcionar un margen de fase adecuado para una estabilidad robusta, un diseño de control típico tendrá que satisfacer las condiciones de rendimiento de las funciones de sensibilidad (Gang of Four). En particular, la función de sensibilidad S = 1/(1 + PC) representa la atenuación de la perturbación y también relaciona el error de seguimiento e con la señal de referencia: normalmente queremos que la sensibilidad sea pequeña en el rango de frecuencias donde quieren un pequeño error de seguimiento y una buena atenuación de las perturbaciones. Un problema básico es investigar si S puede hacerse pequeño en un gran rango de frecuencias. Empezaremos por investigar un ejemplo. Ejemplo 11.10 Sistema que admite sensibilidades pequeñas Consideremos un sistema de bucle cerrado formado por un proceso de primer orden y un proceso proporcional 336 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA controlador. Sea la función de transferencia del lazo k L(s) = PC = , s+1 donde el parámetro k es la ganancia del controlador. La función de sensibilidad es s+1 S(s) = s+ 1+ k y tenemos I 1+2 . |S(i)| = 1 + 2k + k2 + 2 Esto implica que|S(i) <| 1 para todas las frecuencias finitas y que la sensibilidad puede hacerse arbitrariamente pequeña para cualquier frecuencia finita haciendo k suficientemente grande. El sistema del ejemplo 11.10 es, por desgracia, una excepción. La característica clave del sistema es que la curva de Nyquist del proceso está completamente contenida en el semiplano derecho. Tales sistemas se llaman pasivos, y sus funciones de transferencia son reales positivas. Para los sistemas de control típicos existen severas restricciones en la función de sensibilidad. El siguiente teorema, debido a Bode, proporciona información sobre los límites del rendimiento bajo retroalimentación. Teorema 11.1 (fórmula integral de Bode). Supongamos que la función de transferencia de bucle L(s) de un sistema de retroalimentación → va a cero más rápido que 1/s como s , y dejemos que S(s) sea la función de sensibilidad. Si la función de transferencia de bucle tiene polos pk en el semiplano derecho, entonces la función de sensibilidad satisface1 la siguiente integral: - log S - log p (11.19) ( )| = | = k. |1 + L(i)| 0 0 La ecuación (11.19) implica que hay limitaciones fundamentales a lo que puede lograrse mediante el control y que el diseño del control puede verse como una redistribución de la atenuación de la perturbación en diferentes frecuencias. En particular, esta ecuación muestra que si la función de sensibilidad se hace más pequeña para algunas frecuencias, debe aumentar en otras para que la | frecuencias | integral de log S(i) permanezca constante. Esto significa que si se mejora la atenuación de las perturbaciones en una gama de frecuencias, se será peor en otro, una propiedad que a veces se denomina efecto cama de agua. También se deduce que los sistemas con polos de bucle abierto en el semiplano derecho tienen una sensibilidad global mayor que los sistemas estables. La ecuación (11.19) puede considerarse como una ley de conservación: si la función de transferencia del bucle no tiene polos en el semiplano derecho, la ecuación se simplifica a - log S | ( )| 0 = 0. Esta fórmula puede tener una buena interpretación geométrica, como se ilustra en la f i g u r a 11.14, que muestra el| log S(i) en función de . El área sobre el eje | horizontal debe ser igual al área bajo el eje cuando la frecuencia se traza en una escala lineal. Por lo tanto, si deseamos que la sensibilidad sea menor hasta cierta frecuencia 337 11.5. LIMITACIONES FUNDAMENTALES Diseño serio 10 s.g 1 log|S 0 (i)| -1 -2 -3 0 1 2 Frecuencia rad/s] (escala lineal) (a) Fórmula integral de Bode 3 Lo g M 1.0 ag nit ud e 0.1 0.0 0.5 1.0 Frecuencia 1.5 2.0 (b) Proceso de diseño del control Figura 11.14: Interpretación del efecto lecho de agua. La función log |S(i) se| representa frente a en escalas lineales en (a). Según la fórmula integral de Bode (11.19), el área de log |S(i) | por encima de cero debe ser igual al área por debajo de cero. La interpretación de Gunter Stein del diseño como La compensación de sensibilidades a diferentes frecuencias se muestra en (b) (de [Ste03]). , debemos equilibrarlo con una mayor sensibilidad por encima desc . El designo del sistema de control puede ser visto como un intercambio de la atenuación de la perturbación en algunas frecuencias para la amplificación de la perturbación en otras frecuencias. Obsérvese que el sistema del ejemplo 11.10 → viola la condición de que lim s sL(s) = 0 y por lo tanto la fórmula integral no se aplica. Existe un resultado análogo a la ecuación (11.19) para la función de sensibilidad complementaria: 1 - log|T (i)| (11.20) = zi , 2 0 donde la suma es sobre todos los ceros del semiplano derecho. Obsérvese que los ceros lentos del semiplano derecho son peores que los rápidos y que los polos rápidos del semiplano derecho son peores que los lentos. sc Ejemplo 11.11 Avión X-29 Como ejemplo de la aplicación de la fórmula integral de Bode, presentamos un análisis del sistema de control del avión X-29 (véase la figura 11.15a), que tiene una configuración inusual de superficies aerodinámicas diseñadas para mejorar su maniobrabilidad. Este análisis fue realizado originalmente por Gunter Stein en su artículo "Respect the Unstable" [Ste03], que es también la fuente de la cita que aparece al principio de este capítulo. Para analizar este sistema, hacemos uso de un pequeño conjunto de parámetros que describen las propiedades clave del sistema. El X-29 tiene una dinámica longitudinal muy similar a la del péndulo invertido (Ejercicio 8.3) y, en particular, tiene un par de polos en aproximadamente p = ± 6 y un cero en z = 26. Los actuadores que estabilizan el paso tienen un ancho de banda dea = 40 rad/s y el ancho de banda deseado del bucle de control del paso es1 = 3 rad/s. Dado que la relación entre el cero y el polo es de sólo 4,3, cabe esperar que sea difícil alcanzar las especificaciones. Para evaluar el rendimiento alcanzable, buscamos una ley de control tal que 338 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA Ms |S(i)| 1 1 a Frecuencia rad/s] (a) Avión X-29 (b) Análisis de sensibilidad Figura 11.15: Sistema de control de vuelo del X-29. La aeronave utiliza alas barridas hacia delante y un conjunto de canards en el fuselaje para lograr una alta maniobrabilidad (a). La sensibilidad deseada para el sistema de bucle cerrado se muestra en (b). Buscamos utilizar nuestra autoridad de control para dar forma a la curva de sensibilidad de manera que tengamos una baja sensibilidad (buen rendimiento) hasta la frecuencia1 creando una mayor sensibilidad hasta el ancho de banda de nuestro actuador a. la función de sensibilidad es pequeña hasta el ancho de banda deseado y no mayor que Ms más allá de esa frecuencia. Debido a la fórmula integral de Bode, sabemos que Ms debe ser mayor que 1 a altas frecuencias para equilibrar la pequeña sensibilidad a baja frecuencia. Por lo tanto, nos preguntamos si podemos encontrar un controlador que tiene la forma mostrada en la Figura 11.15b con el valor más pequeño de Ms . Tenga en cuenta que la sensibilidad por encima de la frecuenciaa no se especifica ya que no tenemos la autoridad del actuador en esa frecuencia. Sin embargo, asumiendo que la dinámica del proceso cae en alta frecuencia, la sen- sibilidad en alta frecuencia se acercará a 1. Por lo tanto, deseamos diseñar un sistema de lazo cerrado que tenga una baja sensibilidad en frecuencias por debajo de1 y una sensibilidad que no sea demasiado grande entre1 ya . A partir de la fórmula integral de Bode, sabemos que cualquiera que sea el controlador que elijamos, la ecuación (11.19) debe cumplirse. Supondremos que la función de sensibilidad está dadafpor Sra. 1 |S(i)| = 1 Ms 1≤ ≤a , correspondiente a la figura 11.15b. Si además suponemos que | L(s) | ≤ para frecuencias mayores que el ancho de banda del actuador, la integral de Bode se convierte en - log S | ( )| 0 -a = = log S | ( )| -0 1 Ms + (a − 1 ) log Ms = p. regist 1 ro 0 La evaluación de la integral da −1 +a log Ms = p o Ms = e( p+1) . Esta fórmula nos indica cuál será el valor alcanzable de Ms para las especificaciones de control dadas. En particular, utilizando p = 6,1 = 3 ya = 40 rad/s, encontramos que Ms = 1,75, lo que significa que en el rango de frecuencias entre1 ya , las perturbaciones en la entrada de la dinámica del proceso (como el viento) se amplificarán 339 11.5. LIMITACIONES FUNDAMENTALES Im s iR x+ xRe s iR Figura 11.16: Contorno utilizado para demostrar el teorema de Bode. Para cada polo del semiplano derecho creamos una trayectoria desde el eje imaginario que rodea el polo como se muestra. Para evitar el desorden hemos mostrado sólo una de las trayectorias que rodean un semiplano derecho. por un factor de 1,75 en cuanto a su efecto sobre la aeronave. Otra forma de ver estos resultados es calcular el margen de fase que corre corresponde al nivel de sensibilidad dado. Dado que el pico de sensibilidad se produce normalmente en o cerca de la frecuencia de cruce, podemos calcular el margen de fase correspondiente a Ms = 1,75. Como se muestra en el Ejercicio 11.14, el máximo margen de fase alcanzable para este sistema es de aproximadamente 35◦ , que está por debajo del límite de diseño habitual de 45◦ en los sistemas aeroespaciales. El cero en s = 26 limita el máximo cruce de ganancia que se puede lograr. � Derivación de la fórmula de Bode Ahora derivamos la fórmula de la integral de Bode (Teorema 11.1). Esta es una sección técnica que requiere algunos conocimientos de la teoría de variables complejas, en particular la integración de contornos. Supongamos que la función de transferencia de bucle tiene polos distintos en s = pk en el semiplano derecho y que L(s) va a cero más rápido que 1/s para valores grandes de s. Considere la integral del logaritmo de la función de sensibilidad S(s) = 1/(1 + L(s)) sobre el contorno mostrado en la Figura 11.16. El contorno encierra el semiplano derecho excepto en los puntos s = pk donde la función de transferencia del bucle L(s) = P(s)C(s) tiene polos y la función de sensibilidad S(s) tiene ceros. El sentido del contorno es contrario a las agujas del reloj. La integral del logaritmo de la función de sensibilidad alrededor de este contorno viene dada por por - log S s ds ( ( )) = -iR iR log S (s ds ( )) + - log S s ds ( ( )) R + - log S s ds ( ( )) k = I1 + I2 + I3 = 0, donde R es un gran semicírculo a la derecha yk es el contorno que comienza en el eje imaginario en s = Im pk y un pequeño círculo que encierra el polo pk . La integral 340 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA es cero porque la función - R log S(s) es analítica dentro - R del contorno. Tenemos I i log S 2i S - log ( ( )) = (| ( )|) 1 = 0 -R porque la parte real de log S(i) es una función par y la parte imaginaria es una función impar. Además, tenemos -R I2 = log(S(s)) ds = --R log(1 + L(s)) ds ≈ --R L(s) ds. Como L(s) llega a cero más rápido que 1/s para s grandes, la integral llega a cero cuando el radio del círculo llega a infinito. A continuación consideramos la integral I3 . Para ello dividimos el contorno en tres partes X+ , y X− , como se indica en la figura 11.16. Podemos entonces escribir la integral como I3 = -X log S(s) ds + log S(s) ds + -X − + - log S(s) ds. El contorno es un pequeño círculo de radio r alrededor del polo pk . La magnitud del integrando es del orden log r, y la longitud del camino es . La integral por lo tanto va a cero a medida que el radio r va a cero. ≈ Como - S(s) k/(s pk ) cerca del polo, el argumento de S(s) disminuye en a medida que el contorno rodea el polo. En los contornos X+ y X− tenemos por tanto |SX +|= |SX - |, Por lo tanto, y obtenemos arg SX - = arg SX + - 2. log(SX + ) -log(SX - ) = , -X log S(s) ds + + -X - log S(s) ds = i Re pk . Repitiendo el argumento para todos los polos pk en el semiplano derecho, dejando que los círculos pequeños vayan a cero y el círculo grande vaya a infinito da I1 +I2 +3I = - 2i - R 0 log| S( )| +i Re p k = 0. k Como los polos complejos aparecen como pares conjugados complejos,k Re pk =k pk , lo que da la fórmula de Bode (11.19). 11.6 Diseño Ejemplo En esta sección presentamos un ejemplo detallado que ilustra las principales técnicas de diseño descritas en este capítulo. Ejemplo 11.12 Control lateral de un avión de empuje vectorial El problema de controlar el movimiento de un avión de despegue y aterrizaje vertical (VTOL) se introdujo en el Ejemplo 2.9 y en el Ejemplo 11.6, donde diseñamos un 341 11.6. EJEMPLO DE DISEÑO Ho r d Co la Ci Pi ui -mg Po y -1 -1 Figura 11.17: Diseño de control interno/externo para un avión de empuje vectorial. El bucle interno Hi controla el ángulo de balanceo de la aeronave utilizando el empuje vectorial. El controlador de bucle externo Co controla el ángulo de balanceo para regular la posición lateral. La dinámica del proceso se descompone en la dinámica del bucle interior (Pi) y del bucle exterior (Po), que se combinan para formar la dinámica completa de la aeronave. . controlador para la dinámica de balanceo. Ahora queremos controlar la posición de la aeronave, un problema que requiere la estabilización tanto de la actitud como de la posición. Para controlar la dinámica lateral de la aeronave de empuje vectorial, utilizamos una metodología de diseño de bucle "interior/exterior", como se ilustra en la figura 11.17. Este diagrama muestra la dinámica del proceso y el controlador dividido en dos componentes: un bucle interno que consiste en la dinámica del balanceo y el control y un bucle externo que consiste en la dinámica de la posición lateral y el controlador. Esta descomposición sigue la representación del diagrama de bloques de la dinámica dada en el Ejercicio 8.10. El enfoque que adoptamos es diseñar un controlador Ci para el bucle interior de manera que el sistema de bucle cerrado resultante Hi proporcione un control rápido y preciso del ángulo de balanceo de la aeronave. A continuación, diseñamos un controlador para la posición lateral que utiliza la aproximación de que podemos controlar directamente el ángulo de balanceo como entrada a la dinámica que controla la posición. Bajo la suposición de que la dinámica del controlador de balanceo es rápida en relación con el ancho de banda deseado para el control de la posición lateral, podemos combinar los controladores de bucle interior y exterior para obtener un único controlador para todo el sistema. Como especificación de rendimiento para todo el sistema, nos gustaría tener un error de estado estacionario cero en la posición lateral, un ancho de banda de aproximadamente 1 rad/s y un margen de fase de 45◦ . Para el bucle interior, elegimos nuestra especificación de diseño para proporcionar al bucle exterior un control preciso y rápido del balanceo. La dinámica del bucle interior viene dada por r Pi = Hu 1 = . Js2 + cs Elegimos que el ancho de banda deseado sea de 10 rad/s (10 veces el del bucle exterior) y que el error de baja frecuencia no sea superior al 5%. Esta especificación se satisface utilizando el compensador de plomo del ejemplo 11.6 diseñado anteriormente, por lo que elegimos +a Ci (s) = ks , a = 2, b = 50, k = 1. s+b 342 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA 103 Co Dinám ica de los rodillos -mg |Hi 2 (i)| 10 101 180 Po ∠ -1 Hi 90 (i) 0 100 (a) Aproximación al bucle exterior 101 102 Frecuencia rad/s] 103 (b) Dinámica de balanceo real Figura 11.18: Diseño de control de bucle externo para un avión de empuje vectorial. (a) El lazo exterior aproxima la dinámica de balanceo - como una ganancia de estado mg. (b) El gráfico de Bode para la dinámica de balanceo, que indica que esta aproximación es precisa hasta aproximadamente 10 rad/s. La dinámica de bucle cerrado del sistema satisface Hi = Ci Ci P i = Ci (1 - mgPi ) . 1 + Ci 1 + Ci Pi Pi En la Figura 11.18 se muestra un gráfico de la magnitud de esta función de transferencia, ,2 es una buena aproximación ≈ -y vemos- que Hi mg =39 hasta 10 rad/s. Para diseñar el controlador del bucle exterior, suponemos que el control del bucle interior del balanceo es perfecto, por lo que podemos tomard como entrada a nuestra dinámica lateral. Siguiendo el diagrama mostrado en el Ejercicio 8.10, la dinámica del bucle exterior puede escribirse como Hi(0) P(s) = Hi (0)Po (s) = , ms2 donde sustituimos Hi (s) por Hi (0) para reflejar nuestra aproximación de que el bucle interior acabará siguiendo nuestra entrada comandada. Por supuesto, esta aproximación puede no ser válida, por lo que debemos verificar esto cuando completemos nuestro diseño. Nuestro objetivo de control es ahora diseñar un controlador que dé un error de estado estacionario cero en y y tenga un ancho de banda de 1 rad/s. La dinámica del proceso del lazo exterior viene dada por un integrador de segundo orden, y de nuevo podemos utilizar un simple compensador de plomo para satisfacer las especificaciones. También elegimos el diseño de forma que la transferencia del bucle para el bucle exterior tiene Lo |< |0,1 para > 10 rad/s, de modo que la dinámica Hi puede despreciarse. Elegimos que el controlador sea de la forma s + ao C o(s) = - ok , s + bo con el signo negativo para anular el signo negativo en la dinámica del proceso. Para encontrar la ubicación de los polos, observamos que el adelanto de fase se aplana aproximadamente en bo /10. Deseamos la ventaja de fase en el cruce, y deseamos el cruce engc = 1 + Ci Pi - mg 1 rad/s, por lo que esto da bo = 10. Para asegurarnos de que tenemos una ventaja de fase adecuada, debemos elegir uno tal que bo /10 < 10ao < bo , lo que implica que ao debe estar entre 344 11.7. LECTURA ADICIONAL CAPÍTULO 11. DISEÑO EN EL DOMINIO343 DE LA FRECUENCIA So y 3 |L(i)|10 10-1 10-5 0 -90 ∠L -180 (i) -270 -360 10−4 Soy Re 10−2 100 Frecuencia rad/s] Re 102 (a) Diagrama de Bode (b) Diagrama de Nyquist Figura 11.19: Controlador de bucle interior/exterior para un avión de empuje vectorial. Se muestran el diagrama de Bode (a) y el diagrama de Nyquist (b) para la función de transferencia para las funciones de transferencia combinadas del bucle interior y exterior. El sistema tiene un margen de fase de 68◦ y un margen de ganancia de 6,2. 0,1 y 1. Elegimos uno = 0,3. Por último, tenemos que fijar la ganancia del sistema de forma que en el cruce la ganancia del bucle tenga magnitud 1. Un simple cálculo muestra que ko = 2 satisface este objetivo. Por lo tanto, el controlador final del bucle exterior se convierte en s + 0.3 C -o(s) = 2 . s + 10 Finalmente, podemos combinar los controladores de lazo interior y exterior y verificar que el sistema tiene el rendimiento de lazo cerrado deseado. Los gráficos de Bode y Nyquist correspondientes a la Figura 11.17 con los controladores de lazo interno y externo se muestran en la Figura 11.19, y vemos que las especificaciones se satisfacen. Además, mostramos el Gang of Four en la Figura 11.20, y vemos que las funciones de transferencia entre todas las entradas y salidas son razonables. La sensibilidad a las perturbaciones de carga PS es grande a baja frecuencia porque el controlador no tiene acción integral. El enfoque de dividir la dinámica en un bucle interno y otro externo es común en muchas aplicaciones de control y puede conducir a diseños más simples para sistemas complejos. De hecho, para la dinámica de la aeronave estudiada en este ejemplo, es muy difícil diseñar directamente un controlador desde la posición lateral x hasta la entrada u1 . El uso de la medida adicional de simplifica enormemente el diseño porque puede dividirse en piezas más sencillas. 11.7 Más información en El diseño por conformación de bucles fue un elemento clave en el desarrollo temprano del control, y se desarrollaron métodos de diseño sistemáticos; véase James, Nichols y Phillips [JNP47], Chestnut y Mayer [CM51], Truxal [Tru55] y Thaler [Tha89]. La formación de bucles también se trata en libros de texto estándar como Franklin, Powell y Emami-Naeini [FPEN05], Dorf y Bishop [DB04], Kuo y Golnaraghi [KG02] y Ogata [Oga01]. Los sistemas con dos grados de libertad fueron desarrollados por Horowitz [Hor63], 344 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA 101 101 |PS(i )| 10-2 |T 10-1 (i)| 10-3 10-5 10−2 100 102 Frecuencia rad/s] 10-5 10−2 100 Frecuencia rad/s] 102 100 Frecuencia rad/s] 102 101 100 |S(i)| 10-2 |CS(i10-1 )| 10-3 10-5 10−2 100 102 Frecuencia rad/s] 10-4 10−2 Figura 11.20: Grupo de cuatro para un sistema de avión de empuje vectorial. que también discutió las limitaciones de los polos y ceros en el semiplano derecho. Los resultados funcionales sobre las limitaciones se dan en Bode [Bod45]; presentaciones más recientes se encuentran en Goodwin, Graebe y Salgado [GGS01]. El tratamiento de la sección 11.5 se basa en [ Åst00]. Gran parte de los primeros trabajos se basaron en la función de bucle trans- fer; la importancia de las funciones de sensibilidad apareció en relación con el desarrollo en la década de 1980 que dio lugar a los métodos de diseño H . Una presentación compacta se da en los textos de Doyle, Francis y Tannenbaum [DFT92] y Zhou, Doyle y Glover [ZDG96]. La conformación de lazos se integró con la teoría de control robusto en McFarlane y Glover [MG90] y Vinnicombe [Vin01]. Tratamientos completos del diseño de sistemas de control se dan en Maciejowski [Mac89] y Goodwin, Graebe y Salgado [GGS01]. Ejercicios 11.1 Considere el sistema de la figura 11.1. Indique todos los pares de señales que están relacionados por las funciones de transferencia 1/(1 + PC), P/(1 + PC), C/(1 + PC) y PC/(1 + PC). 11.2 Considere el sistema del ejemplo 11.1. Elija los parámetros a = 1 y -calcule las respuestas en tiempo y frecuencia para todas las funciones de transferencia en la Banda de Cuatro para controladores con k = 0,2 y k = 5. 11.3 (Equivalencia de las figuras 11.1 y 11.2) Considere el sistema de la figura 11.1 y deje que las salidas de interés sean z = (, ) y las perturbaciones principales sean w = (n, d). Demuestre que el sistema puede representarse mediante la figura 11.2 y dé las funciones matriciales de transferencia P y C . Verifique que los elementos de la transferencia en lazo cerrado función Hzw son la Banda de los Cuatro. 345 EJERCICIOS 11.4 Consideremos el sistema muelle-masa dado por (2.14), que tiene la transferencia función 1 P(s) = . ms2 + cs + k Diseñe un compensador feedforward que dé una respuesta con amortiguación crítica ( = 1). 11.5 (Sensibilidad de la retroalimentación y la alimentación) Considere el sistema de la figura 11.1 y sea Gyr la función de transferencia que relaciona la señal medida y con la referencia r. Demuestre que las sensibilidades de Gyr con respecto a las funciones de transferencia de avance y retroalimentación F y C están dadas por dGyr /dF = CP/(1 + PC) y dGyr /dC = FP/(1 + PC)2 = Gyr L/C. 11.6 (Equivalencia de controladores con dos grados de libertad) Demuestre que los sistemas de las figuras 11.1 y 11.3 dan las mismas respuestas a las señales de mando si Fm C + Fu = CF. 11.7 (Atenuación de la perturbación) Considere el sistema de retroalimentación mostrado en la figura 11.1. Supongamos que la señal de referencia es constante. Sea yol la salida medida cuando no hay realimentación e ycl la salida con realimentación. Demuestre que Ycl (s) = S(s)Yol (s), donde S es la función de sensibilidad. 11.8 (Reducción de perturbaciones mediante retroalimentación) Considere un problema en el que se ha medido una variable de salida para estimar el potencial de atenuación de perturbaciones mediante retroalimentación. Supongamos que un análisis muestra que es posible diseñar un sistema de bucle cerrado con la función de sensibilidad s S(s) = . s2 + s + 1 Estimar la posible reducción de la perturbación cuando la perturbación medida es y(t) = 5 sin(0,1 t) + 3 sin(0,17 t) + 0,5 cos(0,9 t) + 0,1 t. 11.9 Demuestre que el efecto del ruido de medición de alta frecuencia en la señal de control para el sistema del ejemplo 11.4 puede aproximarse mediante CS ≈ C = kd s (sTf )2 /2 + sTf + 1 , y que el mayor valor de |CS(i)| es kd /Tf que se da para = √2/Tf . 11.10 (Atenuación de las perturbaciones sinusoidales de baja frecuencia) La acción integral elimina las perturbaciones constantes y reduce las perturbaciones de baja frecuencia porque la ganancia del regulador es infinita a frecuencia cero. Una idea similar puede utilizarse para reducir los efectos de las perturbaciones sinusoidales de frecuencia conocida0 utilizando el controlador kss C(s) = kp + . s2 + 0 s + 2 0 Este controlador tiene la ganancia Cs (0 ) = kp + ks /( ) para la frecuencia0 , que puede ser grande eligiendo un valor pequeño de . Supongamos que el proceso tiene la 346 CAPÍTULO 11. DISEÑO EN EL DOMINIO DE LA FRECUENCIA función de transferencia P(s) = 1/s. Determine el diagrama de Bode de la función de transferencia del bucle y simule el sistema. Compare los resultados con el control PI. 11.11 Consideremos un compensador de plomo con la función de transferencia s√n k+ an , s+ a que tiene una ganancia de frecuencia cero C(0) = 1 y una ganancia de frecuencia alta C() = k. Demuestre que la ganancia requerida para dar una ventaja de fase dada es J n 2 k = 1 + 2 tan (/n) + 2 tan(/n) 1 + tan2(/n) , Cn (s) = y que lim k = e2 . n→ 11.12 Consideremos un proceso con la función de transferencia de bucle z-s L(s) = k , s-p con z y p positivos. Demuestre que el sistema es estable si p/z < k < 1 o 1 < k < p/z, y que el mayor margen de estabilidad es | -sm| = p z /(p + z) se obtiene para k = 2p/(p + z). Determine las relaciones polo/cero que dan el margen de estabilidad sm = 2/3. � 11.13 Demuestre las desigualdades dadas por la ecuación (11.18). (Sugerencia: Utilice el teorema del módulo máximo). 11.14 (Fórmulas del margen de fase) Demuestre que la relación entre el margen de fase y los valores de las funciones de sensibilidad en el cruce de ganancia viene dada por 1 |S(gc )| = |T (gc )| = . 2 sin(m/2) 11.15 (Estabilización de un péndulo invertido con retroalimentación visual) Considere la estabilización de un péndulo invertido basada en la retroalimentación visual utilizando una cámara de video con una frecuencia de cuadro de 50 Hz. Supongamos que la longitud efectiva - del péndulo es l. Supongamos que queremos que la función de transferencia del bucle tenga una pendiente de ngc = 1/2 en la frecuencia de cruce. Utilice la desigualdad de la frecuencia de cruce de la ganancia para determinar el mínimo longitud del péndulo que se puede estabilizar si deseamos un margen de fase de 45◦ . 11.16 (Bicicleta con dirección trasera) Consideremos el modelo simple de una bicicleta en la ecuación (3.5), que tiene un polo en el semiplano derecho. El modelo también es válido para una bicicleta con dirección trasera, pero el signo de la velocidad se invierte y el sistema también tiene un cero en el semiplano derecho. Utilice los resultados del Ejercicio 11.12 para dar una condición sobre los parámetros físicos que admita un controlador con el margen de estabilidad sm . � 11.17 Demuestre la fórmula (11.20) para la sensibilidad complementaria. Capítulo 12 Rendimiento robusto Sin embargo, construyendo un amplificador cuya ganancia se hace deliberadamente, digamos 40 decibelios más alta de lo necesario (10000 veces el exceso en base a la energía), y luego alimentando la salida de nuevo en la entrada de tal manera como para tirar ese exceso de ganancia, se ha encontrado posible efectuar una mejora extraordinaria en la constancia de la amplificación y la libertad de la no linealidad. Harold S. Black, "Stabilized Feedback Amplifiers", 1934 [Bla34]. Este capítulo se centra en el análisis de la robustez de los sistemas de retroalimentación, un amplio tema para el que sólo ofrecemos una introducción a algunos de los conceptos clave. Consideramos la estabilidad y el rendimiento de los sistemas cuya dinámica de proceso es incierta y derivamos los límites fundamentales de la estabilidad y el rendimiento robustos. Para ello, desarrollamos formas de describir la incertidumbre, tanto en forma de variaciones de los parámetros como en forma de dinámicas desatendidas. También mencionamos brevemente algunos métodos de diseño de controladores para lograr un rendimiento robusto. 12.1 Modelización Incertidumbre La cita de Harold Black ilustra que uno de los usos clave de la retroalimentación es proporcionar solidez a la incertidumbre ("constancia de la amplificación"). Es una de las propiedades más útiles de la retroalimentación y es lo que permite diseñar sistemas de retroalimentación basados en modelos muy simplificados. Una forma de incertidumbre en los sistemas dinámicos es la incertidumbre paramétrica, en la que se desconocen los parámetros que describen el sistema. Un ejemplo típico es la variación de la masa de un coche, que cambia con el número de pasajeros y el peso del equipaje. Al linealizar un sistema no lineal, los parámetros del modelo linealizado también dependen de las condiciones de funcionamiento. Es sencillo investigar los efectos de la incertidumbre paramétrica simplemente evaluando los criterios de rendimiento para un rango de parámetros. Este cálculo revela las consecuencias de las variaciones de los parámetros. Lo ilustramos con un ejemplo sencillo. Ejemplo 12.1 Control de crucero El problema de control de crucero fue descrito en la Sección 3.1, y un controlador PI fue diseñado en el Ejemplo 10.3. Para investigar el efecto de las variaciones de los parámetros, elegiremos un controlador diseñado para una condición de funcionamiento nominal que correspondea masa m = 1600 kg, cuarta marcha ( = 12) y velocidad ve = 25 m/s; las ganancias del regulador son kp = 0,72 y ki = 0,18. La figura 12.1a muestra la velocidad v y el acelerador u al encontrar una colina con una pendiente de 3◦ con masas en el rango 1600 < m < 2000 kg, relaciones de cambio 3-5 ( = 10, 12 y 16) y velocidad 10 ≤ v ≤ 40 348 CAPÍTULO 12. RENDIMIENTO ROBUSTO 1 Er ror 0 e -1 0 So 0.5 5 10 15 Tiempo t [s] 20 2 En tra 1 da u 0 R -1 -0.5 -0.5 0 5 10 Tiempo t [s] (a) Respuesta a las perturbaciones 15 20 (b) Valores propios de bucle cerrado Figura 12.1: Respuestas del sistema de control de crucero a un aumento de la pendiente de 3◦ (a) y los valores propios del sistema de bucle cerrado (b). Los parámetros del modelo se barren en un amplio rango. m/s. Las simulaciones se realizaron con modelos linealizados en torno a las diferentes condiciones de funcionamiento. La figura muestra que hay variaciones en la respuesta, pero que son bastante razonables. El mayor error de velocidad está en el rango de 0,2-0,6 m/s, y el tiempo de asentamiento es de unos 15 s. La señal de control es marginalmente mayor que 1 en algunos casos, lo que implica que el acelerador está completamente abierto. Si queremos explorar estos casos con más detalle, es necesario realizar una simulación no lineal completa utilizando un controlador con protección contra el windup. La figura 12.1b muestra los valores propios del sistema de bucle cerrado para las diferentes condiciones de funcionamiento. La figura muestra que el sistema de bucle cerrado está bien amortiguado en todos los casos. Este ejemplo indica que, al menos en lo que respecta a las variaciones paramétricas, el diseño basado en un modelo nominal simple dará un control satisfactorio. El ejemplo también indica que un controlador con parámetros fijos puede utilizarse en todos los casos. Obsérvese que no hemos considerado las condiciones de funcionamiento en marchas cortas y a baja velocidad, pero los controladores de crucero no se suelen utilizar en estos casos. Dinámica no modelada En general, es fácil investigar los efectos de las variaciones paramétricas. Sin embargo, hay otras incertidumbres que también son importantes, como se discute al final de la sección 2.3. El modelo simple del sistema de control de crucero capta sólo la dinámica del movimiento de avance del vehículo y las características de par del motor y la transmisión. No incluye, por ejemplo, un modelo detallado de la dinámica del motor (cuyos procesos de combustión son extremadamente complejos) ni los ligeros desajustes que pueden producirse en los motores modernos controlados electrónicamente (como resultado del tiempo de procesamiento de los ordenadores integrados). Estos mecanismos descuidados se denominan dinámica no modelada. La dinámica no modelada puede tenerse en cuenta desarrollando un modelo más complejo. Estos modelos se utilizan habitualmente para el desarrollo de controladores, pero se requiere un esfuerzo considerable para desarrollarlos. Una alternativa es investigar si el sistema de bucle cerrado es sensible a formas genéricas de dinámica no modelada. La idea básica 349 12.1. MODELIZACIÓN DE LA INCERTIDUMBRE P P P fb Figura 12.2: Dinámica no modelada en sistemas lineales. La incertidumbre puede representarse mediante perturbaciones aditivas (izquierda), multiplicativas (centro) o de retroalimentación (derecha). El sistema nominal es P, y , = /P y fb representan la dinámica no modelada. es describir la dinámica no modelada mediante la inclusión de una función de transferencia en la descripción del sistema cuya respuesta de frecuencia está limitada pero no se especifica. Por ejemplo, podríamos modelar la dinámica del motor en el ejemplo del control de crucero como un sistema que proporciona rápidamente el par solicitado a través del acelerador, lo que supone una pequeña desviación del modelo simplificado, que asumía que la respuesta del par era instantánea. Esta técnica también puede utilizarse en muchos casos para modelar las variaciones de los parámetros, lo que permite un enfoque bastante general de la gestión de la incertidumbre. En particular, deseamos explorar si la dinámica lineal adicional puede causar dificultades. Una forma sencilla es suponer que la función de transferencia del proceso es P(s) + , donde P(s) es la función de transferencia nominal simplificada y representa la dinámica no modelada en términos de incertidumbre aditiva. En la figura 12.2 se muestran diferentes representaciones de la incertidumbre. ¿Cuándo son similares dos sistemas? La métrica de Vinnicombe � Una cuestión fundamental en la descripción de la robustez es determinar cuándo dos sistemas están próximos. A partir de esta caracterización, podemos intentar describir la robustez en función de lo cerca que debe estar el sistema real del modelo para seguir alcanzando los niveles de rendimiento deseados. Este problema, aparentemente inocente, no es tan sencillo como parece. Un enfoque ingenuo consiste en decir que dos sistemas están próximos si sus respuestas en bucle abierto están próximas. Aunque esto parezca natural, hay complicaciones, como ilustran los siguientes ejemplos. Ejemplo 12.2 Similar en bucle abierto pero con grandes diferencias en bucle cerrado Los sistemas con las funciones de transferencia k k P1 (s) = (12.1) , P2(s) = s+1 (s + 1)(sT + 1)2 tienen respuestas de bucle abierto muy similares para valores pequeños de T , como se ilustra en el gráfico superior de la Figura 12.3a, que se traza para T = 0,025 y k = 100. Las diferencias entre las respuestas escalonadas son apenas perceptibles en la figura. Las respuestas a los escalones con retroalimentación de error de ganancia unitaria se muestran en el gráfico inferior de la Figura 12.3a. Observe que un sistema de lazo cerrado es estable y el otro es inestable. Ejemplo 12.3 Diferente en bucle abierto pero similar en bucle cerrado 350 CAPÍTULO 12. RENDIMIENTO ROBUSTO Bucle abierto 100 Bucle abierto Sa lid 50 ay 0 0 400 Sa lid a y 200 Sistema 1 Sistema 2 1 2 3 4 5 0 0 Sistema 1 Sistema 2 0.5 Bucle cerrado 1 1.5 2 Bucle cerrado 3 1 Sa lid 0.5 ay Sa 2 lid 1 ay 0 -1 0 0.1 0.2 0.3 Tiempo t (a) Ejemplo 12.2 0.4 0.5 0 0 0.02 0.04 0.06 Tiempo t 0.08 0.1 (b) Ejemplo 12.3 Figura 12.3: Determinación de cuándo dos sistemas están próximos. Los gráficos de (a) muestran una situación en la que las respuestas de bucle abierto son casi idénticas, pero las respuestas de bucle cerrado son muy diferentes. Los procesos vienen dados por la ecuación (12.1) con k = 100 y T = 0,025. Los gráficos en (b) muestran la situación opuesta: los sistemas son diferentes en lazo abierto pero similares en lazo cerrado. Los procesos vienen dados por la ecuación (12.2) con k = 100. Considere los sistemas k k P1 (s) = . (12.2) , P2 (s) = ss+1 1 Las respuestas de lazo abierto son muy diferentes porque P1 es estable y P2 es inestable, como se muestra en el gráfico superior de la Figura 12.3b. Cerrando un bucle de retroalimentación con ganancia unitaria alrededor de los sistemas, encontramos que las funciones de transferencia de bucle cerrado son k k T1 (s) = , T2 (s) = , s+ k-1 s+k+1 que están muy cerca para k grandes, como se muestra en la Figura 12.3b. Estos ejemplos muestran que si nuestro objetivo es cerrar un bucle de retroalimentación, puede ser muy engañoso comparar las respuestas de bucle abierto del sistema. Inspirándonos en estos ejemplos, introducimos la métrica de Vinnicombe, que es una medida de distancia apropiada para los sistemas de bucle cerrado. Consideremos dos sistemas con las funciones de transferencia P1 y P2 , y definamos |P1(i) - P2(i)| d(P , P ) = sup , (12.3) j 1 2 (1 + |P(i)|2)(1 + |P(i)|2)2 1 que es una métrica con la propiedad 0d≤ (P1 , P2 ) ≤ 1. El número d(P1 , P2 ) puede interpretarse como la diferencia entre las funciones de sensibilidad complementarias para los sistemas de lazo cerrado que se obtienen con retroalimentación unitaria alrededor de P1 y P2 ; véase el Ejercicio 12.3. La métrica también tiene una buena interpretación geométrica, como se muestra en 351 12.1. MODELIZACIÓN DE LA INCERTIDUMBRE 1-i So y -i Re 1-i Figura 12.4: Interpretación geométrica de d(P1 , P2 ). En cada frecuencia, los puntos de la curva de Nyquist para P1 (sólido) y P2 (discontinuo) se proyectan sobre una esfera de radio 1 situada en el origen del plano complejo. Se muestra la proyección del punto 1 i. La distancia entre los dos sistemas se define como la distancia máxima entre las proyecciones de P1 (i) y P2 (i) sobre todas las frecuencias . La figura se representa para las funciones de transferencia P1 (s) = 2/(s + 1) y P2 (s) = 2/(s - 1). (Diagrama por cortesía de G. Vinnicombe). Figura 12.4, donde los gráficos de Nyquist de P1 y P2 se proyectan sobre una esfera de radio 1 en el origen del plano complejo (llamada esfera de Riemann). Los puntos del plano complejo se proyectan sobre la esfera mediante una línea que pasa por el punto y el polo norte (Figura 12.4). La distancia d(P1 , P2 ) es la distancia cordal más larga entre las proyecciones de P1 (i) y P2 (i). La distancia es pequeña cuando P1 y P2 son pequeños o grandes, pero destaca el comportamiento alrededor del cruce de ganancia frecuencia. La distancia d(P1 , P2 ) tiene un inconveniente a la hora de comparar el comportamiento de los sistemas bajo retroalimentación. Si P2 se perturba continuamente desde P1 hasta P2 , puede haber funciones de transferencia intermedias P en las que d(P1 , P) sea 1 incluso si d(P1 , P2 ) es pequeña (véase el ejercicio 12.4). Para explorar cuándo puede ocurrir esto, observamos que 1 - d2(P, P) = (1 + P(i)P1 (-i))(1 + P(-i)P1 (i)) (1 + |P1 (i)|2)(1 + |P(i)|2) .1 El lado derecho es cero y, por tanto, d(P1 , P) = 1 si 1 + P(i)P1 -( i) = 0 para algún . Para explorar cuándo puede ocurrir esto, investigamos el comportamiento de la función 1 + P(s)P - 1 ( s) cuando P se perturba de P1 a P2 . Si las funciones f1 (s) = 1 + P-1 (s)P1 ( s) y f2 (s) = 1 + P2-(s)P1 ( s) no tienen el mismo número de ceros en el semiplano derecho, existe un P intermedio tal que 1 + P(i)P-1 ( i) = 0 para algún . Para excluir este caso introducimos el conjunto C como todos los pares (P1 , P2 ) tales que las funciones - f1 = 1 + P1 (s)P1 ( s) y- f2 = 1 + P2 (s)P1 ( s) tienen el mismo número de ceros en el semiplano derecho. La métrica de Vinnicombe o métrica de la brecha se define como fd (P1 , P2 ), si (P1 , P2 ) (12.4) (P , 1P )2 = 1, de lo ∈C contrario. Vinnicombe [Vin01] mostró que (P1 , P2 ) es una métrica, dio fuertes resultados de robustez basados en la métrica y desarrolló la teoría para sistemas con muchos 352 CAPÍTULO 12. RENDIMIENTO ROBUSTO entradas y muchas salidas. Ilustramos su uso calculando la métrica para los sistemas de los ejemplos anteriores. Ejemplo 12.4 Métrica de Vinnicombe para los ejemplos 12.2 y 12.3 Para los sistemas del ejemplo 12.2 tenemos fs 1 PsP s 1( ) = +1 ( )1 (- ) = 1 + k2 - s2 , 1 - s2 1 + k2 + 2sT + (T2 - 1)s2 - 2s3 T - s4 T 2 fs 1 PsP s 2( ) = +2 ( )1 (- ) = . (1 - s2)(1 + 2sT + s2T 2) La función f1 tiene un cero en el semiplano derecho. Un cálculo numérico para k = 100 y T = 0,025 muestra que la función f2 tiene las raíces 46,3, -86,3, ± 20.060.0i. Ambas funciones tienen un cero en el semiplano derecho, lo que nos permite calcular la norma (12.4). Para T = 0,025 esto da (P1 , P2 ) = 0,98, que es un valor bastante grande. Para tener una solidez razonable, Vinnicombe recomendó valores menos de 1/3. Para el sistema del ejemplo 12.3 tenemos 1 PsP s +1 ( )1 (- ) = 1 + k2 s2 1 - s2 1 , PsP s +2 ( )1 (- ) = 1 - k2 - 2s + s2 (s + 1)2 Estas funciones tienen el mismo número de ceros en el semiplano derecho si k > 1. En este caso particular la métrica de Vinnicombe es d(P1 , P2 ) = 2k/(1 + k2 ) (Ejercicio 12.4) y con k = 100 obtenemos (P1 , P2 ) = 0,02. La figura 12.4 muestra las curvas de Nyquist y sus proyecciones para k = 2. Obsérvese que d(P1 , P2 ) es muy pequeño para k pequeño aunque los sistemas de bucle cerrado sean muy diferentes. Por lo tanto, es esencial considerar la condición (P1 , P2 ) ∈ C , como se discute en el Ejercicio 12.4. 12.2 Estabilidad en presencia de Incertidumbre Después de haber discutido cómo describir la incertidumbre y la similitud entre dos sistemas, ahora consideramos el problema de la estabilidad robusta: ¿Cuándo podemos demostrar que la estabilidad de un sistema es robusta con respecto a las variaciones del proceso? Se trata de una cuestión importante, ya que el potencial de inestabilidad es uno de los principales inconvenientes de la retroalimentación. Por eso queremos asegurarnos de que, aunque tengamos pequeñas imprecisiones en nuestro modelo, podamos garantizar la estabilidad y el rendimiento. Estabilidad robusta mediante el criterio de Nyquist El criterio de Nyquist proporciona una forma poderosa y elegante de estudiar los efectos de la incertidumbre para los sistemas lineales. Un criterio sencillo es que la curva de Nyquist esté lo suficientemente lejos del punto crítico 1. Recordemos que la distancia más corta de la curva de Nyquist al punto crítico es sm = 1/Ms , donde Ms es el máximo de la función de sensibilidad y sm es el margen de estabilidad introducido en la sección 9.3. 353 12.2. ESTABILIDAD EN PRESENCIA DE INCERTIDUMBRE So y Re -1 sm So y -1 Re ms 1+L sc (a) Gráfico de Nyquist (b) Incertidumbre aditiva Figura 12.5: Estabilidad robusta mediante el criterio de Nyquist. (a) Este gráfico muestra que la distancia más corta al punto crítico sm es una medida de robustez. (b) Este gráfico muestra la curva de Nyquist de una función de transferencia de bucle nominal y su incertidumbre causada por las variaciones aditivas del proceso . La sensibilidad máxima Ms o el margen de estabilidad sm es, pues, una buena medida de robustez, como se ilustra en la figura 12.5a. Ahora derivaremos condiciones explícitas para las incertidumbres permisibles del proceso. Consideremos un sistema de retroalimentación estable con un proceso P y un controlador C. Si el proceso se cambia de P a P + , la función de transferencia del bucle cambia de PC a PC + C, como se ilustra en la figura 12.5b. Si tenemos un límite en el tamaño (representado por el círculo discontinuo en la figura), entonces el sistema permanece estable siempre y cuando las variaciones del proceso nunca - se superpongan al punto 1, ya que esto deja el número de - circunvalaciones de 1 sin cambios. Para que el análisis sea válido, se requieren algunas suposiciones adicionales. Lo más importante es que exigimos que las perturbaciones del proceso sean estables, de modo que no introduzcamos ningún nuevo polo en el semiplano derecho que requiera rodeos adicionales en el criterio de Nyquist. A continuación, calcularemos un límite analítico de las perturbaciones de proceso permitidas. La distancia del punto crítico -1 a la función de transferencia del bucle L es |1 + L|. Esto significa que la curva de Nyquist perturbada no alcanzará el punto crítico -1 siempre que |C| < |1 + L|, lo que implica 11 o |= < (12.5) 1 . |1 | <1 + PC 1 1 1 1 C P |T | Esta condición debe ser válida para todos los puntos de la curva de Nyquist, es decir, puntualmente para todas las frecuencias. La condición de estabilidad robusta puede escribirse como 1 para todo 0. (12.6) | (i) = 1 (i) 1< 1 1 P(i) |T (i)| Obsérvese que la condición es conservadora porque se deduce de la figura 12.5 que la perturbación crítica está en la dirección hacia el punto crítico 1.-Se pueden permitir perturbaciones mayores en las otras direcciones. La condición de la ecuación (12.6) nos permite razonar sobre la incertidumbre sin 354 CAPÍTULO 12. RENDIMIENTO ROBUSTO conocimiento exacto de las perturbaciones del proceso. Es decir, podemos verificar la estabilidad para cualquier incertidumbre que satisfaga el límite dado. Desde una perspectiva de análisis, esto nos da una medida de la robustez para un diseño dado. A la inversa, si requerimos una robustez de un nivel determinado, podemos intentar elegir nuestro controlador C de manera que el nivel deseado de robustez esté disponible (pidiendo que T sea pequeño) en las bandas de frecuencia apropiadas. La ecuación (12.6) es una de las razones por las que los sistemas de retroalimentación funcionan tan bien en la práctica. Los modelos matemáticos utilizados para diseñar sistemas de control suelen ser simplificados y las propiedades de un proceso pueden cambiar durante su funcionamiento. La ecuación (12.6) implica que el sistema de bucle cerrado será, al menos, estable para variaciones sustanciales en la dinámica del proceso. De la ecuación (12.6) se deduce que las variaciones pueden ser grandes para aquellas frecuencias en las que T es pequeño y que se permiten variaciones menores para las frecuencias en las que T es grande. Una estimación conservadora de las variaciones admisibles del proceso que no causarán inestabilidad viene dada por 1 (i) 1 1 1 < | (i) = 1 , P(i) Mt donde Mt es el mayor valor de la sensibilidad complementaria 1 1 Mt = sup|T (i)| = . PC (12.7) 11 + PC El valor de Mt está influenciado por el diseño del controlador. Por ejemplo, se muestra en el Ejercicio 12.5 que si Mt = 2 entonces se permiten variaciones puras de ganancia del 50% o variaciones puras de fase de 30◦ sin que el sistema de lazo cerrado sea inestable. Ejemplo 12.5 Control de crucero Consideremos el sistema de control de crucero comentado en el apartado 3.1. El modelo del coche en cuarta marcha a una velocidad de 25 m/s es 1.38 P(s) = , s + 0.0142 y el controlador es un controlador PI con ganancias kp = 0.72 y ki = 0.18. La figura 12.6 muestra el tamaño permisible de la incertidumbre del proceso usando el límite de la ecuación (12.6). A bajas frecuencias, T (0) = 1 y así las perturbaciones pueden ser tan| grandes el proceso original ( = /P < 1). La | | como | sensibilidad complementaria tiene su máximo Mt = 1.14 enmt = 0.35, y por lo tanto esto da la mínima incertidumbre permitida del proceso, con < 0.87 o < || | | 3.47. T 0 y, por tanto, el error relativo puede → Por último, a altas frecuencias, llegar| a ser |muy grande. Por ejemplo, a = 5 tenemos T (i) = |0,195, lo que | que el requisito de estabilidad es 5,1. El análisis indica claramente significa que el sistema tiene una buena robustez y que la alta Las propiedades de frecuencia del sistema de transmisión no son importantes para el diseño del controlador de crucero. Otra ilustración de la robustez del sistema se da en el dia- derecho. 355 12.2. ESTABILIDAD EN PRESENCIA DE INCERTIDUMBRE 101 P T Im L(i) 1 T Re L(i) Ga nar 100 10−1 100 Frecuencia rad/s] 101 Figura 12.6: Robustez para un controlador de crucero. A la izquierda, el error relativo | máximo 1/ T (sólido) y el error| absoluto P/T (discontinuo) para la incertidumbre del | | | proceso. La curva de Nyquist se | muestra a la derecha como una línea sólida. Los círculos discontinuos muestran las perturbaciones permisibles en la dinámica del proceso, || = |P|/|T |, en las frecuencias = 0, 0,0142 y 0,05. En la Figura 12.6 se muestra la curva de Nyquist de la función de transferencia del proceso y los límites de incertidumbre | | =| P / T para algunas frecuencias. | grandes cantidades de incertidumbre Obsérvese que el controlador puede tolerar y seguir manteniendo la estabilidad del bucle cerrado. La situación ilustrada en el ejemplo anterior es típica de muchos procesos: sólo se requieren incertidumbres moderadamente pequeñas en torno a las frecuencias de cruce de la ganancia, pero se pueden permitir grandes incertidumbres en frecuencias más altas y más bajas. Una consecuencia de esto es que un modelo simple que describa bien la dinámica del proceso en torno a la frecuencia de cruce suele ser suficiente para el diseño. Los sistemas con muchos picos de resonancia son una excepción a esta regla porque la función de transferencia del proceso para tales sistemas puede tener grandes ganancias para frecuencias más altas también, como se muestra por ejemplo en el Ejemplo 9.9. La condición de robustez dada por la ecuación (12.6) puede recibir otra interpretación utilizando el teorema de la ganancia pequeña (Teorema 9.4). Para aplicar el teorema partimos de diagramas de bloques de un sistema de bucle cerrado con un proceso perturbado y realizamos una secuencia de transformaciones del diagrama de bloques que aíslan el bloque que representa la incertidumbre, como se muestra en la figura 12.7. El resultado es la interconexión de dos bloques mostrada en la Figura 12.7c, que tiene la función de transferencia de bucle PC =T. 1 + PC P La ecuación (12.6) implica que la mayor ganancia del bucle es menor que 1 y por lo tanto el sistema es estable a través del teorema de la pequeña ganancia. El teorema de la pequeña ganancia puede utilizarse para comprobar la estabilidad robusta para la incertidumbre en una variedad de otras situaciones. La tabla 12.1 resume algunos de los casos comunes; las pruebas (todas a través del teorema de la pequeña ganancia) se dejan como ejercicios. El siguiente ejemplo ilustra que es posible diseñar sistemas robustos a las variaciones de los parámetros. L= 356 CAPÍTULO 12. RENDIMIENTO ROBUSTO P P P -C -C 1-PC +PC Figura 12.7: Ilustración de la solidez ante las perturbaciones del proceso. Un sistema con incertidumbre aditiva (izquierda) puede manipularse mediante el álgebra del diagrama de bloques a uno con incertidumbre multiplicativa = /P (centro). Las manipulaciones adicionales aíslan la incertidumbre de manera que permite aplicar el teorema de la pequeña ganancia (derecha) Ejemplo 12.6 Función de transferencia del bucle ideal de Bode Un problema importante en el diseño de amplificadores electrónicos es obtener un sistema de bucle cerrado que sea insensible a los cambios en la ganancia de los componentes electrónicos. Bode encontró que la función de ≤ transferencia de ≤ bucle L(s) = ks−n , con 1 n 5/3, era una función de transferencia de bucle ideal. La curva de ganancia del gráfico de Bode es una línea recta con pendiente - n y la fase es constante arg L(i) = . - El margen de fase es entoncesm = 90(2 -n)◦ para todos los valores de la ganancia k y el margen de estabilidad es- sm = sin(1 n/2). Esta función de transferencia exacta no puede realizarse con componentes físicos, pero puede aproximarse en un rango de frecuencias determinado con una relaciónnal (Ejercicio 12.7). Un circuito amplificador operacional que tiene la función de transferencia aproximada G(s) = k/(s + a) es una realización de la función de transferencia ideal de Bode con n = 1, como se describe en el Ejemplo 8.3. Los diseñadores de amplificadores operacionales hacen grandes esfuerzos para que la aproximación sea válida en una amplia frecuencia gama. � Parametrización de Youla Dado que la estabilidad es una propiedad tan esencial, es útil caracterizar todos los controladores que estabilizan un proceso dado. Dicha representación, que se denomina parametrización de Youla, es muy útil a la hora de resolver problemas de diseño porque permite buscar entre todos los controladores estabilizadores sin necesidad de comprobar la estabilidad explícitamente. Primero derivaremos la parametrización de Youla para un proceso estable con una función de transferencia racional P. Un sistema con la función de sensibilidad complementaria T puede Tabla 12.1: Condiciones de estabilidad robusta para diferentes tipos de incertidumbre Proceso Tipo de incertidumbre P+ Aditivo \CS\ < 1 P(1 + ) Multiplicativo \T < 1 Retroalimentación \PSfb\ < 1 P/(1 + fb -P) Estabilidad robusta 357 12.2. ESTABILIDAD EN PRESENCIA DE INCERTIDUMBRE v P Q Q -P F0-1 G0 -A B P v -1 -1 (a) Proceso estable (b) Proceso inestable Figura 12.8: Parametrización de Youla. Diagramas de bloques de las parametrizaciones de Youla para un sistema estable (a) y un sistema inestable (b). Obsérvese que la señal v es cero en estado estacionario. se puede obtener mediante un control de avance con la función de transferencia estable Q si T = PQ. Obsérvese que T debe tener los mismos ceros del semiplano derecho que P ya que Q es estable. Supongamos ahora que queremos implementar la función de transferencia complementaria T usando retroalimentación unitaria con el controlador C. Ya que T = PC/(1 + PC) = PQ, es se deduce que la función de transferencia del controlador es Q C= . (12.8) 1 - PQ Un cálculo sencillo da como resultado S = 1 - PQ, PS = P(1 - PQ), CS = Q, T = PQ. Estas funciones de transferencia son todas estables si P y Q son estables y el controlador dado por la ecuación (12.8) es por lo tanto estabilizador. De hecho, puede demostrarse que todos los controladores estabilizadores tienen la forma dada por la ecuación (12.8) para alguna elección de Q. La parametrización se ilustra con los diagramas de bloques de la figura 12.8a. Se puede obtener una caracterización similar para los sistemas inestables. Consideremos un proceso con una función de transferencia racional P(s) = a(s)/b(s), donde a(s) y b(s) son polinomios. Introduciendo un polinomio estable c(s), podemos escribir P(s) = b(s) a(s) = B(s) , A(s) donde A(s) = a(s)/c(s) y B(s) = b(s)/c(s) son funciones racionales estables. Del mismo modo, introducimos el controlador C0 (s) = G0 (s)/F0 (s), donde F0 (s) y G0 (s) son funciones racionales estables. Tenemos AF0 BF0 S0 = , PS0 = , AF0 + BG0 AF0 + BG0 AG0 BG0 C0 S0 = , T0 = . AF0 + BG0 AF0 + BG0 El regulador C0 es estabilizador si y sólo si la función racional AF0 + BG0 no tiene ningún cero en el semiplano derecho. Sea Q una función racional estable y 358 CAPÍTULO 12. RENDIMIENTO ROBUSTO d r e F(s) C(s) -1 Controlad or n u P(s) y y Proceso Figura 12.9: Diagrama de bloques de un bucle de realimentación básico. Las señales externas son la señal de referencia r, la perturbación de la carga d y el ruido de medición n. La salida del proceso es y, y la señal de control es u. El proceso P puede incluir dinámicas no modeladas, como perturbaciones aditivas. considerar el controlador C= G0 + QA F0 - QB . (12.9) La banda de cuatro para P y C es A(F0 - QB) B(F0 - QB) , PS = , AF0 + BG0 AF0 + BG0 A(G0 + QA) B(G0 + QA) CS = , T= . AF0 + BG0 AF0 + BG0 Todas estas funciones de transferencia son estables si la función racional AF0 + BG0 no tiene ningún cero en el semiplano derecho y el controlador C dado por (12.9) está ahíLa Figura 12.8b muestra un diagrama de bloques del sistema de lazo cerrado con el controlador C. Obsérvese que la función de transferencia Q aparece de forma afín en las expresiones de la Banda de Cuatro, lo cual es muy útil si queremos determinar la función de transferencia Q para obtener propiedades específicas. S= 12.3 Rendimiento en presencia de Incertidumbre Hasta ahora hemos investigado el riesgo de inestabilidad y la robustez ante la falta de certeza del proceso. Ahora exploraremos cómo las respuestas a las perturbaciones de la carga, el ruido de la medición y las señales de referencia se ven influidas por las variaciones del proceso. Para ello, analizaremos el sistema de la figura 12.9, que es idéntico al bucle de retroalimentación básico analizado en el capítulo 11. Atenuación de las perturbaciones La función de sensibilidad S da una caracterización aproximada del efecto de la retroalimentación sobre las perturbaciones, como se discutió en la sección 11.3. Una caracterización más detallada está dada por la función de transferencia de las perturbaciones de la carga a la salida del proceso: P Gyd = = PS. (12.10) 1 + PC 359 12.3. RENDIMIENTO EN PRESENCIA DE INCERTIDUMBRE Las perturbaciones de la carga suelen tener frecuencias bajas, por lo que es importante que la función de transferencia sea pequeña para las frecuencias bajas. Para los procesos con una ganancia de baja frecuencia constante y un ≈ controlador con acción integral tenemos Gyd s/ki . La ganancia integral ki es, pues, una medida sencilla de la atenuación de las perturbaciones de la carga. Para saber cómo influye en la función de transferencia Gyd pequeñas variaciones en la función de transferencia del proceso, diferenciamos (12.10) con respecto a P dando como resultado dGyd Gyd 1 SP = = = S , dP (1 + PC)2 P(1 + PC) P y se deduce que dGyd dP =S . P Gyd (12.11) La respuesta a las perturbaciones de la carga es, por tanto, insensible a las variaciones del proceso | | para las frecuencias en las que S(i) es pequeño, es decir, para las frecuencias en las que las perturbaciones de la carga son importantes. Uno de los inconvenientes de la retroalimentación es que el controlador introduce ruido de medición en el sistema. Además del rechazo de las perturbaciones de la carga, también es importante que las acciones de control generadas por el ruido de la medición no sean demasiado grandes. De la Figura 12.9 se desprende que la función de transferencia Gun del ruido de la medición a la salida del controlador viene dada por G-u n= C 1 + PC =- T P . (12.12) Dado que el ruido de medición suele tener frecuencias altas, la función de transferencia Gun no debe ser demasiado grande para frecuencias altas. La función de transferencia del bucle PC suele ser pequeña ≈ para las altas frecuencias, lo que implica que Gun C para grandes s. Por lo tanto, para evitar inyectar demasiado ruido de medición es importante que C(s) sea pequeño para grandes s. Esta propiedad se denomina roll-off de alta frecuencia. Un ejemplo es el filtrado de la señal medida en un controlador PID para reducir la inyección de ruido de medición; véase el apartado 10.5. Para determinar cómo la función de transferencia Gun es influenciada por pequeñas variaciones en la transferencia del proceso, diferenciamos la ecuación (12.12): dGun d - C C Gun = ( = C = -T . dP dP P (1 + 1+ 2 PC Reordenando los términos PC) se obtiene dGun dP . (12.13) =P Pistola T Dado que la función de sensibilidad complementaria también es pequeña para las frecuencias altas, encontramos que la incertidumbre del proceso tiene poca influencia en la función de transferencia Gun para las frecuencias en las que las mediciones son importantes. 360 CAPÍTULO 12. RENDIMIENTO ROBUSTO R1 v v1 d R2 G (s) + v1 Rl v2 R2 R1 e R1 R1 +R2 v v2 -G(s) Figura 12.10: Amplificador operacional con dinámica incierta. El circuito de la izquierda se modifica utilizando la función de transferencia G(s) para capturar sus propiedades dinámicas y tiene una carga en la salida. El diagrama de bloques de la derecha muestra las relaciones de entrada/salida. La carga se representa como una perturbación d aplicada a la salida de G(s). Seguimiento de la señal de referencia La función de transferencia de la referencia a la salida viene dada por PCF Gyr = = TF, (12.14) 1 + PC que contiene la función de sensibilidad complementaria. Para ver cómo afectan las variaciones de P al rendimiento del sistema, diferenciamos la ecuación (12.14) con respecto a la función de transferencia del proceso: dGyr PCFC CF Gyr CF = = =S , dP 1 + PC (1 + PC)2 (1 + PC)2 P y se deduce que dGyr dP =S . (12.15) Gyr P El error relativo en la función de transferencia de bucle cerrado es, por tanto, igual al producto de la función de sensibilidad y el error relativo del proceso. En particular, se deduce de la ecuación (12.15) que el error relativo en la función de transferencia de bucle cerrado es pequeño cuando la sensibilidad es pequeña. Esta es una de las propiedades útiles de la retroalimentación. Al igual que en la última sección, hay algunas suposiciones matemáticas que se requieren para que el análisis presentado aquí se mantenga. Como ya se ha dicho, requerimos que las perturbaciones sean pequeñas (como se indica escribiendo dP). En segundo lugar, exigimos que las perturbaciones sean estables, de modo que no introduzcamos ningún nuevo polo del semiplano derecho que requiera rodear el criterio de Nyquist. Además, como antes, esta condición es conservadora: permite cualquier perturbación que satisfaga los límites dados, mientras que en la práctica las perturbaciones pueden ser más restringidas. Ejemplo 12.7 Circuito de amplificador operacional Para ilustrar el uso de estas herramientas, considere el rendimiento de un amplificador basado en un op amp, como se muestra en la Figura 12.10. Deseamos analizar el rendimiento del amplificador en presencia de la incertidumbre en la respuesta dinámica del amplificador óptico y los cambios en la carga en la salida. Modelamos el sistema utilizando el diagrama de bloques de la Figura 12.10b, que se basa en la derivación del Ejemplo 9.1. Consideremos primero el efecto de la dinámica desconocida para el amplificador operacional. Si modelamos la dinámica del amplificador operacional como v2 = -G(s)v, entonces la función de transferencia 12.4. COLOCACIÓN DE POSTES ROBUSTOS 361 para el circuito global viene dado por R2 G(s) Gv2v1 = . R1 G(s) + R2 /R1 + 1 Vemos que si G(s) es grande en el rango de frecuencias deseado, entonces el bucle cerrado sistema está muy cerca de la respuesta ideal = R2 /R1 . Suponiendo que G(s) = b/(s + a), donde b es el producto de ganancia-ancho de banda del amplificador, como se ha comentado en Example 8.3, la función de sensibilidad y la función de sensibilidad complementaria se convierten en b s+a S= , T= . s+a+b s+a+b La función de sensibilidad en torno a los valores nominales nos indica cómo el seguimiento reLa respuesta de la respuesta varía en función de las perturbaciones del proceso: dGyr dP =S . Gyr P Vemos que para frecuencias bajas, en las que S es pequeño, las variaciones en el ancho de banda a o en el producto ganancia-ancho de banda b tendrán un efecto relativamente pequeño en el rendimiento del amplificador (bajo el supuesto de que b sea suficientemente grande). Para modelar los efectos de una carga desconocida, consideramos la adición de una perturbación en la salida del sistema, como se muestra en la Figura 12.10b. Esta perturbación representa los cambios en la tensión de salida debido a los efectos de la carga. La función de transferencia Gyd = S da la respuesta de la salida a la perturbación de la carga, y vemos que si S es pequeño, entonces somos capaces de rechazar tales perturbaciones. La sensibilidad de Gyd a las perturbaciones de la dinámica del proceso puede calcularse tomando la derivada de Gyd con respecto a P: dGyd -C dGyd dP = = - TGyd =⇒ = -T . 2 dP (1 + PC) P Gyd P Así, vemos que los cambios relativos en el rechazo de perturbaciones son aproximadamente iguales a las perturbaciones del proceso a baja frecuencia (cuando T es aproximadamente 1) y disminuyen a frecuencias más altas. Sin embargo, es importante recordar que la propia Gyd es pequeña a baja frecuencia, por lo que estas variaciones en el rendimiento relativo pueden no ser un problema en muchas aplicaciones. 12.4 Poste robusto Colocación En los capítulos 6 y 7 vimos cómo diseñar controladores fijando las ubicaciones de los valores propios del sistema de lazo cerrado. Si analizamos el sistema resultante en el dominio de la frecuencia, los valores propios del lazo cerrado corresponden a los polos de la función de transferencia del lazo cerrado y, por lo tanto, estos métodos suelen denominarse diseño por colocación de polos. Los métodos de diseño del espacio de estados, al igual que muchos métodos desarrollados para el diseño de sistemas de control, no tienen en cuenta explícitamente la robustez. En estos casos, es esencial 362 CAPÍTULO 12. RENDIMIENTO ROBUSTO 103 Im L(i) |L(i)|101 10-1 10-3 Re L(i) -180 ∠L (i) -270 -360 10−1 100 101 102 Frecuencia rad/s] 103 Figura 12.11: Control de la dirección basado en un observador. Diagrama de Nyquist (izquierda) y diagrama de Bode (derecha) de la función de transferencia del bucle para la dirección del vehículo con un controlador basado en la retroalimentación de estado y un observador. El controlador proporciona un funcionamiento estable, pero con una ganancia y un margen de fase muy bajos. tial investigar siempre la robustez porque hay diseños aparentemente razonables que dan controladores con poca robustez. Ilustramos esto analizando los controladores diseñados por retroalimentación de estado y observadores. Los polos del bucle cerrado pueden asignarse a lugares arbitrarios si el sistema es observable y alcanzable. Sin embargo, si queremos tener un sistema de lazo cerrado robusto, los polos y ceros del proceso imponen severas restricciones en la localización de los polos de lazo cerrado. En primer lugar, se ofrecen algunos ejemplos; a partir del análisis de estos ejemplos, presentamos reglas de diseño para la colocación robusta de los polos (valores propios). Ceros de proceso lento y estable Primero exploraremos los efectos de los ceros estables lentos, y comenzamos con un ejemplo sencillo. Ejemplo 12.8 Dirección del vehículo Consideremos el modelo linealizado para la dirección del vehículo del ejemplo 8.6, que tiene la función de 0.5s + 1 transferencia P(s) . s2 = En el Ejemplo 6.4 se diseñó un controlador basado en retroalimentación de estado, y en el Ejemplo 7.4 se combinó la retroalimentación de estado con un observador. El sistema simulado en la Figura 7.8 tiene polos de lazo cerrado especificados porc = 0.3,c = 0.707,o = 7 y o = 9. Supongamos que queremos un sistema de bucle cerrado más rápido y elegimosc = 10, c = 0,707,o = 20 yo = 0,707. Utilizando la representación de estado del Ejemplo 7.3, un diseño de colocación de polos da ganancias de retroalimentación de estado k1 = 100 y k2 = 35.86 y ganancias de observador l1 = 28.28 y l2 = 400. La función de transferencia del controlador es -11516s + 40000 C(s) = . s2 + 42,4s + 6657,9 La figura 12.11 muestra los gráficos de Nyquist y Bode de la función de transferencia del bucle. El 12.4. COLOCACIÓN DE POSTES ROBUSTOS 363 El gráfico de Nyquist indica que la robustez es pobre, ya que la función de transferencia del bucle está muy - cerca del punto crítico 1. El margen de fase es ◦ de 7 y el margen de estabilidad es de sm = 0,077. La escasa robustez se pone de manifiesto en el gráfico de Bode, donde la curva de ganancia ronda el valor 1 y la curva de fase se acerca a 180◦ para una amplia gama de frecuencias. Se obtiene más información analizando las funciones de sensibilidad, mostradas por líneas sólidas en la figura 12.12. Las sensibilidades máximas son Ms = 13 y Mt = 12, lo que indica que el sistema es poco robusto. A primera vista es sorprendente que un controlador en el que el sistema cerrado nominal tiene polos y ceros bien amortiguados es tan sensible a las variaciones del proceso. Tenemos un indicio de que algo es inusual porque el regulador tiene un cero en s = 3,5 en el semiplano derecho. Para entender lo que ocurre, investigaremos la razón de los picos de las funciones de sensibilidad. Sean las funciones de transferencia del proceso y del controlador np(s) nc(s) P(s) = , C(s) = , dp (s) dc (s) donde np (s), nc (s), dp (s) y dc (s) son los polinomios del numerador y del denominador. La función de sensibilidad complementaria es PC np (s)nc (s) T (s) = 1 + PC = dp (s)dc (s) + np (s)nc (s). Los polos de T (s) son los polos del sistema de bucle cerrado y los ceros están dados por los ceros del proceso y del controlador. Al dibujar la curva de ganancia de la función de sensibilidad complementaria encontramos que T (s) = 1 para bajas frecuencias y que T (i) comienza a aumentar en su primer cero, que es el cero | | - del proceso en s = 2. Aumenta aún más en el cero del controlador en s = 3.5, y no comienza a disminuir hasta que los polos de lazo cerrado aparecen enc = 10 yo = 20. Por lo tanto, podemos concluir que habrá un pico en la función de sensibilidad complementaria. La magnitud del pico depende de la relación entre los ceros y los polos de la función de transferencia. El pico de la función de sensibilidad complementaria puede evitarse asignando un polo de bucle cerrado cerca del cero del proceso lento. Podemos lograr esto eligiendoc = 10 yc = 2.6, lo que da polos-de bucle cerrado en s = 2ys= 50. La función de transferencia del controlador se convierte entonces en s + 11.02 3628s + 40000 = 3628 . C(s) = s2 + 80,28s + (s + 2)(s + 156,56 78,28) Las funciones de sensibilidad se muestran con líneas discontinuas en la figura 12.12. El controlador da las sensibilidades máximas Ms = 1,34 y Mt = 1,41, que dan una robustez mucho mayor. Nótese que el controlador - tiene un polo en s = 2 que anula el cero del proceso lento. El diseño también se puede hacer simplemente cancelando el lento estable proceso cero y el diseño del controlador para el sistema simplificado. Una de las lecciones del ejemplo es que es necesario elegir polos de bucle cerrado que sean iguales o cercanos a los ceros del proceso estable lento. Otra lección es que los ceros lentos inestables del proceso imponen limitaciones al ancho de banda alcanzable, como ya 364 0 |T 10 (i)| 10-2 CAPÍTULO 12. RENDIMIENTO ROBUSTO 100 |S(i)| Original mejorado 100 Frecuencia rad/s] 10-2 100 102 Frecuencia rad/s] 102 Figura 12.12: Funciones de sensibilidad para el control de la dirección del vehículo basado en el observador. La función de sensibilidad complementaria (izquierda) y la función de sensibilidad (derecha) para el controlador original con c = 10, c = 0,707, o = 20, o = 0,707 (sólido) y el controlador mejorado con c = 10, c = 2,6 (punteado). que se indica en el apartado 11.5. Postes de proceso rápido y estable El siguiente ejemplo muestra el efecto de los polos estables rápidos. Ejemplo 12.9 Polos del sistema rápido Consideremos un controlador PI para un sistema de primer orden, donde el proceso y el controlador tienen las funciones de transferencia P(s) = b/(s + a) y C(s) = kp + ki /s. El bucle la función de b(kp s + ki ) transferencia es L(s) , s(s + a) = y el polinomio característico del bucle cerrado es s(s + a) + b(kp s + ki ) = s2 + (a + bkp )s + ki b Si especificamos que los polos de lazo cerrado deseados - deben serp encontramos que los parámetros del controlador vienen dados por p1 + p 2 - a p1 p2 kp = , ki = . b b Las funciones de sensibilidad son entonces S(s) = s(s + a) , T (s) = 1 (p1 + p2 - a)s + p1 p2 yp 2 , . (s + p1 )(s + p2 (s + p1 )(s + p2 ) ) Supongamos que el polo del es mucho más negativo que los - procesoa polos del lazo cerrado a. Observe que la ≪ p1 yp 2 , es decir, p1 < p2 ganancia proporcional es negativa y que el controlador tiene un cero en el semiplano derecho si a > p1 + p2 , una indicación que el sistema tiene malas propiedades. A continuación, consideremos la función de sensibilidad, que es 1 para las frecuencias altas. Pasando de frecuencias altas a bajas, encontramos que la sensibilidad aumenta en el polo de pro- ceso s = a . La sensibilidad no disminuye hasta que los polos de lazo cerrado son alcanzado, dando lugar a un gran pico de sensibilidad que es aproximadamente a/p2 . El mag... nitud de la función de sensibilidad se muestra en la Figura 12.13 para a = b = 1, p1 = 0,05 y p2 = 0,2. Obsérvese el pico de alta sensibilidad. Para comparar, también mostramos la 365 12.4. COLOCACIÓN DE POSTES ROBUSTOS 101 |S(i)| 100 10-1 Exact ament e Aproxi madam ente 100 |S(i)| 10-2 p1 p2 a Frecuencia rad/s] Exact Aproxi ament madam a p1 p2 e ente Frecuencia rad/s] Figura 12.13: Curvas de ganancia para los gráficos de Bode de la función de sensibilidad S para diseños con p1 < p2 < a (izquierda) y a < p1 < p2 (derecha). Las líneas sólidas son las sensibilidades reales y las líneas discontinuas son las asíntotas. curva de ganancia para el caso en que los polos del bucle cerrado (p1 = 5, p2 = 20) son más rápidos que el polo del proceso (a = 1). El problema de la escasa robustez puede evitarse eligiendo un polo de lazo cerrado igual al polo del proceso, es decir, p2 = a. Las ganancias del controlador se convierten entonces en p1 ap1 kp = , ki = , b l lo que significa que el polo rápido del proceso se cancela con un cero del controlador. La función de transferencia del lazo y las funciones de sensibilidad son bkp s bkp L(s) = , S(s) = , T (s) = . s s + bkp s + bkp Las sensibilidades máximas son ahora inferiores a 1 para todas las frecuencias. Obsérvese que esto es posible porque la función de transferencia del proceso llega a cero a medida que s−1 . Normas de diseño para la colocación de postes Basándose en la visión obtenida de los ejemplos, ahora es posible obtener reglas de diseño que dan diseños con buena robustez. Consideremos la expresión (12.7) para la máxima sensibilidad complementaria, repetida aquí: 11 Mt = sup|T (i)| = . PC 11 + PC Seagc la frecuencia de cruce de ganancia deseada. Supongamos que el proceso tiene ze- ros que son más lentos quegc . La función de sensibilidad complementaria es 1 para frecuencias bajas, y aumenta para frecuencias cercanas a los ceros del proceso a menos que haya un polo de lazo cerrado en la vecindad. Para evitar valores grandes de la función de sensibilidad complementaria, encontramos que el sistema de lazo cerrado debe tener polos cercanos o iguales a los ceros estables lentos. Esto significa que los ceros estables lentos deben ser cancelados por los polos del controlador. Dado que los ceros inestables no pueden ser cancelados, la presencia de ceros inestables lentos significa que la frecuencia de cruce de ganancia alcanzable debe ser menor que el cero de proceso inestable más lento. Ahora considere los polos del proceso que son más rápidos que el cruce de ganancia deseado fre- 366 CAPÍTULO 12. RENDIMIENTO ROBUSTO quencia. Consideremos la expresión para el máximo de la función de sensibilidad: 11 Ms = sup|S(i)| = . 1 11 + PC La función de sensibilidad es 1 para las frecuencias altas. Al pasar de frecuencias altas a bajas, la función de sensibilidad aumenta en los polos del proceso rápido. Pueden producirse grandes picos a menos que haya polos de bucle cerrado cercanos a los polos de proceso rápido. Para evitar grandes picos en la sensibilidad, el sistema de bucle cerrado debe tener polos que coincidan con los polos del proceso rápido. Esto significa que el controlador debe cancelar los polos del proceso rápido mediante ceros del controlador. Dado que los modos inestables no pueden cancelarse, la presencia de un polo inestable rápido implica que la frecuencia de cruce de la ganancia debe ser suficientemente grande. En resumen, obtenemos la siguiente regla sencilla para elegir los polos del bucle cerrado: los ceros del proceso estable lento deben coincidir con los polos del bucle cerrado lento, y los polos del proceso estable rápido deben coincidir con los polos del bucle cerrado rápido. Los ceros lentos del proceso inestable y los polos rápidos del proceso inestable imponen graves limitaciones. Ejemplo 12.10 Sistema de nanoposicionamiento para un microscopio de fuerza atómica En el ejemplo 9.9 se estudió un nanoposicionador sencillo, en el que se demostró que el sistema podía controlarse mediante un controlador integral. El rendimiento del lazo cerrado era pobre porque la frecuencia de cruce de la ganancia estaba limitada a ). Se puede demostrar que se obtiene poca mejora utilizando un gc = 0 (1 sm controlador PI. Por lo tanto, para lograr un mejor rendimiento, aplicaremos el controlador PID control. Para un modesto aumento del rendimiento, utilizaremos la regla de diseño derivada en el Ejemplo 12.9 de que los polos estables rápidos del proceso deben ser cancelados por los ceros del controlador. La función de transferencia del controlador debe ser elegida como kd s2 + kp s + ki ki s2 + as + a2 = (12.16) C(s) = s s a2 donde a =0 , lo que da kp = ki /a y kd = ki /a2 . La figura 12.14 muestra las curvas de ganancia del Gang of Four para un sistema diseñado con ki = 0,5. Una comparación con la Figura 9.12 muestra que el ancho de banda se incrementa significativamente degc = 0.01 agc = ki = 0.5. Dado que el polo del proceso se cancela, el sistema seguirá siendo muy sensible a las perturbaciones de la carga con frecuencias cercanas a la frecuencia de resonancia. La curva de ganancia del CS tiene una depresión o muesca en la frecuencia de resonancia, lo que implica que la ganancia del controlador es muy baja para las frecuencias cercanas a la resonancia. La curva de ganancia también muestra que el sistema es muy sensible al ruido de alta frecuencia. Es probable que el sistema sea inutilizable porque la ganancia llega al infinito para las frecuencias altas. La sensibilidad a los ruidos de alta frecuencia puede remediarse modificando el controlador a ki s2 + as + a2 C(s) = , (12.17) ser s a2(1 + sTf + (sTf )2/2) que tiene roll-off de alta frecuencia. La selección de la constante Tf para el filtro es un compromiso entre la atenuación del ruido de medición de alta frecuencia y el ro- 367 12.4. COLOCACIÓN DE POSTES ROBUSTOS 0 |T 10 (i)| 10-2 PID ideal PID con filtrado 10−2 102 100 |PS(i 0 )| 10 102 10−2 100 102 0 |S(i)|10 |CS(i 0 )| 10 10-2 10−2 100 102 Frecuencia normalizada /a 102 10−2 100 Frecuencia normalizada /a 102 Figura 12.14: Control del sistema de nanoposicionamiento mediante la cancelación del polo rápido del proceso. Las líneas continuas muestran los gráficos de ganancia del Grupo de Cuatro para el control PID con filtrado de segundo orden (12.17), y las líneas discontinuas muestran los resultados de un controlador PID ideal sin filtro (12.16). bustness. Un valor grande de Tf reduce significativamente los efectos del ruido del sensor, pero también reduce el margen de estabilidad. Dado que la frecuencia de cruce de la ganancia sin filtrado es ki , una elección razonable es TF = 0,2/Tf , | | | | como muestran las curvas sólidas en Figura 12.14. Los gráficos de CS(i) y S(i) muestran que la sensibilidad a las altas El ruido de las mediciones de frecuencia se reduce drásticamente a costa de una aumento de la sensibilidad. Obsérvese que la escasa atenuación de las perturbaciones con frecuencias cercanas a la resonancia no es visible en la función de sensibilidad debido a la cancelación exacta de polos y ceros. Los diseños realizados hasta ahora tienen el inconveniente de que las perturbaciones de carga con frecuencias cercanas a la resonancia no se atenúan. Ahora consideraremos un diseño que atenúe activamente los modos mal amortiguados. Comenzamos con un controlador PID ideal cuyo diseño puede realizarse analíticamente, y añadimos un roll-off de alta frecuencia. La función de transferencia del lazo obtenida con este controlador es a2 (kd s2 + kp s + ki ) . (12.18) L(s) = s(s2 + as + a2) El sistema de bucle cerrado es de tercer orden, y su polinomio característico es s3 + (kd a2 + a)s2 + (kp + 1)a2 s + ki a2 . (12.19) Un polinomio general de tercer orden puede parametrizarse como s3 + (0 + )0 s2 + (1 + 0 )2 s + 03 . (12.20) 0 0 Los parámetros0 y dan la configuración relativa de los polos, y el pa- rámetro0 da sus magnitudes, y por tanto también el ancho de banda del sistema. La identificación de los coeficientes de potencias iguales de s con la ecuación (12.19) 368 CAPÍTULO 12. RENDIMIENTO ROBUSTO 100 |T (i)| 100 =a 0 = 2a 0 = 4a 0 10-2 10−2 102 100 10-4 10−2 100 102 100 |S(i)| 2 |CS(i10 )| 10-2 100 10−2 |PS(i 10-2 )| 100 102 Frecuencia normalizada /a 10−2 100 102 Frecuencia normalizada /a Figura 12.15: Control del nanoposicionador mediante amortiguación activa. Curvas de ganancia del Gang of Four para el control PID del nanoposicionador diseñado para0 = a (punteado), 2a (punteado) y 4a (sólido). El controlador tiene un roll-off de alta frecuencia y ha sido diseñado para amortiguar activamente el modo oscilatorio. Las diferentes curvas corresponden a diferentes elecciones de magnitudes de los polos, parametrizadas por0 en la ecuación (12.19). da una ecuación lineal para los parámetros del controlador, que tiene la solución 3 (1 + 0 )2 (0 + )0 0 0 0 , k = 1, k = . (12.21) d i kp = a2 a2 a2 -a Para obtener un diseño con amortiguación activa, es necesario que el ancho de banda del lazo cerrado sea al menos tan rápido como los modos oscilatorios. Añadiendo el roll-off de alta frecuencia, el controlador se convierte en kd s2 + kp s + k C(s) = . (12.22) s(1 + sTf + (sTf )2/2) El valor Tf = Td /10 = 0,1 kd /k es un buen valor para la constante de tiempo de filtrado. La figura 12.15 muestra las curvas de ganancia del Gang of Four para diseños con = 0,707,0 = 1 y0 = a, 2a y 4a. La figura muestra que los mayores valores de la función de sensibilidad y de la función de sensibilidad complementaria son pequeños. La curva de ganancia de PS muestra que las perturbaciones de la carga están ahora bien atenuadas en toda la gama de frecuencias, y la atenuación aumenta con el incremento de0 . La La curva de ganancia del CS muestra que se necesitan grandes señales de control para proporcionar una amortiguación activa. La alta ganancia de CS para frecuencias altas también muestra que se necesitan sensores y actuadores de bajo ruido con un amplio rango. Las mayores ganancias de CS son 19, 103 y 434 para0 = a, 2a y 4a, respectivamente. Hay claramente una compensación entre la atenuación de la perturbación y la ganancia del controlador. Una comparación de las figuras 12.14 y 12.15 ilustra las compensaciones entre la acción de control y la atenuación de las perturbaciones para los diseños con cancelación del polo de proceso rápido y amortiguación activa. 369 12.5. DISEÑO PARA UN RENDIMIENTO ROBUSTO 12.5 Diseño para un rendimiento robusto El diseño del control es un problema complejo en el que hay que tener en cuenta muchos factores. Los requisitos típicos son que las perturbaciones de la carga se atenúen, que el controlador inyecte sólo una cantidad moderada de ruido de medición, que la salida siga bien las variaciones de la señal de mando y que el sistema de bucle cerrado sea insensible a las variaciones del proceso. Para el sistema de la Figura 12.9, estos requisitos pueden ser capturados por las especificaciones de las funciones de sensibilidad S y T y las funciones de transferencia Gyd , Gun , Gyr y Gur . Observe que es necesario considerar al menos seis funciones de transferencia, como se discute en la Sección 11.1. Los requisitos son contradictorios y es necesario hacer concesiones. La atenuación de las perturbaciones de la carga mejorará si se aumenta el ancho de banda, pero también lo hará la inyección de ruido. Es muy deseable disponer de métodos de diseño que garanticen un rendimiento robusto. Dichos métodos de diseño no aparecieron hasta finales de la década de 1980. Muchos de estos métodos de diseño dan lugar a controladores que tienen la misma estructura que el controlador basado en la retroalimentación de estado y un observador. En esta sección proporcionamos una breve revisión de algunas de las técnicas como un avance para aquellos interesados en un estudio más especializado. Teoría de la retroalimentación cuantitativa La teoría de retroalimentación cuantitativa (QFT) es un método de diseño gráfico para la conformación de lazos robustos que fue desarrollado por I. M. Horowitz [Hor91]. La idea es primero determinar un controlador que da una sensibilidad complementaria que es robusta a las variaciones del proceso y luego dar forma a la respuesta a las señales de referencia por feedforward. La idea se ilustra en la Figura 12.16a, que muestra las curvas de nivel del controlador completo. función de sensibilidad complementaria T en un gráfico de Nyquist. La función de sensibilidad complementaria tiene una ganancia - unitaria en la línea Re L(i) = 0,5. En las proximidades de esta línea, las variaciones significativas en la dinámica del proceso sólo producen cambios moderados en la función de transferencia complementaria. La parte sombreada de la figura corresponde a la región 0,9 <| T (i) |< 1,1. Para utilizar el método de diseño, representamos la incertidumbre para cada frecuencia mediante una región e intentamos dar forma a la función de transferencia del bucle para que la variación de T sea lo más pequeña posible. El diseño se suele realizar utilizando el gráfico de Nichols que se muestra en la Figura 12.16b. Control cuadrático lineal Una forma de realizar el compromiso entre la atenuación de las perturbaciones de la carga y la inyección de ruido de medición es diseñar un controlador que minimice la función de pérdida 1 - T J y2( t) u2(t dt , = T 0 ) se comenta en el apartado 6.3. donde es un parámetro de ponderación, + tal y como Esta función de pérdida ofrece un compromiso entre la atenuación de las perturbaciones de la carga y la inyección de las perturbaciones, ya que equilibra las acciones de control con las desviaciones de la salida. Si todos los estados � 370 CAPÍTULO 12. RENDIMIENTO ROBUSTO 3 4 2 2 log|L (i)| 1 Im L(i 0 ) -2 0 -4 -5 0 Re L(i) (a) Gráfico de la sala 5 -1 -4 -3 -2 -1 arg L(i) [rad] 0 (b) Carta de Nichols Figura 12.16: Gráficos de Hall y Nichols. El gráfico de Hall es un gráfico de Nyquist con curvas para ganancia y fase constantes de la función de sensibilidad complementaria T . El gráfico de Nichols es el mapa conforme del gráfico de Hall bajo la transformación N = log L (con la escala invertida). La curva discontinua es la línea donde| T (i) |= 1, y la región sombreada correspondiente a funciones de transferencia de bucle cuya sensibilidad complementaria no cambia más ± del 10% es sombreado. se miden las variables, el controlador es una retroalimentación- de estado u = Kx y tiene la misma forma que el controlador obtenido por asignación de valores propios (colocación de polos) en la sección 6.2. Sin embargo, la ganancia del controlador se obtiene resolviendo un problema de optimización. Se ha demostrado que este controlador es muy robusto. Tiene un margen de fase de al menos 60◦ y un margen de ganancia infinito. El controlador se llama control cuadrático lineal o control LQ porque el modelo del proceso es lineal y el criterio es cuadrático. Cuando no se miden todas las variables de estado, el estado puede reconstruirse mediante un observador, como se explica en el apartado 7.3. También es posible introducir las perturbaciones del proceso y el ruido de las mediciones explícitamente en el modelo y reconstruir los estados utilizando un filtro de Kalman, como se discute brevemente en la Sección 7.4. El filtro Kalman tiene la misma estructura que el observador diseñado por asignación de valores propios en la sección 7.3, pero las ganancias del observador L se obtienen ahora resolviendo un problema de optimización. La ley de control que se obtiene combinando el control cuadrático lineal con un filtro de Kalman se denomina control gaussiano cuadrático lineal o control LQG. El filtro de Kalman es óptimo cuando los modelos de las perturbaciones de carga y del ruido de medición son gaussianos. Es interesante que la solución del problema de optimización conduce a un controlador que tiene la estructura de una retroalimentación de estado y un observador. Las ganancias de retroalimentación de estado dependen del parámetro , y las ganancias del filtro dependen de los parámetros del modelo que caracterizan el ruido del proceso y el ruido de la medición (véase la sección 7.4). Existen programas eficientes para calcular estas ganancias de retroalimentación y del observador. Las buenas propiedades de robustez de la retroalimentación de estado se pierden, por desgracia, cuando se añade el observador. Es posible elegir parámetros que den sistemas de bucle cerrado con poca robustez, similar al ejemplo 12.8. Por lo tanto, podemos concluir que hay un 371 12.5. DISEÑO PARA UN RENDIMIENTO ROBUSTO w P u z d P y C u -C y n Figura 12.17: Formulación de control robusto . La figura de la izquierda muestra una representación general de un problema de control utilizado en el control robusto. La entrada u representa la señal de control, la entrada w representa las influencias externas en el sistema, la salida z es el error generalizado y la salida y es la señal medida. La figura de la derecha muestra el caso especial del bucle de realimentación básico de la figura 12.9, en el que la señal de referencia es cero. En este caso tenemos w = (n, d) y z = (y, -u). diferencia fundamental entre usar sensores para todos los estados y reconstruir los estados usando un observador. H Control El diseño del control robusto suele denominarse control H por razones que se explicarán en breve. Las ideas básicas son sencillas, pero los detalles son complicados, por lo que nos limitaremos a dar una idea de los resultados. Una idea clave se ilustra en la figura 12.17, en la que el sistema de bucle cerrado está representado por dos bloques, el proceso P y el controlador C, tal y como se ha comentado en el apartado 11.1. El proceso P tiene dos entradas, la señal de control u, que puede ser manipulada por el controlador, y la perturbación generalizada w, que representa todas las influencias externas, por ejemplo, señales de comando y perturbaciones. El proceso tiene dos salidas, el error generalizado z, que es un vecindario de señales de error que representa la desviación de las señales de sus valores deseados, y la señal medida y, que puede ser usada por el controlador para calcular u. Para un sistema lineal y un controlador lineal el sistema de lazo cerrado puede ser representado por el sistema lineal z = H(P(s),C(s))w, (12.23) que indica cómo el error generalizado z depende de las perturbaciones generalizadas w. El problema de diseño de control es encontrar un controlador C tal que la ganancia de la función de transición H sea pequeña incluso cuando el proceso tiene incertidumbres. Hay muchas maneras diferentes de especificar la incertidumbre y la ganancia, dando lugar a diferentes Los nombres de \ \ \ diseños. \ control H2 y H corresponden a las normas H2 y H . Para ilustrar las ideas consideraremos un problema de regulación para un sistema en el que se supone que la señal de referencia es cero y las señales externas son la perturbación de carga d y el ruido de medición n, como se muestra en la figura 12.17 -(derecha). La entrada generalizada es w = ( n, d). (El signo negativo de n no es esencial, pero se elige para obtener ecuaciones algo más agradables). El error generalizado se elige como z = (, ), donde es la salida del proceso y es la parte de la perturbación de la carga que no es compensada por el controlador. El sistema de bucle cerrado se modela así � 372 CAPÍTULO 12. RENDIMIENTO ROBUSTO po r n y 1 1 + PC P 1PC + n d= H(P,C)d, (12.24) C PC PC 1 + PC 1+ que es la misma que la ecuación (12.23). Un cálculo sencillo muestra que j (1 + |P(i)|2)(1 + |C(i)|2) (12.25) . \H(P,C))\N- = |1 + P(i)C(i)| sup Existen métodos numéricos para encontrar un controlador tal \que H(P,C) \ < , si es que existe tal controlador. El mejor controlador puede encontrarse entonces iterando sobre . Los cálculos pueden realizarse resolviendo ecuaciones algebraicas de Riccati, por ejemplo, utilizando el comando hinfsyn de MATLAB. El controlador tiene el mismo orden que el proceso y la misma estructura que el controlador basado en retroalimentación de estado y un observador; véase la figura 7.7 y el teorema 7.3. Obsérvese que si minimizamos H(P,C) \ \ , nos aseguramos de que las funciones de transferencia Gyd = P/(1 + PC), que representa la transmisión de - la carga a la salida, y Gun = C/(1 + PC), que representa las perturbaciones de cómo se transmite el ruido de la medición a la señal de control, son pequeñas. Dado que la sensibilidad y las funciones de sensibilidad complementarias también son elementos de H(P,C), también hemos garantizado que las sensibilidades son menores que . Así, los métodos de diseño equilibran el rendimiento y robustez. Hay fuertes resultados de robustez asociados con el controlador H . De las ecuaciones (12.4) y (12.25) se deduce que 1 \H(P,C)\H = . (12.26) (P, -1/C) z= -u= La inversa de H(P,C) es, por tanto, igual a la distancia de Vinnicombe entre P y \ \ 1/C y puede interpretarse como un margen de estabilidad generalizado. Compárese con sm , que definimos como la distancia más corta entre la curva de Nyquist de la función de transferencia del bucle y el punto crítico -1. También se deduce que si encontramos un controlador C con \H(P,C)\N < , entonces este controlador estabilizará cualquier proceso P∗ tal que (P, P∗ ) < 1/. Ponderación de las perturbaciones La minimización de \la ganancia \ H(P,C) significa que las ganancias de todas las transiciones individuales de la señal de las perturbaciones a las salidas son menores que para todas las frecuencias de la inseñales de carga. La suposición de que las perturbaciones son igualmente importantes y que todas las frecuencias también lo son no es muy realista; recordemos que las perturbaciones de la carga suelen tener frecuencias bajas y el ruido de las mediciones suele estar dominado por las frecuencias altas. Es sencillo modificar el problema para que las perturbaciones de diferentes frecuencias tengan diferente importancia, introduciendo 373 12.5. DISEÑO PARA UN RENDIMIENTO ROBUSTO d¯ W d d¯ P u -C y n u¯ W W -1 d¯ P u -C y n u¯ P¯ -C¯ y n Figura 12.18: Diagramas de bloques de un sistema con ponderación de perturbaciones. La figura de la izquierda proporciona una ponderación de la frecuencia en las perturbaciones de los procesos. Mediante la manipulación del diagrama de bloques, esto puede convertirse en el problema estándar de la derecha. un filtro de ponderación sobre la perturbación de la carga, como se muestra en la figura 12.18. Por ejemplo, las perturbaciones de carga de baja frecuencia se verán reforzadas si se elige W como filtro de paso bajo porque la perturbación de carga real es W d¯. Utilizando la manipulación del diagrama de bloques como se muestra en la Figura 12.18, encontramos que el sistema con ponderación frecuencial es equivalente al sistema sin ponderación frecuencial de la Figura 12.18 y las señales están relacionadas a través de 1 P¯ (12.27) y 1 + P¯C¯ 1 + ¯ ¯= HC nP( P¯, C¯) w¯, z¯= u¯ P¯C¯ d¯ C¯ donde P¯ = PW y C¯ = W1−1+C. El problema de encontrar un controlador C¯ que 1+ minimice la ganancia de P¯C¯ H(P¯,C¯) P¯C¯ es entonces equivalente al problema sin ponderación de perturbaciones; habiendo obtenido C¯, el controlador para el sistema original es entonces C = WC¯. Obsérvese que si introducimos la ponderación frecuencial W = k/s, obtendremos automáticamente un controlador con acción integral. Límites del diseño robusto El diseño robusto tiene un límite. A pesar de las buenas propiedades de la retroalimentación, hay situaciones en las que las variaciones del proceso son tan grandes que no es posible encontrar un controlador lineal que dé un sistema robusto con buen rendimiento. Entonces es necesario utilizar otros tipos de controladores. En algunos casos es posible medir una variable que esté bien correlacionada con las variaciones del proceso. Entonces se pueden diseñar controladores para diferentes valores de los parámetros y elegir el controlador correspondiente en función de la señal medida. Este tipo de diseño de control se denomina programación de la ganancia. El controlador de crucero es un ejemplo típico en el que la señal medida podría ser la posición y la velocidad del engranaje. La programación de la ganancia es la solución común para las aeronaves de alto rendimiento, donde la programación se realiza en función del número de Mach y la presión dinámica. Cuando se utiliza la programación de la ganancia, es importante asegurarse de que las conmutaciones entre los controladores no crean transitorios indeseables (a menudo se denomina transferencia sin carga). Si no es posible medir las variables relacionadas con los parámetros, se puede recurrir a la sintonización automática y al control adaptativo. En la sintonización automática, la dinámica del proceso se mide perturbando el sistema y, a continuación, se diseña un controlador automáti- co. 374 CAPÍTULO 12. RENDIMIENTO ROBUSTO icamente. La sintonización automática requiere que los parámetros permanezcan constantes, y se ha aplicado ampliamente para el control PID. Es razonable suponer que en el futuro muchos controladores dispondrán de funciones para la sintonización automática. Si los parámetros cambian, es posible utilizar métodos adaptativos en los que la dinámica del proceso se mide en línea. 12.6 Más información en El tema del control robusto es muy amplio, con muchos artículos y libros de texto dedicados al tema. La robustez era un tema central en el control clásico, como se describe en el libro clásico de Bode [Bod45]. La robustez se desestimó en la euforia del desarrollo de los métodos de diseño basados en la optimización. La fuerte robustez de los controladores basados en la realimentación de estado, demostrada por Anderson y Moore [AM90], contribuyó al optimismo. La escasa robustez de la realimentación de salida fue señalada por Rosenbrock [RM71], Horowitz [Hor75] y Doyle [Doy78] y dio lugar a un renovado interés por la robustez. Un gran paso adelante fue el desarrollo de métodos de diseño en los que la robustez se tuvo en cuenta explícitamente, como el trabajo seminal de Zames [Zam81]. El control robusto se desarrolló originalmente utilizando poderosos resultados de la teoría de variables complejas, que daban controladores de alto orden. Un gran avance fue realizado por Doyle, Glover, Khargonekar y Francis [DGKF89], quienes demostraron que la solución del problema podía obtenerse utilizando ecuaciones de Riccati y que podía encontrarse un controlador de bajo orden. Este artículo condujo a un extenso tratamiento del control H , incluyendo libros de Francis [Fra87], McFarlane y Glover [MG90], Doyle, Francis y Tannen- baum [DFT92], Green y Limebeer [GL95], Zhou, Doyle y Glover [ZDG96], Skogestand y Postlethwaite [SP05] y Vinnicombe [Vin01]. Una de las principales ventajas de la teoría es que combina gran parte de la intuición de la teoría de los servomecanismos con sólidos algoritmos numéricos basados en el álgebra lineal numérica y la optimización. Los resultados se han extendido a sistemas no lineales tratando el problema de diseño como un juego en el que las perturbaciones son generadas por un adversario, como se describe en el libro de Basar y Bernhard [BB91]. La programación de la ganancia y la adaptación se discuten en el libro de Å strömy Wittenmark [ÅW08]. Ejercicios 12.1 Considere sistemas con las funciones de transferencia P1 = 1/(s + 1) y P2 = 1/(s + a). Demuestre que P1 puede cambiarse continuamente a P2 con incertidumbre aditiva y multiplicativa acotada si a > 0 pero no si a < 0. Demuestre también que no se requiere ninguna restricción en a para la incertidumbre de retroalimentación. 12.2 Considere sistemas con las funciones de transferencia P1 = (s + 1)/(s + 1)2 y P2 = (s + a)/(s + 1)2 . Demuestre que P1 puede cambiarse continuamente a P2 con incertidumbre de retroalimentación acotada si a > 0 pero no si a < 0. Demuestre también que no se requiere ninguna restricción en a para las incertidumbres aditivas y multiplicativas. 375 EJERCICIOS 12.3 (Diferencia en las funciones de sensibilidad) Sea T (P,C) la función de sensibilidad complementaria para un sistema con proceso P y controlador C. Demuestre que (P1 - P2)C T (P-1,C) T (P2,C) = , (1 + P1 C)(1 + P2 C) y derivar una fórmula similar para la función de sensibilidad. 12.4 (La esfera de Riemann) Considere sistemas con las funciones de transferencia P1 = � k/(s + 1) y P2 = k/(s - 1). Demuestre que dPP k ( 1 , 2) = 2 k2 1 , PP (1 , 2) = 1, si k < 1 2k 1 + k2 de lo contrario. + Utilice la esfera de Riemann para demostrar geométricamente que (P1 , P2 ) = 1 si k < 1. (Pista: Basta con evaluar la función de transferencia para = 0). 12.5 (Márgenes de estabilidad) Considere un lazo de retroalimentación con un proceso y un controlador con funciones de transferencia P y C. Suponga que la sensibilidad máxima es Ms = 2. Demuestre que el margen de fase es de al menos 30◦ y que el sistema de bucle cerrado será estable si la ganancia se modifica en un 50%. 12.6 (Función de transferencia del bucle ideal de Bode) Realice los gráficos de Bode y Nyquist de la función de transferencia del bucle ideal de Bode. Demuestre que el margen de fase esm =180◦ -90◦ n y que el margen de estabilidad es sm = arcsin(1 - n/2). 12.7 Consideremos un proceso con la función de transferencia P(s) = k/(s(s + 1)), donde la ganancia puede variar entre 0,1 y 10. Se puede obtener un controlador robusto a estas variaciones de ganancia encontrando un controlador que dé la función de transferencia del lazo L(s) = 1/(s√s). Sugiera cómo se puede implementar la función de transferencia mediante la aproximación de por una función racional. 12.8 (Predictor de Smith) El predictor de Smith, un controlador para sistemas con retrasos temporales, es una versión especial de la figura 12.8a con P(s) = e−s P0 (s) y C(s) = C0 (s)/(1 +C0 (s)P(s)). El controlador C0 (s) está diseñado para dar un buen rendimiento para el proceso P0 (s). Demuestre que las funciones de sensibilidad son 1 + (1 - e−s )P0 (s)C0 P0 (s)C0 (s) S s Ts e-s (s) ()= , ()= . 1 + P0 (s)C0 (s) 1 + P0 (s)C0 (s) 12.9 (Compensador de retardo ideal) Considere un proceso cuya dinámica es un retardo de tiempo puro con función de transferencia P(s) = e−s . El compensador de retardo ideal es un controlador con la función -de transferencia C(s) = 1/(1 e−s ). Demuestre que las funciones de sensibilidad son T (s) = e−s y S(s) = 1 e−s y que el sistema de lazo cerrado será inestable para cambios arbitrariamente pequeños en el retardo. 12.10 (Dirección del vehículo) Considere la curva de Nyquist de la figura 12.11. 376 CAPÍTULO 12. RENDIMIENTO ROBUSTO Explique por qué parte de la curva es aproximadamente un círculo. Deduzca una fórmula para el centro y el radio y compárela con la curva de Nyquist real. 376 CAPÍTULO 12. RENDIMIENTO ROBUSTO 12.11 Consideremos un proceso con la función de transferencia P(s) = (s + 3)(s + 200) . (s + 1)(s2+ 10s + 40)(s + 40) Discutir las opciones adecuadas de los polos de bucle cerrado para un diseño que da polos dominantes con frecuencia natural no amortiguada 1 y 10. 12.12 (Sistema de nanoposicionamiento AFM) Considere el diseño del Ejemplo 12.10 y explore los efectos de cambiar los parámetros0 y0 . 12.13 (H control) Considere la matriz H(P,C) en la ecuación (12.24). Demuestre que tiene los valores singulares j (1+ |P(i)|2)(1 + |C(i)|2) 0 HPC sup = 2 = 1 = , = \ ( , ))\N- . |1 + P(i)C(i)| Demuestre también que = -1/d (P, 1/C), lo que implica que 1/¯ es una generalización de la distancia más cercana del gráfico de Nyquist al punto crítico. 12.14 Demuestra que v(P, -1/C) = infj |P(i) + 1/C(i)| (1 + |P(i)|2)(1 + 1/|C(i)|2) = 1 . \H(P,C))\N-ES 12.15 Considere el sistema 1 dx -1 0 a= Ax + Bu = x +0 u, 1 1 dt y = Cx = 01y. Diseñe una realimentación de estado que -dé det(sI BK) = s2 + ccc s + 2, y un ob- servador con -det(sI LC) = s2 + ooo s + 2 y combínelos utilizando el principio de sepa- ración para obtener una realimentación de salida. Elija los valores numéricos a = 1,5, c = 5,c = 0,6 yo = 10,o = 0,6. Calcule los valores propios de la perturbada cuando la ganancia del proceso se incrementa en un 2%. Calcule también la transferencia del bucle y las funciones de sensibilidad. ¿Hay alguna manera de saber de antemano que el sistema será altamente sensible? 12.16 (Robustez mediante el criterio de Nyquist) Otra visión del rendimiento robusto puede obtenerse apelando al criterio de Nyquist. Dejemos que Smax (i) represente un límite superior deseado en nuestra función de sensibilidad. Demuestre que el sistema proporciona este nivel de rendimiento sujeto a la incertidumbre aditiva si se satisface la siguiente desigualdad: 1 1 L˜ 1 L para todo 0. (12.28) | + | = |+ + | |Smax (i)| > Describa cómo comprobar esta condición utilizando un gráfico de Nyquist. Bibliografía [Abk69] M. A. Abkowitz. Stability and Motion Control of Ocean Vehicles. MIT Press, Cambridge, MA, 1969. [Ack72] J. Ackermann. Der Entwurf linearer Regelungssysteme im Zustandsraum. Regelung- stechnik und Prozessdatenverarbeitung, 7:297-300, 1972. [Ack85] J. Ackermann. Sampled-Data Control Systems. Springer, Berlín, 1985. [Agn76] C. E. Agnew. Dynamic modeling and control of congestion-prone systems. Operations Research, 24(3):400-419, 1976. K. J. A˚ stro¨m y T. Ha¨gglund. Advanced PID Control. ISA-The Instrumentation, Systems, and Automation Society, Research Triangle Park, NC, 2005. [A˚ H05] [Ahl66] L. V. Ahlfors. Complex Analysis. McGraw-Hill, Nueva York, 1966. [KL05] K. J. A˚ stro¨m, R. E. Klein, y A. Lennartsson. Dinámica y control de bicicletas. IEEE Control Systems Magazine, 25(4):26-47, 2005. [AM90] B. D. O. Anderson y J. B. Moore. Optimal Control Linear Quadratic Methods. Prentice Hall, Englewood Cliffs, NJ, 1990. Reeditado por Dover Publications, 2007. [Apo67] T. M. Apostol. Calculus, Vol. II: Multi-Variable Calculus and Linear Algebra with Applications. Wiley, Nueva York, 1967. [Apo69] T. M. Apostol. Calculus, Vol. I: One-Variable Calculus with an Introduction to Linear Algebra. Wiley, Nueva York, 1969. [Ari94] R. Aris. Mathematical Modeling Techniques. Dover, Nueva York, 1994. Publicado originalmente por Pitman, 1978. [Arn78] V. I. Arnold. Mathematical Methods in Classical Mechanics. Springer, Nueva York, 1978. [Arn87] V. I. Arnold. Ordinary Differential Equations. MIT Press, Cambridge, MA, 1987. 10ª edición, 1998. [AS82] R. H. Abraham y C. D. Shaw. Dynamics-The Geometry of Behavior, Part 1: Comportamiento periódico. Aerial Press, Santa Cruz, CA, 1982. [ASMN03] M . Atkinson, M. Savageau, J. Myers y A. Ninfa. Development of genetic circuitry exhibiting toggle switch or oscillatory behavior in Escherichia coli. Cell, 113(5):597607, 2003. [A˚st00] K.J. A˚ stro¨m. Limitaciones del rendimiento de los sistemas de control. European Journal on Control, 6(1):2-20, 2000. [A˚st06] K. J. A˚ stro¨m. Introduction to Stochastic Control Theory. Dover, Nueva York, 2006. Publicado originalmente por Academic Press, Nueva York, 1970. [Ath75] D. P. Atherton. Nonlinear Control Engineering. Van Nostrand, Nueva York, 1975. [AVK87] A . A. Andronov, A. A. Vitt y S. E. Khaikin. Theory of Oscillators. Dover, New York, 1987. 378 [A˚W97] [A˚ W08] [BA˚ 70] BIBLIOGRAFÍA K. J. A˚ stro¨m y B. Wittenmark. Computer-Control Systems: Theory and Design. Prentice Hall, Englewood Cliffs, NJ, 3ª edición, 1997. K. J. A˚ stro¨m y B. Wittenmark. Adaptive Control. Dover, Nueva York, 2ª edición, 2008. Publicado originalmente por Addison Wesley, 1995. R. Bellman y K. J. A˚ stro¨m. Sobre la identificabilidad estructural. Mathematical Biosciences, 7:329-339, 1970. [Bas01] T. Basar, editor. Control Theory: Twenty-five Seminal Papers (1932-1981). IEEE Press, Nueva York, 2001. [BB91] T. Basar y P. Bernhard. − Control and Related Minimax Design Problems: A Dynamic Game Approach. Birkhauser, Boston, 1991. [BC48] G. S. Brown y D. P. Campbell. Principles of Servomechanims. Wiley, Nueva York, 1948. [BD04] W. E. Boyce y R. C. DiPrima. Elementary Differential Equations. Wiley, Nueva York, 2004. [Bec05] J. Bechhoefer. Retroalimentación para físicos: Un ensayo tutorial sobre el control. Reviews of Modern Physics, 77:783-836, 2005. [Ben79] S. Bennett. A History of Control Engineering: 1800-1930. Peter Peregrinus, Stevenage, 1979. [Ben93] S. Bennett. A History of Control Engineering: 1930-1955. Peter Peregrinus, Stevenage, 1993. [Ber54] L. L. Beranek. Acoustics. McGraw-Hill, Nueva York, 1954. [Ber89] R. N. Bergman. Toward physiological understanding of glucose tolerance: Enfoque de modelo mínimo. Diabetes, 38:1512-1527, 1989. [BG68] B. Brawn y F. Gustavson. Program behavior in a paging environment. Proceedings of the AFIPS Fall Joint Computer Conference, pp. 1019-1032, 1968. [BG87] D. Bertsekas y R. Gallager. Data Networks. Prentice Hall, Englewood Cliffs, 1987. [BH75] A. E. Bryson, Jr. y Y.-C. Ho. Applied Optimal Control: Optimization, Estimation, y Control. Wiley, Nueva York, 1975. [Bia95] B. Bialkowski. Process control sample problems. En N. J. Sell, editor, Process Control Fundamentals for the Pulp & Paper Industry. Tappi Press, Norcross, GA, 1995. [BK64] R. E. Bellman y R. Kalaba. Selected Papers on Mathematical Trends in Control Theory. Dover, Nueva York, 1964. [Bla34] H. S. Black. Stabilized feedback amplifiers. Bell System Technical Journal, 13:1-2, 1934. [Bla77] H. S. Black. Inventando el amplificador de retroalimentación negativa. IEEE Spectrum, pp. 55-60, 1977. [Bla91] J. H. Blakelock. Automatic Control of Aircraft and Missiles. Addison-Wesley, Cam- bridge, MA, 2ª edición, 1991. [Bli90] G. Blickley. Modern control started with Ziegler-Nichols tuning. Control Engineering, 37:72-75, 1990. [Bod45] H. W. Bode. Network Analaysis and Feedback Amplifier Design. Van Nostrand, Nueva York, 1945. [Bod60] H. W. Bode. Feedback-The history of an idea. En Symposium on Active Networks and Feedback Systems. Instituto Politécnico de Brooklyn, Nueva York, 1960. Reimpreso en [BK64]. 379 BIBLIOGRAFÍA [BP96] M. B. Barron y W. F. Powers. The role of electronic controls for future automotive mechatronic systems. IEEE Transactions on Mechatronics, 1(1):80-89, 1996. [BR86] G. Binnig y H. Rohrer. Scanning tunneling microscopy. IBM Journal of Research and Development, 30(4):355-369, 1986. [Bro70] R. W. Brockett. Finite Dimensional Linear Systems. Wiley, Nueva York, 1970. [Bro00]R . W. Brockett. New issues in the mathematics of control. En B. Engquist y W. Schmid, editores, Mathematics Unlimited-2001 and Beyond, pp. 189-220. Springer-Verlag, Berlín, 2000. [BRS60] J. F. Blackburn, G. Reethof y J. L. Shearer. Fluid Power Control. MIT Press, Cambridge, MA, 1960. [Can03] R. H. Cannon. Dynamics of Physical Systems. Dover, Nueva York, 2003. Publicado originalmente por McGraw-Hill, 1967. [CD75] R. F. Coughlin y F. F. Driscoll. Operational Amplifiers and Linear Integrated Circuits. Prentice Hall, Englewood Cliffs, NJ, 6ª edición, 1975. [CD91] F. M. Callier y C. A. Desoer. Linear System Theory. Springer-Verlag, Londres, 1991. [CFG+06] L. B. Cremean, T. B. Foote, J. H. Gillula, G. H. Hines, D. Kogan, K. L. Kriechbaum, J. C. Lamb, J. Leibs, L. Lindzey, C. E. Rasmussen, A. D. Stewart, J. W. Burdick y R. M. Murray. Alice: Un vehículo autónomo rico en información para la navegación de alta velocidad en el desierto. Journal of Field Robotics, 23(9):777810, 2006. [CJ59] H. S. Carslaw y J. C. Jaeger. Conduction of Heat in Solids. Clarendon Press, Oxford, Reino Unido, 2ª edición, 1959. [CM51] H. Chestnut y R. W. Mayer. Servomechanisms and Regulating System Design, Vol. 1. Wiley, Nueva York, 1951. [Cro75] Crocus. Systemes d'Exploitation des Ordinateurs. Dunod, París, 1975. [CT84] C. Cobelli y G. Toffolo. Modelo de la cinética de la glucosa y su control por la insulina, enfoques compartimentales y no compartimentales. Mathematical Biosciences, 72(2):291-316, 1984. [DB04] R. C. Dorf y R. H. Bishop. Modern Control Systems. Prentice Hall, Upper Saddle River, NJ, 10ª edición, 2004. [DFT92] J. C. Doyle, B. A. Francis y A. R. Tannenbaum. Feedback Control Theory. Macmillan, Nueva York, 1992. [DGH+02] Y. Diao, N. Gandhi, J. L. Hellerstein, S. Parekh y D. M. Tilbury. Using MIMO feedback control to enforce policies for interrelated metrics with application to the Apache web server. En Proceedings of the IEEE/IFIP Network Operations and Man- agement Symposium, pp. 219-234, 2002. [DGKF89] J . C. Doyle, K. Glover, P. P. Khargonekar y B. A. Francis. State-space solutions to standard H2 and control problems. IEEE Transactions on Automatic Control, 34(8):831-847, 1989. [DH85] J. P. Den Hartog. Mechanical Vibrations. Dover, Nueva York, 1985. Reimpresión de la 4ª ed. de 1956; 1ª ed. publicada en 1934. [Dic07] E. D. Dickmanns. Dynamic Vision for Perception and Control of Motion. Springer, Berlín, 2007. [dJ02] H. de Jong. Modelización y simulación de sistemas de regulación genética: A literature review. Journal of Computational Biology, 9:67-103, 2002. 380 BIBLIOGRAFÍA [DM02] L. Desborough y R. Miller. Incrementar el valor para el cliente de la monitorización del rendimiento del control industrial: la experiencia de Honeywell. En Sixth International Conference on Chemical Process Control. AIChE Symposium Series Number 326 (Vol. 98), 2002. [Dos68] F. H. Dost. Grundlagen der Pharmakokinetik. Thieme Verlag, Stuttgart, 1968. [Doy78] J. C. Doyle. Guaranteed margins for LQG regulators. IEEE Transactions on Automatic Control, 23(4):756-757, 1978. [Dub57] L. E. Dubins. On curves of minimal length with a constraint on average curvature, and with prescribed initial and terminal positions and tangents. American Journal of Mathematics, 79:497-516, 1957. [Dys04] F. Dyson. Un encuentro con Enrico Fermi. Nature, 247(6972):297, 2004. [EG05] S. P. Ellner y J. Guckenheimer. Dynamic Models in Biology. Princeton University Press, Princeton, NJ, 2005. [EL00] M. B. Elowitz y S. Leibler. Una red oscilante sintética de regidores transcripcionales. Nature, 403(6767):335-338, 2000. [Ell94] J. R. Ellis. Vehicle Handling Dynamics. Mechanical Engineering Publications, London, 1994. [ESGK02] H. El-Samad, J. P. Goff y M. Khammash. Calcium homeostasis and parturient hypocalcemia: An integral feedback perspective. Journal of Theoretical Biology, 214:17-29, 2002. [FCF+06] P . G. Fabietti, V. Canonico, M. O. Federici, M. Benedetti y E. Sarti. Control oriented model of insulin and glucose dynamics in type 1 diabetes. Medical and Biological Engineering and Computing, 44:66-78, 2006. [FLMR92] M . Fliess, J. Levine, P. Martin y P. Rouchon. On differentially flat nonlinear sys- tems. Comptes Rendus des Se'ances de l'Acade'mie des Sciences, Serie I, 315:619- 624, 1992. [FLMR95] M . Fliess, J. Levine, P. Martin y P. Rouchon. Plano y defecto de los sistemas no lineales: Introductory theory and examples. International Journal of Control, 61(6):1327-1361, 1995. [For61] J. W. Forrester. Industrial Dynamics. MIT Press, Cambridge, MA, 1961. [Fou07] J. B. J. Fourier. Sobre la propagación del calor en los cuerpos sólidos. Memoria leída ante la clase del Instituto de Francia, 1807. [FPEN05] G. F. Franklin, J. D. Powell y A. Emami-Naeini. Feedback Control of Dynamic Systems. Prentice Hall, Upper Saddle River, NJ, 5ª edición, 2005. [Fra87] B. A. Francis. A Course in Control. Springer-Verlag, Berlín, 1987. [Fra07] A. Fradkov. Cybernetical Physics: Del control del caos al control cuántico. Springer, Berlín, 2007. [Fri04] B. Friedland. Control System Design: An Introduction to State Space Methods. Dover, Nueva York, 2004. [GB42] M. A. Gardner y J. L. Barnes. Transients in Linear Systems. Wiley, Nueva York, 1942. [GF71] L. Gunkel y G. F. Franklin. Una solución general para sistemas de datos lineales muestreados. IEEE Transactions on Automatic Control, AC-16:767-775, 1971. [GGS01] G. C. Goodwin, S. F. Graebe y M. E. Salgado. Control System Design. Prentice Hall, Upper Saddle River, NJ, 2001. 381 BIBLIOGRAFÍA [GH83] J. Guckenheimer y P. Holmes. Nonlinear Oscillations, Dynamical Systems, and Bifurcations of Vector Fields. Springer-Verlag, Berlín, 1983. [Gil63] E. Gilbert. Controlability and observability in multivariable control systems. SIAM Journal of Control, 1(1):128-151, 1963. [GL95] M. Green y D. J. N. Limebeer. Linear Robust Control. Prentice Hall, Englewood Cliffs, NJ, 1995. [GM61] D. Graham y D. McRuer. Analysis of Nonlinear Control Systems. Wiley, Nueva York, 1961. [Dios83] K. Godfrey. Compartment Models and Their Application. Academic Press, Nueva York, 1983. [Gol53] H. Goldstein. Classical Mechanics. Addison-Wesley, Cambridge, MA, 1953. [Gol70] S. W. Golomb. Mathematical models-Uses and limitations. Simulation, 4(14):197198, 1970. [GP82] M. Giobaldi y D. Perrier. Pharmacokinetics. Marcel Dekker, Nueva York, 2ª edición, 1982. [GPD59] J. C. Gille, M. J. Pelegrin y P. Decaulne. Feedback Control Systems; Analysis, Synthesis, and Design. McGraw-Hill, Nueva York, 1959. [Gui63] E. A. Guillemin. Theory of Linear Physical Systems. MIT Press, Cambridge, MA, 1963. [Hah67] W. Hahn. Stability of Motion. Springer, Berlín, 1967. [HB90] J. K. Hedrick y T. Batsuen. Invariant properties of automobile suspensions. En Proedigns of the Institution of Mechanical Engineers, volumen 204, pp. 21-27, Londres, 1990. [HD95] M. B. Hoagland y B. Dodson. The Way Life Works. Times Books, Nueva York, 1995. [HDPT04] J . L. Hellerstein, Y. Diao, S. Parekh y D. M. Tilbury. Feedback Control of Computing Systems. Wiley, Nueva York, 2004. [Her04] D. V. Herlihy. Bicycle-The History. Yale University Press, New Haven, CT, 2004. [HH52] A. L. Hodgkin y A. F. Huxley. A quantitative description of membrane current y su aplicación a la conducción y excitación en el nervio. Journal of Physiology, 117(500-544), 1952. [HMTG00] C. V. Hollot, V. Misra, D. Towsley y W-B. Gong. A control theoretic analysis of RED. En Proceedings of IEEE Infocom, pp. 1510-1519, 2000. [Hor63] I. M. Horowitz. Synthesis of Feedback Systems. Academic Press, Nueva York, 1963. [Hor75] I. M. Horowitz. Superioridad de la función de transferencia sobre los métodos de variables de estado en los sistemas lineales, diseño de sistemas de retroalimentación invariantes en el tiempo. IEEE Transactions on Automatic Control, AC-20(1):84-97, 1975. [Hor91] I. M. Horowitz. Survey of quantitative feedback theory. International Journal of Control, 53:255291, 1991. [Hug93] T. P. Hughes. Elmer Sperry: Inventor e ingeniero. John Hopkins University Press, Baltimore, MD, 1993. [HW00] D. Hanahan y R. A. Weinberg. The hallmarks of cancer. Cell, 100:57-70, 2000. [Isi95] A. Isidori. Nonlinear Control Systems. Springer-Verlag, Berlín, 3ª edición, 1995. [Ito70] M. Ito. Aspectos neurofisiológicos del sistema motor cerebeloso. Internacional Journal of Neurology, 7:162178, 1970. 382 BIBLIOGRAFÍA [Jac72] J. A. Jacquez. Compartment Analysis in Biology and Medicine. Elsevier, Amsterdam, 1972. [Jac95] V. Jacobson. Congestion avoidance and control. ACM SIGCOMM Computer Communication Review, 25:157-173, 1995. [JNP47] H. James, N. Nichols y R. Phillips. Theory of Servomechanisms. McGraw-Hill, Nueva York, 1947. [JT61] P. D. Joseph y J. T. Tou. On linear control theory. Transactions of the AIEE, 80(18), 1961. [Jun02] W. G. Jung, editor. Op Amp Applications. Analog Devices, Norwood, MA, 2002. [Kal60] R. E. Kalman. Contribuciones a la teoría del control óptimo. Boletin de la Sociedad Mate'matica Mexicana, 5:102-119, 1960. [Kal61a] R. E. Kalman. New methods and results in linear prediction and filtering theory. Technical Report 61-1, Research Institute for Advanced Studies (RIAS), Baltimore, MD, febrero de 1961. [Kal61b] R . E. Kalman. On the general theory of control systems. En Proceedings of the First IFAC Congress on Automatic Control, Moscú, 1960, volumen 1, pp. 481-492. Butterworths, Londres, 1961. [KB61] R. E. Kalman y R. S. Bucy. Nuevos resultados en la teoría de filtrado y predicción lineal. Transactions of the ASME (Journal of Basic Engineering), 83 D:95-108, 1961. [Kel85] F. P. Kelly. Stochastic models of computer communication. Journal of the Royal Statistical Society, B47(3):379-395, 1985. [Kel94] K. Kelly. Out of Control. Addison-Wesley, Reading, MA, 1994. Disponible en http: //www.kk.org/outofcontrol. [Clave36] J. M. Keynes. The General Theory of Employment, Interest and Money. Cambridge Universtiy Press, Cambridge, Reino Unido, 1936. [KFA69] R. E. Kalman, P. L. Falb y M. A. Arbib. Topics in Mathematical System Theory. McGraw-Hill, Nueva York, 1969. [KG55] L. R. Klein y A. S. Goldberger. An Econometric Model of the United States 19291952. North Holland, Amsterdam, 1955. [KG02] B. C. Kuo y F. Golnaraghi. Automatic Control Systems. Wiley, Nueva York, 8ª edición, 2002. [Kha01] H. K. Khalil. Nonlinear Systems. Macmillan, Nueva York, 3ª edición, 2001. [KHN63] R. E. Kalman, Y. Ho y K. S. Narendra. Controllability of Linear Dynamical Systems, volumen 1 de Contributions to Differential Equations. Wiley, Nueva York, 1963. [Kit95] C. Kittel. Introduction to Solid State Physics. Wiley, Nueva York, 1995. [KKK95] M. Krstic', I. Kanellakopoulos, y P. Kokotovic'. Nonlinear and Adaptive Control Design. Wiley, 1995. [Kle75] L. Kleinrock. Queuing Systems, Vols. I y II. Wiley-Interscience, Nueva York, 2ª edición, 1975. [KN00] U. Kiencke y L. Nielsen. Sistemas de control de automóviles: For Engine, Driveline, and Vehicle. Springer, Berlín, 2000. [Kra63] N. N. Krasovski. Stability of Motion. Stanford University Press, Stanford, CA, 1963. [KS01] J. Keener y J. Sneyd. Mathematical Physiology. Springer, Nueva York, 2001. [Kum01] P. R. Kumar. New technological views for systems and control: El ejemplo de redes inalámbricas. Control Systems Magazine, 21(1):24-37, 2001. 383 BIBLIOGRAFÍA [Kun93] P. Kundur. Power System Stability and Control. McGraw-Hill, Nueva York, 1993. [KV86] P. R. Kumar y P. Varaiya. Stochastic Systems: Estimation, Identification, and Adaptive Control. Prentice Hall, Englewood Cliffs, NJ, 1986. [KW05] M. Kurth y E. Welfonder. Comportamiento de la oscilación del sistema eléctrico europeo ampliado en condiciones de mercado energético desregulado. Control Engineering Practice, 13:1525-1536, 2005. [LaS60] J. P. LaSalle. Algunas extensiones del segundo método de Lyapunov. IRE Transactions on Circuit Theory, CT-7(4):520-527, 1960. [Lew03] A. D. Lewis. A mathematical approach to classical control. Informe técnico, Queens University, Kingston, Ontario, 2003. [LPD02] S. H. Low, F. Paganini y J. C. Doyle. Internet congestion control. IEEE Control Systems Magazine, pp. 28-43, febrero de 2002. [LPW+02] S . H. Low, F. Paganini, J. Wang, S. Adlakha y J. C. Doyle. Dinámica de TCP/RED y un control escalable. En Proceedings of IEEE Infocom, pp. 239-248, 2002. [Lun05] K. H. Lundberg. Historia de la computación analógica. IEEE Control Systems Magazine, pp. 22-28 de marzo de 2005. [Mac37] D. A. MacLulich. Fluctuaciones en los números de la liebre variable (Lepus ameri- canus). University of Toronto Press, 1937. [Mac45] L.A. MacColl. Fundamental Theory of Servomechanims. Van Nostrand, Princeton, NJ, 1945. Reimpresión Dover 1968. [Mac89] J. M. Maciejowski. Multivariable Feedback Design. Addison Wesley, Reading, MA, 1989. [Mal59] J. G. Malkin. Theorie der Stabilita¨t einer Bewegung. Oldenbourg, Mu¨nchen, 1959. [Man02] R. Mancini. Op Amps for Everyone. Texas Instruments, Houston. TX, 2002. [May70] O. Mayr. The Origins of Feedback Control. MIT Press, Cambridge, MA, 1970. [McF53] M. W. McFarland, editor. The Papers of Wilbur and Orville Wright. McGraw-Hill, Nueva York, 1953. [MG90] D. C. McFarlane y K. Glover. Robust Controller Design Using Normalized Coprime Factor Plant Descriptions. Springer, Nueva York, 1990. [MH98] J. E. Marsden y M. J. Hoffmann. Basic Complex Analysis. W. H. Freeman, Nueva York, 1998. [Mil66] H. T. Milhorn. The Application of Control Theory to Physiological Systems. Saunders, Philadelphia, 1966. [Min02] D. A. Mindel. Between Human and Machine: Feedback, Control, and Computing Before Cybernetics. Johns Hopkins University Press, Baltimore, MD, 2002. [MLK06] A . Makroglou, J. Li e Y. Kuang. Mathematical models and software tools for the glucose-insulin regulatory system and diabetes: An overview. Applied Numerical Mathematics, 56:559-573, 2006. [MLS94] R . M. Murray, Z. Li y S. S. Sastry. A Mathematical Introduction to Robotic Manipulation. CRC Press, 1994. [MPTvdM80] D. Mo¨hl, G. Petrucci, L. Thorndahl y S. van der Meer. Physics and technique of stochastic cooling. Physics Reports, 58(2):73-102, 1980. [MR94] J. E. Marsden y T. S. Ratiu. Introduction to Mechanics and Symmetry. SpringerVerlag, Nueva York, 1994. 384 BIBLIOGRAFÍA [Mur03] R. M. Murray, editor. Control in an Information Rich World: Report of the Panel on Future Directions in Control, Dynamics and Systems. SIAM, Philadelphia, 2003. [Mur04] J. D. Murray. Mathematical Biology, Vols. I y II. Springer-Verlag, Nueva York, 3ª edición, 2004. [Nah88] P. J. Nahin. Oliver Heaviside: Sage in Solitude: The Life, Work and Times of an Electrical Genius of the Victorian Age. IEEE Press, Nueva York, 1988. [Nie35] A. O. Nier. Evidencia de la existencia de un isótopo de potasio de masa 40. Physical Review, 48:283-284, 1935. [NS99] H. Nijmeijer y J. M. Schumacher. Four decades of mathematical system theory. En J. W. Polderman y H. L. Trentelman, editores, The Mathematics of Systems and Control: From Intelligent Control to Behavioral Systems, pp. 73-83. Universidad de Groningen, 1999. [Nyq32] H. Nyquist. Teoría de la regeneración. Bell System Technical Journal, 11:126-147, 1932. [Nyq56]H . Nyquist. La teoría de la regeneración. En R. Oldenburger, editor, Frequency Response, p. 3. MacMillan, Nueva York, 1956. [Oga01] K. Ogata. Modern Control Engineering. Prentice Hall, Upper Saddle River, NJ, 4ª edición, 2001. [Old56] R. Oldenburger, editor. Frequency Response. MacMillan, Nueva York, 1956. [PB86] G. Pacini y R. N. Bergman. A computer program to calculate insulin sensitivity and pancreatic responsivity from the frequently sampled intraveneous glucose tolerance test. Computer Methods and Programs in Biomedicine, 23:113-122, 1986. [Phi48] G. A. Philbrick. Designing industrial controllers by analog. Electronics, 21(6):108111, 1948. [PN00] W. F. Powers y P. R. Nicastri. Retos del control de los vehículos de motor en el siglo XXI. Control Engineering Practice, 8:605-618, 2000. [PPP02] S. Prajna, A. Papachristodoulou y P. A. Parrilo. SOSTOOLS: Sum of squares optimization toolbox for MATLAB, 2002. Disponible en http://www.cds.caltech. edu/sostools. [Rig63] D. S. Riggs. The Mathematical Approach to Physiological Problems. MIT Press, Cambridge, MA, 1963. [RM71] H. H. Rosenbrock y P. D. Moran. ¿Bueno, malo u óptimo? IEEE Transactions on Automatic Control, AC-16(6):552-554, 1971. [Row58] F. Rowsone, Jr. Cómo es conducir un coche con piloto automático. Popular Science Monthly, abril de 1958. Disponible en http://www.imperialclub.com/ImFormativeArticles/ 1958AutoPilot. [Rug95] W. J. Rugh. Linear System Theory. Prentice Hall, Englewood Cliffs, NJ, 2ª edición, 1995. [SA˚ D+07] G. Schitter, K. J. A˚ stro¨m, B. DeMartini, P. J. Thurner, K. L. Turner y P. K. Hansma. Design and modeling of a high-speed AFM-scanner. IEEE Transactions on Control System Technology, 15(5):906-915, 2007. [Sar91] D. Sarid. Atomic Force Microscopy. Oxford University Press, Oxford, Reino Unido, 1991. [Sas99] [Sch87] S. Sastry. Nonlinear Systems. Springer, Nueva York, 1999. M. Schwartz. Telecommunication Networks. Addison Wesley, Reading, MA, 1987. [Sch01] G. Schitter. Retroalimentación de alto rendimiento para microscopios de fuerza atómica de barrido rápido. Review of Scientific Instruments, 72(8):3320-3327, 2001. 385 BIBLIOGRAFÍA [SEM04] D. E. Seborg, T. F. Edgar y D. A. Mellichamp. Process Dynamics and Control. Wiley, Hoboken, NJ, 2ª edición, 2004. [Sen01] S. D. Senturia. Microsystem Design. Kluwer, Boston, MA, 2001. [Shi96] F. G. Shinskey. Process-Control Systems. Application, Design, and Tuning. McGrawHill, Nueva York, 4ª edición, 1996. [Son98] E. P. Sontag. Mathematical Control Theory: Deterministic Finite Dimensional Systems. Springer, Nueva York, 2ª edición, 1998. [SP05] S. Skogestad y I Postlethwaite. Multivariable Feedback Control. Wiley, Hoboken, NJ, 2ª edición, 2005. [SS02] E. B. Saff y A. D. Snider. Fundamentals of Complex Analysis with Applications to Engineering, Science and Mathematics. Prentice Hall, Englewood Cliffs, NJ, 2002. [Sta68] L. Stark. Neurological Control Systems-Studies in Bioengineering. Plenum Press, Nueva York, 1968. [Ste02] J. Stewart. Calculus: Early Transcendentals. Brooks Cole, Pacific Grove, CA, 2002. [Ste03] G. Stein. Respetar lo inestable. Control Systems Magazine, 23(4):12-25, 2003. [Str88]G . Strang. Linear Algebra and Its Applications. Harcourt Brace Jovanovich, San Diego, 3ª edición, 1988. [Str94] S. H. Strogatz. Nonlinear Dynamics and Chaos, with Applications to Physics, Biology, Chemistry, and Engineering. Addison-Wesley, Reading, MA, 1994. [SV89] M. W. Spong y M. Vidyasagar. Dynamics and Control of Robot Manipulators. John Wiley, 1989. [Tan96] A. S. Tannenbaum. Computer Networks. Prentice Hall, Upper Saddle River, NJ, 3ª edición, 1996. [Teo37] T. Teorell. Cinética de distribución de sustancias administradas al organismo, I y II. Archives Internationales de Pharmacodynamie et de Therapie, 57:205-240, 1937. [Tha89] G. T. Thaler. Automatic Control Systems. West Publishing, St. Paul, MN, 1989. [Til01] M. Tiller. Introduction to Physical Modeling with Modelica. Springer, Berlín, 2001. [Tru55] J. G. Truxal. Automatic Feedback Control System Synthesis. McGraw-Hill, Nueva York, 1955. [TS90] D. Tipper y M. K. Sundareshan. Numerical methods for modeling computer net works under nonstationary conditions. IEEE Journal of Selected Areas in Communi- cations, 8(9):1682-1695, 1990. [Tsi54] H. S. Tsien. Engineering Cybernetics. McGraw-Hill, Nueva York, 1954. [Vin01] G. Vinnicombe. Incertidumbre y retroalimentación: Met- ric. Imperial College Press, Londres, 2001. [Whi99] F. J. W. Whipple. La estabilidad del movimiento de una bicicleta. Quarterly Journal of Pure and Applied Mathematics, 30:312-348, 1899. [Wid41] D. V. Widder. Laplace Transforms. Princeton University Press, Princeton, NJ, Loop-Shaping and the -Gap 1941. [Wie48] N. Wiener. Cybernetics: Or Control and Communication in the Animal and the Machine. Wiley, 1948. [Wig90] S. Wiggins. Introduction to Applied Nonlinear Dynamical Systems and Chaos. Springer-Verlag, Berlín, 1990. [Wil99] H. R. Wilson. Spikes, Decisions, and Actions: The Dynamical Foundations of Neuroscience. Oxford University Press, Oxford, Reino Unido, 1999. 386 BIBLIOGRAFÍA [Wil04] D. G. Wilson. Bicycling Science. MIT Press, Cambridge, MA, 3ª edición, 2004. Con aportaciones de Jim Papadopoulos. [Wis07] K. A. Wise. Guiado y control para sistemas militares: Future challenges. En AIAA Conference on Guidance, Navigation, and Control, 2007. AIAA Paper 2007-6867. U¨ ber die Bedingungen fu¨r die Akkumulation E. P. M. Widmark y J. Tandberg. indiferenter Narkotika. Biochemische Zeitung, 148:358-389, 1924. [WT24] [YH91] S. Yamamoto e I. Hashimoto. Situación actual y necesidades futuras: La visión de la industria japonesa. En Y. Arkun y W. H. Ray, editores, Chemical Process Control- CPC IV, 1991. [YHSD00] T .-M. Yi, Y. Huang, M. I. Simon y J. Doyle. Adaptación perfecta robusta en la quimiotaxis bacteriana a través del control integral de retroalimentación. PNAS, 97:4649-4653, 2000. [Zam81] G. Zames. Retroalimentación y sensibilidad óptima: Transformaciones de referencia del modelo, seminormas multiplicativas, e inversa aproximativa. IEEE Transactions on Automatic Control, AC-26(2):301-320, 1981. [ZD63] L. A. Zadeh y C. A. Desoer. Linear System Theory: the State Space Approach. McGraw-Hill, Nueva York, 1963. [ZDG96] J . C. Zhou, J. C. Doyle y K. Glover. Robust and Optimal Control. Prentice Hall, Englewood Cliffs, NJ, 1996. [ZN42] J. G. Ziegler y N. B. Nichols. Optimum settings for automatic controllers. Transactions of the ASME, 64:759-768, 1942. Índice control de acceso, véase control de admisión paquete de reconocimiento (ack), 77-79 activador, 16, 59, 129 filtro activo, 153, véase también Actuadores de amplificación operativa, 4, 31, 51, 65, 81, 178, 224, 266, 283, 311, 324, 333-335, 337 efecto sobre los ceros, 284, 334 en los sistemas informáticos, 75 saturación, 50, 225, 300, 306-307, 311, 324 Convertidores A/D, véase convertidores analógicodigitales adaptación, 297 control adaptativo, 21, 373, 374 incertidumbre aditiva, 349, 353, 356, 376 control de admisión, 54, 63, 78, 79, 274 publicidad, 15 sistemas aeroespaciales, 8-9, 18, 338, véase también avión de empuje vectorial; avión X-29 AFM, véase microscopio de fuerza atómica aviones, véase control de vuelo alcohol, metabolismo de, 94 bucles algebraicos, 211, 249-250 aliasing, 225 función de transferencia todo paso, 331 corriente alterna (CA), 7, 155 amplificador, véase amplificador operacional relación de amplitud, ver ganancia informática analógica, 51, 71, 250, 309 aplicación analógica, controladores, 74, 263, 309-311 convertidores analógico-digitales, 4, 82, 224, 225, 311 función analítica, 236 anticipación, en controladores, 6, 24, 296, véase también acción derivada antirresonante, 156 compensación contra el viento, 307, 311, 312, 314 Servidor web Apache, 76, véase también control del servidor web volumen aparente de distribución, 86, 94 Arbib, M. A., 167 argumento, de un número complejo, 250 tasa de llegada (sistemas de colas), 55 inteligencia artificial (IA), 12, 20 asíntotas, en el gráfico de Bode, 253, 254 estabilidad asintótica, 42, 102-106, 112, 114, 117, 118, 120, 140 sistemas de tiempo discreto, 165 dinámica atmosférica, véase microscopios de fuerza atómica de ciencias ambientales, 3, 51, 81-84 modo de contacto, 81, 155, 199 posicionamiento horizontal, 281, 366 identificación del sistema, 257 modo de pulsación, 81, 290, 299, 304, 328 con precarga, 93 atractor (punto de equilibrio), 104 388 reinicio automático, en el control PID, 296 sintonización automática, 306, 373 sistemas de control de automóviles, 6, 22, 51, 69, véase también control de crucero; dirección del vehículo ecuación diferencial autónoma, 29, véase también sistemas invariantes en el tiempo vehículos autónomos, 8, 20-21 piloto automático, 6, 19, 20 sistemas de equilibrio, 35-37, 49, 170, 188, 240, 334, ver también sistema de péndulo de carro; péndulo invertido filtro pasa banda, 153-155, 255, 256 ancho de banda, 155, 186, 322, 333 Laboratorios Bell, 18, 290 Bennett, S., 25, 290, 312 dinámica de la bicicleta, 69-71, 91, 123, 226 Modelo Whipple, 71 modelo de bicicleta, para vehículo dirección , 51-53 bicicletadinámica Modelo de Whipple, 199 bifurcaciones, 121-124, 130, ver también locus raíz parcelas circuitos biológicos, 16, 45, 58-60, 129, 166, 256 interruptor genético, 64, 114 represor, 59-60 sistemas biológicos, 1-3, 10, 16, 22, 25, 58-61, 126, 293, 297, véase también circuitos biológicos; administración de fármacos; sistemas neuronales; dinámica de poblaciones biestabilidad, 23, 117 BIBLIOGRAFÍA 388 Black, H. S., 18, 19, 71, 73, 131, 267, 290, 347 sistemas diagonales en bloque, 106, 129, 139, 145, 149, 212 álgebra de los diagramas de bloques, 242, 245, 356 diagramas de bloques, 1, 4447, 238, 242-247, 249 sistema de control, 4, 229, 244, 315 Descomposición de Kalman, forma canónica observable 223, 205 observador, 202, 210 control basado en el observador sistema, 213 Controladores PID, 293, 296, 311 forma canónica alcanzable, 172 controlador de dos grados de libertad, 219, 316, 358 Parametrización de Youla, 357 Bode, H., 229, 290, 343, 374 Gráficos de Bode, 250-257, 282 aproximación asintótica, 253, 254, 264 filtros de paso bajo, banda y alto, 256 sistemas de fase no mínima, 284 de la función racional, 251 esbozo, 254 Función de transferencia del bucle ideal de Bode, 355, 375 Fórmula integral de Bode, 335340 Relaciones de Bode, 282, 283, 327 Brahe, T., 28 punto de interrupción, 253, 272 Brockett, R. W., xii, 1, 163 Bryson, A. E., 200 Transferencia sin obstáculos, 373 Bush, V., 312 calibración, frente a retroalimentación, 10, 180, 195, 197 Cannon, R. H., 61, 131 condensador, función de transferencia para, 236 ÍNDIC E coche, véase sistemas de control del automóvil capacidad de carga, en modelos de población, 90 sistema de péndulo de carro, 36, 172, véase también sistemas de equilibrio razonamiento causal, 1, 70 Teorema de Cayley-Hamilton, 170, 199, 203 centro (punto de equilibrio), 104 regulador centrífugo, 2, 3, 6, 17 cadena de integradores (forma normal), 61, 173 polinomio característico, 105, 199, 235, 240 para la función de transferencia en bucle cerrado, 268 forma canónica observable, 205 controlador de retroalimentación de salida, 212, 213 forma canónica alcanzable, 173, 175, 179, 198 sistemas químicos, 9, 293, véase también control de procesos; modelos de compartimentos distancia cordal, 351 Piloto automático de Chrysler, 6 circuitos, véase circuitos biológicos; circuitos eléctricos control clásico, xi, 374 bucle cerrado, 1, 2, 4, 6, 162, 176, 183, 267, 268, 287, 315 frente al bucle abierto, 2, 269, 288, 315 señales de mando, 4, 22, 220, 293, véase también señal de referencia; consigna modelos de compartimentos, 85-89, 106, 151, 186, 203, 208, 227 ejercicios, 164 compensador, ver ley de control sensibilidad complementaria función, 317, 325, 336, 350, 354, 356, 360, 365, 369, 374 complejidad, de los sistemas de control, 9, 21, 298 par calculado, 163 aplicación informática, ÍNDIC E controladores, 224-226, 311-312 informática, relación con el control, 5 sistemas informáticos, control de, 12-14, 25, 39, 56, 57, 75-80, 157, véase también sistemas de colas integración condicional, 314 estabilidad condicional, 275 control de la congestión, 12, 77-80, 104, 273, 292, 313, véase también sistemas de colas dinámica de enrutadores, 93 consenso, 57 control definición de, 3-5 primeros ejemplos, 2, 5, 6, 8, 10, 18, 22, 25, 296 limitaciones fundamentales, 283, 331-340, 343, 363, 366, 373-374 historia de, 25, 312 modelización para, 5, 31-32, 61, 347 éxitos de, 8, 25 sistema, 3, 175, 213, 219, 224, 229, 316, 318, 358 utilizando el estado estimado, 211-214, 370 error de control, 23, 244, 294 ley de control, 4, 23, 24, 162, 176, 179, 244 función de control de Lyapunov, 124 matriz de control, 34, 38 señal de control, 31, 157, 293 controlabilidad, 197, véase también diferencial controlado de accesibilidad ecuación, 29, 34, 235 ecuación de convolución, 145-147, 149, 150, 170, 261 tiempo discreto, 165 transformaciones de coordenadas, 106, 147-149, 173, 226, 234-235 a la forma de Jordania, 139 a la forma canónica observable, 206 a la forma canónica alcanzable, 389 390 174, 175 Fuerzas de Coriolis, 36, 162 frecuencia de esquina, 253 matriz de correlación, 215, 216 función de coste, 190 sistema acoplado muellemasa, 142, 144, 148 matriz de covarianza, 215 ganancia crítica, 303, 305, 306 período crítico, 303, 305 punto crítico, 271, 273, 279, 289, 290, 303, 352, 353, 372 oscilador con amortiguación crítica, 184 frecuencia de cruce, véase frecuencia de cruce de ganancia; frecuencia de cruce de fase desigualdad de frecuencia de cruce, véase desigualdad de frecuencia de cruce de ganancia control de crucero, 6, 17-18, 65-69 Piloto automático de Chrysler, 6 diseño de control, 196, 300, 309 linealización por retroalimentación, 161 integración, 306, 307 linealización, 158 cancelación de polos/cero, 248 robustez, 18, 347, 348, 354 hidroavión Curtiss, 19, 20 cibernética, 11, véase también robótica Convertidores D/A, véase convertidores digital-analógico frecuencia amortiguada, 184 amortiguación, 28, 36, 41, 96, 265, 266 relación de amortiguación, 184, 185, 188, 300 DARPA Grand Challenge, 20, 21 Ganancia de CC, 155, véase también ganancia de frecuencia cero zona muerta, 23 toma de decisiones, niveles ÍNDIC E superiores de, 8, 12, 19 retraso, ver retraso de tiempo compensación de retrasos, 292, 375 margen de retraso, 281 función delta, véase función de impulso acción derivada, 24, 25, 293, 296-298, 310, 330 filtrado, 297, 308, 311, 312 ponderación del punto de consigna, 309, 312 constante de tiempo, 294 frente al compensador de plomo, 330 describir funciones, 288-290 diseño de la dinámica, 18-19, 109, 124-125, 131, 167, 177, 182 diabetes, ver dinámica insulina-glucosa sistemas diagonales, 105, 139 descomposición de Kalman para, 222 transformando a, 106, 129, 138 Dickmanns, E., 20 ecuaciones de diferencia, 34, 38-41, 61, 156, 224, 312 ecuaciones algebraicas diferenciales, 33, véase también bucles algebraicos ecuaciones diferenciales, 28, 34-37, 95-98 controlado, 29, 133, 235 puntos de equilibrio, 100-101 existencia y unicidad de soluciones, 96-98 de primer orden, 32, 298 solución aislada, 101 soluciones periódicas, 101-102, 109 análisis cualitativo, 98-102 de segundo orden, 99, 183, 298 soluciones, 95, 96, 133, 137, 145, 263 estabilidad, véase funciones de transferencia de estabilidad para, 236 planicidad diferencial, 221 sistemas de control digital, véase aplicación informática, controladores convertidores digital-analógico, 4, 82, 224, 225, 311 variables sin dimensión, 48, 61 término directo, 34, 38, 147, 211, ÍNDIC E 250 control discreto, 56 sistemas de tiempo discreto, 38, 61, 128, 156, 165, 311 Filtro de Kalman para, 215 regulador cuadrático lineal para, 192 unidades de disco, 64 atenuación de las perturbaciones, 4, 176, 323-324, 358-359 diseño de controladores para, 319, 320, 327, 336, 345, 369 límites fundamentales, 336 en sistemas biológicos, 257, 297 ganancia integral como medida de, 296, 324, 359 relación con la función de sensibilidad, 323, 335, 344, 358 ponderación de las perturbaciones, 372 disturbios, 4, 29, 32, 244, 248, 315, 318, 319 generalizado, 371 al azar, 215 Dodson, B., 1 valores propios dominantes (polos), 187, 300, 301 integrador doble, 137, 168, 236 Doyle, J. C., xii, 343, 374 administración de medicamentos, 8589, 94, 151, 186, véase también dualidad de los modelos de compartimentos, 207, 211 Coche Dubins, 53 compensador dinámico, 196, 213 inversión dinámica, 163 sistemas dinámicos, 1, 27, 95, 98, 125 lineal, 104, 131 observador como, 201 estado de, 175 estocástico, 215 391 incertidumbre en, 347-349 ver tam bié n ecu acio nes dife renc iale s matriz dinámica, 34, 38, 105, 1 4 2 D y s o n , F . , 2 7 392 comercio electrónico, 13 servidor de correo electrónico, control de, 39, 157 sistemas económicos, 14-15, 22, 62 ecosistemas, 16-17, 89, 181, véase también sistema depredador-presa asignación de valores propios, 176, 178, 180-182, 188, 212, 300, 313 por retroalimentación de salida, 212 para el diseño de observadores, 208 valores propios, 105, 114, 123, 142, 232 y la forma de Jordania, 139141, 164 distintos, 128, 129, 138, 144, 222 dominante, 187 efecto sobre el comportamiento dinámico, 183, 185-187, 233 para sistemas de tiempo discreto, 165 invarianza bajo transformación de coordenadas, 106 relación con los modos, 142-145 relación con los polos, 239 relación con la estabilidad, 117, 140, 141 vectores propios, 106, 129, 142, 143 relación con la forma del modo, 143 energía eléctrica, véase sistemas de energía (eléctrica) circuitos eléctricos, 33, 45, 74, 131, 236, véase también amplificador operacional ingeniería eléctrica, 6-7, 29-31, 155, 275 elefante, modelado de un, 27 Elowitz, M. B., 59 cerco, 271, véase también Criterio de Nyquist robots de entretenimiento, 11, 12 ciencias ambientales, 3, 9, 17 puntos de equilibrio, 90, 100, ÍNDIC E 105, 132, 158, 168 bifurcacio nes de, 121 tiempo discreto, 62 para el sistema de bucle cerrado, 176, 195 para los sistemas planares, 104 región de atracción, 119-121, 128 estabilidad, 102 retroalimentación de errores, 5, 293, 294, 309, 317 estimadores, véase oservers387 Integración de Euler, 41, 42 señales exponenciales, 230-235, 239, 250 filtro de Kalman ampliado, 220 aviones F/A-18, 8 Falb, P. L., 167 retroalimentación, 1-3 como facilitador de la tecnología, 3, 19 inconvenientes de, 3, 21, 308, 352, 359 en sistemas biológicos, 1-3, 16, 25, 297, véase también circuitos biológicos en sistemas de ingeniería, véase controlar en los sistemas financieros, 3 en la naturaleza, 3, 15-17, 89 positivo, ver positivo retroalimentación propiedades, 3, 5, 17-23, 315, 320, 347 robustez mediante, 17 versus feedforward, 22, 296, 320 conexión de retroalimentación, 243, 287, 288 controlador de retroalimentación, 244, 315 linealización de retroalimentación, 161-163 bucle de retroalimentación, 4, 267, 315, 358 incertidumbre de retroalimentación, 349, 356 feedforward, 22, 219-222, 244, 315, 319, 321 Fermi, E., 27 filtros activo, 153 para la ponderación de las perturbaciones, 373 para las señales de medición, 21, 225, 359 ÍNDIC E véase también filtros paso banda; filtros paso alto; filtros paso bajo sistemas financieros, véase sistemas económicos tiempo de escape finito, 97 máquina de estado finito, 69, 76 sistemas de primer orden, 134, 165, 236, 252, 253 gestión de la pesca, 94 planicidad, véase diferencial flatness control de vuelo, 8, 18, 19, 53, 163 gestión del espacio aéreo, 9 Aviones F/A-18, 8 Avión X-29, 336 Avión X-45, 8 véase también avión de empuje vectorial flujo, de un campo vectorial, 29, 99 flujo en un tanque, 126 modelo de flujo (sistemas de colas), 54, 292, 313 gobernador de flyball, ver retroalimentación de la fuerza del regulador centrífugo, 10, 11 respuesta forzada, 133, 231 Forrester, J. W., 15 Fourier, J. B. J., 61, 262 dominio de la frecuencia, 229-231, 267, 285, 315 respuesta en frecuencia, 30, 43, 44, 151, 153-156, 230, 290, 303, 322 relación con el diagrama de Bode, 250 relación con el gráfico de Nyquist, 270, 272 sistemas de segundo orden, 185, 256 identificación del sistema mediante, 257 sistemas totalmente accionados, 240 límites fundamentales, véase control: limitaciones fundamentales Péndulo Furuta, 130 ganar, 24, 43, 73, 153, 154, 186, 230, 234, 239, 250, 278, 285-288, 347 393 394 H, 286, 287, 371 observador, véase ganancia del observador de un sistema, 285 referencia, 195 retroalimentación del estado, 176, 177, 180, 195, 197 frecuencia cero, véase ganancia de frecuencia cero ver también ganancia integral frecuencia de cruce de ganancia, 279, 280, 322, 326, 332, 351, 365 desigualdad de la frecuencia de cruce de la ganancia, 332, 334 curva de ganancia (diagrama de Bode), 250-254, 282, 326 margen de ganancia, 278-281 del diagrama de Bode, 279 valores razonables, 281 programación de ganancias, 220, 373 producto de ganancia-ancho de banda, 74, 237, 361 Banda de los Cuatro, 317, 344, 358 Banda de los Seis, 317, 322 regulación de genes, 16, 58, 59, 166, 256 interruptor genético, 64, 114, 115 comportamiento global, 103, 120-124 Glover, K., 343, 374 regulación de la glucosa, véase dinámica insulina-glucosa Golomb, S., 65 regulador, véase regulador centrífugo control, 371-374, 376 Avión Harrier AV-8B, 53 propagación del calor, 238 Heaviside, O., 163 Función escalonada de Heaviside, 150, 163 Hellerstein, J. L., 13, 25, 80 de alta frecuencia, 327, 359, 366 filtro de paso alto, 255, 256 ÍNDIC E Función de la colina, 58 Hoagland, M. B., 1 Ecuaciones de HodgkinHuxley, 60 homeostasis, 3, 58 solución homogénea, 133, 136, 137, 239 Termostato Honeywell, 6 Horowitz, I. M., 226, 343, 369, 374 interfaz hombre-máquina, 65, 69 histéresis, 23, 289 identificación, ver identificación del sistema impedancia, 236, 309 aplicación, controladores, véase aplicación analógica; aplicación informática función de impulso, 146, 164, 169 respuesta al impulso, 135, 146, 147, 261 inductor, función de transferencia para, 236 matriz de inercia, 36, 162 norma del infinito, 286, 372 sistemas de información, 12, 54-58, véase también control de la congestión; control del servidor web condición inicial, 96, 99, 102, 132, 137, 144, 215 respuesta de la condición inicial, 133, 136139, 142, 144, 147, 231 problema de valor inicial, 96 control de bucle interno, 340, 342 función de sensibilidad de entrada, véase modelos de entrada/salida de la función de sensibilidad de la carga, 5, 29, 31, 132, 145-157, 229, 286, véase también respuesta en frecuencia; respuesta en estado estacionario; respuesta en escalón y las funciones de transferencia, 261 y la incertidumbre, 51, 349 de los experimentos, 257 relación con el espacio de estado modelos, 32, 95, 146 respuesta en estado estacionario, 149 función de transferencia para, 235 entradas, 29, 32 control de vuelo de los insectos, 46-47 instrumentación, 10-11, 71 la dinámica insulina-glucosa, 2, 88-89 ÍNDIC E acción integral, 24-26, 195-198, 293, 295-296, 298, 324 para la compensación del sesgo, 226 ponderación del punto de consigna, 309, 312 constante de tiempo, 294 ganancia integral, 24, 294, 296, 299 integración, 225, 306-307, 314 integración condicional, 314 máquinas inteligentes, véase robótica principio de modelo interno, 214, 221 Internet, 12, 13, 75, 77, 80, 93, véase también control de la congestión Protocolo de Internet (IP), 77 conjunto invariante, 118, 121 modelo inverso, 162, 219, 320 respuesta inversa, 284, 292 péndulo invertido, 37, 69, 100, 108, 118, 121, 128, 130, 276, 337, véase también sistemas de equilibrio linealización jacobiana, 158-161 Forma jordana, 139-142, 164, 188 Kalman, R. E., 167, 197, 201, 223, 226 descomposición de Kalman, 222-224, 235, 262, 264 Filtro Kalman, 215-218, 226, 370 ampliado, 220 Filtro de KalmanBucy, 217 Kelly, F. P., 80 Kepler, J., 28 Keynes, J. M., 14 Modelo económico keynesiano, 62, 165 Principio de KrasovskiLasalle, 118 LabVIEW, 123, 163 retraso, véase retraso de fase compensación de lag, 327, 328 Transformadas de Laplace, xi, 395 259-262 396 Matriz laplaciana, 58 Principio de invariancia de Lasalle, véase el principio Krasovski-Lasalle plomo, véase plomo de fase compensación de plomo, 327330, 341, 345 ciclo límite, 91, 101, 109, 111, 122, 288, 289 control cuadrático lineal, 190-194, 216, 226, 369-371 sistemas lineales, 30, 34, 74, 104, 131-163, 222, 231, 235, 262, 286 sistemas lineales invariantes en el tiempo, 30, 34, 134, 261 linealidad, 133, 250 linealización, 109, 117, 132, 157-163, 220, 347 Continuidad de Lipschitz, 98 perturbaciones de la carga, 315, 359, ver también perturbaciones función de sensibilidad de la carga, 317 comportamiento local, 103, 109, 118, 120, 158 localmente estable asintóticamente, 103 modelo de crecimiento logístico, 89, 90, 94 análisis del bucle, 267, 315 la conformación del bucle, 270, 326-330, 343, 369 reglas de diseño, 327 limitaciones fundamentales, 331-340 véase también la función de transferencia del bucle de Bode función de transferencia del bucle, 267-270, 278, 279, 287, 315, 318, 326, 327, 329, 336, 343, véase también la función de transferencia del bucle de Bode Servidor Lotus Notes, véase servidor de correo electrónico modelos de bajo orden, 298 filtro de paso bajo, 255, 256, ÍNDIC E 308 Control LQ, véase lineal control cuadrático Sistemas LTI, véase lineal sistemas invariantes en el tiempo ecuación de Lyapunov, 114, 128 Funciones de Lyapunov, 111-114, 120, 127, 164 diseño de controladores mediante, 118, 124 existencia de, 113 Análisis de estabilidad de Lyapunov, 43, 110-120, 126 tiempo discreto, 128 colector, 120 márgenes, véase márgenes de estabilidad Mars Exploratory Rovers, 11, 12 espectrómetro de masas, 10 ciencia de los materiales, 9 Matemática, 41, 123, 163 MATLAB, 26, 41, 123, 163, 200 acker, 181, 211 dlqe, 216 dlqr, 194 hinfsyn, 372 jordan, 139 linmod, 160 lqr, 191 lugar, 181, 189, 211 recortar, 160 matriz exponencial, 136-139, 143, 145, 163 transformaciones de coordenadas, 148 Formulario de Jordania, 140 sistemas de segundo orden, 138, 164 máxima sensibilidad complementaria, 354, 365 sensibilidad máxima, 323, 352, 366 Señales medidas, 31, 32, 34, 95, 201, 213, 225, 316, 318, 371 ruido de medición, 4, 21, 201, 203, 215, 217, 244, 308, 315-317, 327, 359 respuesta a, 324-326, 359 sistemas mecánicos, 31, 36, 42, 51, 61, 162 mecánica, 28-29, 31, 126, 131 modelo mínimo (insulina-glucosa), 88, 89, ÍNDIC E ver también dinámica insulina-glucosa fase mínima, 283, 290, 331 forma modal, 130, 145, 149 Modelica, 33 modelización, 5, 27-33, 61, 65 perspectiva de control, 31 control discreto, 56 tiempo discreto, 38, 156-157 dominio de la frecuencia, 229-231 de los experimentos, 47-48 reducción del modelo, 5 normalización y escalado, 48 de incertidumbre, 50-51 modelos simplificados, uso de, 32, 298, 348, 354, 355 software para, 33, 160, 163 espacio de estado, 34-43 incertidumbre, véase incertidumbre modos, 142-144, 239 relación con los polos, 240 sistemas de control de movimiento, 51-54, 226 motores, eléctricos, 64, 199, 228 multientrada, multi-salida sistemas, 286, 318, 327, véase también modelos de entrada/salida incertidumbre multiplicativa, 349, 356 nanoposicionador (AFM), 281, 366 frecuencia natural, 184, 300 función definida negativa, 111 retroalimentación negativa, 18, 22, 73, 176, 267, 297 Ley de Nernst, 60 redes, 12, 45, 80, véase también control de la congestión sistemas neurales, 10, 47, 60, 297 estabilidad neutra, 102-104 Newton, I., 28 Nichols, N. B., 163, 302, 343 Carta de Nichols, 369, 370 Premio Nobel, 10, 11, 14, 61, 81 ruido, véase perturbaciones; atenuación del ruido de medición, 257, 324-326 cancelación de ruido, 124 397 398 función de sensibilidad al ruido, 317 sistemas no lineales, 31, 95, 98, 101, 108, 110, 114, 120-125, 202, 220, 286-288 aproximación lineal, 109, 117, 159, 165, 347 identificación del sistema, 62 fase no mínima, 283, 284, 292, 331-333, véase también soluciones no únicas de respuesta inversa (ODEs), 97 coordenadas normalizadas, 48-50, 63, 161 normas, 285-286 Nyquist, H., 267, 290 Criterio de Nyquist, 271, 273, 275, 278, 287, 288, 303 para una estabilidad robusta, 352, 376 Contorno D de Nyquist, 270, 276 Diagrama de Nyquist, 270-271, 278, 279, 303, 324, 370 observabilidad, 32, 201-202, 222, 226 condición de rango, 203 pruebas para, 202-203 sistemas inobservables, 204, 222-223, 265 matriz de observabilidad, 203, 205 forma canónica observable, 204, 205, 226 ganancia del observador, 207, 209-211, 213, 215-217 observadores, 201, 206-209, 217, 220 diagrama de bloques, 202, 210 véase también filtro de Kalman ODEs, véase diferencial ecuaciones Ley de Ohm, 60, 73, 236 control de encendido y apagado, 23, 24 bucle abierto, 1, 2, 73, 168, 245, 267, 306, 315, 323, 349 ganancia de bucle abierto, 237, 278, 322 amplificadores operacionales, 71-75, ÍNDIC E 237, 309, 356 circuitos, 92, 153, 268, 360 modelo dinámico, 74, 237 características de entrada/salida, 72 oscilador utilizando, 92, 128 modelo estático, 72, 237 control óptimo, 190, 215, 217, 370 orden, de un sistema, 34, 235 ecuaciones diferenciales ordinarias, ver ecuaciones diferenciales dinámica de los osciladores, 92, 96, 97, 138, 184, 233, 236 forma normal, 63 véase también nanoposicionador (AFM); sistema de muelle-masa control de bucle externo, 340-342 retroalimentación de salida, 211, 212, 226, véase también control: uso del estado estimado; conformación del bucle; control PID función de sensibilidad de salida, véase salidas de la función de sensibilidad al ruido, véase señales medidas oscilador sobreamortiguado, 184 sobrepasar, 151, 176, 185, 322 Aproximación "Pade", 292, 332 control de paginación (informática), 56 conexión en paralelo, 243 diagrama de estabilidad paramétrica, 122, 123 incertidumbre paramétrica, 50, 347 acelerador de partículas, 11 solución particular, 133, 151, véase también sistemas pasivos de respuesta forzada, 287, 336 teorema de la pasividad, 288 pinza de parche, 10 Control de DP, 296, 328 frecuencia máxima, 155, 322 dinámica del péndulo, 113, véase también péndulo invertido adaptación perfecta, 297 rendimiento, 76 limitaciones de rendimiento, 331, 336, 365, 373 debido a los polos y ceros del semiplano derecho, 283 véase también control: limitaciones fundamentales especificaciones de rendimiento, 151, 175, 315, 322-327, 358, véase también sobreimpulso; sensibilidad máxima; ÍNDIC E pico de resonancia; tiempo de subida; tiempo de asentamiento soluciones periódicas, véase ecuaciones diferenciales; ciclos límite persistencia, de una conexión web, 76, 77 Red de Petri, 45 farmacocinética, 85, 89, véase también fase de administración del fármaco, 43, 153, 154, 186, 230, 234, 250, 288, véase también fase mínima; fase no mínima mínimo frente a no mínimo, 283 frecuencia de cruce de fases, 279, 280 curva de fase (diagrama de Bode), 250-252, 254 relación con la curva de ganancia, 282, 327 desfase, 153, 154, 256, 283, 332, 333 fase de conducción, 153, 256, 330, 345 margen de fase, 279, 280, 327, 329, 332, 346, 375 del gráfico de Bode, 279 valores razonables, 281 retrato de fase, 28, 29, 98-100, 120 Philbrick, G. A., 75 fotorreceptores, 297 física, relación con control, 5 Control PI, 17, 25, 65, 68, 296, 301, 327, 328 sistema de primer orden, 300, 364 Control PID, 24-25, 235, 293-313, 330 diagrama de bloques, 294, 296, 308 aplicación informática, 311 forma ideal, 293, 313 implementación, 296, 308-312 en sistemas 399 biológicos, 297 implementació n de amplificadores operacionales, 309-311 afinación, 302-306 véase también acción derivada; 400 acción integral bifurcación de horquilla, 130 sistemas dinámicos planares, 99, 104, véase también sistemas de segundo orden colocación de postes, 176, 361, 365-366, véase también asignación de valores propios robusta, 361 diagrama polo-cero, 240 cancelaciones polo-cero, 247-249, 265, 365, 366 polos, 239, 240 dominante, 301, véase también valores propios dominantes (polos) rápido estable, 364, 366 imaginario puro, 270, 276 relación con los valores propios, 239 medio plano derecho, 240, 276, 283, 331, 333-334, 336, 345, 366 dinámica de la población, 8991, 94, véase también sistema depredador-presa función definida positiva, 111, 112, 114, 118 matriz definida positiva, 114, 191 retroalimentación positiva, 16, 21-23, 129, 296 real positivo (función de transferencia), 336 potencia de una matriz, 136 sistemas de alimentación (eléctricos), 6-7, 63, 101, 127 sistema depredador-presa, 38, 90-91, 121, 181 predicción, en controladores, 24, 25, 220, 296, 375, véase también acción derivada tiempo de predicción, 297 principio del argumento, ver variación del argumento, principio del control de procesos, 9, 10, 13, 45 control proporcional, 24, 293, véase también Control PID proporcional, integral, ÍNDIC E control derivado, véase control PID protocolo, véase control de la congestión; consenso señal de pulso, 146, 147, 187, véase también función de impulso respuesta de la pupila, 258, 297 respuesta exponencial pura, 232 Valor Q, 63, 186, 254 teoría de la retroalimentación cuantitativa (QFT), 369 modelo de cuarto de coche, 265 sistemas de colas, 54-56, 63 proceso aleatorio, 54, 215, 228 alcanzabilidad, 32, 167-175, 197, 222 condición de rango, 170 pruebas para, 169 sistemas inalcanzables, 171, 199, 222-223, 265 matriz de alcanzabilidad, 169, 173 forma canónica alcanzable, 35, 172-175, 178, 180, 198 conjunto alcanzable, 167 sistemas en tiempo real, 5 señal de referencia, 23, 175, 176, 229, 244, 293, 309, 317, 319, véase también señales de mando; punto de consigna efecto sobre el error del observador, 212, 219, 224 respuesta a, 322, 344 seguimiento, 175, 219, 220, 327, 360 ponderación de referencia, véase región de atracción de la ponderación del punto de referencia, véase puntos de equilibrio: regiones de atracción regulador, véase ley de control retroalimentación de relés, 289, 305 Reno (protocolo), véase Internet; control de la congestión represor, 59-60 represor, 16, 59, 64, 114, 166, 257 reinicio, en el control PID, 295, 296 frecuencia de resonancia, 186, 286 pico de resonancia, 155, 186, 322, 355 uso de recursos, en sistemas informáticos, 13, 55, 57, 75, 76 ÍNDIC E respuesta, ver modelos de entrada/salida retina, 297, véase también respuesta de la pupila Ecuación de Riccati, 191, 217, 372, 374 esfera de Riemann, 351 polos del semiplano derecho y ceros, véase polos: semiplano derecho; ceros: semiplano derecho tiempo de subida, 151, 176, 185, 322 robótica, 8, 11-12, 163 robustez, 17-18, 322, 349, 374 rendimiento, 358-361, 369-374 estabilidad, 352-358 utilizando la ganancia y la fase margen, 281, 326 uso de la máxima sensibilidad, 323, 326, 353, 375, 376 utilizando la colocación de postes, 361-368 a través de la ganancia y el margen de fase, 280 ver también incertidumbre roll-off, véase roll-off de alta frecuencia diagrama de localización de la raíz, 123 criterio de RouthHurwitz, 130 efecto de la hora punta, 55, 64 silla de montar (punto de equilibrio), 104 muestreo, 156-157, 224, 225, 311 función de saturación, 45, 72, 311, véase también actuadores: saturación escalado, véase coordenadas normalizadas microscopio de barrido en túnel, 11, 81 diagramas esquemáticos, 44, 45, 71 Schitter, G., 84 sistemas de segundo orden, 28, 164, 183-187, 200, 253, 301 Transportador personal Segway, 35, 170 autoactivación, 129 auto-represión, 166, 256 función semidefinida, 111 401 402 frecuencia de cruce de la sensibilidad, 324 función de sensibilidad, 317, 324-326, 336, 352, 360, 366 y la atenuación de las perturbaciones, 323, 336, 344 matriz de sensores, 34, 38 redes de sensores, 57 sensores, 3, 4, 9, 202, 224, 283, 311, 315, 318, 333, 334, 371 efecto sobre los ceros, 284, 334 en los sistemas informáticos, 75 véase también señales medidas principio de separación, 201, 213 conexión en serie, 243 tasa de servicio (sistemas de colas), 55 punto de consigna, 293 ponderación del punto de consigna, 309, 312 tiempo de asentamiento, 151, 165, 176, 185, 322 similitud de dos sistemas, 349-352 simulación, 40-42, 51 SIMULINK, 160 sistemas de una entrada y una salida (SISO), 95, 132, 133, 158, 204, 286 valores singulares, 286, 287, 376 sumidero (punto de equilibrio), 104 teorema de la pequeña ganancia, 287-288, 355 Predictor Smith, 375 herramientas de software para el control, x solución (ODE), ver ecuaciones diferenciales: soluciones Sony AIBO, 11, 12 fuente (punto de equilibrio), 104 analizador de espectro, 257 Piloto automático Sperry, 19 sistema muelle-masa, 28, 40, 42, 43, 82, 127 acoplado, 144, 148 generalizado, 36, 71 identificación, 47 normalización, 49, 63 véase también estabilidad de la dinámica del oscilador, 3, 5, 18, 19, 42, 98, ÍNDIC E 102-120 estabilidad asintótica, 102, 106 condicional, 275 en el sentido de Lyapunov, 102 local frente a global, 103, 110, 120, 121 Análisis de Lyapunov, ver Análisis de estabilidad de Lyapunov neutralmente estable, 102, 104 de un sistema, 105 de los puntos de equilibrio, 42, 102, 104, 111, 117 del bucle de retroalimentación, véase Criterio de Nyquist de los ciclos límite, 109 de los sistemas lineales, 104-107, 113, 140 de las soluciones, 102, 110 de las funciones de transferencia, 240 robusta, véase estabilidad robusta soluciones inestables, 103 utilizando los valores propios, 117, 140, 141 utilizando la aproximación lineal, 107, 117, 159 utilizando el criterio de Routh-Hurwitz, 130 utilizando la retroalimentación de estado, 175-194 ver también bifurcaciones; puntos de equilibrio diagrama de estabilidad, véase diagrama de estabilidad paramétrica margen de estabilidad (cantidad), 279, 281, 323, 345, 353, 372 valores razonables, 281 márgenes de estabilidad (concepto), 278-282, 291, 326 poste estable, 240 cero estable, 240 Stark, L., 258 estado, de un sistema dinámico, 28, 31, 34 estimadores de estado, ver observadores retroalimentación de estado, 167-197, 207, 212, 219-221, 224-226, 362, 370, véase también asignación de valores propios; ÍNDIC E espacio de estado de control lineal cuadrático, 28, 34-43, 175 vector de estado, 34 ganancia de estado estable, véase ganancia de frecuencia cero respuesta en estado estacionario, 26, 42, 149-156, 165, 176, 185, 230, 231, 233, 257, 262 máquinas de vapor, 2, 17 dirección, véase dirección de vehículos Stein, G., xii, 1, 315, 337 paso de entrada, 30, 135, 150, 239, 302 respuesta al paso, 30, 31, 47, 48, 135, 147, 150, 151, 176, 184, 185, 302 enfriamiento estocástico, 11 sistemas estocásticos, 215, 217 unión de suma, 45 superposición, 30, 133, 147, 164, 230 control de supervisión, véase toma de decisiones: niveles superiores de cadenas de suministro, 14, 15 supremum (sup), 286 comportamiento de cambio, 22, 64, 117, 373 identificación del sistema, 47, 62, 257 modo de golpeo, ver microscopio de fuerza atómica TCP/IP, véase Internet; control de la congestión Teorell, T., 85, 89 termostato, 5, 6 reguladores de tres términos, 293, véase también regulación PID aviones de empuje vectorial, véase constante de tiempo del avión de empuje vectorial, de primer orden sistema, 165 tiempo de espera, 5, 13, 235, 236, 403 281, 283, 302, 311, 332 334 compensación, 375 Aproximación "Pade", 292, 3 3 2 p a r c e l a d e t i e m p o , 2 8 sistemas invariantes en el tiempo, 30, 34, 126, 134135 404 seguimiento, véase señal de referencia: seguimiento rastro (dinámica de la bicicleta), 70 regulación transcripcional, ver funciones de transferencia de regulación de genes, 229-262 por inspección, 235 derivación usando exponencial señales, 231 derivación mediante Laplace transformaciones, 261 para sistemas de control, 244, 264 para los circuitos eléctricos, 236 para el retardo de tiempo, 235 respuesta en frecuencia, 230, 250 de los experimentos, 257 irracional, 236, 239 sistemas lineales de entrada/salida, 231, 235, 264 respuesta transitoria, 42, 149, 150, 153, 168, 188, 231, 232 Protocolo de Control de Transmisión (TCP), 77 sistemas de transporte, 8 Tsien, H. S., 11 normas de ajuste, 314, véase Ziegler-Nichols sintonizando dos grados de libertad control, 219, 294, 319, 321, 343, 344 incertidumbre, 4, 17-18, 32, 50-51, 195, 347-352 variación de componentes o parámetros, 4, 50, 347 perturbaciones y ruido, 4, 32, 175, 244, 315 dinámica no modelada, 4, 50, 348, 353 ÍNDIC E véase también incertidumbre aditiva; incertidumbre de retroalimentación; incertidumbre multiplicativa banda de incertidumbre, 50 incertidumbre limón, 50, 51, 68, 74, 83 oscilador subamortiguado, 97, 184, 185 paso de la unidad, 150 dinámica no modelada, véase incertidumbre: dinámica no modelada polo inestable, véase polos: semiplano derecho polo inestable/anulación del cero, 248 solución inestable, para un sistema dinámico, 103, 104, 106, 141, 240 cero inestable, véase ceros: semiplano derecho variación del argumento, principio de, 277, 290 campo vectorial, 29, 99 aviones de empuje vectorial, 53-54, 141, 191, 217, 264, 329, 340 dirección del vehículo, 51-53, 160, 177, 209, 214, 221, 245, 284, 291, 321, 362 dinámica del buque, 51 suspensión de vehículos, 265, véase también sistema acoplado muelle-masa despegue y aterrizaje vertical, ver amortiguador de vibraciones de aeronaves de empuje vectorial, 266 Vinnicombe, G., 343, 351, 374 La métrica Vinnicombe, 349352, 372 pinza de tensión, 10, 11, 61 efecto lecho de agua, 336, 337 Regulador Watt, véase centrífugo gobernador Máquina de vapor de Watt, 3, 17 control del servidor web, 75-77, 192 sitio web, acompañante, x Whipple, F. J. W., 71 Wiener, N., 11, 12 número de bobinado, 277 tamaño de ventana (TCP), 78, 80, 104 windup, véase windup del integrador Wright, W., 18 Wright Flyer, 8, 19 Avión X-29, 336 Avión X-45, 8 Parametrización de Youla, 356-358 ganancia de frecuencia cero, 154, 177, 180, 186, 239 ceros, 239 Diagrama de Bode para, 264 efecto de los sensores y actuadores en, 284, 334 para un sistema de espacio de estados, 240 medio plano derecho, 240, 283, 331-334, 336, 345, 365 propiedad de bloqueo de señales, 239 lento estable, 362, 363, 365 Ziegler, J. G., 302, 312 Sintonía ZieglerNichols, 302-305, 312 respuesta en frecuencia, 303 método mejorado, 303 respuesta al paso, 302