Uploaded by javier orea

regulacion automatica

advertisement
Apuntes de Regulación Automática
Ingenierı́a Electrónica
Javier Aracil
Fabio Gómez-Estern
Contenido
1 Introducción a los sistemas de control.
1
1.1
Noción de control automático. . . . . . . . . . . . . . . . . . . . .
1
1.2
Necesidad del modelo matemático del sistema. . . . . . . . . . . .
3
1.3
Idea de realimentación. . . . . . . . . . . . . . . . . . . . . . . . .
4
1.4
Realimentación, retardos y oscilación. . . . . . . . . . . . . . . . .
6
1.5
Sensibilidad y realimentación. . . . . . . . . . . . . . . . . . . . .
7
1.6
Las Matemáticas y el control automático. . . . . . . . . . . . . . .
9
1.7
Señales y sistemas. . . . . . . . . . . . . . . . . . . . . . . . . . .
11
1.8
Servomecanismos y reguladores. . . . . . . . . . . . . . . . . . . .
13
1.9
Bosquejo histórico del control automático. . . . . . . . . . . . . .
15
1.9.1
17
Control, informática y telecomunicaciones. . . . . . . . . .
2 Introducción a los sistemas realimentados
19
2.1
Servomecanismo de posición . . . . . . . . . . . . . . . . . . . . .
19
2.2
Acción proporcional más derivada (PD). . . . . . . . . . . . . . .
21
2.3
Acción proporcional más integral (PI). . . . . . . . . . . . . . . .
22
i
Contenido
ii
3 Sistemas dinámicos lineales
3.1
28
Transformación de Laplace . . . . . . . . . . . . . . . . . . . . . .
28
3.1.1
Definición . . . . . . . . . . . . . . . . . . . . . . . . . . .
28
3.1.2
Resumen de Propiedades . . . . . . . . . . . . . . . . . . .
29
3.1.3
Calculo de antitransformadas . . . . . . . . . . . . . . . .
33
3.2
Noción de sistema dinámico. . . . . . . . . . . . . . . . . . . . . .
38
3.3
Formas de las relaciones entrada-salida en sistemas. . . . . . . . .
39
3.3.1
Sistemas estáticos. . . . . . . . . . . . . . . . . . . . . . .
39
3.3.2
Sistemas dinámicos . . . . . . . . . . . . . . . . . . . . . .
40
Descripción externa de los sistemas dinámicos. . . . . . . . . . . .
42
3.4.1
Respuesta impulsional. . . . . . . . . . . . . . . . . . . . .
42
3.4.2
Función de transferencia. . . . . . . . . . . . . . . . . . . .
44
Sistemas de control realimentados . . . . . . . . . . . . . . . . . .
46
3.4
3.5
4 Interpretaciones de la función de transferencia
50
4.1
Transformación de Fourier . . . . . . . . . . . . . . . . . . . . . .
50
4.2
Función de transferencia en el dominio de la frecuencia . . . . . .
54
5 Sistemas dinámicos lineales de primer orden
56
5.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
56
5.2
Solución de la ecuación diferencial de primer orden . . . . . . . .
57
5.2.1
Señal de entrada nula . . . . . . . . . . . . . . . . . . . . .
57
5.2.2
Señal de entrada no nula . . . . . . . . . . . . . . . . . . .
59
5.2.3
Respuestas a señales de entrada especiales . . . . . . . . .
61
Contenido
5.2.4
iii
Respuesta armónica . . . . . . . . . . . . . . . . . . . . . .
69
5.3
Ejemplos de sistemas de primer orden
. . . . . . . . . . . . . . .
72
5.4
El sistema de primer orden como integrador . . . . . . . . . . . .
77
6 Sistemas dinámicos lineales de segundo orden y de orden y superior
79
6.1
Definición . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
6.1.1
Respuesta de un sistema de segundo orden a una entrada
en escalón . . . . . . . . . . . . . . . . . . . . . . . . . . .
82
6.1.2
Respuesta en frecuencia de un sistema de segundo orden .
91
6.1.3
Ecuaciones diferenciales de orden n . . . . . . . . . . . . .
92
7 Representación gráfica de la función de transferencia
7.1
7.2
7.3
79
98
Diagramas más comunes . . . . . . . . . . . . . . . . . . . . . . .
98
7.1.1
Diagrama de polos y ceros: caso racional . . . . . . . . . .
98
7.1.2
Diagrama de Nyquist . . . . . . . . . . . . . . . . . . . . .
99
7.1.3
Diagrama logarı́tmico o de Bode . . . . . . . . . . . . . . . 100
7.1.4
Diagrama de Black . . . . . . . . . . . . . . . . . . . . . . 101
Diagrama de Bode . . . . . . . . . . . . . . . . . . . . . . . . . . 101
7.2.1
Diagrama de Bode de una constante . . . . . . . . . . . . 103
7.2.2
Diagrama de Bode de una integración pura . . . . . . . . . 103
7.2.3
Diagrama de Bode de un sistema de primer orden . . . . . 103
7.2.4
Diagrama de Bode de una diferenciación pura . . . . . . . 105
7.2.5
Diagrama de Bode del término asociado a un cero . . . . . 106
Sistemas de fase mı́nima . . . . . . . . . . . . . . . . . . . . . . . 106
Contenido
iv
7.4
Cı́rculos M y N . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
7.5
Relación entre las constantes de error y los polos y ceros. . . . . . 112
7.5.1
Seguimiento de posición. . . . . . . . . . . . . . . . . . . . 113
7.5.2
Seguimiento de velocidad. . . . . . . . . . . . . . . . . . . 116
7.5.3
Seguimiento de aceleración . . . . . . . . . . . . . . . . . . 118
7.5.4
Sistemas con error nulo . . . . . . . . . . . . . . . . . . . . 119
8 Estabilidad de los sistemas dinámicos
122
8.1
Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
8.2
Criterios de estabilidad relativos a la descripción externa . . . . . 123
8.3
8.2.1
Criterio de Routh-Hurwitz . . . . . . . . . . . . . . . . . . 128
8.2.2
Matriz de Hurwitz . . . . . . . . . . . . . . . . . . . . . . 133
Criterio de Nyquist . . . . . . . . . . . . . . . . . . . . . . . . . . 134
8.3.1
Grado de estabilidad e interpretación del criterio de Nyquist 141
9 Compensación de sistemas realimentados
143
9.1
Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
9.2
Análisis en el dominio de la frecuencia de la red PD . . . . . . . . 147
9.3
Análisis en el dominio de la frecuencia de la red PI . . . . . . . . 150
9.4
Acción proporcional, integral y diferencial (PID) . . . . . . . . . . 153
9.5
Compensación por avance de fase . . . . . . . . . . . . . . . . . . 155
9.6
Efecto en el dominio de la frecuencia . . . . . . . . . . . . . . . . 157
9.7
Método práctico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158
Contenido
v
10 Representación matemática de sistemas
10.1 Introducción
162
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
10.1.1 Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . 162
10.2 Descripción interna de los sistemas dinámicos . . . . . . . . . . . 163
10.2.1 Sistemas de estados finitos . . . . . . . . . . . . . . . . . . 166
10.2.2 Sistemas dinámicos lineales en tiempo continuo . . . . . . 167
10.2.3 Función de transición de los sistemas dinámicos lineales . . 177
10.2.4 Sistemas dinámicos lineales en tiempo discreto . . . . . . . 181
10.2.5 Muestreo de sistemas en tiempo contı́nuo . . . . . . . . . . 182
10.2.6 Sistemas no-lineales: linealización . . . . . . . . . . . . . . 185
10.2.7 Depósito mezclador
. . . . . . . . . . . . . . . . . . . . . 187
11 Controlabilidad y observabilidad de sistemas dinámicos
191
11.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191
11.2 Controlabilidad de sistemas dinámicos lineales . . . . . . . . . . . 192
11.2.1 Estados alcanzables . . . . . . . . . . . . . . . . . . . . . . 192
11.2.2 Estados controlables . . . . . . . . . . . . . . . . . . . . . 193
11.2.3 Estados conectados . . . . . . . . . . . . . . . . . . . . . . 194
11.3 Controlabilidad de los sistemas en tiempo discreto . . . . . . . . . 195
11.3.1 Ejemplos de introducción . . . . . . . . . . . . . . . . . . . 196
11.3.2 Controlabilidad de sistemas en tiempo continuo . . . . . . 202
11.3.3 Criterio de controlabilidad . . . . . . . . . . . . . . . . . . 203
11.3.4 Ejemplos de controlabilidad . . . . . . . . . . . . . . . . . 206
Contenido
vi
11.4 Notas sobre controlabilidad . . . . . . . . . . . . . . . . . . . . . 209
11.4.1 Controlabilidad de sistemas monovariables . . . . . . . . . 209
11.4.2 Transformación de la matriz de Controlabilidad . . . . . . 210
11.4.3 Forma simplificada del criterio de controlabilidad . . . . . 210
11.4.4 La controlabilidad como propiedad genérica . . . . . . . . 211
11.5 Descomposición del espacio de estados en sus partes controlables
y no controlables . . . . . . . . . . . . . . . . . . . . . . . . . . . 212
11.6 Observabilidad de sistemas dinámicos lineales . . . . . . . . . . . 218
11.6.1 Introducción a la observabilidad . . . . . . . . . . . . . . . 218
11.6.2 Observabilidad . . . . . . . . . . . . . . . . . . . . . . . . 220
11.6.3 Reconstructibilidad . . . . . . . . . . . . . . . . . . . . . . 221
11.6.4 Criterio de observabilidad . . . . . . . . . . . . . . . . . . 221
11.7 Sistemas continuos . . . . . . . . . . . . . . . . . . . . . . . . . . 223
11.8 Pérdida de observabilidad por muestreo . . . . . . . . . . . . . . . 225
11.8.1 Notas sobre observabilidad . . . . . . . . . . . . . . . . . . 227
11.9 Descomposición del espacio de estados en sus partes observables y
no-observables . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227
11.10Descomposición canónica del espacio de estados . . . . . . . . . . 229
11.11Formas canónicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 233
11.11.1 Forma canónica de observación . . . . . . . . . . . . . . . 239
12 Sı́ntesis de sistemas de control por variables de estado
242
12.1 Ley de Control . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242
12.1.1 Interpretación por diagramas . . . . . . . . . . . . . . . . 245
Contenido
vii
12.1.2 Interpretación algebraica . . . . . . . . . . . . . . . . . . . 246
12.1.3 Determinación de la ley de control
. . . . . . . . . . . . . 248
12.2 Observadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251
12.2.1 Sistemas monovariables . . . . . . . . . . . . . . . . . . . . 252
12.3 Sı́ntesis del sistema en bucle cerrado . . . . . . . . . . . . . . . . 262
12.3.1 Método práctico de sı́ntesis
. . . . . . . . . . . . . . . . . 270
12.3.2 Sı́ntesis algebraica directa (Sı́ntesis externa directa) . . . . 275
13 Sistemas no lineales
283
13.1 Método del primer armónico . . . . . . . . . . . . . . . . . . . . . 283
13.1.1 Ejemplo introductorio . . . . . . . . . . . . . . . . . . . . 283
13.1.2 Principios del método
. . . . . . . . . . . . . . . . . . . . 289
13.1.3 Transformación de Fourier . . . . . . . . . . . . . . . . . . 289
13.2 Algunas funciones descriptivas . . . . . . . . . . . . . . . . . . . . 291
13.2.1 Saturación . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
13.2.2 Relé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293
13.2.3 Holgura . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294
13.2.4 Determinación experimental de la función descriptiva . . . 297
13.3 Análisis de sistemas no lineales mediante la función descriptiva . . 298
13.3.1 Una ampliación del criterio de Nyquist . . . . . . . . . . . 299
13.3.2 Oscilaciones de un servomecanismo no lineal . . . . . . . . 300
13.3.3 Función descriptiva independiente de la frecuencia . . . . . 302
13.3.4 Función descriptiva dependiente de la frecuencia . . . . . . 302
Contenido
viii
13.3.5 Estabilidad de los ciclos lı́mite . . . . . . . . . . . . . . . . 304
13.3.6 Fiabilidad del análisis mediante funciones descriptivas . . . 309
13.4 Criterios de estabilidad relativos a la descripción interna . . . . . 311
13.4.1 Teorı́a de Lyapunov . . . . . . . . . . . . . . . . . . . . . . 311
13.4.2 Un ejemplo introductorio . . . . . . . . . . . . . . . . . . . 311
13.4.3 Noción de estabilidad en el sentido de Lyapunov . . . . . . 314
13.4.4 Teorema de Lyapunov . . . . . . . . . . . . . . . . . . . . 315
13.4.5 Aplicación del método de Lyapunov a sistemas lineales . . 318
13.5 Construcción de funciones de Lyapunov con formas cuadráticas . 323
13.5.1 Método de Krasovkii . . . . . . . . . . . . . . . . . . . . . 327
14 Introducción a la optimización de sistemas dinámicos
331
14.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 331
14.2 Optimización Estática. . . . . . . . . . . . . . . . . . . . . . . . . 332
14.2.1 Minimización de funciones . . . . . . . . . . . . . . . . . . 332
14.3 Introducción al control óptimo . . . . . . . . . . . . . . . . . . . . 336
14.3.1 Ejemplos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338
14.3.2 Ejemplo de ı́ndice de funcionamiento cuadrático . . . . . . 341
14.4 Problema general del control óptimo . . . . . . . . . . . . . . . . 345
14.5 Cálculo de variaciones . . . . . . . . . . . . . . . . . . . . . . . . 346
14.5.1 Funcionales y sus variaciones . . . . . . . . . . . . . . . . . 346
14.5.2 Ecuaciones de Euler . . . . . . . . . . . . . . . . . . . . . 352
14.5.3 Estado final variable . . . . . . . . . . . . . . . . . . . . . 359
Contenido
ix
15 Métodos Variacionales en Control Optimo
368
15.1 Aplicación del cálculo de variaciones a la resolución del problema
del Control Optimo . . . . . . . . . . . . . . . . . . . . . . . . . . 368
15.1.1 Se puede eliminar u . . . . . . . . . . . . . . . . . . . . . . 368
15.1.2 No se puede eliminar u
. . . . . . . . . . . . . . . . . . . 373
15.1.3 Introducción de un término de control terminal . . . . . . 382
16 Principio del Mı́nimo de Pontriagin
393
16.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 393
16.2 Control óptimo por conmutación . . . . . . . . . . . . . . . . . . 408
16.2.1 Control en tiempo mı́nimo de un sistema de segundo orden 408
16.2.2 Ejemplo 4: Problema del alunizaje suave . . . . . . . . . . 412
17 Principio de optimalidad de Bellman
417
17.1 Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 417
17.1.1 Ejemplo de un sistema binario en tiempo discreto . . . . . 421
17.1.2 Programación dinámica en tiempo discreto y Principio de
Optimalidad . . . . . . . . . . . . . . . . . . . . . . . . . . 423
17.2 Programación dinámica y ecuación de Hamilton-Jacobi-Bellman . 424
17.2.1 Relación entre la programación dinámica y la formulación
Hamiltoniana del problema de control óptimo . . . . . . . 433
17.3 Control de sistemas dinámicos lineales con criterio cuadrático . . . 434
17.3.1 Breve reseña histórica . . . . . . . . . . . . . . . . . . . . 434
17.3.2 Problema LQR . . . . . . . . . . . . . . . . . . . . . . . . 436
17.4 Ecuación de Riccati en el dominio de la frecuencia . . . . . . . . . 446
Contenido
x
17.5 Resolución del problema LQR . . . . . . . . . . . . . . . . . . . . 450
18 Estimación del estado
452
18.1 Noción de señal aleatoria . . . . . . . . . . . . . . . . . . . . . . . 452
18.1.1 Descripción estadı́stica de las señales aleatorias . . . . . . 453
18.2 Transmisión de señales aleatorias a través de sistemas lineales: descripción interna . . . . . . . . . . . . . . . . . . . . . . . . . . . 456
18.3 El problema de la observación: Filtro de Kalman . . . . . . . . . 458
18.3.1 Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464
18.4 Método LQG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 466
Tema 1
Introducción a los sistemas de
control.
1.1
Noción de control automático.
De una manera intuitiva se concibe el control automático, como la rama de la
técnica que tiene por objeto concebir ingenios que funcionen autónomamente, es
decir, y hablando llanamente, que funcionen solos. Esta noción intuitiva requiere
unas ciertas matizaciones, pero es válida como punto de partida.
Bajo cierto punto de vista se puede considerar que en todo proceso industrial
intervienen por una parte la información (órdenes) y por otra la potencia. Bajo
este mismo punto de vista cabe considerar el funcionamiento de un proceso como
la adopción de las acciones necesarias frente al mismo (señales de mando o control)
para la conveniente dosificación de la energı́a en los distintos puntos del proceso
para que el funcionamiento del conjunto sea el conveniente.
En todo proceso, sea la fabricación de un producto, un avión en vuelo, una
máquina funcionando, etc.., se realizan una serie de acciones que presuponen
la dosificación de la aplicación de energı́a en determinados puntos, bien bajo la
acción de unas órdenes que se suministran al mismo, bien de una manera aleatoria
por parte del medio en el que se halla inmerso.
Se puede representar un proceso de esta naturaleza, al que a partir de ahora
denominaremos sistema por medio de un bloque, o rectángulo, tal como el representado en la figura 1.1. A la izquierda de este bloque se han representado unas
1
Introducción a los sistemas de control.
2
flechas que se han denotado por u1 , u2 ... y que representan las distintas acciones
que se pueden ejercer sobre el proceso; se denominarán en lo que sigue señales
de control, mando, o entrada. A la derecha del bloque se han representado otras
flechas, como saliendo del mismo, que se han denotado por y1 , y2 , ... y que representan los productos que produce el proceso. Tanto las acciones sobre el sistema
como los productos del mismo generalmente varı́an con el tiempo, por lo que se
hablará de secuencias temporales, o más formalmente de señales; sobre el carácter
de estas señales se volverá más adelante.
u1
u2
un
q
q
q
Sistema
a
controlar
-
-
y1
-
y2
-
ym
q
q
q
Figura 1.1: Sistema dinámico
Obsérvese que este esquema, al nivel que se ha desarrollado hasta ahora,
tiene una amplı́sima aplicación. Por ejemplo la conducción de un automóvil
por una carretera puede considerarse como un proceso sistema representado con
un diagrama similar al de la figura 1.1 siendo u1 la posición del volante; u2 la
dirección del viento respecto a la del automóvil, etc.., y siendo y1 la velocidad del
automóvil; y2 la separación del mismo de la cuneta, etc.
De una manera intuitiva se entiende que un proceso está automatizado cuando
funciona solo, es decir, sin intervención del ser humano. Por ejemplo, un automóvil completamente automatizado serı́a aquél que funcionase completamente
solo. Aunque este ejemplo trivial pueda asociarse al dominio de la ciencia ficción,
recientes avances en disciplinas como la la visión artificial y el aprendizaje automático, auguran su inminente viabilidad técnica.
Volviendo al problema original, se puede decir que el funcionamiento del proceso se hará a partir de la serie de señales ui que se le aplique. El problema de
controlar (gobernar) el proceso, se reduce al de establecer las señales de entrada
(órdenes), a que deberá ser sometido para que su funcionamiento sea el apetecido.
Por lo tanto, el problema de controlar el funcionamiento de un proceso queda
reducido al de la toma de decisión de la secuencia temporal de valores que deben
Introducción a los sistemas de control.
3
tomar las señales de mando del mismo. Es decir, volviendo al ejemplo trivial
de la conducción del automóvil, la decisión de las maniobras que debe efectuar
el conductor (sobre el volante, sobre el freno, sobre el acelerador...) para que el
funcionamiento del automóvil sea el adecuado.
1.2
Necesidad del modelo matemático del sistema.
Se ha visto en el apartado anterior cómo el gobierno de un proceso se reducı́a
al establecimiento de la secuencia de acciones de mando que debe aplicársele
para que el funcionamiento sea el apetecido. Se va a considerar ahora un primer
aspecto del establecimiento de esta secuencia.
La toma de decisión sobre la señal que debe aplicarse al sistema implica que
existan distintas alternativas. Es decir, que existan distintas acciones posibles
cada una de las cuales darı́a un resultado distinto. El problema se reduce al de
elegir entre estas señales, aquellas cuyo resultado sea el apetecido.
Al existir distintas opciones respecto a la acción a tomar para gobernar el
proceso, para realizar la elección conveniente de la señal de entrada que determine
un funcionamiento apetecido, es necesario que se sepa predecir qué resultados se
obtendrá de cada una de las posibles acciones. Es decir, quien tome la decisión
respecto a cuál de las posibles acciones a tomar debe adoptarse, debe predecir in
mente, las acciones que resultarán de cada una de sus posibles opciones, con el
fin de escoger aquella señal de entrada a la que corresponda un resultado que sea
el buscado.
Por lo tanto, se requiere el conocimiento exhaustivo de las relaciones que
existen entre las posibles acciones a tomar sobre el sistema, y los resultados que
determinarán cada una de ellas. Esto es lo que se llama un modelo del proceso;
aunque existen diversos tipos de modelos, (descripciones verbales, prototipos,
tablas), nos interesamos en texto por los matemáticos, que están constituidos por
las relaciones formales que ligan a las señales ui e yi .
El conductor del automóvil, que es quien toma la decisión del posicionamiento
de los distintos órganos que tiene a su alcance (volante, frenos, acelerador...) lo
que hace en todo instante es prever cuál será el resultado de las decisiones tomadas
con el fin de mantener el proceso que gobierna (el automóvil), en un estado de
marcha y funcionamiento apetecido.
Introducción a los sistemas de control.
4
Para construir un modelo matemático de un proceso, se requiere establecer de
una forma precisa, las magnitudes que lo definen (señales de entrada y de salida)
ası́ como las relaciones formales que ligan a estas magnitudes.
En la vida ordinaria, cuando se construyen modelos, de una manera subconsciente, para la toma de decisiones, éstos no tienen el nivel de formalidad que se
acaba de indicar. Sin embargo, cuando se quiere automatizar un proceso, es indispensable la construcción de estos modelos formales con el fin de poder trasladar
el proceso de toma de decisión a una máquina construida al efecto, ası́ que determinará las acciones a tomar precisamente a partir del modelo del sistema del
que disponga.
La posibilidad de construir un modelo del proceso que se esté considerando,
constituye una de las mayores limitaciones a priori respecto a la posibilidad de
automatizar un determinado proceso. Considérese, por ejemplo, el problema del
establecimiento de un tratamiento por un médico para uno de sus enfermos. En
la medida en que fuese posible en primer lugar definir una serie de magnitudes
que caracterizasen el estado del enfermo (temperatura, tensión arterial, concentraciones en sangre de principios activos...) y de las relaciones formales que ligan
a estas magnitudes, serı́a posible automatizar completamente el problema del establecimiento de un tratamiento, que no es sino determinar la acción a seguir
sobre el enfermo para conseguir que la evolución del mismo estado de salud se
realice en forma apetecida.
En ciertos casos es posible establecer un modelo matemático del proceso que
ligue de una manera unı́voca a cada una de las acciones que se tomen un único
resultado. Se tiene entonces un sistema determinista. En otros casos, para cada
una de las acciones posibles, no se tiene sino una predicción estadı́stica de posibles
resultados; se tienen entonces los llamados sistemas estocásticos.
1.3
Idea de realimentación.
El conocimiento del modelo matemático del sistema sobre el que se debe tomar
una decisión para gobernar su funcionamiento, no es suficiente para la toma de
esta decisión. Se requiere además información sobre lo que, de una forma intuitiva
de momento se puede denominar estado actual del mismo.
Es fácil encontrar ejemplos que ilustren este punto. Supóngase, por ejemplo,
un automóvil que debe hacer el recorrido Sevilla - Cádiz. Supóngase que se
dispone de un modelo matemático del funcionamiento del automóvil ası́ como
Introducción a los sistemas de control.
5
un trazado minucioso de la autopista que une las dos ciudades Parece posible,
en principio, concebir un programa de ordenador extraordinariamente detallado
que permitiese realizar la toma de decisiones sobre la conducción del automóvil.
Un programa que serı́a algo ası́ como una secuencia de instrucciones del tipo:
avanzar en lı́nea recta 150 m, realizar un giro a la derecha, con radio de giro de
1 km.,.... Sin embargo parece claro que en principio no quepa augurar un feliz
resultado a la empresa. Este tipo de programa darı́a lugar a un control en en
el que no se tiene información externa sobre la situación actual, situación que
recibe el la denominación de se denomina control en bucle abierto. Pese a sus
limitaciones, tiene su aplicación en ciertos contextos, por ejemplo una lavadora
automática basada en secuencias de trabajo prefijadas en el tiempo.
El conductor del automóvil no hace sino desde su posición de gobierno, introducir en su sistema de decisión neuronal, especialmente por medio de sus ojos,
información sobre el estado actual del automóvil, permitiendo de esta forma el
que la toma de decisión respecto a la condición del mismo, adquiera un grado de
eficacia realmente fiable.
Este ejemplo, pese a su aparente artificiosidad es similar al que se presenta
cuando se trata de enviar una cápsula a la luna. Debe notarse que la necesidad
de la realimentación surge como consecuencia de la aparición de perturbaciones
aleatorias que modifican el funcionamiento del sistema de acuerdo con un plan
previsto, o sencillamente por la imperfección del modelo del sistema que le impide
una predicción exacta, a largo plazo, del funcionamiento del mismo.
Desde un punto de vista general, cabe decir que los sistemas con realimentación
son aquéllos en los que la adopción de decisiones cara al futuro está completamente influenciada por los efectos de las previamente adoptadas. Dicho con otras
palabras, son los sistemas en los que si la acción que se lleva a efecto persigue
una determinada meta, es la diferencia entre la precisión alcanzada en la aproximación a esta meta, y ella misma, la que determina las acciones posteriores. Este
tipo de actuaciones son las que se denominan control en bucle cerrado o control
por realimentación.
En la figura 1.2 se representa en forma de diagrama de bloques lo anterior.
En dicha figura se representa por un lado el Sistema, cuya variable de Salida
pretendemos controlar de forma que siga a la Entrada. Para ello se dispone de
un Elemento de medición, que nos proporciona el valor de la señal de salida y
posteriormente una vez comparada con la señal de entrada se toma la decisión
correspondiente para actuar sobre el sistema.
Conviene recordar que, en general, los sistemas fı́sicos poseen memoria del
Introducción a los sistemas de control.
Entrada
-
Toma de
decisión
6
Salida
-
Planta
-
6
Elemento
de
medición
¾
Figura 1.2: Realimentación
pasado; por ello la salida del sistema en un instante dado no es función exclusivamente de la entrada en ese mismo instante: depende de toda la historia pasada de
las entradas. Por esta razón la estructura realimentación es un objeto complejo
en cuanto a su comprensión y diseño.
1.4
Realimentación, retardos y oscilación.
La existencia de retardos en un circuito (bucle) de realimentación, conduce a la
aparición de fenómenos oscilatorios en el comportamiento dinámico del mismo.
Este hecho tiene una importancia capital al considerar el comportamiento dinámico
de los sistemas realimentados y gran parte del problema de diseño de los mismos
reside en el amortiguamiento (o anulación) de estas oscilaciones.
Con el fin de ilustrar de una manera intuitiva este hecho, considérese a un conductor que conduce un automóvil, proceso que se puede interpretar con un bucle
de realimentación tal como el de la figura 1.3. Entre la detección de un obstáculo,
y la acción correctora consiguiente (girar el volante, actuar sobre los frenos...), se
produce un cierto retardo que el conductor experimentado tiene perfectamente
asimilado, y no constituye un obstáculo para una conducción normal.
Supóngase que se trata de mantener el coche en lı́nea recta sobre una superficie
completamente llana, sin ningún obstáculo. Sobre el automóvil sólo actúan las
pequeñas perturbaciones (baches) del terreno y el conductor puede conseguir su
Introducción a los sistemas de control.
7
Perturbaciones
Referencia
-
?
Ojos
(Sentidos)
- Conducción
-
?
Coche
?
Posición
-
6
Figura 1.3: Ejemplo de realimentación
objetivo con relativa facilidad.
Supóngase ahora que el conductor debe realizar su cometido con los ojos
cerrados, llevando a su lado un copiloto que es el que le va transmitiendo las
indicaciones respecto a las desviaciones de la lı́nea recta que se trata de seguir.
El circuito de realimentación se modifica, en este caso, al de la figura 1.4, con
ello lo que se ha introducido es de una manera artificiosa un notable retardo en
el bucle de realimentación. Es fácil comprender, que en este segundo caso, y
debido precisamente al retraso que se introduce en el bucle de realimentación, la
conducción será fuertemente oscilante.
Un hecho importante que ilustra también el anterior ejemplo es que cuanto
mayor sea la velocidad a la que pretende conducirse el automóvil, mayores serán
los efectos de oscilación que se han indicado. El dilema entre velocidad de respuesta (precisión) y estabilidad (ausencia de oscilaciones), constituye una de las
constantes que aparecen en el estudio de sistemas realimentados.
1.5
Sensibilidad y realimentación.
Un sistema se dice sensible a la variación de un determinado parámetro cuando
éste influye de forma importante en el comportamiento del mismo. Por ejemplo, la
conducción de un automóvil es extraordinariamente sensible al estado del firme
Introducción a los sistemas de control.
8
Perturbaciones
Ref.
-
? ? ?
Ojos
(Sentidos)
-Transmisión
oral
-Conducción
-
Coche
Posición
-
6
Figura 1.4: Sistema con retardo
de la carretera. Más adelante se dará una definición precisa de este concepto;
aquı́, de momento, con esta noción intuitiva es suficiente.
Los sistemas realimentados son enormemente menos sensibles a las perturbaciones que los sistemas sin realimentar. En efecto, un ejemplo trivial ayudará a
fijar esta idea. Considérese que se trata de preparar una ducha de agua templada.
El sistema se puede considerar en bucle abierto, es decir, sin realimentación, si
una vez realizado el ajuste de las proporciones de agua frı́a y caliente, éste permanece inalterado durante toda la ducha. Si aparece cualquier perturbación, por
ejemplo, que en otro lugar de la casa se abra un grifo de agua caliente, lo que
influye en la mezcla, las consecuencias desagradables para el que se ducha no se
pueden atenuar. El sistema es enormemente sensible.
Por el contrario, si se puede actuar sobre los grifos durante todo el proceso,
entonces se tiene un sistema en bucle cerrado en el que la persona que se ducha
puede tomar las decisiones oportunas, y actuar sobre el sistema a través de los
grifos, para corregir cualquier perturbación que se pueda producir. El sistema,
en conjunto, ha atenuado las posibles perturbaciones exteriores, por lo tanto ha
disminuido su sensibilidad sobre las mismas.
Este ejemplo ayuda también a poner de manifiesto uno de los problemas más
importantes que se pueden producir como consecuencia de la introducción de la
realimentación. Considérese que:
• Los grifos se encuentran alejados del depósito de agua caliente; y
Introducción a los sistemas de control.
9
• Una pequeña variación de cualquiera de los grifos influye sensiblemente en
la temperatura del agua.
Es claro que en tales condiciones se producirán oscilaciones de la temperatura del
agua, puesto que será enormemente difı́cil ajustar la misma. Ello es debido a que
cualquier acción que se tome tarda un cierto tiempo en detectarse (en la espalda
del que se ducha que es el órgano de medida), y por lo tanto éste posiblemente se
pase en la corrección. El sistema se convierte entonces en un sistema inestable, y
la corrección de ese tipo de inestabilidad constituye uno de los primeros problemas
con los que se enfrenta el diseñador de sistemas realimentados. Ello se pondrá
ampliamente de manifiesto a lo largo de este curso.
1.6
Las Matemáticas y el control automático.
Las matemáticas tienen un doble empleo en las ciencias empı́ricas y aplicadas.
• Las matemáticas pueden usarse como lenguaje cuando se pretende formular
los problemas con la ayuda de conceptos matemáticos buscando con ello la
precisión y claridad.
• Las matemáticas pueden emplearse como herramientas cuando una vez
planteado el problema en términos matemáticos se resuelven las ecuaciones
que resultan (analı́ticamente o por simulación).
Por otra parte, cabe considerar que la ingenierı́a puede describirse como una
mezcla de sentido común y ciencia. Se trata de recurrir a planteamientos teóricos
que permitan profundizar en los problemas que se estén tratando, pero sin perder
de vista que en último extremo de lo que se trata es de conseguir algo que funcione.
Estas consideraciones previas deben hacerse por cuanto que, como es lógico
según lo que se ha visto en los apartados anteriores, las matemáticas juegan un
papel fundamental en la moderna teorı́a del control automático. Tan es ası́ que
en algún sentido puede considerarse la teorı́a del control automático como una
rama de las matemáticas aplicadas.
En la figura 1.5 se tiene un sencillo diagrama en el que se pretende expresar
las fases del método en control automático. Estas fases pueden resumirse en:
Introducción a los sistemas de control.
10
1. A partir del proceso, por abstracción, se construye el modelo matemático
del mismo. Esta primera fase no es especı́fica del especialista en control, y
requiere del concurso del especialista en el proceso a controlar.
2. Una vez obtenido el modelo matemático, se determina qué tipo de acción
debe efectuarse sobre el mismo para que su comportamiento se adecúe a las
metas propuestas. Se trata de determinar, lo que más adelante se denominará ley de control.
3. Por último, se trata de realizar fı́sicamente, la ley de control determinada
en el punto anterior para lo que se requiere el concurso de instrumentos
electrónicos y fı́sicos que realicen esta función. En esta última fase se requiere de nuevo el concurso del especialista en el proceso a controlar (en
forma de instrumentista).
Modelo
Matemático
6
-
Ley de
Control
6
Abstracción
Implementación
?
Sistema
Fı́sico
?
Sistema
de Control
Figura 1.5: Fases del Método de Control
De las tres fases anteriores, la especı́fica del especialista en sistemas de control
es la segunda, que tiene un carácter fundamental matemático. Se ha llegado
incluso a decir que el especialista en control en realidad no trata con los sistemas
fı́sicos, sino exclusivamente con sus modelos matemáticos.
Introducción a los sistemas de control.
11
Por lo tanto, el terreno en que se mueve el especialista en control automático,
está fuertemente influido por las matemáticas aplicadas, aunque nunca debe olvidarse las consideraciones hechas más arriba respecto a la labor del ingeniero.
1.7
Señales y sistemas.
En el estudio de los sistemas de control es fundamental adquirir previamente una
idea clara de los conceptos de señal y sistema.
Se entiende por señal, en un sentido amplio, toda magnitud fı́sica que evoluciona en el tiempo. En un sentido más restringido se requiere además que
esta señal tenga cierto contenido informacional, es decir que sea significativa en
cierto aspecto, los tipos de señales generalmente empleados en sistemas de Control son tensiones o corrientes eléctricas, desplazamientos mecánicos y presiones
neumáticas o hidráulicas, si bien en principio no hay ningún incoveniente en incluir otro tipo de señales. Se empleará aquı́ la notación habitualmente empleada
en matemáticas para referirse a una magnitud fı́sica X que, en cada instante t,
toma un cierto valor.
La definición de sistema es más ambigua. Se entiende por sistema un conjunto
de partes entrelazadas operativamente de manera que unas actúen sobre otras y
que en conjunto formen un todo. Un ejemplo de sistema de acuerdo con esta
definición lo constituye el Sistema Económico Nacional, en el que salarios, nivel
de precios, ahorro, etc, interaccionan entre sı́. Aquı́ interesará la consideración
de sistemas más simples en los que los elementos interactuantes son fı́sicos y, de
hecho, puedan definirse magnitudes fı́sicas que describan su comportamiento. Un
sistema puede también definirse como un procesador de señales, en el sentido de
que excitado con determinadas señales responde con otras.
Es por lo tanto evidente que la consideración del comportamiento dinámico
de un sistema tendrá un papel preponderante, por cuanto que una señal es una
magnitud fı́sica que evoluciona en el tiempo, y un sistema es un procesador de
señales.
Normalmente, los sistemas que interesan en Automática, tendrán puntos de
acceso llamados entradas, por los que pueden ser excitados por señales llamadas
señales de entrada. Ası́ mismo tendrán otros accesos en los que la evolución
de ciertas magnitudes fı́sicas podrá leerse. Estos puntos se llamarán salidas y
las magnitudes a ellos ligadas señales de salida. La voz punto, empleada en las
anteriores definiciones de entrada y salida, debe tomarse en un sentido amplio
Introducción a los sistemas de control.
12
y no geométrico. Los sistemas se representan por medio de bloques tal como se
indica en la figura 1.6.
potencia
perturbaciones
Señales de
entrada
u(t)
Señales de
salida
y(t)
Figura 1.6: Sistema dinámico
Juntamente con las señales de entrada y salida interesa considerar que un
sistema puede estar sometido a otro tipo de entradas como son las de suministro de potencia o las perturbaciones. Pero con el fin de poder estudiar en su
comportamiento ciertas regularidades, que permitan su estudio matemático, se
considerará que estas, o bien se mantienen constantes (potencial), o bien sufren
sólo variaciones despreciables (perturbaciones), de manera que el valor de la señal
de salida pueda considerarse función exclusivamente del conjunto de valores tomados por la señal de entrada. Por lo tanto normalmente la representación de un
sistema se hará como indica la figura 1.1.
Como ejemplo de lo dicho se puede considerar un motor eléctrico en el cual el
campo se mantiene constante y se varı́a la velocidad actuando sobre la corriente
de inducido. (Figura 1.7)
Intensidad de
inducido
Excitación
Constante
velocidad
Figura 1.7: Motor eléctrico
Desde el punto de vista que se está considerando se dirá que el motor es un
sistema que, a una señal de entrada u(t) (intensidad de inducido), da una señal
Introducción a los sistemas de control.
13
de salida y(t) (velocidad del motor). Se puede, en cierto aspecto, prescindir de la
consideración del campo.
1.8
Servomecanismos y reguladores.
La automática es un campo vastı́simo. En él se entrelazan aspectos teóricos y
tecnológicos de suerte que es difı́cil establecer en el mismo sistematizaciones de
cara a su estudio. Sin embargo atendiendo a su desarrollo histórico y al interés
de ciertas aplicaciones a las que, por otra parte, se ha podido aplicar una teorı́a
sencilla y fecunda, es posible extraer de todo el complejo mundo de la automática
campos de estudio concretos como son los servomecanismos y los reguladores.
Un servomecanismo es un ingenio con el que se pretende controlar una posición.
Ejemplos de servomecanismos se encuentran en campos tan variados como son
los posicionamientos de los timones de un barco, posicionamiento de las antenas de radar, posicionamiento de las ruedas de un camión en una servodirección,
posicionamiento de la herramienta en un torno automatizado, posicionamiento
de la pluma en un registrador de precisión, etc... El control de la posición se
puede hacer de acuerdo con un sencillo esquema de realimentación como el de la
figura 1.8.
e
+
y
amplificador
u
motor
-
Figura 1.8: Servomecanismo de posición
Siempre que la posición de salida no se encuentre en la posición requerida por
la referencia aparece un error que actuando sobre el servomotor determina que
éste actúe corrigiendo el error. La única posición de equilibrio es aquélla en que
la posición de salida es igual a la referencia1 .
Por lo tanto un servomecanismo es, esencialmente, un sistema seguidor o re1
Esta afirmación se restringe a una clase de sistemas mecánicos lineales.
Introducción a los sistemas de control.
14
productor en el que la posición de salida sigue o reproduce a la señal de entrada
(referencia). Una caracterı́stica esencial, que justifica las aplicaciones de los servomecanismos es que el nivel de potencia de la señal de salida puede ser muy
superior al de la señal de entrada. En el esquema anterior se ve cómo lo que
posiciona es el servomotor, que viene actuado por una potencia externa al conjunto (el campo) y una señal que viene del servoamplificador y que es la que
realmente corrige (alimentación del inducido). Obsérvese que la misma señal que
viene del servoamplificador ha recibido, en ésta, potencia del exterior. Por lo
tanto un servomecanismo es un ingenio que reproduce señales de posición a un
nivel de potencia superior. El precio de esta mayor potencia en la posición de la
salida es una pérdida de calidad en la señal, es decir, de una cierta distorsión.
Precisamente las técnicas de diseño de servomecanismos tratan de conseguir que
esta pérdida de calidad de la señal sea mı́nima.
Un problema, aunque desde un punto de partida distinto al de los servomecanismos pero que conduce a planteamientos semejantes, es el de los reguladores.
Una determinada magnitud fı́sica se dice que está regulada si está provista de un
sistema que reaccione frente a los cambios del medio externo que afecten a esta
magnitud, de suerte que se mantenga en un valor aproximadamente constante.
Un ejemplo trivial de ello lo suministra un sistema de regulación de temperatura
en una habitación. El sistema calefactor, a través de un termostato, debe reaccionar a las variaciones del medio (aperturas de puertas, entrada de más o menos
gente, pérdidas naturales distintas en el dı́a que en la noche, etc...) de suerte que
la temperatura se mantenga constante.
Ta
a
K
b
Kc
Kp
c
Ti
+ V
Kt
-
+ Vt
+
Vr
-
-
Figura 1.9: Regulador de temperatura
El esquema que permite la regulación de temperatura es esencialmente el
mismo de un servomecanismo, tal y como se ve en la figura 1.9. Sin embargo,
deben notarse las diferencias, desde un punto de vista fı́sico, entre ambos sistemas.
1. En el servomecanismo, la entrada (referencia) es variable y se pretende que
Introducción a los sistemas de control.
15
la salida siga a la entrada. Mientras que en el regulador la entrada es
constante.
2. En el servomecanismo la fuente de error es la variación de la referencia. En
el regulador la fuente de error son perturbaciones exteriores que separan el
sistema del estado requerido.
3. En el servomecanismo, la potencia de la señal de salida, que es lo que
interesa, es muy superior a la de la entrada de referencia (véase el ejemplo
de la amplificación de fuerza del conductor en la servodirección de un coche).
En el regulador, la señal de salida en sı́ no interesa, sino que sólo es una
medida de algo que sucede en la planta controlada, que es lo que realmente
interesa.
Junto a estas diferencias y a otras que pudieran establecerse se presenta la profunda semejanza entre ambos problemas, ya que los dos conducen al mismo diagrama de bloques realimentado que se muestra en las figuras 1.8 y 1.9. Basándose
en esta semejanza es por lo que el estudio de ambos problemas se hace simultáneo
pero no debe olvidarse nunca que fı́sicamente se trata de dos problemas diferentes.
1.9
Bosquejo histórico del control automático.
A lo largo de la historia de la técnica se encuentran múltiples ingenios en cuya
concepción interviene la idea de realimentación. Uno de los primeros ingenios de
esta naturaleza es el llamado reloj de agua (clepsidra). Según algunos autores, su
origen es chino y se remonta a la dinastı́a Chen (siglos XI - XII a.C.), y según otros
al mecánico griego Ktesibios (siglo XIII a.C.). En cualquier caso su antigüedad
e ingeniosidad son innegables.
El primer trabajo significativo en control automático fué el regulador centrı́fugo
de James Watt. Se trata de un regulador de bolas de una máquina de vapor. En
el regulador de Watt se regula la velocidad de una máquina de vapor por medio
de un sencillo artificio consistente en dos bolas metálicas de cierta masa sobre las
que actúan las fuerzas centrı́fugas al girar el eje del que son solidarias a través
de unos brazos (figura 1.10). Estos brazos están articulados de manera que la
fuerza centrı́fuga que actúa sobre las bolas puede determinar, a través de dichas
articulaciones, una mayor o menor apertura de la válvula de alimentación de la
máquina. Se tiene por lo tanto una cadena cerrada de acciones tal como la que
se indica en el diagrama de la figura 1.11.
Introducción a los sistemas de control.
16
Caldera
ω :velocidad del eje.
vapor
eje de la máquina.
válvula
Cilindro
Figura 1.10: Regulador centrı́fugo de Watt
ωc
+
Transmisión
válvula
Máquina
de vapor
-
ω
bolas
Figura 1.11: Diagrama de bloques: Regulador de Watt
ω
Introducción a los sistemas de control.
17
El interés que suscita en su tiempo la máquina de Watt es grande, puesto
que en ella se presentan los problemas de estabilidad a los que se aludı́a en los
apartados 1.4 y 1.5. Tan es ası́ que James Clerk Maxwell, uno de los mayores
fı́sicos teóricos del siglo XIX se siente atraı́do por el problema y publica un trabajo
titulado On governors que constituye uno de los trabajos pioneros de la moderna
teorı́a del control. Sin embargo, aparte de este trabajo, y algún otro de Routh
a finales de siglo, no es hasta los años 30 del siglo pasado, cuando se acomete
de una manera sistemática el estudio de las técnicas matemáticas que permitan
estudiar y diseñar sistemas realimentados. Durante la Segunda Guerra Mundial,
la necesidad de construir sistemas de control altamente sofisticados para fines
militares, condujo al desarrollo tanto en los Estados Unidos como en la antigua
Unión Soviética, de lo que hoy se conviene en llamar teorı́a clásica de los servomecanismos, y que se estudiará más adelante en este curso. En aquellos años
Norbert Wiener publica la importante obra Cibernetics, en la que se recalca el
carácter fundamental de la noción de realimentación como concepto cientı́fico.
La teorı́a clásica de los servomecanismos tiene enormemente limitadas su posibilidades de aplicación por cuanto que la clase de sistemas a las que se aplica es
reducida. En ello determinó la realización de estudios teóricos que permitiesen
construir una teorı́a de sistemas que abarcarse una clase más amplia de los mismos. Con ello se ha llegado al desarrollo de la teorı́a moderna del control, basada
sobre la noción de estado, y que se estudiará con detenimiento a lo largo de este
curso.
1.9.1
Control, informática y telecomunicaciones.
A menudo se confunden las disciplinas de control automático e informática, habiendo visiones superficiales que consideran el control como una aplicación de las
tecnologı́as de la información y comunicaciones. La raı́z de esto se halla en las
siguientes razones:
• El sistema de decisión que diseñan los ingenieros de control para el gobierno
de los sistemas fı́sicos es un procesador de señales, y por tanto un procesador
de información, como son las computadoras.
• El advenimiento del microprocesador en los años 70 del siglo pasado y posteriormente de los más compactos microcontroladores, ha alterado significativamente los métodos del control automático, de modo que apenas se
hace control sin la intervención de las computadoras: tanto en la fase del
análisis matemático como en la concepción de los instrumentos encargados
Introducción a los sistemas de control.
18
del control. De hecho, una ley de control, en muchos casos, se especifica en
forma de algoritmo, que se traduce a su vez en una lista de instrucciones o
programa ejecutándose en la unidad central de una computadora industrial.
• Las teorı́as para el modelado matemático y diseño de sistemas de control
han sufrido una gran transformación en las últimas décadas, con el fin incorporar el potencial, las particularidades y limitaciones de las computadoras.
En este sentido, conceptos como sistemas operativos de tiempo real, concurrencia de procesos, planificación de tareas, velocidad de proceso, algoritmos
en tiempo discreto, lenguajes, etc., se han convertido en términos de uso
común en control.
• Conceptos tradicionalmente asociados a las telecomunicaciones como los
sistemas distribuidos, redes inalámbricas, ruido, capacidad de transmisión,
teorı́a de la información, etc. cobran una importancia creciente en el núcleo
de la teorı́a del control. Otro hecho relevante es que la teorı́a moderna del
control surgida en los años 30 tiene su base en el invento del amplificador
realimentado que impulsó el desarrollo de la telefonı́a a gran distancia.
Sin embargo es conveniente recordar, como se desprende del apartado anterior, que el control realimentado es anterior a la invención de la computadora
digital y, con anterioridad a ella, se han implementado controladores con circuitos analógicos y otras tecnologı́as. De hecho en la actualidad se implementan
sistemas de control realimentado carentes de elementos de computación, como
son los termostatos.
Afirmar que el control es una aplicación de las tecnologı́as de información
serı́a invertir el sentido de las cosas y exigirı́a decir lo mismo de la arquitectura
o la medicina. Sucede simplemente que todas las actividades de carácter técnico
o cientı́fico han evolucionado y se han beneficiado enormemente de la magnı́fica
herramienta que es la informática.
En cualquier caso, la teorı́a del control automático se desarrolla en buena parte
al margen de los dispositivos fı́sicos donde se van a implementar, y a menudo
los métodos del control sobreviven a las computadoras y lenguajes concretos
empleados en su realización.
Tema 2
Introducción a los sistemas
realimentados
2.1
Servomecanismo de posición
Vamos a dedicar esta sección a analizar un tipo de sistema realimentado que
presenta particular interés: el servomecanismo de posición. Con él se trata de
posicionar un eje, que está asociado al eje de un motor, y que constituye la señal
de salida del sistema. La señal de entrada es otra posición, que se pretende
que reproduzca el eje de salida del sistema. Se dispone de un mecanismo que
permite detectar la discrepancia entre las posiciones de entrada y de salida. Esta
discrepancia o error es amplificada convenientemente para activar el motor que,
actuando sobre el eje de salida, determina su movimiento hasta anular el error;
es decir, hasta conseguir alinear el eje de salida en la dirección indicada por el eje
de entrada.
J
f
y(t)
u(t)
amplificador
Figura 2.1: Bucle abierto de un servomecanismo de posición
19
Introducción a los sistemas realimentados
20
En la figura 2.1 se muestra el bucle abierto de un servomecanismo. En ella
se pone de manifiesto cómo, mediante una amplificador la señal u(t) adquiere el
nivel adecuado para actuar sobre un motor, cuyo eje representa la posición de
salida del servomecanismo. Este eje es solidario con una inercia J y una fricción
f.
En la figura 2.2 se muestra el bucle cerrado del servomecanismo. Al esquema
de la figura 2.1 se ha añadido una señal de referencia r(t) que se compara con
la salida del motor, y cuya discrepancia da lugar al error e, a partir del cual se
obtiene la señal u(t).
J
f
r(t) +
e(t)
K
u(t)
amplificador
y(t)
-
Figura 2.2: Bucle cerrado de un servomecanismo de posición
En la figura 2.1 se puede hacer la hipótesis de que el par del motor es proporcional a la señal eléctrica de alimentación del amplificador u(t). Con este supuesto
se puede escribir que la posición del motor y(t) viene dada por la ecuación diferencial:
J
d2 y
dy
+f
= u(t)
2
dt
dt
siendo en este caso y(t) el ángulo girado por el motor, J la inercia del conjunto
motor-carga, y f el coeficiente de fricción viscosa del mismo conjunto.
Para que un sistema de control realimentado actúe aceptablemente, necesita
satisfacer unas determinadas especificaciones de funcionamiento, tanto para su
régimen permanente como para su transitorio que, normalmente, no se consigue
con los elementos que consituyen el bucle de control.
Hay veces en que un simple aumento de la ganancia estática es suficiente
para lograr precisión, sin que se afecte demasiado a las caracterı́sticas en estado
transitorio. No obstante, como lo normal es que éstas se vean empeoradas con una
actuación de este tipo, o en el mejor de los casos, no se consigan exactamente las
Introducción a los sistemas realimentados
21
que se pretende que tenga el sistema, es por lo que se desarrollaran a continuación
los procedimientos de compensación que se han dado en llamar en llamar clásicos
ya que fueron los primeros que se utilizaron.
Se emplean tres tipos de acciones:
• Acción proporcional más derivada (PD);
• Acción proporcional más integral (PI) y
• Acción proporcional más integral y más derivada (PID).
2.2
Acción proporcional más derivada (PD).
Tiene lugar cuando la señal de mando del sistema es la suma de los términos, proporcional y derivado de la señal de error. En este caso se dice que la compensación
es del tipo PD.
Considérese el servomecanismo elemental descrito en el párrafo anterior. Se
va estudiar el caso en que la señal de mando sea proporcional al error y a su
derivada, es decir el caso en que se tenga una acción PD. La señal de mando será,
por lo dicho,
de
u(t) = K e + Kd
dt
quedando
d2 y
dy
de
J 2 +f
= Ke + Kd
(2.1)
dt
dt
dt
y como e = r − y
J
d2 y
dy
dr
dy
+
f
=
Kr
−
Ky
+
K
−
K
d
d
dt2
dt
dt
dt
J
d2 y
dy
dr
+
(f
+
K
)
+
Ky
=
Kr
+
K
d
d
dt2
dt
dt
(2.2)
La ecuación 2.1 muestra que el sistema es excitado ahora por la señal de error
y por un impulso. La consecuencia inmediata es que el efecto corrector (inversión
del par motor) se aplica antes que cuando el control era sólo proporcional, como se
muestra en la figuras 2.3.a y 2.3.b. En efecto, con control proporcional solamente,
Introducción a los sistemas realimentados
22
el error cambia de signo en el punto f de la figura 2.3.b mientras que si la señal
de error es del tipo PD indicado, el cambio de signo se verifica en el instante g de
la figura 2.3.d, es decir, el par corrector se aplica antes de que la señal de salida
llegue al valor de la de referencia. En consecuencia, la sobreoscilación será menor.
La red PD tiene ası́ un caracter anticipativo, ya que en cierta manera se anticipa
a lo que va a ocurrir.
Esta misma consecuencia se pone de manifiesto en la ecuación 2.2, que muestra
la ecuación diferencial del sistema en bucle cerrado. En ella se aprecia que el
coeficiente de la primera derivada se ha incrementado en el valor Kd , es decir, el
efecto ha sido aumentar la fricción del sistema primitivo y, por tanto, hacer que
el conjunto tenga una respuesta temporal con menor sobreoscilación.
Por otro lado, también en la ecuación 2.2 se aprecia que la parte no homogenea
de la ecuación diferencial no es un escalón, sino un escalón más un impulso. Ello
determina que el sistema responda más rápidamente ya que no sólo es sensitivo
a la referencia, sino que también lo es a su variación. Todo se pone de manifiesto
observando las figuras 2.4.
De lo anterior se desprenden las dos caracterı́sticas esenciales de una acción
PD :
1. Disminución de la sobreoscilación
2. Disminución del tiempo de subida
Estos efectos se han considerado para un caso particular y especialmente simple, el de un servomecanismo elemental de posición. Sin embargo son igualmente
válidos, en general, para una amplia variedad de sistemas fı́sicos.
2.3
Acción proporcional más integral (PI).
En este caso, la señal de mando es la suma de un término proporcional y otro
integral, de la señal de error.
u(t) = K e + Ki
Z t
0
e dt
Sea un sistema como el de la figura 2.5, al que se le ha incorporado una acción
integral en paralelo con la acción proporcional, es decir, se le ha dotado de una
acción PI.
Introducción a los sistemas realimentados
23
y
y
r
(a)
t
e
(b)
f
t
de
dt
(c)
t
e+
de
dt
(d)
g
y
t
y
r
(e)
t
Figura 2.3: Compensación con PD.
Introducción a los sistemas realimentados
24
respuesta a Kr
y
r
(a)
respuesta a Kd dr
dt
t
y
respuesta a Kr + Kd dr
dt
r
(b)
t
Figura 2.4: Respuesta temporal con red PD.
Ki
+
R
+
e
−
G(s)
K
θ
+
Figura 2.5: Diagrama de un sistema con regulación PI
Introducción a los sistemas realimentados
25
Supóngase que a dicho sistema, en un régimen estacionario, se le aplica un par
externo Pe sobre la carga, es decir, sobre el eje de salida. El sistema reaccionará
tratando de anular dicho par puesto que la aplicación del mismo, determina la
aparición de un error, el cual alimenta al motor y le obliga a sumintrar un par
creciente con el tiempo. Si la acción de la red fuese sólo proporcional, es claro
que el equilibrio se alcanzaria cuando el par generado por el motor fuese igual al
aplicado externamente.
Interesa ver con cierto detenimiento lo que ocurre cuando la acción de mando
es del tipo PI. Para ello, en primer lugar, se establecen las ecuaciones que rigen
la evolución del sistema y que resultan ser
J
Z t
d2 y
dy
+
f
+
P
=
Ke
+
K
e dt
e
i
dt2
dt
0
siendo Pe el par externo aplicado y e = r − y
Eliminado y se tiene
Z t
d2 r
d2 e
dr
de
Pe + J 2 − J 2 + f
−f
= Ke + Ki
e dt
dt
dt
dt
dt
0
Z t
d2 r
dr
d2 e
de
Pe + J 2 + f
= J 2 + f + K e + Ki
e dt
dt
dt
dt
dt
0
Si la referencia es un escalón, se tendrá que
dr
=0
dt
y
d2 r
=0
dt2
En el régimen permanente, cuando t → ∞, si la introducción del integrador
no ha hecho inestable al sistema, se tendrá que
de
=0
dt
y
con lo cual,
Pe = K ep + Ki
d2 e
=0
dt2
Z ∞
0
e dt
Introducción a los sistemas realimentados
26
Como Pe es finito, la única formaR de que se cumpla la ecuación anterior es
que ep = 0 ya que en caso contrario, 0∞ edt → ∞. En consecuencia, el sistema
reacciona eliminando el error en regimen permanente (ep ).
Por lo dicho, una red PI mejora considerablemente el régimen permanente, no
sólo de una manera cuantitativa, sino esencialmente cualitativa por cuanto que
cambia el tipo del sistema, es decir, no es que el sistema se mejore, sino que se
convierte en otro, de caracterı́sticas distintas.
La interpretación fı́sica del fenómeno es muy simple. La aplicación del par
externo Pe , tiende a separar la posición del eje de salida del valor en que la
ha fijado la señal de referencia (figura 2.6.a). Ello trae consigo la aparición del
consiguiente error (figura 2.6.b).
Si la señal de actuación sobre el sistema es proporcional al error, más su
integral, se aplica una señal tal como la que se muestra en la figura 2.6.d. El
fenómeno que se produce entonces puede interpretarse diciendo que el par del
motor empezará a crecer hasta que vence al que se aplica exteriormente. La
evolución del error y de la señal de salida se muestran en las figuras 2.6.e y 2.6.f.
Obsérvese cómo es el elemento integrador el que mantiene la señal sobre el motor
para que éste venza al par exterior.
Introducción a los sistemas realimentados
27
r
θ
a)
t
e
b)
z
t
R
edt
c)
t
e+
R
edt
d)
t
R
e
edt
e)
z
t
r
θ
f)
t
Figura 2.6: Respuesta temporal a red PI
Tema 3
Sistemas dinámicos lineales
3.1
Transformación de Laplace
En esta sección vamos a repasar la transformada de Laplace que suministra una
herramienta de gran interés para el estudio de los sistemas cuya descripción
matemática viene dada por ecuaciones lineales invariantes en el tiempo.
3.1.1
Definición
El método de la transformada de Laplace es un método opcional que puede utilizarse con ventaja para la resolución de ecuaciones diferenciales lineales. La
transformada de Laplace se define como:
L [f (t)] = F (s) =
Z ∞
0
f (t)e−st dt
f (t) es una función del tiempo tal que f (t) = 0 para t < 0, s = σ + jw una
variable compleja y L un simbolo operacional. La existencia de la transformada
F (s) está condicionada a la convergencia de la integral.
Si existe una constante real y positiva σ tal que para σ > σc , e−σt | f (t) |
tiende a cero cuando t → ∞, mientras que para σ < σc tiende a infinito. El
valor σc recibe el nombre de abscisa de convergencia. La integral converge, y por
tanto existe la transformada de Laplace, si la parte real de s, (σ) es mayor que la
28
Sistemas dinámicos lineales
29
abscisa de convergencia σc .
En término de los polos de la función F (s), la abscisa de convergencia σc ,
corresponde a la parte real del polo más alejado hacia la derecha en el plano s.
A la función f (t) se la conoce como la anti-transformada de Laplace, F (s) y
se expresa ası́,
f (t) = L−1 [F (s)]
En la tabla siguiente se tienen las transformadas de Laplace de las funciones
más usuales en automática.
Tabla de Transformadas de Laplace
Señal
Impulso
Escalon
Rampa
Parábola
Rampa de orden n
Decrecimiento exponencial
Onda sinusoidal
Onda cosenoidal
Sinusoide con decrecimiento exponencial
Cosenoide con decrecimiento exponencial
3.1.2
f (t)
δ(t)
1 (t ≥ 0)
t(t ≥ 0)
2
t (t ≥ 0)
tn (t ≥ 0)
e−αt
senωt
cosωt
−αt
e senωt
e−αt cosωt
F (s)
1
1
s
1
2
s
2
s3
n!
sn
1
(s+α)
ω
(s2 +ω 2 )
s
(s2 +ω 2 )
ω
((s+α)2 +ω 2 )
s+α
((s+α)2 +ω 2 )
Resumen de Propiedades
F1 (s)+
1. Linealidad: Si F1 (s) y F2 (s) son las transformadas de f1 (t) y f2 (t),
F2 (s) es la transformada de Laplace de f1 (t) + f2 (t), según se desprende de
la definición.
2. Derivación real: Si L [f (t)] = F (s), entonces
"
#
df (t)
= sF (s) − f (0)
L
dt
Sistemas dinámicos lineales
30
R∞
En efecto, como F (s) =
haciendo
0
f (t) e−st , realizamos la integración por partes
Z
1
e−st dt = − e−st y dv = e−st dt
s
0
u = f (t) ; du = f (t) dt ; v =
Z
Z
u dv = uv −
vdu
por lo que resulta,
Z ∞
0
F (s) =
"
−st
f (t) e
f (t)e−st
dt = −
s
#∞
f (0) 1 Z ∞ 0
+
f (t) e−st dt,
s
s 0
−
Z ∞
0
1
− e−st f 0 (t)dt =⇒
s
0
Z ∞
pero
f 0 (t) e−st dt = L [f 0 (t)]
0
luego:
L [f 0 (t)] = sF (s) − f (0) c.q.d.
3. Integración real: Si L [f (t)] = F (s),
L
·Z t
¸
F (s)
f (τ ) dτ =
+
s
0
Si en la expresión F (s) =
R∞
0
R
f (0) dt
s
f (t) e−st dt se hace:
u = e−st ; du = −se−st dt
Z
v=
f (t) dt;
dv = f (t)dt
se tiene que,
F (s) =
Z ∞
0
·
st
¸∞
Z
−st
f (t)e dt = e
f (t)dt
−
0
Z
=−
f (0)dt + s
Z ∞ ·Z
0
Z ∞
0
·Z
−st
−se
¸
f (t)dt e−st dt ;
¸
f (t)dt dt =
Sistemas dinámicos lineales
y como
31
Z ∞ ·Z
¸
f (t)dt e
0
·Z
·Z
−st
dt = L
¸
F (s)
f (t)dt =
+
s
L
R
¸
f (t)dt =⇒
f (0)dt
c.q.d.
s
4. Teorema del valor final:
Hay veces en que hechas las operaciones precisas con la ecuación transformada, interesa conocer el valor de la función f (t) cuando t → ∞, que
en el caso de un servosistema, corresponderı́a al régimen permanente. El
procedimiento consistirı́a en hallar la antitransformada y hacer que t → ∞.
El procedimiento es laborioso y resulta mucho más cómodo verificar el valor
de la variable sobre la propia ecuación transformada.
Supondremos que existe L [f (t)] y L [f 0 (t)] y demostraremos que,
lim f (t) = lim sF (s)
t→∞
s→0
Sabemos que
Z ∞
0
f 0 (t)e−st dt = sF (s) − f (0)
lim
Z ∞
s→0
pero lim
s→0
Z ∞
0
0
haciendo que s → 0
f 0 (t)e−st dt = lim [sF (s) − f (0)]
(3.1)
s→0
f 0 (t)e−st dt =
Z ∞
0
f 0 (t)dt = lim
Z t
t→∞ 0
= lim [f (t) − f (0)]
t→∞
y sustituyendo en 3.1, se tiene,
lim [f (t) − f (0)] = lim [sF (s) − f (0)]
t→∞
s→0
y como f (0) no depende de t ni de s, queda,
lim f (t) = lim sF (s) c.q.d.
t→∞
s→0
f 0 (τ )dτ =
Sistemas dinámicos lineales
32
5. Teorema del valor inicial:
Si lo que nos interesa conocer del sistema es su comportamiento cuando
t → 0, que corresponderı́a en un servosistema a conocer su comportamiento
transitorio, se puede hallar también sobre la ecuación transformada, ya que
lim f (t) = s→∞
lim sF (s)
t→0
Al igual que antes, en la expresión
L [f 0 (t)] =
Z ∞
f 0 (t)e−st dt = sF (s) − f (0) hacemos que s → ∞
0
lim
Z ∞
f 0 (t)e−st dt = lim [sF (s) − f (0)]
s→∞
s→∞ 0
y como el primer miembro es cero, lims→∞ sF (s) = lims→∞ f (0) = f (0) ya
que f (0) no depende de s y como f (0) es limt→0 f (t) quedará
lim f (t) = lim sF (s) c.q.e.
s→∞
t→0
6. Integral de Convolución:
Sean
F1 (s) = L [f1 (t)]
y
F2 (s) = L [f2 (t)]
El producto de ambas,
F1 (s) ∗ F2 (s) =
=
Z ∞
0
f1 (t)e
Z ∞ Z ∞
0
0
−st
dt
Z ∞
0
f2 (τ )e−sτ dτ =
(3.2)
f1 (t)f2 (τ )e−s(t+τ ) dt dτ
Haciendo el cambio de variables,
t = u−v
τ =
v
v =
τ
u = t+τ
el Jacobiano de la transformación vale,
¯
¯
t, τ
¯
J(
) = ¯¯
u, v
∂t
∂u
∂τ
∂u
∂t
∂v
∂τ
∂v
¯
¯
¯
¯
¯ 1 −1 ¯
¯
¯
¯
¯=¯
¯=1
¯
¯ 0
1 ¯
(3.3)
Sistemas dinámicos lineales
33
Como t > 0, u > v luego v viariará de 0 a u.
La ecuación 3.3 queda
F1 (s) ∗ F2 (s) =
=
Z ∞ Z u
Z0∞ ·Z0 u
0
f1 (u − v) f2 (v)e−su dv du =
¸
f1 (u − v) f2 (v)dv e−su du
0
luego
F1 (s) ∗ F2 (s) = L
·Z u
0
¸
f1 (u − v) f2 (v) dv
La expresión encerrada en el corchete se conoce como integral de convolución
y representa la antitransformada del producto de dos transformadas.
3.1.3
Calculo de antitransformadas
Con el cálculo de antitransformadas se pretende determinar a partir de la transformada de Laplace F(s) la correspondiente antitransformada; es decir,
f (t) = L−1 [F (s)]
La transformada posee sólo polos reales y simples
Supongase que el denominador de la función de la que se quiere hallar la antitransformada, F (s), es de la forma
d(s) = (s + p1 )(s + p2 ) . . . (s + pn )
de modo que los diferentes pi son reales y diferentes entre si. En tal caso la
función F (s) admite una descomposición en fracciones simples de la forma
F (s) =
n(s)
a1
a2
an
=
+
+ ... +
d(s)
s + p1 s + p2
s + pn
los coeficientes ai reciben la denominación de residuos de F (s) en s = −pi . Multiplicando los dos miembros de la expresión anterior por (s+pi ) y haciendo s = −pi
se tiene
Sistemas dinámicos lineales
34
"
n(s)(s + pi )
ai =
d(s)
#
s=−pi
puesto que se sabe, de la tabla de transformadas, que
"
L
−1
#
ai
=
= ai e−pi t
(s + pi )
se tiene que
f (t) = a1 e−p1 t + a2 e−p2 t + . . . an e−pn t
En esta expresión se pone de manifiesto que a cada pi se asocia una función
(una trayectoria o un comportamiento) de la forma e−pi t . Estas funciones reciben
la denominación de modos naturales del sistema. Se dice que un modo natural es
asintóticamente estable si pi ≥ 0.
Ejemplo Sea la transformada de Laplace
F (s) =
(s + 3)
(s + 1)(s + 2)
se tiene que los residuos resultan ser
"
(s + 3)
a1 =
(s + 2)
"
(s + 3)
a2 =
(s + 1)
#
=2
s=−1
#
= −1
s=−2
luego
f (t) = 2e−t − e−2t t ≥ 0
La transformada posee polos complejos
Supongamos ahora que la transformada de Laplace posee un par de polos complejos conjugados p1 y p¯1 . En tal caso la descomposición en fracciones simples
tomará la forma:
Sistemas dinámicos lineales
F (s) =
35
n(s)
α1 s + α2
a3
an
=
+
+ ... +
d(s)
(s + p1 )(s + p̄1 ) s + p3
s + pn
Si se multiplican los dos miembros de esta expresión por (s + p1 )(s + p¯1 ), y se
hace s = −p1 , se tendrá:
"
(α1 s + α2 )s=−p1
n(s)(s + p1 )(s + p̄1 )
=
d(s)
#
s=−pi
Esta expresión permite determinar α1 y α2 igualando partes reales e imaginarias.
Para hallar la antitransformada correspondiente al término asociado al par
complejo basta recordar que:
"
L1
"
L1
#
ω
= e−αt senωt
((s + α)2 + ω 2 )
#
s+α
= e−αt cosωt
((s + α)2 + ω 2 )
En concreto, si se supone:
p1 = a + jω y p¯1 = a − jω
se tendrá
α1 s + α2
α1 s + α2
=
=
(s + p1 )(s + p̄1 )
(s + a + jω)(s + a − jω)
"
#
"
#
s+a
(α2 − α1 a)
ω
α1
+
((s + a)2 + ω 2 )
ω
((s + α)2 + ω 2 )
Ejemplo
Sea la transformada de Laplace
F (s) =
(s + 1)
s(s2 + 2s + 2)
Sistemas dinámicos lineales
Se tiene:
36
"
(s + 1)
a3 =
2
(s + 2s + 2)
#
=
s=0
1
2
Por tanto,
11 1
s
− 2
2 s 2 s + 2s + 2
11 1
s
=
−
2 s 2 (s + 1)2 + 1
11 1
s+1
1
1
=
−
+
2
2 s 2 (s + 1) + 1 2 (s + 1)2 + 1
F (s) =
De donde se tiene,
f (t) =
1 1 −t
1
− e cosωt + e−t senωt t ≥ 0
2 2
2
La transformada posee polos múltiples
Supóngase que una de las raices del polinomio del denominador de la transformada
de Laplace es múltiple. Por ejemplo, supóngase que la raiz p1 tiene multiplicidad
r. En tal caso el denominador admitirá la descomposición:
d(s) = (s + p1 )r (s + p2 ) . . . (s + pn )
En tal caso, la transformada de Laplace admite la descomposición:
F (s) =
n(s)
br
br−1
b1
a2
an
=
+
+ ... +
+
+ ... +
r
r−1
d(s)
(s + p1 )
(s + p1 )
s + p1 s + p2
s + pn
Si se multiplican los dos miembros de esta expresión por (s + p1 )r se tendrá:
"
n(s)(s + p1 )r
bi =
d(s)
#
s=−p1
Obsérvese que
r
r−1
(s+p1 ) F (s) = br +br−1 (s+p1 )+. . .+b1 (s+p1 )
an (s + p1 )r
a2 (s + p1 )r
+. . .+
+
s + p2
s + pn
derivando esta expresión con respecto a s se tiene
Sistemas dinámicos lineales
37
d
[(s + p1 )r F (s)] = br−1 + 2br−2 (s + p1 ) . . . + (r − 1)b1 (s + p1 )r−2 +
ds
"
#
"
d a2 (s + p1 )r
d an (s + p1 )r
+ ... +
ds
s + p2
ds
s + pn
#
y haciendo en esta expresión s = −p1 se tiene
d
[(s + p1 )r F (s)]s=−pi = br−1
ds
Derivando de nuevo con respecto a s y procediendo análogamente se tiene
br−2 =
1 d2
[(s + p1 )r F (s)]s=−p1
2 ds2
En general se tendrá
br−j
1 dj
=
[(s + p1 )r F (s)]s=−p1
j
j! ds
Ejemplo
Sea
F (s) =
s2 + s + 2
(s + 1)3
que se desconpone
F (s) =
b3
b2
b1
+
+
3
2
(s + 1)
(s + 1)
(s + 1)
Se tendrá
b3 = [s2 + s + 2]s=−1 = 2
b2 = [2s + 1]s=−1 = −1
b1 = 1
Por tanto
F (s) =
2
1
1
−
+
(s + 1)3 (s + 1)2 (s + 1)
De donde se tiene,
f (t) = (t2 − t + 1)e−t
Sistemas dinámicos lineales
3.2
38
Noción de sistema dinámico.
Uno de los conceptos básicos empleados en automática es el de sistema. En el
lenguaje ordinario se entiende por sistema una colección de objetos unidos por
cierta forma de interacción o interdependencia. En el contexto de la automática
el concepto de sistema adquiere un significado más preciso.
Considérese un objeto fı́sico, α, por ejemplo un motor eléctrico, al cual aparecen asociadas una serie de magnitudes, como pueden ser su velocidad de giro, la
intensidad que alimente el inducido, etc. Desde el punto de vista que interesa en
automática lo que conviene de α son las relaciones matemáticas entre las distintas magnitudes m1 (t), m2 (t)...mn (t) que se asocian a dicho objeto fı́sico. Estas
relaciones constituyen un objeto abstracto, por abstracción de unas caracterı́sticas
de un objeto fı́sico.
En automática los objetos fı́sicos que intervienen son tales que las magnitudes
fı́sicas que a ellos se asocian se pueden clasificar en dos grupos:
1. magnitudes cuyo valor puede ser variado directamente desde el exterior del
objeto fı́sico, que reciben el nombre de señales de entrada, de control, de
mando o estı́mulos; y
2. magnitudes cuyo valor puede ser medido pero cuya variación es indirecta,
a través de las señales de entrada, y que reciben el nombre de señales de
salida, de observación o respuestas.
Para denotar a las señales de entrada se emplea u(t), y para las señales de salida
se emplea y(t), siendo, en general, u(t) e y(t) vectores.
P
Se entiende por sistema
el objeto abstracto formado por las relaciones que
ligan las señales u(t) e y(t). Un sistema se presenta en forma esquemática como se
hace en la figura 3.1, representación que recibe el nombre de diagrama funcional
del sistema. Definido ası́ un sistema representa una formalización del uso vulgar
de este término.
El problema de la representación matemática de los sistemas se reduce a
encontrar la forma matemática, bien sea una ecuación o, de forma más general,
un algoritmo, que permita generar los pares de señales u(t), y(t) que definen el
sistema.
Las señales u(t) e y(t) pueden registrarse o bien de una manera contı́nua en el
Sistemas dinámicos lineales
39
Σ
u(t)
y(t)
Figura 3.1: Sistema dinámico
tiempo, o bien de una forma discontı́nua, es decir tomando medidas cada cierto
intervalo de tiempo. En el primer caso se tienen los llamados sistemas en tiempo
contı́nuo y en el segundo los sistemas en tiempo discreto. Estos últimos tienen
un particular interés práctico cuando se emplean computadores puesto que estas
máquinas trabajan de una forma discreta.
3.3
Formas de las relaciones entrada-salida en
sistemas.
Se ha indicado en la sección 3.2, que un sistema está formado por las relaciones
matemáticas que ligan las señales u(t) e y(t) que lo definen. En esta sección se
van a considerar algunas formas matemáticas de las relaciones que ligan a las
señales u(t) e y(t) en tipos de sistemas comúnmente encontrados en la práctica.
Sin embargo, en el resto de estos apuntes sólo se estudiará una de las clases
consideradas en esta sección. Una posible primera clasificación elemental de las
relaciones que ligan a las señales de entrada y salida de los sistemas, es en sistemas
estáticos y sistemas dinámicos.
3.3.1
Sistemas estáticos.
El caso más simple de relación entre las señales u(t) e y(t) es aquél en que ésta se
reduce a una ecuación algébrica. Por una consideración elemental de realizabilidad fı́sica es claro que en tal caso se podrá escribir:
y(t) = F {u(t)}
(3.4)
en donde, para los casos de interés práctico F{.} es una función uniforme. Los
sistemas que admiten esta forma de representación reciben el nombre de sistemas
Sistemas dinámicos lineales
40
estáticos, y son aquéllos en los que el valor que toma la señal de salida y(t), en un
cierto tiempo t depende exclusivamente del valor tomado por la señal de entrada
u(t) en dicho instante de tiempo t, y no de los valores tomados por u(t) en el
pasado.
Los sistemas lógicos combinacionales, constituyen un ejemplo de sistemas
estáticos definidos por la propiedad de que las señales de entrada u(t) y salida
y(t) toman sus valores del conjunto finito U = Y = {0, 1}. Para la representación
matemática de los sistemas lógicos combinacionales se recurre a tablas en las que
se indican para cada combinación posible de los valores de las señales de entrada,
los correspondientes de la señales de salida. Desde un punto de vista matemático
estas tablas constituyen una de las formas más simples de representar una función.
3.3.2
Sistemas dinámicos
Normalmente las relaciones que ligan las magnitudes fı́sicas que definen un sistema no son ecuaciones algebraicas, que conducen a sistemas estáticos, sino ecuaciones diferenciales. Ello es debido a que la mayor parte de las leyes de la fı́sica
se expresan por medio de esta clase de ecuaciones.
Aquı́ se considerarán exclusivamente las ecuaciones diferenciales de la forma,
dn y
dy
dn u
+
...
+
a
+
a
(t)y
=
b
(t)
+ ... + bn (t)u
n−1
n
0
dtn
dt
dtn
(3.5)
llamadas ecuaciones diferenciales lineales. El hecho de limitarse a esta clase de
ecuaciones diferenciales es debido a:
1. sólo para esta clase de sistemas es posible establecer, en la actualidad, una
teorı́a que sea a la vez general y simple; y
2. al menos en una primera aproximación, gran parte de los sistemas encontrados en la práctica admiten esta forma de representación.
Cabe considerar que la teorı́a de sistemas lineales es a la teorı́a de sistemas nolineales, como la geometrı́a euclidea es a las formas de geometrı́a no-euclidea. Es
sabido que la geometrı́a euclı́idea es un útil de un interés práctico incuestionable;
lo mismo sucede con la teorı́a de los sistemas lineales.
Otra relación entre la entrada y salida de un sistema es la que presentan las
ecuaciones en diferencias finitas. De ellas las que mayor interés tienen son, por
Sistemas dinámicos lineales
41
consideraciones semejantes a las realizadas más arriba respecto a las ecuaciones
diferenciales lineales, las ecuaciones en diferencias finitas lineales cuya forma general es,
y(t+n)+...+am−1 y(t+1)+am y(t) = b0 u(t+n)+...+bn−1 u(t+1)+bm u(t) (3.6)
Los sistemas descritos por las ecuaciones en diferencias finitas son sistemas en
tiempo discreto, en los que la escala de tiempos toma sólo una serie de valores
discretos. Esta forma de relación se presenta en aquellas aplicaciones en las que
se emplean computadores.
Por último cabe recordar como otra forma de relación entre las señales de
entrada y salida de un sistema la que ofrecen los diagramas de estados de los
circuitos lógicos secuenciales (o, más general, de los autómatas). En dichos diagramas se tenı́a representada la evolución de las señales de entrada u(t) y de salida
y(t) de un sistema cuya caracterı́stica adicional es que las señales de entrada y
de salida sólo podrı́an tomar sus valores de un conjunto finito.
Los sistemas descritos por ecuaciones diferenciales, por ecuaciones en diferencias finitas, o por diagramas de estados reciben la denominación de sistemas
dinámicos y en ellos el valor tomado por la señal de salida y(t), en un cierto
instante de tiempo t depende del valor tomado por u(t), no sólo en el instante t
(como sucedı́a en los estáticos), sino en todos los instantes anteriores a t.
En ellos, por lo tanto, la consideración del tiempo juega un papel esencial. De
ahı́ la denominación de dinámicos. Obsérvese que los sistemas estáticos pueden
considerarse como una forma particular y degenerada de los dinámicos por lo que
son estos últimos los únicos que se consideran en lo que sigue.
En estos apuntes no se tratarán explı́citamente, los sistemas lógicos secuenciales. No obstante si éstos son lineales son susceptibles de ser estudiados con las
técnicas aquı́ desarrolladas. Sin embargo, ello no se hará aquı́ de forma explı́cita.
La forma de representación de los sistemas dinámicos por ecuaciones diferenciales, o por ecuaciones en diferencias finitas, no tiene interés práctico para el
desarrollo de la automática. Para el estudio de los sistemas dinámicos se han desarrollado dos formas peculiares de representación, que son la descripción externa
y la descripción interna que se pasan a estudiar a continuación.
Sistemas dinámicos lineales
3.4
42
Descripción externa de los sistemas dinámicos.
Puesto que las señales que definen un sistema dinámico son las de entrada u(t) y
las de salida y(t) interesa disponer de una relación explicita directa entre ambas.
Esta relación la suministra la descripción externa que se define por una función
de entrada-salida F tal que hace corresponder al conjunto de valores tomados por
la señal de entrada u en un cierto intervalo (t0 , t), el valor tomado por la salida
y(t) en el instante t. Formalmente se puede escribir,
y(t) = F (u[t0 , t])
(3.7)
en donde F (.) es un funcional, es decir una función cuyo argumento lo constituye
el conjunto de valores tomados por u(t) en el intervalo (t0 , t).
Desde el punto de vista de la descripción externa un sistema dinámico lineal
se define cono áquel que cumple la propiedad de linealidad, en virtud de la cual,
F (α1 u1 [t0 , t] + α2 u2 [t0 , t]) = α1 F (u1 [t0 , t]) + α2 F (u2 [t0 , t])
en donde α1 , α2 son números reales arbitrarios. Esta propiedad recibe también,
impropiamente, la denominación de principio de superposición.
Habitualmente se emplean dos formas de descripción externa: la respuesta
impulsional y la función de transferencia.
3.4.1
Respuesta impulsional.
Una forma de escribir la solución a una ecuación diferencial como la de la expresión (3.5) es la siguiente:
y(t) =
Z t
−∞
h(t, τ )u(τ )dτ
(3.8)
en donde h(t, τ ) recibe el nombre de respuesta impulsional del sistema. La expresión (3.8) es una forma de descripción externa de un sistema dinámico ya que
corresponde al caso de una función lı́neal.
La respuesta impulsional de un sistema puede tener las siguientes propiedades:
Sistemas dinámicos lineales
43
1. Propiedad de causalidad o realizabilidad, en virtud de la cual un efecto
no puede preceder a una causa, lo que implica que
h(t, τ ) = 0
para
t<τ
2. Propiedad de estabilidad, en virtud de la cual la estabilidad del sistema
exige la convergencia de (3.8), lo que se traduce en
lim h(t, τ ) = 0
t→∞
3. Propiedad de estacionaridad, en virtud de la cual el sistema es invariante
con el tiempo, lo que se traduce en que
h(t, τ ) = h(t − τ, 0) = h(t − τ )
Ejemplo:
Sea el sistema dinámico descrito por la ecuación diferencial,
dy
+ ay = bu
dt
En donde a y b son dos números reales. La solución de esta ecuación de la
forma de la expresión (3.8) es la siguiente,
y(t) =
Z t
−∞
e−a(t−τ ) b u(τ )dτ
En donde la respuesta impulsional h(t, τ ) = be−a(t−τ ) , es claro que cumple las
propiedades de causalidad, estabilidad y estacionaridad.
La respuesta impulsional admite un significado adicional muy preciso. Supóngase
un sistema con una sola entrada y una sola salida. Supóngase, además, que dicho
sistema se somete a la siguiente señal de entrada:
u(t) = δ(t1 )
en donde δ(t) es la función de Dirac. En tal caso se tiene que,
y(t) = h(t, t1 )
44
y(t)
Sistemas dinámicos lineales
t
Figura 3.2: Respuesta Impulsional
si el sistema no es estacionario o
y(t) = h(t − t1 )
si el sistema es estacionario.
En la figura 3.2 se muestra la respuesta impulsional del sistema del ejemplo
anterior. De lo anterior se desprende que la respuesta impulsional de un sistema es determinable experimentalmente en la medida en que se pueda realizar
fı́sicamente una señal de entrada u(t) = δ(t). Es sabido que esta última no tiene
significado fı́sico, pero sin embargo se pueden concebir aproximaciones aceptables. Debe añadirse que en la práctica como realmente se miden las respuestas
impulsionales es por las técnicas de correlación que no se van a tratar aquı́.
Para sistemas multivariables, con m entradas y p salidas, la respuesta impulsional es una matriz, de dimensión p × m, cuyo término hi,j representa la
respuesta del i-esimo canal de salida, cuando se aplica una entrada u(t) = δ(t) al
canal j-esimo, siendo nulas el resto de las entradas.
3.4.2
Función de transferencia.
Para los sistemas lineales estacionarios existe una forma de descripción externa
muy empleada en la práctica: la función (matriz) de transferencia. Se puede
Sistemas dinámicos lineales
45
definir la función de transferencia como la transformada de Laplace de la respuesta
impulsional de un sistema.
H(s) =
Z ∞
0
h(τ )e−τ s dτ
(3.9)
Aplicando la transformación de Laplace a la expresión (3.8), para el caso de
un sistema estacionario, se tiene
Y (s) = H(s) U (s)
(3.10)
en donde Y (s) y U (s) son, respectivamente, las transformadas de Laplace de las
señales de entrada y salida.
En la práctica la función de transferencia se determina directamente a partir
de la ecuación diferencial. Un punto muy importante a considerar es que esta
determinación se hace suponiendo condiciones iniciales nulas para las señales u(t)
e y(t).
Ejemplo:
Sea el sistema descrito por la ecuación diferencial,
d2 y
dy
+
a
+ a2 y = bu
1
dt2
dt
La transformada de Laplace de los distintos términos de la ecuación es la
siguiente,
s2 Y (s) + a1 sY (s) + a2 Y (s) = bU (s)
Con lo que se tiene,
b
Y (s)
= H(s) = 2
U (s)
s + a1 s + a2
es decir que la transformación de Laplace de la respuesta impulsional es la
función de transferencia.
Para el caso de sistemas multivariables con m entradas y p salidas la función de
transferencia se convierte en una matriz cuyo término Hij representa el cociente
Sistemas dinámicos lineales
46
entre la transformada de Laplace de la señal de salida que se obtiene por el canal
i y la transformada de Laplace de la señal de entrada que se aplica al canal j,
supuestas nulas las otras señales de entrada.
3.5
Sistemas de control realimentados
Un sistema de control realimentado se representa esquemáticamente como se indica en la figura 3.3. Sobre este esquema vamos a recordar una serie de conceptos
que consideramos de interés.
r(t) + º·
e
¡
-@
@¡
¡
@
¡
@
¹¸
− 6m
u
K
y(t)
-
H(s)
G(s)
-
¾
Figura 3.3: Sistema de Control realimentado
• Cadena directa o de acción, es la que une los elementos comprendidos
entre la señal de error y la de salida. Ambas señales están relacionadas por
la expresión,
Y (s)
= KG(s)
E(s)
siendo G(s) la función de transferencia del sistema considerado.
• Cadena de realimentación, es la que une la señal de salida con la de
información m(t), que es comparada con la de referencia. Ambas señales se
relacionan ası́,
Sistemas dinámicos lineales
47
M (s)
= H(s)
Y (s)
En este caso H(s) es la función de transferencia de la cadena de realimentación.
• Se llama bucle abierto, al conjunto de elementos que constituyen todo
el sistema, si este se abriese por el punto m(t), es decir, como si la señal
de entrada fuese e(t) y la de salida m(t). La función de transferencia del
conjunto ası́ dispuesto serı́a
M (s)
= KG(s)H(s)
E(s)
• Se llama bucle cerrado, al sistema conectado como se indica en la figura
3.3. Las señales y(t) y r(t) se relacionan por la conocida fórmula, fácil de
deducir,
Y (s)
KG(s)
=
R(s)
1 + KG(s)H(s)
Obsérvese que, en este caso, la señal de actuación sobre el sistema es proporcional a la señal de error. Se trata pues de un control proporcional (P).
El valor de la ganancia K del amplificador será, por tanto, un parámetro
susceptible de ser variado de acuerdo con las necesidades del problema.
En lo que sigue se supondra siempre que la cadena de realimentación es
unitaria, con lo que el esquema fundamental quedará de la forma que se
indica en figura 3.4 y quedando la función de transferencia en bucle cerrado
reducida a
Y (s)
KG(s)
=
R(s)
1 + KG(s)
Naturalmente en este caso cadena de acción y bucle abierto son dos conceptos coincidentes.
Por el hecho de introducir una compensación sobre el bucle antes mencionado,
el esquema se modifica de alguna manera, como se muestra más adelante. Se
distinguen dos tipos de compensación:
Sistemas dinámicos lineales
48
r(t) + º·
e
u
¡
@¡
-@
¡@
¡
@
¹¸
− 6m
y(t)
-
K
-
G(s)
Figura 3.4: Sistema de Control realimentado unitariamente
• Compensación en serie: Cuando el elemento corrector se coloca en cascada,
en la cadena de acción; y
• Compensación por realimentación: Cuando el elemento corrector constituye
una segunda cadena de realimentación, en el bucle de control.
Los esquemas básicos para uno y otro caso se muestran, respectivamente, en
las figuras 3.5 y 3.6.
u0
r(t) + ¶³
e
µ´
− 6m
Gr (s)
-
u
K
-
y(t)
G(s)
Figura 3.5: Compensación en serie
Como ya se ha indicado, en el caso de la compensación en serie, la red correctora se coloca en cascada con los elementos de la cadena de acción, y delante del
-
Sistemas dinámicos lineales
49
r(t) + º·
e º·
¡ -@
¡
-@
@¡
@¡
¡@
¡@
¡
@
¡
@
¹¸
¹¸
6
− 6m
u
K
y(t)
-
Gr (s)
G(s)
¾
Figura 3.6: Compensación por realimentación
amplificador para que el nivel de potencia a que trabaje sea el del error, es decir,
bajo.
-
Tema 4
Interpretaciones de la función de
transferencia
4.1
Transformación de Fourier
Dada una función del tiempo periódica fT (t) de periodo T , se puede desarrollar
en serie de Fourier, de la forma:
fT (t) = a0 +
∞
X
(an cos wn t + bn sen wn t)
n=1
donde wn =
2πn
y los coeficientes vienen dados por:
T
2 Z T /2
an =
fT (t)cos wn tdt
T −T /2
bn =
2 Z T /2
fT (t)sen wn tdt
T −T /2
n = 0, 1, 2, ...
n = 1, 2, ...
supuesto que dichas integrales sean finitas.
Los coeficientes an y bn son funciones de wn , pero no del tiempo, por lo
que fT (t) queda definida mediante los módulos de los componentes armónicos
50
Interpretaciones de la función de transferencia
51
que lo integran; ahora bien, tomando como parámetros, por agrupación de las
componentes en seno y coseno de igual frecuencia los valores:
Ã
q
cn =
ϕn = tag −1
a2n + b2n
bn
an
!
cada término puede expresarse como
an cos wn t + bn sen wn t = cn sen(wn t + ϕn )
Por lo tanto, para definir fT (t) basta con especificar la amplitud y el desfase
que corresponde a cada frecuencia fundamental:
fT (t) = a0 +
∞
X
cn sen(wn t + ϕn )
n=1
Una vez que se ha mostrado como fT (t) queda completamente definida con
a0 , cn y ϕn , pueden considerarse las relaciones,
cosα =
ejα + e−jα
;
2
senα =
ejα − e−jα
2j
Entonces, volviendo a tomar las ecuaciones de definición,
an cos wn t + bn sen wn t = an
=
ejwn t + e−jwn t
ejwn t − e−jwn t
+ bn
=
2
2j
(an − jbn ) jwn t (an + jbn ) −jwn t
e
+
e
2
2
y efectuando análogas consideraciones con las integrales de definición de an y
bn
1 Z T /2
an − jbn
=
fT (t)e−jwn t dt
2
T −T /2
Interpretaciones de la función de transferencia
52
an + jbn
1 Z T /2
=
fT (t)ejwn t dt
2
T −T /2
n
n
Es decir an −jb
tiene una expresión idéntica a an +jb
sin más que cambiar wn
2
2
por − wn , esto es, n por -n, luego sustituyendo en el desarrollo en serie, puede
escribirse
#
"Z
∞
T /2
1 X
−jwn t
fT (t)e
dt ejwn t
fT (t) =
T n=−∞ −T /2
La cantidad entre corchetes representa una función compleja que tiene como
parámetro el valor imaginario j wn , toda vez que el tiempo desaparece al integrar.
Esta función recibe el nombre de Transformada de Fourier de la función temporal
periódica fT (t):
F (jwn ) =
Z T /2
−T /2
fT (t)e−jwn t dt
Es inmediato ver que, igual que cn y ϕn definı́an completamente fT (t), esta
función queda completamente definida conociendo F (jwn ), con lo que basta una
magnitud compleja para cada frecuencia:
fT (t) =
∞
1 X
F (jwn )ejwn t
T n=−∞
Ahora bien, como
wn =
luego
2πn
;
T
wn+1 − wn =
2π
= ∆wn
T
∞
1 X
fT (t) =
F (jwn )ejwn t ∆wn
2π n=−∞
Si se hace crecer el periodo indefinidamente, T → ∞, el sumatorio tiende a
la integral, ∆wn → dw, por lo que puede escribirse, finalmente, para una función
no periodica (Transformación de Fourier o Integral de Fourier):
F (jw) =
Z ∞
−∞
f (t)e−jwt dt
Interpretaciones de la función de transferencia
f (t) =
53
1 Z∞
F (jw)ejwt dw
2π −∞
Supuesto que la integral de Fourier sea convergente, para lo cual debe cumplirse
la condición de convergencia absoluta
Z ∞
| f (t) | dt < ∞
−∞
Esta transformación o integral de Fourier permite expresar de forma análitica
muchas funciones no periódicas, y de interés especial, que no son expresables
mediante series de Fourier. Tal es, por ejemplo, el caso de la función
(
f (t) =
e−at t > 0
(a > 0)
0 t<0
La convergencia está asegurada por:
Z ∞
−∞
| f (t) | dt =
Z t
0
"
−at
e
−e−at
dt =
a
#∞
=
0
1
<∞
a
y la transformada:
F (jw) =
Z ∞
−∞
f (t)e
−jwt
dt =
Z ∞
0
e−(a+jw)t dt =
1
a + jw
Sin embargo, y aunque en muchos casos la Transformada de Fourier es suficiente, en otros casos de interés tales como funciones de tipo polinómico en t no
son convergentes; por ejemplo, para el escalón unitario
(
f (t) = u0 (t) =
1
0
t>0
t<0
la convergencia resulta:
Z ∞
−∞
| u0 (t) | dt =
Z ∞
0
dt = ∞
Interpretaciones de la función de transferencia
54
y la transformada,
F (jw) =
Z ∞
0
"
e
−jwt
e−jwt
dt = −
jw
#∞
0
que sólo es convergente para w > 0.
4.2
Función de transferencia en el dominio de la
frecuencia
Si en la función de transferencia se hace s = jw ésta se convierte en una expresión
compleja H(jw) que tiene la notable propiedad de que, para un cierto valor
de la pulsación w, su módulo | H(jw) | y su argumento 6 H(jw) representan
precisamente la atenuación y el desfase que sufre una señal sinusoidal de frecuencia
f = 2π/w. Este hecho se ilustra en la figura 4.1.
H(jω) =| H | 6 ϕ
y(t)
ϕ
u(t)
|H|A
A
t
Figura 4.1: Respuesta en frecuencia
Ejemplo:
Considérese el sistema descrito por la ecuación diferencial,
dy
+ ay = bu
dt
t
Interpretaciones de la función de transferencia
55
sometido a una señal sinusoidal, de pulsación w y de amplitud unitaria. Es
sabido que esta señal se puede representar en forma compleja u(t) = ejwt . La
respuesta del sistema, en régimen estacionario, a la anterior señal de entrada es
la solución particular de la anterior ecuación diferencial la cual se comprueba
fácilmente que es,
y(t) =
b
ejwt
(jw) + a
Esta notable propiedad de la función de transferencia es la que ha justificado el amplio uso de la misma en el análisis y diseño de servomecanismos y
reguladores elementales. Nótese que esta propiedad lleva implı́cito un método
experimental de medida de la función de transferencia de un sistema dinámico.
Este método consiste, sencillamente, en la aplicación de señales sinusoidales de
distintas frecuencias, y en la medida, para cada una de ellas, de la atenuación y
del desfase que sufren al atravesar el sistema. La medida de la atenuación y del
desfase suministran el módulo y el argumento de H(jw) para el valor de w correspondiente. Existen unos equipos comerciales, denominados servoanalizadores,
concebidos para realizar esta función de medición de los sistemas dinámicos.
No debe, sin embargo, olvidarse que H(s) suministra información tanto sobre
el comportamiento en el dominio del tiempo (empleando las tablas de la transformada de Laplace) como de la frecuencia (gracias a la propiedad expuesta). De
ahı́ que la denominación representación frecuencial no sea del todo apropiada, o
en cualquier caso debe tomarse de forma matizada.
Tema 5
Sistemas dinámicos lineales de
primer orden
5.1
Introducción
Se denomina sistema lineal diferencial de primer orden de entrada u(t) y salida
y(t) al sistema regido por una ecuación diferencial de la forma
dy
+ ay = bu
dt
(5.1)
en donde a y b son dos constantes, denominadas coeficientes de la ecuación;
u(t) es una señal denominada señal de entrada o excitación; e y(t) es otra señal
denominada señal de salida del sistema. El conjunto se interpreta con un diagrama de bloques tal como el de la figura 5.1. La ecuación diferencial anterior
admite una solución única siempre que se fije el valor inicial de y(t). Este valor
inicial se denotará en lo que sigue por ξ. La ecuación (5.1) establece que la pendiente de y(t) en cada instante de tiempo, es una combinación lineal de los valores
que toma en este instante u(t) e y(t). En la figura 5.2 se muestran las evoluciones
de u(t) e y(t).
En la práctica se presentan múltiples sistemas que pueden ser representados
por una ecuación diferencial de primer orden. De hecho es una de las aproximaciones más sencillas que se pueden hacer del comportamiento dinámico de
un sistema. En el apartado 5.3 se presentan distintos sistemas que pueden ser
56
Sistemas dinámicos lineales de primer orden
57
representados por una ecuación diferencial de primer orden.
u(t)
y(t)
Figura 5.1: Sistema de primer orden (1)
5.2
Solución de la ecuación diferencial de primer
orden
Para el estudio de la solución de la ecuación diferencial de primer orden, conviene
distinguir dos casos:
5.2.1
Señal de entrada nula
En el supuesto de que la señal de entrada u(t) sea nula para todo t, la ecuación
diferencial de primer orden se convierte en
dy
= −ay
dt
y(0) = ξ
(5.2)
lo que constituye la parte homogénea de la ecuación diferencial de primer orden
de (5.1). La solución de esta ecuación puede obtenerse por integración directa
haciendo,
dy
= −a dt
y
cuya integración conduce a,
ln y(t) − ln y(0) = −at
Sistemas dinámicos lineales de primer orden
58
u
u(t)
t
y
dy(t)
dt
y(t)
t
ξ
Figura 5.2: Sistema de primer orden (2)
Sistemas dinámicos lineales de primer orden
59
lo que, teniendo en cuenta que y(0) = ξ, puede escribirse,
yh (t) = ξe−at
El subı́ndice h se refiere a que esta solución lo es de la parte homogénea de
(5.1).
Las figuras 5.3 y 5.4 muestran la forma general de la evolución de yh (t) según
que a sea, respectivamente, negativa o positiva. Estas figuras muestran cómo
se comporta un sistema en ausencia de excitación. Aparece una clara distinción
entre dos formas de comportamiento que permiten una primera clasificación de
los sistemas en estables o inestables, según que la evolución libre de los mismos
tienda a una estado de reposo o no.
y(t)
ξ
t
Figura 5.3: Primer orden divergente
5.2.2
Señal de entrada no nula
Se trata de resolver la ecuación diferencial (5.1) en el caso en que u(t) no sea
idénticamente nula. Para simplificar la notación se escribirá v(t) = b0 u(t), con
lo que la ecuación (5.1) se convierte en
dy
+ ay = v
dt
(5.3)
Sistemas dinámicos lineales de primer orden
60
y(t)
ξ
t
Figura 5.4: Primer orden convergente
Se trata de determinar qué función w(t) debe sumarse a la solución homogénea
yh (t) para obtener la solución de la ecuación (5.3). Es decir, se supone que y(t)
se descompone en,
y(t) = yh (t) + w(t)
(5.4)
lo que llevado a la ecuación (5.3) resulta,
d(yh + w)
+ a(yh + w) = v
dt
yh (0) + w(0) = ξ
dyh
dw
+ ayh +
+ aw = v
dt
dt
w(0) = ξ − yh (0)
es decir,
que, habida cuenta de la expresión (5.2), se puede escribir,
dw
+aw =v
dt
w(0) = 0
(5.5)
Por lo tanto la ecuación diferencial que satisface w(t) es exactamente la (5.1),
pero con una notable diferencia, y es que las condiciones iniciales para w(t) son 0.
Sistemas dinámicos lineales de primer orden
61
Es decir, la señal w(t) constituye la respuesta del sistema ante la señal de entrada
u(t) a partir del reposo.
La discusión anterior permite interpretar la expresión (5.4) diciendo que la
respuesta y(t) de un sistema dinámico lineal a una señal de entrada u(t) a partir
de un valor inicial y(0) puede considerarse como la suma de la respuesta del
sistema, a partir del valor inicial y(0), ante una señal de entrada nula más la
respuesta del sistema a la señal de entrada u(t) a partir del reposo. Es fácil ver
que w(t) viene dada por,
−at
w(t) = e
Z t
o
eaζ v(ζ)dζ
(5.6)
En efecto, en primer lugar es inmediato ver que w(0) = 0. Además sustituyendo la expresión (5.6) en la (5.5) se tiene que,
Z t
dw
d Z t aζ
= −a e−at
eaζ v(ζ)dζ + e−at
e v(ζ) dζ = −a w + v
dt
dt o
o
Combinando los anteriores resultados se tiene que la respuesta de un sistema
regido por una ecuación diferencial lineal de la forma (5.1) ante una señal de
entrada u(t) viene dada por,
−at
y(t) = e
−at
ξ+e
Z t
o
eaζ b u(ζ) dζ
(5.7)
A este mismo resultado se puede llegar empleando las técnicas basadas en
la transformada de Laplace, con las cuales se puede demostrar directamente de
una forma muy sencilla la expresión (5.6). Además, en las aplicaciones prácticas,
es de esta última forma como se procede. Sin embargo para un planteamiento
teórico más general, conviene desarrollar el estudio de los sistemas lineales como
se ha hecho anteriormente.
5.2.3
Respuestas a señales de entrada especiales
Se discuten a continuación las respuestas de un sistema diferencial lineal de primer
orden a señales de entrada que presentan especial interés en las aplicaciones como
son las señales en escalón, en rampa y sinusoidal.
Sistemas dinámicos lineales de primer orden
62
Señal de entrada en escalón
Se dice que un sistema se somete a una señal de entrada en escalón en el
instante inicial t = 0, si en dicho instante se somete el sistema a una variación
brusca de la señal de entrada permaneciendo ésta en un valor u(t) = constante.
En la figura 5.5 se representa una señal de entrada de esta forma. Si se supone
y(0) = ξ, u = 1, y teniendo en cuenta la expresión (5.7), se tendrá,
"
y(t) = e
−at
#
b
b
ξ + (eat − 1) = e−at ξ + (1 − e−at )
a
a
(5.8)
u
t
Figura 5.5: Entrada en escalón
En la figura 5.6 se representa la respuesta de un sistema lineal de primer orden
a una entrada en escalón.
y
ξ
t
Figura 5.6: Respuesta al escalón
Sistemas dinámicos lineales de primer orden
63
Para estudiar la respuesta en el tiempo de un sistema lineal de primer orden
a una entrada en escalón, es interesante escribir la ecuación diferencial de primer
orden de la forma siguiente:
τ
dy
+ y = Ku
dt
(5.9)
en donde τ = 1/a y K = b/a. Si se supone además, para simplificar, que ξ = 0
se tendrá que la expresión (5.8) se puede escribir,
t
y(t) = K(1 − e− τ )
(5.10)
La constante K recibe la denominación de ganancia estática del sistema,
puesto que representa la relación entre la señal de salida (y(t)) y la señal de
entrada (u(t)) para t → ∞. La constante τ que tiene una dimensión de tiempo,
se llama constante de tiempo del sistema.
El resultado (5.10) puede obtenerse de una forma más sencilla empleando la
transformada de Laplace. En efecto, la ecuación diferencial de un sistema de
primer orden viene dada por la expresión (5.1), y puesto que la transformada de
Laplace de una señal escalón es:
U (s) =
1
s
se tiene que la de la señal de salida será,
Y (s) =
K
A
B
= +
s(1 + τ s)
s
1 + τs
Las constantes A y B resultan ser:
¯
K ¯¯
A=
¯
=K
(1 + τ s) ¯s=0
¯
y
K¯
B = ¯¯
= −Kτ
s s=− τ1
con lo que se tiene Y (s), cuya antitransformada de Laplace resulta ser,
y(t) = L−1 [Y (s)] = K(1 − e−t/τ )
Sistemas dinámicos lineales de primer orden
64
es decir la expresión (5.1)
En la figura 5.7 se representa la respuesta a una entrada en escalón de un
sistema de primer orden de ganancia K y constante de tiempo τ .
1.0
0.9
0.8
0.7
y(t)/K
0.637
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.4
0.8
1.2
1.6
2.0
1/τ
2.4
2.8
3.2
3.6
4.0
Figura 5.7: Respuesta a un escalón unitario de un sistema de primer orden de
ganancia K y de constante de tiempo τ .
La constante de tiempo τ caracteriza la velocidad de respuesta del sistema, es
decir, la duración del régimen transitorio. Ello se pone de evidencia por las dos
consideraciones siguientes.
1. Existe una relación entre la constante de tiempo y la tangente y(t) en el
origen. En efecto de la expresión (5.10) se tiene,
dy
K −t
=
e τ
dt
τ
(5.11)
dy
K
(0) =
dt
τ
(5.12)
haciendo t = 0 se tiene,
lo cual puede interpretarse tal como se hace en la figura 5.8. Recuérdese
que se ha hecho u = 1.
Sistemas dinámicos lineales de primer orden
65
tgα =
K
K
τ
α
τ
Figura 5.8: Relación constante amplificación y tang.
2. haciendo t = τ se tiene que la constante de tiempo es el tiempo al cabo del
cual la señal de respuesta alcanza la fracción
1−
1
2
≈ 0.632 ≈
e
3
del valor final (figura 5.9)
K
0.64K
τ
Figura 5.9: Relación constante de tiempo y amplificación
Sistemas dinámicos lineales de primer orden
66
Observando la figura 5.7 se tiene que la respuesta de un sistema de primer
orden en una entrada en escalón alcanza su valor final con un error menor del 5
% para un tiempo ≈ 3τ .
En la figura 5.10 se representan las señales de respuesta a una entrada en
escalón para distintos sistemas lineales con diferentes constantes de tiempo.
τ2
τ3
τ3>τ2
Figura 5.10: Diferentes constantes de tiempo
En la práctica se presenta el problema de determinar el modelo matemático
de un sistema a partir del conocimiento de la respuesta del sistema a una entrada en escalón. En el caso de un sistema de primer orden, la determinación
de los parámetros K y τ que aparecen en la ecuación diferencial (5.9), resulta
extremadamente sencilla a partir de la respuesta del sistema a una entrada en escalón. En efecto, de acuerdo con la figura 5.7 el valor de la constante de tiempo τ
se determina midiendo la abscisa correspondiente a la ordenada que sea el 63,2%
del valor alcanzado por el sistema en régimen estacionario. La constante estática
K es sencillamente el cociente entre el valor alcanzado por la respuesta en régimen
estacionario y la amplitud de la entrada en escalón.
Señal de entrada en rampa
Supóngase una señal de entrada en rampa, es decir, una señal de entrada
cuyos valores crecen lineal con el tiempo, u = ωt, tal como la que se representa
en la figura 5.11. Se supondrá además, para simplificar, que ξ = 0. De acuerdo
con la expresión (5.7) se tiene que,
y(t) = wbe
−at
Z t
o
e
aτ
wb
τ dτ =
a
Ã
1
e−at
t− +
a
a
!
(5.13)
esta última expresión introduciendo la ganancia K y la constante de tiempo
Sistemas dinámicos lineales de primer orden
67
τ , puede escribirse,
t
y(t) = wK(t − τ + τ e− τ )
(5.14)
Este mismo resultado se puede obtener con ayuda de la transformada de
Laplace. En efecto, para el caso de una entrada en rampa, se tiene
u
u = ωt
t
Figura 5.11: Entrada en rampa
U (s) =
con lo que ,
Y (s) =
ω
s2
ωK
A1 A2
B
= 2 +
+
+ τ s)
s
s
1 + τs
s2 (1
siendo,
"
A1
1
ωK
=
0! (1 + 2s)
"
A2
#
= wK
s=0
ωK
1 d
=
1! ds (1 + τ s)
·
B =
ωK
s2
#
= −τ ωK
s=0
¸
s=− τ1
= ωKτ 2
de donde se desprende que y(t) tendrá la forma (5.14).
En la expresión (5.14) se observa que el tercer término del paréntesis del
segundo miembro tiende a cero cuando el tiempo tiende a infinito. Este término
Sistemas dinámicos lineales de primer orden
68
constituye el régimen transitorio de la respuesta total. Una vez desaparecido el
régimen transitorio, la respuesta en régimen permanente será,
yrp (t) = ωK(t − τ )
(5.15)
Para interpretar esta respuesta cabe distinguir dos casos:
1. K = 1. En tal caso se tiene que la respuesta viene dada por
yrp = ω(t − τ )
(5.16)
es decir, en el instante t la salida es igual a la entrada en el instante t − τ .
La salida se encuentra retardada τ segundos con respecto a la entrada. En
la figura 5.12 se representa la expresión (5.14) para K = 1. Se observa en
esta figura cómo la señal de salida se encuentra retardada con respecto a la
señal de entrada. El error en régimen permanente es igual a ωτ . Este error
recibe la denominación de error de arrastre.
u(t)
y(t)
ωτ
u(t1 − τ ) y(t1 )
τ
Figura 5.12: Respuesta a rampa.
Respecto al régimen transitorio se tiene que para t = τ
y(τ ) =
Kωτ
Kωτ
≈
e
3
(5.17)
es decir, que el sistema ha respondido sólo en un tercio del valor alcanzado
por la señal de entrada. En la figura 5.12 se interpreta este resultado.
Sistemas dinámicos lineales de primer orden
69
La consideración del error de arrastre en la respuesta de un sistema de
primer orden, es sumamente importante en ciertos casos como por ejemplo
cuando el sistema en cuestión es un aparato de medida. Supóngase un
globo en el que se encuentra un termómetro de mercurio. Se supone que
la temperatura varı́a linealmente con la altura; se tiene entonces que el
termómetro se encuentra sometido a una señal de entrada en rampa. Las
lecturas del termómetro, según las consideraciones anteriores, presentan un
error de arrastre.
2. K 6= 1. La salida y entrada divergen, por lo que el error de arrastre se hace
infinito.
5.2.4
Respuesta armónica
Si la señal de entrada es sinusoidal, es decir, u = senωt y suponiendo ξ = 0, se
tiene que la respuesta del sistema, de acuerdo con la expresión (5.7), viene dada
por
"
−at
y(t) = e
#
wb
b
ξ+ 2
(a senw t − w coswt)
− 2
2
a +w
a + w2
(5.18)
En la figura 5.13 se muestra una forma tı́pica de esta respuesta.
Figura 5.13: Respuesta armónica.
Para t → ∞, es decir un tiempo suficientemente grande, el primer término
del segundo miembro se anula, por lo que la respuesta en régimen permanente
resulta ser
Sistemas dinámicos lineales de primer orden
yrp (t) =
a2
70
b
(a senwt − w coswt)
+ w2
(5.19)
Esta expresión se puede escribir de una forma más sencilla haciendo,
cosϕ = √
a2
a
+ w2
senϕ = − √
w
+ w2
a2
(5.20)
con lo que 5.19 puede escribirse,
y(t) = Y sen(wt + ϕ)
(5.21)
tagϕ = −w/a = −wτ
b
K
Y = √ 2
=√
2
a +w
1 + τ 2 w2
(5.22)
siendo,
(5.23)
La expresión (5.21) puede interpretarse diciendo que la respuesta de un sistema lineal a una señal sinusoidal, es otra señal sinusoidal de la misma frecuencia
cuya amplitud ha variado en una relación Y , y que ha adquirido un desfase ϕ.
Tanto la relación de amplitudes Y como el desfase ϕ, son función de la frecuencia
angular w de la entrada. En la figura 5.14 se representa Y (ω) y ϕ(ω).
Otra forma de representar gráficamente la respuesta en frecuencia de un sistema lineal es por medio de un diagrama polar en el que se representa vectores
cuyos módulos y argumentos son respectivamente Y (ω) y ϕ(ω). Haciendo variar
ω se obtiene un lugar geométrico, en el que ω es el parámetro. En la figura 5.15
se representa la respuesta en frecuencia correspondiente a un sistema lineal de
primer orden. El lugar está graduado en frecuencias reducidas (normalizadas)
u = ωϕ.
Existen otras formas de representar gráficamente la respuesta en frecuencia
de un sistema lineal que serán estudiadas más adelante.
Filtrado con un sistema lineal.
Si la señal de entrada a un sistema lineal es una señal arbitraria, la reproducción de la misma a la salida será muy fiel si la constante de tiempo del sistema
es suficientemente pequeña. Es decir, si la constante de tiempo del sistema es
Relacion de Amplitudes
0.9
0.8
Sistemas dinámicos lineales de primer orden
71
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0.0
0.2
0.4
0.6
0.8
1.0
ω
1.2
1.4
1.6
1.8
2.0
0.2
0.4
0.6
0.8
1.0
ω
1.2
1.4
1.6
1.8
2.0
-10
Fase(grados)
-30
-50
-70
-90
-110
-130
0.0
Figura 5.14: Amplitud y fase.
ω=0
ω=∞
ϕ
Y
Figura 5.15: Respuesta en frecuencia.
Sistemas dinámicos lineales de primer orden
72
menor que las más rápidas variaciones que se produzcan en esta señal de entrada.
Lo que a su vez se puede interpretar en el dominio de la frecuencia diciendo que
la constante de tiempo sea lo suficientemente pequeña como para que el ancho de
banda sea lo suficientemente grande para permitir el paso de todos los armónicos
de la señal de entrada, (recordar la figura 5.13). La figura 5.16 ilustra este hecho.
τ
pequeño
a)
τ
grande
b)
Figura 5.16: Filtrados.
Por el contrario si la constante de tiempo es grande, la respuesta del sistema
es lenta, por lo que el sistema no puede seguir las variaciones rápidas de la señal
de entrada resultando de ello que éstas desaparecen de la señal de salida. El
sistema actúa como limando las asperezas de la señal de entrada. La figura 5.16
ilustra este hecho que recibe la denominación de filtrado de la señal de entrada.
Se puede dar del mismo una interpretación en el dominio de la frecuencia similar
a la dada más arriba para el caso de una constante de tiempo pequeña.
De hecho, el concepto de filtrado de una señal es enormemente importante y
lo único que se ha hecho hasta aquı́ ha sido introducirlo, ilustrando una forma de
comportamiento de los sistemas dinámicos lineales de primer orden.
5.3
Ejemplos de sistemas de primer orden
• Circuito eléctrico LR.
El circuito representado en la figura 5.17 está regido por una ecuación diferencial de la forma
L dI
E
+I =
R dt
R
Sistemas dinámicos lineales de primer orden
73
considerando la señal de entrada, la tensión aplicada al sistema y la señal de
salida a la intensidad que recorre el circuito, se tiene un sistema de primer
orden. La ganancia estática es 1/R y la constante de tiempo es L/R.
L
R
E
Figura 5.17: Circuito RL.
• Circuito eléctrico RC.
El circuito de la figura 5.18 es un circuito clásico de carga de un condensador
a través de una resistencia, siendo la ecuación diferencial que rige el proceso
la siguiente:
RC
dq
+ q = CE
dt
La ganancia estática es C, puesto que Q/E es, en régimen permanente, la
capacidad del condensador. La constante de tiempo es RC.
R
C
E
q
Figura 5.18: Circuito RC.
• Termómetro de mercurio.
E(t)
R, C
q(t)
Sistemas dinámicos lineales de primer orden
74
Un termómetro puede considerarse como un sistema en el que la señal de
entrada u es la temperatura del medio en el que se encuentra inmerso y la
señal de salida y, es la temperatura indicada por el mismo. Si se denota
por Q la cantidad de calor intercambiada entre el medio y el termómetro,
y por C la capacidad calorı́fica de la ampolla, se tendrá que
dy
dQ
=C
dt
dt
Por otra parte el flujo de calorı́as que entra en el mercurio se aporta fundamentalmente por conducción. De acuerdo con la ley de Newton es aproximadamente proporcional a la diferencia de temperatura entre el medio y el
mercurio.
dQ
= k(u − y)
dt
Se concluye de las dos ecuaciones anteriores que un termómetro de mercurio
puede considerarse como un sistema lineal de primer orden. Obsérvese que,
como corresponde a un sistema de medición, la ganancia estática es k = 1.
Temperatura indicada (y)
Temperatura (u)
Figura 5.19: Termómetro de mercurio.
• Reacción quı́mica.
Supóngase la descomposición espontánea de una molécula A en dos moléculas
B y C:
A → B+C
la cual se efectúa de manera que la velocidad de reacción es proporcional al
número de moléculas A presentes.
Sistemas dinámicos lineales de primer orden
75
Si se denota por y la concentración de la sustancia A, se tiene
−
dy
= ky
dt
es decir,
1 dy
+y =0
k dt
Se trata de un sistema lineal de primer orden autónomo de constante de
tiempo 1/k. El parámetro k se denomina por los quı́micos constante de
velocidad de la reacción, y en la práctica presenta una gran dependencia de
la temperatura.
• Dinamómetro.
Se trata de medir la fuerza u por el desplazamiento y que imprime a un
dinamómetro de coeficiente de elasticidad k y de coeficiente de viscosidad
α, figura 5.20.
α
u
k
Figura 5.20: Dinamómetro
Según las leyes de la Mecánica se tiene
u = ky + α
dy
dt
Por lo tanto un dinamómetro es un sistema de medida lineal de primer
orden.
Sistemas dinámicos lineales de primer orden
76
• Mezcla de dos fluidos.
Supóngase un recipiente (figura 5.21) en el que se contiene una masa m del
lı́quido que contiene una fracción Cr de un componente A, y supóngase que
el recipiente se alimenta por un caudal Q de un lı́quido en el que la fracción
de componente A es Ce . Se supone que la mezcla es instantánea, es decir,
que la composición es la misma en todo instante en todo el recipiente. Se
supone además que el flujo de entrada es igual al de salida, con lo que
la masa contenida en el recipiente es constante. Es fácil ver que en estas
condiciones se tiene,
Ce Q dt = Cr Q dt + M dCr
es decir,
M dCr
+ Cr = Ce
Q dt
Ce
M
Cr
Cr
Figura 5.21: Mezcla de Fluidos.
Se trata por lo tanto de un sistema de primer orden.
• Motor eléctrico de corriente continua.
Supóngase el motor eléctrico de corriente continua cuyo diagrama se ha
representado en la figura 5.22. El par motor supuesto el flujo φ constante,
viene dado por
Sistemas dinámicos lineales de primer orden
77
P = kφ I
Por otra parte la intensidad I de inducido y la tensión que alimenta al
inducido u (señal de entrada), están relacionadas por la siguiente ecuación.
u = RI + L
dI
+ Kω
dt
De acuerdo con las leyes de la Mecánica el par motor P y la velocidad de
salida del motor ω, están ligados por la ecuación,
P =J
dω
+ Bω
dt
L
R
Φ
ω
J
B
Figura 5.22: Motor eléctrico.
De las tres ecuaciones anteriores se obtiene,
J
dω
φ
φ
+ (B + kK )ω = k u
dt
R
R
es decir, considerando como señal de entrada la tensión aplicada al inducido
y como señal de salida la velocidad de giro del motor, se tiene un sistema
de primer orden.
5.4
El sistema de primer orden como integrador
En los apartados anteriores se ha considerado un sistema lineal de primer orden
como el regido por una ecuación diferencial de la forma 5.1. Esta misma ecuación
puede escribirse también de la forma siguiente:
Sistemas dinámicos lineales de primer orden
y(t) = y(0) +
Z t
0
78
(bu − ay)dt
(5.24)
La consideración de esta segunda forma de escribir la ecuación que rige el
comportamiento de un sistema lineal de primer orden es sumamente interesante,
por cuanto que su sentido fı́sico es más claro. La acción del sistema puede descomponerse en dos partes:
• Una parte estática (sin memoria) en la que se determina
f = bu − ay
(5.25)
• Los valores de f determinados para cada instante de tiempo t se van acumulando (integrando) dando con ello lugar a la variable de salida y.
En la figura 5.23 se tiene representado un esquema en el que se distinguen la
parte estática del integrador. La parte estática puede ser no lineal, sin que por
ello se alteren las anteriores consideraciones.
Esta manera de interpretar el funcionamiento de un sistema lineal de primer
orden, es más intuitiva desde un punto de vista fı́sico por cuanto que en la naturaleza es más fácil interpretar los procesos en términos de integraciones que de
diferenciaciones. De hecho la integración (acumulación) es un proceso normal del
que es muy sencillo encontrar ejemplos, mientras que la diferenciación es enormemente más artificiosa. No debe olvidarse sin embargo, que la resolución de una
ecuación diferencial es más simple que la de una ecuación integral, y es por ello
que en cualquier caso el planteo por ecuaciones diferenciales es más frecuente que
el que aquı́ se presenta.
u
K
+
1
τS
-
Figura 5.23: Integrador.
y
Tema 6
Sistemas dinámicos lineales de
segundo orden y de orden y
superior
6.1
Definición
Se define un sistema lineal de segundo orden como el regido por una ecuación
diferencial de la forma,
d2 y
dy
du
+ a1
+ a2 y = b0
+ b1 u
2
dt
dt
dt
(6.1)
En lo que sigue se considerará únicamente el caso en que b0 = 0 y b1 = β,
dejándose para más adelante el estudio del caso general.
El problema del estudio de un sistema de segundo orden queda reducido a
la resolución de la anterior ecuación diferencial cuando la señal de entrada u(t)
se particulariza en una cierta función del tiempo. Para que la solución esté
completamente determinada se requiere el conocimiento de los valores iniciales
de y(t) y de dy/dt. En esta sección se puede hacer un desarrollo completamente
paralelo al realizado en la sección anterior para los sistemas de primer orden. La
complejidad de tratamiento algebraico que esto requiere es grande, y es por ello
por lo que se va a estudiar sencillamente los casos simplificados que ofrecen mayor
interés práctico.
En este sentido, y como primera hipótesis simplificadora, se va a suponer
79
Sistemas dinámicos lineales de segundo orden y de orden y superior
80
siempre que se trabaja con unas condiciones iniciales nulas.
La ecuación diferencial de un sistema de segundo orden que se va a considerar
aquı́ es,
d2 y
dy
+ a1
+ a2 y = β u
(6.2)
2
dt
dt
La ecuación caracterı́stica de un sistema de segundo orden se define como:
r2 + a1 r + a2 = 0
(6.3)
la cual se puede escribir también, en el supuesto de que sus raices sean −p1 y
−p2 , de la forma siguiente,
(r + p1 ) (r + p2 ) = 0
(6.4)
Otra forma frecuente de escribir la ecuación diferencial de un sistema de segundo orden es la siguiente,
d2 y
dy
+
2
δ
ω
+ ωn2 y = ωn2 k u(t)
n
dt2
dt
(6.5)
Esta forma es especialmente útil cuando se trata con sistemas cuyas raices de
la ecuación caracterı́stica son complejas. Los parámetros que intervienen en esta
forma reciben una denominación especial.
• El parámetro k recibe la denominación de ganancia estática, y es una constante que carece de dimensiones.
• El parámetro ωn recibe el nombre de frecuencia propia no amortiguada y
se expresa en radianes por segundo.
• El parámetro δ recibe el nombre de factor de amortiguamiento, y es un
número sin dimensiones.
Las relaciones que ligan a los parámetros de la forma (6.2) con los de la forma
(6.5) son las siguientes.
Sistemas dinámicos lineales de segundo orden y de orden y superior
s
ωn =
1
a2
k=
β
ωn2
δ=
a1
2ωn
81
(6.6)
Los parámetros k, ωn y δ son, normalmente, positivos.
Una ecuación diferencial de orden n puede descomponerse en n ecuaciones
diferenciales de primer orden. Este es un resultado conocido que por otra parte
será estudiado con detalle en un capı́tulo posterior. Aquı́ se va a estudiar el caso
n = 2; introduciendo las variables adicionales x1 y x2 , y siendo p1 y p2 las raices
de la ecuación caracterı́stica, es fácil ver que una ecuación diferencial de segundo
orden del tipo 6.2 se puede escribir,
ẋ1 = −p1 x1 + u
ẋ2 = −p2 x2 + u
y = c1 x1 + c2 x2
siendo
c1 =
β
p2 + p1
y
c2 =
(6.7)
(6.8)
β
p1 − p2
(6.9)
Para comprobar este resultado basta proceder por sustitución, lo que se invita
a hacer al lector. Más adelante se estudiará el procedimiento general que permite
este tipo de descomposiciones.
Empleando el cálculo matricial, las expresiones 6.7, 6.8 y 6.9 pueden escribirse
de la forma siguiente,
ẋ = Ax + Bu
y = Cx
(6.10)
en donde
"
A=
−p1 0
0 −p2
#
"
B=
1
1
#
C = [c1 c2 ]
(6.11)
La ecuación diferencial de la expresión 6.10 es de la misma forma de la 5.1,
con la diferencia de que mientras allı́ se trataba con escalares aquı́ se trata con
vectores y matrices. Por lo tanto, el desarrollo realizado al estudiar los sistemas
de primer orden, puede generalizarse al de los sistemas de segundo orden, sin más
Sistemas dinámicos lineales de segundo orden y de orden y superior
82
observación que tener presente que la diferencia básica que existe entre el álgebra
de los números reales y la de las matrices, es que esta última no es conmutativa.
La respuesta de un sistema de segundo orden ante una señal de entrada u(t),
a partir del estado x(t), vendrá dada por,
·
y(t) = CeAt ξ +
Z t
0
¸
e−Aζ B u(ζ) dζ
(6.12)
En esta expresión aparece la exponencial eAt , cuyo significado será discutido
más adelante.
A partir de la expresión 6.12 se puede estudiar la respuesta de un sistema
de segundo orden ante distintos tipos de señales de entrada, tal como se hizo
anteriormente para los sistemas de primer orden.
En lo que sigue se estudiará exclusivamente la respuesta de un sistema de
segundo orden a una entrada en escalón, por ser la que más interés tiene desde
un punto de vista práctico. La respuesta para otro tipo de entradas, como la
entrada en rampa o la entrada sinusoidal, pueden ser obtenidas de forma análoga
a como se obtiene la respuesta a una entrada en escalón.
6.1.1
Respuesta de un sistema de segundo orden a una
entrada en escalón
Se supondrá que las condiciones iniciales son nulas, ξ = 0. A partir de la expresión
6.12 se tendrá,
Z
t
y(t) = C eAt
0
e−Aζ B u(ζ)dζ
(6.13)
La entrada en escalón es constante desde t = 0 hasta infinito. Por lo tanto se
tendrá que,
u(ζ) = u = const
(6.14)
A partir del concepto de función de una matriz diagonal se puede escribir,
"
e
−At
=
ep1 t 0
0 ep2 t
#
(6.15)
Sistemas dinámicos lineales de segundo orden y de orden y superior
83
con lo que se tiene,
Z t
0
"
e
−Aζ
B u(ζ) dζ =
− pu1 (1 − ep1 t )
− pu2 (1 − ep2 t )
#
(6.16)
Recordando la expresión 6.8 se tiene,
y(t) = C1
u
u
(1 − e−p1 t ) + C2 (1 − e−p2 t )
p1
p2
"
(6.17)
#
βu
βu
y=
(1 − e−p2 t )
(1 − e−p1 t ) +
p1 (p2 − p1 )
(p1 − p2 )p2
Haciendo, sin pérdida de generalidad, u = 1 y tras una serie de manipulaciones
algébricas, se puede escribir,
y(t) =
β
β
β
−
e−p1 t −
e−p2 t
p1 p2 (p2 − p1 )p1
p2 (p1 − p2 )
(6.18)
Si se escribe la ecuación diferencial de segundo orden en la forma dada por la
expresión 6.5 se tendrá que las raices de la ecuación caracterı́stica p1 y p2 vendrán
dadas por:
√
p1 = −δωn − ωn δ 2 − 1
√
p2 = −δωn + ωn δ 2 − 1
(6.19)
Obsérvese que,
p1 p2 = ωn2
β = ωn2
p2 − p1 = 2ωn
√
δ2 − 1
(6.20)
Este mismo resultado se puede alcanzar con mayor sencillez operativa empleando la transformada de Laplace. En efecto, teniendo en cuenta que la transformada de Laplace de una entrada en escalón es U (s) = 1/s, se tiene que, de
acuerdo con la expresión 5.2, la transformada de Laplace de la salida y(t) resulta
Y (s) =
1
s
ωn2
s2 + 2δωn s + ωn2
Sistemas dinámicos lineales de segundo orden y de orden y superior
1
u(t)
y(t)
a)
ωn t
1
u(t)
y(t)
b)
ωn t
1.38
y(t)
1
u(t)
c)
ωn t
3.3
Figura 6.1: Respuesta sistema de segundo orden
84
Sistemas dinámicos lineales de segundo orden y de orden y superior
85
cuya antitransformada de Laplace resulta ser,
e−δωn t
y(t) = 1 − √
sen (ω0 t + ϕ)
1 − δ2
siendo,
ω0 = ωn
√
√
1−
δ2
ϕ=
t−1
g
1 − δ2
δ
factor de amortiguamiento δ
En el estudio de la respuesta a una señal de entrada en escalón de un sistema
de segundo orden pueden distinguirse tres casos según que el factor de amortiguamiento δ sea mayor, menor o igual que uno.
1. Factor de amortiguamiento mayor que la unidad
A partir de la expresión 6.18 teniendo en cuenta las expresiones 6.20 se tiene
que,
√
h
i−1
√
2
y(t) = 1 + 2(δ 2 − δ δ 2 − 1 − 1)
e−(δ− δ −1)ωn t
√
h
i−1
√
2
+ 2(δ 2 + δ δ 2 − 1 − 1)
(6.21)
e−(δ+ δ −1)ωn t
Esta expresión suministra la forma analı́tica de la respuesta de un sistema
de segundo orden, con factor de amortiguamiento mayor que la unidad, a
una entrada en escalón. En la figura 6.1 se representa la forma general de
esta respuesta; desde un punto de vista cualitativo la caracterı́stica esencial
de esta respuesta es su carácter de lentitud en alcanzar el valor y = 1.
2. Factor de amortiguamiento menor que la unidad
Si el factor de amortiguamiento δ es menor que la unidad, es decir, δ < 1,
entonces sucede que las raices p1 y p2 son complejas. En la figura 6.2 se
representa la situación de las raices p1 y p2 en el plano complejo.
La consideración del ángulo α, tal como se ha indicado en la figura 6.2
permite escribir,
√
(6.22)
cosα = −δ
senα = 1 − δ 2
Escribiendo las expresiones 6.19 y 6.20, empleando en las mismas el ángulo
α, se tiene:
p1 = ωn e−jα
p2 p1 = 2ωn jsenα
(6.23)
Sistemas dinámicos lineales de segundo orden y de orden y superior
86
Im
√
jωn 1 − δ 2
ωn
α
−δωn
Re
√
−jωn 1 − δ 2
Figura 6.2: Raices complejas
La expresión 6.18 se puede escribir, teniendo en cuenta la expresión 6.23 de
la forma siguiente,
e−jα −(δωn −jωn √1−δ2 )t
e
2jsenα
ejα −(δωn −jωn √1−δ2 ) t
−
e
2jsenα
y(t) = 1 +
(6.24)
Esta expresión puede escribirse en forma más compacta como sigue:
√
e−δωn t
y(t) = 1 + √
sen(ω
1 − δ 2 t − α)
n
2
1−δ
(6.25)
Esta expresión suministra la forma analı́tica en la respuesta de un sistema
de segundo orden, con factor de amortiguamiento menor que la unidad,
a una respuesta en escalón. La forma general de la respuesta se tiene en
la figura 6.1, en la que se observa que el comportamiento de un sistema
de segundo orden con factor de amortiguamiento menor que la unidad está
caracterizado por la presencia de oscilaciones. Esta forma de respuesta, que
se caracteriza por una sinusoide exponencialmente amortiguada, se dice que
es subamortiguada.
Sistemas dinámicos lineales de segundo orden y de orden y superior
87
El valor del primer pico de sobreoscilación, y el instante de tiempo en que
se produce, son dos tipos de caracterı́sticas muy interesantes para definir
el comportamiento de un sistema de segundo orden. De la observación de
la expresión 6.25 se desprende que la frecuencia de oscilación del sistema
viene dada por,
ωp = ωn
√
1 − δ2
(6.26)
La frecuencia ωp se denomina frecuencia propia del sistema. El periódo de
oscilación del sistema viene dado por
Tp =
2π
√
ωn 1 − δ 2
(6.27)
Instante de tiempo al cual se produce el primer pico de oscilación del sistema, puede obtenerse, de una forma analı́tica, derivando y(t) con relación
al tiempo, e igualando esta derivada a cero. En efecto, se tiene:
√
√
dy(t)
δωn e−δωn t
2 t−α)+ω e−δωn t cos(ω
=− √
sen(ω
1
−
δ
1 − δ 2 t−α) = 0
n
n
n
dt
1 − δ2
(6.28)
Esta derivada se anulará cuando,
ωn
√
1 − δ 2 t = 0, π, 2π, ..
por lo tanto, el primer pico de oscilación se producirá cuando ,
tp =
π
√
ωn 1 − δ 2
(6.29)
El tiempo tp recibe la denominación de tiempo de pico. Llevando el valor
de tp a la expresión 6.25 se tiene,
√
2
e−δπ/ 1−δ
sen(π − α)
ymax (t) = 1 + √
1 − δ2
(6.30)
la cual, habida cuenta de que,
sen(π − α) = senα y
puede escribirse,
senα =
³
ymax (t) = 1 + e
√
1 − δ2
(6.31)
´
− √ δπ
1−δ 2
(6.32)
Sistemas dinámicos lineales de segundo orden y de orden y superior
88
Normalmente se expresa la amplitud de la primera oscilación en % del valor
del escalón de entrada. Genéricamente se suele denominar sobreoscilación
a este tanto por ciento. Por lo tanto se puede escribir:
³
SO = 100 e
´
− √ δπ
(6.33)
1−δ 2
En la figura 6.3 se representa la sobreoscilación, en función del factor de
amortiguamiento, para sistemas de segundo orden.
Es interesante considerar el problema de determinar los parámetros a1 , a2
y β de la ecuación 6.2 a partir del conocimiento de la respuesta del sistema
a una entrada en escalón especialmente en el caso de un sistema subamortiguado.
3. Factor de amortiguamiento igual a la unidad
En el caso de que el factor de amortiguamiento sea igual a la unidad, es decir
δ = 1, se tendrá que las dos raices de la ecuación caracterı́stica serán iguales
entre sı́, es decir, p1 = p2 es una raiz doble de la ecuación caracterı́stica. En
tal caso, las constantes c1 y c2 que aparecen en la expresión 6.8 no están
definidas, como se concluye observando las expresiones 6.9. Es decir, que la
anterior discusión sólo era válida cuando las dos raices p1 y p2 eran distintas.
Para poder aplicar el anterior razonamiento al caso de que las dos raices
sean iguales, se procede a suponer, en principio, que éstas son diferentes
entre sı́ en una pequeña cantidad ε, que posteriormente se hace tender a
cero. Supóngase, por lo tanto que las dos raices son:
p1 = p
p2 = p + ε
Llevando estos dos valores a los términos segundo y tercero, del segundo
miembro, de la expresión 6.18 se tiene,
b
β pt
e −
e(p+ε)t = βept
εp
ε(p + ε)
"
1
eεt
−
εp (p + ε)
#
(6.34)
Interesa determinar el lı́mite de esta expresión cuando ε tiende a cero. Para
ello se procede, por ejemplo, a desarrollar en serie eεt y tras una serie de
sencillas manipulaciones se obtiene,
"
lim
ε→0
#
eεt
1 − tp
1
−
=
εp ε(p + ε)
p2
(6.35)
Sistemas dinámicos lineales de segundo orden y de orden y superior
89
Con este resultado es inmediato obtener que la respuesta a una entrada en
escalón del sistema con factor de amortiguamiento igual a la unidad, viene
dada por,
y(t) = 1 − ωn te−ωn t − e−ωn t
(6.36)
Esta respuesta se ha representado en la figura 6.1. Esta respuesta se dice
que está crı́ticamente amortiguada.
100
Sobreoscilacion
80
60
40
20
0
0
0.1
0.2
0.3
0.4
0.5
δ
0.6
0.7
0.8
0.9
1.0
Figura 6.3: Sobreoscilación en función del factor de amortiguamiento
En la figura 6.4 se representan las respuestas a una entrada en escalón para
distintos valores del factor amortiguamiento. Se observa como factores de amortiguamiento inferiores a la unidad, se tiene un comportamiento oscilatorio, el cual
es más oscilante cuanto menor es el valor de δ. Por otra parte, para valores del
amortiguamiento mayor que la unidad, se tienen respuestas sin sobreoscilación,
pero que son considerablemente más lentas. Esto último hace que las aplicaciones prácticas se tienda siempre a tener respuestas amortiguadas, puesto que
son más rápidas, aunque siempre manteniendo oscilaciones dentro de unos lı́mites
razonables.
Sistemas dinámicos lineales de segundo orden y de orden y superior
90
2.0
1.8
δ=0.1
1.6
1.4
y(t)
1.2
0.5
0.7
1.0
1.0
1.2
1.5
2.0
0.8
0.6
5.0
0.4
0.2
0.0
0.0
1.2
2.4
3.6
4.8
6.0
ωnt
7.2
8.4
9.6
10.8
12.0
Figura 6.4: Respuesta ante escalón en función del factor de amortiguamiento
Sistemas dinámicos lineales de segundo orden y de orden y superior
6.1.2
91
Respuesta en frecuencia de un sistema de segundo
orden
Si se aplica una señal sinusoidal a un sistema de segundo orden, es decir, si u(t) =
Vo senωt, la determinación de la señal de salida y(t) se puede hacer procediendo
en forma similar a como se hizo en el apartado anterior. Aquı́ sin embargo
se procederá exclusivamente a estudiar el régimen transitorio que resulta de la
aplicación de la señal sinusoidal. Es decir, se va a determinar exclusivamente la
solución particular de la completa cuando en la expresión 6.2 se hace u = Vo senωt.
Se tiene que y(t) será de la forma,
y(t) = Yo sen(ωt + ϕ)
(6.37)
siendo
Vo
Yo = q
(a2 − ω)2 + a21 ω 2
h
i
ϕ = tg−1 −a1 /(a2 − ω 2 )
(6.38)
(6.39)
Este resultado se puede comprobar por sustitución.
Se ha tomado como señal de entrada una señal sinusoidal de amplitud unitaria
para que la amplitud de la señal de salida suministrase directamente la relación
de amplitudes entre las señales de entrada y salida. En las figuras 6.5 y 6.6 se
representan las relaciones de amplitudes y los desfases correspondientes a distintos
valores del factor de amortiguamiento.
Se observa como la forma de la respuesta en frecuencia del sistema de segundo
orden depende del factor de amortiguamiento. Cuanto menor es éste, mayor es
el pico de resonancia que presenta la respuesta en frecuencia. El efecto de resonancia indica que para determinada frecuencia la amplitud de la señal sinusoidal
correspondiente, en el espectro de frecuencias, sufre una amplificación al atravesar
el sistema.
El valor máximo de la amplitud de la respuesta en frecuencia, recibe la denominación de factor de resonancia. Es fácil demostrar que el factor de resonancia
viene dado por,
Q=
2δ
√
1
1 − δ2
(6.40)
Sistemas dinámicos lineales de segundo orden y de orden y superior
92
La frecuencia a la que se produce este máximo, que recibe la denominación
de frecuencia de resonancia, viene dada por,
ωR = ωn
√
1 − 2δ 2
(6.41)
Se observa que cuando el factor de amortiguamiento es nulo la frecuencia de
resonancia coincide con la frecuencia propia no amortiguada del sistema. De ahı́
la denominación de ésta última.
5
δ=0.1
RELACION DE AMPLITUDES
4
3
0.2
2
0.3
0.4
0.5
1
5.0
0
0.0
2.0
0.5
1.0
0.707
1.0
1.5
PULSACION ω/ωn
2.0
2.5
Figura 6.5: Amplitudes correspondientes a distintos factores de amortiguamiento.
6.1.3
Ecuaciones diferenciales de orden n
Una vez estudiado los sistemas de primero y segundo orden, conviene recordar
los resultados correspondientes a sistemas de orden n. Supóngase que el modelo
Sistemas dinámicos lineales de segundo orden y de orden y superior
93
0
0.
2
0.1
0. 0.3
5
0.
70
7 0.4
1.
0
2.
0
-30
-60
DESFASE
δ=
5.
0
δ=5.
0
-90
2.0
-120
-150
-180
0.0
0.1
0.5
1.0
0.7 1.0
07
0.5
0 0.
0.2 .3 4
1.5
2.0
2.5
PULSACION ω/ωn
3.0
3.5
Figura 6.6: Desfases correspondientes a distintos factores de amortiguamiento.
4.0
Sistemas dinámicos lineales de segundo orden y de orden y superior
94
matemático del sistema que se está considerando tiene la forma,
dn y
dn−1 y
dy
dm u
+
a
+
·
·
·
+
a
+
a
y
=
b
+ · · · + bm u
1
n−1
n
o
dtn
dtn−1
dt
dtm
(6.42)
en donde, por razones de realizabilidad fı́sica que se considerarán más adelante,
n > m. Si las condiciones iniciales son nulas, su transformada de Laplace es
Y (s)(sn + a1 sn−1 + · · · + an−1 s + an ) = U (s) (bo sm + b1 sm−1 + · · · + bm ) (6.43)
por lo tanto, la transformada de Laplace de la salida del sistema y(t), correspondiente a una entrada u(t), cuya transformada es U (t) = L [u(t)] resulta ser
bo sm + b1 sm−1 + · · · + bm
Y (s) = n
U (s)
s + a1 sn−1 + · · · + an−1 s + an
(6.44)
Puesto que U (s) se supone conocido, el problema es el de determinar Y (s),
problema que se reduce al cálculo de la antitransformada de Y (s). Para las
funciones normalmente empleadas en Automática U (s) es el cociente de dos polinomios en s, por lo que Y (s) será a su vez el cociente de dos polinomios, es
decir,
Y (s) =
Q(s)
Q(s)
=
P (s)
(s − p1 )n1 (s − p2 )n2 . . . (s − pq )np
(6.45)
El polinomio del denominador U (s) se ha factorizado, siendo pi las raices de
la ecuación P (s) = 0, que recibe la denominación de polos de Y (s). Para mayor
generalidad, se ha supuesto que cada uno de los polos tiene una multiplicidad ni
aunque normalmente ni = 1, para todo i.
El cociente de polinomios Y (s) se puede descomponer en fracciones simples,
escribiéndose,
q X
ni
X
cik
Y (s) =
(6.46)
k
i=1 k=1 (s − pi )
en donde los coeficientes cik reciben la denominación de residuos de Y (s) en
el polo pi . Los residuos se calculan con ayuda de la expresión
Sistemas dinámicos lineales de segundo orden y de orden y superior
1
cik =
(ni − k)!
Ã
!¯
i ¯
dni−k h
¯
ni
(s − pi ) Y (s) ¯¯
ni−k
ds
s=pi
95
(6.47)
Si todos los polos son simples, es decir, si todos los valores de ni son igual a
la unidad, entonces la expresión 6.46 se escribe
Y (s) =
q
X
i=1
ci1
s − pi
(6.48)
y los residuos se determinan por la expresión
cik = ci1 = (s − pi ) Y (s) |s=pi
(6.49)
expresiones que no son sino particularizaciones para ni = 1 de las correspondientes expresiones 6.46 y 6.47.
En el caso de polos simples, los residuos pueden determinarse de forma gráfica
sobre el plano complejo. Para ello, en primer lugar, considérese que Y (s) puede
escribirse
Y (s) =
k Πm
i=1 (s − zi )
n
Πi−1 (s − pi )
(6.50)
en donde se ha factorizado también el polinomio del numerador. Por zi se
denotan las raices de la ecuación P (s) = 0 y estas raices se denominan ceros del
sistema. Puesto que Y (s) es, en general, una función compleja, se puede escribir,
Y (s) =| Y | ejφ =| Y |
6
φ
(6.51)
en donde | Y (s) | es el módulo (valor absoluto) de Y (s) y φ es el argumento
de Y (s), siendo
#
"
Im{Y (s)}
−1
φ = tan
Re{Y (s)}
La expresión compleja Y (s), de acuerdo con la expresión 5.8, puede escribirse
Sistemas dinámicos lineales de segundo orden y de orden y superior
k
Qm
Y (s) = Qni=1
i=1
m
n
X
| s − zi | X
6 (
φiz −
φip )
| s − pi |
i=1
i=1
96
(6.52)
es decir, puesto que Y (s), de acuerdo con la expresión 6.52, se determina como
el cociente de dos expresiones complejas, cada una de las cuales es a su vez el
producto de términos elementales de la forma (s − pi ) el módulo de Y (s) será el
cociente de los productos de los respectivos módulos, mientras que el argumento
será la diferencia de las sumas de los correspondientes argumentos.
Interesa por tanto, representar en el plano complejo, los componentes elementales (s − zi ) y (s − pi ) con el fin de determinar sus módulos y argumentos para
poder realizar con ellos las operaciones de multiplicación y adición a las que se
acaba de aludir.
En la figura 6.1.3 se muestra la representación gráfica del vector asociado a
(s − zi ) y a (s − pi ). En el caso de (si − zi ) se tiene un vector que va desde el
cero, zi al punto s, y análogamente para pi .
Im
s − Pi
Pi
s
s
s − Zi
Zi
Re
Figura 6.7: Vectores asociados
El residuo ci1 = ci , correspondiente al polo pi , resulta ser de acuerdo con la
expresión 6.49,
¯
ci = (s − pi ) Y (s) |s=pi
¯
k(s − pi ) Πm
i=1 (s − zi ) ¯
=
¯
¯
Πni=1 (s − pi )
s=pi
Sistemas dinámicos lineales de segundo orden y de orden y superior
97
cuya determinación gráfica puede hacerse siguiendo los siguientes pasos:
1. dibujar en el plano complejo los ceros, ci y los polos pi de Y (s).
2. dibujar los vectores desde todos los polos y ceros al polo pi en el que se está
determinando el residuo.
3. determinar el módulo del residuo | ci | multiplicando los módulos de todos
los vectores desde los ceros y dividiendolos por el producto de los módulos
de todos los vectores desde los polos.
4. determinar el argumento del residuo 6 ci sumando los argumentos de los
vectores desde los ceros y restándole la suma de los argumentos de los
vectores desde los polos.
Tema 7
Representación gráfica de la
función de transferencia
Es usual emplear representaciones gráficas de la función de transferencia. Ello es
especialmente patente en los métodos clásicos, en los que se trabaja en el dominio
de la frecuencia. Vamos a ver algunas de las formas de representación gráficas
más usuales.
7.1
7.1.1
Diagramas más comunes
Diagrama de polos y ceros: caso racional
Sea la función de transferencia
G(s) =
K(s + c1 ) . . . (s + cm )
(s + p1 ) . . . (s + pn )
Se puede representar G(s) indicando la posición de sus ceros −ci y de sus polos
−pi en el plano de la variable compleja s (fig. 7.1).
98
Representación gráfica de la función de transferencia
99
Im
K
Re
Figura 7.1: Diagrama de polos y ceros
7.1.2
Diagrama de Nyquist
La función de transferencia G(s) se representa mediante una curva en un diagrama
polar. Esta curva se construye representando para cada valor de ω el módulo y
el argumento de la expresión compleja que resulta de hacer s = jω en G(s).
Como se sabe, el módulo y el argumento de G(jω) representan la amplificación
(o atenuación) y el desfase de una señal sinusoidal que atraviese el sistema. En la
figura 7.2 se representa un diagrama de esta naturaleza. Conviene observar que
ω varı́a de 0 a ∞.
Im
ω=0
ω=∞
Re
ω = 100
ω=1
ω = 10
Figura 7.2: Diagrama de Nyquist
El diagrama de Nyquist es por tanto una curva parametrizada en ω que, para
cada punto (es decir, para cada frecuencia), da el módulo y el argumento de la
función de transferencia.
Representación gráfica de la función de transferencia
7.1.3
100
Diagrama logarı́tmico o de Bode
En este caso, la función de transferencia G(s) se representa mediante el conjunto
de las dos curvas siguientes (fig. 7.3):
log |G(jω)|
log ω
Arg G(jω)
log ω
o
-180
Figura 7.3: Diagrama logarı́tmico
• Curva de amplitud: log |G(s)| en función de log ω;
• Curva de fase: arg G(s) en función de log ω.
El empleo de logaritmos para representar los módulos permite facilitar la combinación de funciones de transferencia en serie, ya que en tal caso el producto de
los módulos se convierte en la suma de sus logaritmos.
Conviene recordar que la medida logarı́tmica de la relación entre dos señales
A se expresa en
• decibelios (dB), 20 log10 A
• décadas log10 A
• octavas log2 A
Representación gráfica de la función de transferencia
101
Este conjunto de curvas, como veremos a continuación, es el más utilizado en
la práctica para representar gráficamente la función de transferencia.
7.1.4
Diagrama de Black
En este diagrama se representa la función de transferencia G(s) mediante una
curva parametrizada en ω en un plano cuyos ejes de coordenadas están definidos
por arg(G(jω)) y 20 log10 A (fig: 7.4).
log|G(jω)|
ω=1
o
-180
o
-90
0
Arg G(jω)
Figura 7.4: Diagrama de Black
7.2
Diagrama de Bode
Como se ha indicado más arriba, el diagrama de Bode consiste en la representación
gráfica de la función de tranferencia mediante dos curvas, una relativa a la amplitud y la otra a la fase. En ambas curvas, en abcisas se representa el logaritmo de
ω. En coordenadas se representa en un caso la relación de amplitudes en escala
logarı́tmica, mientras que en el segundo la fase en escala natural (en grados o en
radianes).
La representación de una función de transferencia G(s) en el diagrama de
Bode se hace mediante unas aproximaciones asintóticas que simplifican enorme-
Representación gráfica de la función de transferencia
102
mente su trazado. Para estudiar estas aproximaciones consideremos la función
de transferencia
k(jω + c1 )(jω + c2 ) . . .
G(jω) =
(jω)N (jω + p1 )(jω + p2 ) . . .
La denominada forma de Bode de esta función de tranferencia es la siguiente
µ
¶µ
¶
jω
jω
Πci
1+
1+
...
k
Πpj
c1
c2
!
Ã
!
Ã
G(jω) =
jω
jω
1+
...
(jω)N 1 +
p1
p2
(7.1)
en donde la denominada ganancia de Bode viene dada por
kB = k
Πci
Πpj
La expresión (7.1) es una expresión compleja en función de ω. Es decir, para
cada valor de ω tomará un valor complejo y, por tanto, tendrá un módulo y un
argumento. El módulo será tal que si tomamos su logaritmo se podrá escribir
¯µ
¶¯
¯
jω ¯¯
¯
20 log |G(jω)| = 20 log |kB | + 20 log ¯ 1 +
¯ + ...
c
1
¯
¯
¯ 1 ¯
1
¯
¯
!¯ + . . .
+20 log ¯
¯ + 20 log ¯¯Ã
N
¯ (jω) ¯
jω ¯¯
¯
¯ 1+
¯
¯
p1 ¯
(7.2)
mientras que el argumento será
µ
20 arg G(jω) = 20 arg kB + 20 arg 1 +
+20 arg
¶
jω
+ ...
c1
1
1
! + ...
+ 20 arg Ã
N
(jω)
jω
1+
p1
(7.3)
Obsérvese que mediante la adopción de una escala logarı́tmica para el módulo se
ha descompuesto aditivamente en las aportaciones de cada uno de los elementos
que aparecen en (7.1).
Esta descomposición aditiva, junto con la que se da de una manera natural para el argumento, permite que se obtenga la representación gráfica en el
diagrama de Bode a partir de la representación gráfica de cada uno de los elementos que aparecen en (7.1). Vamos a ver a continuación cómo se representa
gráficamente cada uno de estos elementos.
Representación gráfica de la función de transferencia
7.2.1
103
Diagrama de Bode de una constante
La representación en el diagrama de Bode de una constante es inmediata y se
tiene en la figura 7.5.
K>1
Amplitud(dB)
20logK
0
K<1
-20logK
K(numero positivo)
Fase(grados)
0.0
-90.0
K(numero negativo)
-180.0
ω(rad/s)
Figura 7.5: Diagrama de Bode de una constante
7.2.2
Diagrama de Bode de una integración pura
El diagrama de Bode de una integración pura
G(jω) =
1
jω
viene dada por una recta de pendiente -20 decibelios por década (o -6 decibelios
por octava) y con un desfase constante igual a -90 grados
7.2.3
Diagrama de Bode de un sistema de primer orden
Sea el sistema de función de transferencia
1
1+
jω
p
Representación gráfica de la función de transferencia
104
Amplitud (dB)
20
0
-20dB/dec
-20
-40
Fase(grados)
90
0
-90
-180 -1
10
0
1
10
10
2
10
ω(rad/s)
Figura 7.6: Diagrama de Bode de una integración pura
Para estudiar su representación en el diagrama de Bode consideraremos, en primer
lugar, dos situaciones extremas:
•
ω¿p
En tal caso se tendrá que
1
20 log |
1+
jω
p
| ≈ 20 log 1 = 0dB
•
ωÀp
en cuyo caso
20 log |
1
jω
1+
p
| ≈ 20 log |
1
ω
| = −20 log
jω
p
p
Por tanto, la representación gráfica del módulo de G presenta dos ası́ntotas. Para
valores bajos de ω la ası́ntota es sencillamente la recta horizontal trazada en 0
dB; mientras que para valores altos de la frecuencia la ası́ntota es una recta de
pendiente -20 dB/década. Estas dos ası́ntotas se cortan en el punto ω = p.
Para completar la curva podemos considerar dos puntos interesantes:
Representación gráfica de la función de transferencia
105
Amplitud(dB)
20
0
1dB
-20
3dB
1dB
-40
Fase(grados)
0
-45
-90 -1
10
0
1
10
10
2
10
ω(rad/s)
Figura 7.7: Diagrama de Bode de un sistema de primer orden
• para ω/p = 0.5 se tiene |G(jω)| = −1 dB.
• para ω/p = 1 se tiene |G(jω)| = −3 dB.
Por lo que respecta a la fase no es posible hacer unas aproximaciones asintóticas
como las que acabamos de ver para la amplitud. No obstante, se dispone de una
plantilla que permite trazar la curva de fase correspondiente.
7.2.4
Diagrama de Bode de una diferenciación pura
El diagrama de Bode de un diferenciador puro
G(jω) = jω
se obtiene de forma similar al de un integrador puro. En la figura 7.8 se representa
el diagrama correspondiente. En este caso la curva de amplitud tiene pendiente
positiva y la de fase es positiva.
Representación gráfica de la función de transferencia
106
Amplitud(dB)
40
20
+20dB/dec
0
-20
Fase(grados)
90
45
0 -1
10
0
1
10
10
2
10
ω(rad/s)
Figura 7.8: Diagrama de Bode de una diferenciación pura
7.2.5
Diagrama de Bode del término asociado a un cero
El término asociado a un cero
G(jω) =
jω
+1
p
conduce, por consideraciones análogas a las que se han hecho para un sistema de
primer orden (asociado a un polo), tiene la forma que se muestra en la figura 7.9.
Combinando todo lo que se acaba de ver, y teniendo en cuenta las expresiones
(7.2 y (7.3), se puede obtener la representación gráfica de la función de transferencia del sistema cuya función de transferencia viene dada por la expresión
(7.1).
7.3
Sistemas de fase mı́nima
Un sistema con un cero con parte real positiva recibe la denominación de sistema
de fase no mı́nima, mientras que si todos ceros tienen parte real negativa recibe
la denominación de sistema de fase mı́nima. En los sistemas de fase no mı́nima
el valor que toma la fase es mayor, para un mismo valor de la frecuencia, que
Representación gráfica de la función de transferencia
107
Amplitud(dB)
40
+20dB/dec
20
1dB
3dB
1dB
0
Fase(grados)
90.0
67.5
45.0
22.5
0.0 -1
10
0
1
10
2
10
10
ω(rad/s)
Figura 7.9: Diagrama de Bode del término asociado a un cero
si todos los polos y ceros estuvieran en el semiplano de la izquierda (el sistema
fuera de fase mı́nima).
Im
Im
ω
−p
ω
G2 (s)
G1 (s)
0
z
Re
−z
−p
0
Re
Figura 7.10: Diagrama de polos y ceros de G1 y de G2
Con el fin de ilustrar el concepto de sistema de fase mı́nima considérense los
sistemas de función de transferencia:
G1 (s) =
s−z
s+p
(7.4)
G2 (s) =
s+z
s+p
(7.5)
y
Vamos a comparar los diagrams de Bode de estas dos funciones de transferencia.
Representación gráfica de la función de transferencia
108
Para ello considérese la figura 7.10. Es claro que
| G1 (jω) |=| G2 (jω) | ∀ω ≥ 0
y, por tanto, las curvas de amplitud en el diagrama de Bode serán las mismas
para las dos funciones de transferencia.
Sin embargo, por la que respecta a los argumentos es claro que se tendrá:
arg G1 (jω) ≥ arg G2 (jω) ∀ω ≥ 0
En la figura 7.11 se tienen las correspondientes curvas de fase. Se comprende la
denominación de sistema de fase mı́nima para G2 .
o
θ
180
o
90
G1(jω)
1
-1
10
0
10
10
2
10
ω
G2(jω)
o
-90
Figura 7.11: Curvas de fase en el diagrama de Bode de G1 y de G2
7.4
Cı́rculos M y N
Para proceder al diseño de sistemas realimentados, mediante métodos gráficos,
es necesario disponer de un método gráfico que permita pasar de la función de
transferencia en bucle abierto G(s) a la correspondiente a bucle cerrado T (s).
Como se sabe la expresión que liga a estas dos funciones de transferencia es la
siguiente
G(s)
T (s) =
1 + G(s)
Representación gráfica de la función de transferencia
109
Si se interpreta vectorialmente esta expresión se tendrá que el vector T (jω) tendrá
como módulo el cociente de los vectores G(jω) y 1 + G(jω), y como argumento
la diferencia de los argumentos de estos dos vectores. En la figura 7.12 se tienen
Im
(−1 + j0)
A
β
1+G
0
φ
G
α
Re
P
Figura 7.12: Diagrama polar de la función de transferencia, con vectores asociados
representados los correspondientes vectores. A partir de esta figura resulta que
para cada valor de ω el módulo de T (jω) se determinarı́a mediante el cociente de
las medidas de los segmentos OP y AP , y el argumento de T (jω) vendrı́a dado
por la expresión
arg C/R = α − β
(7.6)
Con el fin de facilitar la aplicación práctica de este método gráfico se procede
a definir en el plano polar un sistema de coordenadas curvilineas que permita
resolver gráficamente la determinación del módulo y el argumento de T (jω).
Para ello se procede a dibujar el lugar geométrico de los puntos para los que
el módulo (respectivamente el argumento) de T (jω) sea constante. Sea (x, y) un
punto genérico del plano complejo (figura 7.13). A partir de las figuras 7.12 y
7.13 se puede escribir
q
OP = x2 + y 2
q
AP =
(1 + x)2 + y 2
√ 2
OP
x + y2
M=
=q
AP
(1 + x)2 + y 2
Elevando al cuadrado esta expresión, y tras algunas manipulaciones algebráicas,
se tiene
M2
M2
y 2 + x2 + 2x 2
=− 2
M −1
M −1
Representación gráfica de la función de transferencia
110
Figura 7.13: Plano complejo
Sumando y restando a esta expresión
Ã
M2
M2 − 1
!2
se tiene
Ã
M2
M2
y 2 + x2 + 2x 2
+
M −1
M2 − 1
!2
Ã
=
M2
M2 − 1
!2
−
M2
M2 − 1
de donde se concluye
Ã
M2
y + x+ 2
M −1
2
!2
=
M2
M2 − 1
Esta expresión indica que el lugar geométrico en el plano complejo de los puntos
para los que el módulo de T (jω) es constante viene dado por un cı́rculo de centro
c=−
y de radio
¯
M2
M2 − 1
¯
¯ M
¯
¯
r = ¯¯ 2
M − 1¯
La familia de cı́rculos correspondientes a diferentes valores de M se tiene en
la figura 7.14. Esta figura admite una facil interpretación. Si en ella se dibuja
la función de transferencia en bucle abierto G(jω) entonces leyendo esta misma
curva en el sistema de coordenadas curvilı́neas definido por los cı́rculos M se
tiene el módulo de la función de transferencia en bucle cerrado T (jω). Por lo que
respecta a las fases, se puede proceder de manera análoga a como se ha hecho
con los módulos. En este caso se tiene que, de acuerdo con la expresión (7.6)
Representación gráfica de la función de transferencia
111
Im
Re
Figura 7.14: Cı́rculos M
0
−1 + j0
α
1+G
G
φ
Figura 7.15: Cı́rculos N
Representación gráfica de la función de transferencia
112
el argumento de T (jω) viene dado por el ángulo AP O en la figura 7.12. En la
figura 7.15 se representa el lugar geométrico de todos los ángulos AP O de valor
constante. Este lugar geométrico resulta ser un cı́rculo, de acuerdo con una bien
conocida propiedad de la geometrı́a, y el valor de este ángulo está perfectamente
definido en el cı́rculo y resulta ser de α/2, de acuerdo con la figura 7.15. Es decir
arg
G
α
1/2
= φ = = arctan
1+G
2
y
siendo
G
2 tan(φ)
De este modo se tiene definida otra familia de cı́rculos, los cı́rculos N , en los que
se puede leer la fase del sistema en bucle cerrado si se dibuja en coordenadas
polares la función de transferencia en bucle abierto.
y=
En la práctica no se emplean los cı́rculos M y N en el diagrama polar, sino su
traslación a un diagrama de coordenadas rectangulares, en el que se representa en
abcisas el logaritmo de ω y en coordenadas la relación de amplitudes en decibelios.
Este diagrama recibe la denominación de ábaco de Black, en libros europeos,
mientras que en libros americanos es frecuente que se denomine ábaco de Nichols.
7.5
Relación entre las constantes de error y los
polos y ceros.
Sea G(s) la función de transferencia en bucle abierto de un sistema con realimentación unitaria. La función de transferencia en bucle cerrado correspondiente
Td (s) será:
Td (s) =
Y (s)
G(s)
=
R(s)
1 + G(s)
(7.7)
y la relación entre la señal de error y la referencia vendrá dada por
1
E(s)
=
R(s)
1 + G(s)
(7.8)
Supóngase que los polos de Td (s) se denotan por −pi y que los ceros se hacen
por −ci . En tal caso se tiene:
Representación gráfica de la función de transferencia
Td (s) =
113
k(s + c1 ) (s + c2 ) · · · (s + cm )
(s + p1 ) (s + p2 ) · · · (s + pn )
(7.9)
Por otra parte desarrollando en serie E(s) /R(s) se tiene:
E(s)
= eo + e1 s + e2 s2 + · · ·
R(s)
(7.10)
Se van a estudiar a continuación las relaciones entre las constantes de posición
kp , velocidad kv , y aceleración ka y los polos y ceros de Td (s).
7.5.1
Seguimiento de posición.
Supóngase una entrada en escalón de posición, de manera que R(s) = 1/s. En
tal caso (7.10) se convierte en
E(s) =
eo
+ e1 + e2 s + ...
s
(7.11)
Es decir que
sE(s) = eo + e1 s + e2 s2 + ...
(7.12)
Por lo tanto aplicando el teorema de valor final, el valor del error en régimen
permanente erp será:
erp = limt → ∞ e(t) = lims → 0 sE(s) = lims → 0
1
= eo
1 + G(s)
(7.13)
Definiendo la constante de error de posición kp como
kp = lims → 0 G(s)
se tiene que e0 viene dado por
(7.14)
Representación gráfica de la función de transferencia
eo =
1
1 + kp
114
(7.15)
Por otra parte puesto que
E(0)
1
= lim
R(0) s → 0 1 + G(s)
(7.16)
Y considerando (7.10), es decir e0 = E(0) / R(0), se tendrá que
E(0)
1
=
R(0)
1 + kp
(7.17)
Y (s)
E(s)
=1−
R(s)
R(s)
(7.18)
Además se sabe que
A partir de (7.17) y (7.18), haciendo s = 0, se obtiene
Y (0)
kp
=
R(0)
1 + kp
(7.19)
de donde, resolviendo para kp , se tiene
kp =
Y (0) / R(0)
1 − Y (0) / R(0)
(7.20)
Por otra parte se tiene que haciendo s = 0 en (7.7) se llega a
cj
k Πm
Y (0)
= n j=1
R(0)
Πj=1 Pj
en donde
(7.21)
Representación gráfica de la función de transferencia
115
Πm
j=1 Cj = producto de ceros
Πnj=1 Pj = producto de polos
Llevando (7.21) a (7.20) se tiene la siguiente expresión en donde kp está expresada en función de los polos y ceros.
kp =
k Πm
j=1 Cj
n
Πj=1 Pj − kΠm
j=1 Cj
(7.22)
En la práctica tiene un especial interés la consideración de los sistemas de tipo
1 en bucle abierto. Este caso se presenta cuando se estudian los servomecanismos
de posición. Para los sistemas de tipo uno, o superior, recordando la expresión
(8), es inmediato que kp tiende a infinito. En tal caso, y de acuerdo con (9) es
claro que e0 = 0. Por ello considerando (7.10) y (12) se tendrá que
Y (s)
E(s)
=1−
= 1 − e1 s − e2 s2
R(s)
R(s)
(7.23)
Obsérvese que haciendo s = 0 se tiene
Y (0)
=1
R(0)
(7.24)
lo que significa que en régimen permanente no existe error de seguimiento,
cosa que era sabida para los sistemas de tipo uno.
Haciendo s = 0 en la expresión (7.9), y teniendo en cuenta (7.24) se tendrá
que
1=
k × c1 ......cm
p1 p2 ......pn
(7.25)
Esta expresión muestra la relación existente entre los polos ceros y la constante
k de un sistema en bucle cerrado para que el error de seguimiento en posición sea
nulo.
La constante de posición kp es adimensional.
Representación gráfica de la función de transferencia
7.5.2
116
Seguimiento de velocidad.
Sea un sistema con error de seguimiento en posición nulo (eo = 0) y supóngase
que se le aplica una entrada en rampa de manera que R(s) = 1/s2 . En tal caso
se tiene que E(s) vendrá dado por
E(s) =
1/s2
e1
=
+ e2 + ....
1 + G(s)
s
(7.26)
Aplicando el teorema del valor final se tendrá que el error en régimen permanente a una rampa será
erp = lim e(t) = lim sE(s)
t→∞
s→0
1
s→0 s + sG(s)
1
= lim
= e1
s→0 sG(s)
= lim
Se define la constante de error de velocidad kv como
kv = lims → 0 sG(s)
(7.27)
de manera que e1 vendrá dada por
e1 =
1
kv
(7.28)
La constante de seguimiento en velocidad kv tiene un valor finito para sistemas
en bucle abierto de tipo 1, es decir, para sistemas con una integración pura. En
tal caso se tiene que e0 = 0, con lo que se tiene, habida cuenta de la expresión
(7.10).
Y (s)
= 1 − e1 s − e2 s2 − ....
R(s)
Derivando esta expresión con relación a s, y haciendo s = 0, se tiene
Representación gráfica de la función de transferencia
Ã
d Y (s)
ds R(s)
!
= −e1 = −
s=0
117
1
kv
(7.29)
Si, además se tiene presente que para sistemas de tipo 1
Ã
Y (s)
R(s)
!
=
s=0
Y (0)
=1
R(0)
a partir de las dos expresiones anteriores
1
=
kv
−
³
d
ds
(Y (s)/R(s))
´
(Y (s)/R(s))s=0
s=0
Ã
d
Y (s)
=−
ln
ds
R(s)
!
(7.30)
s=0
Llevando la anterior expresión a (7.10) se tiene que
Ã
!
1
d
=−
(ln k + ln(s + c1 ) + .. − ln(s + p1 ) − ..)
kv
ds
s=0
(7.31)
lo que puede escribirse
1
1
1
= −(
+ .... −
− ...)s = 0
kv
s + c1
s + p1
o de forma más compacta
n
m
X
X
1
1
1
=
−
kv
i=1 pi
j=1 cj
(7.32)
Por consiguiente 1/kv es igual a la suma de los inversos de los polos menos la
suma de los inversos de los ceros, todo en bucle cerrado.
Si se quiere que el error de seguimiento en velocidad sea nulo se requerirá que
kv tienda a infinito, en cuyo caso se tendrá que
Representación gráfica de la función de transferencia
n
X
1
j=1
pj
=
m
X
1
j=1
cj
118
(7.33)
Ejemplo.
Sea un sistema de segundo orden cuya función de transferencia en forma normalizada se escribe
ωn2
Y (s)
= 2
R(s)
s + 2δωn s + ωn2
Este sistema presenta un error de seguimiento en posición igual a cero, es decir
Y (0)/R(0) = 1. Por lo tanto interesa calcular kv en función de los parámetros
ωn y√δ. Los polos de la anterior función de transferencia serán p1,2 = −δωn ±
jωn 1 − δ 2 y por lo tanto aplicando la expresión (7.32) se tendrá que
kv =
ωn
2δ
(7.34)
La constante de velocidad kv tiene dimensión de seg −1 . En efecto
erp =
ω
kv
y como erp se mide en metros (o radianes) y ω en metros por segundo (o rad
/ seg) se tendrá que kv vendrá dada por seg −1 .
7.5.3
Seguimiento de aceleración
Sea un sistema con errores de seguimiento de posición y velocidad nulos. Para el
estudio de un seguimiento en aceleración se procede de forma similar a como se
ha hecho anteriormente. Si se supone una entrada en aceleración se tendrá que
R(s) = 1/s3 , con lo que el valor de E(s) será
E(s) =
e2
+ e3 + s e4 + ...
s
(7.35)
Representación gráfica de la función de transferencia
119
Aplicando nuevamente el teorema del valor final se tendrá que el error de
seguimiento en aceleración cuando el tiempo tiende a infinito será
erp = lims→0 s E(s) = e2
Y definiendo la constante de error en aceleración ka como
ka = lims→∞ s2 G(s)
se tendrá que
e2 =
1
ka
Tomando la segunda derivada de (29) se tendrá que
Ã
d2
Y (s)
ln
2
ds
R(s)
!
Ã
(Y /R)”
(Y /R)1
=
−
Y /R
Y /R
!2
de donde es fácil de deducir haciendo s = 0, que
m
n
X
X
2
1
1
1
− = 2+
−
2
2
ka
kv j=1 pj
j=1 cj
expresión que permite calcular la constante de velocidad ka .
La constante de aceleración ka tiene dimensión seg −2 .
7.5.4
Sistemas con error nulo
Supóngase que la función de transferencia de un sistema en bucle cerrado viene
dada, en forma normalizada, por la expresión siguiente
bo sm + · · · + bm−1 s + bm
Y (s)
= n
R(s)
s + a1 sn−1 + · · · + an−1 s + an
(7.36)
Representación gráfica de la función de transferencia
120
Esta expresión, considerada como cociente de dos polinomios, puede desarrollarse en serie, de la forma siguiente:
bo sm + · · · + bm−1 s + bm
Y (s)
= n
R(s)
s + a1 sn−1 + · · · + an−1 s + an
= co + c1 s + c2 s2 + · · ·
La determinación de los coeficientes ci del desarrollo en serie, puede hacerse
fácilmente multiplicando ese desarrollo en serie por el denominador de la función
de transferencia, e igualando coeficientes entre ambos miembros. Con ello se
obtiene que
co =
c1 =
bm
an
(7.37)
bm−1 co − an−1
bm
Recordando la expresión (7.10) se tiene que el error vendrá dado por
E(s)
T (s)
=1−
R(s)
R(s)
Si se supone una entrada en escalón R(s) = 1/s, entonces es evidente que el
error será nulo en régimen permanente si c0 = 1, es decir, si an = bm .
Por consiguiente es necesario que bm = an para que el error en régimen estacionario sea nulo, cuando se aplica como señal de entrada una señal en escalón.
Para obtener un error de seguimiento en posición nulo, para un sistema cuya
función de transferencia sea de la forma (30), existen distintas formas posibles.
Si el numerador consiste únicamente en una constante, entonces la forma que se
obtiene es única y es la siguiente
an
Y (s)
= n
R(s)
s + · · · + an−1 s + an
(7.38)
Representación gráfica de la función de transferencia
121
Supóngase que c0 = 1. En tal caso, c1 se convierte en
c1 =
bm−1 − an−1
bm
(7.39)
Ahora suponiendo una entrada en rampa, el error tendrá un valor nulo en
régimen permanente si an−1 = bm−1 . En tal caso una forma posible para la
función de transferencia en bucle cerrado es
Y (s)
an−1 s + an
= n
n−1
R(s)
s + a1 s
+ · · · + an−1 s + an
(7.40)
Estas expresiones se pueden generalizar para entradas de orden superior. El
interés de las mismas radica en que permite especificar el numerador, a partir
de consideraciones de comportamiento en régimen permanente, partiendo del
denominador, obtenido por consideraciones de comportamiento transitorio.
Tema 8
Estabilidad de los sistemas
dinámicos
8.1
Introducción
La estabilidad es una propiedad cualitativa de los sistemas dinámicos a la que
cabe considerar como la más importante de todas. Ello es debido a que, en la
práctica, todo sistema debe ser estable. Si un sistema no es estable, normalmente
carece de todo interés y utilidad.
El estudio de la estabilidad de los sistemas dinámicos ocupa un lugar primordial en el análisis y en la sı́ntesis de los sistemas realimentados. De hecho, la
sı́ntesis de un sistema de control estará presidida por un imperativo de estabilización del sistema realimentado que resulte.
El presente capı́tulo se va a dedicar al análisis de la estabilidad de los sistemas
dinámicos, es decir, a establecer criterios que permitan discernir si un determinado
sistema dinámico, dado en una cierta forma de representación matemática, es
estable o no. En capı́tulos posteriores se estudiarán las modificaciones a introducir
en los sistemas dinámicos para modificar su estabilidad.
El estudio de la estabilidad de los sistemas dinámicos, se hará atendiendo a la
forma de representación adoptada; en este sentido se estudiará en primer lugar la
estabilidad de los sistemas dinámicos dados por su descripción externa, y luego
se hará el estudio para la descripción interna de los mismos.
122
Estabilidad de los sistemas dinámicos
123
Al mismo tiempo se verá a lo largo de este capı́tulo cómo existen distintas
definiciones de estabilidad, lo que da lugar a distintos criterios, asociados a las
distintas definiciones. No obstante, se verá que pese a la aparente diversidad de
definiciones y criterios, existe una profunda unidad subyacente en todo el tema.
8.2
Criterios de estabilidad relativos a la descripción externa
Una forma intuitiva de afrontar el problema de la estabilidad de un sistema
es considerar que éste será estable si las distintas magnitudes que lo definen no
alcanzan valores infinitos. Basados en esta idea intuitiva se puede dar la siguiente
definición precisa de estabilidad.
Definición
Un sistema, inicialmente en reposo, se dice estable si ante cualquier señal de
entrada acotada, es decir, que no alcanza valores infinitos, responde con una señal
de salida acotada.
Formalmente se dice de una señal x(t), definida en un cierto intervalo (t0 , t1 ),
que está acotada en dicho intervalo, si para todo t ε (t0 , t1 ) existe un valor k < ∞
tal que |x(t)| < k
De una forma más compacta puede decirse que un sistema es estable si,
señal de entrada acotada ⇒ señal de salida acotada.
Desde un punto de vista intuitivo esta definición de estabilidad es satisfactoria;
tiene, además, la ventaja adicional de que conduce a resultados matemáticos
interesantes, según se verá en lo que sigue.
Para el caso de sistemas multivariables esta definición es igualmente válida,
sustituyendo las señales de entrada y de salida por los vectores de señales de
entrada y de salida.
En los libros anglosajones a la estabilidad anteriormente definida se la llama
”estabilidad BIBO” (bounded-input bounded-output).
Estabilidad de los sistemas dinámicos
124
Si se adopta la forma de descripción externa dada por la integral de convolución, es decir, si la relación entre la señal de entrada u(t) y la señal de salida
y(t) está dada por una expresión de la forma,
y(t) =
Z t
−∞
h(t, τ ) u(τ ) dτ
(8.1)
entonces el criterio de estabilidad de un sistema viene dado por el siguiente
teorema.
Teorema
Un sistema, inicialmente en reposo, representado por una expresión de la
forma (8.1) es estable si y sólo si existe un número finito k tal que para todo t,
Z t
−∞
| h(t, τ ) | dτ ≤ k < ∞
(8.2)
Demostración
1. Suficiencia
Se trata de demostrar que si se cumple la condición (8.2), entonces ante
una señal de entrada acotada, | u(t) |< k1 para todo t, la señal de salida
y(t) es también acotada. En efecto, se tiene:
| y(t) |=|
Z t
−∞
h(t, τ ) u(τ )dτ |≤
≤ k1
Z t
−∞
Z t
−∞
| h(t, τ ) | u(τ ) | dτ
| h(t, τ ) | dτ ≤ kk1
2. Necesidad
Se trata de demostrar que si las señales de entrada u(t) y de salida y(t) son
acotadas, entonces siempre se cumple la expresión 8.2. Ello es equivalente
a demostrar que si no se cumple la expresión 8.2 entonces pueden existir
señales de salida y(t) que no esten acotadas aunque lo esté la señal de
entrada u(t).
Supóngase que la expresión (8.2) no se cumple, es decir
Estabilidad de los sistemas dinámicos
Z t
−∞
125
| h(t1 , τ ) | dτ = ∞
Si a este sistema se le aplica la siguiente señal de entrada se tiene una salida
no acotada. En efecto, sea
u(t) = sgn[h(t1 , τ )]
en donde,



0 si x = 0
1 si x > 0

−1 si x < 0
sgn x = 
Es claro que u(t) es acotada. Sin embargo la señal de salida del sistema no
lo es,
y(t1 ) =
Z t1
−∞
h(t1 , τ ) u(τ ) dτ =
Z t1
−∞
| h(t1 , τ ) | dτ = ∞
Queda demostrado la necesidad de que se cumpla la expresión (8.2) para
que el sistema sea estable.
Para sistemas multivariables el anterior resultado se generaliza diciendo que
un sistema será estable si la propiedad de la expresión (8.2) se cumple para cada
uno de los elementos de la matriz H(t, τ ).
Para sistemas invariantes en el tiempo la expresión (8.1) se convierte en
y(t) =
Z t
0
h(t − τ ) u(τ ) dτ
(8.3)
Y la expresión (8.2) se convierte en,
Z ∞
0
| h(τ ) | dτ < k < ∞
(8.4)
Para sistemas invariantes en el tiempo, la forma de descripción externa usualmente empleada es la función de transferencia. Interesa enunciar un criterio de
Estabilidad de los sistemas dinámicos
126
estabilidad en términos de dicha función de transferencia. Es lo que se hace en el
siguiente teorema.
Teorema
Un sistema lineal y estacionario, representado por una función racional propia
G(s) es estable si y sólo si, todos los polos de G(s) están situados en el semiplano
izquierdo abierto del plano s.
Una forma equivalente de expresar lo anterior es decir que los polos de G(s)
tienen la parte real negativa.
En el semiplano izquierdo abierto, a que se alude en el anterior teorema, se
excluye el eje imaginario. Si se incluye este eje imaginario se habla del semiplano
izquierdo cerrado.
Demostración
Si G(s) es una función racional propia entonces puede desarrollarse en fracciones parciales, de manera que se descompone en la suma de un número finito
de términos de la forma,
K
(s − pi )l
Y además, posiblemente, una constante pi denota un polo de G(s).
Al hallar la antitransformada de Laplace de G(s) se tiene que g(t) es la suma
de un número finito de términos de la forma t`−1 epi t y, además, una posible
función δ de Dirac. Es fácil demostrar que t`−1 epi t es absolutamente integrable
si y sólo si pi tiene la parte real negativa. Por lo tanto el sistema G(s) será estable
si y sólo si todos los polos de G(s) tienen la parte real negativa.
• Ejemplo 1
Sea el sistema cuya función de transferencia es G(s) = 1/s. Este sistema no
es estable, de acuerdo con las anteriores definiciones. En efecto, considérese
una señal de entrada en escalón U (s) = 1/s. Se tendrá que la señal de
salida será Y (s) = 1/s2 . Por lo tanto
y(t) = L−1 (1/s2 ) = t
la señal de salida y(t) no es acotada y por lo tanto el sistema no es estable.
Estabilidad de los sistemas dinámicos
127
• Ejemplo 2
Según la definición anterior un oscilador simple es un sistema inestable. En
efecto, considérese el sistema cuya función de transferencia es G(s) = 1/(1+
s2 ) que corresponde a un oscilador. La respuesta impulsional correspondiente es g(t) = sen t, la cual se representa en la figura 8.1 (a). Supóngase
ahora que se aplica a dicho sistema una señal de entrada periódica rectangular, de amplitud unidad y de periódo el mismo del oscilador, tal como la
de la figura 8.1 (b). La señal de salida viene dada por la expresión 8.3.
Supóngase ahora que en la expresión 8.3 se hace t = 0. El producto de
señales g(−τ ) u(τ ) está representado en la figura 8.1 (c). Es claro que y(0)
es precisamente el área cubierta por dicha curva, cuando τ tiende a infinito.
Por lo tanto y(0) = ∞. Es decir, el sistema es inestable.
A este mismo resultado se llega inmediantamente considerando los polos de
la función de transferencia, que resultan estar situados en el eje imaginario.
Para sistemas multivariables se generalizan inmediatamente los anteriores resultados diciendo que un sistema multivariable definido por una matriz de transferencia G(s) será estable si cada uno de sus elementos satisface el anterior teorema.
Sea la función de transferencia de la forma:
H(s) =
b(s)
b0 sm + b1 sm−1 + · · · + bm
=
n
n−1
s + a1 s
+ · · · + an
a(s)
(8.5)
Figura 8.1:
Para determinar si H(s) es estable o no, es necesario:
1. comprobar si m < n;
2. determinar si las raices de a(s) están situadas en el semiplano abierto negativo.
Para comprobar si las raices de un determinado polinomio se encuentran en el
semiplano abierto negativo, se aplica el criterio de Routh-Hurwitz que se estudia
en el apartado siguiente.
Estabilidad de los sistemas dinámicos
8.2.1
128
Criterio de Routh-Hurwitz
Una función de transferencia T (s) representa a un sistema estable si sus polos
se encuentran en el semiplano izquierdo negativo. Por lo tanto el problema del
análisis de la estabilidad de un sistema se reduce al del análisis de los ceros del
polinomio del denominador.
Un polinomio se denomina un polinomio de Hurwitz si todas sus raices tienen
la parte real negativa. Por lo tanto el problema de la estabilidad se reduce al de
determinar si el polinomio del denominador es, o no, un polinomio de Hurwitz.
El método directo de comprobar si un determinado polinomio es o no un polinomio de Hurwitz consiste en determinar todas las raices de dicho polinomio. Este
procedimiento puede ser, además de excesivamente laborioso, inútil por cuanto
que suministra una información superior a la que se requiere. No se trata de
saber cuales son las raices, sino, simplemente, si su parte real será negativa o no.
El método de Routh-Hurwitz, permite determinar si las partes reales de las
raices serán negativas o no sin necesidad de determinarlas. Considérese un polinomio como el siguiente:
sn+1 + a1 sn + · · · + an
(8.6)
Para determinar si el anterior polinomio tiene raices con parte real negativa
se procede como sigue:
1. Si algún coeficiente del polinomio es negativo o cero, entonces existe al
menos una raiz en el semiplano cerrado derecho. El sistema es, por lo
tanto, inestable.
2. En el caso de que no se cumplan los supuestos de 1), se procede a construir
la siguiente tabla:
¯
n + 1 ¯¯ 1 a2 a4 . . .
¯
n
¯ a1 a3 a5 . . .
¯
n − 1 ¯¯ β1 β2 β3
(8.7)
n − 2 ¯¯ γ1 γ2 γ3
¯
. . . ¯¯ . . .
¯ ρ1
1
en donde la generación de las distintas filas se hace como sigue, a partir de
los elementos de las dos anteriores
Estabilidad de los sistemas dinámicos
β1 =
129
a1 a2 − a3 · 1
a1
(8.8)
β2 =
a1 a4 − a5 · 1
a1
La tabla anterior recibe la denominación de tabla de Routh, y el algoritmo que
permite su construcción se denomina algoritmo de Routh. Independientemente
de los trabajos de Routh, que publicó originalmente el algoritmo que conduce a la
construcción de la tabla anterior, Hurwitz publicó un criterio de estabilidad, que
se estudiará en una sección posterior de este tema, que esencialmente coincide
con el de Routh. Por ello el criterio lleva conjuntamente el nombre de los dos
autores.
Toda fila depende de las dos filas precedentes. Se procede sucesivamente a
determinar filas hasta que se determine una cuyos elementos sean todos 0. Para
un polinomio de orden n se determinan n + 1 filas.
El criterio de estabilidad de Routh-Hurwitz dice que el polinomio tiene sus
raices en el semiplano abierto negativo si todos los elementos de la primera
columna son positivos y no nulos. El número de cambios de signo en la primera
columna es igual al número de raices del polinomio (8.6) en el semiplano positivo
abierto.
Ejemplo
Sea el polinomio s4 + 5s3 + 3s2 + s + 2 = 0. Para determinar el número de
raices en el semiplano positivo, se construye la tabla de Routh y se tiene,
4
3
2
1
0
¯
¯
1
¯
¯
¯
5
¯
¯ 14/5
¯
¯
¯ −36/14
¯
¯
2
3 2
1 0
2
0
como hay dos cambios de signo en la primera columna existirán dos raices en
el semiplano derecho. Por consiguiente el sistema es inestable.
En la práctica el criterio de Routh-Hurwitz se aplica para determinar si el
sistema es estable o no y, en general, no interesa saber el número de raices en el
Estabilidad de los sistemas dinámicos
130
semiplano positivo abierto. Por lo tanto, cuando lo único que interese sea conocer
si el sistema será estable o no, se procederá a construir la tabla de Routh hasta
encontrar un elemento de la primera columna que sea negativo o cero. Cuando
aparezca un elemento negativo o nulo, se suspenderá la construcción de la tabla,
y se dictaminará que el sistema es inestable.
En el caso de que interesase conocer cuantas raices existirán en el semiplano
positivo, o en el eje imaginario, se procede a construir la tabla de Routh completa.
En la construcción de la tabla de Routh, para el caso en que interese completarla
aún cuando aparezcan elementos nulos en la primera columna, se presentan los
dos casos singulares siguientes :
1. Aparece un 0 en la primera columna, siendo no nulos los otros elementos
de la misma fila.
2. Aparece una fila con todos los elementos nulos, antes de llegar a la fila n+2.
En el primer caso se sustituye el 0 por un número arbitrariamente pequeño ε.
Se completa la tabla y se calcula el lı́mite de los elementos en los que aparezca
haciendo ε → 0.
Ejemplo
Considérese el polinomio: s4 + s3 + 2s2 + 2s + 3
Al construir la tabla de Routh se encuentra un cero en la primera columna,
en la fila dos. Se sustituye este cero por ε y se procede a completar la tabla, que
resulta la siguiente:
¯
4 ¯¯ 1
2 3
¯
3 ¯¯ 1
2
¯
2 ¯ 0→ε 3
1 ¯¯ 2ε−3
¯ ε
0 ¯ 3
Una vez construida la tabla se determina el lı́mite de aquellos elementos en la
primera columna en los que aparezca ε, cuando ε → 0. El elemento correspondiente a la fila 1 tiene el siguiente lı́mite,
lim
ε→0
2ε − 3
= −∞
ε
Estabilidad de los sistemas dinámicos
131
Por lo tanto, la primera columna queda como sigue:
1
1
0
−∞
3
Se presentan dos cambios de signo en la primera columna, y por consiguiente
el sistema tiene dos raices en el semiplano derecho, y es inestable.
El segundo caso particular más arriba enunciado, es decir, el caso en que
se presente toda una fila de ceros, indica que el polinomio tiene, al menos, un
factor par. Es decir, que existe un par de raices reales simétricas con respecto
al eje imaginario, que existen dos raices imaginarias puras conjugadas, o que
existen cuatro raices complejas situadas simétricamente con relación al origen.
Cuando esto sucede se procede a formar una ecuación subsidiaria a partir de los
coeficientes de la fila anterior a aquella en la que todos los elementos sean nulos.
La expresión ası́ obtenida resulta ser el factor par del polinomio. Para obtener
la fila siguiente, en la tabla de Routh, se procede a derivar esta expresión una
vez con respecto a s y situar sus coeficientes en la fila cuyos elementos se habı́an
anulado. A partir de esta sustitución se prosigue la construcción de la tabla de
Routh normalmente. Un ejemplo ayudará a fijar ideas.
Ejemplo
Considérese el siguiente polinomio: s4 + 3s3 + 3s2 + 3s + 2
Si se construye la tabla de Routh correspondiente al llegar a la fila 1, se
encuentra que todos los elementos son ceros. En efecto
4
3
2
1
¯
¯
¯
¯
¯
¯
¯
¯
¯
1
3
2
0
3 2
3 0
2
0
La ecuación subsidiaria que se obtiene empleando los coeficientes de la segunda
fila es la siguiente:
2s2 + 2 = 0
Estabilidad de los sistemas dinámicos
132
que corresponde al factor par s2 + 1. La derivada de la ecuación subsidiaria
es 4s. Por lo tanto la tabla se completa como sigue
4
3
2
1
0
¯
¯
¯
¯
¯
¯
¯
¯
¯
¯
¯
¯
1
3
2
4
2
3 0
3 0
2
0
De la observación de esta tabla se desprende que el polinomio considerado
no tiene raices en el semiplano positivo. La factorización del polinomio anterior
conduce a,
(s2 + 1) (s + 2) (s + 1)
El anterior ejemplo muestra qué sucede cuando el polinomio en cuestión tiene
raices en el eje imaginario. En tal caso estas raices dan lugar a un factor par, de
la forma del que aparece en el ejemplo, que se pone de manifiesto al aparecer una
fila de ceros en la tabla de Routh. Procediendo como se ha hecho en el ejemplo,
se elimina la fila de ceros y se tiene una tabla de Routh que indica, por medio
de los cambios de signos si existen raices en el semiplano derecho. Obsérvese
que aunque no existan raices en el semiplano derecho, como sucede en el ejemplo
anterior, el sistema será inestable, puesto que existen raices en el eje imaginario.
La aplicación de las dos reglas anteriores, a los dos casos singulares que se
acaban de discutir, debe tomarse con ciertas reservas. En particular, la aplicación
de la primera regla (introducción de pequeños parámetros ε) sólo está justificada
cuando el polinomio no tiene raices sobre el eje imaginario. En el libro Theorie
des matrices de Gantmacher, pág. 181, se tiene un ejemplo de un caso al que la
aplicación de las reglas no es válida. Ello, sin embargo, no debe preocupar puesto
que lo que normalmente interesa de la aplicación del criterio de Routh-Hurwitz
es, sencillamente, determinar si el sistema será estable o no, lo cual puede hacerse
en todo caso sin ninguna ambiguedad, detectando si existe algún cero o algún
cambio de signo en la primera columna de la tabla de Routh.
El criterio de Routh-Hurwitz suministra una determinación rápida de la estabilidad absoluta de un sistema. Sin embargo no suministra ninguna indicación
respecto a la posibilidad de alterar la situación de las raices. Su principal interés
reside en su empleo como un paso previo, antes de aplicar otros métodos.
Estabilidad de los sistemas dinámicos
8.2.2
133
Matriz de Hurwitz
El criterio de Routh-Hurwitz, objeto del apartado anterior, en realidad fue desarrollado originalmente por Routh. Sin embargo es completamente análogo al
desarrollado por Hurwitz, al que se va a dedicar este apartado.
Sea un polinomio a(s) tal como:
a(s) = sn + a1 sn−1 + · · · + an−1 s + an
(8.9)
Se define la matriz de Hurwitz como la matriz formada por los coeficientes
del anterior polinomio, siguiente:





H=





a1 a3
1 a2
0 a1
0 1
.. ..
. .
0 0
a5
a4
a3
a2
..
.
...
...
...
...
0
0
0
0
..
.
0
0
0
0
..
.
0
. . . an−2 an











(8.10)
El criterio de estabilidad de Routh-Hurwitz se puede enunciar diciendo que
el polinomio a(s) es un polinomio de Hurwitz si y sólo si los menores principales
diagonales de H son todos positivos. Los menores principales diagonales de H
son los siguientes:
H1 = a1
Ã
H2 = det
a1 a3
1 a2

H3
!

a1 a3 a5


= det  1 a2 a4 
0 a1 a3
(8.11)
Hn = det H
Si en la tabla de Routh los elementos de la primera columna se denotan por α1 ,
β1 , γ1 . . . p1 , entonces es posible demostrar, después de algunas manipulaciones
Estabilidad de los sistemas dinámicos
134
algébricas, que,
H1 = α1
H2 = α1 β1
H3 = α1 β1 γ1
(8.12)
Por ello es evidente que el procedimiento de determinar H1 , H2 , . . . , Hn y ver
si son positivos no nulos es equivalente al de construir la tabla de Routh. Los
determinantes H1 , H2 , . . . reciben la denominación de determinantes de Hurwitz.
Para aplicaciones prácticas se recomienda emplear el método tabular de Routh,
por ser más simple que la determinación de las matrices de Hurwitz.
8.3
Criterio de Nyquist
El criterio de Routh permite analizar la estabilidad de un sistema lineal a partir
de los coeficientes de la ecuación caracterı́stica. El criterio de Nyquist (1932)
permite realizar un análisis de la misma naturaleza a partir de la representación
gráfica de la función de tranferencia.
Este criterio está basado en un teorema de Cauchy. Consideres una función
racional F (s) (formada por un cociente de polinomios en s). Si s representa a la
variable compleja s = σ + jω entonces F (s) aplica el plano complejo s sobre un
plano complejo definido por las partes reales e imaginaria de F (s) (figura 8.2),
ImF (s)
jω
C
F (C)
Z=3
P =1
σ
ReF (s)
Figura 8.2: Teorema de Cauchy
de modo que a cada ”vector” de s se corresponde un vector de F (s). Conviene
Estabilidad de los sistemas dinámicos
135
recordar que el argumento del vector F (s) se forma de la manera siguiente. En
el plano s se definen los vectores que unen los polos y ceros de F (s) con el punto
genérico s. Pues bien, es facil ver que el argumento de F (s) se forma sumando
los argumentos de los vectores desde los ceros y restando los argumentos de los
vectores desde los polos (figura 8.3).
Figura 8.3: Aplicación del contorno C1 : (a) C1 no rodea ningún polo ni cero; (b)
C1 rodea un polo
Supóngase ahora que se define una curva cerrada C en el plano s y la correspondiente curva imagen F (C) en el plano F (s). Supóngase, además, que la curva
C se recorre en un determinado sentido (por ejemplo, el de las agujas del reloj).
A la curva imagen F (C) se asociará tambien un sentido.
El teorema de Cauchy establece que el número de veces que la curva F (C)
rodea al origen (tomando el sentido positivo el de las agujas del reloj) es igual a
la diferencia entre el número de ceros y el de polos que encierra la curva C en el
plano s. Es decir,
N =Z −P
en donde N es el número de veces que la curva F (C) rodea al origen, y Z y
P representan, respectivamente, el número de ceros y de polos contenidos en la
curva C en el plano s.
Nyquist basó su criterio en una aplicación muy ingeniosa del teorema de
Cauchy. Consideró un sistema realimentado con realimentación unitaria, como
el de la figura 8.4. La función de transferencia del sistema en bucle cerrado
correspondiente viene dado por la expresión
T (s) =
G(s)
1 + G(s)
Estabilidad de los sistemas dinámicos
U
+
136
Y
H(s)
-
Figura 8.4: Sistema realimentado con realimentación unitaria
de esta expresión resulta claro que los polos de T (s) son los ceros de 1 + G(s).
Para estudiar la estabilidad de un sistema en bucle cerrado Nyquit propuso
definir en el plano s la curva cerrada C que se muestra en la figura 8.5, y que
recibe la denominación de contorno de Nyquist. Este contorno rodea el semiplano
de parte real positiva del plano complejo. Es decir, la región del plano complejo
en la que no debe haber polos de la función de transferencia en bucle cerrado, si
se quiere que el sistema sea estable.
jω
ImH(s)
A
H(s)
C
H(C)
1 + H(s)
R=∞
−1
0
σ
ReH(s)
B
Figura 8.5: Contorno de Nyquist C para estudiar la estabilidad
Hemos visto que los polos de la función de transferencia en bucle cerrado T (s)
son los ceros de 1 + G(s). Por tanto, la estabilidad del sistema en bucle cerrado
estará garantizada si no existe ceros de 1 + G(s) en el interior del contorno de
Nyquist.
Estabilidad de los sistemas dinámicos
137
Veamos ahora cómo se construye la función G(s). Para ello basta observar que
el contorno de Nyquist se compone de tres partes. La recta OA que corresponde
al eje imaginario del plano complejo y que, por tanto, corresponde a la función de
transferencia G(jω) para valoreS positivos de ω. La recta BO correspondiente a
la parte negativa del eje imaginario. Y, por último, a la curva que une AB, que
se encuentra situada en el infinito del semiplano positivo del plano s. Por tanto,
al recorrer OA, se está recorriendo G(jω) para valores de ω de cero a infinito.
Análogamente, al recorrer BO se está recorriendo G(jω) desde menos infinito a
cero. Por último, al recorrer de A a B se está en valores de s con módulo infinito.
En este último caso, si G(jω) es tal que elgrado del polinomio del numerador es
menor que el del denominador, esta función tomará el valor cero.
Aplicando el teorema de Cauchy, para el caso F (s) = 1 + G(s), se puede decir
que un sistema realimentado, con realimentación unitaria, es estable si y sólo si
G(C) rodea al punto crı́tico s = −1, en el sentido de las agujas del reloj, un
número de veces igual al número de polos inestables de la función de tranferencia
G(s).
Conviene observar que la parte de G(C) correspondiente al semieje imaginario
[0, j∞] es, en realidad, la representación polar de la función de transferencia G(s).
Ası́ mismo, la parte correspondiente al semieje imaginario negativo [−j∞, 0] es
simétrica con relación a esa representación polar. Por lo que respecta a la parte
correspondiente al semicı́rculo de radio infinito (y eventualmente a un semicı́rculo
infinitesimal que rodee al origen) es evidente que si la función de transferencia es
tal que el grado del numerador es inferior a del denominador, se reduce a un punto.
Por todo ello, el trazado de G(C) es inmediato conociendo la representación polar
de la función de transferencia G(jω).
Por ejemplo, en 8.6a se tiene la representación de la función de transferencia
G(s) =
1
(1 + τ s)
A partir de esta representación gráfica, se desprende que G(C) tendrá la forma
que se indica en la figura 8.6b. Aplicando el criterio de Nyquist se tiene que este
sistema es estable (lo que sucede para todos los sistemas de primer orden cuya
función de transferencia sea de la forma 8.6).
En la figura 8.7 se tiene otro ejemplo de aplicación del criterio de Nyquist, el
correspondiente a la función de transferencia
G(s) =
1
s(1 + τ s)
Estabilidad de los sistemas dinámicos
138
ImH(s)
ω<0
−1
ω = −∞
ω=∞
ReH(s)
ω>0
Figura 8.6: Diagrama polar y contorno G(C) para un sistema de primer orden
ImH(s)
jω
ω−
C
H(C0 )
R=∞
R=∞
C0
−1
σ
ω = −∞
ω=∞
ReH(s)
ω+
Figura 8.7: Contorno de Nyquist y G(C) para un sistema con un polo en el origen
Estabilidad de los sistemas dinámicos
139
en este caso se tiene que la función de transferencia G(s) presenta un polo en
el origen, el cual debe ser evitado por el contorno de Nyquist, por lo que se
recurre a modificarlo ligeramente añadiendo el contorno infinitesimal C0 que se
muestra en la figura 8.7. Es facil ver que la adición de este contorno no modifica
el planteamiento anterior.
Un último ejemplo que vamos a considerar es el siguiente
G(s) =
s+1
s
s( − 1)
10
(8.13)
En este caso se tiene que el sistema presenta un polo inestable. En la figura 8.8
se tiene el trazado G(C) correspondiente.
Im
ω>0
Re
ω<0
ω≈0
Figura 8.8: Diagrama de Nyquist del sistema del ejemplo
En el diagrama de la figura 8.8 el punto crı́tico se ha representado en función
de la ganancia K. Obsérvese que la pequeña desviación C0 alrededor del polo
s = 0 (figura 8.9) da lugar a un gran arco en el infinito. Este arco se situa en el
semiplano izquierdo, ya que atraviesa el eje real negativa debido a la contribución
de fase de 180 grados del polo en el semiplano de la derecha.
Estabilidad de los sistemas dinámicos
140
Im
−180o
Re
Figura 8.9: Contorno C0 para el sistema del ejemplo
Para valores grandes de K (Kg en la figura 8.8) se observa que G(C) rodea
al punto crı́tico en el sentido contrario de las agujas del reloj; es decir, N = −1.
Por otra parte P = 1, debido al polo en el semiplano de la derecha, por lo que
Z =N +P =0
donde se concluye que no hay raices inestables en el sistema.
Para valores pequeños de K (Kp en la figura 8.8) la curva G(C) rodea al punto
crı́tico en el sentido positivo de las agujas del reloj, por lo que N = +1 y Z = 2,
por lo que el sistema posee dos raices con parte real negativa y es inestable.
De los anteriores ejemplos se desprende que la aplicación del teorema de
Nyquist hay que tener especial cuidado en los dos puntos siguientes:
• Tener en cuenta la posible presencia de polos inestables en bucle abierto;
• La evaluación del número de vueltas en torno al punto crı́tivo -1 en el caso
en el que haya ramas infinitas (ver el último ejemplo).
Sin embargo, para los sistemas de fase mı́nima, es posible enunciar la siguiente
regla práctica:
Estabilidad de los sistemas dinámicos
141
Regla práctica de Nyquist
Un sistema realimentado es estable en el caso en el que recorriendo el trazado
polar de la función de transferencia en el sentido de las ω crecientes el punto
crı́tico -1 quede a la izquierda.
8.3.1
Grado de estabilidad e interpretación del criterio de
Nyquist
Según se acaba de enunciar en la regla práctica del criterio de Nyquist se tiene que
la estabilidad depende de la posición del punto crı́tico con relación al trazado polar
de la función de transferencia (figura 8.10). Este hecho sugiere la conveniencia
de introducir una medida de la distancia de G(C) a este punto crı́tico, por lo que
se define grado de estabilidad del sistema realimentado por
• El margen de ganancia Gm = 20 log10 A1 , siendo A la ganancia correspondiente a la fase de 180 grados;
• El margen de fase Φm , que es el desfase del punto correspondiente a la
ganancia unidad.
ImH(jω)
A
−1
Φm
ReH(jω)
1
Figura 8.10: Grado de estabilidad
En la figura 8.10 se representan Gm y Φm . La estabilidad equivale entonces a una
de las condiciones siguientes:
Estabilidad de los sistemas dinámicos
142
• Para el vector en bucle abierto correspondiente a un módulo unidad el
desfase es superior a -180 grados.
• Para una fase de 180 grados el módulo del vector de la función de transferencia en bucle abierto debe ser inferior as la unidad.
De este modo, los márgenes de fase y de ganancia establecen las posibles variaciones de la función de transferencia G(s) debidas a perturbaciones eventuales
que no afecten a la estabilidad del sistema. En la práctica se considera que un
margen de fase de 50 grados y un margen de ganancia de 10 dB son satisfactorios.
Un margen de ganancia por debajo de los 30 grados no suele ser aceptable.
Tema 9
Compensación de sistemas
realimentados
9.1
Introducción.
Un sistema de control realimentado se representa esquemáticamente como se indica en la figura 9.1. Sobre este esquema vamos a recordar una serie de conceptos
que consideramos de interés.
r(t) + º·
e
¡
-@
@¡
¡
@
¡
@
¹¸
− 6m
u
y(t)
-
K
H(s)
G(s)
¾
Figura 9.1: Sistema de Control realimentado
143
-
Compensación de sistemas realimentados
144
• Cadena directa o de acción, es la que une los elementos comprendidos
entre la señal de error y la de salida. Ambas señales están relacionadas por
la expresión,
Y (s)
= KG(s)
E(s)
siendo G(s) la función de transferencia del sistema considerado.
• Cadena de realimentación, es la que une la señal de salida con la de
información m(t), que es comparada con la de referencia. Ambas señales se
relacionan ası́,
M (s)
= H(s)
Y (s)
En este caso H(s) es la función de transferencia de la cadena de realimentación.
• Se llama bucle abierto, al conjunto de elementos que constituyen todo
el sistema, si éste se abriese por el punto m(t), es decir, como si la señal
de entrada fuese e(t) y la de salida m(t). La función de transferencia del
conjunto ası́ dispuesto serı́a
M (s)
= KG(s)H(s)
E(s)
• Se llama bucle cerrado, al sistema conectado como se indica en la figura
9.1. Las señales y(t) y r(t) se relacionan por la conocida fórmula, fácil de
deducir,
Y (s)
KG(s)
=
R(s)
1 + KG(s)H(s)
Observese que, en este caso, la señal de actuación sobre el sistema es proporcional a la señal de error. Se trata pues de un control proporcional (P).
El valor de la ganancia K del amplificador será, por tanto, un parámetro
susceptible de ser variado de acuerdo con las necesidades del problema.
En lo que sigue se supondrá siempre que la cadena de realimentación es
unitaria, con lo que el esquema fundamental quedará de la forma que se
indica en figura 9.2 y quedando la función de transferencia en bucle cerrado
reducida a
Compensación de sistemas realimentados
145
Y (s)
KG(s)
=
R(s)
1 + KG(s)
Naturalmente en este caso cadena de acción y bucle abierto son dos conceptos coincidentes.
r(t) + º·
e
¡
-@
@¡
¡
@
¡
@
¹¸
− 6m
u
y(t)
-
K
G(s)
-
Figura 9.2: Sistema de Control realimentado unitariamente
• Por último, en algunas ocasiones se recurrirá a algún servosistema fı́sico,
concretamente al conocido servomecanismo elemental de posición, que responde en bucle abierto a una ecuación diferencial lineal de la forma
J
d2 y
dy
+f
= u(t)
2
dt
dt
siendo en este caso y(t) un ángulo (θ), J la inercia del conjunto motor-carga
y f el coeficiente de fricción viscosa del mismo conjunto.
Para que un sistema de control realimentado actúe aceptablemente, necesita
satisfacer unas determinadas especificaciones de funcionamiento, tanto para su
régimen permanente como para su transitorio que, normalmente, no se consigue
con los elementos que consituyen el bucle de control.
Hay veces en que un simple aumento de la ganancia estática es suficiente
para lograr precisión, sin que se afecte demasiado a las caracterı́sticas en estado
Compensación de sistemas realimentados
146
transitorio. No obstante, como lo normal es que éstas se vean empeoradas con una
actuación de este tipo, o en el mejor de los casos, no se consigan exactamente las
que se pretende que tenga el sistema, es por lo que se desarrollaran a continuación
los procedimientos de compensación que se han dado en llamar Clásicos en razón
de ser los primeros que se utilizaron.
Por el hecho de introducir una compensación sobre el bucle antes mencionado,
el esquema se modifica de alguna manera, como se muestra más adelante. Se
distinguen dos tipos de compensación:
• Compensación en serie: Cuando el elemento corrector se coloca en cascada,
en la cadena de acción; y
• Compensación por realimentación: Cuando el elemento corrector constituye
una segunda cadena de realimentación, en el bucle de control.
Los esquemas básicos para uno y otro caso se muestran, respectivamente, en
las figuras 9.3 y 9.4.
r(t) +²¯
e
-
±°
− 6m
-
Gr (s)
u0
-
u
K
-
G(s)
y(t)
-
Figura 9.3: Compensación en serie
Como ya se ha indicado, en el caso de la compensación en serie, la red correctora se coloca en cascada con los elementos de la cadena de acción, y delante del
amplificador para que el nivel de potencia a que trabaje sea el del error, es decir,
bajo. Ası́ mismo, se distinguiran tres tipos de acciones:
• Acción proporcional más derivada (PD);
• Acción proporcional más integral (PI) y
• Acción proporcional más integral y más derivada (PID).
Compensación de sistemas realimentados
r(t) +²¯
e ²¯
-
±° ±°
− 6m
6
147
u
K
-
Gr (s)
G(s)
y(t)
-
¾
Figura 9.4: Compensación por realimentación
9.2
Análisis en el dominio de la frecuencia de la
red PD
Tiene lugar cuando la señal de mando del sistema es la suma de los términos,
proporcional y derivado de la señal de error. En este caso se dice que la compensación es del tipo PD. La función de transferenia de una red de este tipo es de la
forma,
Gr(s) = K (1 + τ s)
La discusión del caso general se hará en el dominio de la frecuencia, en donde
los resultados adquieren mayor generalidad y sencillez. Para ello se estudiará en
primer lugar la respuesta en frecuencia de un corrector P D. Su representación
en Bode es la que se indica en la Fig. 9.5. Vemos pues que la red, a frecuencias
mayores que τ1 aumentará la fase y la magnitud de la cadena de acción del sistema
en el que se introduce.
Para frecuencias algo menores que
despreciable para frecuencias bajas.
1
τ
el efecto es menos notorio llegando a ser
En el diagrama de Bode, que se representa en la figura 9.6, se obsevan dos
efectos fundamentales sobre la respuesta en frecuencia de un sistema:
1. Aumento del ancho de banda: contrapartida, en el dominio de la frecuencia,
de la disminución del tiempo de subida en la respuesta temporal del sistema.
Amplitud(dB)
Compensación de sistemas realimentados
148
+20dB/dec
1/τ
ω(rad/s)
Fase(grados)
-260
-310
-360
1/τ
Figura 9.5: Diagrama de Bode para red PD
Este efecto es más notable en el diagrama de Black, como se verá un poco
más adelante, ya que alli se trata la respuesta del sistema en bucle cerrado.
2. Aumento del margen de fase: contrapartida, en el dominio de la frecuencia,
de la disminución de la sobreoscilación en el dominio del tiempo.
Las figuras 9.7 y 9.8 muestran la variación de la función de transferencia en
bucle abierto de un sistema en el diagrama de Black, al introducir un corrector
PD. Si se elige τ1 < wR , se consiguen dos efectos:
1. Disminuir el pico de resonancia (Mr ) del sistema en bucle cerrado y
2. Aumentar la frecuencia de resonancia.
Estos efectos de la red PD en el diagrama de Black tienen sus correspondientes
en el dominio del tiempo, a saber:
• Aumento de la frecuencia de resonancia equivale a decir aumento del ancho
de banda del sistema en bucle cerrado; por tanto, el sistema deja pasar un
espectro mayor de frecuencias. La consecuencia inmediata es una respuesta
más rápida y, en consecuencia, un menor tiempo de subida.
• Disminuir el pico de resonancia, tiene como consecuencia un aumento del
margen de fase, y se sabe que este efecto va muy ligado a una disminución
de la sobreoscilación del sistema en bucle cerrado.
Compensación de sistemas realimentados
149
Amplitud(dB)
Compensada
0 dB
Fase(grados)
Sin compensar
Compensada
MF2
o
-180
MF1
Sin compensar
ω(rad/s)
Figura 9.6: Bode sistema con compensación PD
Amplitud(dB)
60
30
0
-360
-270
-180
Fase(grados)
-90
Figura 9.7: Diagrama de Black red PD
0
Compensación de sistemas realimentados
150
100
Sin compensar
Amplitud(dB)
50
0
Compensado
-50
-100
-300
-240
-180
Fase(grados)
-120
-60
Figura 9.8: Diagrama de Black sistema con comp. PD
Queda añadir, finalmente, que las redes PD, son irrealizables fisicamente,
porque el grado de su polinomio numerador es mayor que el grado de su polinomio
denominador. No obstante, en un sistema eléctrico, sı́ se puede conseguir una red
de este tipo utilizando elementos activos, aunque aún en este caso, la solución no
tiene interés práctico ya que estas redes presentan un comportamiento muy malo
frente a los ruidos.
9.3
Análisis en el dominio de la frecuencia de la
red PI
En este caso, la señal de mando es la suma de un término proporcional y otro
integral, de la señal de error.
u(t) = K e + Ki
Z t
0
e dt
La compensación es denominada PI y la función de transferencia de una red de
este tipo será:
1
1 + τs
Gr(s) = K(1 + ) = K(
)
τs
τs
El efecto sobre el sistema es, pues, añadir un polo en el origen (cambia el tipo del
mismo) y una acción derivada.
Compensación de sistemas realimentados
151
Amplitud(dB)
La respuesta en frecuencia de un corrector PI se muestra en la figura 9.9. Se
ve que su acción consiste en disminuir la fase del sistema original, aumentando
simultáneamente la ganancia en bajas frecuencias. Para altas frecuencias, no
modifica la respuesta.
-20dB/dec
1/τ
Fase(grados)
0
-45
-90
1/τ
ω(rad/s)
Figura 9.9: Respuesta en frecuencia Red PI
El efecto de una red PI sobre un sistema puede verse en la figura 9.10.
La figura 9.10, muestra que τ1 debe elegirse menor que wR para afectar solamente la respuesta del sistema a bajas frecuencias y aumentar la precisión del
mismo, ya que si por el contrario, se elige τ1 > wR aumentará el pico de resonancia, pudiendo llegarse a inestabilizar el sistema original, como muestra la figura
9.10.
La acción PI se utiliza cuando se quiere mejorar el régimen permanente de un
sistema, es decir, cuando se quiere disminuir el error de seguimiento, y cuando se
quiere que el sistema en cuestión sea insensible a variaciones en la carga.
La introdución de una red PI es causa de que el sistema, en bucle cerrado,
tenga peor régimen transitorio. Se puede dar una interpretación fı́sica de ello muy
simple, y que servirá para comparar el efecto de esta red, con el que proporciona
una red PD.
La figura 2.6 muestra en diferentes pasos, cómo en este caso, la inversión
del par corrector se realiza con posterioridad al alineamiento de ambos ejes. La
consecuencia de ello es que aumentará la sobreoscilación y disminuirá el tiempo
de subida, y el sistema será más inestable.
Amplitud(dB)
Compensación de sistemas realimentados
152
Compensado
0 dB
Sin compensar
Fase(grados)
Sin compensar
MF1
o
-180
MF2
Compensado
ω(rad/s)
Figura 9.10: Efecto Red PI
Amplitud(dB)
50
25
0
-100
-80
-60
-40
Fase(grados)
-20
Figura 9.11: Respuesta PI.(Black)
0
Compensación de sistemas realimentados
153
En resumen una red PI:
• Cambia el tipo del sistema (añade un polo en el origen),
• Aumenta la sobreoscilación y disminuye el tiempo de subida de la respuesta
temporal en bucle cerrado.
• Aumenta la precisión estática, compensando las variaciones de la carga a
la salida.
La red PI se encuentra en el mercado con facilidad, llevando normalmente
incorporado el comparador, con lo que el conjunto forma lo que se llama un
regulador de acción PI.
9.4
Acción proporcional, integral y diferencial
(PID)
Como fácilmente se comprende, en este caso, la señal de mando contiene tres
términos, de tal suerte que la función de transferencia del compensador que recibe
el nombre de PID es:
u(t) = K e + Ki
Gr(s) = K (1 +
Z t
0
e dt + Kd
de
dt
1
K
+ τ2 s) =
(1 + τ1 s + τ1 τ2 s2 )
τ1 s
τ1 s
Se ve pues que, con una acción PID, al sistema se le añade un polo en el origen
(se cambia el tipo), una acción derivada primera, y una acción derivada segunda.
Tomando τ1 = τ2 = τ el diagrama de Bode queda como indica la figura 9.12 y su
efecto sobre un sistema se muestra en la figura 9.13.
Si se elige τ1 < ωR (que era condición para el caso de correctores PD y PI) se
pueden conseguir buenas caracterı́sticas, tanto en el régimen transitorio como en
el permanente, es decir, es posible beneficiarse de los efectos de ambos tipos de
redes.
Amplitud(dB)
Compensación de sistemas realimentados
154
-20dB/dec
20dB/dec
1/τ
ω(rad/s)
Fase(grados)
90
0
-90
1/τ
ω(rad/s)
Figura 9.12: Respuesta en frecuencia Red PID
100
Amplitud(dB)
50
0
-50
-100
-300
-240
-180
Fase(grados)
-120
-60
Figura 9.13: Diagrama de Black sistema con comp. PID
Compensación de sistemas realimentados
9.5
155
Compensación por avance de fase
Como se ha visto en el tema anterior una red PD aumenta la fase de la función de
transferencia del sistema a corregir para frecuencias próximas a τ1 y superiores,
es decir, aumenta el margen de fase (disminuye la sobreoscilación) y aumenta el
ancho de banda (disminuye el tiempo de subida). También se ha dicho que una
red PD es irrealizable fı́sicamente.
No obstante, es posible conseguir elementos correctores que constituyen una
aproximación a una red PD, en el rango de frecuencias en que los efectos son
interesantes. Estas redes reciben el nombre de redes de adelanto de fase.
Las redes de adelanto de fase tienen una función de transferencia de la forma:
Gr(s) =
1 + τs
;
1 + ατ s
α<1
=⇒
1
1
<
τ
ατ
cuya representación gráfica se tiene en la figura 9.14.
Amplitud(dB)
|20logα|
0 dB
1/τ
ω(rad/s)
1/at
1/τ
ω(rad/s)
1/at
Fase(grados)
-300
-330
-360
Figura 9.14: Respuesta en frecuencia Red de adelanto de fase
La forma de la gráfica justifica ampliamente la denominación de red de adelanto de fase. Su efecto constituye una aproximación excelente a una red PD. En
efecto, la acción de una red de adelanto de fase sobre la función de transferencia
del sistema en bucle abierto se muestra en la figura 9.15; si se compara ésta con la
figura 9.6, se observará que los efectos sobre el ancho de banda y el margen de fase
Compensación de sistemas realimentados
156
son prácticamente los mismos que los que produce una red PD. La diferencia entre
ambas redes radica en el término (1 + ατ s) cuyo efecto sobre el ancho de banda y
sobre el margen de fase es prácticamente despreciable si se elige convenientemente
el valor de 1/ατ . Este valor, como es natural, debe elegirse notablemente superior
al de la frecuencia para la cual la ganancia es 0dB, con objeto de que su efecto
sea despreciable. Los criterios que presidirán la elección de estos valores se verán
más adelante, al considerar los métodos de diseño. Lo que aquı́ interesa resaltar
es el caracter de aproximación a la red PD que presenta la red de adelanto de
fase.
Amplitud(dB)
Compensado
0 dB
Fase(grados)
Sin compensar
Compensado
MF2
o
-180
Sin compensar
-1
10
0
1
10
10
ω(rad/s)
2
10
3
10
Figura 9.15: Efecto Red de adelanto de fase
En el mercado se pueden encontrar redes de adelanto de fase de tipo neumático,
hidráulico o eléctrico, por ejemplo. A continuación se propone una red para un
servosistema de tipo eléctrico, de fácil realización, y que se muestra en la figura
9.16. En ésta se tiene:
ei = jZ + eo con e0 = jR0
siendo
Z=
1
R jwC
R+
1
jwC
=
R
1 + jwCR
eo
e0
e0
R
eo R + R0 + jwCRR0
0
0
ei = 0 Z + e0 = 0 (Z + R ) = 0 (
+R)= 0
R
R
R 1 + jwCR
R
1 + jwCR
Compensación de sistemas realimentados
157
R
C
R0
ei
es
Figura 9.16: Realización de una red de avance
e0
R0 (1 + jwCR)
R0
1 + jwCR
=
=
.
RR0
0
0
0
ei
R + R + jwCRR
R + R 1 + jwC. R+R
0
y llamando
R0
R+R0
G0 r(s) =
= α y τ = CR queda
1 + jwτ
e0
=α
ei
1 + jwατ
;
Gr(s) =
1 0
es
1 + jwτ
G r(s) =
=
α
ei
1 + jwατ
como función de transferencia de la red.
9.6
Efecto en el dominio de la frecuencia
La respuesta en frecuencia de esta red eléctrica de adelanto de fase, se muestra
en la figura 9.15.
De la expresión de la función de transferencia se puede ver que el desfase que
produce la red propuesta es:
wτ − wτ α
1 + αw2 τ 2
y la frecuencia a la cual se produce el máximo:
tan Φ =
s
w = wm =
1 1
1
=
τ τα
τ
s
1
α
Compensación de sistemas realimentados
158
el valor de Φ = Φm es máximo,
wm τ (1 − α)
wm τ (1 − α)
1−α
√
tan Φm =
=
=
2 τ2
1 + αwm
1+1
2 α
y de aquı́
1−α
√
1−α
tan Φm
1−α
2 α
q
sen Φm =
=
=√
=
2
2
1 + tan Φm
1+α
4α + 1 + α2 − 2α
1 + (1−α)
4α
relación ésta más manejable que la anterior y que da el valor de para el margen
de fase apetecido, Φm . El valor de τ se deducirá de la expresión
s
√
1 1
1
wm =
=⇒
= wm α
τ α
τ
sustituyendo wm por la pulsación para la cual queremos que se produzca el
máximo adelanto de fase.
Debe hacerse notar que para que la ganancia estática del sistema no quede
afectada, hay que aumentar la ganancia del amplificador en el valor α1 , siendo α
la atenuación que produce la red a bajas frecuencias.
La figura 9.17. muestra el efecto de una red de adelanto de fase sobre la
respuesta en bucle cerrado del sistema, en el plano de Black. Puesto que se
pretende un efecto del tipo PD, se comprende fácilmente que la frecuencia wR
debe situarse en las proximidades de la frecuencia de resonancia del sistema wR
0
para que de esta forma la nueva frecuencia de resonancia wR sea menor que wR .
Asimismo, el pico de resonancia M 0 será menor que el anterior, M .
NOTA: Otros autores utilizan como expresión de la función de transferencia
de la red la siguiente expresión
1 1 + τ 0 as
a 1 + τ 0s
siendo las equivalencias entre ésta y la estudiada anteriormente, las siguientes:
1
1
a−1
=α
τ wm = √
τ 0 = ατ
sen Φm =
a
a
a+1
9.7
Método práctico
Para ver el método práctico de compensación mediante una red de avance, lo
haremos con la ayuda de un ejemplo. Dicho ejemplo consiste en compensar el
sistema cuya función de transferencia en bucle abierto es:
Compensación de sistemas realimentados
159
50
ωm1
Amplitud(dB)
Mm
ωm2
Sin compensar
-50
Compensada
-150
-300
-240
-180
Fase(grados)
-120
-60
Figura 9.17: Diagrama de Black sistema con Red de adelanto de fase
G(s) =
K
s(1 + s)(1 + 0.0125s)
para que cumpla las siguientes especificaciones:
1. Margen de fase > 50◦ ,
2. Error de seguimiento para una entrada u(t) = t, menor que el 1 %.
Resolución:
• Para cumplir la especificación de régimen permanente,
Kv = K =
1
R
=
= 100
E
0.01
• Las dos frecuencias de esquina son 1 y
1
0.0125
= 80
• En Bode se ve que el sistema es inestable. El margen de fase es de unos
−2◦ aproximadamente.
• Se compensará el sistema mediante una red de adelanto.
Compensación de sistemas realimentados
160
• Para el cálculo de α, se toma un ángulo Φm algo mayor que el mı́nimo
requerido, por ejemplo 55◦ y se tendrá que,
sen 55◦ =
1−α
= 0.82 de donde α ≈ 0.1
1+α
Para hallar τ se procede ası́:
1. Se calcula la atenuación total de la red, que será:
20 log α = 20 log 0.1 = −20 dB
2. Se busca la frecuencia para la cual la atenuación del sistema es la mitad
que la de la red, es decir, −10 dB, y se elige aquella como la frecuencia para
la que se quiere la máxima desviación de fase. Con ello, en el nuevo punto
de corte (que estará desplazado ligeramente hacia la derecha con respecto
al anterior), se tendrá el margen de fase buscado.
Por lo dicho,
luego
1
wm = √ = 18 rad/seg
τ α
√
1
= wm α = 5.7 rad/seg.
τ
1
wm
w2 =
= √ = 57 rad/seg.
ατ
α
w1 =
Ası́ la función de transferencia de la red será
G0 r(s) = α
1
s
1 + 5.7
1 + τs
= 0.1
1
1 + ατ s
1 + 57 s
ó Gr(s) =
1 + 0.1754s
1 + 0.01754s
Para que la ganancia a bajas frecuencias no se altere, ha de introducirse una
ganancia adicional de Ka = 1/α = 10, con lo que el sistema, una vez corregido,
tendrá como función de transferencia:
G0 (s) =
1
s)
100(1 + 5.7
s(1 + s)(1 + 0.0125s)(1 +
1
s)
57
Con este ejemplo se han ilustrado los pasos necesarios para la colocación de
una red de avance de fase, de forma que su aprovechamiento sea el máximo
posible.
Amplitud(dB)
Compensación de sistemas realimentados
0dB
161
ω1
ωm
-10dB
-1
10
0
10
1
10
ω(rad/s)
Figura 9.18:
ω2
2
10
3
10
Tema 10
Representación matemática de
sistemas
10.1
Introducción
10.1.1
Generalidades
El objeto de los Sistemas de Control es la concepción de unos ingenios que conectados a un proceso real sean capaces de gobernarlo de manera autónoma, es decir,
sin la intervención (o con una intervención mı́nima) del ser humano. Dado un
determinado proceso industrial, o un cierto ingenio como un barco o un avión,
se trata de diseñar un aparato que le suministre las señales de mando oportunas
para que su funcionamiento sea el requerido.
El sistema de control, a partir de la información que le suministra el proceso
a controlar, determina qué acciones deberán tomarse para que el funcionamiento
de éste sea el requerido. El funcionamiento requerido de un determinado proceso
implica un comportamiento dinámico. Por lo tanto el estudio del comportamiento
dinámico de los procesos, o en general de los objetos fı́sicos, tiene un interés
primordial en Automática.
Por otra parte, en cierta medida, se puede considerar a un sistema de control
como un sistema de toma de decisiones. Es decir, el sistema de control toma
las decisiones de las acciones a tomar sobre el proceso para que su evolución sea
la requerida. Para esta toma de decisiones se requiere que el sistema de control
162
Representación matemática de sistemas
163
conozca el comportamiento dinámico del proceso a controlar. Es decir, se requiere
que el sistema de control conozca cómo reaccionará el proceso ante las posibles
señales de excitación que este le suministre. De nuevo se tiene la necesidad del
conocimiento del comportamiento dinámico del sistema a controlar.
De lo anterior se desprende que en Automática el estudio del comportamiento
dinámico de los sistemas tiene un interés primordial. Este estudio se concreta en
el de los sistemas dinámicos, que se va a considerar a continuación.
10.2
Descripción interna de los sistemas dinámicos
La descripción externa, según se ha visto en la sección anterior, suministra una
relación explı́cita directa entre las señales de entrada y de salida. Esta relación no
es satisfactoria en ciertos casos. Por ejemplo, supóngase que se está realizando la
simulación de un sistema dinámico con ayuda de un computador digital. Es claro
que al ser el valor de la señal de salida, en cada instante, función de todos los
valores de la señal de entrada, en instantes anteriores, se presentarán dos notables
problemas al realizar la simulación:
1. la memoria deberá registrar los valores de la señal de entrada, lo cual requerirá un gran volumen de la misma con el agravante de ir creciendo con
el tiempo; y
2. el número de cálculos a efectuar crecerá con el tiempo alcanzado, con ello,
valores prohibitivos.
Los problemas del tipo de los anteriores se solucionan con ayuda de la denominada
descripción interna que no es sino una relación explı́cita indirecta entre las señales
de entrada y de salida. La relación se dice que es indirecta puesto que u(t) e y(t)
no están relacionadas directamente sino a través de otra variable x(t) llamada
estado del sistema dinámico, que juega un papel primordial en esta forma de
descripción.
Se entiende por estado de un sistema dinámico la menor colección de variables cuyo valor, en un cierto instante de tiempo t, resume el pasado dinámico
del sistema hasta dicho instante y es suficiente para predecir la futura evolución
del sistema a partir del mencionado tiempo t. El estado se representa, normalmente, por la letra x, y el conjunto de todos los estados por X. Un ejemplo lo
Representación matemática de sistemas
164
suministra, en mecánica racional, el conjunto de valores tomados por la posición
y velocidad de una partı́cula, cuyo conocimiento, en cierto instante, resume el
pasado dinámico de la partı́cula y permite prever la futura evolución de la misma.
Debe notarse que, tal como se ha definido, el estado de un sistema dinámico
representa una magnitud abstracta sin ninguna referencia, en principio, a magnitudes fı́sicas medibles. Ello, no obstante, no se opone a que en alguna circunstancia el estado de un sistema dinámico pueda ser asimilado a conjuntos de
magnitudes susceptibles de interpretación fı́sica e incluso medibles, como sucedı́a
en el ejemplo más arriba mencionado del estado de una partı́cula en mecánica
racional.
La descripción interna está basada en la existencia de las dos funciones siguientes:
1. La función de transición que describe el cambio de estado que experimenta el sistema entre dos instantes de tiempo t0 y t1 como consecuencia
de la aplicación de una señal u[t0 , t1 ]. Formalmente se escribe,
x(t1 ) = φ(t1 , t0 , x0 , u)
(10.1)
en donde φ representa la función de transición, x0 el estado en el instante
t0 y u la señal de entrada aplicada entre t0 y t1
La función de transición debe satisfacer las propiedades:
(a) Causalidad: para todo u1 y u2 tales que u1 (t) = u2 (t), t0 < t1 se
tendrá,
φ(t1 , t0 , x0 , u1 ) = φ(t1 , t0 , x0 , u2 )
lo que se puede expresar diciendo que a la misma causa sigue el mismo
efecto.
(b) Consistencia: φ((t0 , t0 , x0 , u) = x0
(c) Composición: Para t2 > t1 > t0 se tiene,
φ(t2 , t0 , x0 , u) = φ(t2 , t1 , x1 , u)
x1 = φ(t1 , t0 , x0 , u)
La interpretación de las anteriores propiedades es evidente.
2. La función de lectura o de salida que suministra el valor de la señal de
salida en el instante de tiempo t cuando el sistema se encuentra en el citado
Representación matemática de sistemas
165
x(t) y está sometido a un valor de la señal de entrada u(t). Formalmente
se escribe,
y(t) = η[t, x(t), u(t)]
(10.2)
en donde η representa la función de lectura.
Con el fin de establecer una definición formal de un sistema dinámico se
denotará por T el conjunto de instantes de tiempo considerados, por X el conjunto
de estados, por U el conjunto de valores de la señal de entrada, por U = {| T →
U } el conjunto de valores de entrada aceptables, por Y el conjunto de valores
posible para la señal de salida, y por Y = {y | T → Y } el conjunto de señales de
salida. Con estas notaciones se puede definir formalmente un sistema dinámico
como sigue:
Definición
Un sistema dinámico es el objeto matemático constituido por el quı́ntuplo,
(U, Y, X, φ, η)
en donde la función de transición φ cumple las propiedades a), b), c), más
arriba indicadas.
Debe observarse que, tal como se indicaba al principio de esta sección, la
relación entre la señal de entrada u(t) y la señal de salida y(t) se hace indirecta y
se realiza a través del estado x(t). Es decir, que ası́ como en la descripción externa
la función F determina y(t), a partir de u[t0 , t], en la descripción interna, a partir
de u[t0 , t], y por medio de la función de transición, se genera el estado x(t), y es
a partir del estado y de la función de la lectura como se tiene el valor de la señal
de salida y(t). La mayor complejidad que aparentemente presenta este segundo
camino se ve ampliamente compensada por la mayor simplicidad conceptual y
facilidad operativa que se obtiene con él. Ello se pondrá de manifiesto en lo que
sigue.
A continuación se estudia la descripción interna de los sistemas más corrientemente encontrados en la práctica de la automática y que son aquellos cuyos
tipos de relación entre la entrada y la salida se consideró en la sección 3.3.
Representación matemática de sistemas
10.2.1
166
Sistemas de estados finitos
Son aquellos en que el estado sólo puede formar un conjunto finito de valores.
Igualmente las señales de entrada y salida sólo pueden tomar sus valores de un
conjunto finito. En tal caso las funciones de transición y de lectura pueden ser
tabuladas. Estos sistemas se estudian en cursos sobre sistemas lógicos o sobre
teorı́a de autómatas y aquı́ se mencionan a tı́tulo de ejemplo y para mostrar la
profunda unidad del concepto de sistema dinámico.
Ejemplo
1/0
2
0/0
1/0
1
0/0
0/1
1/1
3
Figura 10.1: Diagrama de estados
Considérese el sistema representado por el diagrama de la figura 10.1. En él
es claro que,
X = {1, 2, 3}
U = {0, 1}
Y = {0, 1}
U e Y son secuencias de 1 y 0.
¯ ¯
En cuanto a φ y η pueden representarse en forma tabular como sigue,
Representación matemática de sistemas
φ
0
1 1
2 1
3 1
1
1
3
2
167
η
0
0
1
0
1
0
1
0
Debe observarse que al estudiar los sistemas de estados finitos el estado es un
objeto matemático de carácter general, que, en principio, no tiene porque ser un
vector como sucederá en las clases de sistemas que se considerarán más abajo.
10.2.2
Sistemas dinámicos lineales en tiempo continuo
Una amplia clase de sistemas dinámicos lineales en tiempo continuo admite una
representación matemática de la forma
ẋ = A(t)x + B(t)u
y = C(t)x + D(t)u
(10.3)
en donde x, y e u son vectores de dimensión n, p y m respectivamente y A,B,C y D
¯
¯
¯
¯
son matrices¯ de dimensión n × n, n × m, p × n ¯y p × m respectivamente. El vector
x es el vector de estado del sistema. En la mayor de las aplicaciones D = 0, por
lo que en lo sucesivo y mientras no se indique lo contrario, se prescindirá de la
matriz D.
La escritura de las ecuaciones diferenciales que rigen la evolución de un sistema dinámico según las expresiones 10.3 recibe el nombre de representación por
variables de estado o por vector de estado del mismo.
En lo que sigue se tratarán únicamente los sistemas dinámicos invariantes en
el tiempo con lo que, teniendo en cuenta además que D = 0, las ecuaciones 10.3
se emplearán en la forma
ẋ = Ax + Bu
y = Cx
(10.4)
En donde A, B y C son matrices cuyos elementos son numéricos. Se hablará
P
indistintamente de un sistema dinámico
y de la terna (A, B, C) que lo representa.
Representación matemática de sistemas
168
Los sistemas dinámicos lineales que admiten una representación matemática
tal como la de las expresiones 10.3 reciben la denominación de sistemas lineales
diferenciales de dimensiones finitas, haciendo alusión con esta denominación a
que el vector de estado es un vector de dimensión n. Existen otras clases de
sistemas dinámicos lineales, como son los (sistemas de parámetros distribuidos)
en los cuales el vector de estado tiene una dimensión infinita. De estos últimos
no nos ocupamos en estos apuntes.
Obtención de la representación por variables de estado
Todo sistema dinámico descrito por ecuaciones diferenciales de la forma de la
expresión (3.5) admite una representación por variables de estado de la forma de
las expresiones 10.3. Aquı́ se discutirá exclusivamente el caso de que la ecuación
diferencial sea de coeficientes constantes, y que u(t) e y(t) sean escalares(sistemas
con una entrada y una salida).
Para un sistema dinámico dado, existen infinitas formas de representación de
la descripción interna. Es decir, existen infinitas ternas(A, B, C) que caracterizan
a un mismo sistema. Todos estas ternas están ligadas entre sı́ por unas relaciones
algebraicas que se estudiarán más adelante en esta sección.
Se estudiarán a continuación las formas más usuales de representación interna
de los sistemas dinámicos lineales.
Forma canónica de control
Sea el sistema descrito por la ecuación diferencial,
dn y
dn−1 y
+
a
+ ... + an y = u
1
dtn
dtn−1
(10.5)
Se definen,
xi =
di−1 y
dti−1
i = 1, ...n
(10.6)
La anterior ecuación diferencial de orden n se puede escribir como un sistema
de n ecuaciones diferenciales de primer orden. Es decir
Representación matemática de sistemas
169
ẋ1 = x2
ẋ2 = x3
.. .. ..
. . .
ẋn = −an x1 − ... − a1 xn + u
y = x1
(10.7)
Lo cual se puede escribir en la forma de las expresiones 10.3 definiendo,
xT =







A=





³
x1 x2 · · · xn
´
0
1
0
0
0
1
.
.
.
.
.
.
.
.
.
0
0
0
−an −an−1 −an−2
. . .
. . .
³
´
BT =
C=
³
0
0
.
.
.
. . . 1
. . . −a1
0 0 ··· 1
1 0 ··· 0













´
(10.8)
(10.9)
(10.10)
Para el caso en que la ecuación (10.5) tome la forma más general siguiente:
dn−1 y
dn−1 u
dn y
+ a1 n−1 + ... + an y = b1 n−1 + ... + bn u
dtn
dt
dt
(10.11)
o, lo que es lo mismo, el sistema tiene la función de transferencia:
G(s) =
n(s)
b1 sn−1 + b2 sn−2 + ... + bn
=
n
n−1
s + a1 s
+ ... + an
d(s)
(10.12)
Representación matemática de sistemas
u
170
v
1
d
n
y
Figura 10.2: Factorización del sistema en el sistema de función de transferencia
en serie.
Supóngase que se introduce la nueva variable v(t), tal que:
1
v(s)
=
u(s)
d(s)
(10.13)
es decir
d(s)v(s) = u(s)
Por otra parte,
n(s)v(s) = y(s)
(10.14)
La introducción de la variable v equivale a factorizar el sistema (10.12) en el
sistema de función de transferencia (10.13) en serie con el de (10.14), tal como se
indica en la figura 10.2. Obsérvese que el sistema (10.13) tiene la misma forma
que el (10.5), por lo que haciendo
x1 = v
x2 = ẋ1 = v̇
...
x2 = ẋ1 = v n−1
(10.15)
se tiene que el par (A, B) para ese sistema será el dado por la expresiones (10.810.9). Además, llevando (10.15) a (10.14) se tiene
y = bn v + bn−1 v̇ + ... + b2 v n−2 + b1 v n−1
= bn x1 + bn−1 x2 + ... + b2 xn−1 + b1 xn
= [bn bn−1 ... b2 b1 ]x
Por tanto, las expresiones (10.8) y (10.9) son igualmente válidas pero la (10.10)
toma la forma más general,
C=
³
bn bn−1 · · · b1
´
(10.16)
En la figura 10.3 se muestra el diagrama interno de bloques del sistema dinámico,
descrito por la ecuación (10.11), correspondiente a la estructura de la forma
canónica de control.
Representación matemática de sistemas
171
+
+
+
b1
u +
ẋn
R
+
b2
R
xn
xn−1
+
bn−1
R
y
+
x2
bn
R
x1
-
a1
a2
an−1
+
+
Figura 10.3: Diagrama interno de bloques
an
Representación matemática de sistemas
172
Ejemplo
Sea el sistema descrito por la ecuación diferencial,
d3 y
d2 y
dy
du
+
4
+ 3 + 2y = 3u + 2
3
2
dt
dt
dt
dt
Las matrices A, B y C en la forma canónica de control serán las siguientes:


0
1
0

0
1 
A= 0

−2 −3 −4


0

B= 0 

1
C=
³
3 2 0
´
Forma canónica de observación
La obtención de la forma canónica de observación ilustra otro método general de
obtención de la representación por variables de estado de un sistema dinámico.
Consiste este procedimiento en determinar, en primer lugar, el diagrama interno de bloques para luego asignar a la salida de cada integrador una variable de
estado y ası́ construir las matrices A, B y C.
Sea la ecuación diferencial con coeficientes constantes,
dn y
dn−1 y
dn−1 u
+
a
+
...
+
a
y
=
b
+ ... + bn u
1
n
1
dtn
dtn−1
dtn−1
(10.17)
cuya descripción por variables de estado, en la forma canónica de observación,
se quiere determinar. Para obtener un diagrama interno de bloques se procede
como sigue. Llamando D al operador dtd , la expresión (10.17) se puede escribir:
Dn y + Dn−1 (a1 y − b1 u) + ... + D(an−1 y − bn−1 u) + an y − bn u = 0
Dividiendo por Dn y despejando y se tiene:
y=
1
1
1
(b1 u − a1 y) + ... + n−1 (bn−1 u − an−1 y) + n (bn u − an y)
D
D
D
(10.18)
Representación matemática de sistemas
173
La expresión (10.18) conduce a un diagrama de bloques como el de la figura
10.4.
u
bn
b1
bn−1
ẋ1
R
x1
ẋ2
R
x2
ẋn−1
R x
n−1
ẋn
R
xn
y
−an
−an−1
−a1
Figura 10.4: Forma canónica de observación
De la observación de la figura 10.4 se desprende:
ẋ1 = −an xn + bn u
ẋ2 = −an−1 xn + x1 + bn−1 u
...
ẋn−1 = −a2 xn + xn−2 + b2 u
ẋn = −a1 xn + xn−1 + b1 u
y = xn
Las anteriores ecuaciones pueden escribirse en forma compacta empleando la
notación matricial en cuyo caso se tienen dos ecuaciones como las 10.3 (Ao = ATc )
con,
Representación matemática de sistemas






A=






0
1
0
.
.
0
0
0
0
1
.
.
0
0
174
0 ...
−an
0 ... −an−1
.
.
1
.
. .
.
0 ...
−a2
0 1
−a1













(10.19)
B T = (bn bn−1 . . . b1 )
(10.20)
C = (0 0 . . . 1)
(10.21)
Ejemplo
Sea el sistema descrito por la ecuación diferencial,
d3 y
d2 y
dy
du
+
4
+ 3 + 2y = 3u + 2
3
2
dt
dt
dt
dt
cuya forma canónica de control se determinó anteriormente. En su forma
canónica de observación las matrices A, B y C serán:


0 0 −2


A =  1 0 −3 
0 1 −4


3


B= 2 
0
C=
³
0 0 1
´
Para un mismo sistema dinámico existen diferentes formas de representación
por variables de estado. Nótese que, de hecho, los diagramas de las figuras 10.3
y 10.4 servirán para simular el sistema en un computador digital o bien en un
calculador analógico. Ello pone de manifiesto como la descripción interna suministra un modelo de máquina que realiza el sistema, mientras que la descripción
externa se limita a describir lo que sucede en la salida por efecto de la acción
que se realice a la entrada. La descripción externa muestra qué hace el sistema
mientras que la interna indica cómo lo hace (al menos una forma de hacerlo)
Representación matemática de sistemas
175
Representaciones equivalentes
Se ha visto en el apartado anterior cómo un mismo sistema admitı́a distintas
representaciones. Se van a estudiar en este apartado las formas equivalentes de
representación de un mismo sistema. Para ello interesa introducir los conceptos
de equivalencia y de similaridad.
Dos sistemas dinámicos se dicen equivalentes si ante la misma señal de entrada
responden con la misma señal de salida. Dos sistemas serán equivalentes si tienen
la misma representación externa. El concepto de equivalencia entre sistemas tiene
una cierta sutileza que se pone de manifiesto en el ejemplo siguiente.
Ejemplo
Sean dos sistemas dinámicos cuyas funciones de transferencia son las siguientes:
T1 (s) =
1
s+1
T2 (s) =
s2
s+2
s+2
=
+ 3s + 2
(s + 1)(s + 2)
Las dos funciones de transferencia representan al mismo sistema. Sin embargo obsérvese que si se obtienen las descripciones interna de cada una de estas
funciones de transferencia, se obtendrán distintas dimensiones para el vector de
estado.
Un concepto más restrictivo que el de equivalencia entre sistemas, es el de
similaridad. Dos sistemas se dicen similares si además de ser equivalentes, dan
lugar a realizaciones con la misma dimensión para el vector de estados. Por
ejemplo, si a partir de una cierta función de transferencia se obtienen las formas
canónicas de control y observación, estas dos formas de representación constituyen
dos formas similares.
Sean (A1 , B1 , C1 ) y (A2 , B2 , C2 ) dos representaciones por variables de estado
de un mismo sistema. Es fácil ver que existe una transformación no singular T
tal que
A2 = T A1 T −1
B2 = T B 1
C2 = C1 T −1
En efecto si,
ẋ = A1 x + B1 u
(10.22)
Representación matemática de sistemas
176
y = C1 x
y x = T x, (T no singular), se tiene que,
T1 ẋ = A1 T −1 x + B1 u
lo que premultiplicado por T resulta
ẋ = T A1 T −1 x + T B1 u
y = C1 T −1 x
de donde resultan las expresiones (10.22).
Ejemplo
En el sistema dinámico cuyas formas canónicas de control y de observación se
han determinado anteriormente se comprueba que,


5 12 3


T =  12 11 2 
3 12 0
cumple las anteriores relaciones.
La equivalencia entre sistemas está relacionada con la descripción externa
de los mismos, mientras que la similaridad lo está con la descripción interna.
La equivalencia entre sistemas para el caso de una entrada y una salida, puede
parecer un concepto trivial. No lo es cuando se aplica a sistemas multivariables
La similaridad entre sistemas, o entre dos formas de representación de un
mismo sistema, es un concepto extraordinariamente fecundo como se verá en
lo que sigue. De hecho, en el estudio de los sistemas diferenciales lineales por
variables de estado, lo que se va buscando es la forma de representación que
más convenga al problema que se está tratando de resolver, y por medio de
transformaciones de similaridad como las descritas por las ecuaciones (10.22),
determinar estas formas de representación.
Debe notarse que la transformación de similaridad en representaciones de
sistemas dinámicos equivale a una transformación lineal del vector de estados, es
decir a un cambio de bases en la representación del mismo.
Representación matemática de sistemas
10.2.3
177
Función de transición de los sistemas dinámicos lineales
Se va a considerar con detalle únicamente el caso de sistemas invariantes en el
tiempo. Sean las expresiones 10.4.
ẋ = Ax + Bu
y = Cx
(10.23)
en el caso en que las matrices (A, B, C) no dependan del tiempo, es decir estén
formadas por números.
Se trata de resolver, de una manera general, las anteriores ecuaciones diferenciales, en particular la primera, para ver que conduce a una función de transición
entre estados de la forma definida al principio de esta sección. (recuérdese la
expresión 10.1). Para resolver la ecuación 10.23 se va a emplear el método de
Laplace según el cual se puede escribir,
sX(s) − x(0) = AX(s) + BU (s)
de donde se puede despejar X(s),
(sI − A)X(s) = x(0) + BU (s)
Llamando φ(s) = (sI − A)−1 se tiene,
X(s) = φ(s)x(0) + φ(s)BU (s)
(10.24)
cuya antitransformada de Laplace es
x(t) = φ(t)x(0) +
Z t
0
φ(t − τ )Bu(τ )dτ
(10.25)
en donde φ(t) = L−1 [φ(s)]. La matriz φ(t) recibe el nombre de matriz de transición
Representación matemática de sistemas
178
La expresión (10.25) es de la misma forma que la expresión (10.1) y representa
la transición entre los estados x(0) y x(t) como consecuencia de la aplicación de
una señal de entrada u en el intervalo (0, t). Puede comprobarse fácilmente que
la expresión (10.25) cumple las propiedades de causalidad, consistencia y composición exigidas a la función de transición entre estados. La existencia de (10.25)
para todo sistema descrito por ecuaciones de la forma (10.23) permite establecer,
que todo sistema dinámico cuyas ecuaciones diferenciales pueden escribirse en la
forma 10.23 admite una descripción interna de acuerdo con la definición dada al
principio de esta sección. Obsérvese que la función de lectura viene dada por la
segunda de las expresiones (10.23).
Se dice que al pasar de la descripción externa a la interna lo que se hace es
factorizar la función que representa la descripción externa en las funciones de
lectura y de transición entre estados. Esto se puede interpretar con el siguiente
diagrama,
u
B
x
φ(s)
C
y
Para el caso de sistemas que varı́en con el tiempo la expresión (10.25) toma
la forma más general,
x(t) = φ(t, t0 )x(t0 ) +
Z t
0
φ(t, τ )B(τ )u(τ )dτ
(10.26)
Volviendo al caso invariante en el tiempo y suponiendo un vector de estado
de dimensión n = 1 se tendrá, haciendo A = [a]
φ(s) =
1
s−a
es decir
φ(t) = eat
El anterior resultado se puede generalizar por una dimensión del vector de
estado arbitraria (aunque finita) y hacer,
Representación matemática de sistemas
179
φ(t) = eAt
(10.27)
en donde
φ(t) = eAt = I + At + ... +
Ak tk
+ ...
k!
(10.28)
Esta forma de escribir la matriz de transición tiene un indudable interés en
desarrollos formales y en el estudio de propiedades de los sistemas dinámicos
lineales invariantes en el tiempo.
Para determinar la matriz de transición se puede emplear varios métodos pero
aquı́ se considerarán sólo dos:
1. empleo de la expresión (10.28) y
2. determinación de su transformada de Laplace según φ(s) = (sI − A)−1 y
posteriormente haciendo su antitransformada:
h
φ(t) = L−1 (sI − A)−1
i
Ejemplo
Sea un sistema dinámico cuya matriz A es la siguiente
Ã
A=
1 1
0 1
!
Se trata de determinar la matriz de transición φ(t) por los dos métodos indicados más arriba.
1. Para emplear el desarrollo en serie (10.28) se tendrá que,
Ã
2
A =
Luego
1 2
0 1
!
Ã
3
; A =
 P k
t
∞
k k
k!
X

A
t
eAt =
=

k!
k=0
0
1 3
0 1
P
!
Ã
k
; ··· A =
tk
(k−1)!
P tk
k!


=

Ã
1 k
0 1
et tet
0 et
!
!
Representación matemática de sistemas
180
2. Para determinar φ(s) se procede como sigue:
"
−1
φ(s) = (sI − A)
=
s − 1 −1
0
s−1
#−1
1
=
4
"
s−1
1
0
s−1
#
siendo 4 = (s − 1)2 . Hallando la antitransformada de φ(s) se tendrá,
Ã
φ(t) = L−1 [φ(s)] =
et tet
0 et
!
Se tiene el mismo resultado que en 1.
Llevando a la expresión (10.23) el valor de x(t) que da la expresión (10.26) se
tiene,
y(t) = C(t)φ(t1 , t0 )x(t0 ) + C(t)
Z t
t0
φ(t1 , τ )B(τ )u(τ ) dτ
(10.29)
Suponiendo que el instante inicial se estima en el pasado remoto (−∞) en que
el sistema se encontraba en reposo, se puede escribir
y(t) =
Z t
−∞
C(τ )φ(t1 , τ )B(τ )u(τ )dτ
(10.30)
Comparando las expresiones (10.30) y (3.8) se tiene que la respuesta impulsional del sistema en función de F , G y H se puede escribir,
h(t1 , τ ) = C(t)φ(t1 , τ )B(τ )
(10.31)
Por otra parte, y para sistemas invariantes en el tiempo, a partir de las expresiones (28) y (15) se puede escribir
H(s) =
Y (s)
= C(sI − A)−1 B
U (s)
(10.32)
en donde se ha tenido en cuenta que al determinar la función de transferencia
se parte de x(0) = 0, pues ésta se define para condiciones iniciales nulas. La
expresión (35) permite determinar la función de transferencia a partir de las
matrices A, B y C.
Representación matemática de sistemas
181
El problema inverso del anterior, es decir, el problema de determinar las matrices A, B y C a partir de la matriz de transferencia, ya ha sido considerado
anteriormente, en la sección 10.2.2, para el caso de sistemas con una entrada y
una salida. Para sistemas multivariables el problema puede adquirir una notable
complejidad adicional si se trata de obtener una representación con una dimensión
del vector de estado mı́nima. Este problema recibe el nombre de problema de
realización y se estudiará más adelante.
10.2.4
Sistemas dinámicos lineales en tiempo discreto
Para los sistemas dinámicos lineales en tiempo discreto se tienen resultados
análogos a los obtenidos en la sección 10.2.2 para los sistemas lineales en tiempo
contı́nuo. Para estos últimos la descripción por variables de estado toma la forma
siguiente:
x(k + 1) = Φ(k)x(k) + Γ(k)u(k)
y(k) = C(k)x(k) + D(k)u(k)
(10.33)
(10.34)
En donde las matrices y vectores que aparecen tienen una interpretación
análoga a la de las matrices y vectores de las expresiones 10.3. Igual que allı́,
habitualmente, D = 0 y el caso de mayor interés es aquel en que las matrices
Φ(k), Γ(k)yC(k) no dependen de k. Es decir, en lo que sigue se tendrá,
x(k + 1) = φx(k) + Γu(k)
y(k) = Cx(k)
(10.35)
(10.36)
Para obtener la representación por variables de estado de un sistema descrito
por ecuaciones en diferencias finitas se procede en forma análoga a la empleada
para los sistemas descritos por ecuaciones diferenciales, teniendo presente que a
la derivada allı́, aquı́ corresponde el adelanto un perı́odo elemental, a la integral
el retraso, y a la transformada en s la transformada en z.
Ejemplo
Sea el sistema dinámico cuya ecuación en diferencias es la siguiente:
Representación matemática de sistemas
182
y(t + 3) + 4y(t + 2) + 3y(t + 1) + 2y(t) = 3u(t) + 2u(t + 1)
Este sistema admite las mismas formas canónicas de control y de observación
que los ejemplos tratados en sistemas contı́nuos.
Se define la matriz de transferencia ψ(k) de manera que,
ψ(0) = I
ψ(k + 1) = Φψ(k)
Es claro que a partir de (10.35) se puede escribir
x(n) = ψ(n − k)x(k) +
n−1
X
ψ(n − j − 1)Bu(j)
j=k
Esta expresión es análoga a la (10.25) y se puede hacer aquı́ las consideraciones
que allı́ se hicieron. Obsérvese que,
ψ(k) = Φk
expresión correspondiente a la (10.27)
La respuesta impulsional, en función de Φ Γ y H, se puede escribir,
h(k) = CΦ(k)B
y la función de transferencia,
H(z) =
10.2.5
Y (z)
= C(zI − A)−1 B
U (z)
Muestreo de sistemas en tiempo contı́nuo
Sea un sistema dinámico descrito por,
(10.37)
Representación matemática de sistemas
183
ẋ = Ax + Bu
y = Cx
Supóngase que el anterior sistema se somete a una señal de entrada escalonada,
es decir a una señal de entrada tal que,
u(t) = u(kT )
para
kT ≤ t ≤ (k + 1)T
en donde k = 0, 1, 2, .... Una señal arbitraria u(t) puede convertirse en una
señal escalonada por medio de unos circuitos retenedores (sample - hold). En la
figura 8 se ilustra el proceso de escalonamiento de una señal u(t).
Al ser excitado el sistema 10.38 con una señal escalonada u(t) se obtendrá una
señal de salida y(t). Supóngase que de esta señal se miden solamente los valores
que toma en el conjunto discreto de tiempos t = kT para k = 0, 1, 2, ... Es decir
la señal de salida se muestrea de manera periódica, con un perı́odo T .
La evolución del estado del sistema 10.38 vendrá dada de acuerdo con (10.25),
por la expresión
x(t) = φ(t − t0 )x(t0 ) +
Z t
t0
φ(t − τ )Bu(τ )dτ
Si se hace t0 = kT y t = T (k + 1) se tendrá,
x((k + 1)T ) = φ(T )x(kT ) +
Z (k+1)T
kT
φ((k + 1)T − τ )Bu(kT )dτ
En la integral del segundo miembro se puede hacer el cambio de variables
α = (k + 1)T − τ con lo cual la anterior expresión queda,
ÃZ
x(k + 1 T ) = Φ(T )x(kT ) +
Llamando,
ÃZ
Γ=
0
T
0
T
!
Φ(α)Bdα u(kT )
!
Φ(α)Bdα ;
Φ(T ) = Φ
Representación matemática de sistemas
184
y prescindiendo de T, para simplificar la notación, se puede escribir
x(k + 1) = Φx(k) + Γu(k)
(10.38)
expresión que, unida a y(k) = Cx(k) , permite decir que el muestreo de un
sistema dinámico en tiempo contı́nuo da lugar a un sistema lineal en tiempo
discreto. Obsérvese que la matriz Φ es precisamente el valor de la matriz de
transición del sistema en tiempo contı́nuo para un valor del tiempo de T segundos.
Ejemplo
Sea el sistema cuya ecuación diferencial es
d2 y dy
du
+
=
+ 2u
2
dt
dt
dt
El cual admite una forma canónica de control
Ã
A=
0 1
0 −1
!
Ã
;
B=
0
1
!
;
C = (2 1)
y cuya función de transferencia es,
Y (s)
s+2
=
U (s)
s(s + 1)
Supóngase que este sistema se somete a una entrada escalonada y que su salida
se muestrea, ambos procesos con periodo t = T seg. Se trata de determinar el
sistema en tiempo discreto equivalente (ver figura 9).
Se tendrá

"
φ(s) = (sI − A)−1 =
Por tanto,
s −1
0 s+1
#−1
=
1
s(s + 1)
"
s+1 1
0
s
#
1

 s
=

0
1
s(s + 1)
1
(s + 1)





Representación matemática de sistemas
Ã
φ(t) =
luego
Ã
Φ=
185
1 1 − e−t
0
e−t
1 0.428
0 0.572
!
!
Por otra parte
Γ=
!Ã
!
Z 1Ã
1 1 − e−α
0
0
0
e−α
1
dα =
C = (2
!
Z 1Ã
1 − e−α
0
e−α
Ã
dα =
0.572
0.428
!
1)
El proceso de muestreo al que se ha dedicado este apartado es un modelo del
que se realiza cuando se introduce un computador en un proceso
10.2.6
Sistemas no-lineales: linealización
Existen muchos problemas prácticos en que los sistemas encontrados no admiten
una descripción por medio de ecuaciones diferenciales lineales. En tal caso no
es posible, en principio, tener unas expresiones de la forma 10.3. Sin embargo,
si la ecuación diferencial es de orden n, supóngase que puede escribirse como n
ecuaciones diferenciales de primer orden, de la forma
ẋ = f (x, u, t)
(10.39)
en donde f (.,.) es una función no-lineal de x y u, que se supondrá, en lo que
sigue, diferenciable con respecto a sus argumentos. Obsérvese que la expresión
(10.38) es un caso particular de la (10.39).
En tal caso se puede concebir un sistema lineal que represente el comportamiento dinámico del sistema para pequeñas perturbaciones en torno a una
trayectoria previamente determinada, llamada trayectoria nominal. Sea esta
trayectoria nominal x∗ (t) se tendrá
Representación matemática de sistemas
186
ẋ∗ = f (x∗ , u∗ , t)
Por otra parte la trayectoria real será la indicada por (10.39). Si las variaciones
de la trayectoria real con relación a la nominal son pequeñas se podrá escribir,
llamando δx = x − x∗ y δu = u − u∗ y empleando la formula de Taylor,
"
∂f
(δ ẋ) = f (x, u, t) − f (x∗ , u∗ , t) =
∂x
#
"
x = x∗
u = u∗
∂f
δx +
∂u
#
x = x∗
u = u∗
δu (10.40)
Con ello se tiene el comportamiento lineal de las pequeñas perturbaciones en
torno a la trayectoria nominal.
Para fijar ideas supóngase que la dimensión del vector x es 2. Las ecuaciones
(10.39) toman la forma
ẋ1 = f1 (x1 , x2 , u, t)
ẋ2 = f2 (x1 , x2 , u, t)
y supóngase que la trayectoria nominal viene dada por x∗1 (t), x∗2 (t) y u∗ (t).
En tal caso se tendrá que las ecuaciones (10.40) tomaran la forma
Ã
δ ẋ1
δ ẋ2
!

∂f1
 ∂x
1
=
 ∂f2
∂x1
∂f1
∂x2
∂f2
∂x2




Ã
x∗1 (t)
x∗2 (t)
∗
x1 =
x2 =
u = u (t)
δx1
δx2
Ejemplo
Sea el sistema no-lineal descrito por
ẋ1 = x2
ẋ2 = au − bx22
!


∂f1


∂u 
δu
+
 ∂f2 
x1 = x∗1 (t)
∂u
x2 = x∗2 (t)
u = u∗ (t)
Representación matemática de sistemas
187
c1
c2
q1
q2
h
V, c
q
Figura 10.5: Diagrama de un depósito mezclador.
y sea la trayectoria nominal,
αt2
2
= αt
1
=
(α + bα2 t2 )
a
x∗1 =
x∗2
u∗
Aplicando el método antes desarrollado se tiene,
Ã
10.2.7
δ ẋ1
δ ẋ2
!
Ã
=
0
1
0 −2bαt
! Ã
δx1
δx2
!
Ã
+
0
a
!
δu
Depósito mezclador
En la figura 14.3 se muestra un esquema elemental de un proceso de mezcla de dos
fluidos en un depósito. Este depósito de volumen V y altura h está alimentado
por los caudales q1 y q2 , cada uno de los cuales con concentración c1 y c2 de un
determinado producto quı́mico. La concentración de este producto en el depósito
es c. El depósito evacua por un conducto situado en su parte baja mediante
un caudal q. Se supone que la homogeneización de las concentraciones de los
caudales de entrada se produce instantáneamente gracias a la acción de unas
Representación matemática de sistemas
188
palas batidoras. Se supone, ası́ mismo, que la densidad es constante en el interior
del depósito.
Las ecuaciones del balance de masas son las siguientes:
dv(t)
= q1 (t) + q2 (t) − q(t)
dt
(10.41)
d[c(t)v(t)]
= c1 (t)q1 (t) + c2 (t)q2 (t) − c(t)q(t)
dt
(10.42)
El flujo de salida del depósito viene dado por
q
q(t) = k h(t) = k
s
v(t)
a
(10.43)
En donde k es una constante y a es el área del depósito. De modo que v = ha.
Supóngase un estado estacionario de funcionamiento en el que se produce un
equilibrio entre las entradas y salidas del depósito, para los siguientes valores de
los flujos de entrada y salida, ası́ como del volumen en el depósito v0 y de su
concentración c0 .
q1 (0) = q10 , q2 (0) = q20 , q(0) = q0 , v(0) = v0 , c(0) = c0
Convienen observar que las concentraciones de entrada c1 y c2 se establecen en
la etapa anterior del proceso. En estas condiciones de régimen estacionario, las
ecuaciones (14.5, 14.6,14.7) toman la forma:
0 = q10 + q20 − q0
0 = c1 q10 + c2 q20 − c0 q0
r
v0
q0 = k
a
Se trata de determinar las ecuaciones lineales que rigen el comportamiento
del sistema en torno a este estado estacionario en el supuesto de que se trate de
perturbaciones suficientemente pequeñas como para justificar la linealización.
Conviene observar que el proceso que se está considerando es un proceso no
lineal; es decir, la ecuaciones que gobiernan su comportamiento son no lineales.
Esta no linealidad tienen un doble origen. Por una parte, la ecuación (14.6) es no
lineal ya que en ella aparecen producto de variables. Por otra parte, la expresión
(14.7) liga q con v (o con h) mediante una relación no lineal (la raı́z cuadrada).
Representación matemática de sistemas
189
Las variaciones de las distintas variables con respecto a los valores tomados
en régimen estacionario se denotarán mediante un tilde sobre la variable correspondiente. Es decir,
q̃(t) = q(t) − q0
representa la variación del caudal q respecto al valor estacionario q0 . Análogamente
se definen el resto de las variables
ṽ(t) = v(t) − v0
q1 (t) = q10 + q̃1 (t)
q2 (t) = q20 + q̃2 (t)
c(t) = c0 + c̃(t)
Si las variaciones son suficientemente pequeñas, entonces la expresión no lineal (14.7) se puede linealizar en torno al valor correspondiente por régimen estacionario, de acuerdo con
q
k ∂ v(t)
q(t) − q0 = √
|v=v0 (v(t) − v0 )
a ∂v(t)
Es decir
k
q̃(t) =
2v0
r
v0
ṽ(t)
a
(10.44)
De este modo la relación entre la variación q̃(t) del caudal con respecto al valor
en régimen estacionario, y la correspondiente al volumen ṽ(t), queda linealizada.
Llevando las definiciones de las variaciones ṽ(t), q̃1 (t), q̃2 (t) y c̃(t) a las expresiones
(14.5) y (14.6) y tendiendo en cuenta la definición del régimen estacionario y
(14.8) se tiene que
dṽ(t)
1 q0
= q̃1 (t) + q̃2 (t) −
ṽ(t)
dt
2 v0
dṽ(t)
1 c 0 q0
dc̃(t)
v0 + c0
= c1 q̃1 (t) + c2 q̃2 (t) −
ṽ(t) − q0 c̃(t)
dt
dt
2 v0
τ=
v0
q0
Representación matemática de sistemas
190
Si se escribe
x1
x2
u1
u2
y1
y2
=
=
=
=
=
=
y
τ=
ṽ
c̃
q̃1
q̃2
q̃
c̃
v0
q0
se tiene que las ecuaciones del sistema dinámico linealizado pueden escribirse de
la forma siguiente:
Ã
ẋ1
ẋ2
!

1
 −
2τ
=

0


1
0 
 x +  c1 − c0
1 
−
v0
τ

1
c2 − c0  u
v0
Sistema dinámico lineal que describe el comportamiento del sistema perturbado
en torno al régimen estacionario.
Tema 11
Controlabilidad y observabilidad
de sistemas dinámicos
11.1
Introducción
La descripción interna de un sistema dinámico lineal suministra modelos para
la representación de una amplia clase de sistemas dinámicos encontrados en la
práctica. Esta descripción reposa sobre la existencia de la terna (A, B, C) que
caracteriza completamente su comportamiento dinámico.
Asociados a la descripción interna de un sistema lineal emergen dos conceptos
que tienen una importancia capital y cuya sola existencia justifica la adopción
de la descripción interna frente a la externa. Son los conceptos de controlabilidad y de observabilidad. Su formulación da respuesta precisa a dos cuestiones
fundamentales:
1. ¿Se puede determinar el estado de un sistema a partir de la observación de
la salida?.
2. ¿Se puede determinar una señal de entrada que transfiera el sistema de un
estado a otro?
La controlabilidad y la observabilidad son propiedades de la descripción interna de los sistemas dinámicos. Estas propiedades se refieren, respectivamente,
a la influencia de la entrada sobre el estado y del estado sobre la salida.
191
Controlabilidad y observabilidad de sistemas dinámicos
192
No es necesario insistir aquı́ sobre el interés de esos conceptos puesto que
quedará ampliamente puesto de manifiesto en todo lo que sigue.
Históricamente ambos conceptos no aparecieron a la vez. El de controlabilidad, más antiguo, fue empleado por Pontryagin en sus trabajos sobre el principio del máximo. Sin embargo corresponde a Kalman el primer tratamiento
sistemático de ambos, ası́ como el establecimiento de las relaciones entre ellos
(dualidad), y sobre todo su amplia difusión, por lo que es frecuente leer que ha
sido Kalman el introductor de estos conceptos.
En lo que sigue se estudiará la controlabilidad y la observabilidad de los sistemas lineales invariantes en el tiempo. Se estudiarán a su vez criterios para
determinar si un sistema dinámico lineal es, o no, controlable u observable. De
todo ello se extraerán conclusiones prácticas para abordar el problema de sı́ntesis
que será tratado en el capı́tulo siguiente. Se verá como todo ello se reduce a
propiedades algebraicas de la terna (A, B, C).
11.2
Controlabilidad de sistemas dinámicos lineales
El concepto de controlabilidad pretende dar un significado preciso a la idea de
transición entre estados. Dada la importancia del concepto de estado en la descripción de los sistemas dinámicos, interesa estudiar bajo qué condiciones será
posible ”conducir” un determinado sistema a un cierto estado. De manera intuitiva la noción de ”conducir” el sistema a un determinado estado es equivalente
a la de ”controlarlo”.
De una manera general se dirá que un sistema es controlable si para cada
transición entre estados que se desee realizar existe una señal de control que la
realice. El tiempo de la transición entre estados se supone finito y la señal de
control se supone sin ninguna clase de restricciones. Para precisar los conceptos
se introducen las siguientes definiciones.
11.2.1
Estados alcanzables
El conjunto de estados alcanzables desde el estado x, Ax , está formado por los
elementos x1 ²X para los que existe una señal de entrada u(t), definida en un
Controlabilidad y observabilidad de sistemas dinámicos
193
cierto intervalo (t0 , t1 ) tal que
φ(t1 , t0 , x, u(t0 , t1 )) = x1
El espacio de estados X de un sistema dinámico
x si Ax = X.
P
se dice alcanzable desde
En la figura 11.1 se ilustra el concepto de conjunto de estados alcanzables desde
x. Normalmente el estado que se toma de referencia para definir el conjunto de
estados alcanzables es el estado de reposo x = 0.
x=0
u1
u2
Ax
u3
Figura 11.1: Ax = Conjunto de estados alcanzables desde x = 0
La alcanzabilidad exige que la aplicación φ(., t0 , x, .) sea suprayectiva.
El concepto de controlabilidad se tiene como contra parte del de alcanzabilidad
invirtiendo el tiempo.
11.2.2
Estados controlables
Se define el conjunto de estados controlables a x, Cx , como el formado por los
elementos x1 ²X para los que existe una señal de entrada u(t), definida en un
cierto intervalo (t0 , t1 ) tal que
φ(t1 , t0 , x1 , u(t0 , t1 )) = x
Un sistema dinámico se dice controlable a x si Cx = x.
Un sistema dinámico se dice controlable si es controlable al origen.
Controlabilidad y observabilidad de sistemas dinámicos
194
Las consideraciones hechas más arriba respecto al concepto de alcanzabilidad
son válidas aquı́ respecto al de controlabilidad. En la figura 11.2 se ilustra el
conjunto Cx .
u1
Cx
x=0
u2
u3
Figura 11.2: Cx = Conjunto de estados controlables a x
En algunos casos se define la controlabilidad a la señal de salida además de a
los estados, sin embargo, en estos apuntes el concepto de controlabilidad que se
manejará es el definido más arriba.
11.2.3
Estados conectados
El espacio de estados X de un sistema dinámico se dice conectado, si para cada
par de estados x0 , x1 , ²X existe una señal u(t), definida en un cierto intervalo
(t0 , t1 ) tal que
φ(t1 , t0 , x0 , u(t0 , t1 )) = x1
Es evidente que si el espacio de estados está conectado, el sistema será alcanzable y controlable. Es decir, que
conexión ⇒ alcanzabilidad + controlabilidad
Los conceptos de alcanzabilidad, controlabilidad y conexión entre estados,
son equivalentes entre sı́ para los sistemas dinámicos lineales estacionarios. Este
hecho justifica el que en lo que sigue se hable exclusivamente del concepto de
controlabilidad.
Ejemplo
Controlabilidad y observabilidad de sistemas dinámicos
195
Sea el sistema de la figura 11.3. Para su descripción interna se requieren dos
variables de estado x1 y x2 , que se puedan identificar con las cargas de cada uno
de los condensadores. Si la señal de entrada es la tensión que se aplica a las formas
correspondientes, es claro que se puede transferir a x1 ó a x2 a cualquier valor;
sin embargo, no se puede transferir a x1 y a x2 a un par de valores arbitrarios.
Por lo tanto la ecuación que describe el comportamiento de este sistema no es
controlable.
Los conceptos de controlabilidad, alcanzabilidad y conexión se refieren a las
posibles transferencias en el espacio de estados que resultan de la aplicación de
señales de entrada. El concepto de controlabilidad se refiere a la transferencia de
un estado inicial arbitrario a una trayectoria deseada. Normalmente la trayectoria
deseada es un punto de equilibrio. Este es el caso que se ha considerado aquı́,
tomándose además el elemento cero de X para representar este equilibrio.
C
C
x1
x2
u
R
R
Figura 11.3: Ejemplo de sistema no controlable
11.3
Controlabilidad de los sistemas en tiempo
discreto
Aunque en este curso nos ocupamos fundamentalmente de sistemas en tiempo
continuo, la introducción del concepto de controlabilidad se hace de forma mucho
más sencilla en el caso de los sistemas dinámicos en tiempo discreto. Por ello, en
primer lugar nos vamos a ocupar de la controlabilidad de un sistema de este tipo.
Controlabilidad y observabilidad de sistemas dinámicos
11.3.1
196
Ejemplos de introducción
• Sistema controlable.
Sea el sistema de posicionamiento de un cilindro, de inercia unitaria, sometido
a un par u(t), suponiendo que el rozamiento sea despreciable. Este sistema
representa una versión idealizada del problema del posicionamiento de un
satélite en un plano. Sus ecuaciones se pueden escribir
"
ẋ =
0 1
0 0
#
"
x+
0
1
#
u
es decir:
"
A=
0 1
0 0
#
"
B=
0
1
#
se tiene:
"
(sI − A)−1 =
s −1
0
s
#−1
=
1
s2
"
s 1
0 s
#

1

s
= 

0

1
s2 

1 
s
por tanto
"
φ(t) =
1 t
0 1
#
"
φ(T ) =
1 T
0 1
#
Conviene recordar que la matriz de transición entre estados en un sistema
en tiempo discreto viene dada por:
Γ =
Z (k+1)T
kt
φ ((k + 1)T − τ ) Bdτ
σ = τ − kT
Γ =
Z T
0
φ(t − σ)B = dσ
θ = T −σ
Γ =
Z T
0
φ(θ)Bdθ
De acuerdo con lo cual, la matriz de transición entre estados para el sistema
en tiempo discreto de posicionamiento del cilindro resulta ser:
Controlabilidad y observabilidad de sistemas dinámicos
Γ=
Z T
0
φ(t−τ )Bdτ =
#
# "
Z T"
0
1 τ
0
1
0 1
dτ =
197
#
Z T"
τ
0
1
"
dτ =
T 2 /2
T
#
Por tanto el sistema en tiempo discreto (también llamado sistema muestreado)
será:
"
xk+1 = Axk + Buk =
1 T
0 1
#
"
xk +
T 2 /2
T
#
u
Supongamos que se aplica una señal uo , en el instante t = 0, con las
condiciones iniciales xo = [α β]T , lo que hace que en el primer instante
de muestreo se alcance el estado
x1 = Ax0 + Bu0
x1,1 = α + T β + (T 2 /2) u0
x2,1 = β + T u0
Si con la señal uo que hemos aplicado pretendiésemos transferir el estado
inicial [αβ] al origen del espacio de estado; es decir si quisiésemos x1,1 =
x2,1 = 0 entonces tendrı́amos:
α + T β + (T 2 /2) u0 = 0
es decir
u0 =
−(α + T β)
T 2 /2
Pero también se ha de cumplir:
β + T u0 = 0
u0 = −
β
T
Controlabilidad y observabilidad de sistemas dinámicos
198
Por tanto, para que exista una señal uo que transfiera en un solo paso el
estado [α, β] al origen se requiere que este estado no sea uno cualquiera,
sino que esté situado en la región del espacio de estados definida por la
expresión:
β=
α + Tβ
T /2
T β = 2α + 2T β
2α + T β = 0
En consecuencia, no es posible transferir un estado arbitrario del espacio
de estados, en un sólo paso, al origen. Veamos que sucede si en lugar de
considerar un solo paso, consideramos dos; es decir una secuencia de señales
sucesivas uo , u1 . En tal caso se tendrá:
x2 = A2 x0 + ABu0 + Bu1
es decir
x2,1 = α + 2T β + (3T 2 /2)u0 + (T 2 /2)u1
x2,2 = β + T u0 + T u1
Si, como en el caso anterior, se pretende llevar un estado arbitrario [αβ] al
origen; es decir
para x2,1 = x2,2 = 0
(3T 2 /2) u0 + (T 2 /2)u1 = −α − 2T β
T u0 + T u1 = −β
Se trata de resolver este sistema de ecuaciones en uo y u1 . Para que ese
sistema lineal de ecuaciones tenga solución se requiere que el determinante
de la matriz de la parte izquierda del sistema sea no singular, lo que efectivamente sucede en este caso.
"
det
3T 2 /2 T 2 /2
T
T
#
T3 T3
−
= T 3 6= 0
=3
2
2
Controlabilidad y observabilidad de sistemas dinámicos
199
Por tanto, para una posición arbitraria del estado [αβ] existe una secuencia
de señales de actuación sobre el sistema uo u1 que transfiere ese estado arbitrario al origen. En tal caso estamos autorizados para decir que el sistema
es controlable al origen, de acuerdo con la definición que hemos introducido
más arriba.
• Sistema no controlable.
Consideremos ahora el sistema definido por las ecuaciones:
"
xk+1 = Axk + Buk =
1 1
0 2
#
"
xk +
1
1
#
uk
Y como se ha hecho en el caso anterior supóngase que se trata de transferir
un estado inicial arbitrario [αβ] al origen. En primer lugar, considérese el
caso de un solo paso, en el que se aplica la señal uo .
x1 = Ax0 + Bu0
El estado que se alcance después de aplicar esta señal será:
x1,1 = α + β + u0
x2,1 = 2β + u0
Si se quiere que este estado alcanzado sea precisamente el origen, es decir,
si se quiere que x1,1 = x2,1 = 0 entonces es fácil ver que ello solo será posible
si α = β. Es decir, existe un subespacio del espacio de estados, formado
por la recta que define la bisectriz del primer cuadrante, tal que si el estado
inicial se encuentra sobre esta recta entonces con un solo paso es posible
llevar ese estado al origen. Esta recta representa lo que se conoce como
subespacio controlable del sistema.
x1,1 = x2,1 = 0 ⇔ α = β
lo que define el subespacio controlable en un solo paso.
Veamos ahora que sucede si aplicamos una secuencia de dos pasos uo u1 . En
tal caso se tiene que el estado alcanzado es:
Controlabilidad y observabilidad de sistemas dinámicos
200
x2 = A2 x0 + ABu0 + Bu1
es decir
x2,1 = α + 3β + 2u0 + u1
x2,2 = 4β + 2u0 + u1
De nuevo queremos transferir el estado [αβ] al origen; es decir, se quiere que
x2,1 = x2,2 = 0. En tal caso se tiene que los valores tomados por la señal de
entrada uo y u1 deberán satisfacer el sistema de ecuaciones lineales:
2u0 + u1 = −α − 3β
2u0 + u1 = −4β
Pero este sistema de ecuaciones carece de solución, puesto que:
"
det
2 1
2 1
#
=0
El sistema sólo es controlable si se cumple a la vez
α + 3β = 4β ⇔ α = β
Es decir, de nuevo nos encontramos en la misma condición que se habı́a encontrado para el caso de un solo paso. El subespacio controlable sigue siendo
exclusivamente la bisectriz que atraviesa el primer y tercer cuadrantes.
Si en lugar de considerar dos pasos, consideramos tres mediante la frecuencia
uo u1 u2 , entonces el estado alcanzado ser:
"
x3 =
α + 7β + 4u0 + 2u1 + u2
8β + 4u0 + 2u1 + u2
#
Controlabilidad y observabilidad de sistemas dinámicos
201
El lector comprobará fácilmente que nuevamente esta ecuación solo tiene
solución si α = β.
Nos encontramos, por tanto, en este segundo ejemplo con un sistema del que
no podemos decir que sea controlable; es decir, del que dado un estado inicial
arbitrario no podemos determinar una secuencia de entrada que lo transfiera al
origen. solamente, si el estado inicial se encuentra en una cierta región privilegiada, que denominamos subespacio controlable, es posible esta transferencia.
Lo que se acaba de ver para estos dos ejemplos concretos es fácilmente generalizable para un sistema cualquiera en tiempo discreto:
xk+1 = Axk + Buk
En tal caso, para una secuencia de entrada de p se tendrá que el estado que
se alcanza ser:
xp = Ap x0 + Ap−1 Bu0 + Ap−1 Bu1 + · · · + ABup−2 + Bup−1
es decir
Ap−1 Bu0 + Ap−2 Bu1 + · · · + ABup−2 + Bup−1 = −Ap x0
Para el caso p = n se tendrá:
−An x0 = An−1 Bu0 + An−2 Bu1 + · · · + ABun−2 + Bun−1
Lo que se puede escribir, con notación matricial

.
.
. 

−An x0 = [An−1 B .. · · · ..AB ..B] 

u0
u1
...
un−1





Para que este sistema de ecuaciones tenga solución, de modo que dado un
estado inicial arbitrario xo se pueda determinar una secuenciauo u1 u2 . . . un−1 se
requiere que la matriz C sea de rango completo.
Controlabilidad y observabilidad de sistemas dinámicos
11.3.2
202
Controlabilidad de sistemas en tiempo continuo
La controlabilidad de los sistemas en tiempo continuo aunque conceptualmente
sea la misma que la de los sistemas en tiempo discreto, sin embargo resulta un
poco más difı́cil de analizar. Vamos a considerar algún ejemplo introductorio que
nos allane el camino.
Ejemplo
Sea el sistema definido por las ecuaciones
ẋ1 = u
ẋ2 = ax2
y = x1 + x 2
cuya representación en forma de diagrama de bloques se tiene en la figura 11.4
De la observación de la figura se desprende claramente que x2 es una variable de
estado no controlable.
u
x1
y
x2
a
Figura 11.4: Diagrama de bloques de un sistema no controlable
Sin embargo, la variable de estado x1 sı́ es controlable; es decir, cualquiera que
sea el valor que tome esta variable de estado x1 puede ser llevada al origen (x = 0)
en un tiempo finito. Basta para ello encontrar una trayectoria x1 (t) que una x1 (0)
con x1 (τ ) = 0, en donde τ es el tiempo finito de transición entre estados. Por
ejemplo si se adopta una recta, tal como se hace en la figura 11.5, entonces la
Controlabilidad y observabilidad de sistemas dinámicos
203
señal de entrada u(t) que debe aplicarse en el intervalo (0, τ ), se calcula fácilmente
de acuerdo con
u(t) =
d
x1 (t)
dt
para
t ∈ [0, τ ]
x1
τ seg
t
Figura 11.5: Trayectoria de x1
Debe observarse que aunque la variable x2 no sea controlable, sin embargo
sı́ afecta a la salida, hasta el extremo de que si a es negativa, el sistema será
inestable.
11.3.3
Criterio de controlabilidad
Para sistemas estacionarios, que son los que se considerarán en estos apuntes,
existe un criterio muy simple que permite establecer si un cierto sistema dinámico
es controlable o no. Este criterio se basa en unas propiedades algebraicas del par
(A, B). Este criterio se establece con el siguiente teorema.
Teorema
Un sistema
P
es controlable si y sólo si
rango C = n
µ
¶
.
. .
en donde C ≡ B ..AB .......An−1 B y n = dim X.
Controlabilidad y observabilidad de sistemas dinámicos
204
La matriz C recibe el nombre de matriz de controlabilidad.
Demostración
1. Necesidad
Se trata de demostrar que si el sistema es controlable entonces se cumple
que el rango de la matriz de controlabilidad es n.
(sistema controlable ⇒ rango C = n)
Se sabe
x(t1 ) = e
At1
x(0) +
Z t1
0
eA(t−τ ) Bu(τ ) dτ
(11.1)
Se toma según la definición de controlabilidad, x(t1 ) = 0.
Luego,
0 = eAt1 x(0) +
Z t1
0
eA(t1 −τ ) Bu(τ ) dτ
Premultiplicando por e−At1 se tiene,
x(0) = −
Z t1
e−Aτ Bu(τ ) dτ
0
Por otra parte, recuérdese que
Aτ
e
=
∞
X
Ai ti
i=0
i!
además, φ(s) = (sI − A)−1 , luego φ(A) = 0 y, por tanto,
An + a1 An−1 + ... + an−1 A + an I = 0
es decir, An es combinación lineal de las n − 1 potencias de A. Combinando
estos dos resultados, se tiene que
eAτ =
n−1
X
αi (τ )Ai
i=0
luego
x(0) = −
n−1
X
i=0
i
AB
Z t1
0
αi (−τ )u(τ ) dτ
(11.2)
Controlabilidad y observabilidad de sistemas dinámicos
205
se definen las funciones auxiliares
νi (0, t1 ) =
Z t1
0
αi (−τ )u(τ ) dτ
con lo que (11.2) puede escribirse
x(0) = −
n−1
X
Ai Bνi
(11.3)
i=0
es decir:

x(0) =
h
B AB AB
2
... A
n−1
i

B 


ν0
ν1
..
.






νn−1
Puesto que x(0) es arbitrario la anterior expresión implica que debe ser
posible representar cualquier vector como una combinación lineal de las
columnas de C. Luego, según la definición de controlabilidad, que el sistema
sea controlable implicará (es necesario) que rango C = n.
2. Suficiencia
Se trata de demostrar que si el rango de C es n, entonces el sistema es
controlable, es decir, existe una señal de entrada que lo transfiere al origen.
Formalmente,
rango C = n ⇒ sistema controlable
Sea
rango C = n
Si se aplica al sistema una señal
u(t) = u0 δ(t) + u1 δ (1) (t) + · · · + un−1 δ (n−1) (t)
(11.4)
en donde ui son vectores de dimensión n y δ (k) (t) representa la derivada k
- ésima de δ(t) y que tiene la propiedad
Z ∞
−∞
δ (k) (t − τ ) f (τ ) dτ =



x(0) = C 


u0
u1
..
.
un−1






dk f (t)
dtk
Controlabilidad y observabilidad de sistemas dinámicos
206
Luego si rango C = n, entonces admite solución el anterior sistema de
ecuaciones lineales con n incógnitas, que son los valores de ni para i =
0, n = 1.
Es decir, si rango C = n el sistema es controlable ya que es posible construir
una (al menos) señal de entrada tal como la de la expresión (2) que transfiera
al sistema desde un estado arbitrario x(0) al origen x(t1 ) = 0.
11.3.4
Ejemplos de controlabilidad
Se presentan en este apartado algunos ejemplos de aplicación del criterio de controlabilidad que, además ayuden a captar el sentido fı́sico de este concepto.
Ejemplo 1
Sea el sistema de la figura 11.6, al que corresponden las ecuaciones:
x1
-1
u
+1
x2
-2
Figura 11.6: Diagrama de bloques del ejemplo 1
ẋ1 = −x1 + u
ẋ2 = x1 − 2x2 + u
Controlabilidad y observabilidad de sistemas dinámicos
207
es decir
"
A=
−1 0
1 −2
#
"
B=
1
1
#
Si se aplica el criterio de controlabilidad a este sistema se tiene que:
"
C=
1 −1
1 −1
#
det C = 0
Por tanto el sistema no es controlable. Este es un ejemplo de un sistema que
aparentemente es controlable, ya que al observar la figura del diagrama parece que
tanto x1 como x2 son accesibles desde la entrada u, pero que luego se comprueba
que no lo es.
Este ejemplo nos pone en alerta sobre una interpretación intuitiva de la controlabilidad basada en los diagramas de la descripción interna.
Ejemplo 2
Recordando el ejemplo de un deposito en el que se mezclaban dos fluidos con
caudales Q1 Q2 , de un fluido con una cierta sustancia en disolución. Sucede que si
estos dos caudales tienen la misma concentración; es decir C1 = C2 = Cc entonces
el sistema deja de ser controlable. En efecto, las ecuaciones correspondientes son

1
 −
2τ
x(t) = 

0

0 

−1  x(t) +
τ
"
1 1
0 0
#
u(t)
El diagrama correspondiente se tiene en la figura 11.7 la entrada (en realidad
las dos entradas) u(t) afecta únicamente a la variable x1 (t), es decir el incremento
de volumen. La variable x2 (t), el incremento de concentración, no tiene conexión
con la entrada, y por tanto no puede ser afectado por ella. Es decir, es imposible
“mover” x2 (t) desde un estado inicial arbitrario x2 (to ) a un estado determinado
x2 (t1 ) en un intervalo de tiempo finito (to , t1 ). En este ejemplo se ve fı́sicamente el
significado de controlabilidad. Si C1 6= C2 entonces el sistema es completamente
controlable, como puede verificar fácilmente el lector.
Ejemplo 3: La varilla vertical
Controlabilidad y observabilidad de sistemas dinámicos
s−1
208
x2 (0)
x1 (0)
s−1
s−1
x̂2 (s)
s−1
−1
τ
x̂1 (s)
−1
2τ
û1 (s)
û2 (s)
Figura 11.7: Diagrama de bloques del ejemplo 2
Considérese una varilla de longitud L cuya masa M está concentrada en su
parte superior, tal como se indica en la fig.11.8. A partir de las leyes de Newton
se sabe que el sistema está gobernado por la ecuación
x
M
θ
L
u
Figura 11.8: Varilla vertical
ü(t)cos θ(t) + Lθ̈(t) = g sen θ(t)
en donde g es la constante de gravitación. Por otra parte se tiene también la
relación
x(t) = u(t) + L sen θ(t)
Controlabilidad y observabilidad de sistemas dinámicos
209
Si la varilla se encuentra muy próxima a la posición vertical (es decir θ muy
pequeño) las dos ecuaciones anteriores pueden reescribirse en función de x(t)
como sigue:
ẍ(t) =
g
[x(t) − u(t)]
L
Para simplificar la ecuación se hace L = 1. El anterior sistema se puede
escribir en el espacio de estados, llamando x1 = x(t) y x2 = ẋ(t).
"
ẋ1
ẋ2
#
"
=
0 1
g 0
# "
x1 (t)
x2 (t)
#
"
+ g
0
−1
#
u(t)
siendo la matriz de controlabilidad
"
C=g
0 −1
−1
0
#
puesto que C es no-singular, el sistema es completamente controlable, lo que
coincide con nuestra experiencia.
Este ejemplo representa una versión simple de un problema más general que
presentan muchos sistemas mecánicos en los que aparecen problemas de balanceo tales como el mantenimiento de un satélite en su órbita, el control de
un helicóptero o un cohete cuando asciende verticalmente.
11.4
Notas sobre controlabilidad
11.4.1
Controlabilidad de sistemas monovariables
Sea el sistema
P
descrito por la ecuación diferencial
(sn + sn−1 a1 + · · · + an )y = (b0 sm + · · · + bm )u
d(s)y = n(s)u
Controlabilidad y observabilidad de sistemas dinámicos
210
P
Entonces
es controlable si y sólo si los polinomios n(s) y d(s) no tienen
factores comunes.
Se puede dar un razonamiento intuitivo a lo anterior: si n(s) y d(s) tienen un
P
P
factor común, entonces existe un , equivalente (externamente) a , y tal que
es de orden menor que n.
11.4.2
Transformación de la matriz de Controlabilidad
Al cambiar de bases el vector de estados x, la matriz de controlabilidad se transforma como sigue
x = Tx
es decir
b = Tb
A = T AT −1
luego
C=T C
11.4.3
Forma simplificada del criterio de controlabilidad
Si el rango B = r el criterio de controlabilidad se simplifica a
µ
rango
¶
.
. .
B ..AB .......An−r B = n
La demostración del anterior criterio simplificado está basada en el siguiente
lema.
Controlabilidad y observabilidad de sistemas dinámicos
211
Lema
Si k es un entero tal que
µ
rango
¶
µ
¶
.
. .
.
. .
B ..AB .......Ak−1 B = rango B ..AB .......Ak B = p
entonces
µ
rango
¶
.
. .
B ..AB .......Ae B = p para todo e ≥ k − 1
Demostración
El hecho de que
µ
rango
¶
.
. .
B ..AB .......Ak−1 B = rango
µ
.
. .
B ..AB .......Ak B
¶
significa que toda columna de la matriz Ak B es linealmente dependiente de
las columnas de las matrices B, ...Ak−1 B. Por lo tanto todas las columnas de
Ak + 1B son linealmente dependientes de las columnas de AB, ..., Ak B. Procediendo de esta manera y por inducción se completa la demostración.
Por el anterior lema, el rango de la matriz C debe incrementarse en, al menos,
una unidad cuando se añade un nuevo término, hasta que se alcanza el rango
máximo n. Por lo tanto si
rango B = r
entonces es suficiente incluir a lo sumo n−r términos de la forma AB, ...An−r B
para ver si el rango máximo de C puede ser alcanzado.
11.4.4
La controlabilidad como propiedad genérica
Supóngase que se tiene una clase SR de sistemas dinámicos indicados por un
parámetro r ∈ R. Supóngase además que un sistema Sr posee una determinado propiedad. Esta propiedad se dice que es genérica en R si Sr posee esta
Controlabilidad y observabilidad de sistemas dinámicos
212
propiedad para todo r ∈ R, siendo R un conjunto abierto y denso en R. Las
propiedades genéricas son muy importantes ya que si R es el conjunto de valores
de los parámetros en los que se toman las aproximaciones hechas en el modelado de un sistema, debido a la falta de conocimiento preciso de los valores de los
parámetros, es claro que sólo las propiedades genéricas tendrán una interpretación
real. Puesto que el ser de rango completo es una propiedad genérica de las matrices escogidas al azar en Rn×n , es claro que la controlabilidad es una propiedad
genérica. Sin embargo en la práctica esta cuestión no resulta tan simple ya que
b (y C más adelante cuando se hable de observabilidad) en la práctica describen
conexiones que existen entre el sistema y el mundo exterior. Si la conexión no
existe, entonces el elemento correspondiente de b es exactamente 0 y no tiene
sentido el plantearse su perturbación infinitesimal para obtener un incremento de
rango. Por lo tanto, la genericidad debe realmente definirse separadamente para
cada sistema y la cuestión de la controlabilidad es genuinamente importante.
11.5
Descomposición del espacio de estados en
sus partes controlables y no controlables
P
El hecho de que el espacio de estados X de un sistema dinámico no sea controlable, no implica que algún subespacio de X no lo pueda ser. Es decir, el hecho
de que todas las componentes del vector de estados no puedan ser transferidas al
origen en un tiempo finito, por aplicación de una señal de control conveniente, no
implica que determinadas de éstos componentes no puedan ser transferidas. El
problema de la descomposición del espacio de estado en sus partes controlables
y no controlables, reside, precisamente, en la determinación de qué componentes
del vector de estados son controlables. Con ello se subdivide el espacio de estados en dos subespacios, el uno de estados controlables y el otro el de estados no
controlables.
Sea el sistema
P
ẋ = Ax + Bu
y = Cx
Cuya matriz de controlabilidad será:
Controlabilidad y observabilidad de sistemas dinámicos
³
C = B AB ... An−1 B
213
´
tal que
rango C = n1 < n
En tal caso existe una transformación no singular T tal que
Ã
TC =
C1
0
!
en donde C1 : n1 ×nm y rango C1 = n1 . La obtención T se hace determinando
una matriz equivalente a la (C I) de manera que


..
C
.
1


³
´


..
..
∼


C . I
 ··· . T 
.
0 ..
La matriz T tiene la notable propiedad de que transforma el espacio de estados
de suerte que los subespacios controlables y no controlables son evidentes. En
efecto, si
x = Tx
la matriz de controlabilidad será
Ã
C = TC =
Ã
=
=
³
C1
0
!
=
C11 C12 ... Cn
0
0
0
!
=
B AB · · · An−1 B
´
Por otra parte la matriz se descompone en dos bloques
(11.5)
Controlabilidad y observabilidad de sistemas dinámicos
Ã
B=
B1
B2
214
!
(11.6)
siendo B1 de dimensión n1 × m y B 2 de dimensión (n − n1 ) × m.
Por inspección, observando C y B, es claro que B = 0.
Se descompone
Ã
A=
!
A11 A12
A21 A22
(11.7)
en donde A11 = n1 × n1 y el resto de los bloques tienen las dimensiones
correspondientes. Se tiene que
Ã
AC =
A11 A12
A21 A22
Por otra parte
AC =
³
! Ã
C1
0
!
Ã
=
A11 C1
A21 C1
AB A2 B ... An B
!
(11.8)
´
(11.9)
A partir de la expresión (3), se sabe que las (n−n1 ) últimas filas de C son igual
n
a cero. Por otra parte se sabe que A puede expresarse como una combinación
lineal de = Ai , para i − 1...n − 1, según
n
A =
n−1
X
i
αi A
i=0
De lo anterior se desprende:
• los n − 1 primeros bloques en que se ha particionado AC en (7) son tales
que tienen las (n − n1 ) últimas filas nulas.
n−1
• por lo que respecta al último de los bloques, es decir, A B, sus (n − n1 )
últimas filas también nulas, debido a que este bloque puede considerarse
una combinación lineal de los anteriores.
Controlabilidad y observabilidad de sistemas dinámicos
215
Por lo tanto si las (n − n1 ) últimas filas de AC son igual a cero, se concluye
observando (6) que A21 = 0, puesto que C 1 no es nulo. Luego
Ã
A=
A11 A12
0 A22
!
Ã
B=
B1
0
!
Lo anterior conduce a descomponer el espacio de estados X en dos subespacios
X1 y X2 , tales que
X = X1 ⊕ X2
siendo la dim x1 = n1 y dim x2 = n − n1 . El subespacio X1 representa los
estados controlables y el subespacio X2 los no controlables. En efecto,
ẋ1 = A11 x1 + A12 x2 + B 1 u
ẋ2 = A22 x2
y = c 1 x1 + c 2 x2
Las anteriores expresiones se pueden interpretar con ayuda de un diagrama
como se hace en la fig.11.9. En este diagrama se observa claramente cómo las
variables de estado comprendidas en x1 son accesibles a partir de la señal de
mando u, mientras que la x2 no lo son. Debe observarse que las variables de
estado no controlables afectan no sólo a la salida, sino también a la propia parte
controlable del sistema
P
La función de transferencia de
depende exclusivamente de (A11 B 1 , c1 ) ya
que, por definición de F de T , esta se obtiene considerando condiciones iniciales
nulas y para x2 (0) = 0 se tendrá x2 (t) = 0 para todo valor de t > 0. Es decir,
a partirse condiciones iniciales nulas los estados no controlables permanecen en
reposo.
Ejemplo
Sea el sistema




1 0
0
1



2  B= 1 
A= 1 1

−1 0 −1
−1
Controlabilidad y observabilidad de sistemas dinámicos
Σ1
u
216
x1
x̄1 = Ā11 x̄1 + Ā12 x̄2 + B̄1 u
C1
C2
y
+
x2
Σ2
x̄2 = Ā22 x̄2
Figura 11.9: Diagrama de bloques de un sistema no controlable
Su matriz de controlabilidad será


1 1
1

1 
C= 1 0

−1 0 −1
Para determinar T se hace




1 1
1 1 0 0
1
1 1
1 0 0



1 0 1 0 
(C I) =  1 0
 ∼  0 −1 0 −1 1 0  ∼
−1 0 −1 0 0 1
0
1 0
1 0 1


1
1 1
1 0 0

0
−1
0
−1
1 0 


0
0 0
0 1 1
Luego
Controlabilidad y observabilidad de sistemas dinámicos

217

1 0 0

T =
 −1 1 0 
0 1 1
Para determinar T −1 se hace




1 0 0 1 0 0
1 0 0 1 0 0



(T I) =  −1 1 0 0 1 0  ∼  0 1 0 1 1 0 
 ∼
0 1 1 0 0 1
0 1 1 0 0 1


1 0 0
1
0 0

0
1
0
1
1 0 


0 0 1 −1 −1 1
Luego

T −1

1
0 0

1 0 
= 1

−1 −1 1
A partir de T y T −1 se tendrá

A = T A T −1

1
0 2

=
 −1 −1 2 
0
0 1


1


B=TB= 0 
0
Es decir




1
0 0
1




ẋ =  −1 −1 2  x +  0  u
0
0 1
0
El subsistema controlable será
Controlabilidad y observabilidad de sistemas dinámicos
d
dt
11.6
Ã
x1
x2
!
Ã
=
1
0
−1 −1
! Ã
x1
x2
!
218
Ã
+
1
0
!
u
Observabilidad de sistemas dinámicos lineales
El concepto de estado tiene una importancia capital al considerar la descripción
interna de los sistemas dinámicos. Sin embargo, se recordará que el concepto de
estado ha sido introducido como un objeto abstracto, sin ninguna referencia, en
principio, a magnitudes fı́sicas medibles. Es decir, en un sistema las señales que
son medibles son las de entrada u y las de salida y, siendo el estado x un concepto
abstracto que se introduce para simplificar el tratamiento formal de los sistemas
dinámicos. Por lo tanto un problema de interés básico será el de determinar a
partir de las señales que son accesibles, es decir, las señales de entrada y de salida
del sistema, el estado en una de las representaciones.
Observabilidad
La observabilidad se refiere a la posibilidad de reconstrucción del estado a
partir de la medida de las señales de salida y de entrada. Sin embargo, se pueden
considerar dos problemas separados a la hora de considerar la reconstrucción del
estado. Uno de ellos trata de deducir el valor del estado en el instante presente a
partir de las observaciones pasadas, y el otro trata de deducir el valor del estado
en un instante determinado a partir de observaciones posteriores. Con el fin de
precisar estos conceptos se establecen las siguientes definiciones.
11.6.1
Introducción a la observabilidad
1. Sistemas en tiempo discreto
Ejemplo
Sea el sistema autónomo (es decir, el sistema con u(t) = 0):
x1 (k + 1) = x1 (k) + x2 (k)
x2 (k + 1) = 2x2 (k)
x(k + 1) = Ax(k)
Controlabilidad y observabilidad de sistemas dinámicos
y(k) = x1 (k)
"
A=
C=
h
1 1
0 2
1 0
#
i
Se mide el sistema en los k = 0 y k = 1.
y(0) = Cx(0) = x1 (0)
y(1) = Cx(1) = CAx(0) = x1 (0) + x2 (0)
luego
y(0) = x1 (0)
y(1) = x1 (0) + x2 (0)
x1 (0) = y(0)
x2 (0) = y(1) − y(0)
2. Sistema no observable
Sea A como antes pero
y(k) = x2 (k)
C=
h
0 1
i
entonces se tendrá
y(0) = x2 (0)
y(0) = Cφx(0) = 2x2 (0)
219
Controlabilidad y observabilidad de sistemas dinámicos
220
luego
x2 (0) = y(0) =
1
y(1)
2
pero no se puede determinar x1 (0). El sistema no es observable [debido a
la dependencia lineal entre C y CA ].
3. Caso general
xk+1 = Axk
yk = Cxk
xk = Ak x0 y(k) = CAk x0
y0 = Cx0
y1 = CAx0
..
. =
yn−1 = CAn−1 x0






y0
y1
..
.






 = 




C
CA
..
.



 x0


CAn−1
yn−1


O=


C
CA
...
CAn−1





se requiere que O sea una matriz de rango completo.
11.6.2
Observabilidad
P
Definición Un sistema
se dice observable en el instante t0 , si y sólo si para
todo estado x(t0 )²X, existe un tiempo t > t0 tal que el conocimiento de u(t0 , t),
de y(t0 , t) y de (A, C) basta para determinar x(t0 ).
Controlabilidad y observabilidad de sistemas dinámicos
11.6.3
221
Reconstructibilidad
P
Definición Un sistema se dice reconstructible en t0 , si y sólo si ∀x(t0 ) ∈ X, t <
t0 tal que el conocimiento de u[t, t0 ], de y[t, t0 ] y de (A, C) basta para determinar
x(t0 ).
De las anteriores definiciones se desprenden los siguientes problemas:
Problema de observación: El estado actual x(t) debe determinarse a partir de
las entradas y salidas futuras u(τ ), y(τ ) : τ ≥ t.
Problema de la reconstrucción El estado actual x(t) debe determinarse a partir
de las entradas y salidas pasadas u(τ ), y(τ ) : τ :≥ t.
Por la propia definición de invariancia en el tiempo es claro que para sistemas
invariantes en el tiempo ambos problemas son equivalentes, es decir,
Observabilidad ⇔ reconstructibilidad
En lo que sigue se considerará únicamente el problema de la observación.
11.6.4
Criterio de observabilidad
Para los sistemas lineales invariantes en el tiempo existe un criterio algebraico
que permite discernir si el sistema será observable o no. Ese criterio está basado
en la determinación del rango de una matriz que depende exclusivamente del par
(A, C). El criterio se establece por medio del siguiente teorema.
Teorema
Un sistema
P
es observable si y sólo si
rango O = n
³
en donde O = C T AT C T ... (An−1 )T C T
´T
y n = dim x.
La matriz O recibe el nombre de matriz de observabilidad
Demostración
1. Necesidad
Controlabilidad y observabilidad de sistemas dinámicos
222
Se trata de demostrar que si el sistema es observable, entonces el rango O =
n. Ello es equivalente, por contradicción, a decir que si el rango O < n
entonces el sistema es no observable.
En efecto supóngase rango O < n y u(t) = 0
Para todo t ∈ [t0 , t1 ], se sabe que
y(t) = CeAt x(t0 )
=
n−1
X
αi (t)CAi x(0)
(11.10)
i=0
Es sabido que el rango de una matriz es el mismo que el de su transpuesta.
Es decir, que si el rangoO = n1 < n, entonces el rango OT = n1 . El hecho
de que rango OT = n1 < n implica que las columnas de OT no generan el
espacio de n dimensiones, es decir no generan X = Rn .
El hecho de que las columnas de OT no generen Rn implica que existe un
vector υ²Rn , υ 6= 0, tal que es ortogonal a las columnas de OT , es decir,
³
(AK )T C T
´
O T = C AK υ = 0
De (8) se tiene que para todo estado inicial x(t0 ) = KυKεR, la salida será
y(t) = 0
lo que significa que existen estados iniciales x(t0 ) 6= 0 (todos los que de la
forma Kυ) los cuales no pueden determinarse (distinguirse por observación
de la señal de salida y(t) ante una entrada nula u[t0 , t1 ] = 0. Ello está en
P
contradicción con la hipótesis de que
sea observable.
2. Suficiencia
Se trata de demostrar que si el rango O = n entonces el sistema es observable, o lo que es lo mismo, por contradicción, que el hecho de que el sistema
sea no observable, implica que el rango O < n.
P
Supóngase que
no es observable. Entonces deben existir al menos dos
estados x1 y x2 tales que x1 6= x2 y x1 indistinguible de x2 . Es decir
CeAT x1 ≡ CeAT x2
Sea x0 = x1 − x2 ; entonces la respuesta de
P
para u = 0 a partir de x0 será
Controlabilidad y observabilidad de sistemas dinámicos
y(t) = CeAT x0 ≡ 0
223
(11.11)
es decir que el estado x0 es indistinguible del estado de reposo.
Derivando (11.11) n − 1 veces se tiene
CeAt x0 = 0
CAeAt x0 = 0
An−1 eAt x0 = 0
Cx0 = 0
CAx0 = 0
..
.
CAn−1 x0 = 0
es decir






C
CA
..
.



 x0 = 0


CAn−1
Ox0 = 0
lo que implica rango O < n, ya que x0 6= 0. Por lo tanto que el sistema
sea no observable implica que rango O < n.
11.7
Sistemas continuos
Sea el cilindro con inercia unitaria, y sin rozamiento que hemos visto en los
ejemplos de introducción.
Controlabilidad y observabilidad de sistemas dinámicos
224
1. Supongamos, en primer lugar, que la salida del sistema es la posición angular
del cilindro. En tal caso, la descripción interna del sistema viene dada por
"
ẋ =
0 1
0 0
#
"
x+
0
1
#
u
es decir:
"
A=
0 1
0 0
#
"
B=
0
1
#
y = [1 0]x
Si se deja evolucionar libremente, a partir de unas condiciones iniciales
x1 (0), x2 (0) el cilindro girar a velocidad constante. Si se registra la salida
en el perı́odo (0, T ) se obtendrá una recta inclinada como la de la figura
11.10. De este registro se puede obtener fácilmente:
y
x1 (0)
x2 (0)
t
T
Figura 11.10: Trayectoria del sistema
(a) La velocidad inicial, que es la pendiente de la recta.
(b) La posición inicial, que es la coordenada en el origen.
Por tanto a partir del registro de la salida y(t) es posible reconstruir el
estado inicial del sistema. El sistema es por tanto observable.
2. Supongamos ahora que la salida, en lugar de ser la posición, es la velocidad
de salida del sistema. En tal caso la ecuación de transición entre estados
será la misma :
"
ẋ =
0 1
0 0
#
"
x+
0
1
#
u
Controlabilidad y observabilidad de sistemas dinámicos
225
pero la función de salida se convertirá, en este caso, en: y = [0 1]x
Si se registra ahora la salida se obtendrá una recta horizontal, ya que en virtud del principio de inercia la velocidad de rotación del cilindro permanece
constante. Se tendrá, entonces, la evolución de la salida que se indica en la
figura 11.11. De esta figura se obtiene inmediatamente la velocidad inicial
del cilindro, que es la ordenada de la recta. Pero no se puede obtener su
posición. Del sistema, en este caso, no es observable.
y
x2 (0)
t
T
Figura 11.11: Evolución de la velocidad del sistema
11.8
Pérdida de observabilidad por muestreo
Sea el sistema [oscilador lineal no amortiguado].
ÿ + a2 y = a2 u
"
A=
0 1
−a2 0
#
"
b=
0
a2
y = x1
ẏ = x2
Este sistema es claramente observable
#
c=
h
1 0
i
Controlabilidad y observabilidad de sistemas dinámicos
"
O=
1 0
0 1
226
#
Supongamos que se muestrea
"
sI − A =
φ(s) = (sI − A)−1
s −1
a2 s
1
= 2
s + a2

s
 s2 + a2
=

a2
− 2
s + a2
#
"
1
+
s a2
s
2
s + a2
s 1
−a2 s
#




luego


1
cos (aT )
sin(aT ) 
φ(t) = 
a
−a sin(aT ) cos (aT )
se tendrá

O=
1
cos (aT )
0


1
sin(aT )
a
El sistema será no observable si
sin(aT ) = 0 T =
kπ
a
(k entero)
Por tanto, para determinados valores del perı́odo del muestreo T el sistema
pierde su observabilidad.
Controlabilidad y observabilidad de sistemas dinámicos
11.8.1
227
Notas sobre observabilidad
Se pueden hacer consideraciones semejantes a las desarrolladas en la sección respecto a la controlabilidad.
En particular, y relativo a un cambio de base en X, se tiene que si x = T x,
se tendrá que
OT = O
El resto de las notas se extienden ”mutatis mutandis” a la observabilidad.
11.9
Descomposición del espacio de estados en
sus partes observables y no-observables
De manera completamente similar a como se hizo en la sección 4 se puede descomponer el espacio de estados en sus partes observable y no-observable. Al
igual que se hizo allı́ supóngase Σ = (A, b, c).
Si
rango O = n1 < n
entonces existe una transformación no singular T tal que


O1 T

T T OT =  . . . 

0
³
en donde O1 T : n1 × np. La determinación de O1 se hace a partir de OT I
obteniendo una matriz equivalente
´
Controlabilidad y observabilidad de sistemas dinámicos

³
O1
Si se hace x = T
−1
T
.
O T ..
 1
´

..
..
T
. I ∼
 ··· . T
.
0 ..
228





x es fácil ver que
Ã
A11 0
A21 A22
A=
Ã
B=
C=
³
B1
B2
!
!
C1 0
´
La demostración es, en todo, excepto el detalle antes indicado, similar a la
vista en la sección de controlabilidad. Se invita al lector a desarrollarla él mismo.
En las bases que resultan de la anterior transformación, el sistema Σ puede
escribirse como sigue:
ẋ = A11 x1 + B 1 u
ẋ2 = A21 x1 + A22 x2 + B 2 u
y = C 1 x1
Esta forma de escribir el sistema puede representarse como se hace en el diagrama de bloques de la figura 11.12, en donde es aparente que sólo el subespacio
x1 es observable, es decir, solo este subespacio influye sobre la salida. Además,
es evidente que la función de transferencia del sistema considerado depende exclusivamente de la terna (A11 , B1 , C1 ), es decir, que un sistema con esta última
terna tiene la misma función de transferencia que el sistema original.
Controlabilidad y observabilidad de sistemas dinámicos
C1
x̄1 = Ā11 x̄1 + B̄1 u
229
y
x2 = A21 x1 + A22 x2 + B2 u
Figura 11.12: Diagrama de bloques de un sistema no observable
11.10
Descomposición canónica del espacio de
estados
Por aplicación sucesiva de las transformaciones indicadas en las secciones de descomposición en partes obs. y control. o no, se pueden extraer las partes controlable y observable de un sistema dinámico lineal.
El resultado se puede enunciar como sigue:
Sea Σ = (A, B, C). Si rango OC = n1 < n entonces existe Σ = (A, B, C) tal
que:
1. Σ ∼ Σ
2.


A11 0 A13


A =  A21 A22 A23 
0
0 A33


B1

B=
 B2 
0
C=
³
C1 0 C3
´
Se dice que (A11 , B 1 , C 1 ) es el subsistema controlable y observable de Σ.
Controlabilidad y observabilidad de sistemas dinámicos
230
La función de transferencia del sistema (A, B, C, ) es la misma que la del
sistema (A11 , B1 , C1 ). Es decir, que solo las partes controlables y observables
de un sistema influyen en su función de transferencia, o sea, en su descripción
externa. Este resultado será tratado con detenimiento en el capı́tulo del problema
de la realización mı́nima, que es aquella que dando lugar a la misma función de
transferencia, o descripción externa, tiene una dimensión del vector de estados X
mı́nima.
Ejemplo:
Se trata de extraer la parte controlable y observable del sistema cuyo terna
(A, B, C) es el siguiente:




1 0 0
1
³
´




A= 1 1 2  B= 1  C= 1 1 1
−1 0 −1
−1
La matriz de controlabilidad es


1 1 1

C= 1 0 1 

−1 0 −1
cuyo rango es 2. Por lo tanto la dimensión del subespacio controlable es 2.






1 1
1 1 0 0

1
0
1 0 1 0 
(C I) = 
 ∼
−1 0 −1 0 0 1
1
1 1
1 0 0

∼ 
 0 −1 0 −1 1 0  ∼
0
1 0
1 0 1
1
1 1
1 0 0

∼ 
 0 −1 0 −1 1 0 
0
0 0
0 1 1
luego
Controlabilidad y observabilidad de sistemas dinámicos


1 0 0

T =
 −1 1 0 
0 1 1
y

T −1

1
0 0

1 0 
= 1

−1 −1 1
Por lo tanto

A = T AT −1

1
0 0


=  −1 −1 2 
0
0 1


1

B = TB =  0 

0
C = CT −1 =
³
1 0 1
Luego la parte controlable de (A, B, C) es
Ã
Ac =
1
0
−1 −1
Ã
Bc =
Cc =
³
1
0
!
!
1 0
´
La matriz de observabilidad de (Ac , Bc , Cc ) es
Ã
Oc =
1 0
1 0
!
´
231
Controlabilidad y observabilidad de sistemas dinámicos
232
cuyo rango es 1.
Una atenta observación de (Ac , Bc , Cc ) pone de manifiesto que, casualmente,
no es necesario aplicar el algoritmo de descomposición puesto que ya es aparente.
En efecto el subsistema observable de (Ac , Bc , Cc ) es
Am = 1
bm = 1
cm = 1
La parte observable y controlable de un sistema recibe el nombre de realización
mı́nima del mismo.
En general la terna (Ac , Bc , Cc ) necesitará ser sometida al algoritmo de descomposición para la extracción de su parte observable.
Se va a comprobar que la función de transferencia de (Am , Bm , Cm ) es la
misma que la de (A, B, C). En primer lugar se calcula (sI − A)−1 . para ello se
aplica el algoritmo de Leverrier (Wiherg, pag. 102).


1 0 0

A= 1 1 2 

−1 0 −1
F1 = I
a1 = −r̃ AF1 /1 = −1


0 0 0

F2 = AF1 + a1 I =  1 0 2 
 a2 = r̃AF2 /2 = −1
−1 0 −2


−1 0
0

F3 = AF2 + a2 I =  −1 −1 −2 
 a3 = −r̃AF3 /3 = 1
1
0
1
luego
Controlabilidad y observabilidad de sistemas dinámicos

(sI − A)−1
233

s2 − 1
0
0
1 
2s − 2 
=
 s − 1 s2 − 1

∆(s)
2
−s + 1
0
s − 2s + 1
siendo ∆(s) = s3 − s2 − s + 1.
Es fácil ver que
T (s) = c(sI − A)−1 b =
(s2 − 1)
s2 − 1
1
=
=
3
2
2
s −s −s+1
(s − 1)(s − 1)
s−1
que es la misma función de transferencia que se obtiene de la terna (Am , Bm , Cm ).
11.11
Formas canónicas
Las expresiones estudiadas permiten transformar la terna (A, B, C) en otra forma
de representación, de manera que se siga representando el mismo sistema dinámico.
Desde un punto de vista del espacio de estados ello es equivalente a que el vector
de estados se puede representar en distintas bases. Debe resaltarse, sin embargo,
que el vector de estados es un objeto abstracto, sin ninguna referencia, en principio, con magnitudes fı́sicas medibles. Es decir, no existe una base ”natural” para
representar a X.
Ello hace que según la naturaleza del problema a tratar se adopten unas
bases para el vector de estado que hagan que la forma que toma en ellas la terna
(A, B, C) sea lo más cómoda posible para la resolución del problema en cuestión.
En ello reside una de las grandes ventajas del uso de la descripción interna, ya
que ésta permite escoger la forma de representación de la terna (A, B, C) más
cómoda en cada caso.
Aunque se pueden concebir múltiples formas para la terna (A, B, C) existen
dos especialmente interesantes para las aplicaciones prácticas a problemas de control. Son estas: La forma canónica de control y la forma canónica de observación.
Cada una de ellas está relacionada con los problemas de control y de observación
según se verá en lo que sigue.
En otro apartado se introdujeron las formas canónicas de control y observación, al obtener la representación por variables de estado, de una forma in-
Controlabilidad y observabilidad de sistemas dinámicos
234
tuitiva. Aquı́ se introducirán estas formas canónicas bajo una óptica algebraica
que permita tanto su generalización cómoda a sistemas multivariables como su
aplicación práctica.
Formas canónicas de control
d(s)y = n(s)u
Sea la nueva variable v tal que
d(s)v = u
luego
d(s)y = n(s)d(s)v
es decir
y = n(s)v
Sea
x1 = v
x2 = ẋ1
..
..
.
.
xn = ẋn−1
= v̇
..
.
= v (n−1)
d(s)v = u ⇒ ẋn = an x1 − an−1 x2 − · · · + u
y = n(s)v ⇒ y = b1 v (n−1) + b2 v (n−2) + · · · + bn−1 v̇ + bvn = bn x1 + bn−1 x2 + · · · b1 xn
En resumen
Controlabilidad y observabilidad de sistemas dinámicos

ẋ1
ẋ2
ẋ3
..
.









 ẋn−1





0


 0


 = 

 0


−an

1
0
0
1
0
0
−an 1 −an−1
 

 
 
 
 



... 0
... 0
... 1
... −a1
ẋn
235
x1
x2
...
...
...
xn










 + 








0
0
...
...
...
1





n




Sistemas monovariables
Sea el sistema Σ = (A, B, C), cuya matriz de controlabilidad es
³
C = B AB ... An−1 B
´
Si se cambia de base al vector x de manera que x = Tc x se tendrá (apartado
4.2).
Tc = CC −1
Todo sistema monovariable controlable se puede representar en unas bases x
tales que

0
0
0
..
.



A=




1
0
0
..
.
0
1
0
..
.
...
...
...
0
0
1
..
.
−an −an−1 −an−2 ... −a1
T
B =
C=
³
³
0 0 0 ... 1
´
bn bn−1 bn−2 ... b1
siendo la función de transferencia del sistema
´









Controlabilidad y observabilidad de sistemas dinámicos
236
b1 sn−1 + b2 sn−2 + · · · + bn
G(s) = n
s + a1 sn−1 + a2 sn−2 + · · · + an
Al par (A, b) corresponde una matriz de controlabilidad C cuya forma es:

0
0
..
.




C=

 0


 0
0
0
..
.
0
0
..
.
···
···
..
.
0
1
..
.

1
β1
..
.









βn−2 
(11.12)
0 1 ··· ···
1 β1 · · · βn−3
1 β1 β2 · · · βn−2 βn−1
En donde los elementos β, se generan de acuerdo con la recurrencia

βi =
³
−an −an−1
0
0
..
.




´ 

 βo
... −a1

 .
 ..


 βi−2














βi−1
siendo βo = 1. Es decir C puede construirse a partir del conocimiento de los
coeficientes del denominador de G(s) o del polinomio caracterı́stico de A.
Es fácil ver también que

C
basta comprobar que CC
−1
−1



=



an−1 an−2
an−2 an−3
...
a1
1
1
0

... a1 1

... 1 0 

...
...
0
0


0 

(11.13)
0
= I.
De todo lo anterior se concluye que a partir de la terna (A, B, C), en forma
arbitraria, es posible determinar una transformación Tc que transforme dicha
Controlabilidad y observabilidad de sistemas dinámicos
237
terna en la forma canónica de control. Para determinar Tc se procede como
sigue:
1. Se determina C a partir de (A, B) y se invierte. Se tiene C −1 .
2. Se determina C a partir del polinomio caracterı́stico de A (recordar (10)).
3. Se hace Tc = CC −1 .
Una forma alternativa de proceder es la siguiente:
1. Se determina C a partir de (A, B).
2. Se determina C
−1
a partir del polinomio caracterı́stico de A (recordar (11)).
3. Se hace Tc−1 = CC
−1
Como siempre se requiere Tc y Tc−1 el segundo procedimiento evita una inversión de matrices.
Ejemplo
Sea el sistema dinámico cuya terna (A, B, C) es la siguiente:




1 1 0
1




A =  0 1 −1  B =  1 
2 3 1
−1
C=
³
0 1 2
´
Se trata de determinar su forma canónica de control.
La matriz de controlabilidad es


1 2 4


C =  1 2 −2 
−1 4 14
Controlabilidad y observabilidad de sistemas dinámicos
238
y el polinomio caracterı́stico de A es
ϕ(A) = s3 − 3s2 + 6s − 2
Luego (expresión (2))

C
−1

6 −3 1


=  −3 1 0 
1
0 0

Tc−1 = CC
−1

4 −1 1

=  −2 −1 1 

−4 7 −1


0, 1667 −0, 1667
0

0
0, 1667 
Tc =  0, 1667

0, 5
0, 6667 0, 1667
La forma canónica de control es x = T x

A = Tc ATc−1

0 1 0


= 0 0 1 
2 −6 3


0


B = Tc B =  0 
1
C = CTC−1 =
³
−10 13 −1
´
Obsérvese que para determinar A y B basta con conocer el polinomio caracterı́stico de A; por lo tanto no se necesita emplear las expresiones anteriores,
ni se requiere el conocimiento de Tc , ni de Tc−1 . Para lo que si es indispensable
la determinación de Tc−1 es para calcular C. Pero, obsérvese, que solo para este
último caso se necesita conocer Tc−1 , de modo que puede evitarse el determinar
Tc , evitando ası́ el tener que invertir la matriz Tc−1 . Es decir, la determinación de
la terna (A, B, C) a partir de la (A, B, C), puede hacerse sin tener que recurrir
Controlabilidad y observabilidad de sistemas dinámicos
239
a ninguna inversión inicial, ya que la determinación de Tc−1 , de acuerdo con el
segundo de los métodos antes propuestos, puede hacerse sin necesidad de invertir
ninguna matriz. Este hecho es de gran importancia en las aplicaciones prácticas
por evitar una operación que tantas dificultades comporta.
A partir de la terna (A, B, C) es inmediato escribir la función de transferencia
del sistema que en este caso resulta ser
G(s) =
−s2 + 13s − 10
s3 − 3s2 + 6s − 2
Por lo tanto, la determinación de la terna (A, B, C) suministra un método indirecto para determinar la función de transferencia asociada a una terna (A, B, C).
11.11.1
Forma canónica de observación
Sistemas monovariables
En forma completamente similar a como se hizo en la forma canónica de control
se puede determinar la transformación T0 tal que x = T0 x.




A=




T
B =
³
0
1
0
..
.
0 ... 0 −an
0 ... 0 −an−1
1 ... 0 −an−2
.. .. ..
..
. . .
.
0 0 ... 1 −a1









bn bn−1 bn−2 ... b1
C=
³
0 0 ... 1
´
´
Según se vio la terna (A, B, C) recibe el nombre de forma canónica de observación.
Si x = T0 x se tendrá
−1
T0 = O O
Controlabilidad y observabilidad de sistemas dinámicos
240
Procedimiento en forma similar a como se hizo en la forma canónica de control,
se puede ver que

O
−1



=
an−1 an−2
an−2 an−3
...a1
1
1
0
... a1
... 1
... 0
... 0
1
0
0
0





Se puede concebir un procedimiento para obtener la forma canónica de observación similar al desarrollo en la forma canónica de control. Para determinar T0
se procede como sigue:
1. A partir de (A, C) se determina O.
−1
2. A partir del polinomio caracterı́stico de A se determina O .
−1
3. Se hace T0 = O O.
Ejemplo
Sea el sistema considerado en el ejemplo de la forma canónica de control. Se
trata de determinar su forma canónica de observación.
Se tiene

O
−1

6 −3 1


=  −3 1 0 
1
0 0
y


0 1 2

O= 4 7 1 

6 14 −6
luego
Controlabilidad y observabilidad de sistemas dinámicos

241

−6 −1 3
−1
4 −5 
T0 = O O = 
 4

0
1
2

T0−1

0, 2241 −0, 0862 0, 1207
0, 2069 0, 3103 
=
 0, 1379

−0, 0690 −0, 1034 0, 3448
Es decir

A = T0 AT0−1

0 0 2

=  1 0 −6 

0 1 3


−10


B = T0 B =  13 
−1
C = CT0−1 =
³
0 0 1
´
Tema 12
Sı́ntesis de sistemas de control
por variables de estado
12.1
Ley de Control
Al definir el estado de un sistema dinámico, se ha visto como éste resume el pasado
dinámico del sistema, y es cuanto se necesita para predecir la futura evolución
del mismo. Es decir, conocido el estado de un sistema en un instante determinado, está completamente determinada la evolución del sistema a partir de dicho
instante. Con otras palabras, conocido el estado en un instante determinado, los
valores que toma la señal de salida a partir de dicho instante, dependen exclusivamente de la señal de entrada que se aplique a partir del instante en el que se
ha definido el estado.
Al diseñar un sistema de control lo que se pretende es conseguir para el sistema una evolución preestablecida. Se trata de determinar las señales de entrada que hay que aplicar al sistema para que la evolución del mismo sea la
requerida. Puesto que el estado es cuanto se necesita conocer para predecir la
futura evolución de un sistema, es claro que cuanto se necesitará saber para poder
adoptar una decisión respecto a qué señales aplicar al sistema será, precisamente,
el estado.
Es decir, una ley de control (polı́tica de mando) es una relación que liga la
señal de mando que se aplica al sistema y el estado en que éste se encuentra,
supuesto definida previamente una meta de la acción.
242
Sı́ntesis de sistemas de control por variables de estado
243
El principio en virtud del cual los valores de la señal de entrada deben calcularse a partir del estado, fue enunciado por Richard Bellman a mediados de
la década de los cincuenta, y puede considerarse como la idea fundamental de la
teorı́a moderna de control. El punto principal reside en que el estado incorpora
toda la información necesaria para determinar las acciones de control que deben
ser tomadas, puesto que la evolución futura del sistema está completamente determinada por el estado presente y los valores futuros de la señal de entrada.
Cuando la meta es la reproducción a la salida de una señal de referencia r se
podrá escribir la ley de control en la forma
u = f (x, r)
que se puede interpretar gráficamente en la figura 12.1.
u
ẋ
B
R
x
C
y
a) Sistema en bucle
abierto
A
ẋ
B
R
x
C
y
A
REGULADOR
b)Sistema en bucle
cerrado
Figura 12.1: Sistema de control por variables de estado
Debe notarse, que en el esquema de la figura 12.1-b se supone que los compo-
Sı́ntesis de sistemas de control por variables de estado
244
nentes del vector de estado se pueden identificar con magnitudes fı́sicas medibles
y que son estas magnitudes las que definen las señales que se realimentan. El
caso en que la anterior identificación no sea posible se discutirá más adelante.
En lo que sigue se considerarán leyes de control lineales de la forma
u = k (r − (k1 x1 + k2 x2 + · · · + kn xu )) = k (r − K x)
(12.1)
siendo
K = (k1 k2 ... ku )
La representación gráfica de una ley de control lineal para sistemas monovariables se tiene en la figura 12.2.
u
ẋ
B
X
+
R
x
A
-
C
y
PLANTA
K
REGULADOR
Figura 12.2: Control lineal
La introducción de una ley de control lineal da lugar, en bucle cerrado, al
siguiente sistema:
• en bucle abierto se tiene:
ẋ = Ax + Bu
Sı́ntesis de sistemas de control por variables de estado
245
si se hace
u = k (r − Kx)
se tendrá :
• en bucle cerrado
ẋ = Ax + kB (r − Kx)
= (A − kBK)x + Bkr
y = Cx
(12.2)
(12.3)
cuya función de transferencia es
Y (s)
= C(sI − A + kBK)−1 Bk
R(s)
(12.4)
Para aclarar el efecto de la ley de control lineal se puede recurrir a dos interpretaciones. Estas interpretaciones se hacen, sin pérdida de generalidad, para
n = 2.
12.1.1
Interpretación por diagramas
Sea el sistema dinámico descrito por la ecuación diferencial
ÿ + a1 ẏ + a2 y = u
(12.5)
cuya función de transferencia es
1
Y (s)
= 2
U (s)
s + a1 s + a2
(12.6)
y cuyo diagrama se tiene en la figura 12.3 a).
u = k (r − k1 x1 − k2 x2 )
(12.7)
Sı́ntesis de sistemas de control por variables de estado
246
se tendrá el sistema cuyo diagrama se tiene en la figura 12.3 b), que a su vez
puede simplificarse al de la figura 12.3 c).
De la figura 12.3 c) se desprende fácilmente que la función de transferencia en
bucle cerrado será
Y (s)
k
= 2
R(s)
s + (a1 + kk2 )s + (a2 + kk1 )
12.1.2
(12.8)
Interpretación algebraica
El sistema dinámico
ÿ + a1 ẏ + a2 y = u
(12.9)
admite una representación por variables de estado cuya forma canónica de
control es
Ã
A=
!
0
1
−a2 −a1
Ã
B=
C=
³
0
1
!
1 0
´
Si se le aplica una ley de control de la forma
u = kr − k (k1 k2 ) x
Se tendrá
Ã
ẋ =
0
1
−a2 −a1
!
Ã
x−
0
1
!
³³
kk1 kk2
´
x+kr
´
Sı́ntesis de sistemas de control por variables de estado
u
x2
1
s
x1
1
s
247
1
y
−a1
a)
−a2
−K k1
−K k2
r
u
K
x2
1
s
x1
1
s
−a1
y
1
b)
−a2
r
K
u
x2
1
s
1
s
x1
1
y
−(a1 + Kk2 )
c)
−(a2 + Kk1 )
Figura 12.3: Control por variables de estado de un sistema de segundo orden
Sı́ntesis de sistemas de control por variables de estado
Ã
ẋ =
0
1
−a2 kk1 −a1 − kk2
y=
³
1 0
!
´
Ã
x+
248
0
k
!
r
x
Cuya función de transferencia es
Y (s)
k
= 2
R(s)
s + (a1 + kk2 ) s + (a2 + kk1 )
que coincide con la expresión (9) obtenida más arriba.
Como resumen de lo anterior cabe decir que por una conveniente elección de
la ley de control puede alterarse arbitrariamente el denominador de la función
de transferencia en bucle cerrado del sistema, dejando inalterado el numerador
excepto en la constante k.
Normalmente, en lo que se sigue, se hará k = 1.
12.1.3
Determinación de la ley de control
Sistemas monovariables
Se supondrá k = 1. En caso contrario los coeficientes de la ley de control vendrán
afectados por la constante k. Es decir la ley de control que se adopta es de la
forma
u = r − Kx
siendo
K = (k1 k2 ... kn )
Supóngase que A (en bucle abierto) tiene un polinomio caracterı́stico.
Sı́ntesis de sistemas de control por variables de estado
249
ϕ(A) = sn + a1 sn−1 + · · · + an
(12.10)
Y supóngase que se quiere tener en bucle cerrado una matriz A∗ tal que
ϕ(A∗ ) = sn + α1 sn−1 + · · · + αn
(12.11)
Este polinomio será, precisamente, el denominador de la función de transferencia en bucle cerrado.
Si el sistema se escribe en la forma canónica de control la ley de control tendrá
unos coeficientes
K = (αn − an αn−1 − an−1 ... α1 − a1 )
(12.12)
En efecto, es inmediato comprobar que escribiendo (A, B) en la forma canónica
de control se tiene




∗
A = A − BK = 




0
0
..
.
1
0
..
.
0
1
..
.
...
...
0
0
..
.







1 

0
0
0
...
−αn −αn−1 −αn−2
α1
Para un par (A, B) arbitrario se puede establecer el siguiente procedimiento
sistemático para la determinación de la ley de control. Se parte de (A, B) y de
ϕ(A∗ ):
1. se determina ϕ(A) a partir de A.
2. Se determina C a partir de los coeficientes ai de ϕ(A).
3. Determinar C a partir de (A, B). y se invierte para tener C −1 .
4. Determinar K a partir de ϕ(A) y de ϕ(A∗ ) de acuerdo con (12.12).
³
´
5. Determinar K = K CC −1 .
Sı́ntesis de sistemas de control por variables de estado
250
La justificación del anterior procedimiento es muy simple y se deja como
ejercicio al lector. En esencia consiste en determinar la ley de control en las bases
correspondientes a la forma canónica de control K , de acuerdo con la expresión
(12.12), y posteriormente transformar esta ley a las bases del par original K.
Ejemplo
Sea el sistema dinámico lineal cuyo par (A, B) es el siguiente:




1
0
2
1



0  B= 2 
A =  0 −1

1
0 −1
1
Se pide la ley de control para que el sistema realimentado tenga un polinomio
caracterı́stico.
ϕ(A∗ ) = (s2 + s + 1) (s + 10)
Procediendo como se indica más arriba se tiene
1. Se calcula el polinomio caracterı́stico de A.
ϕ(A) = (s2 − 3) (s + 1)
= s3 + s2 − 3s − 3
Obsérvese que el sistema es inestable.
2. Se determina C .

β1 =
³
3 3 −1
´

β2 =
luego
³
3 3 −1
´

0


 0  = −1
1

0


 1 =4
−1
Sı́ntesis de sistemas de control por variables de estado

251

0
0
1
1 −1 
C=
 0

1 −1
4
3. Se determina C que resulta ser:


1
3 3
2
−2
2 
C=


1
0 3
cuya inversa es

C −1

0, 5
0, 75
−1

0 −0, 333 
=  0, 333

−1, 667 −0, 25 0.6667
4. A partir de ϕ(A) y de ϕ(A∗ ) se obtiene k
K = (10 − (−3) 11 − (−3) 11 − 1)
= (13 14 10)
5. Se obtiene
³
´
K = K CC −1 = (0, 1680 − 2, 25 14.6681)
Se invita al lector a que compruebe que
ϕ(A − BK) = s3 + 11s2 + 11s + 10
12.2
Observadores
Según se ha visto en la sección 1 de la ley de control es función de las variables de
estado del sistema. En consecuencia, para realizar fı́sicamente una ley de control
es necesario disponer de unas señales que reproduzcan a las componentes del vector de estado. Sin embargo al introducir la noción de estado se ha visto que éste
es un concepto abstracto sin, en principio, ninguna realidad fı́sica subyacente.
Sı́ntesis de sistemas de control por variables de estado
252
Es decir, que si bien en determinados casos será posible identificar a los componentes del vector de estados con magnitudes fı́sicas medibles, este no será el caso
más general. En el caso en que las variables de estado puedan identificarse con
magnitudes fı́sicas medibles se dirá que el vector de estado es accesible.
En el caso contrario, es decir en el caso de que el vector de estado no sea accesible, para poder aplicar una ley de control hay que recurrir a un camino indirecto
para obtener el estado. Consiste en diseñar un sistema dinámico, denominado
observador, tal que alimentado por las señales accesibles (de entrada y/o salida)
suministre a su salida unas señales, que se denotan por x̂, que reproduzcan la
evolución del estado del sistema original.
En otra sección , se ha definido el problema de la observación, como un problema de reconstrucción del estado a partir de las señales de entrada y de salida.
En consecuencia, el observador, como sistema dinámico, no es sino una solución
mecanizada del problema de la observación. En consecuencia, el problema no
tendrá solución más que cuando el sistema sea observable; es decir, será posible
sintetizar un observador solamente para un sistema observable.
Planteado ası́, el problema de la sı́ntesis de un observador, tiene una gran
generalidad. En lo que sigue se concretarán las soluciones de mayor interés.
12.2.1
Sistemas monovariables
Observador en bucle abierto
Es la solución más simple al problema de la observación del estado. Consiste,
sencillamente, en una realización fı́sica (analógica) de la ecuación diferencial.
ẋ = Ax + Bu
(12.13)
la cual permite tener en determinados puntos las señales que reproducen al
estado.
Su diagrama se tiene en la figura 12.4.
Los inconvenientes que presenta este observador son los siguientes:
1. Para que funcione correctamente se requiere el conocimiento del estado
Sı́ntesis de sistemas de control por variables de estado
u
ẋ
x
R
b
253
y
c
A
SISTEMA ORIGINAL
R
b
A
OBSERVADOR
Figura 12.4: Observador en bucle abierto
x̂
Sı́ntesis de sistemas de control por variables de estado
254
inicial.
2. Es muy sensible a los errores en la estimación de los parámetros que intervienen en A y B. En particular si algún auto valor de A es positivo, el más
mı́nimo error (siempre existente en la práctica) en la evaluación del mismo,
o en la sı́ntesis del observador, produce la inestabilidad del conjunto.
Observador asintótico
Con el observador asintótico se pretende tener la garantı́a de que, aunque se
produzcan problemas del tipo de los aludidos al final de la sección anterior siempre
cumplirá la condición siguiente
lim (x̂ − x) = 0
t→∞
(12.14)
es decir que la señal de salida del observador x̂ converge al estado real del
sistema x, al menos para t → ∞.
El que se cumpla la propiedad de la expresión 12.14 se consigue muy fácilmente
con una ligera modificación del observador en bucle abierto (figura 12.4) para
convertirlo en un observador en bucle cerrado. La modificación parte de una idea
muy simple que consiste en comparar la señal de salida y(t) del sistema real con
la señal de salida ŷ que se obtiene a partir de la señal x̂ de salida, del observador
de acuerdo con la expresión:
ŷ = C x̂
El error entre ŷ e y se emplea para corregir el funcionamiento del conjunto.
Una solución que explota la anterior idea es la de la figura 12.5. Este observador recibe el nombre de observador de Luenberger.
Obsérvese en la figura 12.5 que:
x̂˙ = Ax̂ + L(y − C x̂) + Bu
es decir
(12.15)
Sı́ntesis de sistemas de control por variables de estado
u
ẋ
SISTEMA
ORIGINAL
x
R
B
255
y
C
A
+
`
-
ŷ
C
R
B
A
OBSERVADOR
Figura 12.5: Observador asintótico
x̂
Sı́ntesis de sistemas de control por variables de estado
256
x̂˙ = (A − LC)x̂ + Ly + Bu
(12.16)
x̃ = x̂ − x
(12.17)
x̃˙ = (A − LC) x̃
(12.18)
Si se define
Restando (16) de (14) se tiene
Si los autovalores de (A − LC) son negativos se tendrá que
lim x̃ = 0
t→∞
es decir x̂ converge a x.
El problema de la sı́ntesis de un observador se reduce a una conveniente
elección de L para que (A − LC) tenga unos autovalores apropiados.
Se discuten a continuación dos posibles soluciones al problema.
Observador asintótico del mismo orden
Según se ha visto , todo sistema observable puede escribirse en la forma canónica
de observación:




ẋ = 



0 0 ... 0 −an
1 0 ... 0 −an−1
0 1 ... 0 −an−2
...
0 0 ... 1 −a1
y=
³



bn





 bn−1 
 x+ .  u

 . 

 . 

0 0 ... 1
b1
´
x
(12.19)
Sı́ntesis de sistemas de control por variables de estado
257
Si se hace
LT = (l1 l2 ... ln )
(12.20)
Se tiene




A − LC = 



0
1
0
...
0
0
0
1
...
0
...
...
...
...
...
0 −an − l1
0 −an−1 − l2
0 −an−2 − l3
...
...
1 −a1 − ln








(12.21)
Como los elementos de la última columna de A − LC determinan su ecuación
caracterı́stica, ésta podrá elegirse arbitrariamente mediante una adecuada selección de L.
Obsérvese la dualidad entre el problema de determinar la ley de control y el
de sintetizar un observador asintótico del mismo orden.
Observador asintótico de orden mı́nimo
En el observador del mismo orden no se ha tenido en cuenta que en la forma
canónica de observación y = xn , y por lo tanto la señal de salida (que es obviamente accesible) reproduce el elemento xn del vector de estado. En consecuencia
es posible concebir, en principio, un observador cuya salida sean las (n − 1) componentes restantes de x. Este observador recibe el nombre de observador mı́nimo,
pues su orden es n − 1.
Supóngase que se tiene el par (A, B) correspondiente a un sistema del que
se quiere construir un observador. Para fijar ideas supóngase n = 3. En la
ecuación que rige el comportamiento dinámico del sistema, se pueden particionar
los bloques que se indican en la expresión siguiente:





ẋ1
ẋ2
···
ẋ3







 = 




.
a11 a12 .. a13
.
a21 a22 .. a23
··· ··· . ···
.
a31 a32 .. a33













x1
x2
···
x3






 + 


b1
b2
···
b3



 u

Sı́ntesis de sistemas de control por variables de estado
258
Para diseñar el observador de orden mı́nimo se adopta una expresión como
la anterior haciendo y = x3 . Llamando x̂1 y x̂2 a las observaciones del estado,
obtenidas del observador, se tiene que la ecuación dinámica del mismo puede
escribirse como sigue:
Ã
ˆ1
ẋ
ˆ2
ẋ
Ã
!
=
a11 a12
a21 a22
! Ã
x̂1
x̂2
!
Ã
+
a13
a23
!
Ã
y+
b1
b2
!
u
En donde se ha prescindido de la tercera lı́nea, la correspondiente a x3 , por ser
innecesaria. Se tiene en la expresión anterior un sistema dinámico que alimentado
por las señales de entrada u y de salida y, permite obtener las componentes del
vector de estado x̂1 y x̂2 . Se ha resuelto con ello el problema de obtener un
observador de orden mı́nimo, es decir, un observador cuyo orden sea n − 1.
Sin embargo, el observador anterior puede adolecer del defecto de que su
comportamiento dinámico no sea satisfactorio. Puede, incluso, ser inestable. Ello
es debido a que la submatriz (n − 1) × (n − 1) superior izquierda de A, tendrá
unos autovalores arbitrarios que, para una forma cualquiera de A, escapan de
la decisión del diseñador del observador. Afortunadamente, es posible tener la
matriz A en una forma tal que el bloque superior izquierdo que interesa para la
sı́ntesis del observador, tenga unos autovalores previamente especificados. Ello se
consigue con la transformación T1 que se estudia a continuación.
Sea x el vector de estado en la base correspondiente a la forma canónica de
observación. Se aplica a x la transformación T1 , de manera que x = T1 x, estando
T1 definido por




T1 = 




1
0
..
.
0 ... 0 −γn−1
1 ... 0 −γn−2
..
.
..
. . ..
.
0 0 ... 1 −γ1
0 0 ... 0
1









(12.22)
en donde el significado de los coeficientes γi se verá más abajo. Es fácil ver
que
Sı́ntesis de sistemas de control por variables de estado




−1
T1 = 




1
0
..
.
0 ... 0 γn−1
1 ... 0 γn−2
..
.
..
. . ..
.
0 0 ... 1 γ1
0 0 ... 0
1
259









(12.23)
Se tendrá






A = 




0
1
0
..
.
0 ... 0 γn−1
µ1
0 ... 0 −γn−2 µ2
1 ... 0 −γn−3 µ3
..
..
..
..
.
.
.
.
0 0 ... 1 −γ1 µn−1
0 0 ... 0
1
µn





B = 



bn − γn−1 b1
bn−1 − γn−2 b1
..
.
b2 − γ1 b1
b1











(12.24)









siendo los coeficientes µi función γi y de ai .
La forma obtenida para la matriz A es tal que la submatriz (n−1)×(n−1) que
se denotará por A11 superior izquierda tiene el siguiente polinomio caracterı́stico:
ϕ(A11 ) = sn−1 + γ1 sn−2 + · · · + γn−2 s + γn−1
Por lo tanto, eligiendo convenientemente los valores de los coeficientes γi de
este polinomio, que determinan la matriz T1 , se puede tener un comportamiento
arbitrario para el observador.
La ecuación que regirá el comportamiento dinámico del observador será la
siguiente:
Sı́ntesis de sistemas de control por variables de estado

d
dt






x1
x̂2
..
.
x̂n−1








 = 





0 0 ... 0 −γn−1
1 0 ... 0 −γn−2
0 1 ... 0 −γn−3
...
0 0 ... 1 −γ1

µ1
µ2
..
.


+ 


 
 
 
 
 
 
 

260
x̂
x̂2
..
.







(12.25)
x̂n−1



 y + b.u


µn−1
lo que permite diseñar un observador de orden mı́nimo con la estructura de
la figura 12.6. En este diagrama la transformación T es la que permite obtener
la forma canónica de observación. Los parámetros γi son los coeficientes del
polinomio caracterı́stico del observador.
Σ
y
¯n
y = x̄
OBSERVADOR
ASINTOTICO
MINIMO
ˆ¯
x̄
T1−1
ˆ
x̄
x̂
T −1
Figura 12.6: Observador asintótico mı́nimo
Un problema importante, respecto al que en la actualidad no existe una
solución completamente satisfactoria, es el de la elección de los parámetros γi
que aparecen en el polinomio caracterı́stico del observador. Este polinomio caracterı́stico es el responsable del comportamiento dinámico del observador, y por
lo tanto estos coeficientes deben determinarse de suerte que el seguimiento de los
valores reales del estado por la salida del observador sea adecuado al comportamiento global del sistema. Es decir, deben determinarse para que el observador
sea ”más rápido” en la respuesta que el propio sistema. Sin embargo, aparte
de esta idea intuitiva y clara que debe presidir la elección del polinomio caracterı́stico, no existen criterios generales para la determinación del mismo. Los
Sı́ntesis de sistemas de control por variables de estado
261
únicos criterios analı́ticos que se han publicado para la elección de estos coeficientes, lo han sido dentro del marco de la teorı́a del control óptimo.
Es de resaltar, por último, el carácter asintótico del observador mı́nimo. Se
invita al lector a que compruebe por sı́ mismo directamente este punto.
Ejemplo
Sea el sistema cuya forma canónica de observación se determinó en el ejemplo
de sistemas monovariables en forma canónica de observación.
Supóngase que se quiere diseñar un observador tal que sus autovalores sean
λ1 = −4 λ2 = −5
es decir, el polinomio caracterı́stico del observador será
ϕ(obs.) = (s + 4) (s + 5) = s2 + 9s + 20
según (23) y (24) se tiene


1 0 −20


T1 =  0 1 −9 
0 0
1

T1−1

1 0 20

=  0 1 9 

0 0 1
Se toma Ao y B o en la forma canónica de observación, y se tiene

A = T1 Ao T1−1

0 −20 −238


=  1 −9 −94 
0
1
12


−30

B = T1 bo =  22 

1
Sı́ntesis de sistemas de control por variables de estado
262
Por lo tanto la ecuación dinámica del observador resulta ser
Ã
ˆ =
ẋ
0 −20
1 −9
!
Ã
x̂ +
−238
−94
!
Ã
y+
!
30
22
u
Con una conversión a las bases originales a la forma

 

x1
−02241 −0, 0862 −5, 1371

 
−1 −1
0, 2069
4, 9304   x2 
x̂ = To T1 x̂ =  0, 1379

0, 0690
0, 1039
1, 9658
y
12.3
Sı́ntesis del sistema en bucle cerrado
En la sección 1 se ha considerado la determinación de la ley de control para el
caso en que las variables de estado fuesen accesibles.
En la sección 2 se han estudiado los observadores que permiten observar (evaluar) el estado cuando este no es accesible. La solución inmediata a la sı́ntesis de
un sistema de control cuando el sistema no es accesible es aplicar la ley de control
a las señales obtenidas a la salida del observador, que reproducen el estado de un
sistema, de acuerdo con el diagrama de la figura 12.7.
r
u
Σ
y
x̄
OBSERVADOR
LEY DE
CONTROL
Figura 12.7: Sistema de control por variables de estado con observador
Para estudiar el sistema conjunto se procede como sigue:
Sea el sistema en bucle abierto
Sı́ntesis de sistemas de control por variables de estado
ẋ = Ax + Bu
y = Cx
263
(12.26)
(12.27)
Y supóngase que se ha determinado una ley de control
u = r − Kx
(12.28)
siendo la ecuación del observador asintótico
x̂˙ = Ax̂ + L(y − C x̂) + Bu
(12.29)
La ley de control se aplica sobre la estimación del estado x̂. Es decir, en
realidad la expresión de la ley de control toma la forma
u = r − K x̂
(12.30)
La evolución del sistema en bucle cerrado vendrá regida por las ecuaciones
(12.26), (12.29) y (12.30).
Llevando (12.30) a (12.26) y a (12.29) se tiene
ẋ = A x − B k x̂ + Br
x̂˙ = Ax̂ − LC(x̂ − x) + Br − Bkx̂
(12.31)
(12.32)
Llamando x̃ = x̂ − x, la expresión (12.31) se puede escribir
ẋ = (A − BK)x − BK x̃ + Br
(12.33)
Por otra parte restando (12.33) de (12.32) se tiene
x̃˙ = (A − LC) x̃
(12.34)
Sı́ntesis de sistemas de control por variables de estado
264
Las expresiones (12.33) y (12.34) se pueden escribir de una forma compacta
como sigue :
d
dt
Ã
x
x̃
!
Ã
=
A − BK −BK
0
A − LC
y=
³
C 0
´
Ã
! Ã
x
x̃
x
x̃
!
Ã
+
B
0
!
r
!
(12.35)
De un atento análisis de la expresión (35) se desprenden dos conclusiones:
1. Los autovalores del sistema en bucle cerrado son la unión de los correspondientes a (A − BK) y los correspondientes a (A − LC). Esta propiedad
recibe el nombre de propiedad de separación y es análoga a la que se presenta en los sistemas estocásticos al combinar un filtro de Kalmanœ[222z
con una ley de control óptima.
2. Llamando ϕ11 (s) = (sI − A + BK)−1 se tendrá que
Y (s)
= Cϕ11 (s)B
R(s)
Es decir que el observador no influye en la función de transferencia en bucle
cerrado, puesto que esta función de transferencia es la misma que se obtiene
sin observador, cuando las variables de estado son accesibles. Obsérvese que
esta conclusión, pese a su carácter sofisticado, es intuitiva ya que el observador
reproduce exactamente las variables de estado si el valor inicial de estas es el
mismo del que parte el observador, y ello es lo que sucede cuando se parte del
reposo. Es decir, al partir del reposo, los valores que toman la variable de estado
son nulos; estos mismos valores son lo que inicialmente suministra el observador
si a su vez parte del reposo. Por lo tanto, inicialmente, el observador suministra
el valor real del estado.
Ejemplo
Sea el sistema formado por dos integradores que se indica en la figura 12.8,
cuya descripción externa vendrá dada por la función de transferencia
1
Y (s)
= 2
U (s)
s
Sı́ntesis de sistemas de control por variables de estado
265
y cuya descripción interna vendrá dada por
ẋ1 = x2
ẋ2 = u
es decir
Ã
A =
u
0 1
0 0
!
Ã
B =
0
1
!
C =
x2
1
s
³
1 0
´
x1
1
s
Figura 12.8: Doble integrador
Supóngase que se quiere obtener en bucle cerrado un polinomio caracterı́stico
dado por
ϕ(s) = s2 + a1 s + a2
Habida cuenta de la expresión (11) se tendrá que
K=
³
a2 a1
´
Si las variables de estado son accesibles se tiene el diagrama de la figura 12.9. Si
x2 no es accesible, debe procederse a diseñar un observador. Para ello se escribe
(A, B, C) en la forma canónica de observación. Se tiene
Ã
Ao =
0 0
1 0
!
Ã
Bo =
1
0
!
Co =
³
0 1
´
La ley de control, en estas bases del vector de estado, vendrá dada por
Ko =
³
a1 a2
´
Sı́ntesis de sistemas de control por variables de estado
r +
+
x2
1
s
-
266
1
s
x1
a1
+
a2
Figura 12.9: Sistema controlado
Se quiere tener un observador asintótico de orden mı́nimo. El orden del observador será uno, por ser el sistema de orden dos. Si se denota por s + γ el
polinomio caracterı́stico del observador, se tendrá de acuerdo con las expresiones
(12.22) y (12.23).
Ã
T1 =
1 −γ
0 1
Ã
T1−1
=
1 γ
0 1
!
!
y, por lo tanto,
Ã
A=
T1 Ao T1−1
=
−γ −γ 2
1
γ
Ã
B = T 1 Bo =
1
0
!
!
El observador viene dado por el diagrama de bloques de la figura 12.10.
La ley de control en la base del vector de estado correspondiente a X vendrá
dada por
Sı́ntesis de sistemas de control por variables de estado
267
u
y
−γ 2
+
x̂1
1
s
-
γ
x̂2
Figura 12.10: Diagrama del observador
k = Ko T −1 =
³
a1 a1 γ + a2
´
Por lo tanto el conjunto formado por el sistema original y el compensador será
el representado en la figura 12.11.
Supongamos ahora que se trata de un problema de regulación con r = 0.
En tal caso es relativamente sencillo determinar el diagrama que representa la
descripción interna del controlador, entendido como el subsistema que a partir
de la señal de salida de la planta a controlar y produce la señal control u. En la
figura 12.12 se representa el diagrama del controlador.
Si el problema de diseño se hubiese resuelto mediante los métodos clásicos de
control, el controlador vendrı́a especificado mediante su función de transferencia.
Para comparar los resultados se puede determinar la función de transferencia del
controlador que se acaba de obtener. Esta función de transferencia viene dada
por
(a1 γ + a2 )(s + a1 ) + a2 γ
U (s)
= C(s) =
Y (s)
s + a1 + γ
a2 γ
s + a1 +
a1 γ + a2
= (a1 γ + a2 )
s + a1 + γ
Sı́ntesis de sistemas de control por variables de estado
r
+
u
a1
x̄1
1
s
y
1
s2
-
+
268
+
+
−γ 2
-
+
γ
a1 γ + a2
OBSERVADOR
Figura 12.11: Sistema de control por variables de estado con observador
que se puede escribir de forma más compacta
C(s) = k
s + α1
s + α2
k, α1 , α2 > 0
α1 < α2
(12.36)
y que resulta ser lo que en los métodos clásicos se conoce como una red de avance
de fase.
De este modo se ha conseguido resolver el problema de la sı́ntesis de un controlador sin ninguna preconcepción con relación a su estructura. Si se quiere dar un
paso más, supongamos que en bucle cerrado se pretende tener un comportamiento
caracterizado por
ϕc (s) = s2 + 2δωn s + ωn2
en donde 2δωn = a1 y √
ωn2 = a2 . Un valor razonable para el coeficiente de amortiguamiento es δ = 1/ 2, en cuyo caso se tiene que los distintos parámetros de
la red de avance (12.36) vienen dado por
√
k = ω( 2γ + ω)
√ !
Ã
3γ + 2ω
α1 = ω √
2γ + ω
√
α2 = γ + 2ω
Sı́ntesis de sistemas de control por variables de estado
269
Conviene observar que la teorı́a clásica del control no ha sido capaz de proporcionar fórmulas explı́cita como las anteriores, aún para un ejemplo tan simple
como el anterior. Los métodos clásicos están basados en aproximaciones gráficas
y reglas prácticas, lo que constituye una clase de matemáticas aplicadas relativamente anticuadas. Sin embargo, estos comentarios no descalifican los métodos
clásicos, que como se verá más adelante, continúan teniendo un gran interés, ya
que suministran ı́ndices de robustez que poseen un gran interés práctico.
r
+
u
y
-
+
a1
x̄1
1
s
+
+
−γ 2
-
+
γ
a1 γ + a2
OBSERVADOR
Figura 12.12: Controlador para le planta 1/s2 .
Del atento análisis de este ejemplo se desprende que la teorı́a moderna del control, basada en el empleo de las variables de estado, permite resolver el problema
de la sı́ntesis de un sistema realimentado sin ninguna hipótesis previa respecto a la
forma del regulador que se trata de determinar. Ello permite un planteo analı́tico
del problema de la sı́ntesis de sistemas de control que representa una notable
alternativa al que proponen los métodos clásicos, basados éstos en métodos cuya
justificación se encuentra más en una experiencia acumulada que en una visión
teórica global.
A continuación se expone un método general de sı́ntesis de un sistema de
control.
Sı́ntesis de sistemas de control por variables de estado
12.3.1
270
Método práctico de sı́ntesis
Problema
Dado un sistema de control monovariable cuya función de transferencia en
bucle abierto sea
G(s) =
b1 sn−1 + b2 sn−2 + · · · + bn
sn + a1 sn−1 + · · · + an
Se quiere tener en bucle cerrado un sistema cuya función de transferencia sea
tal que el numerador permanezca invariable y el denominador sea
sn + α1 sn−1 + · · · + αn
Para su resolución se procede a seis pasos:
1. A partir de la función de transferencia se obtiene la forma canónica de
control.




Ac = 



0
0
0
0
−an −an−1
0 ... 0
1 ... 0
...
0 ... 1
... −a1
³
´
BcT =
Cc =
³
1
0
0 0 ... 1
bn bn−1 ... b1








´
2. Se determina la ley de control de la forma u = −Kx + r.
−K =
³
an − αn an−1 − αn−1 · · · a1 − α1
´
Obsérvese que los valores numéricos de esta ley de control corresponden a
la representación del sistema en la forma canónica de control.
Sı́ntesis de sistemas de control por variables de estado
271
3. Se determina la forma canónica de observación, lo que se hace a partir de
la función de transferencia.




Ao = 



BoT =
0 0 ... 0 −an
1 0 ... 0 −an−1
0 1 ... 0 −an−2
...
0 0 ... 1 −a1
³
Co =
bn bn−1 ... b1
³
0 0 ... 1








´
´
Aunque la forma canónica de observación se puede obtener directamente
de la función de transferencia, debido al uso que posteriormente se hará de
ella interesa obtener la transformación T que permite pasar de las bases a
la forma canónica de control a la de observación.




T = 




an−1 an−2 ... a1
an−2 an−3 ... 1
..
..
..
.
.
.
a1
1
.... 0
1
0
.... 0
1
0
..
.
 






0 

C
CA
..
.






 C An−2

0
CAn−1









4. A partir de la forma canónica de observación se procede a construir el
observador mı́nimo. Para ello se define la transformación T1 tal que





T1 = 



1
0
..
.
0 ... 0 −γn−1
1 ... 0 −γn−2
..
.
..
. .... ..
.
0 0 ... 1 −γ1
0 0 ... 0
1
en donde
sn−1 + γ1 sn−2 + · · · + γn−1
es el polinomio deseado para el observador.
Obsérvese que









Sı́ntesis de sistemas de control por variables de estado




−1
T
= 




1
0
..
.
0 ... 0 γn−1
1 ... 0 γn−2
..
.
..
. ... ..
.
0 0 ... 1 γ1
0 0 ... 0
272









Se tiene que





−1

A = T1 Ao T1 = 




0
1
0
..
.
0 ... 0 −γn−1 β1
0 ... 0 −γn−2 β2
1 ... 0 −γn−3 β3
..
..
..
..
.
.
.
.
0 0 ... 1
γ1
βn−1
0 0 ... 0
1
βn











B = T 1 Bo
C=
³
0 0 ... 1
´
es decir que y = xn .
El observador tiene como matriz dinámica el bloque (n − 1) × (n − 1)
superior izquierdo de A y está excitado por u a través de los (n−1) primeros
elementos de B y de y a través de (β1 ... βn−1 )
x̂˙ 1 = A11 x1 + A12 y + B u
siendo A11 : (n − 1) × (n − 1) y estando B formado por los n − 1 primeros
elementos de B.
5. Se obtiene la matriz de transformación de x̂ a x̂ (correspondientes a la forma
canónica de control en que se ha determinado la ley de control
x̂ = T −1 T1−1 x̂
6. A partir de todo lo anterior la matriz del compensador es inmediata
u = −K x̂ + r
u = −KT −1 T1−1 x̂ + r
Sı́ntesis de sistemas de control por variables de estado
273
Ejemplo
Sea el sistema cuya función de transferencia en bucle abierto es
s+2
s(s + 1)
G(s) =
Se quiere tener un bucle cerrado el comportamiento representado por la función
de transferencia
Gd (s) =
s+2
s2 + 2s + 3
La aplicación de los seis pasos anteriores conduce a lo siguiente
1.
Ã
Ac =
0 1
0 −1
!
BcT =
2.
K=
3.
Ã
Ao =
0 0
1 −1
³
!
T
Bo =
³
3 1
³
´
0 1
Cc =
³
2 1
´
2 1
´
Co =
³
0 1
siendo
Ã
T =
1 1
1 0
!Ã
Ã
T
−1
=
2 1
0 1
!
Ã
=
−1/2 1
1
−1
2 2
2 1
!
!
4. Adoptando ϕobs (s) = s + 3 se tiene que
Ã
T1 =
y por lo tanto
1 −3
0 1
´
Ã
!
T1−1
=
1 3
0 1
!
´
Sı́ntesis de sistemas de control por variables de estado
Ã
A=
T1 Ao T1− 1
=
Ã
B = T 1 Bo =
C=
³
0 1
274
−3 −6
1
2
−1
1
!
!
´
Estando el observador dado por
x̂˙1 = −3x̂1 − 6x̂2 − u
= −3x̂1 − 6y − u
5.


1
1
−
− 
x̂ = T −1 T1−1 x̂ =  2
2 x̂
1
2
6.
u = −KT −1 T1−1 x̂ + r
=
³
−3 −1
Es decir
U (s) = −
´

 
−u − 6y 
1
1
 −2 −2   s + 3  + r
1
2
y
U (s)
s+9
−
Y (s) + R(s)
2(s + 3) 2(s + 3)
(12.37)
lo que se puede interpretar gráficamente como se hace en la figura 12.13.
Comprobación
Para comprobar basta determinar la función de transferencia en bucle cerrado
y verificar que es la deseada. En el ejemplo anterior se comprueba que ası́ sucede.
En efecto, la expresión (12.37) se puede escribir, llevando todos los términos en
U (s) al primer miembro:
U (s)
(2s + 7)
(s + 9)
= −Y (s)
+ R(s)
2(s + 3)
2(s + 3)
Sı́ntesis de sistemas de control por variables de estado
Como
U (s) = Y (s)
275
s(s + 1)
s+2
se tiene
Ã
s+9
(2s + 7) s(s + 1)
Y (s)
+
×
2(s + 3) 2(s + 3)
(s + 2)
!
= R(s)
Es decir
Y
2(s + 2)(s + 3)
s+2
(s) = 3
=
R
2s + 10s2 + 18s + 18
s2 + 2s + 3
Debe notarse que el observador no aparece de ninguna forma en la función de
transferencia en bucle cerrado.
12.3.2
Sı́ntesis algebraica directa (Sı́ntesis externa directa)
En el apartado anterior se ha determinado la compensación de un determinado
sistema por medio de un observador y una ley de control. Al aplicar al sistema
original el observador y la ley de control en el ejemplo considerado en el apartado
anterior, se ha obtenido el diagrama de la figura 12.13. Ello sugiere adoptar el
diagrama de bloques de la figura 12.14,como diagrama básico para la sı́ntesis de
sistemas de control.
Tomando el diagrama de la figura 12.14 como punto de partida para la sı́ntesis
de un sistema de control, se identifican en él los siguientes elementos. La función
de transferencia T (s) es la función de transferencia del sistema en bucle abierto.
El polinomio q(s) caracteriza el comportamiento dinámico del observador y por
tanto, se establece a priori, de la misma manera que se adoptaban unos valores
para el comportamiento dinámico del observador en el apartado anterior. El
problema de sı́ntesis queda reducido a determinar los polinomios k(s) y h(s). El
objeto de este apartado es precisamente, determinar los polinomios k(s) y h(s)
directamente sin necesidad de determinar que la ley de control y el observador,
que es lo que se hacı́a en el apartado anterior.
El problema se suele plantear en los términos siguientes. Sea un sistema
cuya función de transferencia es T (s) = n(s)/d(s), y supóngase que se quiere
obtener en bucle cerrado un comportamiento representado por Td (s). Adoptando
Sı́ntesis de sistemas de control por variables de estado
u
v +
276
y
s+2
s(s+1)
-
s+9
2(s+3)
1
2(s+3)
+
+
Figura 12.13: Diagrama de bloques simplificado del sistema controlado por variables de estado con observador
u
v +
y
T (s)
-
h(s)
q(s)
k(s)
q(s)
+
+
Figura 12.14: Diagrama de bloques simplificado del sistema controlado por variables de estado con observador
Sı́ntesis de sistemas de control por variables de estado
277
la configuración de la figura 12.14, se trata de determinar los polinomios k(s) y
h(s) para que la función de transferencia resultante sea precisamente Td (s).
Para estudiar el problema se procede, en primer lugar, a particionar T (s) tal
como se hace en la figura 12.15.
u
z
1
d(s)
N (s)
y
Figura 12.15: Factorización del sistema
De la observación de las figuras 12.14 y 12.15 se tiene lo siguiente.
d(s)Z(s) = U (s)
(12.38)
Y (s) = n(s)Z(s)
(12.39)
1
(k(s)U (s) + h(s)Y (s))
q(s)
1
= R(s) −
(k(s)d(s) + h(s)n(s)) Z(s)
q(s)
U (s) = R(s) −
(12.40)
(12.41)
Un conocido resultado del álgebra de polinomios establece que, dados dos
polinomios primos entre sı́ n(s) y d(s), y un polinomio arbitrario ϕ(s), existen
dos polinomios k(s) y h(s), tales que
n(s)h(s) + d(s)k(s) = ϕ(s)
(12.42)
Este resultado se estudiará con detalle, en un teorema, posteriormente. Supóngase
aquı́ que ϕ(s) = q(s) × f (s), en donde el significado de f (s) se determinará más
abajo. Se tendrá que la expresión (12.40) se convertirá en
U (s) = R(s) − f (s)Z(s)
(12.43)
Sı́ntesis de sistemas de control por variables de estado
278
R(s) = U (s) + f (s)Z(s)
= (d(s) + f (s)) Z(s)
(12.44)
luego,
Y (s)
n(s)
=
R(s)
d(s) + f (s)
(12.45)
Esta expresión indica que la función de transferencia Td (s) debe tener el mismo
numerador que T (s) y, al mismo tiempo, indica cómo se puede modificar el denominador. Esta modificación se hacer por adición de f (s), cuyo significado es
ahora claro.
El anterior desarrollo lleva implı́cito un método de sı́ntesis. Los pasos de este
método son:
1. A partir de d(s) y del denominador de Td (s) se determina f (s).
2. Por consideraciones fı́sicas se adopta q(s), (equivale a ϕobs (s)).
3. Se determina ϕ(s) = q(s)×f (s) y se resuelve la ecuación polinomial (12.42),
con lo que se obtienen h(s) y k(s).
Debe notarse que el problema es trivial si ϕ (n(s)) = 0, es decir si n(s) es una
constante n0 . En efecto, en tal caso la expresión (12.42) se convierte en
ϕ(s) = k(s)d(s) + h(s) × n0
Para la determinación de k(s) y h(s) se divide ϕ(s) por d(s). El cociente de
dicha división es k(s) y el resto h(s) × n0
El problema queda reducido, por lo tanto, a la resolución de la ecuación
polinomial (12.42).
Método del sistema de ecuaciones lineales
Sea la expresión (12.42) en la que a partir de n(s), d(s) y ϕ(s) se trata de determinar h(s) y k(s).
Sı́ntesis de sistemas de control por variables de estado
279
Los grados de los polinomios n(s), d(s) y ϕ(s), son:
grado (ϕ) = q ≤ 2n − 2
grado (n) = m ≤ n − 1
grado (d) = n
Los grados de h(s) y k(s) serán
grado (h) = n − 1grado (k) = m − 1
La determinación de h(s) y k(s) se hace considerando como incógnitas sus
coeficientes y obteniendo las ecuaciones que resultan de igualar coeficientes de
términos de igual exponente de s en la expresión (12.42). Con ello se obtiene
un sistema de ecuaciones lineales que admite solución, y ésta es única, si los
polinomios n(s) y d(s) son primos entre sı́ (no tienen factores comunes).
Considérese, sin pérdida de generalidad, n = 3 y m = 2, es decir,
d(s) = s3 + d1 s2 + d2 s + d3
n(s) = n0 s2 + n1 s + n2
h(s) = h0 s2 + h1 s + h2
k(s) = k0 s + k1
ϕ(s) = ϕ0 s4 + ϕ1 s3 + ϕ3 s + ϕ4
Se tendrá,
Sı́ntesis de sistemas de control por variables de estado
280
n(s)h(s) = n0 h0 s4 + (n0 h1 + n1 h0 )s3 +
+(n0 h2 + n1 h1 + n2 h0 )s2 +
+(n1 h2 + n2 h1 )s2 + n2 h2
d(s)k(s) = k0 s4 + (k1 + d1 k0 )s3 +
+(d1 k1 + d2 k0 )s2 +
(d2 k1 + d3 k0 )s + d3 k1
Al igualar en ambos miembros de (12.42) términos en la misma potencia de
s, se tendrá, escrito en forma compacta











n2 0 0 d3 0
h2



 h1 

n1 n2 0 d2 d3 






n0 n1 n2 d1 d2   h0  = 




0 n0 n1 1 d1 
  k1 

0 0 n0 0 1
k0
ϕ4
ϕ3
ϕ2
ϕ1
ϕ0








es decir
MC = ϕ
(12.46)
La anterior ecuación en C admite solución, y ésta es única, si M −1 existe.
Ahora bien, la matriz M tiene como determinante el resultante R(n, d), de los
dos polinomios n(s) y d(s). El resultante de dos polinomios es no nulo si éstos
no tienen factores comunes. Ello es lo que sucede cuando el sistema a controlar
es controlable y observable. Por lo tanto, la anterior ecuación tendrá solución, y
esta será única, si n(s) y d(s) no tienen factores comunes.
El inconveniente que presenta este método es que requiere la inversión de una
matriz cuya dimensión, para problemas de un cierto orden, puede ser elevada.
Este método, por lo tanto, no es el adecuado cuando se trata de resolver el
problema con papel y lápiz. Sin embargo, es más simple.
Sı́ntesis de sistemas de control por variables de estado
281
Ejemplo
Sea el sistema considerado en el ejemplo 2 del apartado anterior y cuyas funciones
de transferencia en bucle abierto y en bucle cerrado son las siguientes.
T (s) =
Td (s) =
s2
s3
s+2
+ 2s + 3s
s+2
+ 3s2 + s + 2
Se tiene que
n(s) = s + 2
d(s) = s3 + 2s2 + 3s
ϕ(s) = q(s) × f (s) = s4 − s2 + 2s + 2
Se adopta
k(s) = k0 s + k1
h(s) = h0 s2 + h1 s + h2
El sistema de ecuaciones (44) resulta ser








2
1
0
0
0
0
2
1
0
0
cuya solución conduce a
0
0
2
1
0
0
3
2
1
0
0
0
3
2
1








h2
h1
h0
k1
k0








=






2
2
−1
0
1








Sı́ntesis de sistemas de control por variables de estado
282
h2 = 1 h1 = 0 h0 = −14/6 k1 = 1/3 k0 = 1
lo cual coincide con lo obtenido por el método anterior.
Debe resaltarse que para aplicar este método se requiere el concurso de un
computador, cosa que con el anterior, aunque aparentemente más complejo, no
sucedı́a.
Tema 13
Sistemas no lineales
13.1
Método del primer armónico
Los métodos clásicos de sistemas realimentados lineales están basados en el empleo de la función de transferencia, que posee una interpretación en el dominio
de la frecuencia de gran interés para el análisis y la concepción de esos sistemas
realimentados. Sin embargo, el concepto de función de transferencia está basado
en la propiedad de linealidad (suma de causas produce suma de efectos) que no
poseen, por su propia naturaleza los sistemas no lineales.
Sin embargo, como vamos a ver en lo que sigue, es posible aplicar una versión
ampliada del método de la respuesta en frecuencia a sistemas no lineales mediante el método de la función descriptiva. Con este método, como vamos a ver,
es posible adaptar los métodos de diseño de sistemas lineales en el dominio de
la frecuencia, empleando los diagramas de Bode y similares, al caso de los sistemas no lineales, si bien en este último caso los resultados son exclusivamente
aproximados.
13.1.1
Ejemplo introductorio
Los sistemas no lineales pueden presentar oscilaciones de amplitud y periodo
fijos sin excitación exterior. Esas oscilaciones se denominan ciclos lı́mites u oscilaciones autoexcitadas. Una de la primeras ecuaciones propuestas para estudiar
este fenómeno se debe al ingeniero eléctrico holandés Balthasar Van der Pol. Esta
283
Sistemas no lineales
284
ecuación es la siguiente:
ẍ + α(x2 − 1)ẋ + x = 0
(13.1)
vamos a emplear esta ecuación como ejemplo introductorio al método del primer
armónico. Para ello, vamos a suponer que existe un ciclo lı́mite de amplitud y
frecuencia no determinadas, y vamos a ver que restricciones impone la ecuación
anterior a esta amplitud y frecuencia.
Elemento no lineal (−ẋx2 )
Elemento Lineal
s
0
+
−x
-
v
α
s2 −αs+1
x
(.)2
Figura 13.1: Diagrama de bloques del oscilador de Van der Pol
Puesto que el análisis de la ecuación de Van der Pol lo estamos haciendo
como introducción al estudio de sistemas realimentados no lineales conviene que
representamos la ecuación (13.1) mediante un diagrama de bloques como el de la
figura 13.1. En esta figura se tiene un sistema realimentado, con realimentación
unitaria, en cuya cadena directa aparece un bloque no lineal y uno lineal. Como
veremos luego, esta será la forma que tomaran los sistemas realimentados no
lineales a los que se aplica el método del primer armónico.
Para justificar el diagrama de la figura 13.1 basta reescribir la expresión (13.1)
de la forma
ẍ − αẋ + x = −αx2 ẋ
Se define v = −x2 ẋ, con lo que la anterior expresión se convierte en
ẍ − αẋ + x = αv
cuya función de transferencia es
x
α
(s) = 2
v
s − αs + 1
Sistemas no lineales
285
Supongamos que el sistema de la figura 13.1 oscila, de modo que la señal x
evoluciona de la forma
x(t) = A sen ωt
(13.2)
en donde A es la amplitud del ciclo lı́mite y ω su frecuencia. En este caso se tiene
ẋ(t) = Aω cos ωt
por consiguiente, la salida del bloque no lineal de la figura 13.1 viene dada por
v = −x2 ẋ = A2 sen 2 ωtAω cos ωt
A3 ω
= −
(1 − cos 2ωt) cos ωt
2
A3 ω
= −
( cos ωt − cos 3ωt)
4
(13.3)
(13.4)
(13.5)
El paso de (13.3) a (13.4) se basa en que
2 sen 2 ωt = 1 − cos 2ωt
ya que
cos 2ωt = cos 2 ωt − sen 2 ωt = 1 − 2 sen 2 ωt
Por otra parte, el paso de (13.4) a (13.5) es un poco máás elaborado. Para
demostrarlo se parte de
cos 3ωt =
=
=
=
=
cos
cos
cos
cos
cos
2ωt cos ωt − sen ωt sen 2ωt
ωt(1 − 2 sen 2 ωt) − 2 sen 2 ωt cos ωt
ωt(1 − 4 sen 2 ωt)
ωt(1 − 2 + 2 cos 2ωt)
ωt(2 cos 2ωt − 1)
de donde se tiene que
1
cos ωt − cos ωt cos 2ωt = ( cos ωt − cos 3ωt)
2
En la expresión (13.5) se observa que la señal v contiene un armónico de tercer
orden. Sin embargo, sucede que la parte lineal se comporta como un filtro paso
bajo, de modo que se puede suponer razonablemente que este armónico de tercer
orden resulta suficientemente atenuado por el bloque lineal y que puede, en una
primera aproximación despreciarse. Con estos supuestos, la señal v toma la forma
aproximada
A2 d
A3 ω
( cos ωt) =
(−A sen ωt)
(13.6)
v≈−
4
4 dt
Sistemas no lineales
286
Aproximación cuasi lineal
r=0 +
−x
-
A2
s
4
v
α
s2 −αs+1
x
Figura 13.2: Aproximación lineal del oscilador de Van der Pol
De este modo el bloque no lineal de la figura 13.1 puede representarse en forma
aproximada como se hace en la figura 13.2. El bloque no lineal de la figura 13.1 se
describe de forma aproximada, mediante una función de transferencia como la que
se indica en la figura 13.2. Conviene observar que esta “función de transferencia”
depende de la amplitud de la señal de entrada A, lo que no sucede en ningún caso
con una función de transferencia de un sistema lineal.
En general, podemos escribir que las señales de salida v del bloque no lineal
de la figura 13.2 vienen dadas por
v = N (A, ω)(−x)
(13.7)
en donde N juega el mismo papel que la función de transferencia en un sistema
lineal, aunque en este caso con la propiedad adicional de depender no solamente
de la frecuencia ω, sino también de la amplitud A. A la función N la denominaremos función descriptiva del elemento no lineal correspondiente y constituye una
generalización del concepto de función de transferencia al estudio de los sistemas
no lineales (aunque aquı́ con un carácter aproximado ya que para llegar a ella
se han despreciado los armónicos de orden superior al primero, a partir de la
consideración del carácter del filtro paso bajo del bloque lineal).
En el caso que nos ocupa la función descriptiva toma la forma
A2
(13.8)
4
es decir el bloque no lineal se puede aproximar por la función de respuesta en
frecuencia N . De acuerdo con la cadena directa del sistema de la figura 13.2, se
puede escribir
N (A, ω) = jω
x = A sen ωt = G(jω)v = G(jω)N (A, ω)(−x)
(13.9)
Sistemas no lineales
287
Se sabe que una señal senoidal se puede escribir en forma compleja mediante la
exponencial
x = Aejωt
con lo que la anterior expresión (13.9) puede escribir
Aejωt = G(jω)N (A, ω)(−Aejωt )
de donde se tiene
1 + G(jω)N (A, ω) = 0
(13.10)
esta expresión, en realidad, es una forma de escribir la expresión (13.1), es decir
la ecuación del sistema, habida cuenta de la simplificación que ha permitido pasar
de la expresión (13.3) a la (13.6). La resolución de esta ecuación en la amplitud
A y la frecuencia ω permite determinar la amplitud y frecuencia a la que oscila
el sistema. En el caso concreto que nos ocupa, la expresión (13.10) se convierte
en
α
A2
1+
jω = 0
(13.11)
(jω)2 − α(jω) + 1 4
que conduce a
4((jω)2 − α(jω) + 1) + αA2 jω = 0
cuya parte real es
−4ω 2 + 4 = 0
cuya solución conduce a ω = 1, y cuya parte imaginaria es
−4α + αA2 = 0
por lo que A = 2. Por tanto el sistema admite una solución en forma de oscilación
con amplitud A = 2 y frecuencia ω = 1.
Conviene observar que la expresión (13.11) escrita en forma de Laplace toma
la forma
α
A2 s
1+ 2
=0
s − αs + 1 4
que es la ecuación caracterı́stica en bucle cerrado del sistema de la figura 13.2.
Los autovalores de esta ecuación son
λ1,2
1
= − α(A2 − 4) ±
8
s
1 2 2
α (A − 4)2 − 1
64
(13.12)
en los que haciendo A = 2 se obtienen los autovalores λ1,2 = ±j; es decir existe un
ciclo lı́mite de amplitud 2 y frecuencia 1. Conviene observar que ni la amplitud
ni la frecuencia obtenidas dependen del parámetro α.
Sistemas no lineales
288
Elemento no lineal
r(t) = 0
+
x(t)
v = f (x)
Elemento lineal
v(t)
G(s)
y(t)
-
Figura 13.3: Sistema no lineal
r(t) = 0
+
x(t)
G1 (s)
v(t)
u(t)
Gp (s)
y(t)
-
G2 (s)
Figura 13.4: Sistema de control con una no linealidad
Sistemas no lineales
13.1.2
289
Principios del método
Supuestos básicos del método:
1. Hay un único componente no lineal.
2. Ese componente es invariante en el tiempo.
3. La parte lineal se comporta como un filtro paso-bajo.
4. La no linealidad es simétrica, de modo que no aparece en la salida un señal
de continua.
Debido a estas limitaciones, el método de la función descriptiva se utiliza fundamentalmente para el análisis de estabilidad y no suele aplicarse a problemas de
diseño óptimo de sistemas.
13.1.3
Transformación de Fourier
La salida v(t) de un elemento no lineal, en respuesta a una señal sinusoidal, de
amplitud A y frecuencia ω, es una señal periódica de la misma frecuencia, que se
puede desarrollar en serie de Fourier, de la forma:
v(t) = a0 +
∞
X
(an cos (nωt) + bn sen (nωt))
n=1
1Zπ
a0 =
v(t)d(ωt) n = 0, 1, 2, ...
π π
El término independiente es el valor medio de la señal en un perı́odo. Para una
señal sin componente de continua este valor es cero; es decir a0 = 0 (recuérdese
el supuesto 4 de 13.1.2).
1Zπ
an =
v(t) cos (nωt)d(ωt)
π π
n = 0, 1, 2, ...
(13.13)
1Zπ
v(t) sen (nωt)d(ωt)
π π
n = 0, 1, 2, ...
(13.14)
bn =
Casos de interés:
Sistemas no lineales
290
• v(t) es impar [v(ωt) = −v(−ωt)], entonces an = 0, n = 0, 1, 2, ..., y en
desarrollo solo tiene términos en senos (figura 13.5a).
• v(t) es alternada [v(ωt + π) = −v(ωt)], entonces el desarrollo solo tiene
términos impares (figura 13.5b).
v(x)
v(x)
x+π
−x
x
x
v(−x)
v(x + π)
a)
b)
Figura 13.5: Señales impar (a) y alternada (b)
En el supuesto de que se considere únicamente la componente fundamental del
desarrollo en serie, y recordando que a0 = 0, se tiene que la expresión se convierte
en
v(t) = v1 (t) = a1 cos (ωt) + b1 sen (ωt) = M sen (ωt + φ)
(13.15)
En la figura 13.6 se representa un elemento no lineal y su representación mediante
Asen(ωt)
w(t)
N.L.
Asen(ωt)
N (A, ω)
M sen(ωt + φ)
Figura 13.6: Elemento no lineal y función descriptiva
la función descriptiva. De la expresión (13.15) se tiene
µ
q
M (A, ω) =
a21
+
b21
φ(A, ω) = tag
−1
a1
b1
¶
En la figura 13.6 se muestra como la componente fundamental de la salida de un
sistema no lineal a una señal sinusoidal de entrada, es otra señal sinusoidal de la
misma frecuencia pero de amplitud M y desfase φ. Empleando una representación
compleja la sinusoide puede escribirse
v1 = M ej(ωt+φ) = (b1 + ja1 )ejωt
Sistemas no lineales
291
Con los anteriores elementos ya estamos en posición de definir la función descriptiva de un elemento no lineal como el cociente complejo entre la componente
fundamental del elemento no lineal y la señal sinusoidal de entrada A sen ωt; es
decir
M ej(ωt+φ)
M jφ
1
N (A, ω) =
=
e = (b1 + ja1 )
(13.16)
jωt
Ae
A
A
Es decir, la función descriptiva N (A, ω) es una función compleja cuyo módulo
y argumento representan la amplificación y el desfase del primer armónico de la
salida v(t) de un sistema no lineal ante una entrada sinusoidal de amplitud A y
frecuencia ω.
El concepto de función descriptiva puede, por tanto, ser considerado como
una ampliación de la noción de respuesta frecuencial de los sistema lineales. Las
diferencias entre ambos conceptos se limitan a que la función descriptiva de un
elemento no lineal depende de la amplitud, mientras que la función de transferencia de un elemento lineal no depende de ella. Sin embargo, con vistas a
las aplicaciones al diseño de sistemas realimentados pueden tratarse de forma
análoga.
En general, por tanto, la función descriptiva depende de la frecuencia y la
amplitud de la señal de entrada. Existen, sin embargo, algunos casos especiales.
Cuando la no linealidad es uniforme (es decir, su caracterı́stica es una función que
asigna a cada valor de la señal de entrada un único valor de la señal de salida)
la función descriptiva N es real e independiente de la frecuencia de entrada. El
carácter real de N se debe a que a1 = 0, debido a que la señal de salida del
elemento no lineal es impar, y en ese caso, como hemos recordado antes, todos
los términos ai se anulan. Además, la salida es siempre alternada, por lo que
los términos pares desaparecen. Por tanto ante una no-linealidad uniforme se
tendráá
v(t) = b1 sen ωt + b3 sen 3ωt + b5 sen 5ωt + ...
13.2
Algunas funciones descriptivas
La determinación de la función descriptiva se puede hacer básicamente de dos
formas: por cálculo analı́tico o por determinación experimental.
Por lo que respecta al método analı́tico vamos a presentar un par de ejemplos
para ilustrar su aplicación. El primero de los ejemplos es una saturación que
aporta un ejemplo de un sistema no lineal con caracterı́stica estática. También
se presenta un ejemplo de un relé con holgura, cuya caracterı́stica es dinámica.
Sistemas no lineales
13.2.1
292
Saturación
v
saturación
v(t)
salida no saturada
salida saturada
k
0
ka
a
0
x
0
γ
ka
ωt
A
x(t)
γ
π/2
entrada
sinusoidal
ωt
Figura 13.7: Caracterı́stica de una saturación.
En la figura 13.7 se muestra la caracterı́stica de una saturación. Para valores
de x < a el elementos no lineal transmite la señal de forma lineal, con una
amplificación. Para valores de x > a la señal de entrada queda truncada por
efecto de la no linealidad.
En la figura 13.7 se muestra el efecto de la saturación sobre una señal de
entrada de amplitud mayor que a, para el caso en que A sea mayor que a. En tal
caso se tiene que la señal de salida del elemento no lineal vendrá dada por
(
v(t) =
siendo γ = sen
−1
kA sen (ωt) 0 ≤ ωt ≤ γ
ka
γ ≤ ωt ≤ π/2
(a/A)
a1 = 0 obsérvese que el carácter impar de v(t) implica que a1 = 0 y que
la simetrı́a de la señal sobre los cuatro cuadrantes en que se puede considerar
Sistemas no lineales
293
dividido un periodo indica que
b1
4 Z π/2
=
v(t) sen ωtd(ωt)
π 0
4Zγ
4 Z π/2
=
kA sen 2 ωtd(ωt) +
ka sen ωtd(ωt)
π 0
π γ

(13.17)

s
a
a2
2kA 
γ+
1 − 2
=
π
A
A
por consiguiente, la función descriptiva resulta ser

s

b1
2k 
a
a2
N (A) =
=
γ+
1 − 2
A
π
A
A
(13.18)
En la figura 13.8 se representa la función descriptiva de una saturación.
1.2
Rango lineal
1.0
N(A)/k
0.8
0.6
0.4
0.2
0.0
0
1
5
10
A/a
Figura 13.8: Función descriptiva de una saturación.
13.2.2
Relé
La caracterı́stica no lineal de un relé se muestra en la figura 13.9. Si se compara
con la caracterı́stica de una saturación, que se vio en la figura 13.7 se tiene que la
no linealidad de un relé corresponde a un caso lı́mite de una saturación definido
por
a → 0, k → ∞
Sistemas no lineales
294
2.0
v
a infinito
encendido
1.6
0
x
-M
N(A)/M
M
1.2
0.8
0.4
a cero
apagado
0.0
0
5
10
A
Figura 13.9: Caracterı́stica de un relé
siendo ka = M . Por tanto, b1 puede obtener de la expresión (13.18) calculando
el lı́mite. Sin embargo se obtiene más fácilmente calculándolo directamente de
acuerdo con
4 Z π/2
4M
b1 =
(13.19)
M sen ωtd(ωt) =
π 0
π
por lo que la función descriptiva de un relé viene dada por
N (A) =
4M
πA
(13.20)
En la figura 13.9 se representa la función descriptiva de un relé. Puede compararse
esa función descriptiva con la de la saturación que se vio en la figura 13.8.
13.2.3
Holgura
En la figura 13.10 se muestra la caracterı́stica de una holgura, que se presenta
a menudo en los sistemas de transmisión mecánica mediante engranajes. Como
consecuencia de la holgura, cuando el engranaje primario gira un ángulo menor
que b, el secundario no se mueve, como corresponde a la zona muerta (segmento
OA en la figura 13.10); después de establecido el contacto en engranaje secundario
sigue la rotación del primario de manera lineal (segmento AB). Si se invierte el
sentido de giro del engranaje primario entonces durante un ángulo 2b el secundario
no se mueve, de acuerdo con el segmento BC de la figura 13.10. Cuando se
restablece el contacto entre los dos engranajes el secundario sigue al primario en
la dirección opuesta (segmento CD). Por consiguiente, si el engranaje primario
Sistemas no lineales
295
Engranaje secundario
ángulo
salida
Engranaje primario
C
B
b
-b
A
0
D
b
ángulo
entrada
E
Figura 13.10: Caracterı́stica de una holgura.
está sometido a un movimiento periódico el secundario recorrerá el camino cerrado
EBCD, de la figura 13.10. Conviene observar que los puntos B, C, D y E de la
figura dependen de la amplitud de la seńal sinusoidal de entrada.
La holgura suministra un ejemplo de no linealidad con memoria, en la que
el valor de la salida en un instante de tiempo determinado, no depende exclusivamente del valor de la entrada en ese instante, sino de la historia previa de las
señales de entrada que afectan al sistema.
El cálculo de la función descriptiva resulta en este caso más complejo que
en el de la no linealidades sin memoria. En la figura 13.11 se muestra como
se genera la señal de salida para una señal sinusoidal de entrada. La señal de
salida v(t), en un periodo, se determina dividiendo este periodo en las cuatro
partes correspondientes a los cuatro tramos que aparecen en el romboide de la
caracterı́stica. Se tiene
π
v(t) = (A − b)k
≤ ωt ≤ π − γ
2
v(t) = A( sen ωt + b)k π − γ ≤ ωt ≤ 3π
2
3π
v(t) = −(A − b)k
≤ ωt ≤ 2π − γ
2
v(t) = A( sen ωt − b)k 2π − γ ≤ ωt ≤ 5π
2
donde γ = sen −1 (1 − 2b/A). En este caso la caracterı́stica no es uniforme y la
componente fundamental de la señal de salida presenta variación de amplitud y
de fase. Se tiene
Ã
!
4kb b
−1
a1 =
π A

b1 =
Ak  π
 − sen
π
2
Ã
−1
!
Ã
v
!u
u
t
2b
2b
−1 −
−1
A
A
1−
Ã
!2
2b
−1
A



Sistemas no lineales
296
v
k(A − b)
v(t)
3π/2
-b
b
π/2
x
ωt
−k(A − b)
-A
A
x(t)
π/2
π−γ
entrada sinusoidal
3π/2
2π − γ
ωt
Figura 13.11: Generación de la seńal de salida para una señal sinusoidal de entrada en una holgura.
Sistemas no lineales
297
es decir, la función descriptiva de una holgura viene dada por
1q 2
| N (A) |=
a + b21
A 1
µ
¶
a1
b1
En las figuras 13.12 y 13.13 se representan la amplitud y desfase, respectivamente,
de la función descriptiva de una holgura. Obsérvese que en este caso la función
6
N (A) = tan−1
1.0
Amplitud
0.8
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
0.8
1.0
b/A
Figura 13.12: Amplitud de la función descriptiva de una holgura.
descriptiva depende exclusivamente de la amplitud de la seńal de entrada, como
sucedı́a en las no linealidades sin memoria (como la saturación y el relé) que
se han visto anteriormente. Sin embargo, en este caso la función descriptiva
tiene módulo y argumento (amplitud y desfase), mientras que en los casos de no
linealidades sin memoria la función descriptiva posee únicamente amplitud, y no
desfase.
13.2.4
Determinación experimental de la función descriptiva
En lo ejemplos que se acaban de ver, se ha determinado la función descriptiva
mediante la aplicación de métodos matemáticos. Ello es posible cuando la formulación matemática del problema es aceptablemente sencilla. Cuando no es ası́, se
procede de manera experimental con ayuda de un analizador armónico. Se excita
Sistemas no lineales
298
Desfase
0
-30
-60
-90
0.0
0.2
0.4
0.6
0.8
1.0
b/A
Figura 13.13: Desfase de la función descriptiva de una holgura.
el sistema no lineal cuya descripción descriptiva se quiere determinar, con señales
sinusoidales, y la salida se analiza mediante el analizador armónico, de modo
que se discrimine el primer armónico. Comparando las amplitudes y fases de la
señal de entrada y del primer armónico se puede determinar experimentalmente
la función descriptiva. Conviene observar que, en este caso, y al contrario de lo
que sucede con los sistemas lineales, el análisis debe realizarse para señales de entrada de diferente amplitud; es decir, el ensayo debe realizarse variando tanto la
amplitud como la frecuencia de la señal de entrada. De este modo se determinan
los datos que permiten establecer la función N (A, ω). Estos datos se procesaran
normalmente mediante tablas, y no mediante expresiones analı́ticas.
13.3
Análisis de sistemas no lineales mediante
la función descriptiva
En las secciones anteriores hemos visto como se determina la función descriptiva
de un elemento no lineal. Además en la sección 13.1.1 se presentó un ejemplo
introductorio que permitı́a analizar la existencia de ciclos lı́mites en un sistema
no lineal mediante la función descriptiva. En esta sección vamos a generalizar el
método allı́ presentado. Para ello, en primer lugar, conviene recordar el criterio
de Nyquist.
Sistemas no lineales
299
+
G(s)
-
H(s)
Figura 13.14: Sistema lineal realimentado.
+∞
G(s)H(s)
plano s
-1
−∞
ω → +∞
Figura 13.15: Criterio de Nyquist.
13.3.1
Una ampliación del criterio de Nyquist
Sea el sistema lineal de la figura 13.14, cuya ecuación caracterı́stica resulta ser
1 + G(s)H(s) = 0
(13.21)
como se recordará el criterio de Nyquist permite conocer el número de raices
de la ecuación caracterı́stica con parte real negativa. Para ello basta dibujar la
aplicación C del contorno de Nyquist en un plano complejo apropiado, determinar
el número N de veces que este contorno C rodea al punto (-1,0) y aplicar la
conocida expresión
Z =N +P
en donde P es el número de polos inestables de la función de transferencia en
bucle abierto GH. Entonces Z es el número de polos inestables del sistema en
bucle cerrado (con sólo que haya uno, el sistema es inestable).
Sistemas no lineales
300
Im
0 +
k
G(s)
-
G(s)H(s)
-1
Re
H(s)
−1/k
Figura 13.16: Ampliación del criterio de Nyquist.
Función descriptiva
r(t) = 0 +
x(t)
N (A, ω)
Elemento lineal
v(t)
G(jω)
y(t)
-
Figura 13.17: Sistema no lineal.
El criterio de Nyquist se amplia formalmente para el caso en el que una constante k, que consideraremos que puede ser un número complejo, se incluye en la
cadena directa de la figura 13.16. En tal caso la ecuación caracterı́stica resulta
ser
1 + kG(s)H(s) = 0
(13.22)
y por tanto,
1
(13.23)
k
Es fácil ver que en este caso el criterio de Nyquist se aplica igual que en el caso
anterior (de la figura 13.15) con la diferencia de que ahora N representa el número
de veces que el contorno de Nyquist de GH rodea al punto −1/k, lo que se ilustra
en la figura 13.16.
G(s)H(s) = −
13.3.2
Oscilaciones de un servomecanismo no lineal
Considérese el sistema no lineal de la figura 13.17. Diremos que este sistema
presenta una oscilación automantenida si para r = 0 el sistema presenta un
Sistemas no lineales
301
comportamiento oscilatorio. Supongamos que esta oscilación viene dada por la
expresión
x(t) = A cos ωt
(13.24)
El componente fundamental de la señal de salida del elemento no lineal v(t)
resulta ser
v(t) =| N (A, ω) | A cos (ωt + φ(A, ω))
(13.25)
Es sabido que (13.24) y (13.25) pueden escribirse de la forma
x(t) = <{Aejωt }
v(t) = <{| N (A, ω) | Aej(ωt+φ(A,ω)) }
Empleando esta última forma de representar un comportamiento oscilatorio, se
tiene que la salida del elemento lineal vendrá dada por
y(t) = <{| N (A, ω) | A | G(jω) | ej(ωt+φ+α) }
siendo α = 6 G(jω).
Para que la oscilación sea automantenida, en ausencia de señal de excitación
r, se requiere que:
−Aejωt =| N (A, ω) | A | G(jω) | ej(ωt+φ+α)
Es decir,
³
´
Aejωt | N (A, ω) || G(jω) | ej(φ+α) + 1 = 0
La anterior expresión se debe satisfacer para todo t, por lo que se tendrá
| N (A, ω) || G(jω) | ej(φ+α) + 1 = 0
es decir,
N (A, ω)G(jω) + 1 = 0
y por tanto,
G(jω) = −
1
N (A, ω)
(13.26)
(13.27)
y cualquier par de valores de A y ω que satisfaga la anterior ecuación puede dar
lugar a un ciclo lı́mite. De aquellos valores que satisfagan esta ecuación, solo dará
lugar a un ciclo lı́mite aquellos para los que la oscilación periódica sea estable.
Sistemas no lineales
302
G(jω)
Im
ω
L
Re
A
−1/N (A)
Figura 13.18: Determinación de un ciclo lı́mite.
13.3.3
Función descriptiva independiente de la frecuencia
Considérese el caso en el que la función descriptiva N es únicamente función de
la amplitud A. Este caso incluye todas las no linealidades cuya caracterı́stica es
uniforme y algunas no linealidades biformes interesantes como la holgura. En
este caso la expresión (13.27) se convierte en
G(jω) = −
1
N (A)
(13.28)
En la figura 13.18 se han representado la función de transferencia de la parte
lineal G(jω) (parametrizado en ω) y la curva correspondiente a la inversa de
la función descriptiva, con el signo cambiado, (parametrizada en A) en el plano
complejo. Si estas dos curvas se cortan, entonces los valores de A y de ω correspondientes al punto de intersección son soluciones de la ecuación 13.28, y en
consecuencia, pueden existir ciclos lı́mites. Por ejemplo, en la figura 13.18 las dos
curvas se cortan en el punto L.
Conviene recordar que para no-linealidades uniformes N es siempre real y por
consiguiente el trazado de (13.28) siempre está situado sobre el eje real.
13.3.4
Función descriptiva dependiente de la frecuencia
En el caso general la función descriptiva depende tanto de la amplitud de la señal
de entrada como de su frecuencia y, en consecuencia el método que se acaba de
ver en el apartado anterior, adquiere mayor complejidad. En tal caso la expresión
en el segundo miembro de (13.27) da lugar a una familia de curvas en el plano
Sistemas no lineales
303
−1/N (A, ω)
Im
G(jω)
ω4
A
ω3
ω2
Re
ω1
ω
Figura 13.19: Determinación de ciclos lı́mite con funciones descriptivas dependientes de la frecuencia.
A1
A2
A3
A4
-1
ω
G(jω)N (A, ω)
Figura 13.20: Resolución gráfica de la ecuación N (A, ω)G(jω) + 1 = 0.
complejo con A como parámetro y ω permaneciendo constante en cada curva,
como se muestra en la figura 13.19. De todas las intersecciones entre la familia de
curvas 1/N (A, ω) y la curva G(jω) solamente aquellos puntos de intersección en
los que coincidan los valores de ω constituyen soluciones de la ecuación (13.27), y
son, por tanto, candidatos a ciclos lı́mites. Existe otro procedimiento gráfico para
resolver la expresión (13.27). Consiste en considerar la representaciones gráficas
de G(jω)N (A, ω). Dando a A un valor constante y variando ω de 0 a infinito, se
obtiene una curva que representa a G(jω)N (A, ω). Procediendo con diferentes
valores de A se obtiene una familia de curvas, como la que se muestra en la figura
13.20. La curva de esta familia que pase por el punto (-1,0) en el plano complejo
suministra una solución de la expresión (13.27) .
Sistemas no lineales
304
Im
G(jω)
ω
L2
L”1
−1/N (A, ω)
Re
L01
L1
Figura 13.21: Estabilidad de ciclos lı́mite.
13.3.5
Estabilidad de los ciclos lı́mite
Con los ciclos lı́mites sucede lo mismo que con los equilibrios: que pueden ser
estables o inestables. Las soluciones de la ecuación (13.27) deben someterse a
un análisis de estabilidad, para determinar cuales de ellas son estables y cuales
no. El criterio de Nyquist ampliado que hemos visto en la sección 13.3.1, permite
analizar esa estabilidad. Considérese la figura 13.21 en la que se muestran las
intersecciones entre la función de transferencia de la parte lineal y la inversa
de la función descriptiva de la parte no lineal. Estas dos curvas presentan dos
puntos de intersección, L1 y L2 , por lo que el sistema presenta dos ciclos lı́mites.
Obsérvese que el valor de A correspondiente al punto L1 es menor que el de A
correspondiente a L2 . Supóngase que la función de transferencia de la parte lineal
G(jω) no posee polos inestables.
Vamos a analizar primero la estabilidad del ciclo lı́mite correspondiente al
punto L1 . Considérese que el sistema se encuentra inicialmente operando en el
punto L1 , con un ciclo lı́mite de amplitud A1 y cuya frecuencia en ω1 . Debido a
una pequeña perturbación, la amplitud de la señal de entrada al sistema no lineal
se incrementa ligeramente, y el punto de operación del sistema se mueve de L1 a
L01 . Puesto que el nuevo punto L01 se encuentra a la derecha de la curva G(jω), de
acuerdo con el criterio de Nyquist ampliado que se ha visto en la sección 13.3.1,
el sistema es inestable, en este punto de operación, y las amplitudes del sistema
tienden a crecer. Por consiguiente, el punto de operación seguirá creciendo a lo
largo de curva −1/N (A, ω) hasta el punto L2 . Por otra parte, si el sistema se
perturba de modo que la amplitud A decrece, entonces el punto de operación se
moverá al punto L001 . En este caso el punto L001 queda a la izquierda de G(jω) y
Sistemas no lineales
305
el criterio de Nyquist ampliado garantiza la estabilidad del sistema, por lo que
las amplitudes tenderán a decrecer y el punto de operación se alejara cada vez
más del punto de equilibrio L1 . De todo lo anterior se desprende que una ligera
perturbación destruye la oscilación en el punto L1 y que, por consiguiente, que
este ciclo lı́mite es inestable. Un análisis similar puede desarrollarse para el punto
L2 con la conclusión de que ciclo lı́mite en ese caso es estable.
El anterior razonamiento no es del todo convincente, y debe considerarse como
una forma intuitiva de presentar un resultado que, por otra parte es correcto,
como se verá a continuación.
Una forma máás rigurosa de abordar el estudio de la estabilidad de las oscilaciones es el siguiente. Sea x = Aejωt el primer armónico de la oscilación
automantenida que se perturba ligeramente hasta que su amplitud toma el valor
A + ∆A y su frecuencia ω + ∆ω. Después de la perturbación, x(t) ya no es
una función periódica, sino que posee un pequeño amortiguamiento δ, positivo o
negativo. Es decir, después de la perturbación la señal se convierte en:
x(t) = (A + ∆A)e−δt ej(ω+∆ω)t (A + ∆A)ej(ω+∆ω+jδ)t
(13.29)
Por otra parte, la expresión (13.26) se puede escribir
X(A, ω) + jY (A, ω) = 0
(13.30)
agrupando los términos correspondientes a sus partes real e imaginaria. Por otra
parte, la soluciónó(13.29) debe satisfacer también la anterior ecuación dando lugar
a:
X(A + ∆A, ω + ∆ω + jδ) + jY (A + ∆A, ω + ∆ω + jδ) = 0
(13.31)
Desarrollando en serie de Taylor esta expresión, y tomando úúnicamente los
términos de primer orden en ∆A, ∆ω y δ, se tiene:
∂X
∆ω +
∂ω
∂Y
∆ω +
∂ω
∂X
∂Y
∆A −
δ = 0
∂A
∂ω
∂Y
∂X
∆A +
δ = 0
∂A
∂ω
Eliminando ∆ω:
Ã
∂X

∂ω
!2
Ã
∂Y
+
∂ω
!2 
Ã
!
∂Y
∂X
∂Y
∂X
δ =
−
∆A
∂A ∂ω
∂A ∂ω
Sistemas no lineales
306
Para que la oscilación sea estable es necesario que δ y ∆A sean del mismo
signo, lo que exige que:
Ã
∂X ∂Y
∂Y ∂X
−
∂A ∂ω
∂A ∂ω
!
>0
(13.32)
En el caso de una no linealidad uniforme se tiene,
N (A, )G(jω) + 1 = 0
Haciendo
G(jω) = U (ω) + jV (ω)
1
C(A) = −
= P (A) + jQ(A)
N (A)
se tiene
X(A, ω) = U (ω) − P (A)
Y (A, ω) = V (ω) − Q(A)
Por lo que la expresión (13.32) se escribe en este caso
Ã
∂Q ∂U
∂P ∂V
−
∂A ∂ω
∂A ∂ω
!
>0
El primer miembro de esta desigualdad es un producto vectorial lo que puede
escribirse
dG(jω) dC(A)
×
>0
dω
dA
Este producto vectorial permite la interpretación geométrica que se muestra en
la figura 13.21. De acuerdo con ella, un ciclo limite será estable si recorriendo
G(jω) en el sentido de las ω crecientes, en el punto de corte con C(A), se deja a
la izquierda el sentido de las A crecientes, en la curva de C(A) = −1/N (A).
figura: Criterio de estabilidad de ciclos lı́limite.
De este modo se ha demostrado con rigor el resultado que previamente se
habı́a obtenido por consideraciones un tanto laxas con respecto al criterio de
Nyquist.
Sistemas no lineales
307
r=0 +
G(s)
-
Figura 13.22: Sistema con un relé y realimentación.
Ejemplo
Sea el sistema realimentado de la figura 13.22, que incluye un relé en la cadena
directa. Supongamos, en primer lugar, que la función de transferencia de la parte
lineal es:
K
G1 (s) =
s(s + 2)
Se trata de estudiar las posibles oscilaciones del sistema y su estabilidad.
Recordando la expresión (13.20) se tiene que la función descriptiva de un relé
viene dada por
4M
N (A) =
πA
En este caso se supone que M = 1.
Según lo que se ha visto, el sistema será oscilatorio si existe una solución a la
ecuación
1
G1 (ω) = −
N (A)
Esta ecuación, en este caso, conduce a
K
πA
=−
jω(jω + 2)
4
Es decir
4K = −πAjω(jω + 2)
Igualando sus partes reales e imaginarias se tiene:
4K = πAω 2
−2πAjω = 0
Sistemas no lineales
308
De donde se desprende que ω = 0, y por lo tanto el sistema no oscilará, pues no
existe ninguna frecuencia para la que se tenga una solución oscilatoria.
A la misma conclusión se llega empleando métodos gráficos, y comprobando
que la representación gráfica de la función de transferencia de la parte lineal y de
la función descriptiva sólo se cortan en el origen.
Supongamos ahora que la ecuación de la parte lineal es
G2 (s) =
K
s(s + 2)(s + 5)
En ese caso la ecuación de oscilación se convierte en
K
πA
=−
jω(jω + 2)(jω + 5)
4
es decir
4K = −πAjω(jω + 2)(jω + 5) = 7Aω 2 + Aj(ω 3 − 10ω)
Con lo que igualando partes reales e imaginarias se tiene
4K = 7πAω 2
ω 3 − 10ω = 0
Por lo tanto, en este caso el sistema oscila con una frecuencia ω =
amplitud A = 2K/35π.
√
10 y una
Para estudiar la estabilidad del oscilador se recurre al diagrama de Nyquist
que se muestra en la figura 13.23. El punto de oscilación corresponde al punto
P de esta figura. Para estudiar la estabilidad del ciclo lı́mite, supongamos, en
primer lugar, una perturbación que haga que la entrada al elemento no lineal se
incremente a un nuevo valor, de modo que el punto de operación se desplace a P 0 .
Puesto que P 0 se encuentra en la región de operación estable, la amplitud de la
entrada al elemento no lineal tiende a decrecer y por tanto el punto de operación
se mueve de nuevo a P . De forma análoga, si la perturbación hace decrecer la
amplitud de la entrada al sistema no lineal entonces se produce un desplazamiento
del punto de operación a P 00 , que se encuentra situado en la región de operación
inestable. La amplitud de la entrada, en este caso, se incrementa de modo que
el punto de operación vuelve de nuevo a P . Por consiguiente el sistema tiene un
ciclo lı́mite estable en P .
Sistemas no lineales
309
Im
G2 (jω)
A
P0
P P”
Re
Figura 13.23: Estudio de la estabilidad de un sistema no lineal con un relé.
13.3.6
Fiabilidad del análisis mediante funciones descriptivas
Cuando se emplea el método de la función descriptiva conviene no olvidar nunca
el carácter aproximado de esa función, lo que conduce a resultados que tienen
también una naturaleza aproximada. Este carácter aproximado afecta no sólo a
los valores numéricos de las amplitudes y frecuencias de las oscilaciones de los
ciclos lı́mites, sino también a la propia existencia de estos.
Conviene recordar una de las hipótesis sobre las que está basado el método:
el carácter de filtro paso bajo del sistema lineal. Además, la propia expresión
(13.27) puede ser sensible a las aproximaciones que comporta el método. Con
carácter general se puede decir que las conclusiones del método serán tanto más
sólidas cuanto más neta sea la intersección de las curvas que representan la parte
lineal y la inversa de la parte no lineal en la resolución gráfica del método. En la
figura 13.24 se muestran dos situaciones extremas posibles. En la figura 13.24a se
presenta un caso en el que el sistema muestra una gran sensibilidad, lo que hace
temer que las conclusiones del método se puedan ver fuertemente afectadas.
Por otra parte, la figura 13.24b muestra un caso en el que las conclusiones son
altamente fiables. Cabe decir, que cuanto más perpendicular es la intersección
entre las curvas G(jω) y −1/N (A, ω), más fiables son los resultados del método.
Sistemas no lineales
310
a)
Figura 13.24:
b)
Sistemas no lineales
311
13.4
Criterios de estabilidad relativos a la descripción interna
13.4.1
Teorı́a de Lyapunov
El estudio de la estabilidad de los sistemas en torno a los puntos de equilibrio se
puede hacer con gran sencillez y elegancia con ayuda de la teorı́a de Lyapunov.
La utilidad del método de Lyapunov reside en el hecho de que su teorı́a establece
una condición suficiente para la estabilidad de un sistema dinámico. El establecimiento de esta suficiencia consiste en la determinación de una función de energı́a,
llamada función de Lyapunov, la cual puede determinarse sin el conocimiento
explı́cito de la solución de la ecuación diferencial del sistema.
13.4.2
Un ejemplo introductorio
Sea el sistema de la figura 13.25, constituido por una masa (m = 1), que se
desplaza sobre una lı́nea recta, y que está unida a una pared por medio de un
resorte y de un amortiguamiento. Se supone que el resorte y el amortiguamiento
son no lineales. El resorte ejerce una fuerza k(x) que depende del desplazamiento
x de la masa de la posición de equilibrio. La forma de k(x) se representa en la
figura 13.26. El amortiguador ejerce una fuerza proporcional al valor instantáneo
de la velocidad dx/dt de la masa, de manera que el factor de proporcionalidad
esté dado por h(x). El balance de fuerzas sobre el sistema conduce a la siguiente
ecuación.
d2 x
dx
+ h(x) + k(x) = 0
(13.33)
2
dt
dt
Esta ecuación puede escribirse, empleando las variables de estado x1 = x y
x2 = dx/dt, como sigue,
ẋ1 = x2
ẋ2 = −k(x1 ) − x2 h(x1 )
(13.34)
La energı́a total del sistema V está formada por la energı́a cinética de la masa
en movimiento y la energı́a potencial almacenada en el resorte, y viene dada por,
V (x1 , x2 ) =
x22 Z x1
+
k(x1 )dx
2
0
(13.35)
Sistemas no lineales
312
x
k(x)
h(x)
Figura 13.25: Sistema formado por una masa unida a un soporte
De la observación de la anterior expresión se desprende que V satisface las dos
condiciones matemáticas siguientes:
V (x) > 0 para x 6= 0
V (0) = 0
(13.36)
lo que, dicho en palabras, significa que la energı́a del sistema es siempre positiva
excepto cuando el sistema está en reposo.
Interesa ahora averiguar cómo evoluciona la energı́a del sistema con el tiempo.
Para ello se determina la derivada total de V con respecto al tiempo que resulta
ser,
dV
∂V dx1
∂V dx2
=
+
(13.37)
dt
∂x1 dt
∂x2 dt
de donde se obtiene, teniendo presente 13.34 y 13.35,
dV
= k(x1 )x2 + x2 [−k(x1 ) − x2 h(x1 )] = −x22 h(x1 )
dt
(13.38)
Se supondrá que h(x) > 0 para todo x. Fı́sicamente, ello representa un amortiguamiento positivo, es decir, que la fuerza que ejerce el amortiguador se opone
siempre al movimiento.
En consecuencia, dV /dt es negativa, excepto en los puntos en donde la velocidad sea nula en los cuales dV /dt es, a su vez, nula. En consecuencia, la energı́a del
sistema no puede aumentar ni puede permanecer constante excepto en el estado
de equilibrio; por consiguiente, la energı́a debe siempre decrecer hasta alcanzar el
estado de equilibrio, en donde permanece constantemente igual a cero. Obsérvese
que lo que sucede es que el sistema pierde progresivamente su energı́a, suma de
la cinemática y la potencial, en un proceso disipativo debido al amortiguamiento
Sistemas no lineales
313
k(x)
x
Figura 13.26: Fuerza estática que ejerce el soporte
V3
V2
V1
V3 > V 2 > V 1
Figura 13.27: Las trayectorias cortan transversalmente las curvas equipotenciales
Sistemas no lineales
314
representado por h(x). Si no existiese este amortiguamiento, y fuese h = 0,
entonces en la expresión (13.38) se tendrá dV /dt = 0.
Para el caso de que el resorte y el amortiguador sean lineales, se tendrá que
k(x) = kx y h(x) = h, en donde k y h son constantes. En tal caso 13.35 se
convierte en,
kx21 + hx22
V (x1 , x2 ) =
(13.39)
2
La evolución del sistema puede, en este caso, ser objeto de una interpretación
geométrica. La evolución de las variables de estado x1 y x2 pueden interpretarse
gráficamente en un plano llamado el plano de estado. En este plano las superficies
V = const, dan lugar a elipses, tal como se indica en la figura 13.27. La evolución
del sistema, es decir, una solución de la ecuación 13.33, se representa en el plano
de estado por medio de una trayectoria, tal como la que se indica en la figura
13.27. Puesto que la energı́a debe siempre decrecer, la trayectoria debe atravesar
las elipses desde el exterior hacia el interior. De este modo, la trayectoria se
aproxima progresivamente al origen, que es el estado de equilibrio.
Debe notarse que las conclusiones relativas a la estabilidad del sistema, aún
en el caso de que el resorte y el amortiguador sean no lineales, se obtienen sin
necesidad de resolver la ecuación diferencial 13.33. Es decir, de la observación de
la expresión 13.38 se concluye que siempre que el amortiguamiento sea positivo,
el sistema evolucionará hacia una posición de equilibrio.
Este ejemplo muestra la esencia del método de Lyapunov, el cual consiste en
la determinación de una función, que juega el mismo papel que la función V (t)
en este ejemplo, y en el estudio de la evolución con el tiempo de la misma. En
las secciones siguientes se estudia con detenimiento este método.
13.4.3
Noción de estabilidad en el sentido de Lyapunov
Antes de proceder al estudio de la estabilidad de un sistema representado por su
descripción interna, conviene introducir las siguientes definiciones:
1. Estado de equilibrio
Un estado xe de un sistema dinámico se dice que es un estado de equilibrio
si,
xe = φ(t, t0 , xe , 0)
(13.40)
Sistemas no lineales
315
para algún t0 y para todo t > t0 .
La anterior definición indica que si el sistema se encuentra en el estado de
equilibrio y no se le aplica ninguna señal de entrada, permanece indefinidamente en dicho estado. Formalmente, un estado de equilibrio es una solución
del sistema de ecuaciones,
xe = φ(t, t0 )xe
(13.41)
Es claro que el estado 0 es un estado de equilibrio de un sistema dinámico.
2. Estabilidad en el sentido de Lyapunov
Un estado de equilibrio xe se dice estable en el sentido de Lyapunov si, y
sólo si, para todo número positivo ε existe un número positivo δ(ε) tal que,
(k x0 − xe k≤ δ) ⇒ (φ(t, t0 , x0 , 0) k≤ ε)
para un cierto valor de t0 y para todo t > t0 .
De una manera intuitiva se puede decir que un estado de equilibrio xe es
estable en el sentido de Lyapunov si la trayectoria del estado a partir de
un estado suficientemente cercano a xe no se separa significativamente del
estado de equilibrio. En la 13.28 se ilustra el concepto de estabilidad en el
sentido de Lyapunov.
3. Estabilidad asintótica en el sentido de Lyapunov
Un estado de equilibrio xe se dice que es asintóticamente estable, si es
estable en el sentido de Lyapunov, y además todas las trayectorias del estado
que se inicien suficientemente cerca de xe convergen a xe cuando t → ∞.
Formalmente se puede interpretar este resultado como sigue.
Para todo número real µ > 0, existe una constante real δ > 0 tales que les
corresponde un número real T (µ, δ) > 0 tal que,
[k x0 − xe k≤ δ] ⇒ [k φ(t, t0 , x0 , 0) − xe k≤ µ]
(13.42)
para todo t > t0 + T.
13.4.4
Teorema de Lyapunov
Antes de proceder a enunciar el teorema de Lyapunov conviene introducir el
concepto de función definida positiva.
Sistemas no lineales
316
V (x) = k
δ
x0
ε
Figura 13.28: Estabilidad en el sentido de Liapunov
Una función escalar V (x), de n variables, se dice que es definida positiva en
una región R alrededor del origen si,
1. V (x) es continuamente diferenciable en IR.
2. V (0) = 0.
3. V (x) > 0 para todo x 6= 0 perteneciente a IR.
Si la condición (3) de la definición anterior se cambia a V (x) ≥ 0 para todo
x perteneciente a R, entonces se dice de V (x) que es positiva semidefinida. Si
V (x) < 0, entonces V (x) es definida negativa; y, por último, si V (x) ≤ 0 entonces
V (x) se dice semidefinida negativa.
Con la ayuda de estos conceptos se puede proceder a enunciar el siguiente
teorema, debido a Lyapunov.
Teorema
El estado de equilibrio xe = 0 de un sistema autónomo es estable si
existe una función definida positiva V (x), tal que su derivada total
con relación al tiempo dV (x)/dt a lo largo de toda trayectoria del
sistema, es semidefinida negativa.
Sistemas no lineales
317
Demostración
Una función V (x) tal que satisfaga las condiciones del teorema anterior, recibe
la denominación de función de Lyapunov.
La existencia de una función de Lyapunov garantiza la estabilidad de un
sistema. En efecto, considérese el espacio bidimensional que se muestra en la
figura 13.28. Considérese además, sin pérdida de generalidad, que el origen es un
estado de equilibrio, cuya estabilidad se quiere analizar. Para que el sistema sea
estable, debe demostrarse que dado un cierto ε > 0, entonces existe δ > 0 tal que
(k x0 k< δ) ⇒ (k φ(t, t0 , x0 , 0) k< ε)
(13.43)
para todo t > t0 . Sea ε tal como se muestra en la figura 13.28. Puesto que existe
una función de Lyapunov V (x), esta función será tal que V (x) > 0 para todo
x 6= 0.
Considérese el contorno de V (x) = k, para todo x ≤ ε. Se elige un valor de δ
tal que sea la menor distancia entre el estado de equilibrio y la curva V (x) = k.
Considérese cualquier x0 situado en el interior del circulo definido por el radio δ.
Se tendrá que V (x0 ) < k.
El anterior teorema puede modificarse para el caso de la estabilidad asintótica,
sencillamente cambiando la condición de que V̇ (x) sea semidefinida negativa,
por la de que sea definida negativa. La demostración del teorema, con esta
modificación, es muy simple.
Ejemplo
Considérese el sistema no-lineal descrito por ,
ẋ1 = x2 − x1 (x21 + x22 )
ẋ2 = −x1 − x2 (x21 + x22 )
Si se adopta
V (x) = x21 + x22
Se tendrá
V̇ (x) = −2(x21 + x22 )2
La cual es negativa excepto para x1 = x2 = 0. Es decir, V̇ es decreciente a lo
largo de cualquier solución y, por lo tanto, V es una función de Lyapunov. Se
concluye que el sistema es asintóticamente estable.
Sistemas no lineales
13.4.5
318
Aplicación del método de Lyapunov a sistemas lineales
Supóngase un sistema caracterizado por la terna (A, b, c). Se trata de establecer criterios que permitan discernir si un sistema será estable o no a partir del
conocimiento de las matrices que constituyen la anterior terna.
Para un sistema lineal, la transición entre estados puede descomponerse en
una transición con entrada nula, y una transición a partir del estado nulo, de
acuerdo con la siguiente expresión:
x(t) = φ(t1 , t0 , x0 , u) = φ(t1 , t0 , x0 , 0) + φ(t1 , t0 , 0, u)
(13.44)
Ello es una consecuencia inmediata de la propiedad de superposición. Para el
estudio de la estabilidad tiene un gran interés la anterior descomposición. De hecho, se procede a estudiar por separado la estabilidad de cada uno de los términos
de la expresión 13.44. Combinando los resultados de estabilidad de cada una de
las partes, se obtiene la estabilidad del sistema.
Sea xe un estado de equilibrio. Se puede escribir,
x(t) − xe = φ(t) (x0 − xe )
= eAt (x0 − xe )
(13.45)
y definiendo δx = x − xe se tiene que:
δx(t) = eAt δx(0)
(13.46)
La estabilidad en el sentido de Lyapunov tal como se ha definido anteriormente, exige que |δx(t)| < k, para todo t. De la observación de la expresión
13.46, se tiene que el que |δx(t)| < k es equivalente a que k eAt k< k, en donde
k eAt k representa la norma de la matriz eAt .
Por otra parte se sabe que A se puede escribir,
A = P A P −1
(13.47)
en donde P es una matriz no singular y A es la forma de Jordan de la matriz A.
Es sabido que,
(13.48)
eAt = P eAt P −1
Sistemas no lineales
319
luego, de las propiedades de la norma de una matriz, se tiene que,
k eAt k=k P k · k eAt k · k P −1 k
(13.49)
De la expresión (13.49) se desprende el hecho de que k eAt k esté, a su vez,
acotada. Por lo tanto el estudio de las condiciones que debe cumplir k eAt k para
que esté acotada, se puede reducir al de k eAt k.
Ahora bien eAt está acotada si y sólo si lo están todos los elementos de esa
matriz. Estos elementos son de la forma tk eλi t en donde λi = αi + jwi es un
autovalor de A. Si αi es negativo, es inmediato que tk eλi t está acotado solo si
k = 0, es decir, el autovalor imaginario puro es un cero simple del polinomio
mı́nimo de A.
Teorema
El estado de reposo de ẋ = Ax, considerado como estado equilibrio, es
asintóticamente estable si y sólo si todos los autovalores de A tienen
la parte real negativa.
Demostración
Siguiendo la misma lı́nea de la demostración del teorema anterior, se tiene
que el estado de reposo será asintóticamente estable, si además de k eAt k ser
acotada, se exige que eAt tienda a cero cuando t → ∞. Razonando como se hizo
en la demostración del anterior teorema se tiene que ello sólo será posible si todos
los autovalores de A tienen la parte real negativa.
Para estudiar la estabilidad de la respuesta del sistema a partir del reposo,
debe recordarse que la respuesta de un sistema a partir del reposo viene dada
por:
y(t) =
Z t
t0
g(t, τ ) u(τ ) dτ
(13.50)
Por otra parte, la respuesta de un sistema a una entrada nula, viene dada por
la solución del sistema de ecuaciones diferenciales siguiente,
ẋ = Ax
(13.51)
Sistemas no lineales
320
a partir de un estado inicial arbitrario. Esta respuesta viene dada por,
x(t) = φ(t, t0 ; x0 , 0) = φ(t, t0 )x0
(13.52)
Para estudiar las aplicaciones del método de Lyapunov al estudio de la estabilidad de sistemas lineales, estacionarios, conviene introducir previamente la
noción de matriz definida positiva.
Una matriz Q se dice definida positiva si la forma cuadrática xT Qx es positiva
definida. Se escribe entonces Q > 0.
De forma análoga se define una matriz semidefinida positiva, definida negativa
y semidefinida negativa (y se escribe Q ≥ 0, Q < 0, y Q ≤ 0, respectivamente).
Para determinar si una matriz Q es definida positiva , se aplica el criterio de
Sylvester, el cual establece que la matriz Q es definida positiva si se cumple que
Ã
q11 > 0,
det
q11 q12
q21 q22

!
> 0,

q11 q12 q13


det  q21 q22 q23  > 0,
q31 q32 q33
···
Considérese un sistema lineal autónomo,
ẋ(t) = Ax(t)
(13.53)
Para estudiar si el origen es un estado de equilibrio asintóticamente estable,
se establece el siguiente teorema.
Teorema
Si el sistema (13.53) es asintóticamente estable, entonces para toda
matriz definida positiva P la ecuación
AT Q + QA = −P
(13.54)
tiene una solución (única) Q definida positiva.
Inversamente, si para una matriz P arbitraria definida positiva, la
ecuación (13.54) tiene una solución Q definida positiva, entonces el
sistema (13.53) es asintóticamente estable.
Sistemas no lineales
321
Demostración
1. Necesidad
Supóngase que 13.53 es asintóticamente estable. Entonces para cualquier
P > 0 se define Q como,
Q=
Z ∞
0
eAτ P eAτ dτ
que está completamente definida si A es asintóticamente estable. En tal
caso
T
A Q + QA =
=
Z ∞³
Z0∞
0
T
T
´
AT eA τ P eAτ + eA τ P eAτ A dτ
³
T
´
d eA τ P eAτ = −P
Es decir, si el sistema es asintóticamente estable para cualquier P > 0 existe
Q tal que satisface (13.54).
2. Suficiencia
Supóngase que para un cierto P > 0, la expresión (13.54) tiene una solución
Q > 0. Entonces se define la función de Lyapunov
V (x) = xT Qx
cuya derivada total es
dV
(x) = ẋT Qx + xT Qẋ
dt
= xT AT Qx + xT QAx
= −xT P x < 0
es decir, el sistema es asintóticamente estable.
Puesto que la matriz P es arbitraria aunque simétrica, en las aplicaciones
prácticas se hace P = I.
Ejemplo
Sistemas no lineales
322
Supongamos que el sistema de la expresión (13.33) se adopta en forma lineal
y se hace h = 1 y k = 2. Se tiene entonces el sistema lineal siguiente:
ẍ + ẋ + 2x = 0
cuya descripción interna, haciendo x = x1 y ẋ = x2 viene dada por:
ẋ1 = x2
ẋ2 = −2x1 − x2
El estado de equilibrio es el origen x = 0. Se trata de estudiar la estabilidad
de este equilibrio empleando el método que se acaba de estudiar. Haciendo P = I
se tiene que la ecuación (13.54) se convierte en,
AT Q + QA = −I
la cual, particularizando los valores de A, se convierte en:
Ã
0 −2
1 −1
!Ã
q11 q12
q12 q22
!
Ã
+
q11 q12
q12 q22
!Ã
0
1
−2 −1
!
Ã
=
−1
0
0 −1
!
en donde se ha tenido en cuenta que q21 = q12 . La anterior ecuación se puede
escribir en forma de un sistema de ecuaciones en q11 , q12 y q22 , las cuales resultan
ser las siguientes:
−4q12 = −1
q11 − q12 − 2q22 = 0
2q12 − 2q22 = −1
Estas ecuaciones admiten la solución
q11 =
7
4
por lo tanto,
q12 =
Ã
Q=
1
4
q22 =
7/4 1/4
1/4 3/4
3
4
!
Esta matriz, aplicando el criterio de Sylvester, resulta ser definida positiva. De
ello se concluye que el sistema es asintóticamente estable en torno al origen. La
función de Lyapunov correspondiente es
7
1
3
V (x) = x21 + x1 x2 + x22
4
2
4
Sistemas no lineales
323
y V̇ viene dada por,
V̇ = −x21 − x22
que es definida negativa, luego el sistema es estable.
Obsérvese que si se adoptase la energı́a como función de Lyapunov (recordando
la expresión (13.35)) se tendrá
V = x21 + x22
y que
V̇ = −x22
Lo que se ha querido es mostrar una función de Lyapunov general, que no se
corresponda con la energı́a.
Por otra parte, este ejemplo sólo pretende ilustrar el método anterior. Estaá
claro que la determinaciónóde la estabilidad del equilibrio se hace de forma más
sencilla calculando los autovalores del sistema y comprobando que los dos tienen
parte real negativa.
13.5
Construcción de funciones de Lyapunov con
formas cuadráticas
Sea el sistema no lineal, con equilibrio en el origen:
ẋ = f (x)
f (0) = 0
(13.55)
Supóngase que la dependencia funcional de f con relación a las variables x1 , x2 , ...xn ,
se puede descomponer aditivamente; es decir,
fi =
n
X
fij (xj )
(13.56)
j=1
Este supuesto puede parecer restrictivo, pero en realidad está implı́cito en el
tipo de sistemas considerados hasta ahora, en los que se tenı́an no linealidades
dependientes de una única variable conectadas entre sı́ mediante módulos aditivos.
En los ejemplos que veremos más abajo, quedará claro este hecho.
La expresión (13.56) puede escribirse
fi =
n
X
fij (xj )
j=1
xj
xj
Sistemas no lineales
324
vamos a hacer la hipótesis adicional de que existe el lı́mite
fij (xj )
xj →0
xj
lim
lo cual significa que cada función fij (es decir, cada caracterı́stica no lineal del
sistema) tiene en el origen una pendiente no nula. Todas las caracterı́sticas que
se han visto hasta ahora cumplen esta propiedad. En consecuencia, la expresión
(13.55) puede escribirse
ẋ = F (x)x
(13.57)
siendo
Ã
F (x) =
fij (xj )
xj
!
obsérvese que (13.57) recuerda formalmente a un sistema lineal como el de la
expresión 17.20, con la diferencia de que aquı́ la matriz A depende del estado x
(por eso el sistema es no lineal).
Vamos a ver que gracias precisamente a la forma que tiene la expresión (13.57)
es posible ampliar el método aplicado a los sistemas lineales, a esta clase de
sistemas no lineales. En efecto, considérese una función de Lyapunov de la forma:
V (x) = xT Qx
QT = Q
derivando esta función de Lyapunov con respecto al tiempo, y recordando (13.57),
se tiene
V̇ (x) = ẋT Qx + xT Qẋ
³
´
= xT F T (x)Q + QF (x) x
De donde se concluye que si Q es definida positiva y si P , definida por
³
´
P (x) = − F T (x)Q + QF (x)
es también definida positiva, entonces se cumplen las condiciones suficientes para
garantizar que el sistema (13.55) es asintóticamente estable.
Ejemplo
Sea el sistema representado en la figura 13.29. Este sistema está formado por
una parte lineal y un bloque no lineal, que posee la caracterı́stica h. Se supone
que la referencia es u = 0, y que la caracterı́stica es tal que h(0) = 0. Se trata de
estudiar su estabilidad.
Sistemas no lineales
u +
325
+
-
x2
+
5
x1
y
-
-
z = h(y)
Figura 13.29:
Para ello, en primer lugar se escribe su descripción interna
ẋ1 = −x1 + 5x2
ẋ2 = −h(x1 ) − x2 + u
que, a su vez, se puede reescribir de la forma (13.57).
Ã
ẋ1
ẋ2
!


Ã
! Ã
!
−1
5
0

 x1
=  h(x1 )
+
u

x2
1
−1
−
x1
siendo

(13.58)

−1
5


F (x) =  h(x1 )

−
−1
x1
Puesto que u = 0 la expresión (13.58) es de la forma (13.57).
(13.59)
Se adopta la siguiente función de Lyapunov
V (x) =
³
x1 x2
´
Ã
q1 0
0 q2
!Ã
x1
x2
!
Recordando la expresión (13.5) se tiene


³
´
2q1

P (x) = − F T (x)Q + QF (x) = 


q2
h(x1 )
− 5q1
x1
h(x1 )
q2
− 5q1 

x1

2q2

La estabilidad del sistema (13.57) estará garantizada siempre que P (x) sea definida
positiva. Para ello se requiere que
q1 > 0
Sistemas no lineales
326
h(x)
Figura 13.30:
Ã
h(x1 )
4q1 q2 − q2
− 5q1
x1
!2
>0
La segunda de estas desigualdades requiere un análisis detenido. Supóngase que
los parámetros q1 y q2 toman dos valores concretos; por ejemplo, q = 14 y q2 = 1.
En este caso la segunda desigualdad se convierte en
Ã
h(x1 ) 5
1−
−
x1
4
!2
>0
que conduce a
9
h(x1 )
1
>
>
4
x1
4
Esta desigualdad se puede interpretar gráficamente como se hace en la figura
13.30. De acuerdo con esta figura la caracterı́stica del sistema no lineal H debe
estar comprendida entre las rectas de pendientes 9/4 y 1/4. Si la caracterı́stica
H cumple esta condición el sistema tiene garantizada su estabilidad.
Esta forma de establecer el criterio de estabilidad, mediante la definición de
un sector en el que se confina la caracterı́stica no lineal del sistema tiene un gran
interés en las aplicaciones y aporta un instrumento para caracterizar la estabilidad
de sistemas no lineales de gran interés y posibilidades.
Sistemas no lineales
13.5.1
327
Método de Krasovkii
El método de Krasovkii permite determinar la función de Lyapunov de un sistema
no lineal de la forma
ẋ = f (x) f (0) = 0
(13.60)
∂fi
tal que ∂x
existe en la región de interés. De acuerdo con este método se adopta
j
como función de Lyapunov
V (x) = kẋk2 = f T (x)f (x) ≥ 0
(13.61)
En tal caso se tiene
Ã
V̇
=
∂f
ẋ
∂x
!T
f (x) + f T (x)
∂f
ẋ
∂x
= f T (x)[F T (x) + F (x)]f (x)
= −f T (x)P (x)f (x)
siendo
F (x) =
∂f
∂x
(13.62)
y
P (x) = −[F T (x) + F (x)]
(13.63)
Si la matriz P (x) = F T (x) + F (x) es definida positiva entonces se cumplen las
condiciones suficientes para que (13.60) sea estable. Para que sea asintóticamente
estable se requiere que P (x) sea definida positiva. Obsérvese que si P es definida
positiva, entonces V̇ < 0, ya que esto último es cierto para cualquier x y por
tanto paraf .
Ejemplo
Sea el sistema dinámico
ẋ1 = −ax1 + x2
ẋ2 = x1 − x2 − x32
tal que a > 1. Su único equilibrio en x = 0.
Sistemas no lineales
328
De acuerdo con (13.62) se tiene que
Ã
F (x) =
−a
1
1 −1 − 3x22
!
y recordando (13.63)
Ã
P (x) =
2a
−2
−2 2 + 6x22
!
para que P (x) sea definida positiva se tiene que cumplir
a>0
y además
4a + 12ax22 − 4 > 0
Puesto que a > 1 las dos desigualdades se cumplen y el sistema es asintóticamente
estable.
Ejemplo
Sea el sistema dinámico de la figura 13.5.1, en el que se tienen dos señales de
entrada u1 y u2 , dos señales de salida y1 y y2 , y dos no linealidades cuyas caracterı́sticas vienen dadas por g1 y g2 . Se trata de estudiar la estabilidad de este
sistema.
Las ecuaciones del sistema dinámico correspondiente resultan ser
ẋ1 = −g1 (x1 ) + g2 (x2 ) + u1
ẋ2 = x1 − ax2 + u2
Se supone que u1 = u2 = 0 con lo que el sistema anterior se convierte en un
sistema autónomo. Se supone además que g1 (x1 ) = 0 y g2 (x2 ) = 0. Recordando
la expresión (13.62) se tiene

∂g1
 −
F (x) =  ∂x1
1

∂g2

∂x2 
−a
Sistemas no lineales
329
u1 = 0
+
+
y1
x1
-
+
z1 = g1 (y1 )
z2 = g2 (y2 )
u2 = 0
+
x2
+
+
y2
-
a
Figura 13.31: Diagrama de bloques de un sistema no lineal.
Con lo que, de acuerdo con (13.63)



P (x) = 


Ã
∂g2
∂g1
2
− 1+
∂x2
à ∂x1 !
∂g2
− 1+
2a
∂x2
! 





Para que este sistema sea asintóticamente estable se requiere
1. a > 0,
2.
∂g1
> 0,
∂x1
Ã
∂g2
∂g1
− 1+
3. 4a
∂x1
∂x2
!2
> 0.
La condición 2 se interpreta mediante la figura 13.32 en la que se pone de
manifiesto que la caracterı́stica g1 debe ser siempre monótona creciente.
Sistemas no lineales
330
La condición 3 conduce a las regiones de estabilidad que se indican en la figura
13.33.
g1 (x1 )
pendiente siempre
positiva
x1
Figura 13.32: Condición 2 para la estabilidad del sistema.
∂g1
a ∂x
1
Estable
Inestable
-1
∂g2 (x2 )
∂x2
Figura 13.33: Condición 3 para la estabilidad del sistema.
Tema 14
Introducción a la optimización de
sistemas dinámicos
14.1
Introducción
La optimización es un concepto que se emplea habitualmente en la vida ordinaria.
Cada vez que ante un determinado problema existen múltiples soluciones, se
adopta aquella que, bajo un cierto punto de vista, se considera la ”mejor”. Este
concepto se puede formalizar, siempre que se puedan definir el conjunto U de
soluciones posibles, y exista una función J(u) que permita medir el grado de
bondad de cada una de las soluciones, habida cuenta del punto de vista adoptado.
En lo que sigue, se considerará la mejor solución aquella para la que la función
J(u) adquiera el valor mı́nimo. En tal caso, el problema de optimización puede
expresarse formalmente como el de encontrar el valor u∗ perteneciente a U tal
que:
J(u∗ ) ≤ J(u) ∀u ∈ U
La forma del conjunto U de soluciones posibles permite una primera clasificación
de los problemas de optimización.
• Los elementos que constituyen el conjunto U pueden ser números reales,
entre los que hay que elegir el valor más conveniente para que J(u) tome un
valor mı́nimo. En tal caso, el problema de optimización recibe la denominación de optimización estática, puesto que se trata de determinar el valor
331
Introducción a la optimización de sistemas dinámicos
332
que debe tomar un cierto parámetro, o conjunto finito de parámetros, para
que se obtenga la mejor solución posible.
• Los elementos que constituyen el conjunto U pueden ser los valores que
toma una función del tiempo u(t) para t ∈ [0, T ]. En tal caso se tiene la
denominada optimización dinámica.
El problema de la optimización estática se reduce al de la determinación de
los mı́nimos (o máximos) de una función escalar. El problema que se estudiará
aquı́ es el de la optimización dinámica, especialmente en su aplicación a la teorı́a
del control óptimo.
14.2
Optimización Estática.
La optimización estática se reduce a la aplicación de los métodos de máximos y
mı́nimos de funciones ordinarias, que vamos a repasar en esta sección.
14.2.1
Minimización de funciones
Sea D un subconjunto de números reales x, dado por D = {x | x0 < x < x1 } y
sea f una función real tal que f : D → R. Se dice que f tiene un mı́nimo local
(relativo) en x∗ si existe un entorno N de x∗ tal que
∆f = f (x) − f (x∗ ) ≥ 0, ∀x ∈ N
en tal caso se tiene,
∆x = (x − x∗ ) > 0, ∆f > 0, =⇒
∆f
>0
∆x
∆f
<0
∆x
Estos conceptos se ilustran en la figura 14.1. Es sabido que la condición necesaria
para tener un mı́nimo es:
df
=0
dx
Mientras que la suficiente es:
d2 f
>0
dx2
∆x = (x − x∗ ) < 0, ∆f > 0, =⇒
Introducción a la optimización de sistemas dinámicos
333
f
∆f
xo x x∗
x
x1
Figura 14.1: Mı́nimo de una función ordinaria
f
df
dx
d2 f
dx2
x
x
x
Figura 14.2: Derivadas sucesivas en un mı́nimo
Introducción a la optimización de sistemas dinámicos
334
En la figura 14.2 se ilustran gráficamente estas condiciones.
Los anteriores resultados se generalizan para funciones multivariables. En
efecto, sea x ∈ Rn , f : Rn → R, (y = f (x1 , ..., xn )). Se supone:
• f (x) es continua para todo x.
• El vector gradiente
"
∂f
∂f
=
∂x
∂xi
#
es continuo para todo x.
• La matriz hessiana H es continua para todo x
"
∂ 2f
H=
∂xi ∂xj
#
En estas condiciones, la condición necesaria para un mı́nimo en x∗ resulta ser
∂f
=0
∂x
mientras que la suficiente es que la matriz hessiana
"
∂2f
H=
∂xi ∂xj
#
sea definida positiva en x∗ .
Restricciones o Ligaduras
Supóngase que se trata de minimizar f (x) con la condición adicional de que el
mı́nimo esté localizado en el subespacio definido por g(x) = 0
g : Rn → Rm
Método particular: eliminar m de las variables x1 , ..., xn en g(x) = 0 y sustituir
en f (x). Se tiene entonces una función de (n − m) variables que se resuelve como
más arriba. Esto no siempre es posible. En tal caso se emplea el método de los
multiplicadores de Lagrange.
Introducción a la optimización de sistemas dinámicos
335
Vamos a considerar el caso en el que n = 2 y m = 1. Es decir, se trata
de minimizar una función f (x1 , x2 ) de dos variables x1 y x2 , sometida a una
restricción g(x1 , x2 ) = 0. La condición de mı́nimo es
df (x) =
∂f
∂f
dx1 +
dx2 = 0
∂x1
∂x2
además la restricción g(x1 , x2 ) = 0 implica que
∂g
∂g
dx1 +
dx2 = 0
∂x1
∂x2
Se tiene, formalmente,
o sea que las fracciones
y
∂f
∂g
dx2
∂x
∂x
=− 1 =− 1
∂f
∂g
dx1
∂x2
∂x2
∂f
∂x1
∂f
∂x2
∂g
∂x1
∂g
∂x2
deben ser proporcionales para un valor de x(t) candidato al mı́nimo (o máximo).
Sea λ esta constante de proporcionalidad
∂f
∂f
∂x1
∂x2
−λ =
=
∂g
∂g
∂x1
∂x2
Si se define la lagrangiana
L(x, λ) = f (x) + λg(x)
se tiene que
∂L
=0
∂x
es equivalente a (14.1), mientras que:
∂L
=g=0
∂λ
(14.1)
Introducción a la optimización de sistemas dinámicos
336
es la restricción. En general, para un problema de dimensiónón n arbitraria, la
lagrangiana se define:
L(x, λ) = f (x) + λT g(x)
Ejemplo
Determinar un punto, en un espacio tridimensional, que minimice la función
f (x1 , x2 , x3 ) = x21 + x22 + x23
y que esté situado en la intersección de la superficies
x3 = x1 x2 + 5
x1 + x2 + x3 = 1
Se define la lagrangiana
L = x21 + x22 + x23 + λ1 (x1 x2 + 5 − x3 ) + λ2 (x1 + x2 + x3 − 1)
lo que conduce a las ecuaciones para el mı́nimo
∂L
∂x1
∂L
∂x2
∂L
∂x3
∂L
∂λ1
∂L
∂λ2
= 2x1 + λ1 x2 + λ2 = 0
= 2x2 + λ1 x1 + λ2 = 0
= 2x3 − λ1 + λ2 = 0
= x1 x2 + 5 − x3 = 0
= x1 + x2 + x3 − 1 = 0
La solución está formada por los dos equilibrios (2, −2, 1) y (−2, 2, 1).
14.3
Introducción al control óptimo
Sea un sistema dinámico descrito por una ecuación diferencial de la forma:
ẋ = f (x, u)
(14.2)
Introducción a la optimización de sistemas dinámicos
337
En donde el punto sobre la x representa su derivada con relación al tiempo
( dx
≡ ẋ). El sistema dinámico descrito por la ecuación anterior debe seguir
dt
una determinada trayectoria a partir del estado x(0), durante un intervalo de
tiempo [0, T ]. Se trata de determinar la señal u(t) que deberá aplicarse durante
este intervalo de tiempo para que en su evolución se minimice el funcional:
J=
Z T
0
L(x, u, t)dt + S(x(T ))
(14.3)
en donde las funciones de penalización L(x, u, t) y de coste terminal S(x(T )) son
en general funciones no negativas de x y de u, tales que L(0, 0, t) = 0 y S(0) = 0.
De todas las señales de mando u(t) ∈ U que pueden aplicarse al sistema descrito
por la ecuación (14.2) durante el intervalo [0, T ], existirá una u∗ (t) tal que:
J(u∗ (t)) ≤ J(u(t)) ∀u(t) ∈ U
(14.4)
La señal u∗ (t) recibe la denominación de señal de control óptima. Esta señal
constituye una prescripción del conjunto de valores que debe tomar la señal de
entrada (de control) u durante el intervalo [0, T ].
En algunos problemas interesa en lugar de disponer de la señal de control
óptima u∗ (t), tener una expresión que permita calcular el valor de la señal de
entrada u en función del estado x en que se encuentre el sistema. Es decir,
determinar una expresión de la forma u∗ (x). En tal caso se dice que se dispone
de una ley de control óptima. La solución es una solución realimentada en la que
el valor que toma en cada instante, del intervalo [0, T ], por la señal de entrada u
está determinada a partir del estado x en que se encuentra el sistema.
Las señales de entrada u(t) normalmente no pueden exceder unos determinados lı́mites. Una señal de entrada (control) que satisfaga unas ciertas restricciones
en el control durante todo el intervalo de operación (0, T ) se denomina una señal
admisible de control (o control admisible). Se denota por U el conjunto de todos
los valores de la señal u(t) admisibles. u(t) es admisible si:
u(t) ∈ U ∀ t ∈ [0, T ]
También pueden darse restricciones sobre x(t). Una trayectoria del estado x(t)
que satisfaga las restricciones sobre el estado durante todo el intervalo de operación [0, T ] se denomina una trayectoria admisible. Si X denota el conjunto de
los valores admisibles, se dice que x(t) es admisible si:
x(t) ∈ X ∀t ∈ [0, T ]
Los requerimientos sobre el funcionamiento de la planta se representan matemáticamente
mediante un criterio o ı́ndice de funcionamiento.
Introducción a la optimización de sistemas dinámicos
14.3.1
338
Ejemplos
El problema del control óptimo está formado básicamente por un sistema dinámico
de la forma (14.2) y por un criterio a optimizar de forma (14.3). Vamos a dedicar
esta sección a presentar algunos ejemplos de criterios de funcionamiento de la
forma (14.3).
Problema del tiempo mı́nimo
Se da el tiempo t = 0 y el estado inicial x(0) = x0 . El estado final se requiere
que se encuentre en una cierta región S ⊂ X × T . S es el conjunto objetivo (si el
estado final está fijado de antemano, el conjunto S es una recta).
El objetivo del problema es transferir el estado del sistema desde x0 a S en
un tiempo mı́nimo. El criterio de funcionamiento es:
J = T
=
Z T
0
dt
Problema de la energı́a mı́nima
Se trata de transferir el estado de un sistema desde x0 hasta S con un gasto
mı́nimo de energı́a.
Normalmente u2 (t) es una buena medida del flujo de gasto de energı́a, de
modo que para minimizar este gasto se puede adoptar el ı́ndice:
J=
Z T
t0
u2 (t)dt
Si el sistema posee varias señales de control se tiene
J=
Z T
t0
uT (t)u(t)dt
Para permitir mayor generalidad se puede considerar una matriz definida positiva
R de modo que
Z
J=
T
t0
uT (t)Ru(t)dt
Normalmente R es diagonal (si es definida positiva todos sus elementos son positivos). Los distintos valores de diag(R) representan el peso relativo que se asigna
a cada variable de control en el gasto de energı́a.
Introducción a la optimización de sistemas dinámicos
339
Problema del mı́nimo combustible
La tasa de consumo de combustible suele ser proporcional al empuje por lo que
se puede escribir
Z
T
J=
0
| u(t) | dt
(siendo u la tasa de flujo del combustible - empuje del cohete), (o del vehı́culo
espacial que se está maniobrando). Si existen varios propulsores
J=
Z T
0
(k1 | u(t) | +k2 | u(t) | +... + km | u(t) |)dt
siendo ki factores de peso (ponderación) no negativos.
Problema del regulador del estado
Se trata de transferir un sistema desde un estado inicial x0 a un estado deseado
xf (normalmente el estado de equilibrio del sistema) con un valor mı́nimo del
valor cuadrático medio del error.
Con relación a xf el valor de x(t) − xf se puede considerar como el error
instantáneo del sistema.
Si se cambia de coordenadas, de modo que xf = 0, entonces x(t) es el mismo
error.
Z T
J=
xT (t)x(t)dt
0
En general
J=
Z T
0
xT (t)Qx(t)dt
siendo Q una matriz real, simétrica, semidefinida positiva y constante. La forma
más simple de Q es
Q = diag [qi ]
en donde qi representa el peso que se asigna a la componente xi del vector de
estados a la hora de evaluar su contribución a J. Cuanto mayor es qi mayor es el
esfuerzo de control dedicado a regular (llevar a cero) a xi .
Para minimizar la desviación del estado final x(T ) del sistema del estado
deseado xf = 0, se adopta el ı́ndice
J = xT (T )Hx(T )
Introducción a la optimización de sistemas dinámicos
340
siendo H real, simétrica, semidefinida positiva y constante.
El ı́ndice conjunto es
J = xT (T )Hx(T ) +
Z T
0
xT (t)Qx(t)dt
que puede resultar aún insatisfactorio. Es más realista añadir un término que
penalice la acción de control u(t). Se tiene entonces
T
J = x (T )Hx(T ) +
Z T
0
[xT (t)Qx(t) + uT (t)Ru(t)]dt
Problema del regulador del estado en tiempo infinito
J=
Z ∞
0
[xT (t)Qx(t) + uT (t)Ru(t)]dt
La restricción terminal en este caso no es necesaria.
En el problema del regulador del estado se trata de mantener el estado pequeño
(lo más próximo posible a xf = 0).
Problema del regulador de la salida
Supuesta ajustada la salida del sistema a un valor de referencia, en una escala,
en que sea yref = 0, se trata de mantener y(t) lo más próxima posible a cero.
T
J = y (T )Hy(T ) +
Z T
0
[y T (t)Qy(t) + uT (t)Ru(t)]dt
Problema del seguimiento (tracking)
Se trata de mantener el estado del sistema x(t) lo más cercano posible al estado
deseado r(t) en [0, T ].
T
J = e (T )He(T ) +
siendo e = x − r.
Z T
0
[eT (t)Qe(t) + uT (t)Ru(t)]dt
Introducción a la optimización de sistemas dinámicos
c1
341
c2
q1
q2
h
V, c
q
Figura 14.3: Diagrama de un depósito mezclador.
14.3.2
Ejemplo de ı́ndice de funcionamiento cuadrático
Considérese un mezclador de fluidos como el que se muestra en la figura 14.3,
en la que se tiene un esquema elemental de un proceso de mezcla de dos fluidos
en un depósito. Este depósito de volumen V y altura h está alimentado por
los caudales q1 y q2 , cada uno de los cuales con concentración c1 y c2 de un
determinado producto quı́mico. La concentración de este producto en el depósito
es c. El depósito evacua por un conducto situado en su parte baja mediante
un caudal q. Se supone que la homogeneización de las concentraciones de los
caudales de entrada se produce instantáneamente gracias a la acción de unas
palas batidoras. Se supone, ası́ mismo, que la densidad es constante en el interior
del depósito.
Las ecuaciones del balance de masas son las siguientes:
dv(t)
= q1 (t) + q2 (t) − q(t)
dt
(14.5)
d[c(t)v(t)]
= c1 (t)q1 (t) + c2 (t)q2 (t) − c(t)q(t)
dt
(14.6)
El flujo de salida del depósito viene dado por
q
q(t) = k h(t) = k
s
v(t)
a
(14.7)
En donde k es una constante y a es el área del depósito. De modo que v = ha.
Introducción a la optimización de sistemas dinámicos
342
Supóngase un estado estacionario de funcionamiento en el que se produce un
equilibrio entre las entradas y salidas del depósito, para los siguientes valores de
los flujos de entrada y salida, ası́ como del volumen en el depósito v0 y de su
concentración c0 .
q1 (0) = q10 , q2 (0) = q20 , q(0) = q0 , v(0) = v0 , c(0) = c0
Convienen observar que las concentraciones de entrada c1 y c2 se establecen en
la etapa anterior del proceso. En estas condiciones de régimen estacionario, las
ecuaciones (14.5, 14.6,14.7) toman la forma:
0 = q10 + q20 − q0
0 = c1 q10 + c2 q20 − c0 q0
r
v0
q0 = k
a
Se trata de determinar las ecuaciones lineales que rigen el comportamiento
del sistema en torno a este estado estacionario en el supuesto de que se trate de
perturbaciones suficientemente pequeñas como para justificar la linealización.
Conviene observar que el proceso que se está considerando es un proceso no
lineal; es decir, la ecuaciones que gobiernan su comportamiento son no lineales.
Esta no linealidad tienen un doble origen. Por una parte, la ecuación (14.6) es no
lineal ya que en ella aparecen producto de variables. Por otra parte, la expresión
(14.7) liga q con v (o con h) mediante una relación no lineal (la raı́z cuadrada).
Las variaciones de las distintas variables con respecto a los valores tomados
en régimen estacionario se denotarán mediante un tilde sobre la variable correspondiente. Es decir,
q̃(t) = q(t) − q0
representa la variación del caudal q respecto al valor estacionario q0 . Análogamente
se definen el resto de las variables
ṽ(t) = v(t) − v0
q1 (t) = q10 + q̃1 (t)
q2 (t) = q20 + q̃2 (t)
c(t) = c0 + c̃(t)
Si las variaciones son suficientemente pequeñas, entonces la expresión no lineal (14.7) se puede linealizar en torno al valor correspondiente por régimen estacionario, de acuerdo con
Introducción a la optimización de sistemas dinámicos
343
q
k ∂ v(t)
q(t) − q0 = √
|v=v0 (v(t) − v0 )
a ∂v(t)
Es decir
r
k v0
q̃(t) =
ṽ(t)
(14.8)
2v0 a
De este modo la relación entre la variación q̃(t) del caudal con respecto al valor
en régimen estacionario, y la correspondiente al volumen ṽ(t), queda linealizada.
Llevando las definiciones de las variaciones ṽ(t), q̃1 (t), q̃2 (t) y c̃(t) a las expresiones
(14.5) y (14.6) y tendiendo en cuenta la definición del régimen estacionario y
(14.8) se tiene que
dṽ(t)
1 q0
ṽ(t)
= q̃1 (t) + q̃2 (t) −
dt
2 v0
dc̃(t)
dṽ(t)
1 c 0 q0
v0 + c0
= c1 q̃1 (t) + c2 q̃2 (t) −
ṽ(t) − q0 c̃(t)
dt
dt
2 v0
v0
τ=
q0
Si se escribe
x1
x2
u1
u2
y1
y2
=
=
=
=
=
=
ṽ
c̃
q̃1
q̃2
q̃
c̃
y
v0
q0
se tiene que las ecuaciones del sistema dinámico linealizado pueden escribirse de
la forma siguiente:
τ=
Ã
ẋ1
ẋ2
!

1
 −
2τ
=

0


1
0 
 x +  c1 − c0
1 
−
v0
τ

1
c2 − c0  u
v0
Sistema dinámico lineal que describe el comportamiento del sistema perturbado
en torno al régimen estacionario.
Introducción a la optimización de sistemas dinámicos
344
Supóngase ahora que se trata de establecer un criterio cuadrático como ı́ndice
de funcionamiento de este sistema. Sean las condiciones estacionarias para el
depósito
v0 = 1500 litros
c0 = 15 gr-mol/litro
y los correspondientes flujos de entrada son
q10 = 10 litros/seg.
q20 = 20 litros/seg.
Se trata de construir un ı́ndice de la forma
J=
Z ∞
0
(xT Qx + uT Ru)dt
en el que las matrices Q y R son de la forma
Ã
Q=
q1 0
0 q2
!
Ã
R=
r1 0
0 r2
!
Supóngase que se produce una variación del 1% en torno al valor estacionario,
lo que en volumen corresponde a 15 litros, mientras que 1% de variación en
concentración corresponde a 0,15. Supóngase que 1% de cambio en concentración
se penaliza de la misma manera que un 1% de cambio en volumen. En tal caso
se tendrı́a que
q1 (15)2 ≈ q2 (0.15)2
o lo que es lo mismo
q2
100
≈
q1
0.01
Por tanto se tiene que
Ã
Q=
0.01 0
0 100
!
Se procede de forma similar con R. A un 1corresponde 0.1 litros/segundo y un
10,2 litros/segundos. Si ambos términos deben contribuir por igual al ı́ndice de
funcionamiento se tendrá
r2 (0.2)2 ≈ r1 (0.1)2
Es decir
0.5
r2
≈
r1
2
y por tanto
Ã
R=
2 0
0 0.5
!
Introducción a la optimización de sistemas dinámicos
14.4
345
Problema general del control óptimo
Resumiendo lo anterior se puede decir que el problema del control óptimo o de
optimización dinámica, consiste en:
• un sistema dinámico descrito por una ecuación diferencial de la forma,
ẋ = f (x, u)
(14.9)
en donde x es el vector de estado de dimensión n, y u es el vector de
control de dimensión m, cuyos valores en todo instante deben tomarse de
un conjunto cerrado u(t) ∈ U .
• unas condiciones iniciales y finales que normalmente son las siguientes:
– el instante inicial 0 y el estado inicial x(0) están fijados.
– el estado y el instante final están definidos por un par (x(T ), T ) de la
trayectoria del sistema, que pertenezca a un conjunto dado S ⊂ X ×T .
• un criterio de funcionamiento dado por un funcional de la forma
J=
Z T
0
L(x, u, t)dt + S(x(T ), T )
(14.10)
El problema de optimización dinámica consiste en buscar la señal u(t), t ∈ [0, T ]
que minimice a J de entre todas las señales posibles que transfieran el sistema de
(0, 0) a (x(T ), T ).
Obsérvese que en el criterio de funcionamiento de la expresión (14.10) aparece
un término adicional que no estaba en la expresión (14.3). En los criterios de
funcionamiento del problema del regulador del estado, del regulador de la salida
y del seguimiento, que se han visto en la sección anterior, aparecı́an términos de
esta naturaleza. En el apartado 15.1.3 volveremos sobre este término.
Para el problema ası́ planteado pueden existir, en principio, dos soluciones de
distinta naturaleza:
• u∗ = u∗ (t): control en bucle abierto.
• u∗ = u∗ (x): control en bucle cerrado (ley de control).
Introducción a la optimización de sistemas dinámicos
346
En el primer caso se tiene una señal u∗ (t) que se aplica al sistema en el
intervalo [0, T ]. La aplicación de esta señal se hace sin requerir información sobre
la evolución del estado (en general, del sistema), por lo que se trata de una
señal de control en bucle abierto. Por el contrario, en el segundo caso se tiene
una solución al problema del control óptimo en la que la señal de control u∗ es
función, en cada instante de tiempo, del estado del sistema. Se trata, por tanto,
de un control por realimentación; es decir, en bucle cerrado.
La solución del problema de control más interesante es la segunda, por incluir
la estructura de realimentación, con las conocidas ventajas que esta estructura
comporta. Sin embargo, como veremos luego, este segundo tipo de soluciones
es considerablemente más difı́cil de alcanzar que el primero. De hecho, sólo
existe una solución general para el problema de control en bucle cerrado para
sistemas lineales con criterio cuadrático. Sin embargo, si existe una amplia clase
de problemas que admiten solución en bucle abierto. Una posible solución en la
práctica es determinar el control en bucle abierto, y linealizar en torno a esta
trayectoria óptima, aplicando entonces el control en bucle cerrado.
Para determinar el control en bucle abierto se emplean el cálculo de variaciones y el principio del mı́nimo de Pontriagin. Para la determinación de la ley
de control óptima se aplica la programación dinámica y las variantes derivadas
de este método. Por otra parte, el cálculo de variaciones permite la solución del
problema del control óptimo cuando no existen restricciones, mientras que la programación dinámica y el principio del mı́nimo de Pontriagin permiten incorporar
restricciones en U.
14.5
Cálculo de variaciones
El cálculo de variaciones es la rama de las matemáticas que se ocupa de determinar las trayectorias que minimizan o maximizan un funcional. Conviene que
dediquemos algún espacio al concepto de funcional.
14.5.1
Funcionales y sus variaciones
Sea X una clase de funciones x(t) definidas en el intervalo [0,t]. Si a toda función
x(t) ∈ X se asocia, de acuerdo con una regla, un número J se dice que en la clase
X está definido el funcional J y se escribe J = J[x(t)]. La clase X se denomina
campo de definición del funcional. Para nosotros, la clase de funciones X será la
Introducción a la optimización de sistemas dinámicos
347
clase de señales x(t) definidas en el intervalo [0, T ]. En la figura 14.5 se ilustra
como a cada señal x(t) definida en [0, T ] corresponde un valor de J, que es un
número real.
Ejemplo
Sea X = C[0, T ] el conjunto de todas las funciones contı́nua x(t) definidas en el
intervalo [0, 1] y sea el funcional
J[x(t)] =
Z 1
0
x(t)dt
Es decir J = J[x(t)] es un funcional de x(t), ya que a toda función x(t) ∈ C[0, T ]
le corresponde un valor determinado de J = J[x(t)]. Por ejemplo, si x(t) = 1 se
tiene
Z 1
J[x(t)] =
dt = 1
0
x
o si x(t) = e , se tiene
J[x(t)] =
Z 1
0
ex dt = e − 1
2
Ejemplo
Sea X = C1 [a, b] la clase de funciones x(t) que tiene derivada contı́nua ẋ en el
intervalo [a, b]. Entonces la funcional
J[x(t)] =
Z b√
a
1 + ẋ2 dt
tiene una interpretación geométrica, ya que representa la longitud del arco de la
curva x = x(t) cuyos extremos son los puntos A (a, x(a)) y B (b, x(b)) .
2
El concepto de funcional tiene un gran interés ya que permite asociar a señales,
que representan trayectorias y por tanto comportamientos, valores numéricos que
sirven para medir determinadas propiedades de esas señales.
El funcional J[x(t)] se dice que es lineal si satisface las condiciones:
Introducción a la optimización de sistemas dinámicos
348
x
M (1, 1)
0
1
t
Figura 14.4: señales x(t) = t y x1 (t) = t2 .
1. J[cx(t)] = cJ[x(t)],
2. J[x1 (t) + x2 (t)] = J[x1 (t)] + J[x2 (t)],
en donde c es una constante cualquiera y x1 (t) ∈ X y x2 (t) ∈ X. Por ejemplo, el
funcional
Z b
J[x(t)] = (ẋ + x)dt
a
es lineal.
Interesa introducir conceptos que permitan formalizar la proximidad entre
señales. Se dice que las señales x(t) y x1 (t) definidas en el intervalo [a, b] son
cercanas con proximidad de orden nulo si el valor de |x(t) − x1 (t)|, que mide la
distancia entre ellas para cada valor de t, es pequeño en todo el intervalo [a, b].
Desde un punto de vista geométrico esto significa que las dos señales toman
valores cercanos en cada instante de tiempo del intervalo considerado.
Análogamente, se define la distancia entre dos señales x(t) y x1 (t) (a ≤ t ≤ b)
como el número no negativo ρ igual al máximo del módulo |x1 (t) − x(t)|; es decir,
ρ = ρ[x1 (t), x(t)] = max |x1 (t) − x(t)|
a≤t≤b
Ejemplo
Determinar la distancia ρ entre las señales x(t) = t y x1 (t) = t2 (figura 14.4). De
acuerdo con la definición
ρ = max |t2 − t|
0≤t≤1
= max (t − t2 )
0≤t≤1
Introducción a la optimización de sistemas dinámicos
349
Por tanto, se tiene que determinar el máximo de la función x = t − t2 , que se
tiene para t = 1/2, de modo que ρ = 1/4.
2
Por otra parte, se dice que las señales x(t) y x1 (t) definidas en el mismo
intervalo, son cercanas con proximidad de primer orden si las magnitudes |x(t) −
x1 (t)| y |ẋ(t)− ẋ1 (t)| son pequeñas en el intervalo considerado. Geométricamente,
esto significa que tanto los valores tomados por las dos señales, como los de sus
tangentes (sus derivadas), son cercanos para todo instante de tiempo.
Por último, las dos señales consideradas se dice que son cercanas con proximidad de orden k sin son pequeños los valores tomados por |x(t) − x1 (t)|, |ẋ(t) −
ẋ1 (t)|,..., |xk (t) − xk1 (t)|. Basado en ello, se define la distancia de orden n entre
dos señales x = x(t) y x = x1 (t) como el mayor de los máximos de las expresiones
|x(t) − x1 (t)|, |ẋ(t) − ẋ1 (t)| ,..., |xn (t) − xn1 (t)|, es decir
ρn = ρn [x1 (t), x(t)] = max max |xk1 (t) − xk (t)|
0≤k≤n a≤t≤b
Se denomina variación o incremento δx(t) del argumento x(t) de un funcional
J[x(t)] a la diferencia entre dos señales x(t) y x0 (t) pertenecientes a la clase X
de funciones considerada; es decir
δx(t) = x(t) − x0 (t)
Se define el entorno ² de orden n de una señal x = x1 (t) como el conjunto de
las señales x = x(t) cuyas distancias de orden n a la señal x1 (t) son menores que
²; es decir
ρn = ρn [x1 (t), x(t)] < ²
Definido el concepto de entorno de una señal, es posible introducir el de continuidad de un funcional. Un funcional J[x(t)] definida en la clase de funciones
X se llama contı́nua en x = x0 (t) si para todo ² > 0 existe η > 0 tal que la desigualdad J[x(t)] − J[x0 (t)] < ² se satisface para todas las señales que satisfacen
ρn = ρn [x(t), x0 (t)] < η
Sea J[x(t)] un funcional, se define el incremento de J[x(t)] como
∆J = ∆J[x(t)] = J[x(t) + δx(t)] − J[x(t)]
siendo
δx(t) = x̃(t) − x(t) x(t) ∈ X, x̃(t) ∈ X
Introducción a la optimización de sistemas dinámicos
350
supongamos que ∆J puede escribirse de la forma
∆J = G[x(t), δx(t)] + H[x(t) + δx(t)]||δx||
(14.11)
en donde G[x(t), δx(t)] es un funcional lineal con relación a δx y H[x(t)+δx(t)] →
0 cuando ||δx|| → 0. En tal caso, la parte del incremento lineal con relación a δx,
es decir G[x, δx] se llama variación del funcional y se representa por δJ. En ese
caso se dice que el funcional J[x(t)] es diferenciable para la señal x(t).
Ejemplo
Sea el funcional
J[x(t)] =
Z b
xdt
a
su incremento vendrá dado por
∆J = J[x(t) + δx(t)] − J[x(t)]
=
=
Z b
a
Z b
a
(x + δx)dt −
Z b
a
xdt
δxdt
R
Es decir, ∆J = ab δxdt. Esta expresión es, a su vez, un funcional lineal respecto
a δx. R Por tanto, el funcional es diferenciable para todo x(t) y su variación es
δJ = ab δxdt.
2
Ejemplo
Sea el funcional
J[x(t)] =
Z b
a
x2 dt
Se tiene que
∆J =
=
=
Z b
a
Z b
a
2
(x + δx) dt −
2xδxdt +
Z b
a
Z b
a
x2 dt
(δx)2 dt
Introducción a la optimización de sistemas dinámicos
351
En la expresión anterior, la primera integral representa el funcional lineal respecto
a δx, mientras la segunda integral conduce a
Z b
a
2
(δx) dt =
Z b
a
|δx|2 dt
≤ ( max |δx|)2
Z b
a≤t≤b
a
dt
= (b − a)||δx||2
= [(b − a)||δx||]||δx||
y para ||δx|| → 0, se tiene que
(b − a)||δx|| → 0
Es decir, el incremento ∆J del funcional es la suma de G[x, δx] y un término de
segundo orden con relación a ||δx||. Recordando la expresión (14.11) se tiene que
el funcional considerado es diferenciable para todo x(t) y su variación es
δJ = 2
Z b
a
xδxdt
2
Un funcional J[x(t)] se dice que alcanza su máximo para la señal x = x0 (t)
si los valores que toma el funcional para cualquier señal próxima a x0 (t) no son
mayores que J[x0 (t)]; es decir si
∆J = J[x(t)] − J[x0 (t)] ≤ 0
Si ∆J ≤ 0 ∀x(t) 6= x0 (t) y ∆J = 0 solo para x = x0 (t), se dice que se alcanza
un máximo estricto para x = x0 (t). Para todas las señales próximas a x = x0 (t)
se tiene que ∆J ≤ 0.
Ejemplo
Sea el funcional
J[x(t)] =
Z 1
0
(x2 + t2 )dt
Es fácil ver que se alcanza un mı́nimo estricto para la señal x(t) ≡ 0. En efecto,
se tiene que
∆J = J[x(t)] − J[0] =
Z 1
0
(x2 + t2 )dt −
Z 1
0
t2 dt =
Z 1
0
x2 dt ≥ 0
Introducción a la optimización de sistemas dinámicos
352
Por lo que el signo de igualdad se da sólo para x(t) ≡ 0.
2
Un ejemplo de funcional que emplearemos en la sección siguiente lo suministra
la expresión
Z
J=
T
0
L(x, ẋ, t)dt
J
x
J(x)
0
T
t
Figura 14.5: Un funcional J asigna a cada señal x(t) un número real.
Las técnicas de estudio de máximos y mı́nimos de funciones, pueden extenderse al estudio de funcionales. En tal caso, se trata de determinar una señal
x(t) tal que el valor (un número real) tomado por el funcional, sea mı́nimo (o
máximo).
Para el estudio de la optimización de funcionales se emplea el cálculo de
variaciones. Consiste éste en el estudio de cómo varı́a un funcional cuando varı́a
x(t). Una variación de x(t), por ejemplo,
δx(t) = x1 (t) − x0 (t)
se interpreta gráficamente tal como se hace en la figura 14.6. La variación de J
correspondiente será
∆J(x, δx) = J(x1 ) − J(x0 ) = J(x0 + δx) − J(x0 )
En donde ∆J(x, δx) representa el incremento de J debido a la variación δx(t)
entorno a x(t).
14.5.2
Ecuaciones de Euler
Las ecuaciones de Euler permiten resolver el problema de optimización funcional
siguiente:
Introducción a la optimización de sistemas dinámicos
353
xo (t)
x1 (t)
δx (t)
T
Figura 14.6: Ilustración de la variación δx(t) de una función x(t).
Problema
Determinar los valores de x(t), en el periodo [0, T ] que minimicen (o maximicen) el funcional
J=
Z T
0
L(x, ẋ, t)dt
estando sujetos a las condiciones de contorno fijas
x(0) = a
x(T ) = b
Para resolver el anterior problema se procede a estudiar la variación de J, e
igualarla a cero. Supóngase que el mı́nimo de J se produce para la trayectoria
x0 (t). Si esta trayectoria x0 (t) se somete a una variación δx se tendrá la nueva
trayectoria
x(t) = x0 (t) + δx(t)
esta nueva señal se supone para satisfacer las condiciones del problema, que
cumple las restricciones de contorno, es decir
δx(0) = δx(T ) = 0
La variación total de J será
∆J(x, δx) =
Z T
0
[L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt
Si se desarrolla la función L(x, ẋ, t) en serie de Taylor en torno a x(t) y ẋ(t), se
tendrá
Ã
L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t) =
!
∂L
∂L
δx +
δ ẋ + R(x, ẋ, δx, δ ẋ, t)
∂x
∂ ẋ
Introducción a la optimización de sistemas dinámicos
luego
∆J(x, δx) =
Z TÃ
∂L
0
354
!
Z T
∂L
δx +
δ ẋ dt +
R(x, ẋ, δx, δ ẋ, t)dt
∂x
∂ ẋ
0
Esta expresión tiene la misma forma que (14.11). En efecto, el primer término
del segundo miembro es lineal en δx, δ ẋ. El segundo, está formado por términos
de orden superior al primero. Por tanto, se tendrá que la variación de primer
orden de J vendrá dada por
Z T"
∂L
δJ(x, δx) =
0
#
∂L
δx +
δ ẋ dt
∂x
∂ ẋ
(14.12)
Esta variación representa la parte lineal del incremento ∆J. Integrando por
partes el segundo miembro de (14.12), se obtiene
δJ(x, δx) =
Z T"
∂L
#
d ∂L
∂L
−
δxdt +
δx |T0
∂x dt ∂ ẋ
∂ ẋ
0
y puesto que de momento estamos considerando condiciones de contorno fijas, se
tendráá que δx(0) = δx(T ) = 0, por lo que
δJ(x, δx) =
#
Z T"
∂L
0
d ∂L
−
δxdt
∂x dt ∂ ẋ
(14.13)
Esta expresión da la variación de primer orden en J, cuando la señal x(t) sufre
una variación δx(t). Si existe un valor de x∗ (t) tal que para este valor de x(t) el
funcional J toma un valor mı́nimo (o máximo), entonces sucederá que
δJ(x, δx) = 0
este resultado es análogo a la condición necesaria para la minimización (o maximización) de funciones ordinarias y se conoce como la condición necesaria fundamental del cálculo de variaciones. Llevando este resultado a (14.13) se tiene la
variación de primer orden de J. Es decir,
Z T"
∂L
0
#
d ∂L
−
δxdt = 0
∂x dt ∂ ẋ
Puesto que la anterior expresión debe satisfacerse para cualquier variación δx(t)
de x(t), ello sólo será posible si
d ∂L
∂L
−
=0
∂x dt ∂ ẋ
La solución de esta ecuación diferencial en x es x∗ (t). Esta ecuación recibe la
denominación de ecuación de Euler.
Introducción a la optimización de sistemas dinámicos
355
Como hemos recordado en la sección anterior, en el estudio de los máximos
y los mı́nimos de una función ordinaria L(u) se tiene una ecuación algébrica
dL/du = 0, cuya solución en u permite determinar el valor de u que minimiza (o
maximiza) a esta función. La ecuación de Euler juega el mismo papel que esta
ecuación cuando el problema de optimización es funcional. En tal caso, no se
trata de determinar el valor de una variable, sino el conjunto de valores tomados
por una señal en un determinado intervalo, y en lugar de una simple ecuación
algébrica, se tiene una ecuación diferencial.
La ecuación de Euler es una condición necesaria pero no suficiente para determinar un mı́nimo. Las condiciones de mı́nimo o máximo se determinan por el
estudio de las variaciones segundas. Este estudio es relativamente complejo y no
se realizará aquı́.
Debe observarse que la ecuación de Euler es una ecuación de segundo orden y
por lo tanto en su solución aparecen dos constantes arbitrarias. Para determinar
estas constantes se requieren dos ecuaciones adicionales. Estas ecuaciones vienen
dadas precisamente por las condiciones de contorno.
x(0) = a
x(T ) = b
A partir de estas dos ecuaciones se pueden determinar las dos constantes que
aparecen en la solución de la ecuación de Euler.
En el desarrollo anterior se ha considerado que x era un escalar. Los resultados
obtenidos se generalizan con toda facilidad para el caso en que x sea un conjunto
de n señales. El funcional a optimizar es de la forma
J(x) =
Z T
0
L(x, ẋ, t)dt
(14.14)
en donde x es un vector de dimensión n. Las ecuaciones de Euler toman la forma
"
#
∂L
d ∂L
−
=0
∂xi dt ∂ ẋi
para i = 1, 2, ..., n.
Obsérvese que se tiene un conjunto de n ecuaciones diferenciales. Su solución
comportará 2n constantes, para cuya determinación se necesitarán 2n ecuaciones,
que vendrán dadas por las condiciones de contorno.
En el caso de funcionales que implican n funciones independientes se tienen
n ecuaciones de Euler; cada ecuación es, en general, una ecuación diferencial
Introducción a la optimización de sistemas dinámicos
356
ordinaria, de segundo orden y no lineal, con condiciones de contorno separadas,
que suele ser difı́cil de resolver. Esta situación se complica además por el hecho
de que las n ecuaciones de Euler son simultáneas. Se emplean normalmente
soluciones numéricas.
Sin embargo, la integración numérica presenta a su vez problemas ya que para
integrar numéricamente se requiere tener la condiciones de contorno definidas para
uno de los extremos de integración (las condiciones iniciales o las finales). Sin
embargo, las ecuaciones diferenciales de Euler presentan condiciones de contorno
iniciales y finales a la vez. Se tienen entonces problemas de contorno con dos
extremos cuya resolución numérica requiere un tratamiento especı́fico.
Ejemplo
Determinar las trayectorias óptimas que minimicen los funcionales siguientes:
a) sea el funcional
J=
Z b
a
(2x1 x2 − 2x21 + x˙1 2 − x˙2 2 )dt
es decir
L = 2x1 x2 − 2x21 + x˙1 2 − x˙2 2
se tiene,
∂L
∂x1
∂L
∂x2
∂L
∂ x˙1
∂L
∂ x˙2
= 2x2 − 4x1
= 2x1
= 2x˙1
= −2x˙2
Las ecuaciones de Euler en este caso dan lugar al siguiente sistema de ecuaciones
diferenciales:
d2 x1
2x2 − 4x1 − 2 2 = 0
dt
2
d x2
2x1 + 2 2 = 0
dt
Introducción a la optimización de sistemas dinámicos
357
cuya resolución conduce a
d4 x2
d2 x2
+
2
+ x2 = 0
dt4
dt2
cuya ecuación caracterı́stica es
r4 + 2r2 + 1 = 0
r = ±j(dobles)
por lo tanto
x2 (t) = c1 tejt + c2 ejt + c3 te−jt + c4 e−jt
por otra parte,
x1 (t) = −
d2 x2
dt2
2
Ejemplo: Distancia mı́nima entre dos puntos
Vamos a aplicar las ecuaciones de Euler para demostrar un resultado bien conocido: que la distancia más corta entre dos puntos es la lı́nea recta. Supongamos
una curva x(t) que une los puntos x(a) = A y x(b) = B. El parámetro t es un
parámetro arbitrario que sirve para especificar la familia de curva que une los
puntos del plano (a, A) y (b, B), tal como se indica en la figura 14.7.
La longitud de una curva particular x(t) viene dada por
J=
Z b√
a
1 + ẋ2 dt
(14.15)
La determinación de la curva x(y) que minimice la distancia entre (a, A) y (b, B)
se reduce a determinar la curva x∗ (t) que minimice (14.15). Ese problema se
puede resolver mediante la ecuaciones de Euler. Se tiene
√
L(x, ẋ) = 1 + ẋ2
Introducción a la optimización de sistemas dinámicos
358
x
B
A
a
b
t
Figura 14.7: Distanciaı́mı́nima entre dos puntos
por lo que
∂L
=0
∂x
∂L
ẋ
=√
∂ ẋ
1 + ẋ2
por lo tanto, la ecuación de Euler, en este caso, se reduce a:
d
ẋ
√
=0
dt 1 + ẋ2
ecuación diferencial que, a su vez, se reduce a
d2 x
=0
dt2
cuya integración conduce a
x∗ (t) = c1 t + c2
que, aplicando las condiciones de contorno, se convierte en
x(t) =
(A − B)t + (aB − bA)
a−b
con lo que queda demostrado lo que ya sabı́amos: que la distancia mı́nima entre
dos puntos es una recta.
Restricciones o ligaduras
Supóngase que existen unas determinadas ligaduras (o restricciones) en las trayectorias posibles de x(t). Es decir, de todas las trayectorias posibles que unan el
Introducción a la optimización de sistemas dinámicos
359
estado inicial con el estado final, sólo son admisibles aquellas que, además, satisfagan una ecuación de la forma
g(x, ẋ, t) = 0
(14.16)
En este caso se tiene un problema de optimización con restricciones. En el estudio de los máximos y mı́nimos de funciones ordinarias se aplicaba el método de
Lagrange para resolver el problema. En el estudio de la optimización funcional, se
aplica igualmente una generalización del método de Lagrange. La demostración
de esta generalización no se hará aquı́, pero sin embargo sı́ se enunciará el método.
Supóngase que se trata de optimizar un funcional tal como el de la expresión
(14.14), en donde x(t) está sometido a las restricciones dadas por la expresión
(14.16). Entonces se puede formar el funcional (funcional aumentado)
J0 =
Z T
0
[L(x, ẋ) + λg(x, ẋ)] dt
en donde el multiplicador de Lagrange λ(t) es una función del tiempo. El problema queda reducido a optimizar el nuevo funcional J 0 con relación a x y a
λ.
El método se generaliza fácilmente para el caso en que x sea un vector, y el
número de restricciones sea un número finito m.
14.5.3
Estado final variable
En el apartado anterior se ha considerado el caso de la optimización funcional
cuando el estado inicial y el estado final estaban perfectamente determinados.
En esta sección se va a estudiar el caso en el que el estado final no está completamente determinado. Por ejemplo, se va a estudiar el problema de determinar
las trayectorias que une un punto a una curva tal como se representa en la figura
14.8.
Es decir, se trata de determinar x∗ (t) tal que minimice el funcional
J=
Z T
0
L(x, ẋ, t)dt
de manera que x(0) tome un valor previamente determinado, y x(t) sea tal que se
encuentre sobre una determinada trayectoria. Es decir, ni x(T ) ni T están fijados
de antemano, sino que ambos están ligados por una determinada expresión.
Introducción a la optimización de sistemas dinámicos
360
x(0)
0
Figura 14.8: Conjunto de trayectorias que se inician en el estado x(0) y que
finalizan sobre una curva.
Es obvio que la trayectoria óptima x∗ (t) debe satisfacer las ecuaciones de
Euler. En efecto, considérese el problema completamente resuelto y supóngase
determinado el estado final alcanzado por dicha trayectoria óptima x∗ (T ). Se
puede entonces considerar el problema como un problema con el estado final fijo
al que hay que aplicar las ecuaciones de Euler. Es decir, si x∗ (t) minimiza a J
en el caso de estado final variable, lógicamente minimizará a J para el caso más
restringido de estado final fijo.
Por lo tanto, el problema de determinar x∗ (t) para el caso de estado final
variable, conduce a la resolución de las ecuaciones diferenciales de Euler. Sin embargo, el problema se plantea a la hora de establecer las ecuaciones auxiliares que
permiten determinar las constantes que aparecen en la resolución de la ecuación
de Euler. Al estudio de este problema se va a dedicar el resto de la sección.
δx (T )
ẋ(Tf )δT
T
∆xf
T + δT
Figura 14.9: Trayectoria x(t) y su variación en el caso de extremo final libre.
Introducción a la optimización de sistemas dinámicos
361
En la figura 14.9 se representa una trayectoria x(t), y una variación de la
misma x(t) + δx(t), cuyo punto inicial es común con la primera, pero cuyo punto
final no coincide. La variación de J correspondiente a estas dos trayectorias será
la siguiente
∆J = J(x + δx) − J(x)
=
Z T +δT
0
L(x + δx, ẋ + δ ẋ, t)dt −
Z T
0
L(x, ẋ, t)dt
lo cual puede reescribirse como sigue
∆J =
Z T +δT
T
L(x+δx, ẋ+δ ẋ, t)dt+
Z T
0
[L(x+δx, ẋ+δ ẋ, t)−L(x, ẋ, t)]dt (14.17)
Se supone que δT es suficientemente pequeño, de manera que se pueda aplicar el
teorema del valor medio a la primera de las integrales anteriores, con lo que se
obtiene
Z T +δT
L(x + δx, ẋ + δ ẋ, t)dt ∼
(14.18)
= L(x, ẋ, t) |T δT
T
Por otra parte, el segundo término de la expresión (14.17), despreciando términos
de orden superior al primero (análogamente a como se hizo para deducir las
ecuaciones de Euler), puede escribirse:
Z T
0
#
Z T"
∂L
∂L
δx +
δ ẋ dt
[L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼
=
0
∂x
∂ ẋ
En donde el signo ∼
= denota la aproximación de primer orden. Integrando por
partes el segundo término del segundo miembro de la anterior expresión, se tiene,
Z T
0
#
Z T"
∂L
d
∂L
∂L
[L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼
−
δxdt +
δx |T0
=
0
∂x
dt ∂ ẋ
∂ ẋ
Si x(t) es una trayectoria óptima, entonces se satisfacerá la ecuación de Euler, y
por lo tanto, el primer término del segundo miembro de la anterior expresión, será
idénticamente nulo. En efecto, sea x∗ (t) una trayectoria óptima, del caso en el
que T y x(T ) no están fijados. Se tendrá que x(T ) = x∗ (T ). Por tanto, se puede
plantear el problema de control óptimo con condiciones finales fijas (x(T ), T )
cuya solución satisfacerá las ecuaciones de Euler. Es decir, la trayectoria x∗ (t) es
óptima para un problema de control óptimo con condiciones de contorno fijas, y,
en consecuencia satisfacerá las ecuaciones de Euler.
Por tanto, se podrá escribir:
Z T
0
∂L
[L(x + δx, ẋ + δ ẋ, t) − L(x, ẋ, t)]dt ∼
δx |T0
=
∂ ẋ
(14.19)
Introducción a la optimización de sistemas dinámicos
362
Habida cuenta de las expresiones (14.18) y (14.19) modificadas, se tendrá que la
expresión (14.17) se puede escribir
∂L
∆J ∼
δx |T0 +L(x, ẋ, t) |T δT
=
∂ ẋ
(14.20)
Expresión que representa la variación de J cuando se perturba una trayectoria
óptima y el extremo final no está fijado. Obsérvese que puesto que δx(0) = 0
sucede que ∆J depende exclusivamente de lo que sucede en el extremo final en
el que se produce la variación. En este extremo, con ayuda de la figura 14.9 se
tiene,
xf + ∆xf = x(T + δT ) + δx(T + δT )
= x(T ) + ẋ(T )δT + δx(T ) + ...
∼
= xf + ẋ(T )δT + δx(T )
o sea,
δx(T ) = ∆xf − ẋ(T )δT
(14.21)
lo que llevado a (14.20) conduce a
∆J =
∂L
|T [∆xf − ẋ(T )δT ] + L(x, ẋ, t) |T δT
∂ ẋ
y puesto que ∆J = 0, se tiene
"
#
∂L
∂L
|T δT = 0
|T ∆xf + L(x, ẋ, t) − ẋ
∂ ẋ
∂ ẋ
(14.22)
Esta expresión recibe la denominación de condición de transversalidad, y permite establecer una ecuación algébrica adicional para la determinación de las
constantes en la solución de la ecuación de Euler.
En la aplicación práctica de la condición de transversalidad se pueden dar tres
casos.
1. Supóngase que el instante final T está fijado de antemano, pero no ası́ el
estado alcanzado. En tal caso, el estado final debe estar situado en una
recta vertical tal como la de la figura 14.10. Analı́ticamente se tendrá que
δT = 0, y la expresión (14.22) se convierte en
∂L
|T = 0
∂ ẋ
Introducción a la optimización de sistemas dinámicos
363
x(0)
0
T
Figura 14.10: Trayectorias con el tiempo final T fijo y el estado final x(T ) libre.
x(T )
x(0)
Figura 14.11: Trayectorias con el estado final x(T ) fijo y el tiempo final T libre.
Introducción a la optimización de sistemas dinámicos
364
2. Si el estado final está determinado, pero no el instante en el que se alcanza,
el punto final deberá estar situado en una lı́nea horizontal tal como la de
la figura 14.11. En tal caso se tendrá que ∆xf = 0, con lo que la expresión
(14.22) se convierte en:
"
#
∂L
L(x, ẋ, t) − ẋ
|T = 0
∂ ẋ
3. Si el estado final y el instante final están ligados a una expresión analı́tica
de la forma
x(t) |T = y(t) |T
se tendrá que ∆xf = ẏ(T )δT (ver figura 14.12), con lo que la ecuación
(14.22) se convierte en
"
#
∂L
L(x, ẋ, t) + (ẏ − ẋ)
|T δT = 0
∂ ẋ
y 0 (T )
y(t)
x(0)
T
T + δT
Figura 14.12: Trayectorias con el estado final definido sobre la curva y(t).
Introducción a la optimización de sistemas dinámicos
Cuadro resumen de condiciones
de contorno en cálculo variacional.
Descripción
Condiciones
del problema de contorno
Notas
1. T, x(T )
fijos
x∗ (t0 ) = x0
x∗ (T ) = xf
2n condiciones para
2n constantes
de integración
2. T fijo y
x∗ (t¯0 ) = x0
∂L ¯¯
¯ =0
∂ ẋ ¯T
2n condiciones para
2n constantes
x∗ (t0 ) = x0
x"∗ (T ) = xf
2n + 1 condiciones para
2n constantes
x(T ) libre
3. T libre y
x(T ) fijo
∂L
L(x, ẋ) − ẋ
∂ ẋ
4. T y x(T )
libres, pero
ligadas por
x(T ) = θ(T )
x∗ (t0 ) = x0
x"∗ (T ) = θ(T )
de integración
#¯
¯
¯
¯ =0
¯
de integración y T
T
∂L
L(x, ẋ) + (ẏ − ẋ)
∂ ẋ
#¯
¯
¯
¯ =0
¯
T
2n + 1 condiciones para
2n constantes
de integración y T .
365
Introducción a la optimización de sistemas dinámicos
366
Ejemplo 3
Considérese una variante del ejemplo 2, en la que se trata de determinar la trayectoria mı́nima entre el origen y la recta y(t) = 2 − t (figura 14.13). Del ejemplo
y
2
2
t
Figura 14.13: Trayectoria mı́nima entre el origen y la recta y(t) = 2 − t.
2 se sabe que las soluciones del problema de Euler viene dadas por la familia de
rectas:
x∗ = c1 t + c2
Para la determinación de las constantes c1 y c2 se recurre a las condiciones
de contorno 4 del cuadro adjunto. Puesto que x(0) = 0, se tiene que c2 = 0. Por
otra parte, la condición de contorno final conduce a:
q
1+
ẋ∗ (T )2
+q
ẋ∗ (T )
1 + ẋ∗ (T )2
[ẏ(T ) − ẋ∗ (T )] = 0
Puesto que ẋ∗ (T ) = c1 e ẏ(T ) = −1, se tiene
q
c1
1 + c21 − q
1 + c21
[1 + c1 ] = 0
De donde se obtiene
c1 = 1
por lo que la trayectoria mı́nima viene dada por
x∗ = t
Introducción a la optimización de sistemas dinámicos
El valor de T se determina mediante la ecuación
x∗ (T ) = y(T )
lo que da T = 1.
367
Tema 15
Métodos Variacionales en
Control Optimo
15.1
Aplicación del cálculo de variaciones a la
resolución del problema del Control Optimo
Sea el sistema dinámico
ẋ = f (x, u)
(15.1)
y supóngase, además, un ı́ndice de funcionamiento dado por
J=
Z T
0
L(x, u)dt
(15.2)
Se trata de determinar la señal de control óptima u∗ (t) en el intervalo (0, T ).
Se pueden presentar dos casos, según que se pueda o no dejar explı́cita u en
la expresión (15.1).
15.1.1
Se puede eliminar u
Supóngase que en la expresión (15.1) es posible dejar explı́cita u. En tal caso se
podrá escribir
u = g(x, ẋ, t)
368
Métodos Variacionales en Control Optimo
369
lo que se le podrá llevar a la expresión (15.2) obteniéndose
J=
Z T
0
L(x, g(x, ẋ, t), t)dt
Z T
J=
0
L0 (x, ẋ, t)dt
(15.3)
(15.4)
con lo que el problema se ha reducido a uno de cálculo variacional, para cuya
solución se emplean las ecuaciones de Euler.
Ejemplo 1
Sea el sistema descrito por la ecuación:
ẋ = −x + u
se trata de determinar u(t) que minimice
J=
Z 1
0
(x2 + u2 )dt
De la ecuación del sistema se tiene que u = ẋ + x, y sustituyendo en la expresión
de J, se tiene
J=
Z 1
0
(x2 + (ẋ + x)2 )dt =
Z 1
0
(2x2 + 2xẋ + (ẋ)2 )dt
es decir,
L = 2x2 + 2xẋ + (ẋ)2
Recordando la ecuación de Euler:
∂L
d ∂L
−
=0
∂x dt ∂ ẋ
En este caso se tiene
∂L
= 4x + 2ẋ
∂x
∂L
d ∂L
dx
d2 x
= 2x + 2ẋ ⇒
=2 +2 2
∂ ẋ
dt ∂ ẋ
dt
dt
Por lo tanto la ecuación de Euler resulta ser
d2 x
− 2x = 0
dt2
Métodos Variacionales en Control Optimo
370
La integración de esta ecuación diferencial determina la trayectoria óptima de
x(t):
√
√
x(t) = C1 e− 2t + C2 e 2t
√
√
√
√
ẋ(t) = − 2C1 e− 2t + 2C2 e 2t
Por tanto la trayectoria óptima de la señal de mando es:
u(t) = x(t) + ẋ(t)
√
√ √
√
= C1 (1 − 2)e− 2t + C2 (1 + 2)e 2t
Las constantes C1 y C2 se determinan en función de los estados inicial y final del
sistema.
Suponiendo x(0) = 1; x(1) = 0; se tiene
C1 = 1.0628 C2 = −0.0628
Ejemplo 2
Para un integrador simple ẋ = u encontrar la entrada de control u(t) que conduzca
al sistema desde cierto estado inicial x(0) al estado final x(t) de manera que se
minimice la integral,
Z
J=
T
0
(x2 + u2 )dt
sujeta a cada una de las condiciones siguientes:
a) x(0) = 1, x(T ) = 0 y T = 1.
b) x(0) = 1, x(T ) sin especificar y T = 1.
c) x(0) = 1, x(T ) = 0 y T sin especificar.
Calcular el valor de la integral correspondiente a cada caso.
Resolución.
En este caso
L = x2 + u2 = x2 + (ẋ)2
Luego,
∂L
∂L
= 2x
= 2ẋ
∂x
∂ ẋ
Métodos Variacionales en Control Optimo
371
La ecuación de Euler en este caso conduce a,
d2 x
−x=0
dt2
cuya solución general es,
x(t) = C1 e−t + C2 et
a) Es el caso más simple de aplicación de condiciones de contorno. Estas condiciones conducen a,
1 = C1 + C2
C1
0 =
+ C2 e
e
Cuya solución es C1 = 1.157 y C2 = −0.157. Luego,
x(t) = 1.157e−t − 0.157et
y,
u(t) = −1.157e−t − 0.157et
El valor de J para este caso resulta ser J = 1.11.
b) La condición de transversalidad se escribe en este caso
¯
∂L ¯¯
¯
=0
∂ ẋ ¯T =1
lo que se traduce en
ẋ(1) = 0
Por lo tanto las condiciones en los extremos son
x(0) = 1 ẋ(1) = 0
lo que conduce a
1 = C1 + C2
C1
0 = −
+ C2 e
e
Es decir, C1 = 0.88 y C2 = 0.12. El valor de J resulta ser 0.761.
Métodos Variacionales en Control Optimo
372
c) En este caso la condición de transversalidad se convierte, al estar fijo el
valor de xf y no el de T en
¯
¯
¯
∂L ¯¯
¯
¯L − ẋ
¯ =0
¯
∂ ẋ ¯T
pues δT , en T es nulo y ∆xf no.
Por lo tanto,
L − ẋ(T )
∂L
(T ) = 0
∂ ẋ
lo que conduce a
ẋ(T ) = 0
Se sabe por lo tanto que
x(0) = 1 x(T ) = 0 ẋ(T ) = 0
Se tienen, por tanto, tres ecuaciones con tres incógnitas C1 , C2 y T . Las anteriores
ecuaciones se convierten en
1 = C1 + C2
0 = C1 e−T + C2 eT
0 = −C1 e−T + C2 eT
Es fácil ver que la solución del anterior sistema de ecuaciones es
T = ∞
C1 = 1
C2 = 0
ciñéndonos a valores de t > 0, es decir suponiendo que el sistema evoluciona en
el sentido de los tiempos crecientes
Luego
x(t) = e−t
u(t) = −e−t (0 ≤ t < ∞)
En este caso J = 1.
Métodos Variacionales en Control Optimo
15.1.2
373
No se puede eliminar u
Si la eliminación de u en la expresión (15.1) no es posible, entonces se recurre a
la aplicación del método de los multiplicadores de Lagrange observando que la
ecuación (15.1) puede interpretarse como una restricción de la forma
g(x, ẋ) = f (x, u) − ẋ
Se tendrá que el funcional modificado que se trata de optimizar será
J0 =
Z T
0
L0 (x, ẋ, u, λ)dt
en donde
L0 (x, ẋ, u, λ) = L(x, u) − λ[f (x, u) − ẋ]
(15.5)
Se considerará en lo que sigue m = 1, n = 1 por razones de simplicidad. La
generalización es muy simple y el resultado se presentará al final. El problema
queda reducido a determinar los valores de x(t), u(t) y λ(t) que minimicen el
funcional J 0 .
Para resolver este problema se recurre a las ecuaciones de Euler. El número
de estas ecuaciones será tres, correspondiente a las variaciones de cada una de las
variables anteriores. Se estudian estas ecuaciones para cada una de las variables
x(t), u(t) y λ(t).
• Ecuación de Euler con relación a x. Se tendrá
∂
d ∂
[L + (f − ẋ)λ] −
[L + (f − ẋ)λ] = 0
∂x
dt ∂ ẋ
∂
d ∂
[L + (f − ẋ)λ] −
(−λẋ) = 0
∂x
dt ∂ ẋ
∂
[L + f λ] = −λ̇
∂x
(15.6)
• Ecuación de Euler con relación a u
∂
d ∂
[L + (f − ẋ)λ] −
[L + (f − ẋ)λ] = 0
∂u
dt ∂ u̇
como L + (f − ẋ)λ no depende de u̇, se tendrá
∂
[L + f λ] = 0
∂u
(15.7)
Métodos Variacionales en Control Optimo
374
• Ecuación de Euler con relación a λ
f − ẋ = 0
(15.8)
Se define la función H(x, u, λ) de acuerdo con
H(x, u, λ) = L(x, u) + λf (x, u)
esta función recibe la denominación de función de Hamilton o hamiltoniana. Se
tendrá que las ecuaciones anteriores pueden escribirse:
∂H
= −λ̇
(15.9)
∂x
∂H
= 0
(15.10)
∂u
∂H
= ẋ
(15.11)
∂λ
El problema queda reducido a resolver el anterior conjunto de ecuaciones diferenciales para determinar u∗ (t). Un método sistemático para hacerlo es el siguiente:
1. Formar la función de Hamilton o Hamiltoniana
H(x, u, λ) = L(x, u) + λf (x, u)
2. Resolver la ecuación algebraica
∂H(x, u, λ)
=0
∂u
que permite obtener u∗ (x, λ).
3. Formar la hamiltoniana minimizada, llevando u∗ a H, con lo que se tiene,
H ∗ (x, u∗ , λ)
4. Resolver el sistema de ecuaciones diferenciales,
∂H ∗
∂H ∗
λ̇ = −
∂λ
∂x
con las condiciones de contorno x(0) y x(t).
ẋ =
(15.12)
5. Los valores de x∗ (t) y λ(t), determinados en 4, se llevan a 2, con lo que se
tiene
u∗ (x∗ (t), λ∗ (t), t) = u∗ (t)
En el cuadro se resume el método.
Métodos Variacionales en Control Optimo
Resumen de la aplicación del
Cálculo Variacional
a la determinación del
Control Optimo
Se da el sistema
ẋ = f (x, u)
Se da el criterio
J=
Paso 1
Se forma la Hamiltoniana
H(x, u, λ) = L(x, u) + λf (x, u)
Paso 2
Se determina u∗ (x, λ) admisible tal que
∂H
=0
∂u
Paso 3
Se determina la Hamiltoniana mı́nima
H ∗ (x, λ) = H(x, u∗ (x, λ), λ)
Paso 4
Se resuelve el sistema de 2n ecuaciones
∂H ∗
ẋ =
∂λ
RT
0
L(x, u)dt
∂H ∗
∂x
con las condiciones de contorno correspondientes.
Se obtiene x∗ (t) y λ∗ (t).
λ̇ = −
Paso 5
Se determina u∗ (t) = u∗ (x∗ (t), λ∗ (t))
375
Métodos Variacionales en Control Optimo
376
Ejemplo 3
Para el sistema
ẋ = −2x + u
con el ı́ndice
1Z 1 2
J=
u dt
2 0
determinar la señal de control óptima u(t) tal que conduzca al sistema de x(0) =
1 a x(1) = 0. La resolución del problema se descompone en los siguientes pasos:
1. Se forma la hamiltoniana, que resulta ser
H=
u2
+ (u − 2x)λ
2
2. Se minimiza la hamiltoniana
∂H
=u+λ
∂u
luego,
u∗ = −λ
3. Se forma la hamiltoniana minimizada
λ2
− λ2 − 2xλ
2
λ2
= − − 2xλ
2
H∗ =
(15.13)
(15.14)
4. Se tiene
∂H ∗
∂H ∗
= −λ − 2x;
= −2λ
∂λ
∂x
de donde se tienen las ecuaciones diferenciales (4)
−2x − λ = ẋ
−2λ = −λ̇
(15.15)
(15.16)
λ̇ − 2λ = 0
λ = k1 e2t
(15.17)
(15.18)
cuya resolución conduce a
Métodos Variacionales en Control Optimo
377
es decir,
ẋ + 2x = −k1 e2t
que constituye la solución general de la homogénea xg = k2 e−2t .
La solución particular de la completa toma la forma xp = Ae2t . en donde,
2Ae2t + 2Ae2t = −k1 e2t
luego
k1
4
La solución de las ecuaciones diferenciales anteriores, será de la forma,
A=−
x=−
k1 2t
e + k2 e−2t
4
Aplicando las condiciones de contorno se tiene
k1
+ k2
4
k1
0 = − e2 + k2 e−2
4
1 = −
Eliminando k2 se tiene
k1 =
1
4
4
e 1 − e−4
luego,
λ=
e4 (1
4
e2t
− e−4 )
5. Por lo tanto,
u∗ = −
e4 (1
4
e2t
−4
−e )
Ejemplo 4
Sea la planta
x˙1 = x2
x˙2 = u
y el ı́ndice de funcionamiento
J=
1Z 2 2
u dt
2 0
(15.19)
(15.20)
Métodos Variacionales en Control Optimo
378
condiciones de contorno
x1 (0) = x2 (0) = 1
x1 (2) = x2 (2) = 0
1. Se forma la hamiltoniana
1
H = u2 + λ1 x2 + λ2 u
2
2. Se resuelve la ecuación en u
∂H
=0
∂u
que en este caso resulta ser
∂H
= u + λ2 = 0
∂u
lo que conduce a
u∗ = −λ2
Obsérvese que
∂ 2H
=1
∂ 2u
por lo que u∗ minimiza la Hamiltoniana.
3. Se forma la Hamiltoniana optimizada
1
1
H ∗ (x∗ , λ, t) = λ22 + λ1 x2 − λ22 = λ1 x2 − λ22
2
2
4. Se forman las ecuaciones de estado
x˙1 =
x˙2 =
y las de coestado
∂H ∗
= x2
∂λ1
∂H ∗
= −λ2
∂λ2
∗
∂H
λ˙1 = −
=0
∂x1
∂H ∗
λ˙2 = −
= −λ1
∂x2
Métodos Variacionales en Control Optimo
379
Las condiciones de contorno son
x1 (0) = x2 (0) = 1
x1 (2) = x2 (2) = 0
Resolución del problema de contorno más las ecuaciones de estado
x˙1 = x2
x˙2 = −λ2
λ˙1 = 0
λ˙2 = −λ1
(1) λ˙1 = 0 −→ λ1 = k1
(2) λ˙2 = −λ1 −→ λ˙2 = −k1 −→ λ2 = −k1 t + k2
k1 t2
− k2 t + k3
2
t3
t2
−→ x1 (t) = k1 − k2 + k3 t + k4
6
2
(3) x˙2 = −λ2 −→ x˙2 = k1 t − k2 −→ x2 (t) =
(4) x˙1 = x2 −→ x˙1 =
k1 t2
− k2 t + k3
2
Es decir
t2
− k2 t + k3
2
t3
t2
x1 = k1 − k2 + k3 t + k4
6
2
Para t = 0 x1 = x2 = 1, luego k3 = 1, k4 = 1.
x2 = k 1
Para t = 2 x1 = x2 = 0, se tiene k1 = 3 k2 = 72 .
Luego
además
3t2 7t
− +1
2
2
t3 7t2
=
−
+t+1
2
4
x∗2 =
(15.21)
x∗1
(15.22)
7
2
7
(5) u∗ = −λ∗2 = 3t −
2
λ∗1 = 3 λ∗2 = −3t +
Métodos Variacionales en Control Optimo
380
Ejemplo 5
Se trata de regular la temperatura de una habitación con el consumo mı́nimo de
energı́a posible. Si θ(t) es la temperatura en la habitación, θa es la temperatura
ambiental fuera de la habitación (que se supondrá constante) y u(t) es la tasa
de calor que se inyecta en la habitación, se sabe que el proceso viene descrito
mediante la ecuación
θ̇ = −a(θ − θa ) + bu
(15.23)
en donde a y b son dos constantes que dependen del aislamiento de la habitación.
Se define el estado como
x(t) = θ(t) − θa ,
(15.24)
de modo que la ecuación de estado se puede escribir
ẋ = −ax + bu
(15.25)
Puesto que se trata de regular la temperatura en un cierto periodo de tiempo [0, T ]
con el mı́nimo suministro de energı́a posible, se define el ı́ndice de funcionamiento
J=
1Z T 2
u (t)dt
2 0
(15.26)
Se tiene, por tanto, definido un problema de control óptimo mediante las expresiones (15.25) y (15.26). Para su resolución se procede mediante los cuatro pasos
anteriores.
1. Se forma la Hamiltoniana
H=
u2
+ λ(−ax + bu)
2
(15.27)
2. se resuelve con respecto a u la ecuación
0=
∂H
= u + bλ
∂u
(15.28)
con lo que se tiene
u∗ (t) = −bλ∗ (t)
3. Se forma la Hamiltoniana optimizada
H∗ =
u2
+ λ(−ax − b2 λ)
2
(15.29)
Métodos Variacionales en Control Optimo
381
Se forman las ecuaciones de coestado, que resultan ser
ẋ = −ax − b2 λ
(15.30)
λ̇ = aλ
(15.31)
cuya resolución permitirá obtener λ∗ (t) y la trayectoria de estado óptima
x∗ (t).
Para integrar las ecuaciones de coestado vamos a proceder como si conociésemos
el valor final de λ(T ). En tal caso, la solución de (15.31) es
λ∗ (t) = e−a(T −t) λ(T )
(15.32)
ẋ = −ax − b2 λ(T )e−a(T −t)
(15.33)
que llevado a (15.30) da
Esta ecuación se puede resolver empleando la transformada de Laplace. En
efecto, se tiene
x(0)
b2 λ(T )e−aT
−
s + a (s + a)(s − a)
!
Ã
x(0)
b2
−1/2
1/2
−aT
=
− λ(T )e
+
s+a
a
s+a s−a
X(s) =
(15.34)
De modo que
b2
λ(T )e−aT sinhat
(15.35)
a
Las expresiones (15.32) y (15.35) nos dan λ∗ (t) y x∗ (t) en función de el
estado inicial x(0) y el valor final de λ(T ).
x∗ (t) = x(0)e−at −
Supongamos que la temperatura inicial de la habitación es igual a la temperatura exterior θa = 100 . Se hace
x(0) = 0
(15.36)
Además, supóngase que se trata de que la temperatura final θ(T ) sea 200
al cabo de T segundos. Por tanto, el estado final se pretende que alcance
el valor
x(T ) = 10
(15.37)
Se tiene, por tanto, un problema de control óptimo en el que tanto el estado
final como el tiempo final están fijados (aunque de momento no hayamos
asignado un valor concreto a T ).
Métodos Variacionales en Control Optimo
382
Con ayuda de (15.36) y de (15.37) se puede determinar λ(T ). En efecto, en
la expresión (15.35) se tiene
x(T ) = x(0)e−aT −
b2
λ(T )(1 − e2aT )
2a
(15.38)
teniendo en cuenta (15.36) y (15.37) se tiene que
λ(T ) = −
20a
b2 (1 − e−2aT )
(15.39)
lo que llevado a la expresión (15.32) conduce a
λ∗ (t) = −e−a(T −t) λ(T )
20ae−aT
= − 2
eat
b (1 − e−2aT )
10a
eat
= − 2 × aT
e − e−aT
b
2
10aeat
= −
bsinhaT
(15.40)
(15.41)
(15.42)
(15.43)
Recordando que
eaT − e−aT
2
Por último, la tasa óptima de inyección de calor en la habitación viene dada
por (15.29), es decir
10aeat
∗
(15.44)
u (t) =
sinhaT
y la trayectoria óptima para el estado viene dada por
sinhaT =
x∗ (t) = 10
sinhat
sinhaT
(15.45)
Obsérvese que x∗ (T ) = 10.
15.1.3
Introducción de un término de control terminal
Vamos a considerar ahora el caso, que se presenta a veces en aplicaciones, en el que
en el ı́ndice de funcionamiento aparezca un término (o varios) escalar que dependa
Métodos Variacionales en Control Optimo
383
del valor alcanzado por el estado en el instante final x(T ) y eventualmente del
propio tiempo final T . Es decir, sea un ı́ndice de funcionamiento de la forma
J=
Z T
0
Ldt + S(x(T ), T ) − S(x(0), 0)
(15.46)
en donde S(x(T ), T ) representa el llamado término de control terminal. Este caso
se puede reducir al estudiado hasta aquı́. En efecto, considérese
Z t"
J =
0
Z t
=
es decir
J=
Z T
0
0
#
dS
L+
dt
dt
(15.47)
dS
(15.48)
Ldt +
Z t
0
Ldt + S(x(T ), T ) − S(x(0), 0)
(15.49)
Obsérvese que puesto que x(0) y el instante inicial 0 están fijados de antemano,
la minimización del ı́ndice (15.49) es equivalente a la minimización del ı́ndice
(15.47). (Normalmente S(x(0), 0) = 0)
Obsérvese que la expresión (15.47) puede escribirse también:
J=
Z T"
0
#
∂S
∂S
L+
ẋ +
dt
∂x
∂t
(15.50)
Por lo que esta será la forma que se adoptará para el ı́ndice de funcionamiento en
lo que sigue. Por tanto, el problema de control con término de control terminal
se puede plantear, como se ha hecho hasta ahora modificando la función L(x, u)
para convertirla en
Z
J0 =
T
0
La (x, ẋ, u, t)dt
(15.51)
con este planteamiento se puede aplicar el cálculo de variaciones, tal como se ha
hecho anteriormente.
Recordando la expresión, se tiene que de la aplicación del método de los
multiplicadores de Lagrange se desprende que en este caso
L0 = La + λ(f − ẋ)
∂S
∂S
ẋ +
+ λ(f − ẋ)
= L+
∂x
∂t
(15.52)
(15.53)
Vamos a comprobar que la introducción de un término de control terminal no
altera el planteamiento Hamiltoniano que se ha presentado en la sección anterior,
Métodos Variacionales en Control Optimo
384
excepto en lo que respecta a las condiciones de transversalidad, como veremos
luego. Para presentar el método de Hamilton de resolver el problema de control
óptimo se ha partido de la expresión (15.5). Ahora debemos partir de la (15.53).
La ecuación Euler con relación a x conduce a
∂
d ∂
[La + λ(f − ẋ)] −
[La + λ(f − ẋ)] = 0
∂x
dt ∂ ẋ
(15.54)
desarrollando el primer miembro del primer término se tiene
"
#
∂ 2S
∂
∂S
∂S
∂
∂ 2S
ẋ
+
L+
ẋ +
+ λ(f − ẋ) =
[L + f λ] +
∂x
∂x
∂t
∂x
∂x2
∂x∂t
Por otra parte se tiene
"
#
∂
∂S
∂S
∂S
L+
ẋ +
+ λ(f − ẋ) =
−λ
∂ ẋ
∂x
∂t
∂x
(15.55)
por lo que el segundo término de (15.54) será
"
#
d ∂S
−λ
dt ∂x
teniendo en cuenta que
"
#
"
#
"
∂ dS
∂ ∂S
d ∂S
∂S
=
=
ẋ +
dt ∂x
∂x dt
∂x ∂x
∂t
#
se tendrá que (15.54) se puede escribir
∂
[L + f λ] = −λ̇
∂x
que resulta ser la misma expresión que se tenı́a en (15.6). Es decir, la ecuación
de Euler con relación a x es la misma se tenga o no término de control terminal.
Es inmediato comprobar que sucede lo mismo con las ecuaciones de Euler con
relación a u y a λ dadas en las expresiones (15.7 y 15.8).
El tiempo final T y el estado que se alcance en dicho instante x(T ) pueden
estar fijados de antemano o no. En este segundo caso, que por otra parte es el
más frecuente en los problemas con término de control terminal, hay que recurrir
a las condiciones de transversalidad. Vamos, además, a aprovechar esta oportunidad para establecer la condiciones de transversalidad en el planteamiento
hamiltoniano.
Métodos Variacionales en Control Optimo
385
Recordando la expresión (14.22) se tiene que las condiciones de transversabilidad para este caso vienen dadas por la expresión
¯
#¯
"
∂L0 ¯¯
∂L0 ¯¯
¯ δT = 0
¯ ∆xf + L0 − ẋ
∂ ẋ ¯T
∂ ẋ ¯T
(15.56)
Es claro que de (15.53) y (15.55) se tiene:
∂L0
∂S
=
−λ
∂ ẋ
∂x
Por lo que la expresión (15.56) se convierte en
"
#¯
"
Ã
! #
¯
∂S
∂S
∂S
¯
f
¯ ∆x + L +
ẋ +
+ λ(f − ẋ) −
− λ ẋ δT |T = 0
¯
∂x
∂t
∂x
∂S
−λ
∂x
T
lo que se puede escribir
"
¯
#
"
¯
∂S
∂S
¯
− λ ∆xf ¯¯ + L + λf +
∂x
∂t
T
#¯
¯
¯
¯ δT = 0
¯
T
que también puede escribirse
"
#¯
#¯
"
¯
∂S ¯¯
¯
∗
f
¯ δT = 0
¯ ∆x + H +
¯
∂t ¯T
T
∂S
−λ
∂x
(15.57)
El punto 4) del procedimiento de resolución implica el resolver las ecuaciones
diferenciales (4)
∂H ∗
ẋ =
∂λ
∂H ∗
−λ̇ =
∂x
Si la dimensión del vector de estado es n, entonces la resolución del anterior
sistema de ecuaciones diferenciales implica la determinación de 2n constantes.
Estas constantes se determinarán con ayuda de las condiciones de contorno. Estas
condiciones son:
1. Estado inicial x(0) que permite el establecimiento de n ecuaciones.
2. Condiciones finales generalizadas que vienen dadas por la ecuación
"
∂S
−λ
∂x
#¯
#¯
"
¯
∂S ¯¯
¯
f
∗
¯ ∆x + H +
¯ δT = 0
¯
∂t ¯T
T
Métodos Variacionales en Control Optimo
386
si no existe término de control terminal, es decir, si S(x, T ) = 0, se simplifican a
−λ|T ∆xf + H ∗ |T δT = 0
Se pueden distinguir dos casos:
1. Estado final impuesto y tiempo final libre.
En tal caso ∆xf = 0, y la determinación de las n constantes se hace a partir
de
Ã
!¯
∂S ¯¯
∗
H +
¯ =0
∂t ¯T
2. Estado final libre y tiempo final T determinado.
En tal caso se tiene que δT = 0, por lo que la anterior ecuación implicará
que
Ã
!
∂S
− λ |T = 0
(15.58)
∂x
lo que permite establecer n ecuaciones suplementarias para determinar las
n constantes restantes.
Si S = 0, se tiene λi (T ) = 0.
Las dos situaciones anteriormente consideradas constituyen los dos casos extremos
que se pueden dar. Supóngase, que ni el estado final ni el instante final T están
dados de antemano, pero sı́ la trayectoria y(t) en la que debe encontrarse el
estado final. En tal caso, las condiciones de contorno en el extremo final pueden
escribirse
−λ(T )∆xf + H ∗ [x(T ), λ(T ), T ]δT = 0
(15.59)
Es inmediato ver que dx = y(T )dt, y puesto que dt es arbitrario, es necesario que
−λ(T )ẏ(T ) + H0 (T ) + ẏ(t)
∂S
∂S
|T +
|T = 0
∂x
∂x
(15.60)
Esta ecuación, junto con el hecho de que x(T ) = y(T ) especifica completamente
la solución.
Ejemplo 6
Sea el sistema:
ẍ = u(t)
(15.61)
Métodos Variacionales en Control Optimo
387
que representa un móvil que se acelera, y se trata de maximizar la distancia
recorrida en un tiempo determinado, minimizando al mismo tiempo una medida
cuadrática de la actuación; es decir, adoptando el ı́ndice
J = −x(T ) +
1Z T 2
u dt
2 0
Se pide la señal de control, para el caso x(0) = 0 y ẋ(0) = 0
La descripción interna del sistema (15.61) viene dada por
ẋ1 = x2
ẋ2 = u(t)
con las condiciones iniciales x(0) = 0 y ẋ(0) = 0.
Se construye la Hamiltoniana
u2
H = L + λ1 f1 + λ2 f2 =
+ λ1 x2 + λ2 u
2
Minimizándola con respecto a u se tiene
∂H
=0
∂u
Es decir
u + λ2 = 0
por lo que la señal de control óptima será
u∗ = −λ2
Por tanto, la hamiltoniana óptima vendrá dada por
H∗ = −
λ22
+ λ 1 x2
2
Por los que las ecuaciones de Hamilton pueden escribirse
∂H ∗
= −λ̇1
∂x1
∂H ∗
= −λ̇2
∂x2
(15.62)
Métodos Variacionales en Control Optimo
388
es decir
−λ̇1 = 0
−λ̇2 = λ1
y, por tanto,
λ1 = k1
λ2 = −k1 t + k2
Para determinar las constantes de integración se recurre a las condiciones de
contorno que, en este caso, puesto que T es fijo y el estado final x(T ) es libre
resultan ser
Ã
!
∂S
− λi
=0
∂xi
T
Por tanto
!
Ã
∂S
− λ1
= 0 λ1 (T ) = −1 ⇒ λ1 = −1
∂x1
T
Ã
∂S
− λ2
∂x2
!
= 0
λ2 (T ) = 0 ⇒ λ2 (t) = −T + t
T
Se tiene que la señal de control óptimo es
u∗ (t) = T − t
Por tanto la señal de control óptima es tal que la fuerza aplicada debe de crecer
linealmente con el tiempo, hasta anularse para t = T .
Este problema puede resolverse también aplicando directamente las ecuaciones
de Euler, puesto que estamos en el caso en el que se puede eliminar u que se vio
en 15.1.2. En efecto, el ı́ndice (15.62) del problema puede escribirse, eliminado u,
e incorporando al integrando el término de control terminal (recordando lo que
se hizo en (15.48)), de la forma
J=
¶
Z Tµ
1 2
ẋ2 − x2 dt
2
Por tanto se tiene un problema de Euler con
1
L = − ẋ22 + x2
2
con condiciones iniciales x1 (0) = x2 (0) = 0. Para determinar las ecuaciones de
Euler se tiene que
0
∂L
= 1
∂x2
∂L
= −ẋ2
∂ ẋ2
Métodos Variacionales en Control Optimo
389
Por lo que la ecuación de Euler
∂L
d ∂L
−
=0
∂x2 dt ∂ ẋ2
se convierte en
ẍ2 = 0
2
cuya integración conduce a x2 (t) = − t2 + c1 t + c2
Las condiciones de contorno como, en este caso, puesto que T es fijo, son
∂L
|T = −ẋ2 (T ) = −T + c1
∂ ẋ2
luego c1 = T . Además x2 (0) = c2 = 0. Por tanto,
u = ẋ2 = T − t
Ejemplo 7
Se trata de determinar la señal de control óptimo para el sistema de primer orden
ẋ = −x + u
con x(0) = 0 para
que se maximice el valor final de x al tiempo que se minimiza
R
el funcional 21 01 u2 dt. Se supone que la ponderación entre ambos objetivos es ρ
de manera que
Z 1
1 2
J=
u dt − ρx(1)
0 2
Se procede de acuerdo con los pasos siguientes:
1. Se forma la hamiltoniana
1
H = u2 + λ(u − x)
2
2. Se minimiza la hamiltoniana
∂H
=u+λ
∂u
es decir
u∗ = −λ
Métodos Variacionales en Control Optimo
390
3. Se forma la hamiltoniana minimizada
λ2
λ2
H∗ =
− λ2 − λx = − − λx
2
2
4. Se forman las ecuaciones diferenciales (4)
∂H ∗
= −λ
∂x
∂H ∗
= −λ − x
∂λ
Que resultan ser
λ̇ = λ
ẋ = −λ − x
De la primera de estas ecuaciones se tiene,
λ̇ − λ = 0 −→ λ = k1 et
(15.63)
De la segunda se tiene
ẋ + x = −λ
es decir, de ambas,
ẋ + x = −k1 et
cuya solución es
k1 t
e
2
Las condiciones de transversalidad son (puesto que el estado final es completamente libre y T = 1)
x(t) = k2 e−t −
[
como S = −ρx(t) se tiene
∂S
− λ]|T =1 = 0
∂x
(15.64)
∂S
= −ρ
∂x
(15.65)
De (15.64) y (15.65) se tiene
λ(1) = −ρ
Según (15.63), se tiene
λ(1) = k1 e
es decir
k1 =
luego
λ(1)
ρ
=−
e
e
ρ
u∗ = −λ(t) = et = ρe(t−1)
e
Métodos Variacionales en Control Optimo
391
Ejemplo 8
En este ejemplo vamos a considerar una variante del ejemplo de la regulación
de la temperatura en una habitación que se ha visto al final de la sección anterior. Vamos a suponer que se trata de que la temperatura final alcanzada por la
habitación no sea exactamente de 10o (es decir que el estado final x(T ) no sea
exactamente 10), sino que se trata de minimizar el ı́ndice
1
1Z T 2
u (t)dt + ρ(x(T ) − 10)2
J=
2 0
2
en donde ρ es un factor de ponderación entre los dos términos que aparecen en el
ı́ndice de funcionamiento. El primer término de J mide el coste de la actuación,
y es el mismo que se tenı́a en la expresión (15.26). El segundo término es una
expresión cuadrática que mide la desviación del estado final x(T ) del valor 10.
De acuerdo con este término se trata de penalizar el hecho de que x(T ) no sea
igual a 10, pero sin pretender que este sea exactamente el valor alcanzado.
Por tanto, el ı́ndice J está formado por dos términos. El primero penaliza el
coste de la actuación. Mientras que el segundo se refiere a la meta que se persigue
mediante el funcionamiento del sistema: que el estado final alcance un valor lo
más cercano posible a 10. Estos dos términos se suman afectando a uno de ellos
(en este caso al primero) mediante un factor de peso ρ que mide la importancia
relativa que se asigne al comportamiento deseado (primer término) o al coste de
alcanzarlo (segundo término). Es decir, si se adopta un valor para ρ muy grande,
entonces la solución óptima cumplirá preferentemente la meta de que x(T ) toma
un valor próximo a 10, dando poca importancia al coste necesario para alcanzar
esta meta. Por el contrario, si ρ es pequeño prácticamente lo único que se tiene
presente es el coste y nos encontramos con un problema análogo al discutido
anteriormente.
Para la resolución del problema se procede en este caso como anteriormente,
pero sin embargo en este caso se tiene un término de control terminal y el estado
final x(T ) no está dado. Se trata, por tanto, de un problema de control óptimo
con término de control terminal, estado final libre y tiempo final T determinado.
Las condiciones de contorno en T vienen dadas, en ese caso, por la expresión
(15.58), que, en este caso, conduce a
λ(T ) =
∂S
|T = ρ(x(T ) − 10)
∂x
(15.66)
Métodos Variacionales en Control Optimo
392
que es la nueva condición final. Esta expresión se puede escribir
x(T ) =
λ(T )
+ 10
ρ
(15.67)
que llevada a (15.38) y recordando que x(0) = 0 conduce a
x(T ) =
−20aρ
2a +
− e−2aT )
b2 ρ(1
(15.68)
llevando, a su vez, esta expresión de λ(T ) a la expresión (15.32) se tiene
λ∗ (t) =
−10aρeat
aeaT + ρb2 sinhaT
(15.69)
Por último, mediante la expresión (15.29) se tiene
u∗ (t) =
10abρeat
aeaT + ρb2 sinhaT
(15.70)
10ρb2 sinhat
aeaT + ρb2 sinhaT
(15.71)
La trayectoria óptima resulta ser
x∗ (t) =
Obsérvese que si ρ tiende a infinito la señal de mando (15.70) se convierte en la
(15.44) y el resto de las trayectorias tienden a ser las mismas que las determinadas
antes. En particular el estado final x∗ (T ) tiende a alcanzar exactamente el valor
10.
Tema 16
Principio del Mı́nimo de
Pontriagin
16.1
Introducción
Al aplicar los métodos variacionales (ecuación de Euler) a la resolución del problema del control óptimo, se pueden presentar los siguientes tipos de dificultades:
1. Los métodos variacionales suministran los máximos y mı́nimos relativos de
J(u) y no los absolutos;
2. Las ecuaciones de Euler son, normalmente, no lineales lo que frecuentemente
imposibilita la obtención de la solución de forma explı́cita;
3. Normalmente, los valores admisibles para las señales de control están acotados, lo que hace imposible la determinación de la señal de control óptimo
por métodos variacionales.
Al estudiar en el apartado anterior el problema del control óptimo, se ha considerado que los valores posibles tomados por la señal de entrada no estaban acotados.
Es decir, que U = IR. Este caso, obviamente, no es el más general, sino que debe
considerarse el caso en que la región de las señales de control admisibles esté
acotada; es decir, U esté acotada.
Esta última circunstancia, especialmente, tuvo una importancia decisiva para
el desarrollo de nuevas ideas en la teorı́a del control óptimo. Las limitaciones que
393
Principio del Mı́nimo de Pontriagin
394
se imponen normalmente a las señales de control son del tipo,
| ui |≤ Mi
Este tipo de limitaciones son perfectamente naturales en las aplicaciones. Ası́,
por ejemplo, los valores que alcanza una magnitud eléctrica, como la tensión o
la intensidad, en un determinado circuito, están, en la práctica, limitadas por
consideraciones de tipo fı́sico; lo mismo sucede en los equipos mecánicos con las
posiciones o las velocidades; y ası́ en cualquier sistema fı́sico. En general, una
forma de la evolución de una magnitud fı́sica, y en particular de una señal de
mando, en un proceso fı́sico real, toma la forma que muestra la figura 16.1.
t
Figura 16.1:
Según se verá más abajo, para obtener comportamientos óptimos con respecto
a determinados criterios se requiere que se mantengan las señales de control en
sus valores extremos. Esto sucede especialmente en los problemas de control en
tiempo mı́nimo.
En 1956, los matemáticos rusos Pontriagin, Boltianskii y Gamkrelidge estudiaron el problema de la optimización dinámica para el caso en que la región
de señales de control admisibles U estuviese acotada, y establecieron el famoso
principio del mı́nimo (en el trabajo original del máximo) al que se ha unido el
nombre del primero de estos tres autores.
El principio del mı́nimo de Pontriagin constituye una generalización de los
resultados alcanzados con ayuda del cálculo variacional para resolver el problema
del control óptimo. La diferencia esencial entre los resultados alcanzados con
ayuda del cálculo variacional y aquellos que se obtienen con ayuda del principio
del mı́nimo de Pontriagin, reside en que en este último caso se puede definir un
espacio de funciones admisibles U(t) para las señales de control u(t). Al mismo
tiempo las señales u(t) de control admisibles pueden presentar discontinuidades
Principio del Mı́nimo de Pontriagin
395
en un número finito de puntos; con ello se abre la posibilidad de estudiar el control
por conmutación, que tanto interés tiene en determinadas aplicaciones prácticas,
como se verá más adelante.
Recordando el problema del control óptimo, se tiene un sistema cuya evolución
viene dada por
ẋ = f (x, u)
(16.1)
siendo conocido x(0).
Las señales de control admisibles deben pertenecer a un conjunto cerrado U,
es decir,
u(t) ∈ U
(16.2)
El estado y el instante al final del proceso están definidos por un conjunto de
pares (x(T ), T ) ∈ B.
El criterio a optimizar es de la forma
J=
Z T
0
L(x, u)dt + S(x(T ), T )
(16.3)
Se define, además, la función hamiltoniana de acuerdo con la expresión siguiente
H(x, u, λ) = L(x, u) + λf (x, u)
(16.4)
El principio del mı́nimo de Pontriagin permite establecer las condiciones necesarias para que una señal de control admisible dé lugar a un control óptimo.
Sea u(t) una señal de control admisible y x(t) la trayectoria correspondiente, de
manera que x(t) esté definida por
ẋ = f (x, u)
(16.5)
x(0) = 0
(16.6)
Por otra parte, se definen las ecuaciones adjuntas o de coestado como sigue:
dλ
∂f
∂L
=− λ−
dt
∂x
∂x
(16.7)
Por último, recordando las expresiones (15.57) las condiciones finales dan lugar a
λ(T )∆xf − H(T )δT =
∂S
∂S
∆xf +
δT
∂x
∂t
(16.8)
Con todo los elementos anteriores se puede enunciar el principio del mı́nimo de
Pontriagin como sigue:
Teorema (Principio del mı́nimo de Pontriagin).
Principio del Mı́nimo de Pontriagin
396
Supuesto que existe un vector adjunto λ(t) tal que satisfaga las ecuaciones adjuntas (16.7) y las condiciones finales (16.8) para todo vector
(∆xf , δT ) tangente a B en el punto (x(T ), T ), entonces la condición
necesaria para la existencia de un mı́nimo es que en todo punto
t ∈ (0, T ) la función hamiltoniana H(x, u, λ) alcance su mı́nimo con
relación a u.
De acuerdo con el principio de Pontriagin la elección del control óptimo u∗ es muy
simple: en cada instante de tiempo, u debe seleccionarse de manera que garantice
el mı́nimo posible de la hamiltoniana H, teniendo en cuenta las restricciones
(limitaciones) impuestas sobre los valores admisibles de u.
La función hamiltoniana permite evaluar variaciones del criterio J debido a
variaciones admisibles e infinitesimales de la señal de control δu(t). La variación
del hamiltoniano H debida a una variación δu se denota por δH, y se escribe,
Ã
δH =
!
∂L
∂f
+λ
δu
∂u
∂u
(16.9)
Para la demostración del teorema del mı́nimo de Pontryagin interesa establecer
en primer lugar el siguiente lema:
Lema
Sea una trayectoria nominal (o de referencia) x(t) de un sistema
dinámico, generada por una señal de mando u(t).
La variación del criterio δJ debida a una variación admisible δu de
la señal de control óptimo u∗ (que determinará una variación de la
trayectoria δx) viene dada por
δJ =
Z T
0
δH(t)dt
(16.10)
en el supuesto de que se cumplan las ecuaciones adjuntas (16.7) y las
condiciones finales (16.8).
Demostración
Sea el sistema dinámico
ẋ = f (x, u)
Principio del Mı́nimo de Pontriagin
397
Debido a la variación de la señal de control δu se produce una variación de la
trayectoria δx que vendrá dada por la ecuación diferencial siguiente:
ẋ + δ ẋ = f (x + δx, u + δu)
es decir
∂f
∂f
δx +
δu
∂x
∂u
Por las razones que se pondrán de manifiesto más abajo interesa calcular la
variación con el tiempo de λδx. Se tiene
δ ẋ =
d(λδx)
dλ
d(δx)
=
δx + λ
dt
dt
dt !
Ã
Ã
!
∂L ∂f
∂f
∂f
= −
−
λ δx + λ
δx +
δu
∂x ∂x
∂x
∂u
∂L
∂f
= − δx + λ δu
∂x
∂u
Pasando al primer miembro el primer término del segundo miembro, y sumando
a ambos miembros ∂L
δu se tiene, recordando (16.9).
∂u
d(λδx) ∂L
∂L
∂f
∂L
+
δx +
δu = λ δu +
δu
dt
∂x
∂u
∂u!
à ∂u
∂L
∂f
+
δu
= λ
∂u ∂u
= δH
Obsérvese que en δH se indica la variación de H debida exclusivamente a la
variación de u, supuestos x y λ constantes. Integrando la anterior expresión
entre 0 y T , y recordando que δx(0) = 0 se tiene
λ(T )δx(T ) +
Z TÃ
∂L
0
!
Z T
∂L
δx +
δu dt =
δHdt
∂x
∂u
0
(16.11)
Por otra parte, de acuerdo con la figura 16.2, se puede aproximar el desplazamiento ∆xf entre la trayectoria nominal y la trayectoria perturbada con la siguiente expresión, (que es la misma que la (14.21))
δx(T ) = ∆xf − ẋ(T )δT
(16.12)
siendo (∆xf , δT ) tangente a B. Es decir,
λ(T )δx(T ) = λ(T )(∆xf − ẋ(T )δT )
(16.13)
Principio del Mı́nimo de Pontriagin
398
δx (T )
ẋ(Tf )δT
T
∆xf
T + δT
Figura 16.2:
Recordando las condiciones finales (16.8), se tiene, en el caso en que S = 0,
λ(T )∆xf = H(T )δT
(16.14)
Por lo que (16.13) se puede escribir
λ(T )δx(T ) = H(T )δT − λ(T )ẋ(T )δT
(16.15)
Por otra parte, se tiene que
H(T ) = λ(T )f (T ) + L(T )
(16.16)
λ(T )ẋ(T ) = H(T ) − L(T )
(16.17)
lo que se puede escribir
lo que llevado a la expresión (16.15) conduce a
λ(T )δx(T ) = L(T )δT
(16.18)
Por otra parte se sabe que
δJ =
Z TÃ
∂L
0
!
∂L
δx +
δu dt + L(T )δT
∂x
∂u
Z T +δT
T
Ldt ' L(T )δT
(16.19)
(16.20)
Teniendo en cuenta (16.18) la anterior expresión se reescribe:
δJ =
Z TÃ
∂L
0
!
∂L
δx +
δu dt + λ(T )δx(T )
∂x
∂u
(16.21)
Principio del Mı́nimo de Pontriagin
399
lo que según (16.11) conduce a:
δJ =
Z T
0
δHdt
(16.22)
con lo que queda demostrado el lema. 2
Recuérdese que la variación de H que se considera en la expresión (16.22) es
exclusivamente la debida a u. Es decir, la expresión (16.22) se puede escribir
δJ = J(u) − J(u∗ ) =
Z T
0
(H(x∗ , u, λ) − H(x∗ , u∗ , λ))dt
(16.23)
Aparentemente no hay nada de extraordinario en el anterior lema. De hecho,
la ecuación adjunta y las condiciones de tranversalidad prefiguran el resultado
alcanzado. Sin embargo es interesante resaltar el interes de la expresión (16.22),
ya que permite evaluar el efecto sobre δJ de una variación local de δu. Esta
interpretación conduce al teorema del mı́nimo de Pontriagin. Para enunciar ese
teorema se parte del hecho de que toda trayectoria óptima está caracterizada por
la condición
δJ ≥ 0,
∀δu(t)
(16.24)
que, de acuerdo con el lema, se convierte en que la condición necesaria para el
mı́nimo es
Z T
δH(t)dt ≥ 0
(16.25)
0
para toda variación infinitesimal admisible δu(t).
Considérese variaciones δu(t) tales que,
δu(t) = δu τ − ² < t < τ
= 0 resto
de manera que se cumpla:
•
u(t) + δu(t) ∈ U
• x(t) + δx(t) corta a B
La condición de mı́nimo de la expresión (16.25) se convierte en
δH(t) ≥ 0
(16.26)
Principio del Mı́nimo de Pontriagin
400
para todo 0 < t < T . En efecto, para demostrar la expresión (16.26) se procede
por contradicción. Supóngase que existe un valor de ū y uno del tiempo t1 tales
que
H(x∗ (t1 ), u∗ (t1 ), λ(t1 )) > H(x∗ (t1 ), ū, λ(t1 ))
(16.27)
es decir, que H(ū) en t1 es menor que H(u∗ ) óptima. Entonces es posible concebir
una señal ū(t) tal que coincide con u∗ (t) para todo valor de t excepto en un
pequeño entorno de t1 en el que toma el valor ū(t1 ) = ū (figura 16.3). Puesto que
ū
u∗
ε
0
t1
T
t1
T
δu
0
Figura 16.3:
H es continua con relación a x, y λ (en la medida en que lo son L y f ) se tendrá
que en un entorno de t1 se podrá determinar un valor de ²0 tal que
H(x∗ (t), u∗ (t), λ(t)) − H(x∗ (t), ū(t), λ(t)) < ²0
(16.28)
para todo t tal que t − t1 < ². De lo anterior se desprende
δJ = J(ū(t)) − J(u∗ (t))
=
Z T
0
(H(x∗ (t), ū(t), λ(t)) − H(x∗ (t), u∗ (t), λ(t)))dt < ²²0
Haciendo ² arbitrariamente pequeño se tiene
δJ < 0
(16.29)
Principio del Mı́nimo de Pontriagin
401
en contradicción con lo supuesto. Es decir, en el caso en que para un valor u y
un tiempo t1 se cumpla la expresión (16.27) puede suceder (16.29). Para que no
suceda (16.29) es necesario que (16.27) no suceda. Luego tiene que cumplirse,
como establece el teorema que se trataba de demostrar.
De hecho el principio del mı́nimo de Pontriagin no hace sino generalizar los
resultados alcanzados en el apartado anterior para el caso en que u∗ (t) se encuentre en los lı́mites de U , y no en el interior de esta región. Es decir, el principio
del mı́nimo de Pontriagin generaliza al caso en que u esté acotada el resultado
demostrado anteriormente según el cual la determinación de la señal de control
u∗ que minimiza al funcional J es equivalente a la determinación de la señal u∗
que minimice la función hamiltoniana H.
El interés del principio del mı́nimo, como el del cálculo variacional, reside
en que el problema inicial de minimizar un funcional J se transforma en una
infinidad (para cada valor de t ∈ (0, T )), de problemas de minimización de un
escalar H.
En el apartado anterior se ha visto que la determinación de u∗ (t) que minimice
a H se hacı́a resolviendo la ecuación algébrica
∂H
=0
∂u
Esta ecuación permite determinar el mı́nimo de H en el caso en que u∗ se encuentre en el interior de U , lo que siempre sucede en el caso de que u no esté acotada.
En el caso en que u esté acotada, la determinación del mı́nimo de H debe hacerse
por otro tipo de consideraciones, y no con ayuda de la ecuación anterior. La
demostración rigurosa de que u∗ debe elegirse de manera que minimice H es la
contribución básica de Pontriagin a la teorı́a del control óptimo.
Habida cuenta del principio del mı́nimo de Pontriagin, los cinco pasos enunciados en el apartado anterior para resolver el problema de la determinación de
la ley de control óptima mantienen su vigencia, excepto el segundo que toma la
forma siguiente:
- Determinar u∗ tal que
u∗ = arg. min.H
en donde ”arg. min.” debe leerse ”obtener el argumento u∗ que minimice H”.
Es decir, la hamiltoniana se minimiza en cada punto del tiempo a lo largo de
la trayectoria óptima por elección de los valores de u óptimos. Ası́, para cualquier
Principio del Mı́nimo de Pontriagin
402
valor de t ∈ [t0 , T ] sucede que o existe una solución interior en la cual
∂H
=0
∂n
como sucede en los casos considerados al estudiar el cálculo de variaciones, o se
tiene un asolución de contorno en la cual
∂H
≥0
∂n
en donde n es una normal dirigida hacia el exterior sobre el contorno de U. En
la figura 16.4 se representan graficamente estas dos posibilidades, para el caso en
que la dimensión de u sea 1.
H
H
Ho
Ho
uo
u
Ω
uo
u
Ω
Solucion interior
Solucion de contorno
Figura 16.4:
En la figura se considera la forma de H, en función de u, para un instante
genérico de tiempo t.
En el cuadro se resume el método modificado.
Principio del Mı́nimo de Pontriagin
Resumen de la aplicación del
Principio del mı́mimo de Pontriagin
a la determinación del
Control Optimo
Se da el sistema
ẋ = f (x, u)
Se da el criterio
J=
Se dan las restricciones
| u |≤ Mi
Paso 1
Se forma la Hamiltoniana
H(x, u, λ) = L(x, u) + λf (x, u)
Paso 2
Se determina u∗ (x, λ) admisible tal que
minimice H(x, u, λ) con respecto a u
Paso 3
Se determina la Hamiltoniana mı́nima
H ∗ (x, λ) = H(x, u∗ (x, λ), λ)
Paso 4
Se resuelve el sistema de 2n ecuaciones
∂H ∗
ẋ =
∂λ ∗
∂H
λ̇ = −
∂x
con las condiciones de contorno correspondientes.
Se obtiene x∗ (t) y λ∗ (t).
Paso 5
Se determina u∗ (t) = u∗ (x∗ (t), λ∗ (t))
RT
0
L(x, u)dt
403
Principio del Mı́nimo de Pontriagin
404
Debe notarse que el principio del mı́nimo representa exclusivamente una condición
necesaria, es decir, que una vez obtenido el valor debe comprobarse que efectivamente corresponde a un mı́nimo.
En algunos libros, y especialmente en el original de Pontriagin, el principio del
mı́nimo se denomina del máximo. En último extremo ello no es sino un problema
de signos en la hamiltoniana que debe ser optimizada.
Ejemplo 1
Se trata de trazar una curva x(t), 0 ≤ t ≤ T , que se inicie en x(0) = 0, cuya
pendiente en cada punto no sea mayor que 1 y que maximice el valor de x(t) en
t = T.
El problema puede formularse representando la curva mediante el sistema
dinámico:
ẋ = u(t)
Este curva debe ser tal que x(0) = 0, y además se pide que u(t) ≤ 1. Puesto que
se pretende maximizar x(T ) el criterio será:
J = x(T )
Se trata, por tanto, de un problema de control óptimo con un término de control
terminal tal que S(x(T ), T ) = x(T ). Aplicando el método que se acaba de presentar, se tendrá que en este caso L(x, u) = 0 y f (x, u) = u por lo que la función
hamiltoniana será:
H = λu
Conviene notar que en la función hamiltoniana no aparece el término relativo al
control terminal (al estado final). De la expresión de H se desprende que para
λ < 0 el valor óptimo de u es −∞ y para λ > 0 es u = 1.
Las ecuaciones de Hamilton resultan ser:
∂H ∗
=u
∂λ
∂H ∗
−λ̇ =
=0
∂x
ẋ =
Integrando (16.31) se tiene
λ(t) = k
(16.30)
(16.31)
Principio del Mı́nimo de Pontriagin
405
x(t)
x1 (t)
T
Figura 16.5: Problema de la curva óptima con crecimiento acotado.
siendo k una constante. Por otra parte la condición de contorno, puesto que
se trata de un problema con estado final libre y tiempo final T determinado,
resulta ser, recordando (15.58), λ(T ) = 1. Por tanto k = 1, y λ(t) = 1 > 0.
En consecuencia, la señal de control óptima será u = 1. Llevando este valor a
(16.30), y recordando que x(0) = 0, se tiene que la curva óptima será
x(t) = t
Este resultado, que se muestra en la figura 16.5, tiene un contenido muy intuitivo.
Ejemplo 2: Control óptimo de un sistema lineal
Sea el sistema
ẋ = −2x + u
con el ı́ndice
Z T
0
x2 dt
y con la restriccion | u |≤ 1. Se forma la hamiltoniana,
H = x2 + λ(u − 2x)
Para optimizar la hamiltoniana se observa que la dependencia de esta función de
u se limita al término λu. Por tanto, teniendo presentes las restricciones sobre u,
es claro el valor óptimo de u será u = +1 si λ < 0 y u = −1 si λ > 0 Ver figura
16.6).
Principio del Mı́nimo de Pontriagin
406
H
λ>0
+1
−1
λ<0
u
H
+1
u
−1
Figura 16.6:
Si se emplea la función ‘sgn (se lee ‘signo) se escribe,
u∗ = −sgn (λ)
La hamiltoniana óptima será
H = x2 − λsgn (λ) − 2xλ
La ecuacion adjunta es:
λ̇ = −2x + 2λ
El conjunto se puede mecanizar interpretar mediante un diagrama como el de la
figura 16.7.
Obsérvese que puesto que S = 0, la condición de contorno es λ(T ) = 0.
Ejemplo 3: Control óptimo de un sistema de dimensión dos
Sea el sistema (planta) con ecuaciones de estado
x˙1 = x2
x˙2 = −x1 + u
Se trata de minimizar el criterio de funcionamiento
1Z T 2
(x1 + u2 )dt
J=
2 0
Principio del Mı́nimo de Pontriagin
λ
407
x
-1
2
-2
-2
Figura 16.7: Diagrama de bloques.
Con señales de control admisibles tales que
| u(t) |≤ 1 ∀t ∈ [0, T ]
Para resolver el problema se procede de acuerdo con los pasos indicados anteriormente.
1. Se forma la hamiltoniana
1
1
H = x21 + u2 + λ1 x2 + λ2 (u − x1 )
2
2
2. Se minimiza H con relación a todos los valores de u admisibles, para determinar u∗ = u∗ (x, λ, t). En este caso se separan los términos en u de
H
1 2
u + λ2 u
2
Si la señal de control no está saturada, el mı́nimo se obtiene haciendo
∂H
=0
∂u
lo que da
u∗ = −λ2
Por tanto, si | λ2 (t) |< 1 entonces se adopta u∗ = −λ2 ya que con ello se
está en la zona no saturada de u). Si | λ2 (t) |> 1 entonces, segun se ha
visto en el ejemplo anterior, el valor que minimiza H será
u∗ = −sgn (λ2 )
Principio del Mı́nimo de Pontriagin
408
u∗ (t)
λ∗2 (t)
Figura 16.8: Representación de u∗
Por tanto u∗ tiene la forma que se indica en la figura 16.8.
Para determinar λ2 (t) se resuelven las ecuaciones
x˙1
x˙2
λ˙1
λ˙2
=
=
=
=
x2
−x2 − λ2
−x1
−λ1
con las condiciones de contorno que correspondan.
16.2
Control óptimo por conmutación
16.2.1
Control en tiempo mı́nimo de un sistema de segundo orden
Supóngase un móvil sin rozamiento, cuyo movimiento está controlado por una
fuerza u que está acotada (|u| < 1). La ecuación dinámica del movimiento es
d2 y
=u
dt2
que admite la representación por variables de estado:
x˙1 = x2
x˙2 = u
y = x1
Principio del Mı́nimo de Pontriagin
409
El control en tiempo mı́nimo consiste en determinar en cada instante t, la fuerza
que hay que aplicar u(t) de manera que evolucione desde un estado inicial (x1 , x2 )
al origen (0, 0), en un tiempo mı́nimo.
El ı́ndice de funcionamiento vendrá dado por
J=
Z T
0
dt = T
(16.32)
por lo tanto, se tiene que,
L(x, u) = 1
(16.33)
En primer lugar se procede a formar la hamiltoniana
H = 1 + λ1 x2 + λ2 u
Es claro que H alcanzará el valor mı́nimo
• si λ2 < 0 haciendo u = +1
• si λ2 > 0 haciendo u = −1
es decir,
u∗ (t) = −sgn (λ2 (t))
por lo que la hamiltoniana minimizada resultará ser
H ∗ = 1 + λ1 x2 − λ2 sgn (λ2 )
Las ecuaciones adjuntas resultan ser en este caso
∗
∂H
λ˙1 = −
=0
∂x1
∂H ∗
λ˙2 = −
= −λ1
∂x2
cuya integración conduce a
λ1 = k1
λ2 = −k1 t + k2
Se observa que λ2 es monótona (creciente o decreciente, según los signos de k1 y
k2 ), por lo que cambiará de signo, a lo sumo, una sola vez. Por lo tanto u, o bien
tomará solo uno de los valores +1 o −1 hasta alcanzar el origen, o cambiará una
sola vez de valor antes de alcanzarlo.
Principio del Mı́nimo de Pontriagin
410
En cualquir caso, las únicas señales que se aplicarán al sistema serán + 1 ó 1. Por lo tanto interesa estudiar cómo evoluciona el sistema cuando u = +1, y
cuando u = −1.
Para u = +1 se tiene,
x2 = t + c 1
t2
x1 =
+ c1 t + c2
2
es decir,
x22 = 2x1 + c3
siendo c3 = c21 − 2c2 . La anterior expresión puede representarse gráficamente
como se hace en la figura 16.9a.
x2
t
0
x1
a)
A
B
u = +1
x2
t
0
x1
u = −1
b)
Figura 16.9:
La única trayectoria que pasa por el origen es AO, luego será por esta trayectoria por la que deberá alcanzarse el origen.
Para u = −1 se demuestra analogamente que las trayectorias vienen dadas
Principio del Mı́nimo de Pontriagin
411
por
x2 = −2x1 + c4
lo que se representa graficamente en la figura 16.9b. Las mismas consideraciones
hechas anteriormente para la trayectoria AO valen aquı́ para la trayectoria BO.
Los resultados anteriores pueden resumirse en la figura 16.10.
x2
u = −1
B
0
x1
A
u = +1
Figura 16.10:
Del exámen de esta figura se desprende que,
1. Si el estado inicial se encuentra sobre AO(BO) se aplica u = +1(u = −1)
y no se produce ninguna conmutación.
2. Si el estado inicial se encuentra por debajo (por encima) de BOA se aplica
u = +1(u = −1) hasta que el estado, recorriendo la parábola correspondiente, alcance la lı́nea BO(AO) en cuyo caso se conmutará la señal de
mando haciendo u = −1(u = +1).
De acuerdo con lo anterior la curva de conmutación vendrá dada por
1
x 1 = − x2 | x2 |
2
de manera que la ley de control será,
u∗ = sgn (²)
Principio del Mı́nimo de Pontriagin
siendo,
412
1
² = −x1 − x2 | x2 |
2
Esta ley de control puede realizarse practicamente con un esquema como el
de la figura 16.11.
yr = 0 +
ε
+1
u0
1
s
-1
-
+
+
1
s
x1
k
| x2 |
1
2
x2
x
x2
+1
Figura 16.11: Ley de control
Debe observarse que, en cierta manera, lo que se ha hecho ha sido determinar
una ley de control, puesto que la señal de mando que se aplica en cada instante,
a partir de las consideraciones anteriores, depende únicamente del estado del
sistema.
16.2.2
Ejemplo 4: Problema del alunizaje suave
Determinar la ley de control óptima que transfiera al módulo lunar (figura 16.12)
desde una posición inicial (z(0), ż(0), M (0)) a la posición final (0, 0, M (T )) con
un consumo mı́nimo de combustible. La señal de control u está acotada por
0 < u < Q.
Solución
Haciendo x1 = z, x2 = ż, las ecuaciones dinámicas del sistema se transforman
en
x˙1 = x2
(16.34)
Principio del Mı́nimo de Pontriagin
413
ku
Mg
z
Figura 16.12: ”Aterrizaje lunar”
ku
M
x˙2 = −g +
(16.35)
Observese que M depende del tiempo, de modo que
M (t) = M (0) −
Se supone que
Z t
0
udt
∆M
M (T ) − M (0)
=
M
M (0)
es muy pequeña, de modo que la expresión (16.35) puede considerarse correcta
en primera aproximación. El criterio a minimizar es
J=
Z T
0
udt
por lo que
Ã
H = u + λ1 x2 + λ2
es decir
Ã
ku
−g +
M
!
kλ2
H = λ1 x2 − λ2 g + u 1 +
R
M (0) − 0t udt
!
Minimizando H respecto a u se observa que el control viene dado por
Ã
• u = 0 si
kλ2
1+
R
M (0) − 0t udt
!
>0
Principio del Mı́nimo de Pontriagin
Ã
• u = Q si
414
kλ2
1+
R
M (0) − 0t udt
!
<0
Las ecuaciones adjuntas son
∂H
= 0 ⇒ λ1 = k1
λ˙1 = −
∂x1
∂H
λ˙2 = −
= −λ1 ⇒ λ2 = −k1 t + k2
∂x2
El que λ2 crezca (o decrezca) linealmente con el tiempo implica que el signo de
Ã
kλ2
1+
R
M (0) − 0t udt
!
cambie una vez como máximo, y por lo tanto u sólo toma los valores 0 y Q una
sola vez en la trayectoria óptima.
Cuando u = 0 (caida libre del modelo), las ecuaciones dinámicas toman la
forma:
x˙1 = x2
x˙2 = −g
de donde se tiene
x2 = −gt + x2 (0) = −gt + ż(0)
(16.36)
y
t2
+ z(0) + ż(0)t
2
De la ecuación (16.36) despejamos el tiempo
x1 = −g
t=
(16.37)
ż(0) − x2
g
y lo sustituimos en la ecuación (16.37)
x1 = z(0) +
ż 2 (0) x22
−
2g
2g
es decir,
x22 = ż 2 (0) + 2g(z(0) − x1 )
esta expresión da la familia de trayectorias en el plano de estado, en función de
las condiciones iniciales z(0), ż(0).
Principio del Mı́nimo de Pontriagin
415
x2
z(0)
x1
ż(0)
u=0
Figura 16.13:
En la figura 16.13 se representan las trayectorias correspondientes
Cuando u = Q
ẋ1 = x2
ẋ2 = −g +
kQ
kQ
=
−g
Rt
M (0) − Qt
M (0) − 0 udt
Integrando la segunda de las anteriores expresiones se tiene
x2 − ż(0) = −k (ln(M (0) − Qt) − ln M (0)) − gt
lo que llevado a la primera
x˙1 = x2 = ż(0) − k ln(M (0) − Qt) + k ln M (0) − gt
es decir
Ã
!
Ã
!
M (0)
Qt
Qt
t2
1−
ln 1 −
− g + k ln M (0)t
x1 − z(0) = ż(0)t + k
Q
M (0)
M (0)
2
En el último paso se ha tenido en cuenta que
Z
ln xdx = x ln x − x
Las trayectorias en el plano de fase corresponden a curvas de la forma que se
indica en la figura 16.14.
La única trayectoria que pasa por el origen es la AB, y es por lo tanto la curva
de conmutación, como la señal u solo cambiaba de valor una vez en la trayectoria
Principio del Mı́nimo de Pontriagin
ż(0)
416
z(0)
B
x1
CHOQUE
A
u=Q
x2
Figura 16.14:
óptima, cualquier trayectoria del móvil corresponderá a una caida libre si se
encuentra por encima de la trayectoria AB. Las ecuaciones paramétricas de la
trayectoria AB corresponden a
Ã
g
kM (0)
Qτ
z = − τ 2 − kτ =
ln 1 −
2
Q
M (0)
Ã
!
Qτ
ż = gτ + k ln 1 −
M (0)
!
x2
u=Q
Zo
d
na
k=0
ho
ec
Choque
con
velocidad
x1
Zona de caida libre
qu
e
Linea de
conmutacion
Figura 16.15:
En la figura 16.15 se representa la evolución conjunta de las representadas en
las figuras 16.13 y 16.14.
Tema 17
Principio de optimalidad de
Bellman
17.1
Introducción
Dado un criterio de optimalidad, las N señales de mando o decisiones que conducen el sistema del estado A al B, de acuerdo con este criterio, y a través de
N pasos sucesivos, son tales que cualquiera que sea el estado C resultado de
aplicación de la primera de ellas, las N − 1 señales restantes dan lugar a una
trayectoria óptima de C a B.
Al cumplirse lo anterior para el primer paso es evidente que se cumple para
cualquier paso intermedio.
Gráficamente se interpreta en la figura 17.1, diciendo que si la trayectoria
AB es óptima, lo mismo lo es la CB. Es decir una trayectoria óptima tiene
la propiedad de que cualesquiera que sean el estado inicial y la primera acción
tomada sobre el sistema, las restantes acciones deben constituir una trayectoria
óptima a partir del estado resultante de la primera acción.
Obsérvese que se exige que B sea siempre el estado final. Es decir, que un
tramo de la trayectoria AB, que no acabe en B, no puede considerarse óptimo.
417
Principio de optimalidad de Bellman
418
B
C
A
Figura 17.1: Principio de optimalidad: si la trayectoria AB es óóptima, también
lo es la CB.
Ejemplo
Se trata de determinar la trayectoria óptima de A a P , en 6 etapas. Los tramos
de cada porción de la primera trayectoria están penalizados con un costo que se
representa en la figura 17.2 con un número sobre el correspondiente tramo. El
criterio de optimalidad es el minimizar el costo total del recorrido.
Se considera en primer lugar la quinta y la sexta etapa (figura 17.3). En cada
uno de los nudos se escribe un número rodeado por un circulo que representa
el coste mı́nimo del recorrido desde dicho nudo a P , supuesto por la trayectoria
óptima.
Es evidente que desde N y O, al no haber opción el correspondiente número
será el costo de la trayectoria. Lo mismo sucederá desde K y M , desde los que
las únicas trayectorias posibles son KN P y M OP , de costos 8 y 9 respectivamente. Sin embargo desde L dos trayectorias son posibles, la IN P y la LOP de
costos 7 y 8 respectivamente. Por lo tanto la óptima será la LN P y se encerrará
un 7 en el circulo correspondiente. Obsérvese que a lo largo de la trayectoria
óptima la diferencia entre los números encirclados es igual al costo del tramo
correspondiente. De la misma manera se puede estudiar la 4 etapa (figura 17.4).
Debe notarse que en este paso ya se obtiene un notable beneficio de los cálculos
anteriores y que al, por ejemplo, calcular la trayectoria óptima desde H, se tiene
en cuenta las trayectorias óptimas desde K y desde L, y no se tiene que volver a
calcular todo el trayecto. De hecho lo que se hace es decidir entre HK y HL de
Principio de optimalidad de Bellman
419
G
6
4
D
K
6
9
3
4
N
H
B
2
2
1
A
7
2
8
E
5
L
3
P
7
3
5
I
C
4
3
O
1
5
6
M
F
5
9
J
1
2
3
4
5
6
Figura 17.2: Retı́culo de trayectos posibles entre A y P .
8
K
7
5
N
P
L
9
3
O
M
Figura 17.3: Las dos últimas etapas para llegar a P .
7
Principio de optimalidad de Bellman
420
14
G
12
H
8
K
7
5
N
P
14
I
18
L
9
3
O
M
J
Figura 17.4: Las tres últimas etapas para llegar a P .
Principio de optimalidad de Bellman
421
manera que la suma del costo correspondiente al nuevo tramo y el costo óptimo
a K o a L (número encirclado), sea mı́nimo.
Procediendo de esta manera se llega a cubrir todo el diagrama con los costos
mı́nimos desde los correspondientes nudos. De la figura 17.5 y de los anteriormente expuestos, se deduce que la trayectoria óptima es la ABEHKN P .
14
G
18
16
17
B
D
12
H
14
8
K
7
5
N
P
A
17
C
E
14
I
15
F
18
L
9
3
O
M
J
Figura 17.5: Trayectoria óptima de A a P .
17.1.1
Ejemplo de un sistema binario en tiempo discreto
Sea un sistema que admite una entrada u(k) que toma únicamente los valores 0
y −1, para todo k discreto. La ecuación que gobierna la evolución del mismo es
la siguiente:
x(k + 1) = x(k) + u(k)
(17.1)
Se trata de encontrar la secuencia u(k), k = 0, 1, 2, 3 que transfiera el estado del
sistema de x(0) = 2 a x(4) = 0 de manera que se minimice la función de costo
J=
3
X
| 5x(k) − 3 |
(17.2)
t=0
Para una mejor comprensión del método se empleará un diagrama sobre un plano
x − y, en donde en el eje y se representa el estado del sistema (17.1) y en el eje
x el ı́ndice k (figura 17.6).
En dicho diagrama se tienen unos circulos correspondientes a los distintos
pares (x, k) y unas flechas que los unen. Estas últimas llevan asociados números
que representan el costo de la transición de un punto a otro, y se calculan según
(17.2). Este costo depende exclusivamente del estado previo.
Principio de optimalidad de Bellman
7
A
2
13
7
11
9
7
7
x(t)
422
7
2
2
6
1
4
2
2
2
2
6
3
3
3
0
B
t
0
1
2
3
4
Figura 17.6: Trayectorias posibles desde A hasta B.
En cuando a los circulos, tienen también números cuya generación se va a ver
a continuación. Estos números representan Ji∗ (x).
En primer lugar, considérese k = 3, y J1∗ . Para los dos valores posibles de x,
x = 0 y x = 1 que conducen a B, los valores de J1∗ correspondientes son:
J1∗ (0) = 3
J1∗ (1) = 2
Puesto que no hay diferentes rutas desde los dos puntos no se requiere minimización.
Sea ahora k = 2. Los puntos en los que se puede iniciar el proceso son en este
caso x = 0, 1, 2. Para x = 0, 2 no existe problemas de adopción de ruta pero para
x = 1 si es posible aplicar u = 0 ó u = −1.
En tal caso se tiene,
J2∗ (1, 2) = min[2 + J1∗ ] = 4
u
De la misma forma se procede para t=1, resultando
J3∗ (0) = 9
J3∗ (1) = 6
J3∗ (2) = 11
y asimismo para k = 0, siendo en ese caso
J4∗ (2) = 13
(17.3)
(17.4)
(17.5)
Principio de optimalidad de Bellman
423
Una vez realizados los cálculos anteriores la determinación de la trayectoria
óptima es ya un problema trivial. Los distintos tramos de la misma estarán
∗
formados de acuerdo con la regla Ji∗ (x1 ) − Ji−1
(x2 ) = costo de la transición de x1
a x2 .
De acuerdo con este criterio, cuya interpretación es obvia, se obtiene la trayectoria de trazo fuerte de la figura 17.7.
7
A
2
7
13
11
9
7
7
x(t)
7
2
2
6
1
4
2
2
2
2
6
3
3
3
0
B
t
0
1
2
3
4
Figura 17.7: Trayectoria óptima entre A y B, en trazo grueso.
17.1.2
Programación dinámica en tiempo discreto y Principio de Optimalidad
El ejemplo anterior admite la siguiente generalización. Sea un sistema dinámico
en tiempo discreto
x(k + 1) = f (x(k), u(k), k) (x(T ), T ) ∈ B
cuyo funcionamiento se pretende que optimece el criterio
J=
TX
−1
L(x(k), u(k), k) + S(x(T ), T )
(17.6)
t0
En lugar de considerar el problema correspondiente con un estado e instante
inicial dados (x(t0 ), t0 ), vamos a considerar el problema más general con un estado
y condiciones iniciales (x, t) arbitrarias. Para cada uno de estos problemas se
define la función
V (x, t) = min J
Es decir, para cada (x, t) la función V (x, t) nos da el coste óptimo, desde
ese estado y tiempo. Si recordamos los dos ejemplos anteriores veremos que la
Principio de optimalidad de Bellman
424
función V (x, t) toma, en esos problemas, el valor que se representa en las figuras
17.5 y 17.6 en el interior de un pequeño cı́rculo.
Para la aplicación de la programación dinámica, conviene observar, en primer
lugar, que el criterio (17.6) es aditivo. Debido precisamente a este carácter aditivo
y aplicando el principio de optimalidad de Bellman se tiene que
V (x, t) =
min
u(t),u(t+1),...

"T −1
X
#
L(x(k), u(k), k) + S(x(T ), T )
t

= min L(x(t), u(t), t) +
u(t)
min
u(t+1),u(t+2),...
TX
−1


L(x(k), u(k), k) + S(x(T ), T )
t+1
es decir, el valor de V es el mı́nimo de la suma del primer paso que se toma desde
(x, t) más el valor óptimo desde el resultado de ese primer paso. Recuérdese como
se calculaban los números encirclados en los dos ejemplos anteriores. La anterior
expresión se puede escribir
V (x, t) = min [L(x(t), u(t), t) + V (f (x, u, t), t + 1)]
u∈U
Las condiciones en los lı́mites correspondientes al problema son
V (x, T ) = S(x(T ), T )
además, la ley de control óptima se determina en cada etapa mediante la expresión
u(x, t) = arg min [L(x(t), u(t), t) + V (f (x, u, t), t + 1)]
u∈U
Conviene resaltar que este método nos ha conducido de manera natural a que
la solución toma la forma de una ley de control, y no de una señal de control
como sucedı́a en la solución del control óptimo mediante métodos variacionales.
17.2
Programación dinámica y ecuación de Hamilton-Jacobi-Bellman
Para sistemas en tiempo discreto, el principio de optimalidad de Bellman da lugar,
de una forma muy sencilla, a recurrencias que permiten determinar la secuencia
óptima de señales de control, como hemos visto en los ejemplos anteriores. Para
sistemas en tiempo contı́nuo, el anterior principio puede aplicarse también. Con el
Principio de optimalidad de Bellman
425
fin de precisar la aplicación del principio de optimalidad de Bellman a sistemas en
tiempo continuo supóngase el problema de control óptimo definido por el sistema
dinámico:
ẋ = f (x, u)
(17.7)
y el criterio de funcionamiento:
J(x, u) =
Z T
0
L(x, u)dt + S(x(T ), T )
(17.8)
siendo
u ∈ U (x(T ), T ) ∈ B
(17.9)
Para sistemas en tiempo continuo el principio de optimalidad de Bellman
puede enunciarse de la forma siguiente:
Si u∗ (τ ) es óptimo en el intervalo [t, T ], partiendo del estado x(t),
entonces u∗ (τ ) es necesariamente óptimo en el subintervalo [t + ∆t, T ]
para cualquier ∆t tal que T − t ≥ ∆t > 0.
Graficamente puede interpretarse mediante la figura 17.8, en que se representa
la trayectoria óptima que une el estado inicial (x, t) con el estado final (x(T ),T )
por medio de la curva AB.
x
x(T )
B
(x, t)
A
t
C
t + ∆t
T
Figura 17.8: Trayectoria óptima contı́nua de A a B.
Si inicialmente el sistema se encuentra en (x, t), al cabo de ∆t unidades de
tiempo, el sistema se encontrará en el punto C. Según el principio de optimalidad
de Bellman, si AB es una trayectoria óptima, entonces CB será a su vez otra
trayectoria óptima.
Principio de optimalidad de Bellman
426
Demostración
Se procede por contradicción. Supóngase que existe un u∗∗ tal que dé un valor
menor para
Z
T
t+∆t
L(x, u, τ )dτ + S(x(T ))
que el que daba u∗ en el subintervalo [t + ∆t, T ]. Considérese una nueva señal de
control u(τ ) dada por
(
u(τ ) =
u∗ (τ ),
u∗∗ (τ ),
para
para
t ≤ τ ≤ t + ∆t
t + ∆t ≤ τ ≤ T
(17.10)
Entonces en el intervalo [t, T ] se tendrá
Z t+∆t
t
<
L(x∗ , u∗ , τ )dτ +
Z t+∆t
t
Z T
t+∆t
Z T
L(x∗ , u∗ , τ )dτ +
L(x∗∗ , u∗∗ , τ )dτ + S(x∗∗ (T ))
t+∆t
L(x∗ , u∗ , τ )dτ + S(x∗ (T ))
(17.11)
Pero se ha partido del supuesto de que u∗ es óptimo en el intervalo [t, T ], y
(17.11) implica que u dado por (17.10) da lugar a un valor para J menor que el
óptimo. Lo que está en contradicción con el supuesto del que se habı́a partido.
Conviene observar que en las expresiones anteriores x∗ denota la trayectoria
del estado correspondiente a la señal de control u∗ , x∗∗ la correspondiente a u∗∗ y
x∗ = x∗∗ para τ = t + ∆t, puesto que u y u∗ son las mismas en el intervalo [t, T ].
La idea fundamental de la programación dinámica consiste en separar la operación de minimización en dos niveles, separación que es lı́cita por las dos razones
siguientes:
• el criterio J es aditivo con relación a la trayectoria,
• el comportamiento dinámico está representado por una ecuación diferencial
de primer orden.
Con el fin de aplicar el principio de optimalidad de Bellman conviene definir
la función:
V (x, t) = J ∗ (x, t)
Principio de optimalidad de Bellman
427
siendo J ∗ (x, t) el valor de la funcional J cuando se recorre la trayectoria óptima
desde el estado (x, t). Por tanto:
∗
V (x, t) = J (x, t) = umin
[t,T ]
"Z
T
t
#
L(x(τ ), u(τ )) dτ + S(x(T ), T )
con:
u[t,T ] = {u(τ )|t ≤ τ < T }
es decir, u[t,T ] es el conjunto de todas las acciones de control posibles en el intervalo
[t, T ].
Recordando la figura 17.8, tenemos que si el valor del funcional J para la
trayectoria óptima que se inicia en (x, t) se representa por V (x, t), entonces el
valor de J para la trayectoria CB, vendrá dado por V (x + ∆x, t + ∆t). Es decir,
V (x + ∆x, t + ∆t) es el coste mı́nimo del proceso para el intervalo (t + ∆t, T ).
Además, por el principio de la optimalidad sabemos que si la trayectoria AB es
óptima, también lo será la trayectoria CB. Todo ello permite escribir
"Z
V (x, t) = min
u[t,T ]
t+∆t
"Z
L(x(τ ), u(τ ))dt + min
u[t+∆t,T ]
t
T
t+∆t
##
L(x, u, t)dt + S(x(T ), T )
(17.12)
es decir,
"Z
V (x(t), t) = min
u[t,T ]
t+∆t
t
#
L(x(τ ), u(τ ))dτ + V (x(t + ∆t), t + ∆t)
(17.13)
En esta última expresión se ha tenido en cuenta el que el valor mı́nimo V a
partir del estado x(t+∆t) en el tiempo t+∆t viene dado por V (x(t+∆t), t+∆t).
Conviene observar que empleando el principio de optimalidad, el problema a determinar el control óptimo sobre el intervalo [t, T ] se ha reducido al de determinar
el control óptimo sobre el intervalo reducido [t, t + ∆t].
Aplicando el teorema de la media al primer miembro del segundo término de
(17.13), se tendrá
Z t+∆t
t
Ldt ' L∆t
(17.14)
es decir,
V (x, t) = min[L∆t + V (x + ∆x, t + ∆t)]
u(τ )
(17.15)
siendo u(τ ) la señal óptima en el intervalo t ≤ τ ≤ t + ∆t. Desarrollando en serie
V (x + ∆x, t + ∆t) en torno a (x, t) (en el supuesto de que tanto V como f sean
Principio de optimalidad de Bellman
428
suficientemente diferenciables ) se tendrá,
V (x + ∆x, t + ∆t) = V (x, t) +
∂V
∂V
∆x +
∆t + ...
∂x
∂t
(17.16)
∂V
∂V
en donde
representa el vector gradiente de V con relación a x, y
representa
∂x
∂t
la derivada parcial de V con relación a t.
Llevando (17.16) a (17.15), y despreciando variaciones de orden superior, se
tiene
"
#
∂V
∂V
V (x, t) = min L∆t + V (x, t) +
∆x +
∆t
(17.17)
u(τ )
∂x
∂t
∂V
∆t no están afectados por la minimización (puesto que
∂t
no dependen de u(τ )) por lo que la expresión anterior se puede escribir:
Los términos V (x, t) y
"
#
∂V
∂V
min L∆t +
∆x +
∆t = 0
u(τ )
∂x
∂t
(17.18)
Dividiendo por ∆t, haciendo ∆t → 0 se tiene:
#
"
∂V
∂V
ẋ +
=0
min L(x, u, t) +
u(t)
∂x
∂t
(17.19)
Esta ecuación se conoce bajo el nombre de ecuación de Hamilton-JacobiBellman.
Para resolver la ecuación de optimización (17.19) se procede en dos pasos. En
el primero se realiza la minimización indicada. Ello conduce a
"
#
∂V (x, t)
u(x, t) = arg min L(x, u, t) +
f (x, u, t)
u(x,t)
∂x
(17.20)
Es decir a una ley de control de la forma
Ã
∂V
, x, t
u =φ
∂x
!
∗
(17.21)
El segundo consiste en sustituir (17.21) en (17.19) y resolver la ecuación no
lineal en derivadas parciales
L(x, φ, t) +
∂V
∂V
f (x, φ, t) +
=0
∂x
∂t
(17.22)
Principio de optimalidad de Bellman
429
con las condiciones de contorno
V (x, T ) = S(x(T ), T )
(17.23)
sobre B.
Observando la expresión (17.22) y recordando la definición hamiltoniana parece
apropiado escribir
H(x, φ, t) = L(x, φ, t) +
∂V
f (x, φ, t)
∂x
(17.24)
con lo que la expresión (17.22) puede escribirse
H(x, φ, t) +
∂V
=0
∂t
(17.25)
En general no es posible resolver analı́ticamente esta ecuación en derivadas
parciales. Sin embargo, en la sección siguiente se presentará un caso general para
el que si tiene solución. En el caso de que sea posible esta solución y se determine
V , entonces se calcula el gradiente de V con respecto a x y se tiene la ley de
control óptima por realimentación del estado
Ã
!
∂V
u =φ
, x, t = k(x, t)
∂x
∗
(17.26)
Debe observarse que la resolución de la ecuación de Hamilton-Jacobi-Bellman es
sólo una condición necesaria para la optimización.
Con vistas a las aplicaciones el método anteriormente expuesto se puede sintetizar en los siguientes cinco pasos:
1. Formar la hamiltoniana, sustituyendo λ por
Ã
∂V
H x, u,
∂x
Ã
∂V
.
∂x
!
=L+
∂V
f
∂x
(17.27)
!
∂V
, t con relación a u ∈ U para obtener
2. Minimizar H x, u,
∂x
Ã
∗
u =u
∗
∂V
x,
∂x
!
(17.28)
Principio de optimalidad de Bellman
430
3. Determinar la hamiltoniana minimizada
Ã
H
∗
∂V
x,
∂x
!
Ã
∂V
= H x, u ,
∂x
∗
!
(17.29)
4. Resolver la ecuación de Hamilton-Jacobi-Bellman que, con la introducción
de la hamiltoniana minimizada, queda convertida en,
Ã
H
∗
∂V
x,
∂x
!
+
∂V
=0
∂t
(17.30)
Esta ecuación en derivadas parciales recibe la denominación de ecuación de
Hamilton-Jacobi. Esta ecuación admite las condiciones de contorno dada
por la expresión (17.23).
5. Llevar los resultados de 4 a 2 para obtener la ley de control óptima. Es
decir, una vez se ha determinado V (x, t) se puede determinar su gradiente
∂V
y llevarlo a la ecuación (17.28) para obtener la ley de control óptima
∂x
u∗ (x, t).
Estos pasos se resumen en el cuadro siguiente:
Resumen de la aplicación del metodo de Hamilton-Jacobi-Bellman
a la determinación del Control Optimo
Principio de optimalidad de Bellman
431
Se da el sistema
ẋ = f (x, u)
Se da el criterio
J=
Paso 1
Se Ãforma la Hamiltoniana
!
∂V
∂V
, t = L(x, u) +
f (x, u)
H x, u,
∂x
∂x
RT
0
L(x, u)dt + S(x(T ), T )
Ã
Paso 2
∗
Se determina u = u
Ã
minimice H x, u,
∗
!
∂V
x,
, t admisible tal que
! ∂x
∂V
, t con respecto a u ∈ U
∂x
Paso 3
Se determina
mı́nima
Ã
!la Hamiltoniana
Ã
!
∂V
∗
∗ ∂V
H x,
, t = H x, u ,
,t
∂x
∂x
Paso 4
Se resuelve
el!sistema de ecuaciones en derivadas parciales
Ã
∂V
∂V
H ∗ x,
,t +
=0
∂x
∂t
con las condiciones de contorno V (x, T ) = S(x(T ), T ).
Se obtiene V ∗ (x, t).
Paso 5
Se determina u∗ (x)
En general, la aplicación del método anterior presenta dos dificultades que limitan
grandemente su empleo. En primer lugar, es generalmente imposible resolver
la ecuación de Hamilton-Jacobi aún para problemas sencillos, puesto que no se
conoce una técnica general de resolución para ese tipo de ecuaciones en derivadas
parciales. Por otra parte, aún si la ecuación de Hamilton-Jacobi puede resolverse,
la ley de control obtenida es normalmente muy dificil de realizar fı́sicamente.
Las anteriores razones hacen que, desde un punto de vista práctico, sea más
interesante el principio de Pontriagin que la ecuación de Hamilton-Jacobi-Bellman
Principio de optimalidad de Bellman
432
en la resolución del problema de control. Sin embargo, existe un caso para el que
el método de Hamilton-Jacobi-Bellman es el idóneo. Es el de la determinación
de la ley de control para un sistema dinámico lineal invariante en el tiempo,
cuando el criterio de funcionamiento es cuadrático. Este problema es de por
sı́ lo suficientemente interesante como para justificar el estudio del método de
Hamilton-Jacobi-Bellman.
Ejemplo 1
Determinar la ley de control óptimo para el sistema
ẋ = u
con el ı́ndice
Z T
J=
0
(x2 + u2 )dt
1. Se forma la hamiltoniana
H = x 2 + u2 +
∂V
u
∂x
2. Se minimiza la hamiltoniana
∂H
∂V
= 2u +
=0
∂u
∂x
lo que da
u∗ = −
1 ∂V
2 ∂x
3. Se forma la hamiltoniana mı́nima
1
H =x −
4
∗
2
Ã
∂V
∂x
!2
4. Se tiene la ecuación de Hamilton-Jacobi-Bellman
1
∂V
+ x2 −
∂t
4
Ã
∂V
∂x
!2
Con la condición de contorno
V (x(T ), T ) = 0
=0
Principio de optimalidad de Bellman
433
Una forma de resolver la ecuación de Hamilton-Jacobi-Bellman es asumir
una solución, y comprobar si satisface la ecuación y las condiciones de contorno. Supóngase una solución de la forma
V (x, t) = k(t)x2
en donde k(t) es una función a ser determinada. Se tendrá
∂V
= 2k(t)x
∂x
∂V
= k̇x2
∂t
Por tanto la ecuación de Hamilton-Jacobi-Bellman se convierte en
1
k̇x2 + x2 − (4k 2 x2 ) = 0
4
es decir
k̇ + 1 − k 2 = 0
De V (T ) = 0 se tiene k(T ) = 0. La solución es
k(t) = tanh(T − t)
y, por tanto,
u∗ = − tanh(T − t)x(t)
17.2.1
Relación entre la programación dinámica y la formulación Hamiltoniana del problema de control
óptimo
Recordemos la ecuación de Hamilton-Jacobi-Bellman
"
#
∂V
∂V (x, t)
+ min L(x, u, t) +
f (x, u, t) = 0
u(t)
∂t
∂x
(17.31)
Si V es suficientemente diferenciable y suponiendo que el mı́nimo se alcanza
en un punto interior a U, la expresión anterior es equivalente a

∂V


 L(x, u, t) +
f (x, u, t) = 0
∂x
∂L ∂V ∂f



+
=0
∂u
∂x ∂u
Principio de optimalidad de Bellman
434
La segunda de estas expresiones caracteriza la ley u(x, t) que minimiza al hamiltoniano. En tal caso la primera de ella equivale a (17.31).
∂V
Interesa calcular cómo evoluciona el vector
a lo largo de una trayectoria
∂t
óptima. Derivando con respecto al tiempo se tiene
d ∂V
∂ 2V
∂ 2V
=
+ 2 f (x, u)
dt ∂t
∂t∂x
∂ x
(17.32)
Por otra parte, derivando (17.2.1) con relación a x se obtiene
d ∂V
∂ 2V
∂2V
∂L ∂L ∂u ∂f ∂V
∂V ∂f ∂u
=
+ 2 f (x, u) +
+
+
+
=0
dt ∂t
∂t∂x
∂ x
∂x
∂u ∂x ∂x ∂x
∂x ∂x ∂x
de donde, teniendo en cuenta (17.2.1) y (17.32), se llega a
d ∂V
∂f ∂V
∂L
=−
−
dt ∂t
∂x ∂x
∂x
Esta expresión es precisamente la ecuación adjunta o de coestado del método
de Hamilton. Por tanto, a lo largo de una trayectoria óptima se puede identificar
∂V
= λ(t)
∂t
con lo que se pone de manifiesto la equivalencia de ambos planteamientos. Esta
equivalencia resulta más notable cuando se tiene en cuenta la diferencia de planteamientos de los que se ha partido.
17.3
Control de sistemas dinámicos lineales con
criterio cuadrático
17.3.1
Breve reseña histórica
El problema del control lineal cuadrático tiene su origen en el trabajo de Norbert
Wiener sobre filtrado cuadrático medio para el control de cañones antiaéreos durante la Segunda Guerra Mundial. Wiener empleó métodos basados en el dominio
de la frecuencia para resolver este problema. Sin embargo aportó como novedad
importante un desarrollo teórico que permitı́a un método analı́tico para resolver
el problema de diseño. Este plantemiento analı́tico contrastaba con los métodos
Principio de optimalidad de Bellman
435
de ensayos sucesivos con métodos gráficos, basados en el criterio de estabilidad de
Niquyst, que entonces se empleaba. El método de Wiener permitı́a además tener
en cuenta cuestiones tales como los ruidos de medida y otras perturbaciones de
carácter aleatorio.
Las ideas de Wiener fueron realaboradas durante los años 50 empleando la
descripción interna de los sistemas y condujeron a lo que hoy se conoce como
la teorı́a del control lineal cuadrático, que va a ser el objeto de lo que sigue y
de los capı́tulos siguientes. De acuerdo con esta teorı́a el objetivo de un sistema
de control es el minimizar un ı́ndice de funcionamiento cuadrático. Se trata de
mantener a este sistema en un estado lo más cercano al de reposo x = 0. El costo
correspondiente a las desviaciones del estado de reposo se expresa por
J1 =
Z T
0
xT Qxdt + xT (T )Sx(T )
sujeto a las restricciones que representan un sistema lineal
ẋ = Ax + Bu
Lo que recibe la denominación de problema del regulador lineal cuadrático
o problema LQR (acrónimo de Linear Quadratic Regulator). Su solución, como
veremos luego, se reduce a la de una ecuación diferencial de Ricatti. Durante el
perı́odo 1.960-70 se desarrollaron muchos estudios teóricos sobre este problema.
Las ventajas que presenta la solución de este problema sobre las técnicas de diseño
clásicas son las siguientes:
• Permite la optimización para intervalos de tiempo finito (los métodos en
el dominio de la frecuencia de Wiener estaban limitados a intervalos de
optimización infinitos);
• son aplicables a sistemas que varı́an con el tiempo (los métodos en el dominio
de la frecuencia están limitados a sistemas invariantes en el tiempo); y
• permiten abordar de forma relativamente simple el problema de los sistemas
multivariables.
Sin embargo,la teorı́a LQR no aborda dos cuestiones muy importantes que aparecen en el diseño de sistemas de control realimentados: la falta de precisión en el
modelo de la planta y los ruidos en los sensores. Además, la teorı́a LQR presupone el conocimiento del estado del sistema que, como ya se puso de manifiesto
cuando se postuló la necesidad de los observadores, es frecuente que no esté
Principio de optimalidad de Bellman
436
disponible. Como veremos en el capı́tulo siguiente, el problema lineal-cuadrático
con perturbaciones aleatorias se reduce a la solución de dos ecuaciones de Riccatti
desacopladas, ya que se puede demostrar que es posible separar este problema
en dos: el problema del control óptimo con realimentación del estado, tal como
se aborda en la teorı́a LQR y el problema de la estimación del estado. Esta
separación puede justificar teoricamente en el caso de que las perturbaciones estocásticas sean gausianas, por lo que el problema lineal cuadrático estocástico se
conoce comúnmente como el problema lineal-cuadrático-gausiano (LQG).
17.3.2
Problema LQR
Sea un sistema dinámico lineal descrito por
ẋ = Ax + Bu
(17.33)
Se trata de mantener a este sistema en un estado lo más cercano al de reposo
x = 0. El costo correspondiente a las desviaciones del estado de reposo se expresa
por
Z
J1 =
T
0
xT Qxdt + xT (T )Sx(T )
(17.34)
Por otra parte, el costo de la aplicación de una señal de mando u viene dado por
J2 =
Z T
0
uT Rudt
(17.35)
Las matrices Q y S son matrices semidefinidas positivas, y la matriz R es definida
positiva.
El problema consiste en determinar la señal u que debe aplicarse en cada
instante para que el costo total J1 +J2 sea mı́nimo. Es decir, se trata de minimizar
el funcional
Z T
J=
[xT Qx + uT Ru]dt + xT (T )Sx(T )
(17.36)
0
Se supone que T está fijado de antemano, y que el estado final es libre.
Q y R son matrices simétricas que representan los costes de la desviación del
estado y del esfuerzo de control respectivamente. En la mayorı́a de las aplicaciones serán matrices diagonales, por lo que la funcionales J1 y J2 adoptarán
normalmente la forma:
J1 =
Z T
0
(q1 x21 + q2 x22 + · · · + qn x2n ) dt
Principio de optimalidad de Bellman
J2 =
Z T
0
437
(r1 u21 + r2 u22 + · · · + rm u2m ) dt
para un sistema con n variables de estado y m señales de entrada.
Si el sistema posee una sóla entrada, entonces la matriz R se convierte en un
escalar, como es el caso de la planta que nos ocupa.
Por último, pueden existir términos de control terminal, que deberán ser de
la forma:
xT (T )Sx(T )
siendo S una matriz simétrica.
La hamiltoniana correspondiente a este problema es
∂V T
H = x Qx + u Ru +
(Ax + Bu)
∂x
T
T
Haciendo
(17.37)
∂H
=0
∂u
se obtiene
∂V
+ 2Ru = 0
∂x
(17.38)
1
∂V
u∗ = − R−1 B T
2
∂x
(17.39)
BT
por lo tanto u∗ (x, t) está dado por
Llevando este valor de u∗ a la hamiltoniana se tiene la hamiltoniana minimizada
que resulta ser,
H ∗ = xT Qx +
∂V T
1 ∂V T
∂V
Ax −
BR−1 B T
∂x
4 ∂x
∂x
(17.40)
La ecuación de Hamilton-Jacobi-Bellman correspondiente es
∂V
∂V
∂V
1 ∂V T
+
Ax −
BR−1 B T
+ xT Qx = O
∂t
∂x
4 ∂x
∂x
(17.41)
con la condición de contorno
V (x, T ) = xT Sx
(17.42)
Para la integración de (17.41) es razonable adoptar (como ya se hizo, con buenos
resultados, en el ejemplo 1) una función de la forma:
V (x, t) = xT P (t)x
(17.43)
Principio de optimalidad de Bellman
438
siendo P (t) una matriz real simétrica. Llevando (17.43) a la ecuación de HamiltonJacobi-Bellman (17.41) se tiene:
xT Ṗ x + 2xT P Ax − xT P BR−1 B T P x + xT Qx = 0
o lo que es lo mismo
³
´
xT Ṗ + 2P A − P BR−1 B T P + Q x = 0
(17.44)
La matriz entre paréntesis no es simétrica, puesto que P A no lo es. Se sabe que
toda matriz M puede escribirse:
M = Ms + Ma
(17.45)
en donde Ms es simétrica (es decir, Ms = MsT ) y Ma es antisimétrica (es decir,
Ma = −MaT ). Para demostrar (17.45) basta sumar y restar M T /2 a M , con lo
que se tiene
M
MT
M
MT
M=
+
+
−
2
2
2
2
y comprobar que
M
MT
Ms =
+
2
2
es simétrica y
M
MT
Ma =
−
2
2
antisimétrica. De (17.45) se tiene que
xT M x = xT Ms x + xT Ma x
(17.46)
Pero, puesto que (17.46) es un escalar, y
xT Ma x = xT MaT x = −xT Ma x
se tendrá que
xT M x = xT Ms x
Lo que equivale a decir que la matriz M asociada a una forma cuadrática puede
escojerse simétrica.
Además, sabemos que la parte simétrica de una matriz M viene dada por:
Ms =
M + MT
2
Principio de optimalidad de Bellman
439
Por tanto, toda forma cuadrática xT M x puede escribirse:
xT M s x = xT
M + MT
x
2
Aplicando estas consideraciones a (17.44), para el caso M = P A, se llega a la
siguiente ecuación:
Ṗ + AT P + P A − P BR−1 B T P + Q = 0
(17.47)
P (T ) = S
que recibe la denominación de ecuación de Riccati. La resolución de esta ecuación
permite obtener P (t), o, lo que es lo mismo
V (x, t) = xT P (t)x
La ecuación (17.47) es simétrica, como también lo es la matriz S que define las
condiciones de contorno, por lo que también lo será la solución P (t). Esta simetrı́a
sirve para simplificar el cálculo de P (t). En efecto, a primera vista puede parecer
que la expresión (17.47) representa un conjunto de n2 ecuaciones diferenciales,
ya que P (t) es una matriz n × n. Sin embargo, debido a la simetrı́a de P (t) el
número de ecuaciones es en realidad de n(n + 1)/2.
Otra propiedad importante de P (t) es su carácter definido positivo. Ello se
debe a que para todo u(t) 6= 0 el valor de J (el coste del proceso) debe ser positivo,
y por tanto ası́ debe ser V (x, t) = xT P (t)x, lo que impone el carácter definido
positivo de P (t).
Una vez determinado V (x, t) se procede a determinar la ley de control óptima,
que resulta ser:
1
∂V
u∗ (x, t) = R−1 B T
= −R−1 B T P x
(17.48)
2
∂x
El resultado ha sido pues, una ley de control lineal, que se ha obtenido a partir
de la imposición de un criterio de mı́nima varianza en las variables de estado y
en el esfuerzo de control.
Para encontrar la solución de la ecuación de Riccati será necesario imponer
condiciones de contorno en P , que se obtendrán de los términos de control terminal:
• Si J posee términos de control terminal, entonces P (T ) = S.
• Si no existen dichos términos, entonces P (T ) = 0.
Principio de optimalidad de Bellman
440
Un caso especialmente interesante es aquel en que T tienda a ∞. Entonces
se dice que el problema tiene horizonte infinito. En tal caso, la matriz P se
convierte en constante. En efecto, para cualquier par de instantes iniciales t1 y
t2 , los valores tomados por V (x, t1 ) y V (x, t2 ) son iguales. Esto último es evidente
ya que tanto el sistema como el ı́ndice de funcionamiento son invariantes en el
tiempo, y por consiguiente una traslación finita en la escala de tiempos no debe
afectar al problema (nos va a costar tanto llegar al infinito desde ahora que desde
dentro de media hoira). Por tanto, la matriz P es constante.
La matriz P puede determinarse resolviendo la siguiente ecuación
AT P + P A − P BR−1 B T P + Q = 0
(17.49)
la cual se obtiene de la expresión (17.47), haciendo Ṗ = 0. Esta ecuación recibe
la denominación de ecuación de Riccati degenerada.
La solución de la ecuación (17.49) no es única ya que es una ecuación del
segundo grado en P . Sin embargo, si se impone la condición de que P sea definida
positiva, entonces la solución es única.
Tendremos, por tanto, una regulación mediante realimentación de variables
de estado, con una ley de control lineal y constante en el tiempo.
u = Kc x
siendo
Kc = −R−1 B T P
(17.50)
Debe observarse en las expresiones anteriores que la ley de control óptimo que
se ha determinado es una ley de control lineal. Este es un resultado que ya se
habı́a obtenido, a partir de otros supuestos, al estudiar el control de sistemas
lineales para su estabilización. La estructura que se obtiene aquı́, que es la que se
representa en la figura 17.9, es la misma que se encontró allı́. Esta identidad de
estructuras constituye uno de los puntos más sobresalientes de la moderna teorı́a
del control.
Ejemplo 2
Ejemplo
Supóngase el sistema dinámico
ẋ = u
Principio de optimalidad de Bellman
y el criterio a minimizar
J=
441
Z T
0
(x2 + u2 )dt
De acuerdo con ello tiene que
A = S = [0] B = Q = R = [1]
Por lo que la ecuación de Ricati que debe resolverse es
Ṗ + 1 − P 2 = 0 P (T ) = 0
Esta ecuación diferencial puede resolverse por separación de variables. Su
solución es
1 − e−2(T −t)
P (t) =
1 + e−2(T −t)
Por lo que la ley de control óptima resulta ser
u∗ = −P (t)x(t)
Ejemplo 3
Determinar los coeficientes de la ley de control para el sistema
ẋ = −3x + u
siendo
J=
Z ∞
0
(x2 + 0.1u2 )dt
Por tanto, se tiene
A = −3 B = 1 Q = 1 R = 0.1
luego la ecuación de Ricatti es
−6P − 10P 2 + 1 = 0
y, en consecuencia, P = 0.1359 Por otra parte,
Kc =
−P
= −1.359
0.1
luego
u = −1.359x
Principio de optimalidad de Bellman
442
Ejemplo 3
Determinar los coeficientes de la ley de Control para el sistema
"
0
1
−2 −1
ẋ =
si
J=
"
T
A P =
"
PA =
Z ∞
0
P BR
"
x+
0
2
#
u
(x21 + u2 )dt
−2p12
−2p22
p11 − p12 p12 − p22
−2p12 p11 − p12
−2p22 p12 − p22
"
−1
#
T
B P =
"
Q=
#
#
4p212 4p12 p22
4p12 p22 4p222
1 0
0 0
#
#
La ecuación de Riccati
AT P + P A − P B R−1 B T P + Q = 0
da lugar a tres ecuaciones,
−2p12 − 2p12 − 4p212 + 1 = 0
(17.51)
−2p22 + p11 − p12 − 412 p22 = 0
(17.52)
2(p12 − p22 ) − 4p222 = 0
(17.53)
De (17.51) se tiene
4p212 + 4p12 − 1 = 0
cuya única solución positiva es
p12 = 0.20710
llevada a (17.53) se tiene
4p222 + 2p22 − 2p12 = 0
cuya única solución positiva es
p22 = 0.15311
Principio de optimalidad de Bellman
443
Eliminando p11 de (17.52) se tiene,
p11 = 4p12 p22 + 2p22 + p12 = 0.64016
Por tanto,
"
P =
0.64016 0.20710
0.20710 0.15311
#
Kc = R−1 B T P = [0.41420 0.30622]
"
u = −[0.41420 0.306322]
u
ẋ
B
R
x1
x2
x
#
C
y
A
−R−1 B T P
Figura 17.9: Estructura de control de un sistema lineal con criterio cuadrático
Una notable propiedad que tiene el sistema de control representado en la
figura 17.9 es que es estable. En efecto, el sistema en bucle cerrado que resulta
de aplicar la ley de control (17.48) viene dado por:
ẋ = (A + BKc )x
(17.54)
ecuación que rige la evolución del estado en bucle cerrado. Es fácil ver que la
función
V (x) = xT P x
(17.55)
es una función de Liapunov para este sistema. En efecto, en primer lugar se tiene
que puesto que P es definida positiva, V (x) lo será a su vez. Por otra parte se
tiene que
dV
= (ẋT P x + xT P ẋ)
(17.56)
dt
Principio de optimalidad de Bellman
444
teniendo presente las expresiones (17.54) y (17.49) se tiene
dV
= −xT (Q + P BR−1 B T P )x
dt
(17.57)
es decir que dV /dt < 0 para todo x. Es decir V (x) cumple las propiedades que
definen una función de Liapunov y, por lo tanto, el sistema es estable. Puesto
que P BR−1 B T P es definida no negativa entonces para que dV /dt < 0 la matriz
Q tiene que ser definida positiva. Es decir, si Q es definida positiva entonces la
estabilidad asintótica está garantizada.
La aplicación del anterior resultado requiere algunas matizaciones. En particular, conviene resaltar el hecho de que se requiere que Q sea positiva definida.
Considérese el sistema
ẋ = x + u
con el ı́ndice de funcionamiento
1Z ∞ 2
J=
u dt
2 0
(17.58)
En este ı́ndice de funcionamiento conviene observar que no existen términos en
x (en tal caso es evidente que Q = 0 por lo que Q no es positiva definida, sino
definida no negativa). Quiere ello decir que se pondera únicamente el coste de
actuación y no el coste de comportamiento. Este tipo de situación no es común
en las aplicaciones. No obstante, y a los efectos formales que aquı́ interesan,
vamos a continuar analizando este ejemplo. La solución óptima existe y es obviamente u∗ = 0. Lo cual quiere decir que en un sistema en el que lo único que
se penaliza es el coste de actuación, y no se establecen especificaciones respecto
al funcionamiento, lo mejor es no hacer nada. Pero siguiendo con los aspectos
formales sucede que aplicando esa señal (o ley) de control el sistema en bucle
cerrado resulta ser
ẋ = x
que es inestable. Esta inestabilidad es debida a que la trayectoria inestable et
no contribuye al ı́ndice de funcionamiento. Es decir, no se manifiesta en (17.58).
Se puede decir que los estados inestables no son observados por el ı́ndice de funcionamiento. Ello es debido aunque el sistema es controlable, no es ni observable
ni detectable, ya que el modo inestable et no es observable. Conviene recordar
que un sistema se dice detectable si los modos inestables son observables.
Si todas las trayectorias, o al menos las inestables, son detectadas en la
parte xT Qx del integrando del ı́ndice de funcionamiento, entonces la estabilidad asintótica del sistema de control óptimo realimentado queda a garantizar, ya
que si algunas de estas variables de estado no convergen a cero el coste óptimo
Principio de optimalidad de Bellman
445
J ∗ serı́a infinito. Todas las trayectorias del sistema se detectarán en xT Qx si Q
es definida positiva. Por tanto el caracter definido positivo de Q es una condición
suficiente para la estabilidad asintótica del regulador óptimo.
Es posible, sin embargo, encontrar una condición menos restrictiva. Supongamos que Q es simplemente definida no negativa (lo que no es extraño en la
práctica, como se verá en el ejemplo más abajo). La propiedad de estabilidad
asintótica del sistema en bucle cerrado se conservará si todas las trayectorias se
detectan en la parte xT Qx del integrando del ı́ndice de funcionamiento. Este
recibimiento se cumple si el par (A, D) es completamente observable, en donde
D es cualquier matriz tal que DT D = Q.
Para que el sistema sea estable se rquiere que V̇ ≤ 0, estando V̇ dado por
la ecuación (17.57). Supóngase que V̇ es idénticamente nulo a lo largo de una
trayectoria que se inicia en un estado inicial no nulo x(0). Entonces xT Qx y
xT P BR−1 B T P x son idénticamente nulos y −R−1 B T P x, el control óptimo para
el sistema en bucle cerrado, es también idénticamente nulo. Por consiguiente, las
trayectorias del sistema en bucle cerrado son las mismas que las del sistema en
bucle abierto, que están dadas por
x(t) = eAt x(0)
ahora bien
T
xT Qx = xT (0)eA t QeAt x(0)
T
= xT (0)eA t DT DeAt x(0)
debe ser idénticamente nulo. Esto contradice la hipótesis de que el par (A, D)
es completamente observable, ya que la observabilidad de (A, D) implica que
DeAt x(0) para algún t ∈ [0, ∞) si y sólo si x(0) = 0. En consecuencia es imposible
tener V̇ idénticamente nulo a lo largo de una trayectoria que se inicie en un estado
no nulo. Con ello queda garantizada la estabilidad asintótica del sistema en bucle
cerrado para este caso.
Se define la salida sintética como
y = Dx
(17.59)
La observabilidad del par (A, D) implica que el sistema dado por las ecuaciones
(17.33) y (17.59) es completamente observable.
Principio de optimalidad de Bellman
446
Ejemplo
Sea el sistema
"
ẋ =
0 1
0 0
#
"
x+
0
1
#
u
que se pretende que minimice el ı́ndice de funcionamiento
J=
En este caso se tiene
"
A=
0 1
0 0
#
Z ∞
0
"
B=
0
1
(x21 + u2 )dt
#
"
Q=
1 0
0 0
#
R = [2]
La matriz D es tal que DT D = Q siendo
h √
i
D=
2 0
Es inmediato comprobar que (A, D) es observable. En consecuencia el sistema
óptimo en bucle cerrado será asintóticamente estable. En efecto, resolviendo la
correspondiente ecuación de Riccati tiene que
#
" √
2 2 √
2
P =
2 2 2
de modo que la ley de control viene dada por
" √
#"
#
√
1
2
2
2
x
1
√
u∗ (t) = − [0 1]
= −x1 − 2x2
x2
2 2 2
2
que se puede comprobar que efectivamente da lugar a un sistema estable.
17.4
Ecuación de Riccati en el dominio de la
frecuencia
Vamos a modificar seguidamente la ecuación de Riccati, de forma que los resultados que ésta nos proporcione sean expresiones en términos de función de transferencia. Este planteamiento es totalmente análogo a la forma en que la hemos
utilizado anteriormente, y los resultados a los que conduce son equivalentes.
Principio de optimalidad de Bellman
447
Sea el sistema
ẋ(t) = Ax(t) + Bu(t)
dónde u es de dimensión 1, sometido al criterio de funcionamiento:
J=
Z ∞
0
(xT Qx + ru2 )dt
Suponemos r = 1 sin pérdida de generalidad, ya que podemos englobarlo en los
coeficientes de Q. La solución a este problema es una ley de control lineal dada
por:
u = −kc x
siendo
kc = B T P
(17.60)
P se obtiene de la ecuación de Riccati:
AT P + P A − P BR−1 B T P + Q = 0
Reordenando esta ecuación y teniendo en cuenta que R = 1:
−P A − AT P = Q − P BB T P
Sumando y restando P s al primer miembro se tiene:
P (sI − A) + (−sI − AT )P = Q − P BB T P
Recordando la matriz de transición entre estados Φ(s) = (sI −A)−1 y la expresión
(17.60) se tiene:
P Φ−1 (s) + (ΦT )−1 (−s)P = Q − kcT kc
Premultiplicando por B T ΦT (−s) y postmultiplicando por Φ(s)B:
B T ΦT (−s)P Φ−1 (s)Φ(s) B + B T ΦT (−s)(ΦT )−1 (−s) P Φ(s)B =
|
B T ΦT (−s)[Q −
{z
}
|
{z
I
T
kc kc ]Φ(s)B
}
I
T
B T ΦT (−s) P
B +B
|{z}
| {zP} Φ(s)B =
kcT
kc
B T ΦT (−s)QΦ(s)B − B T ΦT (−s)kcT kc Φ(s)B
La función de transferencia en bucle abierto cuando se aplica la ley de control
(figura 17.10) es G(s) = kc Φ(s)B = B T ΦT (s)kcT , luego tenemos:
G(−s) + G(s) = B T ΦT (−s)QΦ(s)B − G(−s)G(s)
Principio de optimalidad de Bellman
B
448
Φ(s)
K
Figura 17.10: Bucle abierto con realimentación del estado.
que se puede reescribir de la forma:
[1 + G(s)][1 + G(−s)] = 1 + B T ΦT (−s)QΦ(s)B
(17.61)
Definimos: F (s) ≡ 1 + G(s). F (s) se conoce como la función de diferencia del
retorno. Ahora supongamos el segundo miembro factorizado de la forma:
1 + B T ΦT (−s)QΦ(s)B = ∆(s)∆(−s)
(17.62)
entonces:
F (s)F (−s) = ∆(s)∆(−s)
y por tanto:
F (s) = ∆(s)
llegamos a la expresión que nos da la función de transferencia del sistema con la
realimentación de las variables de estado:
G(s) = ∆(s) − 1
Debe observarse que mediante la factorización (17.62) se resuelve la ecuación de
Riccati, aunque lo que se obtiene ahora es G(s), lo cual es equivalente a determinar
kc , ya que ambas vienen relacionadas por la expresión G(s) = kc ΦB. Por tanto,
la factorización (17.62) equivale a la resolución de la ecuación de Riccati. Con
otras palabras, la factorización (17.62) permite resolver la ecuación de Riccati en
el dominio de Laplace.
Ejemplo
En este ejemplo se va a mostrar el empleo de la ecuación de Riccati en el dominio
de la frecuencia para la determinación de la ley de control. Sea el sistema
ẋ = −x + u
Principio de optimalidad de Bellman
y el criterio
J=
449
Z ∞
0
(3x2 + u2 )dt
En primer lugar el problema se va a resolver mediante la ecuación de Riccati, tal
como se ha visto en la sección anterior. Para este problema se tiene que
A = −1 B = 1 Q = 3 R = 1
por lo que la ecuación de Riccati correspondiente resulta ser
−p − p − p2 + 3 = 0
es decir,
p2 + 2p − 3 = 0
cuyas soluciones son p1,2 = 1, −3, por lo que la constante de la ley de control
resulta ser k = 1.
Vamos ahora a resolver el problema mediante la ecuación de Riccati en el
dominio de la frecuencia. En primer lugar, se tiene que para este problema
Φ(s) =
1
s+1
por lo que el primer miembro de la expresión (17.62) tomará la forma
1 + B T ΦT (−s)QΦ(s)B = 1 +
3
3 + (1 − s)(1 + s)
=
(1 − s)(1 + s)
(1 − s)(1 + s)
cuyo numerador se puede escribir
3 + (1 − s)(1 + s) = 4 − s2 = (2 − s)(2 + s)
y por tanto
(2 − s)(2 + s)
= ∆(s)∆(−s)
(1 − s)(1 + s)
es decir
∆(s) =
2+s
1+s
En consecuencia
2+s
1
−1=
1+s
s+1
por lo que se obtiene el mismo valor para k que se obtuvo anteriormente.
G(s) = ∆(s) − 1 =
Conviene observar que aunque en este ejemplo, al ser de dimensión uno, el
segundo método empleado aparentemente es más laborioso que el primero, no
Principio de optimalidad de Bellman
450
sucede lo mismo para sistemas de dimensión mayor, por lo que el segundo método
es el habitualmente empleado para determinar la ley de control, ya que para el
único problema para el que se requieren métodos numéricos elaborados que es la
factorización, se dispone de soluciones informáticamente deficientes.
2
Por otra parte, de la expresión (17.61) se deduce que los reguladores LQR
presentan una robustez excelente. En efecto, si factorizamos Q de la forma Q =
H T H y hacemos s = jω en (17.61) se obtiene:
k1 + G(jω)k2 = 1 + kHΦ(jω)Bk2
de donde:
k1 + G(jω)k > 1
Si interpretamos esta condición en el plano polar, la curva de G(jω) no puede
entrar dentro de un circulo de centro −1 y radio 1, por lo que aseguramos un
margen de fase mayor de 60 grados y un margen de ganancia infinito.
17.5
Resolución del problema LQR
La solución dada al problema del control óptimo con criterio cuadrático de un
sistema lineal. Este problema tiene un importante interés tanto teórico como
práctico, ya que, como se ha visto posee las tres notables propiedades siguientes:
• La adopción de la estructura de realimentación viene determinada por la
solución del problema, y no por un presupuesto previo (como sucede en los
métodos clásicos y en los de variables de estado).
• La estabilidad del sistema en bucle cerrado está garantizada.
• La robustez del sistema también está garantizada por el amplio margen de
fase que posee.
El problema LQR, tal como ha sido resuelto, supone que todas las variables
de estado son accesibles. Esto no siempre es ası́ y cuando no lo son hay que
proceder, al menos, a estimarlas. Es lo que se hace con los métodos que veremos
en el próximo tema.
Principio de optimalidad de Bellman
451
Resumen del problema lqr
Se da el sistema
ẋ(t) = Ax(t) + Bu(t)
y el criterio de funcionamiento
J=
Ley de control ptima
u∗ (t) = Kc x(t)
siendo
Kc = −R−1 B T P
Ecuacin de Riccati
AT P + P A − P BR−1 B T P + Q = 0
Valor optimo de J
J ∗ = 12 xT (t)P x(t)
R∞
0
[xT Qx + uT Ru]dt + xT (T )Sx(T )
Tema 18
Estimación del estado
18.1
Noción de señal aleatoria
Se define una variable aleatoria como aquella que, como resultado de un ensayo,
toma un cierto valor imprevisible exactamente y dentro de un conjunto de valores
permitidos. Para caracterizar completamente una variable aleatoria es necesario
definir el conjunto de valores posibles, ası́ como la probabilidad de cada uno de
ellos. Esta caracterı́stica reciben el nombre de ley de distribución. Estos conceptos
se suponen conocidos y se recuerdan aquı́ a tı́tulo de revisión.
Supóngase una variable aleatoria que varı́a con el tiempo, como, por ejemplo,
el error de medida de una cierta magnitud que se dibuja continuamente en un
registrador gráfico. El resultado de una prueba o ensayo es una medida que es
función del tiempo. Una variable aleatoria de ésta naturaleza se llama una señal
aleatoria o proceso estocástico.
Una señal aleatoria se define, en consecuencia, como una variable función del
tiempo, tal que, para cada valor del argumento, o para cada conjunto de valores,
se comporta como una variable aleatoria (18.1).
Para un cierto valor de t, el valor de la señal aleatoria x(t) es una variable
aleatoria, para la que se puede definir una ley de distribución. Estas leyes de
distribución reciben el nombre de distribuciones unidimensionales y se especifican
por medio de la función de densidad de probabilidad unidimensional p1 (x; t), que
en principio depende de t.
452
Estimación del estado
453
0
t1
t
t1
t
0
0
t1
t
Figura 18.1: Señal aleatoria
De la misma manera y teniendo presente dos instantes de tiempo t1 y t2 se
definen las distribuciones bidimensionales y la correspondiente función de densidad de probabilidad p2 (x1 , x2 ; t1 , t2 ) Lo anterior se puede generalizar para n
instantes de tiempo, en cuyo caso se tiene la función de densidad de probabilidad
pn (x1 , ..., xn ; t1 ..., tn ). Un proceso estocástico se dice estacionario si
p1 (x, t) = p1 (x)
p2 (x1 , x2 ; t1 , t2 ) = p2 (x1 , x2 ; t2 − t1 )
En realidad la estacionaridad ası́ definida no es la más general que cabe concebir
pero sin embargo es suficiente a los efectos aquı́ interesan. Para un proceso estacionario sus caracterı́sticas estadı́sticas son invariantes por traslación temporal.
18.1.1
Descripción estadı́stica de las señales aleatorias
Las caracterı́sticas de una señal aleatoria que aquı́ se van a considerar son su
media, su covarianza y su función de autocorrelación. La media se define como
mx (t) = E[x(t)] =
Z ∞
∞
xp1 (x; t)dx
(18.1)
en donde E representa la esperanza matemática. Si el proceso es estacionario su
media permanece constante al variar el tiempo; es decir, se tiene E[x(t)] = mx
constante. La media de un proceso estacionario se puede también definir como
1 ZT
mx = lim
xdt
T →∞ 2T −T
(18.2)
Estimación del estado
454
Si (18.1) y (18.2) conducen al mismo resultado el proceso se llama ergódico. En lo
que sigue los procesos que se considerarán serán ergódicos. Se define la covarianza
de una señal aleatoria x(t) como:
E[(x(t) − mx (t))(x(τ ) − mx (τ ))] =
Z ∞ Z ∞
−∞
−∞
(x1 (t) − mx (t))(x2 (τ ) − mx (τ ))p(x1 , x2 ; t, τ )dx1 dx2
Por último, la función de autocorrelación se define como
E[x(t)x(τ )] =
Z ∞ Z ∞
−∞
−∞
x1 (t)x2 (τ )p(x1 , x2 ; t, τ )dx1 dx2
para procesos estacionarios la función de autocorrelación se reduce a
1 ZT
x(t)x(t + τ )dτ
E[x(t)x(t + τ )] = φxx (τ ) = lim
t→∞ 2T T
Ejemplo
Sea la señal aleatoria definida por las siguientes propiedades.
1. Solo toma dos valores +a y −a
2. Permanece en uno de éstos valores durante un tiempo pasado el cual cambia
1
al otro o permanecen en aquel con probabilidad .
2
El aspecto de esta señal x(t) es la de la figura 18.2.
La media de ésta señal es E[x(t)] = 0. Para determinar la función de autocorrelación se procede en dos pasos.
1. | τ |> θ En tal caso es evidente que φxx = 0.
T− | τ |
, las
T
señales x(t) y x(t + τ ) toman el mismo valor, y por lo tanto su producto es
igual a2 .
2. | τ | θ Se ve en la figura que durante una fracción de tiempo
Durante el resto del periodo, es decir durante una fracción de tiempo
producto toma el valor +a2 ó −a2 , con probabilidad 12 .
τ
,
T
el
Estimación del estado
455
x(t)
−γ
a)
+1
0 γ
2γ 3γ
t
-1
Rxx (τ )
−γ
1
0
γ
τ
b)
Figura 18.2: Señal aleatoria binaria
De lo anterior se deduce
E[x(t)x(t + τ )] = a2
T− | τ |
|τ |
|τ |
+ a2
− a2
T
2T
2T
es decir
Ã
φxx (τ ) = a
2
|τ |
1−
T
!
Esta señal constituye una aproximación a una señal de gran interés, que es la
señal blanca, que por definición es aquella cuya función de autocorrelación es un
impulso de Dirac, es decir,
φbb = Aδ(t)
Esta señal no se presenta nunca en la práctica con las propiedades teóricamente
exigidas. Sólo se tienen aproximaciones de las cuales la señal binaria considerada
constituye una de las más interesantes.
Una propiedad interesante de la función de autocorrelación de un proceso
estacionario es
φxx (τ ) = φxx (−τ )
Interesa definir también la función de la intercorrelación, o de correlación cruzada,
entre dos señales aleatorias:
1 ZT
x(t)y(t + τ )dt
E[x(t)y(t + τ )] = φxy (τ ) = lim
t→∞ 2T −T
Estimación del estado
18.2
456
Transmisión de señales aleatorias a través
de sistemas lineales: descripción interna
Vamos a estudiar en esta sección el comportamiento de la salida de un sistema
lineal, cuando es excitado con una señal aleatoria, cuya descripción estadı́stica es
conocida. Sea el sistema dinámico lineal
ẋ(t) = Ax(t) + Bw(t)
(18.3)
excitado por un ruido blanco estacionario w(t) de caracterı́sticas
E[w(t)] = 0
E[w(t)wT (τ )] = Qδ(t − τ )
tal que Q ≥ 0. Q recibe también la denominación de intensidad del ruido.
Las condiciones iniciales vienen especificadas mediante un vector aleatorio
gausiano x(t0 ), independiente de w(t) y con media x̄0 y covarianza P0 ; es decir:
E[x(t0 )] = x̄0
(18.4)
E[(x(t0 ) − x̄0 )(x(t0 ) − x̄0 )T ] = P0
(18.5)
T
E[x(t0 )w (t)] = 0 ∀t
(18.6)
La trayectoria de x(t), de acuerdo con (18.3), viene dada por:
x(t) = Φ(t)x(t0 ) +
Z t
t0
Φ(t − τ )Bw(τ )dτ
(18.7)
Por tanto, se tiene que la evolución de la media de x(t) vendrá dada por:
E[x(t)] = E[Φ(t)x(t0 )] + E
= Φ(t)E[x(t0 )] +
·Z t
Z t
t0
t0
¸
Φ(t − τ )Bw(τ )dτ
Φ(t − τ )BE[w(τ )]dτ
= Φ(t)x̄0
(18.8)
Por otra parte, para determinar la matriz de covarianza del vector x(t) vamos a
estudiar, en primer lugar la evolución de:
P 0 (t) = E[x(t)xT (t)]
Derivando esta expresión con relación al tiempo se obtiene:
Ṗ 0 (t) = E[ẋ(t)xT (t) + x(t)ẋT (t)]
(18.9)
Estimación del estado
457
Recordando (18.3) se tiene:
Ṗ 0 (t) = E[Ax(t)xT (t) + Bw(t)xT (t) + x(t)xT (t)AT + x(t)wT (t)B T ]
= AP 0 (t) + P 0 (t)AT + E[Bw(t)xT (t) + x(t)wT (t)B T ]
Y recordando, a su vez, (18.7), se tiene:
Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT
"
µ
+ E Bw(t) Φ(t)x(t0 ) +
·µ
+ E
Φ(t)x(t0 ) +
Z t
t0
Z t
t0
¶T #
Φ(t − τ )Bw(τ )dτ
¸
¶
T
Φ(t − τ )Bw(τ )dτ w (t)B
T
Conmutando el operador esperanza matemática y la integración se tiene:
Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT
+ BE[w(t)xT (t0 )]ΦT (t)
Z t
+
t0
BE[w(t)wT (τ )]B T ΦT (t − τ )dτ
+ Φ(t)BE[x(t0 )wT (τ )]B T
Z t
+
t0
Φ(t − τ )BE[w(τ )wT (t)]B T dτ
Teniendo en cuenta las caracterı́sticas de las señales w(t) y x(t) la anterior expresión conduce a:
Ṗ 0 (t) = AP 0 (t) + P 0 (t)AT
+ BE[w(t)xT (t0 )]ΦT (t)
+
Z t
t0
BQδ(t − τ )B T ΦT (t − τ )dτ
(18.10)
+ Φ(t)BE[x(t0 )wT (t)]B T
+
Z t
t0
Φ(t − τ )BQδ(τ − t)B T dτ
= AP 0 (t) + P 0 (t)AT + BQB T
(18.11)
(18.12)
Para el paso de (18.11) a (18.12) hay que tener presente, por una parte que los
términos segundo y cuarto se anulan de acuerdo con (18.6). Por otra parte, por
lo que respecta a los términos tercero y quinto, hay que tener presente que la
función δ aquı́ es simétrica y que Φ(0) = I. La función δ simétrica tiene las
siguientes propiedades:
• δ(t − τ ) = δ(τ − t)
Estimación del estado
•
Rb
a
458
(
f (τ )δ(τ − t)dτ =
0
f (t)
si t < a o si t > b
si a < t < b
En tal caso, si el valor de t coincide con uno de los lı́mites de integración, por
ejemplo t = b, se tiene que
Z b
f (b)
2
a
puesto que el área unidad que cubre la función δ se distribuye la mitad a la
derecha de t = τ y la otra mitad a su izquierda. Obsérvese que de acuerdo con
los lı́mites de integración, los miembros tercero y quinto de (18.11) aportan solo
1/2.
f (τ )δ(τ − b)dτ =
La ecuación (18.12) tiene las condiciones iniciales:
P 0 (t0 ) = E[x(t0 )xT (t0 )]
A partir de los resultados anteriores es posible determinar la evolución de la
matriz de covarianza:
P (t) = E[(x(t) − x̄(t))(x(t) − x̄T (t))]
(18.13)
En efecto, definiendo x̃(t) = x(t) − x̄(t) (es decir, x̃ es la diferencia entre el valor
de la variable x y su media) la evolución de x̃ viene dada por
dx̃
= Ax̃ + Bw(t)
dt
ya que la de x(t) se rige por (18.3) y la de x̄T (t) por x̄T˙(t) = Ax̄T (t). Por tanto, la
expresión (18.13) tiene la misma forma que la (18.9), y la ecuación de evolución
de x̃ es idéntica a (18.3). En consecuencia P (t) satisface la ecuación diferencial:
Ṗ (t) = AP (t) + P (t)AT + BQB T
P (t0 ) = P0
(18.14)
que rige la evolución de la covarianza de la salida del sistema lineal (18.3) cuando
se excita con una señal aleatoria blanca de intensidad Q.
18.3
El problema de la observación: Filtro de
Kalman
Para poder implementar un regulador mediante una ley de control de la forma
u = f (x) es necesario conocer en cada instante el valor de todas las variables
Estimación del estado
459
de estado. Para estudiar la estimación del estado se adopta la misma estructura
que se adopta para un observador, y que aquı́ recibe la denominación de filtro de
Kalman. Para el estudio de este filtro se parte de un modelo del sistema, cuyo
estado se va a estimar, mediante un sistema dinámico con perturbaciones de la
forma: siguiente forma:
ẋ(t) = Ax(t) + Bu(t) + w(t)
y(t) = Cx(t) + v(t)
(18.15)
donde w(t) y v(t) son variables aleatorias correspondientes a un ruido blanco o
ruido gausiano, y presentarán, por tanto, las siguientes propiedades:
- E[wi (t)] = 0 para i = 1 . . . n.
- E[vi (t)] = 0 con i = 1 . . . m.
Es decir, su media es nula para cada instante de tiempo.
- E[wi (t)wj (t − τ )] = qij δ(τ ) con i, j = 1 . . . n.
- E[vi (t)vj (t − τ )] = rij δ(τ ) con i, j = 1 . . . m.
siendo δ(τ ) la función delta de Dirac. Es decir,
E[w(t)wT (t − τ )] = Qδ(τ )
E[v(t)v T (t − τ )] = Rδ(τ )
Cada señal únicamente está correlacionada consigo mismo en el instante de producirse. Esto implica un espectro de frecuencias plano, donde no hay ninguna
predominante, y cuya amplitud nos da la covarianza de la señal.
Las variables v(t) y w(t) representan lo siguiente:
• w(t): El sistema nunca queda perfectamente modelado, por lo que el estado
alcanzado en cada instante por el modelo matemático difiere del existente en
el sistema real. Con w(t) se representan las desviaciones en la evolución de
los dos sistemas (el real y el modelo matemático). Estas variables también
son una representación de las perturbaciones que pueden aparecer en las
distintas partes del sistema real.
• v(t): Modela los errores que aparecen al medir la variable de salida del
sistema. Estos errores, en general, pueden ser cuantificados de manera más
exacta que los anteriores.
Estimación del estado
460
Para la evaluación de los estados estimados x̂ se adopta la misma estructura que
para un observador, es decir:
dx̂
= Ax̂ + Bu + Ko (y − C x̂)
(18.16)
dt
donde:
x̂ es la estimación del vector de estado.
u es la señal de entrada al sistema.
y es la salida del sistema.
Ko es el vector de ganancias del filtro de Kalman.
En la figura 18.3 se muestra la estructura correspondiente. Con la expresión
y(t)
+
-
ŷ(t)
y(t) − ŷ(t)
C
Ko
+
u(t)
B
x̂˙
+
R
x̂
+
A
Figura 18.3: Filtro de Kalman
(18.16), a partir de la estimación del estado x̂, de la señal de entrada u y del error
en la variable de salida y − C x̂ generamos evolución de las estimaciones.
Sea
P (t) = E[(x̂ − x)(x̂ − x)T ] = E[x̃x̃T ]
la matriz de covarianza del error de estimación x̃ = x̂ − x.
El objetivo es encontrar los valores de Ko que minimicen la discrepancia entre
los estados reales x y los estados estimados x̂. Esta discrepancia se mide por el
valor cuadrático medio del error:
J = E[x̃T x̃] = trP (t)
(18.17)
Estimación del estado
461
Restando la expresión (18.16) de la (18.15), y recordando que x̃ = x̂ − x, se tiene
que la evolución del error x̃ viene dada por la ecuación:
dx̃
= (A − Ko C)x̃ + w + Ko v
dt
(18.18)
A partir de las caracterı́sticas de los ruidos v y w se tiene que el ruido blanco que
actúa sobre el sistema lineal anterior posee la covarianza:
E[(w(t) − Ko v(t))(w(τ ) − Ko v(τ ))T ] = (Q + Ko RKoT )δ(t − τ )
(18.19)
De acuerdo con (18.14) la covarianza P (t) del error x̃ vendrá dada por
d
P (t) = (A − Ko C)P (t) + P (t)(A − Ko C)T + Q + Ko RKoT
dt
(18.20)
Por otra parte, es inmediato que:
(Ko − P C T R−1 )R(KoT − R−1 CP ) = Ko RKoT − P C T KoT − Ko CP + P C T R−1 CP
Por tanto, sumando y restando P C T R−1 CP a (18.20), teniendo en cuente esta
última expresión, se tiene:
d
P (t) = AP (t) + P (t)AT − P C T R−1 CP + Q + (Ko − P C T R−1 )R(KoT − R−1 CP )
dt
(18.21)
El problema del estimador óptimo puede enunciarse diciendo que se trata de
determinar Ko de modo que se minimice (18.17), estando P (t) sujeto a (18.22).
Es decir, el criterio a optimizar viene dado por (18.17), las ecuaciones de evolución
del sistema por (18.22) y la señal a optimizar es Ko (t). Al formar la función de
Hamilton del correspondiente problema de control óptimo se tiene que el único
término en esta función que depende de Ko (t) es (Ko −P C T R−1 )R(KoT −R−1 CP ),
por lo que es claro que el Ko (t) óptimo vendrá dado por:
Ko (t) = P (t)C T R−1
(18.22)
Llevando este valor de Ko a (18.22) se tiene que P (t) satisface la ecuación diferencial:
Ṗ (t) = P (t)AT + AP (t) + Q(t) − P (t)C T R−1 CP (t)
(18.23)
con las condiciones iniciales P (t0 ) = P0 .
Si comparamos las expresiones (??) y (18.23) con las (17.50) y (17.50) del
capı́tulo anterior se comprueba que la solución del filtro óptimo es dual de la del
problema del control. Esta dualidad se puede resumir en el cuadro siguiente:
Estimación del estado
462
Problema de la
Estimación
BT
CT
Ro
Qo
Ko
AT
Problema del
Control
C
B
Rc
Qc
Kc
A
En este cuadro R y Q se han subindiciado con c o con o según se refieran a los
problemas del control o de la estimación. El cuadro muestra que los problemas
de la estimación y del control son esencialmente el mismo.
Al igual que se hacı́a en el caso del LQR consideraremos horizonte de tiempo
infinito, con lo cual, lo que se pretenderá es minimizar en valor medio la diferencia entre los estados reales y los estimados, y no hacer mı́nimo dicho valor en
un intervalo de tiempo determinado, que es lo que se persigue con el anterior
planteamiento. En consecuencia, al hacer esta consideración, la variable tiempo
desaparece de las ecuaciones que proporcionan los parámetros del filtro de Kalman
y se tiene que Ko toma el valor constante dado por:
Ko = P C T R−1
(18.24)
donde el único parámetro desconocido es la matriz P , que se halla resolviendo la
ecuación de Riccati para la observación
AP + P AT + Q − P C T R−1 CP = 0
(18.25)
La matriz Ko recibe la denominación de ganancia de Kalman.
Para la determinación del filtro de Kalman se ha partido de la estructura
representada en la figura 18.3, que es la de un observador clásico, y se ha ajustado
Ko para que el error de estimación sea el mı́nimo con una norma cuadrática. Sin
embrago, se puede demostrar que en realidad esa es la estructura que produce
las mejores estimaciones de todos los posibles estimadores. Esta demostración es
muy compleja, por lo que no se incluye en un curso introductorio como éste. Se
trata de un resultado de la misma naturaleza que el que se ha visto al estudiar
el problema lineal cuadrático, en donde si se ha demostrado que la ley de control
lineal era la óptima, y no se han ajustado simple los valores de k para que lo
fuera, que es en realidad lo que hemos hecho en el caso del filtro de Kalman.
Estimación del estado
463
Resumen del Filtro de Kalman
Se da el sistema
ẋ(t) = Ax(t) + Bu(t) + w(t)
con la función de lectura
y(t) = Cx(t) + v(t)
Se tiene
E[w(t)] = 0
E[v(t)] = 0
E[w(t)wT (t − τ )] = Qδ(τ )
E[v(t)v T (t − τ )] = Rδ(τ )
Ecuaciones del filtro
dx̂
= Ax̂ + Bu + Ko (y − C x̂)
dt
Ganancia de Kalman
Ko = P C T R−1
Propagación de la
covarianza del error
Ṗ (t) = P (t)AT + AP (t) + Q(t) − P (t)C T R−1 CP (t)
P (t0 ) = P0
Error cuadráático
de la estimación
tr P
Estimación del estado
464
w
u
v
R
B
1
y
-1
Figura 18.4: Sistema lineal de dimensión 1.
18.3.1
Ejemplo
Sea el sistema dinámico de dimensión 1 que se muestra en la figura 18.4, y en el
que A = −1. Se trata, por tanto, de un sistema de primer orden al que se asocian
un ruido de modelado w y un ruido de lectura v. La salida de este sistema es
la señal z. Se trata de reconstruir el estado x a partir de la señal z. Para ello
se adopta la estructura de un filtro de Kalman, tal como se indica en la figura
18.5. La determinación del filtro de Kalman se reduce, en último extremo, a la
determinación de la constante K de modo que el valor cuadrático medio del error
de estimación sea mı́nimo. Supongamos que las intensidades de los ruidos de
modelado y medida vienen dadas por
φww = Qδ(τ ) = 3δ(τ )
φvv = Rδ(τ ) = δ(τ )
El valor de Ko en la figura 18.5 viene dado por la expresión (??). Para determinar
el valor de p se requiere resolver la ecuación (18.23). Los parámetros necesarios
para escribir esta ecuación, en el problema que nos ocupan, son
A = −1 C = 1 Q = 3 R = 1
Con los valores de estos parámetros la expresión (18.23) toma la forma
dp
= −2p − p2 + 3
dt
que en el caso de un proceso estacionario, en el que el valor cuadrático medio del
error sea constante, se tiene que dp/dt = 0, y p es igual a constante. En tal caso
se tiene que la ecuación que satisface p es la (18.25), es decir,
p2 + 2p − 3 = 0
Estimación del estado
465
w
u
v
R
B
y
1
-1
+
Ko
u
R
B
-
1
-1
Figura 18.5: Sistema lineal con filtro de Kalman.
ŷ
Estimación del estado
466
Resolviendo esta ecuación en p se obtiene
p=1
Lo que llevado a (18.24) conduce a
Ko = 1.
18.4
Método LQG
En sistemas dinámicos lineales con perturbaciones aleatorias gausianas y criterio
de optimización cuadrático se puede demostrar que el regulador óptimo se obtiene
separando los problemas de estimación y control, resolviendo cada uno de ellos
separadamente, y conectándolos en serie.
Es decir, a partir de las señales de salida y por medio de un filtro de Kalman
se obtienen las estimaciones de los estados, y a partir de estas estimaciones y con
ayuda de la ley de control, obtenida prescindiendo del carácter estocástico del
sistema, se determina la señal de acción sobre el mismo.
La estructura de control ası́ obtenida recibe la denominación de control LQG
(lineal cuadrático y gausiano), la cual requiere que se adopten modelos estocásticos
para el ruido de los sensores y del proceso, y que se defina un criterio cuadrático
como criterio de funcionamiento. Lo que se plantea en ese caso es un problema
de control óptimo estocástico.
Veamos, con detalle, el regulador LQG. Sea un sistema dinámico lineal (con
n estados, m entradas y l salidas):
ẋ = Ax + Bu + w
y = Cx + v
siendo:
x: vector de estados (n × 1).
u: vector de entradas (m × 1).
y: vector de salidas (l × 1).
A: (n × n).
B: (n × m).
C: (l × n).
y siendo w y v señales aleatorias, de ruido blanco gausiano, con media nula y
Estimación del estado
467
mutuamente independientes, que satisfacen:
E[w(t)wT (t − τ )] = Qo δ(τ )
E[v(t)v T (t − τ )] = Ro δ(τ )
E[w(t)v T (t − τ )] = 0
donde:
Qo = QTo ≥ 0 ,
Ro = RoT ≥ 0
El objetivo es determinar la señal de control u de forma que la siguiente funcional
sea mı́nima:
Z ∞
(xT Qc x + uT Rc u) dt
J=
0
con:
Qc = QTc ≥ 0 ,
Rc = RcT ≥ 0
El teorema de separación establece que el óptimo global se tiene dividiendo el
problema en dos subproblemas:
1. Un problema de control óptimo, del que se obtiene la regulación por realimentación de variables de estado:
u = −Kc x̂
siendo
Kc = Rc−1 B T Pc
Pc se determina a partir de la ecuación de Riccati:
AT Pc + Pc A − Pc BR−1 B T Pc + Qc = 0
2. Un problema de filtrado óptimo, mediante el filtro de Kalman:
dx̂
= Ax̂ + B û + Ko (y − C x̂)
dt
donde
Ko = Po C T Ro−1
y Po se obtiene de
APo + Po AT + Qo − Po C T Ro−1 CPo = 0
El problema, por lo tanto, queda descompuesto en dos partes.
Estimación del estado
468
1. Resolución del problema del control, prescindiendo en el sistema de perturbaciones, para obtener la Ley de control Kc .
2. Filtrado de Kalman para obtener x̂.
El esquema de regulación que se obtiene uniendo estos dos problemas aparece en
la figura 18.6 y el compensador resultante es el que se muestra en la figura 18.7.
r
u(t)
+
z(t)
Planta
y(t)
-
Ley de
Control
x̂(t)
Filtro de
Kalman
Figura 18.6: Separación del control y de la estimación en el problema LQG
Estimación del estado
0 +
u(t)
469
B
+
R
ẋ(t)
x(t)
y(t)
C
+
-
A
Planta
B
Kc
x̂(t)
R
+
˙
x̂(t)
+
+
+
Ko
-
A
Observador
C
Figura 18.7: Estructura del regulador del problema del control estocástico
Download