Uploaded by venomweb00

2.6 slides IMAD Non Linear Systems

advertisement
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
NON-LINEAR SYSTEMS
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
1
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
INTRODUCTION
Data:
{u (1), u (2),, u ( N )}
{y (1), y (2), y ( N )}
u (i )
Model
f (u; ϑ)
y (i )
f (u; ϑ) is a static function (not dynamic) of the input u.
In general:
y (i ) = f (u (i ); ϑ)
• ϑ is the vector of the model parameters
• y (i ) only depends on u (i ) with the same index; it depends
neither on u (i − 1), u (i − 2), neither on y (i − 1), y (i − 2),
NB: index i and not necessarily t
Unlike what we’ve seen up to now, f (•; ϑ) is a non-linear function.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
2
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
y (t ) = a1 y (t − 1) +  + am y (t − m) + b0u (t − 1) +  + bpu (t − p − 1)
≠
Linear/dynamic relationship
Non-linear/static relationship
y (t ) = f (u (t ))
Since the relation between u and y is static, we can represent the
points {u (1), u (2),, u ( N )} {y (1), y (2), y ( N )}, ignoring the index:
u
i
y
i
This representation gives information about the order of {u (i ), y (i )}
pairs.
→ Example of static function (e.g. market basket)
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
3
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
y
i-th pair u-y {u (i ), y (i )}
u
In this representation we loose information about the temporal
relationship among the different {u (i ), y (i )} pairs.
• It’s no longer necessary to explicitly consider the temporal order
of {u (i ), y (i )} pairs, since we want to identify a static model ( any
information about a temporal order is not relevant)
• On the other side we make use of i instead of t to underline that
the data order is not important (this is not necessarily a temporal
index).
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
4
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Dimensionality assumptions:
u (i ) ∈ ℜ p
 u1 (i ) 
 u (i ) 
2
 ∈ℜp
u (i ) = 
  


i
u
)
(
 p 
y (i ) ∈ ℜ1 (mono-dimensional output)
Remark
These assumptions do not affect the generality of our models, since a
system with p inputs and m outputs can be modeled with m parallel
models, each with p inputs and one output.
Ex.
2 inputs – 2 outputs
u1 (i )
f (u (i ); ϑ)
u2 (i )
y1 (i )
y2 (i )
equivalent
u1 (i )
f 1 (u (i ); ϑ1 )
f 2 (u (i ); ϑ 2 )
y1 (i )
2 inputs – 1 output
y2 (i )
u2 (i )
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
5
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Remark
It’s important to distinguish between two classes of problems.

Interpolation
We assume that data are not disturbed and we want that the
estimated function f (u , ϑˆ ) passes through each {u (i ), y (i )} point.
y
{u (i), y (i)}
y (i ) = f (u (i ); ϑˆ )
u
A sufficient condition to solve the interpolation problem is that
N = nϑ ( nϑ = dim(ϑ) ).

Fitting
We assume that data are noise-disturbed ⇒ it’s useless to look
for a f (u , ϑˆ ) passing through each {u (i ), y (i )} pair ⇒ we want
f (u , ϑˆ ) to fit the data by canceling each meaningless noise-
generated variation.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
6
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
y
f (u (i ); ϑˆ ) interpolated
f (u (i ); ϑˆ ) approximated
u
Unlike the interpolation problem, where N = nϑ , the fitting
problem intrinsically demands N >> nϑ .
•
The fitting function is not perfect for the data we used for its
identification, but owns generalization properties (suitable
for other data too).
•
The interpolation function fits only to measured data (it
makes no generalizations)
N.B.: If we can interpolate a data set using nϑ < N , we solve a “datacompression” problem.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
7
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Problem: how can we choose a class of non-liner parametric
functions f (•; ϑ) ?
The normally requested characteristic is: f must be a “universal
approximating function”: provided that we use a sufficiently-large
number of parameters, we can approximate any continuous function at
whatever precision level, on a compact domain.
If u ∈ U ⊂ ℜ p , compact, and we need to fit the g : U → ℜ function
(with g of class C 0 ) with an f (u; ϑ) class of parametric functions, we
can state that f is an universal approximating function if: ∀ε > 0, ∃nϑ
so that ∃ϑˆ that fulfils the following relation: g (u ) − f (u; ϑˆ ) < ε
∀u ∈ U (the mistake made by f is uniformly lower than ε on all U).
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
8
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
The following function classes are universal approximating functions:

Polynomial

Splines

Multi-layer perceptron Neural Networks (NN)

Radial Basis Functions (RBF)

Wavelets
Example
2-dimensional polynomial
u1
y
u2
y = a00 + a10 u1 + a01u 2 + a11u1u 2 + a20 u12 + a02 u 22 + 
Provided that we use a sufficiently large number of parameters, the
polynomial we obtain approximates any continuous function at any
precision level, on a compact domain.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
9
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
FEEDFORWARD NEURAL NETWORKS WITH MULTILAYER PERCEPTRONS (NN)
Example of Neural Network with:

1 input;

1 “hidden layer” with 1 neuron;

1 output.
1
1
β
u
δ
σ(•)
α
Hidden layer
(nonlinear layer)
y
γ
Linear layer
:
α, β, γ, δ are the Neural Network parameters:
ϑ = [α
β
γ
δ] .
T
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
10
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
σ : ℜ → ℜ is a static non-linear sigmoidal function. Examples:

x → tanh(x)
σ(x)
x
0

x→
1
1 − 0.5e − x
σ(x)
1
0,5
0
x
Both these functions:

Regularity C ∞ ;

Linearity around x = 0 ;

They “saturate” asymptotically when x → ±∞ .
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
11
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Analytical expression of the Neural Network:
y = δ + γσ(β + αu )
The structure:
1
β
α
σ(•)
is called “neuron”.
The parameters are:

α : neuron “weight”;

β : neuron “bias (or offset) “;
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
12
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Extend the example to a more general case:
Neural Network with:

2 inputs

1 hidden layer/non linear with 3 neurons;

1 output.
1
β1
α11
u1
α12
σ(•)
1
β2
α 21
α 22
u2
γ1
σ(•)
1
y
γ2
γ3
β3
α 31
1
δ
σ(•)
α 32
Non linear layer
Linear layer
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
13
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
To write the analytical expression, we define:
 α11
A = α 21

α 31
α12 
α 22 

α 32 
(weight matrix of the non-linear layer)
β1 
B = β 2 
 
β 3 
(bias vector of the non-linear layer)
 γ1 
C = γ 2 
 
 γ 3 
(weight vector of the linear layer).
D = [δ]
(bias of the linear layer).
u 
U =  1
u 2 
The I/O analytical expression is:
y = D + C T σ(B + AU )
=
+
⋅σ
+
  x    σ( x ) 
σ is applied element by element: σ  1   =  1  .
  x2   σ( x2 )
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
14
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
It’s easy to extend this I/O relationship to a generic Neural Network
with:

p inputs;

1 hidden layer with h neurons;

1 output.
y = D + C T σ(B + AU )
1x1
hx1
hx1
hxp
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
15
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
(Graphic) example of Neural Network with:

1 input

2 non-linear layers with 3 and 2 neurons respectively;

1 output:
1
β11
1
α111
σ(•)
1
α 211
β 21
σ(•)
α 212
β12
u1
α 213
σ(•)
α121
β13
α131
β 22
α 222
σ(•)
1st non linear layer
δ
γ1
y
1
α 221
1
1
γ2
σ(•)
α 223
2nd non linear layer
Linear layer
The 1st non-linear layer has: 1 x 3 weights + 3 bias
The 2nd non-linear layer has: 3 x 2 weights + 2 bias.
The linear layer has: 2 x 1 weights + 1 bias.
Totally we have 17 parameters.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
16
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Remark
A NN with one non-linear layer with h neurons and a linear layer is a
universal approximating function (in theory - and in practice- it’s not
necessary to use so many hidden layers).
⇒ Suppose we use Neural Networks with:

p inputs;

1 hidden layer with h neurons;

1 output layer (1 output).
Problem: how to find h “optimal”?
The easiest way is to use the “cross-validation” approach.
Divide the data in two sets:

“Training” data Ο
/ I;

“Validation” data Ο
/V.
Find the optimal vector ϑ̂ , using Ο
/V.
/ I , and validate the model on Ο
J (ϑˆ )
(
ˆ Ο
J ϑ,
/V
)
(
ˆ Ο
J ϑ,
/I
1
2
3
)
h
4
h optimal
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
17
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
PROBLEM: IDENTIFICATION OF THE NN PARAMETERS
ϑˆ = arg min{J (ϑ)}
ϑ
1 N
2
J (ϑ) = ∑ ( y (i ) − f (u (i ); ϑ))
N i =1
J (ϑ) is the sample variance of the output error (MSE: Mean Square
Error).
In case of Neural Networks, J (ϑ) is a function:

≥0;

Not quadratic;

Not convex.
⇒ we need iterative algorithms to minimize it (global minimum not
guaranteed).
In case of Neural Networks, the iterative method for the minimumsearch ϑ̂ is known as “Back-propagation algorithm”.
This algorithm is just the classical gradient method applied to Neural
Networks:
ϑ ( t +1) = ϑ ( t ) − µ
∂J (ϑ)
∂ϑ ϑ = ϑ
(t )
Where µ is the algorithm step and
∂J (ϑ)
is the gradient at step t.
∂ϑ ϑ = ϑ
(t )
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
18
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Example (1 input, 1 non-linear layer with 1 neuron, 1 output):
J (ϑ) =
1 N
2
∑ ε(i )
N i =1
∂J (ϑ) 2 N
∂ε(i )
= ∑ ε(i )
N i =1
∂ϑ
∂ϑ
ε(i ) = y (i ) − (δ + γσ(β + αu (i ) ))
∂ε(i )
= −1
∂δ
∂ε(i )
= −σ(β + αu (i ) )
∂γ
∂ε(i )
= − γσ (β + αu (i ) )
∂β
∂ε(i )
= − γσ (β + αu (i ) ) ⋅ u (i )
∂α

2 N
(
)

(
)
(
)
(
)
i
u
i
u
i
−
ε
γ
σ
β
+
α
⋅
∑

 N i =1

 2 N
− ε(i ) γσ (β + αu (i ) ) 
∂J (ϑ)  N ∑
i =1

=
N
2
∂ϑ

∑ − ε(i )σ(β + αu (i ) ) 

 N i =1


2 N
(
)
i
−
ε
∑


N i =1
Remark: the choice of µ is made empirically:

If µ is small ⇒ slow and safe optimization;

If µ is big ⇒ quick optimization but with risk of instability.
There are many variations of the basic Back-propagation method
which differ in the choice of µ (and in the way it is made timevariant).
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
19
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
RADIAL BASIS NEURAL NETWORKS (RBF - RADIAL BASIS
FUNCTIONS)
The RBF (Radial Basis Functions) networks are an alternative to the
NN networks previously studied.
Example:

u 
2 inputs u =  1 
u 2 

3 neurons (basis):

1 output
Γ1
u1
Γ2
γ1
1
δ
y
γ2
u2
γ3
Γ3
3
Analytic expression: y = δ + ∑ γ j Γ j (u1 , u 2 )
j =1
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
20
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
The inner structure of j-th neuron (j-th basis) is:
Γj
u1
dist({u1 , u2 }, {α1j ,α 2j }) 2 =
(u
exp(−(•))
1 − α1j ) + (u 2 − α 2j )
u2
2
2
βj
The “dist” function computes the Euclidean distance between {u1 ,u 2 }
and {α1 j , α 2 j }.
Γ(u ) overall works this way:
e
( ((
− β j u1 −α1 j
)2 + (u 2 −α 2 j )2 ))
Notice that each Γ j neuron is characterized by the following inner
parameters:

{α

β j called “neuron width”
1j
, α 2 j } called “neuron center”
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
21
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Graphic representation (1 input)
Γj
1
for β j decreasing
αj
u
Graphic representation (2 inputs)
Γj
1
α1 j
α2 j
• Vector {α1 j , α 2 j } defines the centre of each function Γ j (bellshaped)
• β j defines the “bell” width
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
22
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Main characteristics of a RBF:

It’s a linear function w.r.t. parameter vector:
n
y = δ + ∑ γ j Γ j (u )
j =1
(δ and γ j are the optimization parameters)

Unlike the NN networks it always has only one non-linear layer;

The non-linear function inside the neuron is no longer
“sigmoidal” but “bell-shaped”:
Γj
u
⇓⇑
σ(x)
0
x
The Γ j of a RBF is a local function “with compact support” (in
practice); instead σ works on the whole real domain.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
23
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
General expression of a RBF:

 u1 
 
p inputs u =    ;
u p 

n neurons (basis)

1 output.
(
)
p
2

y = δ + ∑ γ j exp − β j ∑ uh − α h j 
j =1
h =1


n
Parameter vector ϑ :
ϑ = [δ
γ1
γ2

γn ]
T
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
24
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Problem: how to obtain the optimal parameter vector?
Given a measurement set:
{u (1), u (2),..., u ( N )}
{y (1), y (2),..., y ( N )}
we look for ϑ̂ which minimizes
1
J (θ ) =
N
n




−
−
Γ
δ
γ
(
)
(
(
))
y
i
u
i
∑
∑
j
j

i =1 
j =1

N
2
⇓
Problem of minimization of a semi-definite positive and quadratic
function!
We have to solve this over-determined problem:
1 Γ1 (u (1)) Γ2 (u (1))
1 Γ (u (2)) Γ (u (2))
1
2





1 Γ1 (u ( N )) Γ2 (u ( N ))
δ 
Γn (u (1))     y (1) 
γ
 Γn (u (2))   1   y (2) 
 γ 2  = 



    
   

 Γn (u ( N ))
(
)
y
N

γ n  


Φ ⋅ϑ = Y
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
25
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Φ ⋅ ϑ = Y is a system with N equations and n+1 unknown values
(with N >> n + 1)
⇓
Φ T Φϑ = Φ T Y
ϑˆ = (Φ T Φ ) Φ T Y
−1
where (Φ T Φ ) −1 Φ T = Φ + (pseudo-inverse of Φ ).
To find the optimal parameter vector of a RBF, it’s enough to solve a
problem of quadratic optimization:

1! solution;

No local minima;

Explicit solution.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
26
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Problem: the parameters α hj and β j were hidden in Γ j ; actually we
assumed they were chosen a priori and that they were not the object of
optimizations; how do we choose them?
To choose the centers α hj we normally use two approaches:
 We randomly select n points {u (i )} among the N measured input
values;
Ex. (p=2; n=6)
u2
u (i ) measured
u1
6 centers of 6 neurons
randomly chosen
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
27
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
 We distribute evenly n points inside a rectangular domain of ℜ p .
Ex. (p=2; n=6)
Evenly-distributed 6
centers of 6 neurons
u2
u2 max
u2 min
u1 min
u1 max
u1
To choose β j , we normally assume:
β1 = β 2 =  = β n = β
and then minimize with respect to β (we design many RBF, using
different values of β )
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
28
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
J (ϑˆ )
1
2
3
β
4
β optimal
The choice of β is very critical as β defines the smoothness of the
function. (Graphical examples of β chosen incorrectly → )
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
29
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Remark (comparison)
Structure
Training
Number of
RBF
NN
1 layer
Multy-layer

1! solution


no local minima


explicit
local minima
iterative
optimization
many
few
parameters
In general:

If u dimension is “low” ( p = 1,2,3,5 ), we prefer to use RBF;

If u dimension is “high” ( p = 10,,100,), we prefer to use the
NN.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
30
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
N-ARMAX MODELS
ARMAX Model:
y (t ) = a1 y (t − 1) +  + a m y (t − m) + b0 u (t − 1) +  + b p u (t − p − 1) +
+ e(t ) + c1 e(t − 1) +  + c n e(t − n)
e ~ WN(µ, λ2 )
⇓
N-ARMAX Model:
y (t ) = f ( y (t − 1),, y (t − m), u (t − 1),, u (t − p − 1), e(t ),, e(t − n); ϑ)
f is a non-linear parametric and static function.
In practice N-ARX models are typically used:
y (t ) = f ( y (t − 1),, y (t − m), u (t − 1),, u (t − p − 1); ϑ) + e(t )
In this case the noise is linear and additive.
N-ARX: it’s easy to write its predictor:
yˆ (t / t − 1) = f ( y (t − 1),, y (t − m), u (t − 1),, u (t − p − 1); ϑ)
We obtain the optimal parameter vector ϑ , by minimizing:
J (ϑ) =
1 N
2
∑ ( y (t ) − yˆ (t / t − 1) )
N t =1
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
31
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
The structure of N-ARX predictor is:
u (t )
z −1
z −1
u (t − 1)
u (t − 2)
f (•; ϑ)
(e.g. NN
or RBF)
z −1
y (t )
z −1
z −1
z −1
u (t − p − 1)
yˆ (t / t − 1)
y (t − 1)
y (t − 2)
y (t − m)
The identification of a non-linear and dynamic model N-ARX (m,p+1)
is practically reduced to the training of a static Neural Network (with
m+p+1 inputs instead of a single one (delayed outputs and inputs).
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
32
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Remark
When we identify NARX (or NARMAX) models it’s important to
understand the difference between a prediction and simulation model.
Assuming we collected the following measured data sets:
{u
{y
M
M
(1), u M (2),, u M ( N )}
(1), y M (2),, y M ( N )}
(M is used to stress the fact that these are Measured data)
The performance index is:
J N (ϑ) =

1 N
2
∑ ε(t , ϑ)
N t =1
Prediction error
ε p (t , ϑ ) = y M (t ) − f (u M (t − 1),  , u M (t − p − 1), y M (t − 1), 
 , y M (t − m);ϑ )

Simulation error
ε s (t , ϑ ) = y M (t ) − f (u M (t − 1),  , u M (t − p − 1), yˆ (t − 1 / t − 2), 
 , yˆ (t − m / t − m − 1); ϑ )
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
33
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Model used as a predictor
uM (t )
yM (t )
z
−1
uM (t − 1)
z −1
uM (t − 2)
z −1
uM (t − p − 1)
f
z −1
yM (t − 1)
z −1
yM (t − 2)
z −1
yM (t − m)
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
yˆ (t / t − 1)
34
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Model used as simulator:
uM (t )
z −1
uM (t − 1)
z −1
uM (t − 2)
z −1
uM (t − p − 1)
z −1
z −1
z −1
f
yˆ (t / t − 1)
yˆ (t − m / t − m − 1)
yˆ (t − 2 / t − 3)
yˆ (t − 1 / t − 2)
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
35
Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame
questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso.
Problem: in the optimization phase it’s better to use:
J N (ϑ) =
1 N
2
∑ ε p (t , ϑ)
N t =1
or
1 N
J N (ϑ) = ∑ ε s (t , ϑ) 2 ?
N t =1
If the model target is not simply data-prediction, we would use
ε s (t , ϑ).
Making use of ε s (t , ϑ), J N (ϑ) minimization is much more complex.
For this reason, in practice, we optimize by ε p (t , ϑ) and afterwards we
use the final results for a simulation model.
Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS
36
Download