Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. NON-LINEAR SYSTEMS Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 1 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. INTRODUCTION Data: {u (1), u (2),, u ( N )} {y (1), y (2), y ( N )} u (i ) Model f (u; ϑ) y (i ) f (u; ϑ) is a static function (not dynamic) of the input u. In general: y (i ) = f (u (i ); ϑ) • ϑ is the vector of the model parameters • y (i ) only depends on u (i ) with the same index; it depends neither on u (i − 1), u (i − 2), neither on y (i − 1), y (i − 2), NB: index i and not necessarily t Unlike what we’ve seen up to now, f (•; ϑ) is a non-linear function. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 2 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. y (t ) = a1 y (t − 1) + + am y (t − m) + b0u (t − 1) + + bpu (t − p − 1) ≠ Linear/dynamic relationship Non-linear/static relationship y (t ) = f (u (t )) Since the relation between u and y is static, we can represent the points {u (1), u (2),, u ( N )} {y (1), y (2), y ( N )}, ignoring the index: u i y i This representation gives information about the order of {u (i ), y (i )} pairs. → Example of static function (e.g. market basket) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 3 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. y i-th pair u-y {u (i ), y (i )} u In this representation we loose information about the temporal relationship among the different {u (i ), y (i )} pairs. • It’s no longer necessary to explicitly consider the temporal order of {u (i ), y (i )} pairs, since we want to identify a static model ( any information about a temporal order is not relevant) • On the other side we make use of i instead of t to underline that the data order is not important (this is not necessarily a temporal index). Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 4 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Dimensionality assumptions: u (i ) ∈ ℜ p u1 (i ) u (i ) 2 ∈ℜp u (i ) = i u ) ( p y (i ) ∈ ℜ1 (mono-dimensional output) Remark These assumptions do not affect the generality of our models, since a system with p inputs and m outputs can be modeled with m parallel models, each with p inputs and one output. Ex. 2 inputs – 2 outputs u1 (i ) f (u (i ); ϑ) u2 (i ) y1 (i ) y2 (i ) equivalent u1 (i ) f 1 (u (i ); ϑ1 ) f 2 (u (i ); ϑ 2 ) y1 (i ) 2 inputs – 1 output y2 (i ) u2 (i ) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 5 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Remark It’s important to distinguish between two classes of problems. Interpolation We assume that data are not disturbed and we want that the estimated function f (u , ϑˆ ) passes through each {u (i ), y (i )} point. y {u (i), y (i)} y (i ) = f (u (i ); ϑˆ ) u A sufficient condition to solve the interpolation problem is that N = nϑ ( nϑ = dim(ϑ) ). Fitting We assume that data are noise-disturbed ⇒ it’s useless to look for a f (u , ϑˆ ) passing through each {u (i ), y (i )} pair ⇒ we want f (u , ϑˆ ) to fit the data by canceling each meaningless noise- generated variation. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 6 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. y f (u (i ); ϑˆ ) interpolated f (u (i ); ϑˆ ) approximated u Unlike the interpolation problem, where N = nϑ , the fitting problem intrinsically demands N >> nϑ . • The fitting function is not perfect for the data we used for its identification, but owns generalization properties (suitable for other data too). • The interpolation function fits only to measured data (it makes no generalizations) N.B.: If we can interpolate a data set using nϑ < N , we solve a “datacompression” problem. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 7 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Problem: how can we choose a class of non-liner parametric functions f (•; ϑ) ? The normally requested characteristic is: f must be a “universal approximating function”: provided that we use a sufficiently-large number of parameters, we can approximate any continuous function at whatever precision level, on a compact domain. If u ∈ U ⊂ ℜ p , compact, and we need to fit the g : U → ℜ function (with g of class C 0 ) with an f (u; ϑ) class of parametric functions, we can state that f is an universal approximating function if: ∀ε > 0, ∃nϑ so that ∃ϑˆ that fulfils the following relation: g (u ) − f (u; ϑˆ ) < ε ∀u ∈ U (the mistake made by f is uniformly lower than ε on all U). Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 8 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. The following function classes are universal approximating functions: Polynomial Splines Multi-layer perceptron Neural Networks (NN) Radial Basis Functions (RBF) Wavelets Example 2-dimensional polynomial u1 y u2 y = a00 + a10 u1 + a01u 2 + a11u1u 2 + a20 u12 + a02 u 22 + Provided that we use a sufficiently large number of parameters, the polynomial we obtain approximates any continuous function at any precision level, on a compact domain. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 9 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. FEEDFORWARD NEURAL NETWORKS WITH MULTILAYER PERCEPTRONS (NN) Example of Neural Network with: 1 input; 1 “hidden layer” with 1 neuron; 1 output. 1 1 β u δ σ(•) α Hidden layer (nonlinear layer) y γ Linear layer : α, β, γ, δ are the Neural Network parameters: ϑ = [α β γ δ] . T Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 10 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. σ : ℜ → ℜ is a static non-linear sigmoidal function. Examples: x → tanh(x) σ(x) x 0 x→ 1 1 − 0.5e − x σ(x) 1 0,5 0 x Both these functions: Regularity C ∞ ; Linearity around x = 0 ; They “saturate” asymptotically when x → ±∞ . Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 11 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Analytical expression of the Neural Network: y = δ + γσ(β + αu ) The structure: 1 β α σ(•) is called “neuron”. The parameters are: α : neuron “weight”; β : neuron “bias (or offset) “; Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 12 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Extend the example to a more general case: Neural Network with: 2 inputs 1 hidden layer/non linear with 3 neurons; 1 output. 1 β1 α11 u1 α12 σ(•) 1 β2 α 21 α 22 u2 γ1 σ(•) 1 y γ2 γ3 β3 α 31 1 δ σ(•) α 32 Non linear layer Linear layer Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 13 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. To write the analytical expression, we define: α11 A = α 21 α 31 α12 α 22 α 32 (weight matrix of the non-linear layer) β1 B = β 2 β 3 (bias vector of the non-linear layer) γ1 C = γ 2 γ 3 (weight vector of the linear layer). D = [δ] (bias of the linear layer). u U = 1 u 2 The I/O analytical expression is: y = D + C T σ(B + AU ) = + ⋅σ + x σ( x ) σ is applied element by element: σ 1 = 1 . x2 σ( x2 ) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 14 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. It’s easy to extend this I/O relationship to a generic Neural Network with: p inputs; 1 hidden layer with h neurons; 1 output. y = D + C T σ(B + AU ) 1x1 hx1 hx1 hxp Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 15 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. (Graphic) example of Neural Network with: 1 input 2 non-linear layers with 3 and 2 neurons respectively; 1 output: 1 β11 1 α111 σ(•) 1 α 211 β 21 σ(•) α 212 β12 u1 α 213 σ(•) α121 β13 α131 β 22 α 222 σ(•) 1st non linear layer δ γ1 y 1 α 221 1 1 γ2 σ(•) α 223 2nd non linear layer Linear layer The 1st non-linear layer has: 1 x 3 weights + 3 bias The 2nd non-linear layer has: 3 x 2 weights + 2 bias. The linear layer has: 2 x 1 weights + 1 bias. Totally we have 17 parameters. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 16 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Remark A NN with one non-linear layer with h neurons and a linear layer is a universal approximating function (in theory - and in practice- it’s not necessary to use so many hidden layers). ⇒ Suppose we use Neural Networks with: p inputs; 1 hidden layer with h neurons; 1 output layer (1 output). Problem: how to find h “optimal”? The easiest way is to use the “cross-validation” approach. Divide the data in two sets: “Training” data Ο / I; “Validation” data Ο /V. Find the optimal vector ϑ̂ , using Ο /V. / I , and validate the model on Ο J (ϑˆ ) ( ˆ Ο J ϑ, /V ) ( ˆ Ο J ϑ, /I 1 2 3 ) h 4 h optimal Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 17 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. PROBLEM: IDENTIFICATION OF THE NN PARAMETERS ϑˆ = arg min{J (ϑ)} ϑ 1 N 2 J (ϑ) = ∑ ( y (i ) − f (u (i ); ϑ)) N i =1 J (ϑ) is the sample variance of the output error (MSE: Mean Square Error). In case of Neural Networks, J (ϑ) is a function: ≥0; Not quadratic; Not convex. ⇒ we need iterative algorithms to minimize it (global minimum not guaranteed). In case of Neural Networks, the iterative method for the minimumsearch ϑ̂ is known as “Back-propagation algorithm”. This algorithm is just the classical gradient method applied to Neural Networks: ϑ ( t +1) = ϑ ( t ) − µ ∂J (ϑ) ∂ϑ ϑ = ϑ (t ) Where µ is the algorithm step and ∂J (ϑ) is the gradient at step t. ∂ϑ ϑ = ϑ (t ) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 18 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Example (1 input, 1 non-linear layer with 1 neuron, 1 output): J (ϑ) = 1 N 2 ∑ ε(i ) N i =1 ∂J (ϑ) 2 N ∂ε(i ) = ∑ ε(i ) N i =1 ∂ϑ ∂ϑ ε(i ) = y (i ) − (δ + γσ(β + αu (i ) )) ∂ε(i ) = −1 ∂δ ∂ε(i ) = −σ(β + αu (i ) ) ∂γ ∂ε(i ) = − γσ (β + αu (i ) ) ∂β ∂ε(i ) = − γσ (β + αu (i ) ) ⋅ u (i ) ∂α 2 N ( ) ( ) ( ) ( ) i u i u i − ε γ σ β + α ⋅ ∑ N i =1 2 N − ε(i ) γσ (β + αu (i ) ) ∂J (ϑ) N ∑ i =1 = N 2 ∂ϑ ∑ − ε(i )σ(β + αu (i ) ) N i =1 2 N ( ) i − ε ∑ N i =1 Remark: the choice of µ is made empirically: If µ is small ⇒ slow and safe optimization; If µ is big ⇒ quick optimization but with risk of instability. There are many variations of the basic Back-propagation method which differ in the choice of µ (and in the way it is made timevariant). Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 19 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. RADIAL BASIS NEURAL NETWORKS (RBF - RADIAL BASIS FUNCTIONS) The RBF (Radial Basis Functions) networks are an alternative to the NN networks previously studied. Example: u 2 inputs u = 1 u 2 3 neurons (basis): 1 output Γ1 u1 Γ2 γ1 1 δ y γ2 u2 γ3 Γ3 3 Analytic expression: y = δ + ∑ γ j Γ j (u1 , u 2 ) j =1 Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 20 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. The inner structure of j-th neuron (j-th basis) is: Γj u1 dist({u1 , u2 }, {α1j ,α 2j }) 2 = (u exp(−(•)) 1 − α1j ) + (u 2 − α 2j ) u2 2 2 βj The “dist” function computes the Euclidean distance between {u1 ,u 2 } and {α1 j , α 2 j }. Γ(u ) overall works this way: e ( (( − β j u1 −α1 j )2 + (u 2 −α 2 j )2 )) Notice that each Γ j neuron is characterized by the following inner parameters: {α β j called “neuron width” 1j , α 2 j } called “neuron center” Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 21 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Graphic representation (1 input) Γj 1 for β j decreasing αj u Graphic representation (2 inputs) Γj 1 α1 j α2 j • Vector {α1 j , α 2 j } defines the centre of each function Γ j (bellshaped) • β j defines the “bell” width Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 22 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Main characteristics of a RBF: It’s a linear function w.r.t. parameter vector: n y = δ + ∑ γ j Γ j (u ) j =1 (δ and γ j are the optimization parameters) Unlike the NN networks it always has only one non-linear layer; The non-linear function inside the neuron is no longer “sigmoidal” but “bell-shaped”: Γj u ⇓⇑ σ(x) 0 x The Γ j of a RBF is a local function “with compact support” (in practice); instead σ works on the whole real domain. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 23 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. General expression of a RBF: u1 p inputs u = ; u p n neurons (basis) 1 output. ( ) p 2 y = δ + ∑ γ j exp − β j ∑ uh − α h j j =1 h =1 n Parameter vector ϑ : ϑ = [δ γ1 γ2 γn ] T Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 24 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Problem: how to obtain the optimal parameter vector? Given a measurement set: {u (1), u (2),..., u ( N )} {y (1), y (2),..., y ( N )} we look for ϑ̂ which minimizes 1 J (θ ) = N n − − Γ δ γ ( ) ( ( )) y i u i ∑ ∑ j j i =1 j =1 N 2 ⇓ Problem of minimization of a semi-definite positive and quadratic function! We have to solve this over-determined problem: 1 Γ1 (u (1)) Γ2 (u (1)) 1 Γ (u (2)) Γ (u (2)) 1 2 1 Γ1 (u ( N )) Γ2 (u ( N )) δ Γn (u (1)) y (1) γ Γn (u (2)) 1 y (2) γ 2 = Γn (u ( N )) ( ) y N γ n Φ ⋅ϑ = Y Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 25 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Φ ⋅ ϑ = Y is a system with N equations and n+1 unknown values (with N >> n + 1) ⇓ Φ T Φϑ = Φ T Y ϑˆ = (Φ T Φ ) Φ T Y −1 where (Φ T Φ ) −1 Φ T = Φ + (pseudo-inverse of Φ ). To find the optimal parameter vector of a RBF, it’s enough to solve a problem of quadratic optimization: 1! solution; No local minima; Explicit solution. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 26 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Problem: the parameters α hj and β j were hidden in Γ j ; actually we assumed they were chosen a priori and that they were not the object of optimizations; how do we choose them? To choose the centers α hj we normally use two approaches: We randomly select n points {u (i )} among the N measured input values; Ex. (p=2; n=6) u2 u (i ) measured u1 6 centers of 6 neurons randomly chosen Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 27 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. We distribute evenly n points inside a rectangular domain of ℜ p . Ex. (p=2; n=6) Evenly-distributed 6 centers of 6 neurons u2 u2 max u2 min u1 min u1 max u1 To choose β j , we normally assume: β1 = β 2 = = β n = β and then minimize with respect to β (we design many RBF, using different values of β ) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 28 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. J (ϑˆ ) 1 2 3 β 4 β optimal The choice of β is very critical as β defines the smoothness of the function. (Graphical examples of β chosen incorrectly → ) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 29 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Remark (comparison) Structure Training Number of RBF NN 1 layer Multy-layer 1! solution no local minima explicit local minima iterative optimization many few parameters In general: If u dimension is “low” ( p = 1,2,3,5 ), we prefer to use RBF; If u dimension is “high” ( p = 10,,100,), we prefer to use the NN. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 30 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. N-ARMAX MODELS ARMAX Model: y (t ) = a1 y (t − 1) + + a m y (t − m) + b0 u (t − 1) + + b p u (t − p − 1) + + e(t ) + c1 e(t − 1) + + c n e(t − n) e ~ WN(µ, λ2 ) ⇓ N-ARMAX Model: y (t ) = f ( y (t − 1),, y (t − m), u (t − 1),, u (t − p − 1), e(t ),, e(t − n); ϑ) f is a non-linear parametric and static function. In practice N-ARX models are typically used: y (t ) = f ( y (t − 1),, y (t − m), u (t − 1),, u (t − p − 1); ϑ) + e(t ) In this case the noise is linear and additive. N-ARX: it’s easy to write its predictor: yˆ (t / t − 1) = f ( y (t − 1),, y (t − m), u (t − 1),, u (t − p − 1); ϑ) We obtain the optimal parameter vector ϑ , by minimizing: J (ϑ) = 1 N 2 ∑ ( y (t ) − yˆ (t / t − 1) ) N t =1 Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 31 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. The structure of N-ARX predictor is: u (t ) z −1 z −1 u (t − 1) u (t − 2) f (•; ϑ) (e.g. NN or RBF) z −1 y (t ) z −1 z −1 z −1 u (t − p − 1) yˆ (t / t − 1) y (t − 1) y (t − 2) y (t − m) The identification of a non-linear and dynamic model N-ARX (m,p+1) is practically reduced to the training of a static Neural Network (with m+p+1 inputs instead of a single one (delayed outputs and inputs). Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 32 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Remark When we identify NARX (or NARMAX) models it’s important to understand the difference between a prediction and simulation model. Assuming we collected the following measured data sets: {u {y M M (1), u M (2),, u M ( N )} (1), y M (2),, y M ( N )} (M is used to stress the fact that these are Measured data) The performance index is: J N (ϑ) = 1 N 2 ∑ ε(t , ϑ) N t =1 Prediction error ε p (t , ϑ ) = y M (t ) − f (u M (t − 1), , u M (t − p − 1), y M (t − 1), , y M (t − m);ϑ ) Simulation error ε s (t , ϑ ) = y M (t ) − f (u M (t − 1), , u M (t − p − 1), yˆ (t − 1 / t − 2), , yˆ (t − m / t − m − 1); ϑ ) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 33 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Model used as a predictor uM (t ) yM (t ) z −1 uM (t − 1) z −1 uM (t − 2) z −1 uM (t − p − 1) f z −1 yM (t − 1) z −1 yM (t − 2) z −1 yM (t − m) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS yˆ (t / t − 1) 34 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Model used as simulator: uM (t ) z −1 uM (t − 1) z −1 uM (t − 2) z −1 uM (t − p − 1) z −1 z −1 z −1 f yˆ (t / t − 1) yˆ (t − m / t − m − 1) yˆ (t − 2 / t − 3) yˆ (t − 1 / t − 2) Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 35 Materiale ad uso esclusivo degli studenti del corso. Vietata ogni forma di copia o distribuzione. Per la preparazione all’esame questo materiale va integrato con le spiegazioni del docente durante le lezioni, e con i libri di testo del corso. Problem: in the optimization phase it’s better to use: J N (ϑ) = 1 N 2 ∑ ε p (t , ϑ) N t =1 or 1 N J N (ϑ) = ∑ ε s (t , ϑ) 2 ? N t =1 If the model target is not simply data-prediction, we would use ε s (t , ϑ). Making use of ε s (t , ϑ), J N (ϑ) minimization is much more complex. For this reason, in practice, we optimize by ε p (t , ϑ) and afterwards we use the final results for a simulation model. Identificazione dei Modelli ed Analisi dei Dati - NON-LINEAR SYSTEMS 36