Chapter 3

advertisement
類神經網路
1
類神經網路-起源
類神經網路理論起源於1950年,當時科學家仿造
人類大腦的組織及運作方式,開始提出稱之為「感知
機」(Preceptorn)神經元模型,這是最簡單也是最早
的類神經模型,感知機通常被拿來做分類器(Classifier)
使用。
2
類神經網路-簡介
類神經網路(Artificial Neural Network)類似人
類神經結構的一個平行計算模式,是「一種基於腦與神
經系統研究,所啟發的資訊處理技術」,通常也被稱為
平行分散式處理模式(Parallel Distributed Processing
Model)或連結模式(Connectionist Model)。
3
平行分散式系統
1.負荷分散:整個負荷是由各主電腦分擔的,因此可以有
效的節省處理時間或處理更多的工作。
2.風險分散:由於全部工作並非由同一台電腦所承擔,所
以不論什麼地方的電腦出現了故障,都是局部的,不會
造成整個系統的癱瘓。
3.獨立性強:平行分散處理系統中各部份的獨立性較集中
處理系統強,因此我們可以很容易改變或追加系統功能。
4.具經濟性:利用數台低價位的電腦取代一部高價位的高
速電腦,節省購置硬體及維修的成本。
4
類神經網路
1. 類神經網路它可以利用一組範例,即系統輸入與輸
出所組成的資料,建立系統模型(輸入與輸出間的
關係)。有了這樣的系統模型便可用於推估、預測、
決策、診斷,而常見的迴歸分析統計技術也是一個
可利用的範例,因此類神經網路也可以視為一種特
殊形式的統計技術。
2. 輸入與輸出之間的關係如下所示:
5
輸出變數之特性
1. 函數型問題:
網路的輸出為一個連續變數,例如
 物理化學變量(濃度、溫度、PH值、強度…)
 經濟社會變量(匯率、利率、成本、銷售量…)
2. 分類型問題:
網路的輸出為一個分類變數,例如
 決策(醫藥處方、替代方案、買賣決策…)
 診斷(疾病種類、故障原因、訊號分類…)
6
一個類神經元的模型顯示
X:稱為神經元的輸入(input)
W:稱為鍵結值(weights)
b:稱為閥值(bias):有偏移的效果
S:稱為summation:此部分是將每一
個輸入與鍵結值相乘後做一加總
的動作。
φ( ):稱之為活化函數(activation function)-通常是非線性函數,
有數種不同的型式,其目的是將S的值做映射得到所需要的輸出。
Y:稱之為output-亦即我們所需要的結果。
*虛線的部分即為類神經元
7
鍵結值
1. 類神經的訓練就是在調整鍵結值(weight),使其變得更大或更
小,通常是以隨機的方式產生介於+1到-1之間的初始值。
2. 鍵結值越大,代表連接的神經元更容易被激發,對類神經網路
的影響也更大。
3. 鍵結值越小,通常可以移除以節省電腦計算的時間與空間。
4. 如果輸出單元的輸出值和所預期的值相同,則連接到此輸
出單元的連結強度(weight的大小)則不被改變。
5. 如果該輸出1卻輸出0:連接到此輸出單元的連結強度會被加強。
該輸出0卻輸出1:連接到此輸出單元的連結強度會被降低。
6. 達成收斂的效果是這個學習程式的主要目標。
8
類神經網路-目的
1.類神經網路目的:讓類神經網路的輸出越接近目標
值。
2.在學習前,我們必須建立出一個訓練樣本(training
pattern),使類神經網路在學習的過程中有一個參考。
3.透過training的方式,讓類神經反覆的學習,直到對
於每個輸入層都能正確的對應到所需要的輸出。
4.隨著訓練次數的增加,類神經網路的鍵結值會逐漸
被調整,使得目標值與類神經網路的輸出兩者誤差
越來越小。當誤差幾乎不再變化時,此類神經網路
已收斂,亦即完成神經網路訓練。
9
類神經網路模型
類神經網路模型可分成五大類:
1. 監督式學習網路
2. 無監督式學習網路
3. 混合式學習網路
4. 聯想式學習網路
5. 最適化應用網路
其中「監督式學習」網路是目前應用最普遍的類
神
經網路,應用十分廣泛(約占現有應用95%)。
10
監督式學習網路
(Supervised Learning Network)
11
類神經網路模型-說明
監督式學習網路
無監督式學習網路
 從問題領域中提供訓練範
 只從問題領域中取得只有
例,包含輸入資料與輸出
輸入資料的訓練範例。
資料。
 網路從中學習輸入資料的
 網路從中學習輸入資料與
內在聚類規則,以應用於
輸出資料的內在對映規則。
新的案例。
 有如老師指導學生對問題
做正確的回答。
 常應用於圖形辨認和預測
領域。
12
類神經網路模型-說明
混合式學習網路
 結合無監督式學習與監督式學習
 學習過程分成兩階段:
1. 第一階段以無監督式學習調整輸入層與隱藏層間
的連結加權值,達到將訓練範例聚類到隱藏層單
元的目的。
2. 第二階段以監督式學習調整隱藏層與輸出層問的
鏈結加權值,達到學習訓練範例輸入向量對映輸
出向量內在規則的目的。
13
類神經網路模型-說明
聯想式學習網路
最適化應用網路
 以狀態變數值為訓練範例,  對一問題決定其設計變數
並從中學習範例的記憶規
值,使其在滿足設計限制
則,然後應用於只有不完
下,使設計目標達最佳狀
整狀態值,而需推論完整
態的應用。此類應用的網
狀態的新案例,這種網路
路架構大都與聯想式學習
可以應用於擷取應用與雜
網路的架構相似。
訊過濾。
14
監督式學習網路-原理
1.
2.
3.
4.
5.
最常用的五種監督式學習網路的原理:
導傳遞網路(Back-propagation Network,BPN)
多層函數連結網路(Multilayer Functional-Link
Network,MFLN)
通用迴歸網路(General Regression Neural Network,
GRNN)
學習向量量化網路(Learning Vector Quantization
Network,LVQ)
半徑式函數網路(Radial Basis Function Network,
RBFN)
15
倒傳遞網路
倒傳遞類神經網路隸屬於監督是學習
(Supervised
learning)模式的一種,其學習階段會反覆執行下列兩
個步驟:
1. 順向傳遞(Forward pass) :對於每個輸出節點,其
實際輸入值會與期望輸出值做比較後產生一個誤
差訊號。
2. 逆向傳遞(Reverse pass) :目的在調整每一層的權
重值及臨界值。
16
倒傳遞網路-結構
倒傳遞類神經網路之結構包含三層:
1. 輸入層(input layer):輸入層中神經元的數目即
為我們所欲輸入的變數個數。
2. 隱藏層(hidden layer):隱藏層之數目可以是一
層或多層。
3. 輸出層(output layer):輸出層中神經元的輸出
結果則為網路最後的輸出值。
17
倒傳遞網路-結構圖
輸
入
變
數
輸
出
變
數
神經元
輸入層
隱藏層
輸出層
18
倒傳遞網路-優缺點
優點:
 學習準確度高
 回想速度快
 含有雜訊輸入資料的
處理
缺點:
 學習速度緩慢
 易陷入局部最小值
 (local minimum)的
問題
……等等。
19
倒傳遞網路-演算流程
由輸入層將資料傳給隱藏層,經計算與轉換後,
將
預測結果送至輸出層,再算出輸出值與實際值的差
距
後,再回傳給隱藏層去修正連接鍵的權數,其目的
是
要使輸出層之輸出值與實際值的均方誤差最小。
20
倒傳遞網路-轉換函數
倒傳遞類神經網路模式
 最常用的轉換函數是Sigmoid function(Zhang et
al.,1998),其型式為 F ( x)  (1  exp( x))1
 最常用的訓練過程則是最陡坡降法(gradient
steepest descent method),它是用來調整權數變動
的幅度( Wij )
Wij  (E Wij )
 方程式中- :學習率,E:誤差函數
E
1
(T j  A j ) 2

2
T:代表真實值
A:代表網路輸出值
j
j
21
倒傳遞網路-學習率
1. 較大的學習率:使網路震幅過大,造成數值震盪
而難以收斂。
2. 較小的學習率:會造成訓練時間過長,易使誤差
函數落入區域最小值。
3. 根據文獻指出,學習速率取小於1的值,大都可
以得到較佳的學習效果及良好的收斂結果
(Freeman and Skapura,1992)。
22
舉例說明
類神經網路的學習能力
 半徑式函數網路(Radial Basis Function
Network)做 y(x)=1/x 函數近似的應用。
這是一個單輸入單輸出的問題,目的是希望相
同
的輸入進入到y(x)=1/x函數與類神經網路,得到的輸出
值
要相同,首先將X=1.....100代入y(x)=1/x中,我們會得
到
100組的y值,取X=1.3.5....99共50筆的數據作為訓練樣
本,
X=2.4.6.....100共50筆的數據作為測試樣本,在類神經23
網
下圖是類神經網路訓練20次的結果…
綠線代表實際y(x)=1/x
的輸出,而紅線代表類
神經網路的輸出,類神
經網路未訓練前,由於
初始的鍵結值是由隨機
所產生,因此當訓練樣
本的輸入進到網路時,
類神經網路的輸出是凌
亂的,隨著訓練次數的
增加,鍵結值逐漸的被
調整,使得紅線的部分
逐漸的與綠線符合。
24
類神經網路的學習能力
由於在類神經網路訓
練的過程中,訓練樣
本不斷的提供類神經
網路正確的輸出值作
為參考,使得類神經
網路的輸出逐漸的與
實際的輸出相同。
25
類神經網路的學習能力
當類神經網路訓練
2000次時,由左圖
可看出類神經網路的
輸出與系統的輸出幾
乎相同,此時就可以
停止訓練,而適合此
函數的鍵結值就被記
錄下來:
26
多層函數連結網路
多層函數連結網路是一種倒傳遞網路的改良型,
也可說是「函數連結網路」的改良型。其網路架構乃
在導傳遞網路之輸入、輸出層中加入「對數化」與
「指數化」輸入、輸出單元,由於對數神經元對變數
的低值域部分較敏銳,指數神經元對變數的高值域部
分較敏銳,因此多層函數連結網路常能有較高的精度
,使得網路的學習能力大增。
27
通用迴歸網路
通用迴歸網路的基本原理是由機率模型所啟發,特別
是
「貝氏分類器」演變而來。這種網路學習速度相當快,但
他
也有兩個缺點,一是所需記憶體較大,二是網路回想速度
比
較慢。
通用迴歸網路的學習過程則截然不同,其網路連結加
權
值是直接由訓練範例的輸入向量與輸出向量決定。這和其
他
28
監督是學習網路模式學習過程有幾點不同:
學習向量量化網路
學習向量量化網路是一種專門用於「分類型」
問題的類神經網路模式,由於這種網路學習速度比
倒
傳遞網路快,因此頗受重視。但它也有一個缺點:所
需
的隱藏層處理單元與輸出處理單元成正比,而且需
數
倍於它。
學習向量量化網路的輸出層與隱藏層間的加權
值
29
為變數,需透過學習來決定;而隱藏層與輸出層間
半徑式函數網路
半徑式函數網路的基本原理是結合「自組織映射圖」
網路的無監督式學習與「倒傳遞網路」的監督式學習。
網
路的輸入層與隱藏層間使用無監督式學習,網路的隱藏
層
與輸出層間則使用監督式學習。
學習過程分成二個階段:
1. 無監督式學習:調整輸入層與隱藏層間的連結加權值,
達到將訓練範例聚類到隱藏層的目的。
2. 有監督式學習:調整隱藏層與輸出層間的連結加權值,
達到學習訓練範例輸入向量對應輸出向量內在規則目 30
的。
類神經網路-應用
 工業應用:控制器設計與系統鑒別、產品品質分
析…等
 商業應用:股票投資、債券投資…等
 管理應用:策略管理、品質管理… 等
 資訊應用:影像辨識系統、訊號分類…等
 科學應用:醫學、化學…等
 其他領域的應用:函數模型建構…等
31
類神經網路-優點
1. 類神經網路可以建構非線性的模型,模型的準確
度高。
2. 類神經網路有良好的推廣性,對於未知的輸入亦
可得到正確的輸出。
3. 類神經網路可以接受不同種類的變數作為輸入,
適應性強。
4. 類神經網路可應用的領域相當廣泛,模型建構能
力強。
5. 類神經網路具模糊推論能力,允許輸出入變量具
模糊性,歸納學習較難具備此能力。
32
類神經網路-缺點
1. 類神經網路因為其中間變數(即隱藏層)可以是一層或二層,數
目也可設為任意數目,而且有學習速率等參數需設定,工作相當
費時。
2. 類神經網路以迭代方式更新鍵結值與閥值,計算量大,相當耗費
電腦資源。
3. 類神經網路的解有無限多組,無法得知哪一組的解為最佳解。
4. 類神經網路訓練的過程中無法得知需要多少神經元個數,太多或
太少的神經元均會影響系統的準確性,因此往往需以試誤的方式
得到適當的神經元個數。
5. 類神經網路因為是以建立數值結構(含加權值的網路)來學習,
其知識結構是隱性的,缺乏解釋能力。而歸納學習以建立符號結
構(如:決策樹)來學習,其知識結構是顯性的,具解釋能力。
33
ANN的基本概念與早期模式
34
CDMS Data Mining
1、ANN模式的基本觀念
(1) ANN的定義:
“An Artificial Neural Network is a parallel, distributed
information processing structure consisting of processing
units(which can process a local memory and can carry out
localized information processing operations)
interconnections via un-directional signal channels called
connections. Each processing unit has a signal output
connection that branches (fans out) into as many collateral
connections as desired ; each carries the same signal – the
processing unit output signal.
35
CDMS Data Mining
ANN的定義: (續)
The processing unit output signal can be of any
mathematical type desired . The information processing
that goes on within each processing unit can be defined
arbitarily with the restriction that it must be completely
local ; that is , it must depend only on the current values
of the input signal arriving at the processing element via
impinging connections and on values stored in the
processing units local memory .”
proposed by Hecht – Nielson
36
CDMS Data Mining
(2)一個ANN模式之組員:
a、一組數目的神經元
b 、每一個神經元,使用之數學轉換式(Activation
Function) 可能的數學轉換式有哪些
c、 連接神經元與神經元間之線
d、 有無外部之inputs(external inputs)
e、 learning rule:如何修正模式中之數值(方法)
f、 data set之準備(input / output pairs)
37
CDMS Data Mining
(3)ANN之neuron圖示:
Out 1
wi1
Neuron i
wi2
Out 2
neti
outi
ai
Out 3
wi3
Activation
value
where
ai = f(neti)
neti = Σouti*Wji
outi = g(ai)
38
CDMS Data Mining
2、ANN早期模式的介紹
(1) ADALINE(The Adaptive Linear Element)
a、定義:The simplest “learning” systems sum up their
input signals linearly , whereby each signal is
provided with a suitable weighting parameter .
(suggested by Widrow & Hoff )
(文獻 B . Widrow & M . E . Hoff , “Adaptive Switching
circuits ,” in 1960 IRE WESCON Convention Record ,
New York , 1960 . pp96-104)
b、圖示:
39
CDMS Data Mining
c、數學符號及說明:
* 符號:
ti:input
θ= w0
* 關係:
a
a:output
wi = coefficients
n
w
i 1
i
 ti  
* 主要目的:
The problem is to determine the coefficients wi .
i=0,1,2, …, n , in such a way that the input –
output response is correct for a large number of
arbitrarily chosen signal sets .
notes:If an exact mapping is not possible , the average error
must be minimized, for instance, in the sense of least
squares.
40
CDMS Data Mining
d、達到修正wij目的之使用方法
delta Rule (least mean square learning procedure)
* Has been applied most often with purely linear output
units.
* 符號:
dρ: desired (or target) output when pattern ρ is
presented
aρ: actual output
E :total error for dρ and aρ
r : a constant of proportionality
41
CDMS Data Mining
* 推導方法:
a
w
j
 x j 
j
E
E 


1
d   a

2 

2
欲修正wj一個數量

j

j
w  w  wj
∵Δwj is proportional to the derivative of the error
E p
  p w j  r
w j
42
CDMS Data Mining
now by Chain-Rule , we know
E  E  a 
  
w j a w j


 w j  x j   
w j
2
1
 d   a  
2
   d   a
a 

 xj

E

  d   a  xj
w j


 
 
   w j  r   d   a  x j


 r d   a   x j  r    x j
43
CDMS Data Mining
(2) The Perceptron
a、定義:Perceptrons are feed forward networks
consisting of binary units.
Proposed by Rosenblatt, 1959
(F . Rosenblatt . “Principles of
Neurodynamics. ” Spartan Books ,
New York , 1959)
b、圖示:
c、數學符號及說明:
符號: χ:input 即ψi
φ:output 即.0.(為output之意非ψ)
44
CDMS Data Mining
d 、主要目的:the goal of the operation of the perception
is to learn a given transformation.
T:{-1,1} ==> {-1,1} using learning samples
with input χ and corresponding output 0
note:In the original definition , the activity of
the predicate units can be any function ψi of
the input layerχ but the learning procedure
only adjusts the connections to the output
unit.
45
CDMS Data Mining
* 關係:
 n

0  F   wii   
 i 1

is the (sgn) function
For example: it can be
F(i)= 1 if i >0
-1 otherwise
46
CDMS Data Mining
e、達到修正之方法:
* 程序:
(a) start with random weights for the connections
(b) select on input vector χ from the set of
training samples
(c) if 0≠T(X) (the perception gives an incorrect
response)
then modify all connections wi based on
wi  T x   i
Δθ= 0
correspond correctly
T(X) otherwise
(d) Go back to step (b)
47
CDMS Data Mining
* note:
(a) only the connection to the output unit are
modified.
(b) No connection weights are modified when the
network response correctly.
(c)  also has to be modified by
Δθ= 0
if the perception responds correctly
T(X) otherwise
48
CDMS Data Mining
ANN的成熟模式之一
倒傳遞類神經網路 (backpropagation)
49
倒傳遞類神經網路(backpropagation,BP)
1、 BP(又稱Multi-layer Perception, MLP)產生的原因:
a、 ANN 黯淡的原因:
Misky & Papert find out that a single layer perception can
not represent a simple exclusive-or function.(EX-OR)
b、What is EX-OR problem?
* function relationships b/w inputs & output units.
X1
-1
-1
1
1
X2
-1
1
-1
1
output
-1
1
1
-1
50
* 圖示:
x2
(-1.1) 

(1.1)
x1
(-1.-1) 



(1.-1)
output = 1
output = -1
51
c、Why perception can’t resent an EX-OR function?
* perception figure:
x1
w1
x2
w2

* equation:
output i  w1 x1  w2 x2  
Linear function
52
* What the perception can represent
(i) AND. Function
* function relationships
X1 X2 output
-1 -1
-1
-1
1
1
1
-1
1
1
1
-1
* 圖示:
x2
(-1.1) 

(1.1)
x1
(-1.-1)

(1.-1)
Perceptron53line
(ii) OR. Function
* function relationships
X1 X2 output
-1 -1
-1
-1
1
1
1
-1
1
1
1
1
* 圖示:
x2
(-1.1) 

(1.1)
x1
(-1.-1)
 (1.-1)
Perceptron line 54
* question: how can you separate the pts by using one
line?
x2
(-1.1) 
 (1.1)
x1
(-1.-1)
 (1.-1)
55
d、the development of MLP. (adding one hidden layer)
x1
1
x2
1
-2
1
θ= -0.5
X1
-1
-1
1
1
X2
-1
1
-1
1
[(-1 - 1
[(-1 +1
[(1 - 1
[(1 +1
θ= -0.5
Neti
-0.5)*-2]-1- 1 -0.5
-0.5)*-2]-1+1 -0.5
-0.5)*-2]+1-1 -0.5
-0.5)*-2]+1+1 -0.5
= 2.5
= 0.5
= 0.5
=-1.5
56
Linear manifold
* 詳細證明請參考[1]之page29!
* 觀念上乃多加一個node擴至三度空間,來觀視二
度之情況(多的node無關緊要!)
57
(2) 建立Model之原則:
Using the Kolmogrov’s Existence Theorem. Given any
continuous function: f=[0~1]n Rm, f(x)= y, then f can be
implemented exactly by a three-layer ANN, which has n
input processing elements(P.E) in the input layer (x input),
2n+1 PE in the output layer and m PE in the output layer.
Output layer m個
Hidden layer 2n+1個
Input layer n個
yi
  ………….
zi
   ………….
  ………....
x1 x2
58
(3) B.P的基本假設
a、神經元的連接方式: fully connection
b、神經元使用的數學轉換式(Activation Function)
(i) Activation function 常用之種類
* linear function:output =γ.Σwij.ai
* non-linear function:
 threshold function
Output = 1 if Σwij.aI>threshold
0 otherwise
 sigmoid function
Output = 1/[1+exp(-Σwij.ai)]
 tangent function
Output = (et-e-t)/( et+e-t)
where t = net i
59
CDMS Data Mining
(ii) 有關sigmoid function之特性
* 圖示:
y
1
0.5
x
0
* 臨界值:
output:
input :
Nonlinear
component
Linear
component
y  0~1
x  -∞~∞
60
CDMS Data Mining
(4) B.P的數學推導
note:原理上,即修正wij (神經元之間之連接值)促使其
error terms達最小!與ADALINE中之delta rule相似
a、符號的再確定
(i) 模式之圖示
bj

wjk
cˆk




.
.



i
j
k
(m個神經元) (p個神經元) (q個神經元)
ai wij


.

CDMS Data Mining
61
(ii) 符號代表意義
ai = initial inputs (fan out layer第一層無數學轉換)
bj = output of hidden layer’s neuron
= f(Σwij ·ai) 使用Sigmoid function
cˆk = output of output layer’s neuron
= g(Σwjk ·bj) 使用Linear或Sigmoid function
ck = desired output = target output
Netj = Σwij ·aI
Netk = Σwjk ·bj
E
= J(w)
2
= 1/2Σ(ck - cˆ)
k
62
CDMS Data Mining
(c) 欲探討之equations
*
wij  wij  wij
where ij
J
  
wij


w

w
*
jk
k  w jk
wherew jk
J
 
w jk
0  1
63
CDMS Data Mining
b、equation之推導
(a) for Δwjk:
J
J Netk


w jk Netk w jk

  w jk  b j
w jk


 w1k  b1i  w2 k  b2   wpk  bp
w jk
b
j
Cˆ k
J


ˆ
C k Net k


2
1
   Ck  Cˆ k 
2
  1  2   1 C  Cˆ   C  Cˆ
 
k
k
k
k
2
Cˆ k
ˆ 
C
k

 

1
 F  Netk 
1  exp Netk 
ˆ
C
0  1  exp Netk   1  1  e  netk
k

 F  Netk  
Netk
1  exp Netk 2
64
CDMS Data Mining
(a) for Δwjk:(續)
ˆ
C
0  1  exp Netk   1  1 e  netk
k

 F Netk  
Netk
1  exp Netk 2
 netk
 e

 netk

 1  e
1


 netk
1 e




1

ˆ  1 
C
k

1  e  netk 


ˆ 1 C
ˆ
C
k



k




J
ˆ C
ˆ 1 C
ˆ b
  Ck  C
k
k
k
j
w jk
 w jk   
 


J
ˆ C
ˆ 1 C
ˆ
   Ck  C
k
k
k
w jk
 b
j
    k  b j
 w jk  w jk     k  b j
65
CDMS Data Mining
(b) for Δwij:
J
J Net j


wij Net j wij

  wij ai
wij


 w1 j ai  w2 j a2    wpj a pm
wij
 a
i
J b j
下一頁


b j Net j
 J Netk 

 


b 
k 1  Netk
q
 



w
b
jk
j 

j 1
  w
 
j k
b j
ˆ C
ˆ 1 C
ˆ  
已在前頁導過  C  C

     k w jk 
k
k
 
k
k

q
k 1
CDMS Data Mining
66
k
(b) for Δwij:(續)
b j
有關 Net
j
1
1  e  netj
b j
0  1  e  netj  1  1  e  netj

 F ( netj) 
Netj
(1  e  netj ) 2
 b j  F ( netj) 


 netj

1

 e




 netj
 netj 

1 e
 1  e

1


 b j  1 
 b j 1  b j
 netj 
1 e



67
CDMS Data Mining
(b) for Δwij:(續)
最後有關
J
wij
J


wij
q
     w
k 1
k
jk
 b j 1  b j  ai
   k  w jk  b j 1  b j  ai  
q
k 1
 wij   

J
   
wij
 wij  wij    
j
j
 ai
 ai
j
   
j
 ai
 ai
68
CDMS Data Mining
(c) 整理推導之結果
w  w     j  ai

ij

ij
w  w   k  bj

jk

jk
where  k  (Ck  Cˆ k ) Cˆ k (1 Cˆ k )
 j   k  wjk  bj  (1  bj )
69
CDMS Data Mining
(5) B.P的運作程序 (共有6個步驟)
a、 Randomize assize assign weights w[0.1]連接線之
初始值
b、Apply a input vector to the fan out input layer
a1.a2…..am)
c、Calculate the following values:
Net j 
m
w
i 1
ij
 ai   j
1
b j  F Net j  
1  e  netj
Netk 

w
j 1
jk
bj k
ˆ  F  Net  
C
k
k
1
1  e  netk
CDMS Data Mining
70
d、Update weights
 wij  wij  wij
 

w

w
 jk
jk  w jk
where
 wij     j  ai

w jk     k  b j
q
 j    k  w jk  b j  (1  b j )
k 1
 k  (Ck  Cˆk ) Cˆk (1 Cˆk )
71
CDMS Data Mining
e、Calculate
(i) J(w)< Threshold 1
(ii) number of iteration
(iii) w+-w-< =Threshold 2
f、 Consider a new sample and go back to step b
Note: the (decreasing)constant  can be decreased!
呈指數遞減,較符合收斂之原則!
72
CDMS Data Mining
(6)
B.P運作之數值實例
條件:
x1
w1
x2
w2
1
X   
 4

y 1
73
CDMS Data Mining
* 解題前之假設:
initial weights: w1  w2  0
 param eter:   1

 param eter:   0

1
 activation fn : F neti  
1  e neti

74
CDMS Data Mining
* 解題程序:
Iteration 1:
Net  w1 x1  w2 x2  1  0  4  0
yˆ  F  Net  
1
1

1  e 0 2
2
1
1 1
2
J    y  yˆ   1    0.125
2 k
2 2
 1 1 1
w1     k  a j  1  1    1   1  0.125
 2 2 2
 1  1  1 
w2     k  a2  1  1   1    4  0.5
 2  2  2 
w1  0  0.125  0.125
w2  0  0.5  0.5
 J  0.125太大
 do another iteration!!
CDMS Data Mining
75
Iteration 2:
Net  w1 x1  w2 x2  0.1251  0.5  4  2.125
yˆ  F  Net  
1
 0.893
 2.125
1 e
1
2
J  1  0.893  0.0057
2
w1  1 1  0.8930.8931  0.8931  0.0853
w2  1  1  0.8930.8931  0.893 4  0.341
w1  0.125 0.0853 0.2103
w2  0.5  0.341 0.841
76
CDMS Data Mining
Iteration 3:(可嘗試之)
Net  3.57
yˆ  0.973
J  0.0000365
77
CDMS Data Mining
(7) 使用B.P時應注意的幾個參數值
(i) Network Size:
* 各層中,神經元的數目如何決定?
* 到底要多少層?
(ii) number of training Samples
* 多少組的training Samples (足夠代表問題的domain否)
* 通常取3*size of feature vector
* training Samples的選用最後是Randomize (每次順序不同)
(iii) training之 iterations number
* 考慮有無overtrain之情況
(iv) 修正速度的快慢
:太大時修正速度快但易落入local minimum
:太小時修正速度慢但易落入global minimum
78
CDMS Data Mining
類神經網路
-實例分析
79
開啟類神經網路視窗
兩種方法:
1.按功能表
Statistics>Data
Mining >Data
Miner>
General
Forecaster
2.按功能表
Statistics>Data
Mining >
Neural
Networks
80
範例:以內建的資料Characteristics為例,可先新增一變數
,將樣本分成兩類,分別為訓練集及測試集,圖示如下:
新增變數:
取名為分類
81
Quick選項
•Regression及Time Series
來建構輸入與輸出變數的
模型結構
• Classification及Cluster
Analysis的方法來預測分
類結果。
•Intelligent Problem Solve:
讓系統自行去實驗建構模
型
•Custom Network Design:
由使用者來自行決定模式
的架構
例如:模式中的隱藏層數
82
在Specify the subset variable codes中讓分類變數為1的當
training組,分 類變數為2的則是當成testing組拿來判斷模型
建構的好不好。
•Specify the subset
variable codes中,則是
在輸入的變數中要有一
個是可以有一個判斷資
料集合的變數,例如:
資料當中哪一群是
Training組、哪一群是
Testing組,另外也可以
選擇Selection來判斷預
測的好壞,或是哪一群
的資料是不被放入模式
中的可以用Ignore 。
83
Advanced選項
提供更多可以建構模型
的方法,不在侷限於由
系統判斷或者是自己定
義結構。
84
Networks/Ensembles選項
將之前建構好的模
型拿出來使用或存
檔。
85
Intelligent Problem Solve設定
選擇模型的複雜
快速的選擇系統訓
程度,例如設定
練模型的次數及保
留的模式數目隱藏層中神經元
選擇類神經網
的個數
路的預測型態
有Linear等方
法
選擇保留幾個
模式以及如何
保留模式
86
Intelligent ProblemFeed
Solve設定
back圖卡則
是設定分析報表
的內容程度
(多層感知器)圖卡則
是設定輸出值的方式,
分成Classification
及Regression的兩種
方式輸出值,只有在
Types圖卡點選隱藏層,
才會出現此圖卡
87
為變數的統計值,
包含資料的平均數
及變異數等,在圖
卡中的Subsets used
to generate results
可選擇那個集合資
記載類神經模式的結
料的結果Overall、
果,包含訓練的正確率
All、Training、
預測結果的誤差,
錯誤率.測試的正確率
Selection、Test、
錯誤率等 藉此可判斷模式
建構的好與壞 Ignore集合資料。
88
•User defined case可以依使用者想
要輸入變數的數值來進行預測,只
要改變輸入變數的數值系統及可預
測新數值
• Response graph則是看輸入變數與
預測值之間的關係
•Response survey選項來顯示網路中
被定義出的反應面圖形。
• Network illustration 選項是顯示網
路模型的架構圖形。
89
使用Custom Network Design分析
90
選擇隱藏層最多可選擇3層最少可選擇1層而輸入個
隱藏層單元數以專業為原則,提供一種輸入單元數的
準則,在第一層隱藏層的單元數跟輸入變數的個數一
樣,第二層的單元數是輸出變數個數加一。
利用後傳遞的方
式來建立模型
91
92
模型結構圖
圖
會
填
滿
視
窗
93
預測結果
94
Thank You For
Your Listening
95
Download