Chapter 3

類神經網路 1 類神經網路-起源類神經網路理論起源於1950年，當時科學家仿造人類大腦的組織及運作方式，開始提出稱之為「感知機」（Preceptorn）神經元模型，這是最簡單也是最早的類神經模型，感知機通常被拿來做分類器(Classifier) 使用。 2 類神經網路-簡介類神經網路（Artificial Neural Network）類似人類神經結構的一個平行計算模式，是「一種基於腦與神經系統研究，所啟發的資訊處理技術」，通常也被稱為平行分散式處理模式（Parallel Distributed Processing Model）或連結模式（Connectionist Model）。 3 平行分散式系統 1.負荷分散:整個負荷是由各主電腦分擔的,因此可以有效的節省處理時間或處理更多的工作。 2.風險分散:由於全部工作並非由同一台電腦所承擔,所以不論什麼地方的電腦出現了故障,都是局部的,不會造成整個系統的癱瘓。 3.獨立性強:平行分散處理系統中各部份的獨立性較集中處理系統強,因此我們可以很容易改變或追加系統功能。 4.具經濟性:利用數台低價位的電腦取代一部高價位的高速電腦,節省購置硬體及維修的成本。 4 類神經網路 1. 類神經網路它可以利用一組範例，即系統輸入與輸出所組成的資料，建立系統模型（輸入與輸出間的關係）。有了這樣的系統模型便可用於推估、預測、決策、診斷，而常見的迴歸分析統計技術也是一個可利用的範例，因此類神經網路也可以視為一種特殊形式的統計技術。 2. 輸入與輸出之間的關係如下所示： 5 輸出變數之特性 1. 函數型問題: 網路的輸出為一個連續變數，例如  物理化學變量(濃度、溫度、PH值、強度…)  經濟社會變量(匯率、利率、成本、銷售量…) 2. 分類型問題: 網路的輸出為一個分類變數，例如  決策(醫藥處方、替代方案、買賣決策…)  診斷(疾病種類、故障原因、訊號分類…) 6 一個類神經元的模型顯示 X：稱為神經元的輸入（input） W：稱為鍵結值（weights） b：稱為閥值（bias）：有偏移的效果 S：稱為summation：此部分是將每一個輸入與鍵結值相乘後做一加總的動作。 φ( )：稱之為活化函數（activation function)-通常是非線性函數，有數種不同的型式，其目的是將S的值做映射得到所需要的輸出。 Y：稱之為output-亦即我們所需要的結果。 *虛線的部分即為類神經元 7 鍵結值 1. 類神經的訓練就是在調整鍵結值(weight)，使其變得更大或更小，通常是以隨機的方式產生介於+1到-1之間的初始值。 2. 鍵結值越大，代表連接的神經元更容易被激發，對類神經網路的影響也更大。 3. 鍵結值越小，通常可以移除以節省電腦計算的時間與空間。 4. 如果輸出單元的輸出值和所預期的值相同，則連接到此輸出單元的連結強度(weight的大小)則不被改變。 5. 如果該輸出1卻輸出0：連接到此輸出單元的連結強度會被加強。該輸出0卻輸出1：連接到此輸出單元的連結強度會被降低。 6. 達成收斂的效果是這個學習程式的主要目標。 8 類神經網路-目的 1.類神經網路目的：讓類神經網路的輸出越接近目標值。 2.在學習前，我們必須建立出一個訓練樣本(training pattern)，使類神經網路在學習的過程中有一個參考。 3.透過training的方式，讓類神經反覆的學習，直到對於每個輸入層都能正確的對應到所需要的輸出。 4.隨著訓練次數的增加，類神經網路的鍵結值會逐漸被調整，使得目標值與類神經網路的輸出兩者誤差越來越小。當誤差幾乎不再變化時，此類神經網路已收斂，亦即完成神經網路訓練。 9 類神經網路模型類神經網路模型可分成五大類: 1. 監督式學習網路 2. 無監督式學習網路 3. 混合式學習網路 4. 聯想式學習網路 5. 最適化應用網路其中「監督式學習」網路是目前應用最普遍的類神經網路，應用十分廣泛(約占現有應用95%)。 10 監督式學習網路 (Supervised Learning Network) 11 類神經網路模型-說明監督式學習網路無監督式學習網路  從問題領域中提供訓練範  只從問題領域中取得只有例，包含輸入資料與輸出輸入資料的訓練範例。資料。  網路從中學習輸入資料的  網路從中學習輸入資料與內在聚類規則，以應用於輸出資料的內在對映規則。新的案例。  有如老師指導學生對問題做正確的回答。  常應用於圖形辨認和預測領域。 12 類神經網路模型-說明混合式學習網路  結合無監督式學習與監督式學習  學習過程分成兩階段: 1. 第一階段以無監督式學習調整輸入層與隱藏層間的連結加權值，達到將訓練範例聚類到隱藏層單元的目的。 2. 第二階段以監督式學習調整隱藏層與輸出層問的鏈結加權值，達到學習訓練範例輸入向量對映輸出向量內在規則的目的。 13 類神經網路模型-說明聯想式學習網路最適化應用網路  以狀態變數值為訓練範例，  對一問題決定其設計變數並從中學習範例的記憶規值，使其在滿足設計限制則，然後應用於只有不完下，使設計目標達最佳狀整狀態值，而需推論完整態的應用。此類應用的網狀態的新案例，這種網路路架構大都與聯想式學習可以應用於擷取應用與雜網路的架構相似。訊過濾。 14 監督式學習網路-原理 1. 2. 3. 4. 5. 最常用的五種監督式學習網路的原理: 導傳遞網路(Back-propagation Network，BPN) 多層函數連結網路(Multilayer Functional-Link Network，MFLN) 通用迴歸網路(General Regression Neural Network， GRNN) 學習向量量化網路(Learning Vector Quantization Network，LVQ) 半徑式函數網路(Radial Basis Function Network， RBFN) 15 倒傳遞網路倒傳遞類神經網路隸屬於監督是學習 (Supervised learning)模式的一種，其學習階段會反覆執行下列兩個步驟: 1. 順向傳遞(Forward pass) :對於每個輸出節點，其實際輸入值會與期望輸出值做比較後產生一個誤差訊號。 2. 逆向傳遞(Reverse pass) :目的在調整每一層的權重值及臨界值。 16 倒傳遞網路-結構倒傳遞類神經網路之結構包含三層: 1. 輸入層（input layer）:輸入層中神經元的數目即為我們所欲輸入的變數個數。 2. 隱藏層（hidden layer）:隱藏層之數目可以是一層或多層。 3. 輸出層（output layer）:輸出層中神經元的輸出結果則為網路最後的輸出值。 17 倒傳遞網路-結構圖輸入變數輸出變數神經元輸入層隱藏層輸出層 18 倒傳遞網路-優缺點優點:  學習準確度高  回想速度快  含有雜訊輸入資料的處理缺點:  學習速度緩慢  易陷入局部最小值  （local minimum）的問題 ……等等。 19 倒傳遞網路-演算流程由輸入層將資料傳給隱藏層，經計算與轉換後，將預測結果送至輸出層，再算出輸出值與實際值的差距後，再回傳給隱藏層去修正連接鍵的權數，其目的是要使輸出層之輸出值與實際值的均方誤差最小。 20 倒傳遞網路-轉換函數倒傳遞類神經網路模式  最常用的轉換函數是Sigmoid function（Zhang et al.,1998），其型式為 F ( x)  (1  exp( x))1  最常用的訓練過程則是最陡坡降法（gradient steepest descent method），它是用來調整權數變動的幅度( Wij ) Wij  (E Wij )  方程式中- ：學習率，E：誤差函數 E 1 (T j  A j ) 2  2 T：代表真實值 A：代表網路輸出值 j j 21 倒傳遞網路-學習率 1. 較大的學習率：使網路震幅過大，造成數值震盪而難以收斂。 2. 較小的學習率：會造成訓練時間過長，易使誤差函數落入區域最小值。 3. 根據文獻指出，學習速率取小於1的值，大都可以得到較佳的學習效果及良好的收斂結果 (Freeman and Skapura,1992)。 22 舉例說明類神經網路的學習能力  半徑式函數網路（Radial Basis Function Network）做 y(x)=1/x 函數近似的應用。這是一個單輸入單輸出的問題，目的是希望相同的輸入進入到y(x)=1/x函數與類神經網路，得到的輸出值要相同，首先將X=1.....100代入y(x)=1/x中，我們會得到 100組的y值，取X=1.3.5....99共50筆的數據作為訓練樣本， X=2.4.6.....100共50筆的數據作為測試樣本，在類神經23 網下圖是類神經網路訓練20次的結果… 綠線代表實際y(x)=1/x 的輸出，而紅線代表類神經網路的輸出，類神經網路未訓練前，由於初始的鍵結值是由隨機所產生，因此當訓練樣本的輸入進到網路時，類神經網路的輸出是凌亂的，隨著訓練次數的增加，鍵結值逐漸的被調整，使得紅線的部分逐漸的與綠線符合。 24 類神經網路的學習能力由於在類神經網路訓練的過程中，訓練樣本不斷的提供類神經網路正確的輸出值作為參考，使得類神經網路的輸出逐漸的與實際的輸出相同。 25 類神經網路的學習能力當類神經網路訓練 2000次時，由左圖可看出類神經網路的輸出與系統的輸出幾乎相同，此時就可以停止訓練，而適合此函數的鍵結值就被記錄下來： 26 多層函數連結網路多層函數連結網路是一種倒傳遞網路的改良型，也可說是「函數連結網路」的改良型。其網路架構乃在導傳遞網路之輸入、輸出層中加入「對數化」與「指數化」輸入、輸出單元，由於對數神經元對變數的低值域部分較敏銳，指數神經元對變數的高值域部分較敏銳，因此多層函數連結網路常能有較高的精度，使得網路的學習能力大增。 27 通用迴歸網路通用迴歸網路的基本原理是由機率模型所啟發，特別是「貝氏分類器」演變而來。這種網路學習速度相當快，但他也有兩個缺點，一是所需記憶體較大，二是網路回想速度比較慢。通用迴歸網路的學習過程則截然不同，其網路連結加權值是直接由訓練範例的輸入向量與輸出向量決定。這和其他 28 監督是學習網路模式學習過程有幾點不同: 學習向量量化網路學習向量量化網路是一種專門用於「分類型」問題的類神經網路模式，由於這種網路學習速度比倒傳遞網路快，因此頗受重視。但它也有一個缺點:所需的隱藏層處理單元與輸出處理單元成正比，而且需數倍於它。學習向量量化網路的輸出層與隱藏層間的加權值 29 為變數，需透過學習來決定；而隱藏層與輸出層間半徑式函數網路半徑式函數網路的基本原理是結合「自組織映射圖」網路的無監督式學習與「倒傳遞網路」的監督式學習。網路的輸入層與隱藏層間使用無監督式學習，網路的隱藏層與輸出層間則使用監督式學習。學習過程分成二個階段: 1. 無監督式學習:調整輸入層與隱藏層間的連結加權值，達到將訓練範例聚類到隱藏層的目的。 2. 有監督式學習:調整隱藏層與輸出層間的連結加權值，達到學習訓練範例輸入向量對應輸出向量內在規則目 30 的。類神經網路-應用  工業應用:控制器設計與系統鑒別、產品品質分析…等  商業應用:股票投資、債券投資…等  管理應用:策略管理、品質管理… 等  資訊應用:影像辨識系統、訊號分類…等  科學應用:醫學、化學…等  其他領域的應用:函數模型建構…等 31 類神經網路-優點 1. 類神經網路可以建構非線性的模型，模型的準確度高。 2. 類神經網路有良好的推廣性，對於未知的輸入亦可得到正確的輸出。 3. 類神經網路可以接受不同種類的變數作為輸入，適應性強。 4. 類神經網路可應用的領域相當廣泛，模型建構能力強。 5. 類神經網路具模糊推論能力，允許輸出入變量具模糊性，歸納學習較難具備此能力。 32 類神經網路-缺點 1. 類神經網路因為其中間變數（即隱藏層）可以是一層或二層，數目也可設為任意數目，而且有學習速率等參數需設定，工作相當費時。 2. 類神經網路以迭代方式更新鍵結值與閥值，計算量大，相當耗費電腦資源。 3. 類神經網路的解有無限多組，無法得知哪一組的解為最佳解。 4. 類神經網路訓練的過程中無法得知需要多少神經元個數，太多或太少的神經元均會影響系統的準確性，因此往往需以試誤的方式得到適當的神經元個數。 5. 類神經網路因為是以建立數值結構（含加權值的網路）來學習，其知識結構是隱性的，缺乏解釋能力。而歸納學習以建立符號結構（如：決策樹）來學習，其知識結構是顯性的，具解釋能力。 33 ANN的基本概念與早期模式 34 CDMS Data Mining 1、ANN模式的基本觀念 (1) ANN的定義： “An Artificial Neural Network is a parallel, distributed information processing structure consisting of processing units(which can process a local memory and can carry out localized information processing operations) interconnections via un-directional signal channels called connections. Each processing unit has a signal output connection that branches (fans out) into as many collateral connections as desired ; each carries the same signal – the processing unit output signal. 35 CDMS Data Mining ANN的定義： (續) The processing unit output signal can be of any mathematical type desired . The information processing that goes on within each processing unit can be defined arbitarily with the restriction that it must be completely local ; that is , it must depend only on the current values of the input signal arriving at the processing element via impinging connections and on values stored in the processing units local memory .” proposed by Hecht – Nielson 36 CDMS Data Mining （2）一個ANN模式之組員： a、一組數目的神經元 b 、每一個神經元，使用之數學轉換式(Activation Function) 可能的數學轉換式有哪些 c、連接神經元與神經元間之線 d、有無外部之inputs（external inputs） e、 learning rule：如何修正模式中之數值（方法） f、 data set之準備（input / output pairs） 37 CDMS Data Mining （3）ANN之neuron圖示： Out 1 wi1 Neuron i wi2 Out 2 neti outi ai Out 3 wi3 Activation value where ai = f(neti) neti = Σouti＊Wji outi = g(ai) 38 CDMS Data Mining 2、ANN早期模式的介紹 (1) ADALINE（The Adaptive Linear Element） a、定義：The simplest “learning” systems sum up their input signals linearly , whereby each signal is provided with a suitable weighting parameter . (suggested by Widrow ＆ Hoff ) (文獻 B . Widrow ＆ M . E . Hoff , “Adaptive Switching circuits ,” in 1960 IRE WESCON Convention Record , New York , 1960 . pp96-104） b、圖示： 39 CDMS Data Mining c、數學符號及說明： * 符號： ti：input θ= w0 * 關係： a a：output wi = coefficients n w i 1 i  ti   * 主要目的： The problem is to determine the coefficients wi . i=0,1,2, …, n , in such a way that the input – output response is correct for a large number of arbitrarily chosen signal sets . notes：If an exact mapping is not possible , the average error must be minimized, for instance, in the sense of least squares. 40 CDMS Data Mining d、達到修正wij目的之使用方法 delta Rule (least mean square learning procedure) * Has been applied most often with purely linear output units. * 符號： dρ： desired (or target) output when pattern ρ is presented aρ： actual output E ：total error for dρ and aρ r ： a constant of proportionality 41 CDMS Data Mining * 推導方法： a w j  x j  j E E    1 d   a  2   2 欲修正wj一個數量  j  j w  w  wj ∵Δwj is proportional to the derivative of the error E p   p w j  r w j 42 CDMS Data Mining now by Chain-Rule , we know E  E  a     w j a w j    w j  x j    w j 2 1  d   a   2    d   a a    xj  E    d   a  xj w j          w j  r   d   a  x j    r d   a   x j  r    x j 43 CDMS Data Mining (2) The Perceptron a、定義：Perceptrons are feed forward networks consisting of binary units. Proposed by Rosenblatt, 1959 (F . Rosenblatt . “Principles of Neurodynamics. ” Spartan Books , New York , 1959) b、圖示： c、數學符號及說明：符號： χ：input 即ψi φ：output 即.0.(為output之意非ψ) 44 CDMS Data Mining d 、主要目的：the goal of the operation of the perception is to learn a given transformation. T：{-1,1} ==> {-1,1} using learning samples with input χ and corresponding output 0 note：In the original definition , the activity of the predicate units can be any function ψi of the input layerχ but the learning procedure only adjusts the connections to the output unit. 45 CDMS Data Mining * 關係：  n  0  F   wii     i 1  is the (sgn) function For example: it can be F(i)= 1 if i >0 -1 otherwise 46 CDMS Data Mining e、達到修正之方法： * 程序： (a) start with random weights for the connections (b) select on input vector χ from the set of training samples (c) if 0≠T(X) (the perception gives an incorrect response) then modify all connections wi based on wi  T x   i Δθ= 0 correspond correctly T(X) otherwise (d) Go back to step (b) 47 CDMS Data Mining * note： (a) only the connection to the output unit are modified. (b) No connection weights are modified when the network response correctly. (c)  also has to be modified by Δθ= 0 if the perception responds correctly T(X) otherwise 48 CDMS Data Mining ANN的成熟模式之一倒傳遞類神經網路 (backpropagation) 49 倒傳遞類神經網路(backpropagation,BP) 1、 BP(又稱Multi-layer Perception, MLP)產生的原因： a、 ANN 黯淡的原因： Misky ＆ Papert find out that a single layer perception can not represent a simple exclusive-or function.（EX-OR） b、What is EX-OR problem？ * function relationships b/w inputs ＆ output units. X1 -1 -1 1 1 X2 -1 1 -1 1 output -1 1 1 -1 50 * 圖示： x2 (-1.1)   (1.1) x1 (-1.-1)     (1.-1) output = 1 output = -1 51 c、Why perception can’t resent an EX-OR function？ * perception figure： x1 w1 x2 w2  * equation： output i  w1 x1  w2 x2   Linear function 52 * What the perception can represent (i) AND. Function * function relationships X1 X2 output -1 -1 -1 -1 1 1 1 -1 1 1 1 -1 * 圖示： x2 (-1.1)   (1.1) x1 (-1.-1)  (1.-1) Perceptron53line (ii) OR. Function * function relationships X1 X2 output -1 -1 -1 -1 1 1 1 -1 1 1 1 1 * 圖示： x2 (-1.1)   (1.1) x1 (-1.-1)  (1.-1) Perceptron line 54 * question： how can you separate the pts by using one line？ x2 (-1.1)   (1.1) x1 (-1.-1)  (1.-1) 55 d、the development of MLP. (adding one hidden layer) x1 1 x2 1 -2 1 θ= -0.5 X1 -1 -1 1 1 X2 -1 1 -1 1 [(-1 - 1 [(-1 +1 [(1 - 1 [(1 +1 θ= -0.5 Neti -0.5)*-2]-1- 1 -0.5 -0.5)*-2]-1+1 -0.5 -0.5)*-2]+1-1 -0.5 -0.5)*-2]+1+1 -0.5 = 2.5 = 0.5 = 0.5 =-1.5 56 Linear manifold * 詳細證明請參考[1]之page29！ * 觀念上乃多加一個node擴至三度空間，來觀視二度之情況(多的node無關緊要！) 57 (2) 建立Model之原則： Using the Kolmogrov’s Existence Theorem. Given any continuous function: f=[0~1]n Rm, f(x)= y, then f can be implemented exactly by a three-layer ANN, which has n input processing elements(P.E) in the input layer (x input), 2n+1 PE in the output layer and m PE in the output layer. Output layer m個 Hidden layer 2n+1個 Input layer n個 yi   …………. zi    ………….   ……….... x1 x2 58 (3) B.P的基本假設 a、神經元的連接方式: fully connection b、神經元使用的數學轉換式（Activation Function） (i) Activation function 常用之種類 * linear function：output =γ.Σwij.ai * non-linear function：  threshold function Output = 1 if Σwij.aI>threshold 0 otherwise  sigmoid function Output = 1/[1+exp(-Σwij.ai)]  tangent function Output = (et-e-t)/( et+e-t) where t = net i 59 CDMS Data Mining (ii) 有關sigmoid function之特性 * 圖示： y 1 0.5 x 0 * 臨界值： output: input : Nonlinear component Linear component y  0~1 x  -∞~∞ 60 CDMS Data Mining (4) B.P的數學推導 note：原理上，即修正wij (神經元之間之連接值)促使其 error terms達最小！與ADALINE中之delta rule相似 a、符號的再確定 (i) 模式之圖示 bj  wjk cˆk     . .    i j k (m個神經元) (p個神經元) (q個神經元) ai wij   .  CDMS Data Mining 61 (ii) 符號代表意義 ai = initial inputs (fan out layer第一層無數學轉換) bj = output of hidden layer’s neuron = f(Σwij ·ai) 使用Sigmoid function cˆk = output of output layer’s neuron = g(Σwjk ·bj) 使用Linear或Sigmoid function ck = desired output = target output Netj = Σwij ·aI Netk = Σwjk ·bj E = J(w) 2 = 1/2Σ（ck - cˆ） k 62 CDMS Data Mining (c) 欲探討之equations * wij  wij  wij where ij J    wij   w  w * jk k  w jk wherew jk J   w jk 0  1 63 CDMS Data Mining b、equation之推導 (a) for Δwjk： J J Netk   w jk Netk w jk    w jk  b j w jk    w1k  b1i  w2 k  b2   wpk  bp w jk b j Cˆ k J   ˆ C k Net k   2 1    Ck  Cˆ k  2   1  2   1 C  Cˆ   C  Cˆ   k k k k 2 Cˆ k ˆ  C k     1  F  Netk  1  exp Netk  ˆ C 0  1  exp Netk   1  1  e  netk k   F  Netk   Netk 1  exp Netk 2 64 CDMS Data Mining (a) for Δwjk：(續) ˆ C 0  1  exp Netk   1  1 e  netk k   F Netk   Netk 1  exp Netk 2  netk  e   netk   1  e 1    netk 1 e     1  ˆ  1  C k  1  e  netk    ˆ 1 C ˆ C k    k     J ˆ C ˆ 1 C ˆ b   Ck  C k k k j w jk  w jk        J ˆ C ˆ 1 C ˆ    Ck  C k k k w jk  b j     k  b j  w jk  w jk     k  b j 65 CDMS Data Mining (b) for Δwij： J J Net j   wij Net j wij    wij ai wij    w1 j ai  w2 j a2    wpj a pm wij  a i J b j 下一頁   b j Net j  J Netk       b  k 1  Netk q      w b jk j   j 1   w   j k b j ˆ C ˆ 1 C ˆ   已在前頁導過  C  C       k w jk  k k   k k  q k 1 CDMS Data Mining 66 k (b) for Δwij：(續) b j 有關 Net j 1 1  e  netj b j 0  1  e  netj  1  1  e  netj   F ( netj)  Netj (1  e  netj ) 2  b j  F ( netj)     netj  1   e      netj  netj   1 e  1  e  1    b j  1   b j 1  b j  netj  1 e    67 CDMS Data Mining (b) for Δwij：(續) 最後有關 J wij J   wij q      w k 1 k jk  b j 1  b j  ai    k  w jk  b j 1  b j  ai   q k 1  wij     J     wij  wij  wij     j j  ai  ai j     j  ai  ai 68 CDMS Data Mining (c) 整理推導之結果 w  w     j  ai  ij  ij w  w   k  bj  jk  jk where  k  (Ck  Cˆ k ) Cˆ k (1 Cˆ k )  j   k  wjk  bj  (1  bj ) 69 CDMS Data Mining (5) B.P的運作程序 (共有6個步驟) a、 Randomize assize assign weights w[0.1]連接線之初始值 b、Apply a input vector to the fan out input layer a1.a2…..am） c、Calculate the following values： Net j  m w i 1 ij  ai   j 1 b j  F Net j   1  e  netj Netk   w j 1 jk bj k ˆ  F  Net   C k k 1 1  e  netk CDMS Data Mining 70 d、Update weights  wij  wij  wij    w  w  jk jk  w jk where  wij     j  ai  w jk     k  b j q  j    k  w jk  b j  (1  b j ) k 1  k  (Ck  Cˆk ) Cˆk (1 Cˆk ) 71 CDMS Data Mining e、Calculate (i) J（w）＜ Threshold 1 (ii) number of iteration (iii) w+-w-＜ =Threshold 2 f、 Consider a new sample and go back to step b Note： the (decreasing)constant  can be decreased！呈指數遞減，較符合收斂之原則！ 72 CDMS Data Mining (6) B.P運作之數值實例條件： x1 w1 x2 w2 1 X     4  y 1 73 CDMS Data Mining * 解題前之假設： initial weights: w1  w2  0  param eter:   1   param eter:   0  1  activation fn : F neti   1  e neti  74 CDMS Data Mining * 解題程序： Iteration 1： Net  w1 x1  w2 x2  1  0  4  0 yˆ  F  Net   1 1  1  e 0 2 2 1 1 1 2 J    y  yˆ   1    0.125 2 k 2 2  1 1 1 w1     k  a j  1  1    1   1  0.125  2 2 2  1  1  1  w2     k  a2  1  1   1    4  0.5  2  2  2  w1  0  0.125  0.125 w2  0  0.5  0.5  J  0.125太大  do another iteration!! CDMS Data Mining 75 Iteration 2： Net  w1 x1  w2 x2  0.1251  0.5  4  2.125 yˆ  F  Net   1  0.893  2.125 1 e 1 2 J  1  0.893  0.0057 2 w1  1 1  0.8930.8931  0.8931  0.0853 w2  1  1  0.8930.8931  0.893 4  0.341 w1  0.125 0.0853 0.2103 w2  0.5  0.341 0.841 76 CDMS Data Mining Iteration 3：（可嘗試之） Net  3.57 yˆ  0.973 J  0.0000365 77 CDMS Data Mining (7) 使用B.P時應注意的幾個參數值 (i) Network Size： * 各層中，神經元的數目如何決定? * 到底要多少層? (ii) number of training Samples * 多少組的training Samples (足夠代表問題的domain否) * 通常取3*size of feature vector * training Samples的選用最後是Randomize (每次順序不同) (iii) training之 iterations number * 考慮有無overtrain之情況 (iv) 修正速度的快慢 ：太大時修正速度快但易落入local minimum ：太小時修正速度慢但易落入global minimum 78 CDMS Data Mining 類神經網路 -實例分析 79 開啟類神經網路視窗兩種方法: 1.按功能表 Statistics＞Data Mining ＞Data Miner＞ General Forecaster 2.按功能表 Statistics＞Data Mining ＞ Neural Networks 80 範例:以內建的資料Characteristics為例，可先新增一變數，將樣本分成兩類，分別為訓練集及測試集，圖示如下：新增變數：取名為分類 81 Quick選項 •Regression及Time Series 來建構輸入與輸出變數的模型結構 • Classification及Cluster Analysis的方法來預測分類結果。 •Intelligent Problem Solve: 讓系統自行去實驗建構模型 •Custom Network Design: 由使用者來自行決定模式的架構例如:模式中的隱藏層數 82 在Specify the subset variable codes中讓分類變數為1的當 training組，分類變數為2的則是當成testing組拿來判斷模型建構的好不好。 •Specify the subset variable codes中，則是在輸入的變數中要有一個是可以有一個判斷資料集合的變數，例如: 資料當中哪一群是 Training組、哪一群是 Testing組，另外也可以選擇Selection來判斷預測的好壞，或是哪一群的資料是不被放入模式中的可以用Ignore 。 83 Advanced選項提供更多可以建構模型的方法，不在侷限於由系統判斷或者是自己定義結構。 84 Networks/Ensembles選項將之前建構好的模型拿出來使用或存檔。 85 Intelligent Problem Solve設定選擇模型的複雜快速的選擇系統訓程度,例如設定練模型的次數及保留的模式數目隱藏層中神經元選擇類神經網的個數路的預測型態有Linear等方法選擇保留幾個模式以及如何保留模式 86 Intelligent ProblemFeed Solve設定 back圖卡則是設定分析報表的內容程度 (多層感知器)圖卡則是設定輸出值的方式, 分成Classification 及Regression的兩種方式輸出值，只有在 Types圖卡點選隱藏層，才會出現此圖卡 87 為變數的統計值, 包含資料的平均數及變異數等，在圖卡中的Subsets used to generate results 可選擇那個集合資記載類神經模式的結料的結果Overall、果,包含訓練的正確率 All、Training、預測結果的誤差, 錯誤率.測試的正確率 Selection、Test、錯誤率等藉此可判斷模式建構的好與壞 Ignore集合資料。 88 •User defined case可以依使用者想要輸入變數的數值來進行預測，只要改變輸入變數的數值系統及可預測新數值 • Response graph則是看輸入變數與預測值之間的關係 •Response survey選項來顯示網路中被定義出的反應面圖形。 • Network illustration 選項是顯示網路模型的架構圖形。 89 使用Custom Network Design分析 90 選擇隱藏層最多可選擇3層最少可選擇1層而輸入個隱藏層單元數以專業為原則,提供一種輸入單元數的準則,在第一層隱藏層的單元數跟輸入變數的個數一樣,第二層的單元數是輸出變數個數加一。利用後傳遞的方式來建立模型 91 92 模型結構圖圖會填滿視窗 93 預測結果 94 Thank You For Your Listening 95

Chapter 3

Related documents

Products

Support

Chapter 3

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib