Security Investment Analysis ─ Knowledge Discovery and Computational Intelligence 證券投資分析─知識發現與計算智慧 葉怡成 中華大學 資訊管理系 Prof. I-Cheng Yeh Department of Information Management Chung-Hua University 1 大綱 1. 2. 3. 4. 5. 證券投資分析─選股與擇時 知識發現與計算智慧 以知識發現建構選股模型 以計算智慧建構選股模型 未來的研究方向 2 1. 證券投資分析─選股與擇時 1-1 為何選股與擇時如此重要? 1-2 證券投資分析 1-3 為何專家選股與擇時老是行不通? 1-4 計量投資模型 1-5 驗證選股模型的原則 3 1-1 為何選股與擇時如此重要? 投資的目標 1.最大化報酬 2.最小化風險 Ex. 投資100萬,年報酬7%與20%的30年差距 7%:760萬 20%:2億4千萬 相差31倍 4 1-2 證券投資分析 What are the key problems in decision-making of stock investment? 選股 (stock selection):which to buy/sell 擇時 (market timing):when to buy/sell 5 How do experts make decisions in stock selection? Fundamental Analysis Value Factor: Cheap > Expensive (P/E ratio, P/B ratio) Growth Factor: Earning > Deficit (ROE) Scale Factor: Small > Large (Market Capital) Moment Factor: Winner > Loser (Last quarter return) Liquidity Factor: Cold > Hot (Turnover, Trading volume) 6 最有效的選股因子: 價值因子與成長因子 權益證券的本質: 淨值與盈餘 資產負債 損益表 E/B 表 經營能力 槓桿 每股淨值(B) 每股盈餘(E) 好公司(成長股) 便宜股票(價值股) B/P 股價槓桿 E/P 每股股價(P) 益本比 市場價格 7 Performance of Value Factor and Growth Factor 12 第t+2季報酬率平均值 10 8 6 4 2 0 -2 -4 ROE 5 ROE 4 ROE 3 ROE 2 ROE 1 -6 -8 B/P 1 B/P 2 B/P 3 B/P 4 B/P 5 8 How do experts make decisions in Market Timing? Technical Analysis Moving average (MA) MACD KD RSI OBV 9 Technical Analysis: Moving Average Approach MA(1)>MA(50) 買入點 MA(1)<MA(50) 賣出點 MA(1)<MA(50) 賣出點 10 2009/02/11 2008/05/26 2007/09/03 2006/12/13 2006/04/03 2005/07/13 2004/10/26 2004/02/13 2003/05/28 2002/09/09 2001/12/18 2001/04/02 2000/07/28 1999/11/25 1999/04/03 1998/08/04 1997/12/08 1997/04/29 1996/09/11 1996/01/31 1995/06/23 1994/11/07 1994/03/30 1993/08/12 1993/01/05 Performance of Moving Average 800 700 600 500 400 300 投資組合累計報酬率(%) 大盤累計報酬率(%) 200 100 0 -100 11 1-3 為何專家選股與擇時老是行不 通? 專家也是凡人Ⅰ ─ 學習的偏誤 專家也是凡人Ⅱ ─ 貪婪與恐懼 專家也是凡人Ⅲ ─ 自私與代理人效應 學習偏誤的處方 ─ 計量投資模型 貪婪恐懼的處方 ─ 自我紀律 12 1-4 計量投資(quantitative investment ) A quantitative investment is an investment in which investment decisions are determined by numerical methods rather than by human judgment. If the whole procedure is done by human judgment or intuition, an investment process will be labeled as a “fundamental” one. If it is purely done by computer-based models, the process can be classified as “quantitative”. 以知識發現與計算智慧建構選股模型 13 1-5 驗證選股模型的原則 避免資料操弄偏差(data-snooping bias):模型要簡單 才有普遍性。 避免短期偏差:模型要歷經長期考驗才有普遍性。 避免先視偏差:模型不可「偷看」歷史資料。 避免存活偏差(survivorship bias):模型不可「忽略」 下市個股。 避免微型股偏差:模型要考慮實際操作的可行性。 考量成本原則:模型要考慮交易成本的侵蝕。 合理風險原則:模型要考慮風險與報酬的取捨。 14 What do you see? (資料操弄偏差) What do you see? 15 資料操弄偏差 The particular parameters that researchers work with are often chosen because they have been shown to be related to returns. For instance, suppose that you were asked to explain the change in SAT test scores over the past 40 years in some particular state. Suppose that to do this you searched through all of the data series you could find. After much searching, you might discover, for example, that the change in the scores was directly related to the jackrabbit population in Arizona. We know that any such relation is purely accidental; but if you search long enough and have enough choices, you will find something even if it is not really there. Needless to say, the researchers on these matters defend their work by arguing that they have not mined the data and been very careful to avoid such traps by not snooping at the data to see what will work. 16 2. 知識發現與計算智慧 2.1 Information system level 2.2 Knowledge Discovery 2.3 Computational Intelligence 17 2.1 Information system level Data Level: Data retrieval (DBMS) Information Level: Information generating, Whatif analysis (MIS) Knowledge Level: Knowledge discovering (Knowledge Discovery) Intelligence Level: Intelligence creating (Computational Intelligence) 18 2.2 Knowledge Discovery Knowledge Discovery = Search for valuable information in large volumes of data. KD methods mainly include: Regression analysis Neural networks Inductive Decision Tree 19 Regression analysis y β 0 β 1 x1 β 2 x2 .... β k xk Min L yi ( β0 ik xik ) i 1 i 1 k n 2 i n 2 20 Neural networks Y 6 號單元 輸出層 6 W56 W46 H1 H2 4 號單元 Hk 1 1 exp( ( Wik X i k )) 4 i 5 號單元 5 W34 隱藏層 W15 W24 1 Yk W14 1 exp( (Wkj H k j )) W25 W35 k E (T pj Y pj ) 2 p 21 j X1 X2 X3 輸入層 Inductive Decision Tree 報酬率8% 報酬率14% 報酬率10% 報酬率9% 報酬率4% 報酬率10% 報酬率6% 22 2.3 Computational Intelligence Computational Intelligence involves iterative development or learning. Learning is based on empirical data. It is also known as non-symbolic AI and soft computing. Computational Intelligence methods mainly include: Evolutionary computation Other bio-inspired computing Particle swarm optimization Ant colony optimization Artificial life Artificial immune systems 23 Evolutionary computation applies biologically inspired concepts such as populations, mutation, and survival of the fittest to generate increasingly better solutions to the problem. 24 以GA解最佳化的優點: 不可微分與局部最大值函數 50 3 2.5 40 2 30 1.5 20 1 10 9 0 0 9 7.5 0.5 0 (a) 函數不可微分問題 3 1.5 9 0 7.5 9 3 6 3 4.5 6 1.5 3 6 4.5 0 6 0 (b) 多個局部最大值問題 25 Data structure of GA 染色體 1 染色體 2 染色體 3 個 1 1 0 0 1 0 1 1 1 0 0 1 體 : 族 : 染色體 1 染色體 2 染色體 3 個 1 1 0 0 1 0 1 1 1 0 0 1 體 群 26 開 始 Algorithm of GA 建 立 第 一 代 個 體 族 群 計 算 個 體 適 應 度 複 製 下 一 次 演 化 交 配 突 變 結 果 收 歛 No 子 代 取 代 父 代 Yes 結 束 27 3. 以知識發現建構選股模型 3.1 變數的處理─排序正規化 3.2 單變數分析─相關係數與排序法 3.3 迴歸分析 3.4 神經網路 3.5 迴歸樹 3.6 模型比較 3.7 小結 28 3.1 變數的處理─排序正規化 自變數 X1=第t+1季報酬率 X2=第t+1季ß值 X3=第t季負債/淨值比 X4=第t季股東權益報酬率 (ROE) X5=第t+1季成交量(百萬股) X6=第t+1季週轉率 X7=第t+1季市值(季底) X8=第t+1季收盤價(季底) X9=第t淨值股價比(B/P) X10=第t益本比(E/P) X11=第t每股淨值 X12=第t每股盈餘 (EPS) X13=第t稅後淨利 X14=第t最新淨值股價比(B/P) X15=第t最新益本比(E/P) 因變數 Y=第t+2季報酬率 29 排序正規化 將自變數與因變數正規化,即將各股票的各變數分 季排序,該季最大者其排序值Rank=1;最小者 Rank=0,其餘依此內插。例如中位數的 Rank=0.5。 優點: (1) 專注橫向資料比較 (2) 避免單季資料偏差 (3) 避免極端資料偏差 (4) 降低錯誤資料影響 30 X15最新益本比 (E/P) X14最新淨值股價 比(B/P) X13稅後淨利 的十等分圖 X12每股盈餘 (EPS) X11每股淨值 X10益本比(E/P) X9淨值股價比(B/P) X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4股東權益報酬率 (ROE) X3負債/淨值比 X2 beta值 X1報酬率(t) 第t+2季報酬率Rank值的平均值 3.2 單變數分析─相關係數與排序法 各因子的第t+2季報酬率Rank值平均值 最重要變數 B/P與E/P 0.6 0.55 0.5 0.45 0.4 31 -0.10 X15最新益本比(E/P) X14最新淨值股價比 X13稅後淨利 X12每股盈餘 (EPS) X11每股淨值 0.20 X10益本比(E/P) X9淨值股價比(B/P) X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4股東權益報酬率 X3負債/淨值比 X2 beta值 X1報酬率(t) 各因子對報酬率的相關係數 最重要變數 B/P與E/P 0.15 0.10 0.05 0.00 -0.05 32 迴歸係數 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 -0.05 -0.1 X15最新益本比(E/P) X14最新淨值股價比 X13稅後淨利 X12每股盈餘 (EPS) X11每股淨值 X10益本比(E/P) X9淨值股價比(B/P) X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4股東權益報酬率 X3負債/淨值比 X2 beta值 X1報酬率(t) 3.3 迴歸分析 最重要變數 B/P與E/P 33 -2 -3 X2 beta值 X15最新益本比 X14最新淨值股價 X13稅後淨利 X12每股盈餘 (EPS) X11每股淨值 3 X10益本比(E/P) X9淨值股價比(B/P) X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4股東權益報酬率 X3負債/淨值比 -4 X1報酬率(t) 影響度 3.4 神經網路 最重要變數 最重要變數 B/P與E/P B/P與E/P 2 1 0 -1 34 3.5 迴歸樹 最重要變數 B/P與E/P 最重要變數 B/P與E/P 最重要變數 B/P與E/P 35 3.6 模型比較 模型評估:季報酬率的比較 全部 訓練 測試 訓練 訓練 測試 測試 神經網路 神經網路 迴歸樹 分類樹 線性迴歸 邏輯迴歸 大盤 (迴歸) (分類) RT3 CT3 8.16% 7.52% 7.55% 7.48% 8.55% 7.60% 0.90% 9.68% 8.99% 9.21% 8.12% 9.67% 8.77% 0.09% 6.66% 6.06% 5.93% 6.84% 7.45% 6.45% 1.72% 9.61 8.97 9.16 8.01 8.94 9.89 1.13 1.12 1.01 1.11 0.86 1.11 5.30 4.65 4.53 5.37 5.20 5.99 1.15 1.13 1.01 1.17 1.13 1.10 36 3.7 小結 迴歸分析在判斷變數的影響方向上並不正確。 神經網路常造成過度學習,但神經網路在判斷變數 的影響方向上遠比迴歸分析正確。 迴歸樹以三分段表現最佳。 迴歸分析、神經網路、迴歸樹這三種方法的投資績 效大致上相近。 各法都發現X14「最新淨值股價比」與X15「最新營 餘股價比」是最重要變數。 基本分析所能獲得的超額季報率約5~6%。 37 4. 以計算智慧建構選股模型 4.1 系統原理 4.2 規則篩選法 4.3 評分排序法 4.4 模型比較 4.5 小結 38 4.1 系統原理 設計變數 傳送 設計變數 目標與限制函數 目標函數 最佳化介面 (run 工作表) GA最佳化引擎 傳送 總目標函數 問題介面 (problem 工作表) 選股系統 39 4.2 規則篩選法 原理:測試與發現最能篩選出高報酬股票的規則。 (1) 知識結構:假設股票的篩選規則如下: IF X1 R1 C1 AND X2 R2 C2 AND X3 R3 C3 其中 X1, X2, X3={1,2,…,15}分別代表益本比等選股變數的Rank值 R1, R2, R3={<, >}分別代表 “<” 與 “>” C1, C2, C3={1,2}分別代表 0~1之間的實數 例如 IF 4 > 0.2 AND 14 > 0.9 AND 5 < 0.9 代表 IF X4(淨值報酬率Rank值) > 0.2 AND X14(新淨值市值比Rank值) > 0.9 AND X5(成交量Rank值) < 0.9 40 (2) 目標函數:應用篩選規則在每一季的股票資料庫,可產生每一 季的投資組合,此投組的報酬率公式如下: 投組的報酬率 = 投組內所有股票的報酬率總和 ÷ 投組內所有股票的總數 利用一段期間內(通常是十年左右)的每一季的投組報酬率可以 產生一個代表篩選規則在此期間內的年複利報酬率。 (3) 最佳化過程:GA可調整X1~X3, R1~R3, C1~C3等九個參數來 進行交易模擬,以找出能最大化在此期間內的年複利報酬率的 最優交易策略。 41 世代數為20,個體數為20優化過程 報酬率收斂 70% 測試 訓練 報酬率 Rank平均值 65% 60% 55% 50% 45% 40% 0 50 100 150 200 250 300 350 400 解答序號 42 訓練與測試期間報酬率Rank平均值散佈圖 測試期間報酬率Rank平均值 0.7 0.6 0.5 0.4 0.3 0.3 0.4 0.5 0.6 訓練期間報酬率Rank平均值 0.7 43 GA產生的選股規則 最重要變數 X14(B/P)與X15(E/P) 44 4.3 評分排序法 原理:測試與發現最能篩選出高報酬股票的函數 股票的篩選函數如下: Score ai X i i a1 , a2 ,...,a15 分別代表係數 X 1 , X 2 ,..., X 15 分別代表以下變數的 Rank 值 1 報酬(Return) 6 週轉率 11 每股淨值 2 風險 beta 值 7 市值(季底) 12 每股盈餘(EPS) 3 負債/淨值比 8 收盤價(季底) 13 稅後淨利 4 淨值報酬率(ROE) 9 5 成交量(百萬股) 淨值市值比(B/P) 14 新淨值市值比 10 E/P 15 新益本比 如果股票的 Score > Score 平均值 + k Score 標準差,則將股票選入投組。 45 世代數為20,個體數為20優化過程 報酬率收斂 65% 測試 訓練 報酬率 Rank平均值 60% 55% 50% 45% 40% 0 50 100 150 200 解答序號 250 300 350 400 46 訓練與測試期間報酬率Rank平均值散佈圖 測試期間報酬率Rank平均值 0.65 0.6 0.55 0.5 0.45 0.4 0.4 0.45 0.5 0.55 0.6 訓練期間報酬率Rank平均值 0.65 47 GA產生的 選股函數 48 選股函數係數 -0.25 -0.5 -0.75 -1 X3負債/淨值比 X2風險beta值 X15 新益本比 X14新淨值市值比 X13稅後淨利 X12每股盈餘 (EPS) X11每股淨值 X10E/P (自算) X9淨值市值比 % X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4淨值報酬率 (ROE) -1.25 X1報酬率(Return) 選股函數的係數 最重要變數 B/P與E/P 1.25 1 0.75 0.5 0.25 0 49 4.4 模型比較 模型評估:季報酬率的比較 全部 訓練 測試 訓練 訓練 測試 測試 規則篩選法 規則篩選法 評分排序法 評分排序法 評分排序法 大盤 ─人工調整 ─遺傳演算 ─人工調整 ─遺傳演算 ─非線性規劃 7.75% 8.42% 7.21% 7.71% 6.63% 0.90% 7.66% 9.95% 7.97% 8.03% 6.86% 0.09% 7.83% 6.90% 6.45% 7.39% 6.40% 1.72% 8.38 9.88 7.81 7.93 6.89 1.07 0.967 0.948 0.926 0.868 5.86 5.62 5.04 5.93 4.70 1.33 1.03 1.04 1.13 1.03 50 4.5 小結 規則篩選法、評分排序法大致上效果相同。 評分排序法的優化過程與結果比規則篩選法 更穩定。 各法都發現X14「最新淨值股價比」與X15 「最新營餘股價比」是最重要變數。 基本分析所能獲得的超額季報率約4~7%。 51 5.未來的研究方向 5.1 改善過度配適(過度學習)問題。 5.2 風格輪動問題(動態選股模型)。 5.3 結合選股模型與擇時模型。 52 5.1 改善過度配適(過度學習)問題 12 訓練集 10 預測誤差 系 統 8 效 6 能 驗證集 4 2 0 0 5 10 15 知識複雜度 53 5.2 風格輪動問題(動態選股模型) 不同時空背景下的選股模型是否不同? 模型1 報酬率8% 模型2 報酬率8% 報酬率10% 報酬率14% 報酬率9% 報酬率10% 報酬率14% 報酬率4% 報酬率10% 期間1 模型3 報酬率8% 報酬率4% 報酬率10% 報酬率10% 報酬率14% 報酬率9% 報酬率6% 報酬率4% 報酬率10% 期間2 報酬率6% 期間3 54 5.3 結合選股模型與擇時模型 選股模型 擇時模型 複合模型 55 2009/02/11 2008/05/26 2007/09/03 2006/12/13 2006/04/03 2005/07/13 2004/10/26 2004/02/13 2003/05/28 2002/09/09 2001/12/18 2001/04/02 2000/07/28 1999/11/25 1999/04/03 1998/08/04 1997/12/08 1997/04/29 1996/09/11 1996/01/31 1995/06/23 700 1994/11/07 擇時模型優點是可避過下 跌期,但缺點是持有期績 效與大盤相同。 1993/01/05 1993/05/13 1993/09/10 1994/01/20 1994/05/30 1994/10/04 1995/02/17 1995/06/22 1995/10/24 1996/03/06 1996/07/10 1996/11/15 1997/03/25 1997/07/28 1997/12/05 1998/04/23 1998/09/02 1999/01/18 1999/06/05 1999/10/20 2000/03/13 2000/07/25 2000/12/02 2001/05/04 2001/10/02 2002/03/06 2002/07/29 2002/12/19 2003/05/22 2003/10/15 2004/03/15 2004/08/04 2004/12/29 2005/06/01 2005/10/26 2006/03/27 2006/08/18 2007/01/11 2007/06/14 2007/11/08 2008/04/10 2008/09/02 2009/02/03 2009/06/26 1000 1994/03/30 選股模型優點是無論多頭 或空頭,績效比大盤績效 高,缺點是會隨大盤波動。 1993/08/12 選股與擇時的差異 1993/01/05 1200 選股模型績效 800 600 400 投資組合累計報酬率(%) 大盤累計報酬率(%) 200 0 -200 800 600 擇時模型績效 500 400 300 投資組合累計報酬率(% 大盤累計報酬率(%) 200 100 0 -100 56 專書:證券投資分析─ 知識發現與計算智慧 第一篇 證券投資分析 第1章 投資的工具與市場 第2章 投資的風險與報酬 第3章 投資的多元分散與資產訂價 第4章 效率市場假說與實證 第5章 證券投資的橫斷面分析:選股 第6章 證券投資的縱斷面分析:擇時 第7章 投資的評價與歸因 第二篇 知識發現與計算智慧 第8章 知識模型─迴歸分析 第9章 知識模型─神經網路 第10章 知識模型─決策樹 第11章 最佳化方法─非線性規劃 第12章 最佳化方法─遺傳演算法 第三篇 知識發現與計算智慧 在證券投資分析的應用 第13章 基本面選股系統:統計分析 第14章 基本面選股系統:間接法 第15章 基本面選股系統:直接法 第16章 技術面擇時系統:統計分析 第17章 技術面擇時系統:直接法 57 延伸閱讀 1. Neural network Dennis Olson, Charles Mossman (2003). “Neural network forecasts of Canadian stock returns using accounting ratios,” International Journal of Forecasting, 19, 453–465. Stanley G. Eakins, Stanley R. Stansell (2003). “Can value-based stock selection criteria yield superior risk-adjusted returns: an application of neural networks,” International Review of Financial Analysis, 12 (2003) 83–97. Qing Cao, Karyl B. Leggio, Marc J. Schniederjans (2005). “A comparison between Fama and French’s model and artificial neural networks in predicting the Chinese stock market,” Computers & Operations Research, 32, 2499–2512. Tong-Seng Quah (2008). “DJIA stock selection assisted by neural network,” Expert Systems with Applications, 35, 50–58. 葉怡成(2009),類神經網路-模式應用與實作,儒林。 58 延伸閱讀 2. Decision Trees Sorensen, E., Miller, K., and Ooi, C. (2000). The decision tree approach to stock selection. Journal of Portfolio Management, pages 42–52. N. REN, M. ZARGHAM and S. RAHIMI (2006). “A decision treebased classification approach to rule extraction for security analysis,” International Journal of Information Technology & Decision Making, 5(1), 227–240. Ilir Roko, Manfred Gilli (2008). “Using economic and financial information for stock selection,” Computational Management Science, 5(4), 317-335. 59 Q&A 敬請指教 葉怡成 中華大學 資訊管理系 icyeh@chu.edu.tw 60 (1) 專注橫向資料比較 可以排除變數的時間軸的變化之縱向影響,而專注 在同一時間的變數之相對大小之橫向比較。例如如 果ROE是使用原始值,則不景氣時的ROE=0%與 5%都將被視為低;景氣時的ROE=10%與20%都將 被視為高。這對統計分析ROE是否影響報酬率是不 利的。如果將ROE採用「排序正規化」,則在不景 氣時,ROE=0%可能算是低,ROE=5%可能算是高, 但在景氣時,ROE=10%只能算低,ROE=20%才能 算高,可以克服此問題。 61 (2) 避免單季資料偏差 可以避免單一季對統計結果、迴歸建模的不利影響。 例如某一季大漲,而該季正好有強烈的規模效應,而 其它季並無明顯的規模效應,但統計結果仍可能會出 現強烈的規模效應。如果將報酬率採用「排序正規 化」,每一季的報酬率的Rank值平均值、標準差都 相同,就不會出現此結論。 62 (3) 避免極端資料偏差 可以避免極端值對統計結果、迴歸建模的不利影響。 例如假設有100筆資料,其中報酬率最大值是1000%, 次大是100%與98%,則它們會被正規化到1.0, 0.99 與0.98。這樣對計算報酬率平均值或作迴歸分析時, 其不利影響可被降低。 63 (4) 降低錯誤資料影響 可以降低萬一有錯誤值在資料庫中,對統計結果、迴 歸建模的不利影響。例如假設有100筆資料,其中有 一個資料其報酬率是10000%的錯誤值,則會被正規 化到1.0,真正的最大值會被正規化到0.99。這樣對 計算報酬率平均值或作迴歸分析時,其不利影響可被 降低。 64