證券投資分析知識發現與計算智慧

advertisement
Security Investment Analysis ─
Knowledge Discovery and Computational Intelligence
證券投資分析─知識發現與計算智慧
葉怡成
中華大學 資訊管理系
Prof. I-Cheng Yeh
Department of Information Management
Chung-Hua University
1
大綱
1.
2.
3.
4.
5.
證券投資分析─選股與擇時
知識發現與計算智慧
以知識發現建構選股模型
以計算智慧建構選股模型
未來的研究方向
2
1. 證券投資分析─選股與擇時
1-1 為何選股與擇時如此重要?
1-2 證券投資分析
1-3 為何專家選股與擇時老是行不通?
1-4 計量投資模型
1-5 驗證選股模型的原則
3
1-1 為何選股與擇時如此重要?
投資的目標
1.最大化報酬
2.最小化風險
Ex. 投資100萬,年報酬7%與20%的30年差距
7%:760萬
20%:2億4千萬
相差31倍
4
1-2 證券投資分析
What are the key problems in decision-making of
stock investment?
選股
(stock selection):which to buy/sell
擇時 (market timing):when to buy/sell
5
How do experts make
decisions in stock selection?
Fundamental Analysis





Value Factor: Cheap > Expensive (P/E ratio, P/B ratio)
Growth Factor: Earning > Deficit (ROE)
Scale Factor: Small > Large (Market Capital)
Moment Factor: Winner > Loser (Last quarter return)
Liquidity Factor: Cold > Hot (Turnover, Trading volume)
6
最有效的選股因子:
價值因子與成長因子
權益證券的本質:
淨值與盈餘
資產負債
損益表
E/B
表
經營能力
槓桿
每股淨值(B)
每股盈餘(E)
好公司(成長股)
便宜股票(價值股)
B/P
股價槓桿
E/P
每股股價(P)
益本比
市場價格
7
Performance of Value Factor and
Growth Factor
12
第t+2季報酬率平均值
10
8
6
4
2
0
-2
-4
ROE 5
ROE 4
ROE 3
ROE 2
ROE 1
-6
-8
B/P 1
B/P 2
B/P 3
B/P 4
B/P 5
8
How do experts make
decisions in Market Timing?
Technical Analysis
 Moving average (MA)
 MACD
 KD
 RSI
 OBV
9
Technical Analysis:
Moving Average Approach
MA(1)>MA(50)
買入點
MA(1)<MA(50)
賣出點
MA(1)<MA(50)
賣出點
10
2009/02/11
2008/05/26
2007/09/03
2006/12/13
2006/04/03
2005/07/13
2004/10/26
2004/02/13
2003/05/28
2002/09/09
2001/12/18
2001/04/02
2000/07/28
1999/11/25
1999/04/03
1998/08/04
1997/12/08
1997/04/29
1996/09/11
1996/01/31
1995/06/23
1994/11/07
1994/03/30
1993/08/12
1993/01/05
Performance of Moving Average
800
700
600
500
400
300
投資組合累計報酬率(%)
大盤累計報酬率(%)
200
100
0
-100
11
1-3 為何專家選股與擇時老是行不
通?





專家也是凡人Ⅰ ─ 學習的偏誤
專家也是凡人Ⅱ ─ 貪婪與恐懼
專家也是凡人Ⅲ ─ 自私與代理人效應
學習偏誤的處方 ─ 計量投資模型
貪婪恐懼的處方 ─ 自我紀律
12
1-4 計量投資(quantitative investment )




A quantitative investment is an investment in
which investment decisions are determined by
numerical methods rather than by human
judgment.
If the whole procedure is done by human
judgment or intuition, an investment process
will be labeled as a “fundamental” one.
If it is purely done by computer-based models,
the process can be classified as “quantitative”.
以知識發現與計算智慧建構選股模型
13
1-5 驗證選股模型的原則







避免資料操弄偏差(data-snooping bias):模型要簡單
才有普遍性。
避免短期偏差:模型要歷經長期考驗才有普遍性。
避免先視偏差:模型不可「偷看」歷史資料。
避免存活偏差(survivorship bias):模型不可「忽略」
下市個股。
避免微型股偏差:模型要考慮實際操作的可行性。
考量成本原則:模型要考慮交易成本的侵蝕。
合理風險原則:模型要考慮風險與報酬的取捨。
14
What do you see?
(資料操弄偏差)
What do you see?
15
資料操弄偏差



The particular parameters that researchers work with are often
chosen because they have been shown to be related to returns.
For instance, suppose that you were asked to explain the change
in SAT test scores over the past 40 years in some particular state.
Suppose that to do this you searched through all of the data
series you could find. After much searching, you might discover,
for example, that the change in the scores was directly related to
the jackrabbit population in Arizona. We know that any such
relation is purely accidental; but if you search long enough and
have enough choices, you will find something even if it is not
really there.
Needless to say, the researchers on these matters defend their
work by arguing that they have not mined the data and been very
careful to avoid such traps by not snooping at the data to see
what will work.
16
2. 知識發現與計算智慧
2.1 Information system level
2.2 Knowledge Discovery
2.3 Computational Intelligence
17
2.1 Information system level




Data Level: Data retrieval (DBMS)
Information Level: Information generating, Whatif analysis (MIS)
Knowledge Level: Knowledge discovering
(Knowledge Discovery)
Intelligence Level: Intelligence creating
(Computational Intelligence)
18
2.2 Knowledge Discovery

Knowledge Discovery = Search for valuable

information in large volumes of data.
KD methods mainly include:



Regression analysis
Neural networks
Inductive Decision Tree
19
Regression analysis
y β 0 β 1 x1 β 2 x2  .... β k xk  
Min L      yi  ( β0    ik xik ) 
i 1
i 1 
k

n
2
i
n
2
20
Neural networks
Y
6 號單元
輸出層
6
W56
W46
H1
H2
4 號單元
Hk 
1
1  exp( ( Wik X i   k ))
4
i
5 號單元
5
W34
隱藏層
W15
W24
1
Yk 
W14
1  exp( (Wkj H k   j ))
W25
W35
k
E    (T pj  Y pj ) 2
p
21
j
X1
X2
X3
輸入層
Inductive Decision Tree
報酬率8%
報酬率14%
報酬率10%
報酬率9%
報酬率4%
報酬率10%
報酬率6%
22
2.3 Computational Intelligence




Computational Intelligence involves iterative
development or learning. Learning is based on empirical
data. It is also known as non-symbolic AI and soft
computing.
Computational Intelligence methods mainly include:
Evolutionary computation
Other bio-inspired computing
Particle swarm optimization
Ant colony optimization
Artificial life
Artificial immune systems
23
Evolutionary computation
applies biologically inspired concepts such
as populations, mutation, and survival of
the fittest to generate increasingly better
solutions to the problem.
24
以GA解最佳化的優點:
不可微分與局部最大值函數
50
3
2.5
40
2
30
1.5
20
1
10
9
0 0
9
7.5
0.5
0
(a) 函數不可微分問題
3
1.5
9
0
7.5
9
3
6
3
4.5
6
1.5
3
6
4.5
0
6
0
(b) 多個局部最大值問題
25
Data structure of GA
染色體 1 染色體 2 染色體 3
個
1 1 0 0 1 0 1 1 1 0 0 1
體
:
族
:
染色體 1 染色體 2 染色體 3
個
1 1 0 0 1 0 1 1 1 0 0 1
體
群
26
開 始
Algorithm of GA
建 立 第 一
代 個 體 族 群
計 算 個 體 適 應 度
複 製
下 一 次
演 化
交 配
突 變
結 果 收 歛
No
子 代 取 代 父 代
Yes
結 束
27
3. 以知識發現建構選股模型
3.1 變數的處理─排序正規化
3.2 單變數分析─相關係數與排序法
3.3 迴歸分析
3.4 神經網路
3.5 迴歸樹
3.6 模型比較
3.7 小結
28
3.1 變數的處理─排序正規化
自變數
X1=第t+1季報酬率
X2=第t+1季ß值
X3=第t季負債/淨值比
X4=第t季股東權益報酬率 (ROE)
X5=第t+1季成交量(百萬股)
X6=第t+1季週轉率
X7=第t+1季市值(季底)
X8=第t+1季收盤價(季底)
X9=第t淨值股價比(B/P)
X10=第t益本比(E/P)
X11=第t每股淨值
X12=第t每股盈餘 (EPS)
X13=第t稅後淨利
X14=第t最新淨值股價比(B/P)
X15=第t最新益本比(E/P)
因變數
Y=第t+2季報酬率
29
排序正規化
將自變數與因變數正規化,即將各股票的各變數分
季排序,該季最大者其排序值Rank=1;最小者
Rank=0,其餘依此內插。例如中位數的
Rank=0.5。
優點:
(1) 專注橫向資料比較
(2) 避免單季資料偏差
(3) 避免極端資料偏差
(4) 降低錯誤資料影響
30
X15最新益本比
(E/P)
X14最新淨值股價
比(B/P)
X13稅後淨利
的十等分圖
X12每股盈餘 (EPS)
X11每股淨值 X10益本比(E/P)
X9淨值股價比(B/P)
X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4股東權益報酬率
(ROE)
X3負債/淨值比 X2 beta值 X1報酬率(t)
第t+2季報酬率Rank值的平均值
3.2 單變數分析─相關係數與排序法
各因子的第t+2季報酬率Rank值平均值
最重要變數
B/P與E/P
0.6
0.55
0.5
0.45
0.4
31
-0.10
X15最新益本比(E/P)
X14最新淨值股價比
X13稅後淨利
X12每股盈餘 (EPS)
X11每股淨值 0.20
X10益本比(E/P)
X9淨值股價比(B/P)
X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4股東權益報酬率
X3負債/淨值比 X2 beta值 X1報酬率(t)
各因子對報酬率的相關係數
最重要變數
B/P與E/P
0.15
0.10
0.05
0.00
-0.05
32
迴歸係數
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
-0.05
-0.1
X15最新益本比(E/P)
X14最新淨值股價比
X13稅後淨利
X12每股盈餘 (EPS)
X11每股淨值 X10益本比(E/P)
X9淨值股價比(B/P)
X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4股東權益報酬率
X3負債/淨值比 X2 beta值 X1報酬率(t)
3.3 迴歸分析
最重要變數
B/P與E/P
33
-2
-3
X2 beta值 X15最新益本比
X14最新淨值股價
X13稅後淨利
X12每股盈餘 (EPS)
X11每股淨值 3
X10益本比(E/P)
X9淨值股價比(B/P)
X8收盤價(季底) X7市值(季底) X6週轉率 X5成交量(百萬股) X4股東權益報酬率
X3負債/淨值比 -4
X1報酬率(t)
影響度
3.4 神經網路
最重要變數
最重要變數
B/P與E/P
B/P與E/P
2
1
0
-1
34
3.5 迴歸樹
最重要變數
B/P與E/P
最重要變數
B/P與E/P
最重要變數
B/P與E/P
35
3.6 模型比較
模型評估:季報酬率的比較
全部
訓練
測試
訓練 
訓練 
測試 
測試 
神經網路 神經網路 迴歸樹 分類樹
線性迴歸 邏輯迴歸
大盤
(迴歸)
(分類)
RT3
CT3
8.16%
7.52%
7.55%
7.48% 8.55% 7.60% 0.90%
9.68%
8.99%
9.21%
8.12% 9.67% 8.77% 0.09%
6.66%
6.06%
5.93%
6.84% 7.45% 6.45% 1.72%
9.61
8.97
9.16
8.01
8.94
9.89
1.13
1.12
1.01
1.11
0.86
1.11
5.30
4.65
4.53
5.37
5.20
5.99
1.15
1.13
1.01
1.17
1.13
1.10
36
3.7 小結






迴歸分析在判斷變數的影響方向上並不正確。
神經網路常造成過度學習,但神經網路在判斷變數
的影響方向上遠比迴歸分析正確。
迴歸樹以三分段表現最佳。
迴歸分析、神經網路、迴歸樹這三種方法的投資績
效大致上相近。
各法都發現X14「最新淨值股價比」與X15「最新營
餘股價比」是最重要變數。
基本分析所能獲得的超額季報率約5~6%。
37
4. 以計算智慧建構選股模型
4.1 系統原理
4.2 規則篩選法
4.3 評分排序法
4.4 模型比較
4.5 小結
38
4.1 系統原理
設計變數
傳送
設計變數
目標與限制函數
目標函數
最佳化介面
(run 工作表)
GA最佳化引擎
傳送
總目標函數
問題介面
(problem 工作表)
選股系統
39
4.2 規則篩選法
原理:測試與發現最能篩選出高報酬股票的規則。
(1) 知識結構:假設股票的篩選規則如下:
IF
X1 R1 C1
AND X2 R2 C2
AND X3 R3 C3
其中
 X1, X2, X3={1,2,…,15}分別代表益本比等選股變數的Rank值
 R1, R2, R3={<, >}分別代表 “<” 與 “>”
 C1, C2, C3={1,2}分別代表 0~1之間的實數
例如 IF
4 > 0.2
AND 14 > 0.9
AND 5 < 0.9
代表 IF
X4(淨值報酬率Rank值) > 0.2
AND X14(新淨值市值比Rank值) > 0.9
AND X5(成交量Rank值) < 0.9
40
(2) 目標函數:應用篩選規則在每一季的股票資料庫,可產生每一
季的投資組合,此投組的報酬率公式如下:
投組的報酬率
= 投組內所有股票的報酬率總和 ÷ 投組內所有股票的總數
利用一段期間內(通常是十年左右)的每一季的投組報酬率可以
產生一個代表篩選規則在此期間內的年複利報酬率。
(3) 最佳化過程:GA可調整X1~X3, R1~R3, C1~C3等九個參數來
進行交易模擬,以找出能最大化在此期間內的年複利報酬率的
最優交易策略。
41
世代數為20,個體數為20優化過程
報酬率收斂
70%
測試
訓練
報酬率 Rank平均值
65%
60%
55%
50%
45%
40%
0
50
100
150
200
250
300
350
400
解答序號
42
訓練與測試期間報酬率Rank平均值散佈圖
測試期間報酬率Rank平均值
0.7
0.6
0.5
0.4
0.3
0.3
0.4
0.5
0.6
訓練期間報酬率Rank平均值
0.7
43
GA產生的選股規則
最重要變數
X14(B/P)與X15(E/P)
44
4.3 評分排序法
原理:測試與發現最能篩選出高報酬股票的函數
股票的篩選函數如下:
Score   ai X i
i
a1 , a2 ,...,a15 分別代表係數
X 1 , X 2 ,..., X 15 分別代表以下變數的 Rank 值
1 報酬(Return)
6
週轉率
11 每股淨值
2 風險 beta 值
7
市值(季底)
12 每股盈餘(EPS)
3 負債/淨值比
8
收盤價(季底)
13 稅後淨利
4 淨值報酬率(ROE) 9
5 成交量(百萬股)
淨值市值比(B/P) 14 新淨值市值比
10 E/P
15 新益本比
如果股票的 Score > Score 平均值 + k  Score 標準差,則將股票選入投組。
45
世代數為20,個體數為20優化過程
報酬率收斂
65%
測試
訓練
報酬率 Rank平均值
60%
55%
50%
45%
40%
0
50
100
150
200
解答序號
250
300
350
400
46
訓練與測試期間報酬率Rank平均值散佈圖
測試期間報酬率Rank平均值
0.65
0.6
0.55
0.5
0.45
0.4
0.4
0.45
0.5
0.55
0.6
訓練期間報酬率Rank平均值
0.65
47
GA產生的
選股函數
48
選股函數係數
-0.25
-0.5
-0.75
-1
X3負債/淨值比
X2風險beta值
X15 新益本比
X14新淨值市值比
X13稅後淨利
X12每股盈餘 (EPS)
X11每股淨值
X10E/P (自算)
X9淨值市值比 %
X8收盤價(季底)
X7市值(季底)
X6週轉率
X5成交量(百萬股)
X4淨值報酬率 (ROE)
-1.25
X1報酬率(Return)
選股函數的係數
最重要變數
B/P與E/P
1.25
1
0.75
0.5
0.25
0
49
4.4 模型比較
模型評估:季報酬率的比較
全部
訓練
測試
訓練 
訓練 
測試 
測試 
規則篩選法 規則篩選法 評分排序法 評分排序法 評分排序法
大盤
─人工調整 ─遺傳演算 ─人工調整 ─遺傳演算 ─非線性規劃
7.75%
8.42%
7.21%
7.71%
6.63%
0.90%
7.66%
9.95%
7.97%
8.03%
6.86%
0.09%
7.83%
6.90%
6.45%
7.39%
6.40%
1.72%
8.38
9.88
7.81
7.93
6.89
1.07
0.967
0.948
0.926
0.868
5.86
5.62
5.04
5.93
4.70
1.33
1.03
1.04
1.13
1.03
50
4.5 小結




規則篩選法、評分排序法大致上效果相同。
評分排序法的優化過程與結果比規則篩選法
更穩定。
各法都發現X14「最新淨值股價比」與X15
「最新營餘股價比」是最重要變數。
基本分析所能獲得的超額季報率約4~7%。
51
5.未來的研究方向
5.1 改善過度配適(過度學習)問題。
5.2 風格輪動問題(動態選股模型)。
5.3 結合選股模型與擇時模型。
52
5.1 改善過度配適(過度學習)問題
12
訓練集
10
預測誤差
系
統 8
效 6
能
驗證集
4
2
0
0
5
10
15
知識複雜度
53
5.2 風格輪動問題(動態選股模型)

不同時空背景下的選股模型是否不同?
模型1
報酬率8%
模型2
報酬率8%
報酬率10%
報酬率14%
報酬率9%
報酬率10%
報酬率14%
報酬率4%
報酬率10%
期間1
模型3
報酬率8%
報酬率4%
報酬率10%
報酬率10%
報酬率14%
報酬率9%
報酬率6%
報酬率4%
報酬率10%
期間2
報酬率6%
期間3
54
5.3 結合選股模型與擇時模型
選股模型
擇時模型
複合模型
55
2009/02/11
2008/05/26
2007/09/03
2006/12/13
2006/04/03
2005/07/13
2004/10/26
2004/02/13
2003/05/28
2002/09/09
2001/12/18
2001/04/02
2000/07/28
1999/11/25
1999/04/03
1998/08/04
1997/12/08
1997/04/29
1996/09/11
1996/01/31
1995/06/23
700
1994/11/07
擇時模型優點是可避過下
跌期,但缺點是持有期績
效與大盤相同。
1993/01/05
1993/05/13
1993/09/10
1994/01/20
1994/05/30
1994/10/04
1995/02/17
1995/06/22
1995/10/24
1996/03/06
1996/07/10
1996/11/15
1997/03/25
1997/07/28
1997/12/05
1998/04/23
1998/09/02
1999/01/18
1999/06/05
1999/10/20
2000/03/13
2000/07/25
2000/12/02
2001/05/04
2001/10/02
2002/03/06
2002/07/29
2002/12/19
2003/05/22
2003/10/15
2004/03/15
2004/08/04
2004/12/29
2005/06/01
2005/10/26
2006/03/27
2006/08/18
2007/01/11
2007/06/14
2007/11/08
2008/04/10
2008/09/02
2009/02/03
2009/06/26
1000
1994/03/30

選股模型優點是無論多頭
或空頭,績效比大盤績效
高,缺點是會隨大盤波動。
1993/08/12

選股與擇時的差異
1993/01/05

1200
選股模型績效
800
600
400
投資組合累計報酬率(%)
大盤累計報酬率(%)
200
0
-200
800
600
擇時模型績效
500
400
300
投資組合累計報酬率(%
大盤累計報酬率(%)
200
100
0
-100
56
專書:證券投資分析─
知識發現與計算智慧
第一篇 證券投資分析
第1章 投資的工具與市場
第2章 投資的風險與報酬
第3章 投資的多元分散與資產訂價
第4章 效率市場假說與實證
第5章 證券投資的橫斷面分析:選股
第6章 證券投資的縱斷面分析:擇時
第7章 投資的評價與歸因
 第二篇 知識發現與計算智慧
第8章 知識模型─迴歸分析
第9章 知識模型─神經網路
第10章 知識模型─決策樹
第11章 最佳化方法─非線性規劃
第12章 最佳化方法─遺傳演算法

第三篇 知識發現與計算智慧
在證券投資分析的應用
第13章 基本面選股系統:統計分析
第14章 基本面選股系統:間接法
第15章 基本面選股系統:直接法
第16章 技術面擇時系統:統計分析
第17章 技術面擇時系統:直接法

57
延伸閱讀 1. Neural network





Dennis Olson, Charles Mossman (2003). “Neural network forecasts
of Canadian stock returns using accounting ratios,” International
Journal of Forecasting, 19, 453–465.
Stanley G. Eakins, Stanley R. Stansell (2003). “Can value-based
stock selection criteria yield superior risk-adjusted returns: an
application of neural networks,” International Review of Financial
Analysis, 12 (2003) 83–97.
Qing Cao, Karyl B. Leggio, Marc J. Schniederjans (2005). “A
comparison between Fama and French’s model and artificial neural
networks in predicting the Chinese stock market,” Computers &
Operations Research, 32, 2499–2512.
Tong-Seng Quah (2008). “DJIA stock selection assisted by neural
network,” Expert Systems with Applications, 35, 50–58.
葉怡成(2009),類神經網路-模式應用與實作,儒林。
58
延伸閱讀 2. Decision Trees



Sorensen, E., Miller, K., and Ooi, C. (2000). The decision tree
approach to stock selection. Journal of Portfolio Management,
pages 42–52.
N. REN, M. ZARGHAM and S. RAHIMI (2006). “A decision treebased classification approach to rule extraction for security analysis,”
International Journal of Information Technology & Decision Making,
5(1), 227–240.
Ilir Roko, Manfred Gilli (2008). “Using economic and financial
information for stock selection,” Computational Management
Science, 5(4), 317-335.
59
Q&A
敬請指教
葉怡成
中華大學 資訊管理系
icyeh@chu.edu.tw
60
(1) 專注橫向資料比較

可以排除變數的時間軸的變化之縱向影響,而專注
在同一時間的變數之相對大小之橫向比較。例如如
果ROE是使用原始值,則不景氣時的ROE=0%與
5%都將被視為低;景氣時的ROE=10%與20%都將
被視為高。這對統計分析ROE是否影響報酬率是不
利的。如果將ROE採用「排序正規化」,則在不景
氣時,ROE=0%可能算是低,ROE=5%可能算是高,
但在景氣時,ROE=10%只能算低,ROE=20%才能
算高,可以克服此問題。
61
(2) 避免單季資料偏差

可以避免單一季對統計結果、迴歸建模的不利影響。
例如某一季大漲,而該季正好有強烈的規模效應,而
其它季並無明顯的規模效應,但統計結果仍可能會出
現強烈的規模效應。如果將報酬率採用「排序正規
化」,每一季的報酬率的Rank值平均值、標準差都
相同,就不會出現此結論。
62
(3) 避免極端資料偏差

可以避免極端值對統計結果、迴歸建模的不利影響。
例如假設有100筆資料,其中報酬率最大值是1000%,
次大是100%與98%,則它們會被正規化到1.0, 0.99
與0.98。這樣對計算報酬率平均值或作迴歸分析時,
其不利影響可被降低。
63
(4) 降低錯誤資料影響

可以降低萬一有錯誤值在資料庫中,對統計結果、迴
歸建模的不利影響。例如假設有100筆資料,其中有
一個資料其報酬率是10000%的錯誤值,則會被正規
化到1.0,真正的最大值會被正規化到0.99。這樣對
計算報酬率平均值或作迴歸分析時,其不利影響可被
降低。
64
Download