人工知能特論６．機械学習概論とバージョン空間法

人工知能特論８．教師あり学習と教師なし学習北陸先端科学技術大学院大学鶴岡慶雅今日の講義内容 • 教師あり学習 • Naive Bayes 分類器 • 教師なし学習 • クラスタリング • 講義資料 • http://www.jaist.ac.jp/~tsuruoka/lectures/ 教師あり学習と教師なし学習 • 教師あり学習 – 各サンプルに出力の「正解」が付いている – 分類、回帰 – 学習データを人手で作成する必要がある • 教師なし学習 – 各サンプルは単なる属性値のベクトル – クラスタリング – パターンマイニング Naive Bayes 分類器 Chapter 6.9 of Mitchell, T., Machine Learning (1997) • Naive Bayes 分類器（classifier） – 確率値を出力 – 理論、実装が簡単 – 問題によっては高い分類精度 – 属性の条件付独立を仮定 – 学習は非常に効率的 – 分類も高速 Bayes の定理 • Thomas Bayes (1702 – 1761) P A B   P APB A PB  • 因果関係の順方向（生成方向）の確率を利用して逆方向の確率を計算することができる Bayes の定理（例） • 病気の診断結果から、本当にその病気にかかっているかどうかの確率を知りたい Pdisease positive  Pdisease positive  Pdisease  0.008, PdiseaseP positivedisease P positive PdiseaseP positivedisease P positivedisease  0.98, P positive Pdisease  0.992 Pnegativedisease  0.02 P positivedisease  0.03, Pnegativedisease  0.97 Bayes の定理（例） PdiseaseP positivedisease  0.008 0.98  0.0078 PdiseaseP positivedisease  0.992 0.03  0.298 0.0078 Pdisease positive    0.21 0.0078  0298 • 病気である確率は意外と低い Naive Bayes 分類器 • 属性間の条件付独立性を仮定 vNB  argmaxPv j a1 , a2 ,...,an  vj  argmax vj  Pv j P a1 , a2 ,...,an v j Pa1 , a2 ,...,an    argmaxPv j P a1 , a2 ,...,an v j vj    argmaxPv j  P ai v j vj i   ベイズの定理分母はクラスによらず一定属性の条件付独立性学習データ例 Day Outlook Temperature Humidity Wind PlayTennis D1 Sunny Hot High Weak No D2 Sunny Hot High Strong No D3 Overcast Hot High Weak Yes D4 Rain Mild High Weak Yes D5 Rain Cool Normal Weak Yes D6 Rain Cool Normal Strong No D7 Overcast Cool Normal Strong Yes D8 Sunny Mild High Weak No D9 Sunny Cool Normal Weak Yes D10 Rain Mild Normal Weak Yes D11 Sunny Mild Normal Strong Yes D12 Overcast Mild High Strong Yes D13 Overcast Hot Normal Weak Yes D14 Rain Mild High Strong No Naive Bayes 分類器 • 事例 <Outlook = sunny, Temperature = cool, Humidity = high, Wind = strong>   vNB  argmax Pv j   P ai v j v j  yes, no  i    P Tem perature  cool v   P Hum idity highv   P Wind  strong v   argmax Pv j  P Outlook  sunnyv j v j  yes, no  j j j クラスの事前確率 • 最尤推定 – 学習データ中での頻度の比 P PlayTennis yes  9  0.64 14 5 P PlayTennis no   0.36 14 属性ごとの条件付確率 • 最尤推定 – 学習データ中での頻度の比 PWind  strong PlayTennis yes  3  0.33 9 3 PWind  strong PlayTennis no   0.60 5 クラスの事後確率 P yes POutlook  sunny yes  PTem perature  cool yes  PHum idity high yes  PWind  strong yes  0.0053 Pno POutlook  sunnyno 0.0053  0.205 0.0053  0.0206  PTem perature  cool no 正規化すると  PWind  strong no 0.0206  0.795 0.0053  0.0206  PHum idity highno  0.0206 スムージング • 最尤推定 – 学習データ中での頻度の比 nc n – 事例の数が少ないときに確率値の推定が不安定 • m-estimate of probability nc  mp nm p ：事前知識による確率の推定値 m ： equivalent sample size Naive Bayes によるテキスト分類 • テキスト分類 – 記事にカテゴリを自動的に付与する – スパムメールのフィルタリング – 製品レビューの自動認識 • 例 – 好きな(嫌いな）文章だけを抽出 There were doors all round the hall, but they were all locked; and when Alice had been all the way down one side and up the other, trying every door, she walked sadly down the middle, wondering how she was ever to get out again.   v NB  argmax Pv j   P ai v j 45 v j like, dislike i   P a  " were" v   argmax Pv j  P a1 " there" v j v j like, dislike 2 j ...   P a45 " again" v j  単語の条件付確率の計算 • 頻度が低すぎて確率が推定できない  P a2 " were " v j  文書の先頭から２番目に単語 “were” が出現する確率 • 位置は無視、m-estimate によるスムージング n 1   Pw v  n  Vocabulary k k j 教師なし学習 • 出力するべき「正解」が与えられていない • クラスタリング – 似たようなサンプルをまとめあげる – 階層的クラスタリング、k-means, etc.. • パターンマイニング – データ中の頻出するパターンを効率的に発見 – Association rules, グラフマイニング, etc クラスタリング • 似たようなサンプルをまとめあげる – 階層的クラスタリング – 非階層的クラスタリング階層的クラスタリング • サンプル間に距離を定義 – 例ベクトル空間モデルによるコサイン類似度 • アルゴリズム 1. すべてのサンプルを個別のクラスタとして開始 2. もっとも近いクラスタ同士を統合し新たなクラスタとする 3. すべてのクラスタが統合されるまで 2 に戻り繰り返す階層的クラスタリング • 例デンドログラム（Dendrogram） 1 3 2 5 4 1 2 3 4 5 クラスタ間の距離の定義最短距離法（single link）重心法（centroid）最長距離法（complete link）群平均法（group-average） k-means法 • クラスタの重心 • 最小化 k ci   d x, c   i 1 xCi 2 i • アルゴリズム 1. k個の代表点c1,…ckをランダムに選択 2. すべての点を代表点がもっとも近いクラスタに割り当て 3. 各クラスタの重心を代表点にして２へ戻り繰り返す k-means法 • 実装が簡単 • 計算量が小さい • クラスタ数 k をあらかじめ決めておく必要 • すべてのクラスタがほぼ同じサイズ • 初期値のランダムな配置に依存レポート課題 • 以下の学習データについて次の問いに答えよ Outlook Temperature Humidity Wind PlayTennis Sunny Hot High Weak No Sunny Hot High Strong No Overcast Hot High Weak Yes Rain Mild High Weak Yes Rain Cool Normal Weak Yes Rain Cool Normal Strong No Overcast Cool Normal Strong Yes Sunny Mild High Weak No Sunny Cool Normal Weak Yes Rain Mild Normal Weak Yes レポート課題（続き） • 問１ – この学習データを正しく分類する決定木を作成せよ。ただし、各ノードでの属性の選択には information gain を利用し、計算過程も示すこと。 • 問２ – Naive Bayes 分類器により以下の確率を計算せよ。 P yes | Outlook  rain, Temperature  cool, Humidity high,Wind  weak

人工知能特論６．機械学習概論とバージョン空間法

Related documents

Products

Support

人工知能特論 ６．機械学習概論とバージョン空間法

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib

人工知能特論６．機械学習概論とバージョン空間法