1102NTUT CSIE 資料科學導論期末考(Open books/notes/Do by yourself) 考試時間: 13:30-15:00 * 請記得在答案卷上確認學號姓名有填寫正確 * 需要提供計算的推導過程(可用手寫版或將整張作答文件拍照存檔),如果只有答案沒有過程則視為零分, 如果過程正確,數據錯誤將給予部分分數 * 建議將最後答案整合成一個檔案(學號_姓名.pdf)上傳,15:00 前都可以重複上傳並更新檔案,時間截止後 將無法再上傳,建議不要冒險等到最後才上傳個人作答文件。 * 請仔細檢查並”清楚標示每一題的題號及相對應的答案”後再確認送出 1. (20%) 某一個百貨公司的平日和假日的商業活動銷售紀錄如下,使用單純貝氏(Naïve Bayes)預測 當發生在假日、沒有折扣但有免費運送時,顧客會購買商品或不會購買商品? 機率各是多少? 2. (20%) 某一商店當日顧客的購物內容資料如下資料表格所示,請分析符合最小支持度(support rate) 為 50% 和最小信賴度(confidence rate)為 80%的關聯規則(association rules)為何?如果有符合的關 聯規則,請問該規則的增益度(Lift)是多少? 畫出該表格的 FP-tree (Minimum support rate 為 50%)。 TID(交易編號) 購物品項 (Item names) 1 A,C,D,E,F 2 A,C,E,G 3 A,B,D,E,I 4 C,D,E,H 5 A,E,F,G,I 6 A,B,C 3. (20%) 一群數據點的位置如下表,請使用 complete-linkage 的方式由下而上建構階層架構樹。如 果要分為兩群,切點應設定在甚麼範圍? Point X Y A 0 5 B 8 5 C 3 6 D 6 0 E 7 4 4. (20%) 請將下列資料 {13, -7, -4, -10, 6, 5, 7, 6, 5, -3, 6, 15, -11, 8, 9}完成 (a). Z 分數標準化(Z-Score Standardization)、 (b). 最小值最大值正規化(Min-Max Normalization) (c). 最大絕對值正規畫 Maximum Absolute Scalar) (d). 分位數正規化(Quantile Robust Scalar Normalization)的轉換方式。 5. (20%) 使用協同過濾法(item-item based 方式)預測第五位顧客對第一部電影的評鑑分數。 (a) 分別計算第一部電影和其他電影的 Cosine Similarity? (b) 使用 item-item based 的協同過濾法預測第五位顧客對第一部電影的評鑑分數是多少? 1 1 2 Movies 3 4 5 2 1 3 4 4 1 6 ? 5 4 5 2 4 Users 5 7 4 4 1 3 4 5 3 3 建議可使用之公式 ( similarity and rating score) 8 9 5 5 3 4 3 4 2 10 4 5 3 5