Bảng phân công công việc: STT HỌ VÀ TÊN MSSV 1 Lâm Chí Hào 22002520 NHIỆM VỤ - Tất cả 4 bài, tìm ví dụ và tập hợp bài nộp. 2 Lê Thúy Nhi 22011603 - Bài 1 3 Nguyễn Trần Gia Phúc 22003869 - Bài 2 4 Nguyễn Trần Nhựt Quang 22008076 - Bài 3 5 Nguyễn Trần Đăng Khoa 22012513 - Bài 4 BÀI TẬP NHÓM CHƯƠNG 3 Bài 1 Tìm hiểu tổng quan về Big Data và ứng dụng/ví dụ một trường hợp cụ thể Big Data là gì? Big Data hay “dữ liệu lớn” là thuật ngữ chỉ về các tập dữ liệu khổng lồ và phức tạp, đến mức khó có thể xử lý được bằng các phương pháp truyền thống. Doanh nghiệp sử dụng lượng dữ liệu khổng lồ này để phân tích, chuyển hóa thành thông tin quan trọng để giải quyết các vấn đề liên quan. Đặc điểm của Big Data? - Volume (khối lượng dữ liệu): Doanh nghiệp thu thập dữ liệu cho Big Data từ nhiều nguồn khác nhau, từ các giao dịch, thiết bị thông minh, thiết bị công nghiệp, video, hình ảnh, âm thanh, phương tiện truyền thông xã hội,... Trước đây, việc lưu trữ tất cả dữ liệu đó sẽ rất tốn kém nhưng hiện nay việc lưu trữ đã rẻ hơn nhờ sử dụng các hồ sơ dữ liệu, dữ liệu đám mây để giảm bớt gánh nặng. - Velocity (vận tốc xử lý): Với sự phát triển của Internet of Things, tốc độ truyền dữ liệu vào các doanh nghiệp vô cùng nhanh và phải được xử lý kịp thời. Thẻ RFID, cảm biến và đồng hồ thông minh đang thúc đẩy nhu cầu xử lý các luồng dữ liệu này trong thời gian gần thực. Introduction to MIS – Case Study & Lab Page 1 - Variety (dữ liệu đa dạng): Dữ liệu được thu thập ở nhiều định dạng khác nhau từ dữ liệu số, có cấu trúc trong cơ sở dữ liệu truyền thống đến tài liệu văn bản phi cấu trúc, email, video, âm thanh, dữ liệu mã chứng khoán và các giao dịch tài chính. Nêu 2 ví dụ cụ thể ứng dụng Big Data trong doanh nghiệp - Hiểu và nhắm đúng khách hàng mục tiêu: Như cửa hàng tiện lợi Ministop trước khi tiến hành bước thanh toán đều bắt buộc nhân viên chọn độ tuổi khách hàng để từ đó phòng Maketing cũng như phòng Hàng hoá có thể xây dựng những chương trình khuyến mãi phù hợp cho cửa hàng. - Tại một số doanh nghiệp bán lẻ theo chuỗi thì Big Data được sử dụng để ̉ a khách hà ng phân ti ́ch và xác định các địa điểm tập trung nhiều nhu cầu cu ̉ đề xuât́ lâ ̣ p chi nhánh mới, dự đoán lượng sản phẩm cần thiết tiềm năng đê ́ ̣ thông sẵn sà ng cung ứ ng ̉ơ một chi nhánh tại thời điểm cụ thể, nâng cao hê ̣ t sô,́ phát hiện các hoạt động gian lận và báo cáo cho các chuyên ki ̃ thuâ viên liên quan giúp đảm bảo an ninh cho từng cửa hàng. Bài 2 - Tìm hiểu về Data Warehouse và nêu một trường hợp cụ thể để minh họa? Data Warehouse là gì? - Data warehouse hay Kho dữ liệu là một loại hệ thống quản lý dữ liệu được thiết kế để kích hoạt và hỗ trợ các hoạt động kinh doanh thông minh (BI), đặc biệt là phân tích. Data warehouse chỉ nhằm mục đích thực hiện các truy vấn và phân tích và thường chứa một lượng lớn dữ liệu lịch sử. - Khả năng phân tích của nó cho phép các tổ chức thu được những hiểu biết kinh doanh có giá trị từ dữ liệu của họ để cải thiện việc ra quyết định. Theo thời gian, nó xây dựng một hồ sơ lịch sử có thể là vô giá đối với các nhà khoa học dữ liệu và nhà phân tích kinh doanh. Đặc điểm của Data Warehouse? - Hướng chủ đề (Subject-Oriented): Data warehouse cung cấp thông tin phục vụ cho một chủ thể cụ thể thay vì các hoạt động liên tục của toàn tổ chức. Các chủ đề đó có thể là bán hàng, khuyến mãi, hàng tồn kho,… Ví dụ, nếu bạn muốn phân tích dữ liệu bán hàng của công ty, bạn cần xây dựng Introduction to MIS – Case Study & Lab Page 2 một kho dữ liệu tập trung vào việc bán hàng. Một nhà kho như vậy sẽ cung cấp những thông tin có giá trị như “ai là khách hàng tốt nhất của bạn năm ngoái?” hoặc “ai có khả năng trở thành khách hàng tốt nhất của bạn trong năm tới?”. - Được tích hợp (Integrated): Data warehouse được phát triển bằng cách tích hợp dữ liệu từ nhiều nguồn khác nhau thành một định dạng nhất quán. Dữ liệu phải được lưu trữ trong kho một cách nhất quán và được mọi người chấp nhận về cách đặt tên, định dạng và mã hóa. Điều này tạo điều kiện cho việc phân tích dữ liệu hiệu quả. - Bất biến (Non-volatile): Dữ liệu một khi được nhập vào kho dữ liệu phải không thay đổi. Tất cả dữ liệu ở chế độ chỉ đọc (read-only). Dữ liệu trước đó không bị xóa khi nhập dữ liệu hiện tại. Điều này giúp bạn phân tích những gì đã xảy ra và khi nào. Data warehouse tách biệt với cơ sở dữ liệu hoạt động, có nghĩa là bất kỳ thay đổi thường xuyên nào trong cơ sở dữ liệu hoạt động sẽ không được nhìn thấy trong kho dữ liệu. - Có gán nhãn thời gian (Time-Variant): Dữ liệu được lưu trữ trong Data warehouse cung cấp thông tin từ một thời điểm lịch sử cụ thể; do đó, dữ liệu được phân loại với một khung thời gian cụ thể. Ví dụ về Time-Variant trong Data warehouse được hiển thị trong Primary Key có yếu tố thời gian như ngày, tuần hoặc tháng. Nêu ví dụ cụ thể ứng dụng Data Warehouse doanh nghiệp - Tại một số doanh nghiệp thì phòng Nhân sự sẽ chi một số tiền để mua thông tin data ứng viên từ những nguồn khác và HR sẽ chịu trách nhiệm ra quyết định dựa vào khối lượng dữ liệu nguồn ứng viên đang có của mình để tuyển dụng các ứng viên cho những bộ phận đang còn thiếu trong doanh nghiệp. Bài 3 - Tìm hiểu về Data Mart và nêu một trường hợp cụ thể để minh họa (triển khai tương tự Data Warehouse) Data Mart là gì? Introduction to MIS – Case Study & Lab Page 3 - Data mart là phiên bản thu gọn của Kho dữ liệu và được thiết kế để sử dụng bởi một bộ phận, đơn vị hoặc nhóm người dùng cụ thể trong một tổ chức. - Data Mart thường chỉ lấy dữ liệu từ một vài nguồn so với kho dữ liệu. Data mart có kích thước nhỏ và linh hoạt hơn so với một Datwarhouse. Đặc điểm của Data Mart? - Data mart phụ thuộc Một data mart phụ thuộc cho phép tìm nguồn dữ liệu của tổ chức từ một Kho dữ liệu. Nó cung cấp lợi ích của sự tập trung. Nếu bạn cần phát triển một hoặc nhiều dữ liệu vật lý, thì bạn cần cấu hình chúng dưới dạng data mart phụ thuộc. Dữ liệu phụ thuộc có thể được xây dựng theo hai cách khác nhau. Người dùng có thể truy cập cả data mart và kho dữ liệu, tùy theo nhu cầu hoặc nơi truy cập chỉ giới hạn ở data mart. Cách tiếp cận thứ hai không tối ưu vì đôi khi nó được gọi là dữ liệu cơ sở dữ liệu. Trong dữ liệu Junkyard, tất cả dữ liệu bắt đầu bằng một nguồn chung, nhưng chúng bị loại bỏ và chủ yếu là rác. - Data Mart độc lập Một data Mart độc lập được tạo mà không cần sử dụng kho dữ liệu trung tâm. Loại Data Mart này là một lựa chọn lý tưởng cho các nhóm nhỏ hơn trong một tổ chức. Một data Mart độc lập độc lập không có mối quan hệ với kho dữ liệu doanh nghiệp cũng như với bất kỳ mart dữ liệu nào khác. Trong data Mart độc lập, dữ liệu được nhập riêng và các phân tích của nó cũng được thực hiện tự động. - Data Mart kết hợp: Một Data Mart kết hợp kết hợp đầu vào từ các nguồn ngoài kho dữ liệu. Điều này có thể hữu ích khi bạn muốn tích hợp đặc biệt, như sau khi một nhóm hoặc sản phẩm mới được thêm vào tổ chức. Nêu ví dụ cụ thể ứng dụng Data Mart doanh nghiệp - Các phòng ban thuộc Tiếp thị, Bán hàng, Nhân sự hoặc tài chính, các dữ liệu từ những phòng ban này thường được kiểm soát bởi một bộ phận duy nhất trong một doanh nghiệp. Bài 4 Tìm hiểu tổng quan về quản lý tri thức (KMS) và hệ thống quản lý tri thức (KMSs) Introduction to MIS – Case Study & Lab Page 4 - KMS viết tắt của Knowledge Management System. Hệ thống này hoạt động dựa trên nền tảng website hay cũng có thể là một phần mềm trên điện thoại. Trong KMS, các liên kết là một chiều và được nhúng trong các khung. Chúng có thể đi từ bất kỳ mục văn bản, điểm, thực thể đồ hoạ hoặc hình ảnh nào trong khung nguồn đến bất kỳ khung đích nào. Ngoài ra, để liên kết, các mục khung cũng có thể có các hành động, cho phép sử dụng để kích hoạt các chương trình mở rộng chức năng nội tại của hệ thống. - Mục đích của KMS là để cho nhiều người dùng hợp tác trong việc tạo và chia sẻ thông tin trong phạm vi lớn, chia sẻ các siêu văn bản, và ngay từ đầu, KMS đã được thiết kế như một hệ thống đa người dùng thật sự. Introduction to MIS – Case Study & Lab Page 5