Machine learning: Classification
Kỹ thuật Phân loại trong Học máy
Xin chào các bạn!
Phân loại (Classification) là một trong những bài toán phạm vi nghiên cứu phổ biến nhất trong lĩnh vực Học máy. Ngày nay, bạn có thể thấy ứng dụng của phân loại học máy ở nhiều nơi. Ví dụ: khi bạn đăng một hình ảnh lên Facebook, nó có thể nhận ra khuôn mặt của bạn và bạn bè bạn; hoặc khi bạn truy cập Internet, bạn có thể thấy có rất nhiều quảng cáo hiển thị dựa trên sở thích và những gì bạn đã tìm kiếm trên Google trước đó. Hơn nữa, có thể bạn đã nghe nói rằng phân loại học máy có thể giúp dự đoán xem một bệnh nhân có bị bệnh hay không.
Môn học thứ ba của Chương trình Machine learning sẽ cung cấp cho người học những chủ đề thú vị về Phân loại bao gồm các bài toán và thuật toán phân loại phổ biến. Thông qua môn học, bạn sẽ được giới thiệu các thuật toán được sử dụng rộng rãi như Logicstic Regression, Decision Tree (Cây quyết định), Random Forest, SVM-Support Vector Machine (Máy véc-tơ hỗ trợ) hoặc Neural Network (Mạng nơ-ron). Quan trọng hơn là, ngoài việc khám phá các thuật toán này, bạn sẽ có cơ hội áp dụng chúng vào các bộ dữ liệu trong thực tế cũng như đánh giá các mô hình phân loại và sử dụng chúng trong các bài toán thích hợp.
Chúc các bạn học tốt!
MỤC TIÊU MÔN HỌC
Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:
- Biết các bài toán phân loại trong học máy.
- Có hiểu biết và kiến thức về các bộ phân loại tuyến tính và mô hình Hồi quy Logistic, cách chúng được xây dựng bằng cách sử dụng gradient ascent.
- Có hiểu biết và kiến thức về mô hình Cây quyết định (Decision Tree) và cách mô hình được tạo sử dụng giải thuật tham lam (Greedy Algorithm).
- Có kiến thức về Overfitting và Regularization trong phân loại và cách ngăn chặn chúng.
- Có hiểu biết và kiến thức về Máy véc-tơ hỗ trợ (SVM), thuật toán phân lớp Naive Bayes, Random Forest, mô hình Tăng cường (Boosting) và ưu nhược điểm của từng thuật toán.
- Có hiểu biết và kiến thức về Mạng nơ-ron truyền thẳng (Feed-forward Neural Network), cách mô hình được xây dựng bằng cách sử dụng gradient descent và chain rule.
- Có hiểu biết và kiến thức về Tỷ lệ chính xác (Precision) và Tỷ lệ tái hiện (Recall), biết khi nào sử dụng metrics gì cho các bài toán khác nhau.
- Có hiểu biết và kiến thức về các phương pháp cho bộ dữ liệu lớn.
- Áp dụng được các thuật toán đã được học vào các bài toán ví dụ và dự án thực tế.
TRẢI NGHIỆM HỌC TẬP
Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 3 phần với 15 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Project) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.
Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.
CẤU TRÚC MÔN HỌC
Phần 1: Hiểu các bài toán phân loại
- Bài 1: Hiểu các bài toán phân loại
Phần 2: Các thuật toán phân loại cơ bản
- Bài 2: Bộ phân loại tuyến tính và Hồi quy Logistic
- Bài 3: Bộ phân loại Hồi quy Logistic
- Lab 1: Xây dựng thuật toán Hồi quy Logistic hoàn chỉnh với Numpy
- Bài 4: Overfitting và Regularization trong Hồi quy Logistic
- Lab 2: Ứng dụng của Hồi quy Logistic
- Bài 5: SVM
- Lab 3: Dự đoán bệnh nhân mắc Parkinson với SVM
- Bài 6: Naïve Bayes
- Lab 4: Phân loại nhận xét sản phẩm với Naïve Bayes
- Bài 7: Mạng nơ-ron: Biểu diễn
- Bài 8: Mạng nơ-ron: Học tập
- Lab 5: Xây dựng mạng NN 2 lớp cho bài toán phân loại hình ảnh
- Bài 9: Cây quyết định (Decision Tree)
- Lab 6: Sử dụng DT cho bài toán dự báo rủi ro tín dụng
- Bài 10: Overfitting trong Cây quyết định
- Lab 7: Ứng dụng của DT
- Bài 11: Tăng cường (Boosting)
- Lab 8: Xây dựng mô hình Adaboost
- Bài 12: Rừng ngẫu nhiên (Random forest)
- Lab 9: Sử dụng RF cho bài toán dự báo rủi ro tín dụng
Project 1 - Dự đoán năng lực vay và trả nợ của các khách hàng có nhu cầu mua nhà
Phần 3: Đánh giá, xử lý tập dữ liệu khổng lồ, thiết kế hệ thống học máy
- Bài 13: Tỷ lệ chính xác (Precision) và Tỷ lệ tái hiện (Recall)
- Lab 10: Tìm hiểu sâu hơn về Precision và Recall
- Bài 14: Quy mô các tập dữ liệu và học trực tuyến
- Bài 15: Thiết kế hệ thống Học máy
Project 2 - Sự kỳ diệu của các thang đo (metrics) khác nhau trong bài toán phân loại
CHUYÊN GIA THIẾT KẾ VÀ PHẢN BIỆN MÔN HỌC
THIẾT KẾ MÔN HỌC: TS. Nguyễn Văn Vinh
- Giảng viên & thành viên cốt lõi của Phòng thí nghiệm AI, Đại học Công nghệ - VNU
- Chuyên gia tư vấn AI cho DPS & Fsoft
- Tiến sĩ Khoa học máy tính, Viện Khoa học và Công nghệ tiên tiến Nhật Bản
PHẢN BIỆN MÔN HỌC: TS. Trần Tuấn Anh
- Giảng viên Đại học Khoa học Tự nhiên - ĐHQG-HCM
- Tiến sĩ Khoa học Máy tính, Đại học Quốc gia Chonnam, Hàn Quốc
- Thạc sĩ Toán học ứng dụng về AI & Machine Learning, Đại học Orleans, Pháp
CHUYÊN GIA THIẾT KẾ VÀ PHẢN BIỆN KHUNG CHƯƠNG TRÌNH
TS. Từ Minh Phương
- Trưởng khoa CNTT, Đại học Bưu chính viễn thông (PTIT)
- Chuyên gia tư vấn công nghệ AI & Machine learning
- Trưởng phòng Lab Học máy & Ứng dụng của PTIT
TS. Hoàng Anh Minh
- Quản lý R&D, Chief Scientist FPT Software, LA Office
TS. Lê Hải Sơn
- Chuyên gia về Machine Learning, FPT Technology Innovation (FTI)
- Tiến sĩ khoa học máy tính, Laboratoire d’Informatique et de Mécanique pour les Sciences de l’Ingénieur (LIMSI), Université Paris-Sud, Orsay, Pháp
- Các lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên, nhận dạng tiếng nói, xử lý ảnh, học máy, học sâu
NGUỒN HỌC LIỆU
Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.
Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nghiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.
Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.
KÊNH PHẢN HỒI
FUNiX sẵn sàng đón nhận và trao đổi về mọi ý kiến góp ý, phản hồi liên quan đến học liệu qua email program@funix.edu.vn