Skip to main content

Machine Learning: Clustering and Retrieval

Enrollment in this course is by invitation only

Kỹ thuật phân cụm và trích xuất trong Học máy

Xin chào các bạn!

Môn học thứ tư của Chương trình Machine Learning sẽ cung cấp cho học viên những chủ đề thú vị về những công cụ Machine Learning hiệu quả và hữu ích nhất - Phân cụm (Clustering) và Trích xuất (Retrieval). Các quy trình Machine Learning trước đây có các nhãn được giám sát và các mục tiêu đã xác định, còn môn học này sẽ tập trung vào việc trích xuất thông tin có giá trị từ dữ liệu có vẻ như chưa được tổ chức và không được gắn nhãn, những thông tin này thường tồn tại với số lượng lớn hoặc vẫn chưa được sử dụng.

Do có thể sử dụng dữ liệu ở trạng thái gần như thô (vì nó không thể sử dụng con người để tăng cường dữ liệu), chúng ta có ít quyền kiểm soát quá trình hơn khi sử dụng các thuật toán học không giám sát. Do đó, chúng thường được sử dụng như một công cụ phân tích để hỗ trợ các nhà khoa học dữ liệu trong các quá trình trích xuất và chọn lọc thông tin hay khai phá dữ liệu đạt được kết quả tốt hơn.

Machine Learning không được giám sát được phân thành Phân cụm và Trích xuất. Cụ thể, nó tập trung vào việc sử dụng dữ liệu chia nhỏ thành cụm gồm nhiều điểm dữ liệu tương tự nhau và phát hiện thông tin quan trọng trong chính dữ liệu. Hơn nữa, sau khi phân tích, các thông tin quan trọng này có thể được khai thác giải quyết vấn đề nghiên cứu và thực tiễn bằng một số phương pháp áp dụng với các đặc điểm khác nhau cho một tập dữ liệu cụ thể.

Chúc các bạn học tốt!


MỤC TIÊU MÔN HỌC

Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:

  • Có cái nhìn chung về phân cụm và trích xuất.
  • Hiểu các thuật toán tìm kiếm lân cận gần nhất (Nearest Neighbor Search Algorithm).
  • Hiểu Thuật toán K-means và hiểu cách hoạt động của nó.
  • Hiểu ý tưởng mô hình hỗn hợp (Mixture Model).
  • Biết được cách kết hợp giữa Mixed Membership Modelling (Mô hình Mixed Membership) và Lattent Dirichlet Allocation (Phân bổ Dirichlet Lattent).
  • Hiểu một phương pháp khác để giải quyết bài toán phân cụm và áp dụng nó vào các dự án thực tế.


TRẢI NGHIỆM HỌC TẬP

Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 3 phần với 16 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Project) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.

Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.


CẤU TRÚC MÔN HỌC

Phần 1: Các thuật toán phân cụm cơ bản

  • Bài 1: Giới thiệu về các tác vụ phân cụm và trích xuất
  • Bài 2: Giới thiệu về thuật toán tìm kiếm lân cận gần nhất
  • Bài 3: Tầm quan trọng của biểu diễn dữ liệu và độ đo khoảng cách (distance metric)
  • Lab 1: Lựa chọn features và metrics cho tìm kiếm lân cận gần nhất
  • Bài 4: Mở rộng quy mô tìm kiếm k-NN bằng KD-tree
  • Bài 5: Locality sensitive hashing (Băm nhạy cảm cục bộ) để tìm kiếm NN gần đúng
  • Lab 2: Triển khai thuật toán Locality Sensitive Hashing với Python

Phần 2: Phân cụm với k-means

  • Bài 6: Giới thiệu về phân cụm
  • Bài 7: Phân cụm qua k-means
  • Bài 8: MapReduce để chia tỷ lệ k-means
  • Lab 3: Phân cụm dữ liệu văn bản với k-means

Project 1 - Xây dựng hệ thống đề xuất phim

Phần 3: Mô hình hỗn hợp (Mixture Model)

  • Bài 9: Tạo động lực và thiết lập nền tảng cho các mô hình hỗn hợp
  • Bài 10: Mô hình hỗn hợp Gaussian để phân cụm
  • Lab 4: Triển khai EM cho Gaussian mixtures với Python
  • Bài 11: Các khối xây dựng của thuật toán Cực đại hóa kỳ vọng (EM)
  • Bài 12: Thuật toán EM
  • Lab 5: Phân cụm dữ liệu văn bản với Gaussian mixtures
  • Bài 13: Giới thiệu về Latent Dirichlet Allocation (LDA)
  • Bài 14: Suy luận Bayes (Bayesian inference) qua Gibbs sampling (lấy mẫu Gibbs)
  • Bài 15: Collapsed Gibbs sampling cho LDA
  • Lab 6: Phân bổ Latent Dirichlet
  • Bài 16: Phân cụm phân cấp và phân cụm để phân đoạn chuỗi thời gian

Project 2 - Tăng cường Phân loại qua Mô hình Chủ đề (Topic Modelling)


CHUYÊN GIA THIẾT KẾ VÀ PHẢN BIỆN MÔN HỌC

THIẾT KẾ MÔN HỌC: TS. Nguyễn Văn Vinh

  • Giảng viên & thành viên cốt lõi của Phòng thí nghiệm AI, Đại học Công nghệ - VNU
  • Chuyên gia tư vấn AI cho DPS & Fsoft
  • Tiến sĩ Khoa học máy tính, Viện Khoa học và Công nghệ tiên tiến Nhật Bản

PHẢN BIỆN MÔN HỌC: TS. Trần Tuấn Anh

  • Giảng viên Đại học Khoa học Tự nhiên - ĐHQG-HCM
  • Tiến sĩ Khoa học Máy tính, Đại học Quốc gia Chonnam, Hàn Quốc
  • Thạc sĩ Toán học ứng dụng về AI & Machine Learning, Đại học Orleans, Pháp

CHUYÊN GIA THIẾT KẾ VÀ PHẢN BIỆN KHUNG CHƯƠNG TRÌNH

TS. Từ Minh Phương

  • Trưởng khoa CNTT, Đại học Bưu chính viễn thông (PTIT)
  • Chuyên gia tư vấn công nghệ AI & Machine learning
  • Trưởng phòng Lab Học máy & Ứng dụng của PTIT

TS. Hoàng Anh Minh

  • Quản lý R&D, Chief Scientist FPT Software, LA Office

TS. Lê Hải Sơn

  • Chuyên gia về Machine Learning, FPT Technology Innovation (FTI)
  • Tiến sĩ khoa học máy tính, Laboratoire d’Informatique et de Mécanique pour les Sciences de l’Ingénieur (LIMSI), Université Paris-Sud, Orsay, Pháp
  • Các lĩnh vực nghiên cứu: Xử lý ngôn ngữ tự nhiên, nhận dạng tiếng nói, xử lý ảnh, học máy, học sâu

NGUỒN HỌC LIỆU

Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.

Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nghiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.

Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.


KÊNH PHẢN HỒI

FUNiX sẵn sàng đón nhận và trao đổi về mọi ý kiến góp ý, phản hồi liên quan đến học liệu qua email program@funix.edu.vn