Ứng dụng học máy trong phân tích dữ liệu
Ứng dụng học máy trong phân tích dữ liệu
Xin chào các bạn!
Trong môn học này, học viên sẽ được làm quen với ngôn ngữ Python và cách sử dụng thư viện Pandas để xử lý dữ liệu dạng bảng. Với Pandas, các bạn có thể dễ dàng thực hiện các công việc như làm sạch dữ liệu, chuẩn hoá và biến đổi dữ liệu. Ngoài ra, Pandas cũng hỗ trợ rất nhiều định dạng file dữ liệu khác nhau như json, xlsx, csv, ... Việc này sẽ giúp các bạn có nhiều lựa chọn hơn khi làm việc với dữ liệu.
Trong ở phần 3 của môn học này, các bạn sẽ được thực hành trực quan hoá dữ liệu với Python bằng cách sử dụng các thư viện của Python như Matplotlib, Seaborn, Folium, Plotly.
Trong phần cuối cùng của môn học, các bạn sẽ được làm quen với học máy, đây là một lĩnh vực rất rộng lớn và được sử dụng rộng rãi trong phân tích dữ liệu nâng cao. Nếu trước đây các bạn đã được làm quen với mô hình Linear Regression cơ bản (trong môn Giới thiệu về phân tích dữ liệu) thì ở phần này, các bạn sẽ được giới thiệu các mô hình khác như Regression nâng cao, hồi quy logistic, cây quyết định, k-Mean. Mỗi mô hình đều được sử dụng khi phân tích dữ liệu nâng cao: hồi quy logistic có thể giúp các bạn phân loại đâu là khách hàng tiềm năng, k-Means sẽ giúp các bạn phân nhóm được các nhóm khách hàng có đặc điểm chung, ...
Chúc các bạn học tốt!
MỤC TIÊU MÔN HỌC
Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:
- Sử dụng Python để làm việc với các dữ liệu dạng text file, dữ liệu web
- Sử dụng numpy khi thao tác với mảng 1 chiều và 2 chiều
- Sử dụng thành thạo Pandas cho các tác vụ làm sạch, biến đổi, xử lý và phân tích dữ liệu
- Biết viết regular expression để làm các querry từ đơn giản đến phức tạp với dữ liệu text
- Sử dụng được Python để trực quan hóa dữ liệu thông qua các thư viện từ cơ bản đến nâng cao
- Làm quen với một số bài toán mô hình hóa dữ liệu cơ bản như hồi quy tuyến tính, hồi quy logistic, cây quyết định k-Means
TRẢI NGHIỆM HỌC TẬP
Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 4 phần với 16 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Project) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.
Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.
CẤU TRÚC MÔN HỌC
Phần 1: Xử lý dữ liệu với Python
- Bài 1: Python cơ bản
- Bài 2: Numpy trong Python
- Bài 3: Làm việc với dữ liệu trong Python
- Bài 4: Xử lý dữ liệu với regex
Assignment 1 - Python cơ bản
Phần 2: Xử lý dữ liệu với Pandas
- Bài 5: DataFrame
- Bài 6: Trích xuất dữ liệu với Pandas
- Bài 7: Xử lý dữ liệu trong Pandas
- Bài 8: Làm việc với dữ liệu chuỗi và thời gian trong Pandas
Phần 3: Trực quan hoá dữ liệu
- Bài 9: Công cụ trực quan hoá dữ liệu cơ bản
- Bài 10: Công cụ trực quan hoá dữ liệu nâng cao
- Bài 11: Trực quan hoá dữ liệu bằng Plotly
Assignment 2 - Phân tích dữ liệu Covid-19
Phần 4: Ứng dụng học máy trong phân tích dữ liệu
- Bài 12: Giới thiệu về học máy
- Bài 13: Hồi quy nâng cao
- Bài 14: Hồi quy logistic
- Bài 15: Cây quyết định
- Bài 16: Phân cụm k-Means
CHUYÊN GIA THIẾT KẾ VÀ PHẢN BIỆN MÔN HỌC
THIẾT KẾ MÔN HỌC: Th.S Nguyễn Thế Chinh
- Thạc sĩ tại Viện công nghệ Hoàng Gia, Thụy Điển
- Chuyên viên nghiên cứu Machine Learning tại Coderschool
PHẢN BIỆN MÔN HỌC: Th.S Nguyễn Danh Tú
- Thạc sĩ Toán - Tin tại ĐH Bách Khoa Hà Nội
- CEO Topica Native Product, Topica Edtech Group
NGUỒN HỌC LIỆU
Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.
Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nhiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.
Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.
KÊNH PHẢN HỒI
FUNiX sẵn sàng đón nhận và trao đổi về mọi ý kiến góp ý, phản hồi liên quan đến học liệu qua email program@funix.edu.vn