Skip to main content

Giới thiệu về Kỹ thuật Dữ liệu

Enrollment in this course is by invitation only

Giới thiệu về Kỹ thuật Dữ liệu

Xin chào các bạn!

Kỹ sư dữ liệu (Data Engineer) là người phát triển, xây dựng, kiểm tra và duy trì các kiến trúc, hệ thống liên quan đến dữ liệu. Đồng thời, họ cũng là người đề xuất và đôi khi đảm nhận việc cải thiện chất lượng dữ liệu. Để hoàn thiện và phát triển nguồn dữ liệu, nhóm những Data Engineer cần cải biến các quy trình thiết lập dữ liệu để thu thập, khai thác, phân tích và mô hình hóa dữ liệu.

Trong môn học thứ 2 của Chương trình Data Engineering, phần đầu của môn học giúp học viên có cái nhìn tổng quan, sâu sắc hơn về công việc cũng như các định hướng phát triển sự nghiệp cho các kỹ sư dữ liệu.

Tiếp đó, chúng ta sẽ tìm hiểu về kiến trúc kho dữ liệu (data warehousing) mẫu và mô hình hóa chiều dữ liệu(dimensional modelling). Một data warehouse (kho dữ liệu – DWH) là một hệ thống được dùng để lưu trữ thông tin cho việc phân tích và báo cáo.

Ngoài ra môn học cũng sẽ cung cấp các kiến thức về mô hình cơ sở dữ liệu phi tuyến tính (NoSQL). Cơ sở dữ liệu NoSQL là Cơ sở dữ liệu được xây dựng dành riêng cho mô hình dữ liệu và có sơ đồ linh hoạt để xây dựng các ứng dụng hiện đại. Cơ sở dữ liệu NoSQL được công nhận rộng rãi vì khả năng dễ phát triển, chức năng cũng như hiệu năng ở quy mô lớn.

Ở phần cuối của bài học, chúng ta sẽ học cách thu thập và khai thác dữ liệu trên các website với Python (Scrapy, Splash). Web scraping đề cập đến việc trích xuất dữ liệu từ một trang web. Thông tin này được thu thập và sau đó xuất thành định dạng hữu ích hơn cho người dùng (có thể là bảng tính hoặc API).

Chúc các bạn học tốt!


MỤC TIÊU MÔN HỌC

Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:

  • Nắm được các khái niệm, quy trình và công cụ cốt lõi mà bạn cần biết để có được kiến thức nền tảng về kỹ thuật dữ liệu.
  • Hiểu rõ các cơ hội về nghề nghiệp cũng như định hướng tương lai trong lĩnh vực kỹ thuật dữ liệu.
  • Nắm vững các kỹ thuật cần thiết để xây dựng kho dữ liệu.
  • Sử dụng được ETL để đưa được dữ liệu từ các nguồn dữ liệu vào kho dữ liệu.
  • Biết cách xây dựng một cơ sở dữ liệu trên MongoDB.
  • Sử dụng được các tính năng mà MongoDB cung cấp để làm việc với dữ liệu hiệu quả.
  • Hiểu được các nguyên tắc cơ bản của Web Scraping.
  • Sử dụng được Scrapy để thu thập được dữ liệu trên web.


TRẢI NGHIỆM HỌC TẬP

Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 4 phần với 20 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Assignment) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.

Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.


CẤU TRÚC MÔN HỌC

Phần 1: Giới thiệu về Kỹ thuật dữ liệu

  • Bài 1: Kỹ thuật dữ liệu là gì?
  • Bài 2: Hệ sinh thái về Kỹ thuật dữ liệu
  • Bài 3: Quy trình Kỹ thuật dữ liệu
  • Bài 4: Cơ hội nghề nghiệp trong Kỹ thuật dữ liệu

Phần 2: Data Warehousing - kho dữ liệu

  • Bài 5: Khái niệm về Data Warehouse
  • Bài 6: Các kiến trúc Data Warehouse
  • Bài 7: Đưa dữ liệu vào Data Warehouse
  • Bài 8: Xây dựng Data Warehouse
  • Bài 9: Design Facts, Fact Tables, Dimensions, và Dimension Tables
  • Bài 10: Quản lý lịch sử Warehouse thông qua Slowly Changing Dimensions và Dimension Tables
  • Bài 11: Thiết kế ETL
  • Assingment 1 - Xây dựng Data Warehouse

Phần 3: MongoDB

  • Bài 12: Giới thiệu MongoDB và các thao tác cơ bản
  • Bài 13: Tìm hiểu sâu hơn về các thao tác CRUD
  • Bài 14: Tìm hiểu về Aggregation
  • Bài 15: Các thành phần khác trong MongoDB
  • Bài 16: Hiệu suất và bảo mật
  • Assingment 2 - Xây dựng cơ sở dữ liệu MongoDB

Phần 4: Web scraping với Python

  • Bài 17: Scapy cơ bản
  • Bài 18: Xây dựng một Spider hoàn chỉnh
  • Bài 19: Thu thập dữ liệu từ Web động với Splash
  • Bài 20: Scraping APIs
  • Assingment 3 - Xây dựng hệ thống thu thập dữ liệu Covid-19


CHUYÊN GIA THIẾT KẾ MÔN HỌC

THIẾT KẾ MÔN HỌC: TS. Đặng Quang Vinh

  • Tiến sĩ Khoa học máy tính Universite de Lorraine, Pháp
  • Head of Data Science in Be Group JSC
  • Giảng viên Đại học Công nghiệp thành phố Hồ Chí Minh

THIẾT KẾ MÔN HỌC: Th.S Nguyễn Hải Nam

PHẢN BIỆN MÔN HỌC: Th.S Nguyễn Chi Hoàng

  • Master of Science (MS)Field Of StudyData Science, Université Claude Bernard Lyon 1
  • Solution Architect in Artificial Intelligence, FPT Software

PHẢN BIỆN MÔN HỌC: Anh Phan Chương

  • BigData Engineer, Seatle, Washington, US.
  • Phòng nghiên cứu và phát triển chương trình FUNiX

NGUỒN HỌC LIỆU

Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.

Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nhiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.

Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.


KÊNH PHẢN HỒI

FUNiX sẵn sàng đón nhận và trao đổi về mọi ý kiến góp ý, phản hồi liên quan đến học liệu qua email program@funix.edu.vn