Skip to main content

Dữ liệu lớn với Spark

Enrollment in this course is by invitation only

Dữ liệu lớn với Spark

Xin chào các bạn!

Big Data hay còn được biết với cái tên "Dữ liệu lớn" là một trong những từ khoá được nhắc đến gần đây trong thế giới công nghệ thông tin, đặc biệt là khi chúng ta đang bước vào kỷ nguyên công nghiệp 4.0. Như các bạn đã biết, sự ra đời của mạng máy tính toàn cầu (Internet) và sự phát triển của các phương tiện kỹ thuật số đã và đang tạo ra một lượng dữ liệu khổng lồ. Dù vô tình hay hữu ý thì dữ liệu này chứa trong nó rất nhiều giá trị.

Trong môn học này các bạn sẽ được tìm hiểu về hệ thống tính toán và thuật toán xử lý dữ liệu để có đầy đủ kiến thức cho những công việc liên quan đến dữ liệu lớn. Về hệ thống tính toán, chúng ta sẽ tìm hiểu qua về Hadoop và đi sâu vào Apache Spark - hai nền tảng phổ biến nhất hiện nay trong xử lý dữ liệu lớn. Các bạn sẽ nắm được tổng quan về nền tảng xử lý dữ liệu lớn thông qua hệ thống các máy tính kết nối với nhau. Sau đó, các bạn sẽ học cách thiết kế, lập lịch và giám sát các đường ống dẫn dữ liệu (data pipelines) thông qua Apache Airflow.

Chúc các bạn học tốt!


MỤC TIÊU MÔN HỌC

Sau khi học xong môn này, học viên sẽ đạt được các chuẩn kiến thức, kỹ năng đầu ra như sau:

  • Nắm vững được các khái niệm cơ bản trong Big Data như Hadoop, Map-Reduce, RDD, Spark, SparkSQL, DataFrame, DataSet.
  • Sử dụng được Pyspark thuần thục trên Python với dữ liệu phi cấu trúc (Spark RDD) và dữ liệu có cấu trúc (Spark DataFrame và SparkSQL).
  • Hiểu được các công nghệ chuyên biệt trên Spark như Spark Streaming, Structed Streaming, GraphX, Mllib.
  • Nắm vững các chức năng cốt lõi của Apache Airflow như DAGs, Operator, Task, Workflow,...


TRẢI NGHIỆM HỌC TẬP

Để bắt đầu, các bạn nên dành một vài phút khám phá môn học và cấu trúc chung. Môn học sẽ có 3 phần với 17 bài học. Xuyên suốt các bài học và cuối mỗi học phần, các bài thực hành Lab và bài tập lớn (Assignment) sẽ giúp các bạn tăng cường việc ghi nhớ và vận dung lý thuyết đã học vào các bài toán thực tế. Để việc học tập được hiệu quả, hãy luôn trau dồi kiến thức, không ngừng học hỏi, nghiên cứu và lập cho mình một kế hoạch học tập hợp lý để hoàn thành khóa học một cách xuất sắc.

Trong thời gian học (dự kiến là 6 tuần), việc phân bổ tuần học là rất quan trọng. Nếu các bạn có bất cứ câu hỏi nào hãy kết nối với Mentor để được giải đáp.


CẤU TRÚC MÔN HỌC

Phần 1: Giới thiệu về Big Data và Hadoop

  • Bài 1: Khái niệm về Big Data
  • Bài 2: Giới thiệu về Hadoop
  • Bài 3: Quản lý Big Data và Big Data Processing

Phần 2: Big Data với Spark

  • Bài 4: Giới thiệu về Spark
  • Bài 5: Spark RDD
  • Bài 6: SparkSQL, Data-frames và Datasets
  • Bài 7: SparkSQL và SparkSQL Table
  • Bài 8: Data Transformation với Spark
  • Bài 9: Data Aggregations và Join trên Spark
  • Bài 10: Spark Streaming
  • Bài 11: Đọc dữ liệu với Kafka Source và các phép Join với Stream
  • Bài 12: Streaming Windowing và Aggregates
  • Bài 13: Giám sát & Điều chỉnh
  • Assingment 1 - Phân tích hành vi và thói quen của người dùng Stack Overflow

Phần 3: Apache Airflow

  • Bài 14: Giới thiệu về Apache Airflow
  • Bài 15: Tạo Data Pipeline với Airflow
  • Bài 16: Chạy Data Pipeline song song
  • Bài 17: Các khái niệm nâng cao trong Airflow
  • Assingment 2 - Thiết lập DataPipeline cho dữ liệu lớn từ Cloud


CHUYÊN GIA THIẾT KẾ MÔN HỌC

THIẾT KẾ MÔN HỌC: TS. Đặng Quang Vinh

  • Tiến sĩ Khoa học máy tính Universite de Lorraine, Pháp
  • Head of Data Science in Be Group JSC
  • Giảng viên Đại học Công nghiệp thành phố Hồ Chí Minh

THIẾT KẾ MÔN HỌC: Th.S Nguyễn Hải Nam

PHẢN BIỆN MÔN HỌC: Th.S Nguyễn Chi Hoàng

  • Master of Science (MS)Field Of StudyData Science, Université Claude Bernard Lyon 1
  • Solution Architect in Artificial Intelligence, FPT Software

PHẢN BIỆN MÔN HỌC: Anh Phan Chương

  • BigData Engineer, Seatle, Washington, US.
  • Phòng nghiên cứu và phát triển chương trình FUNiX

NGUỒN HỌC LIỆU

Trong thời đại hiện nay, mỗi môn học đều có nhiều nguồn tài liệu liên quan kể cả sách in và online, FUNiX Way không quy định một nguồn học liệu cụ thể mà khuyến cáo để học viên chọn được nguồn phù hợp nhất cho mình. Trong quá trình học từ nhiều nguồn khác nhau theo lựa chọn cá nhân đó, khi sinh viên phát sinh câu hỏi thì sẽ được kết nối nhanh nhất với mentor để được giải đáp. Toàn bộ phần đánh giá bao gồm các câu hỏi trắc nghiệm, bài tập, dự án và thi vấn đáp do FUNiX thiết kế, xây dựng và thực hiện.

Các môn học của FUNiX không quy định bắt buộc tài liệu học tập, sinh viên có thể chủ động tìm và học từ bất kỳ nguồn nào phù hợp, kể cả sách in hay nguồn học liệu online (MOOC) hay các website. Việc sử dụng các nguồn đó do học viên chịu trách nhiệm và đảm bảo tuân thủ các chính sách của chủ sở hữu nguồn, trừ trường hợp họ có sự hợp tác chính thức với FUNiX. Nếu cần hỗ trợ, học viên có thể liên hệ phòng đào tạo FUNiX để được hướng dẫn.

Dưới đây là một số nguồn học liệu của môn học mà học viên có thể tham khảo sử dụng. Việc liệt kê nguồn dưới đây không nhất thiết hàm ý rằng FUNiX có sự hợp tác chính thức với chủ sở hữu của nguồn: Coursera, tutorialspoint, edX Training, or Udemy.


KÊNH PHẢN HỒI

FUNiX sẵn sàng đón nhận và trao đổi về mọi ý kiến góp ý, phản hồi liên quan đến học liệu qua email program@funix.edu.vn