Nội dung học

(14 buổi - Mỗi tuần 2 buổi - Tối 18:30 - 21:00)

Giới thiệu về Big Data, lập trình Python.

Giới thiệu Python.

Làm quen với Anaconda, cài đặt và chạy code trên command line và jupyter notebook.

Python Structures: List, Tuple, Dictionary, Set và các phương thức của mỗi loại.

Cấu trúc điều khiển: If-else, loop

String, datetime trong Python.

Lambda functions trong Python.

Khai báo và sử dụng hàm.

Các công nghệ Big Data và nền tảng DataBricks

Giới thiệu về lưu trữ và xử lý dữ liệu lớn, sử dụng Hadoop Ecosystem (Hdfs, Spark).

Big data khác gì với xử lý Data thông thường.

Giới thiệu về Apache Spark: Kiến trúc, và các khái niệm quan trọng (Spark Session, Executors, Driver).

Spark essentials: Partitions, Lazy evaluation.

Tổng quan các module trong Apache Spark: Spark Core, SQL, Streaming, MLlib, GraphX.

Giới thiệu nền tảng DataBricks cho việc xử lý dữ liệu sử dụng Apache Spark.

Tương quan giữa Spark và CSDL quan hệ.

DataFrames, DataSet và các operations

Giới thiệu về DataFrame (DF), DataSet (DS), Schemas và Types

So sánh DF và DS.

Actions/ Transformations trong Spark.

Cơ chế Lazy Evaluation.

Các actions/ functions quan trọng: printSchema, show, limit, count, write.

Định dạng dữ liệu Row based: text, csv, json

Làm việc với dữ liệu có cấu trúc.

Các kiểu dữ liệu nhị nhân trong Spark: Parquet, Avro, Orc.

Đọc dữ liệu từ RDBMS (mySQL, OracleDB...).

Đối tượng Column trong DataFrame.

Các transformation quan trọng: select, filter, map, join, sort

Ghi dữ liệu sử dụng Data Frame Writer.

Ghi dữ liệu thành Partition theo category

Tổng hợp dữ liệu với Spark SQL API: Built-in Functions.

Aggregate functions: sum, min, max, avg...

Date time functions: Thao tác với dữ liệu thời gian.

String functions: Thao tác với dữ liệu String.

Xử lý dữ liệu Null.

Tương tác với Spark SQL thông qua SQL query.

Giới thiệu về Spark SQL Engine.

Spark Catalog.

Kết hợp giữa Spark SQL Engine và Spark SQL API.

SQL Query, subquery và nested query.

Sử dụng Built-in functions trong SQL Query.

Spark UI, cách xem thông tin về task, job, stage.

Giải thích các khái niệm về task, job, stage trong Spark.

Persistence trong Spark.

Các cấu hình Spark quan trọng.

Hướng dẫn xem các thông tin về việc thực thi thông qua Spark UI.

Cài đặt Spark.

Các mode triển khai Spark Application.

Cài đặt và chạy chương trình Spark trên Windows, Ubuntu, MacOS

Spark-shell tips.

Xử lý luồng dữ liệu.

Bản chất luồng dữ liệu.

Streaming concept: Cách xử lý dữ liệu dạng stream.

Giới thiệu Apache Spark Structured Streaming.

Machine Learning với Spark MLlib

Machine Learning là gì?

Các kỹ thuật Machine learning phổ biến.

Giới thiệu Spark MLlib.

Sử dụng kết hợp Spark SQL, với MLlib để xây dựng mô hình.