Chi tiết khóa học
Khóa học big data nhằm cung cấp cho học viên những kiến thức và kỹ năng làm việc với Dữ liệu lớn.
“Dữ liệu lớn là những tài sản thông tin với ba chiều tăng trưởng (3V), tăng về lượng (volume), tăng về tốc độ (velocity), tăng về chủng loại (variety), do đó cần các hình thức xử lý mới để nâng cao khả năng ra quyết định, khám phá giá trị nội tại và tối ưu hóa quy trình làm việc”.
KHOÁ HỌC BIG DATA
PHÂN TÍCH DỮ LIỆU LỚN VỚI HADOOP VÀ SPARK
1. Tổng quan khoá học
Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn, với quy mô vượt quá khả năng nắm bắt và xử lý của các công cụ phần mềm truyền thống trong khoảng thời chấp nhận. Big Data còn là tập hợp các kỹ thuật và công nghệ đòi hỏi cách tích hợp mới nhằm khám phá những giá trị tiềm ẩn to lớn từ những tập hợp dữ liệu lớn, đa dạng, phức tạp. Năm 2012, Gartner định nghĩa “Dữ liệu lớn là những tài sản thông tin với ba chiều tăng trưởng (3V), tăng về lượng (volume), tăng về tốc độ (velocity), tăng về chủng loại (variety), do đó cần các hình thức xử lý mới để nâng cao khả năng ra quyết định, khám phá giá trị nội tại và tối ưu hóa quy trình làm việc”.
2. Mục tiêu đào tạo
Mục tiêu của khóa học big data nhằm cung cấp cho học viên những kiến thức và kỹ năng cần thiết về các framework sau:
-
Hadoop: là nền tảng nguồn mở viết bằng Java hỗ trợ xử lý và lưu trữ các tập dữ liệu cực lớn trên môi trường tính toán phân tán. Cốt lõi của Hadoop gồm phần lưu trữ (Hệ thống tập tin phân tán Hadoop – HDFS) và phần xử lý (MapReduce).
-
Spark: là công cụ nguồn mở, có khả năng xử lý nhanh chóng, tiện dụng và phân tích. Nó có thể xử lý một lượng dữ liệu lớn với độ trễ thấp mà chương trình MapReduce thông thường không thể thực hiện.
Học viên bắt đầu tìm hiểu Thế nào là lưu trữ phân tán và xử lý dữ liệu lớn, và Tại sao không thể dùng các công cụ truyền thống để lưu trữ và xử lý dữ liệu lớn. Kế tiếp, tìm hiểu Spark (một công cụ kế tiếp MapReduce sử dụng Scala). Sau khi kết thúc khóa học, học viên có thể:
-
Cài đặt Hadoop version 2
-
Hiểu về Yarn và cơ chế làm việc
-
Hiểu sự khác biệt giữa xử lý thời gian thực (real time) và xử lý theo lô (batch)
-
Sử dụng MapReduce để phân tích xử lý theo lô
-
Các cách xử lý dữ liệu khác nhau với Java, Pig Latin và ngôn ngữ HQL
-
Thực hành nhiều ví dụ đa dạng
-
Sử dụng Sqoop và Flume để đưa dữ liệu lớn vào Hadoop cluster
-
Hiểu NoSQL và sử dụng HBase
-
Nắm rõ các khái niệm và tính năng của RDD trong Spark
-
Chuyển đổi và xử lý dữ liệu
-
Sử dụng ngôn ngữ truy vấn cấu trúc Spark (Spark SQL)
3. Nội dung & thời lượng đào tạo
4. Giảng viên
5. Phương pháp đào tạo
-
Học viên mang theo laptop (RAM tối thiểu: Linux OS 4GB , Windows 6GB)
-
Khóa học bao gồm 30% thời gian thảo luận lý thuyết và 70% thực hành.
Khoá học big data
6. Tài liệu, phòng học & trang thiết bị giảng dậy
7. Chứng chỉ
8. Yêu cầu đầu vào
9. Nội dung khóa học