Khóa học Big data

Giáo viên Update...
Tư vấn

Thông tin khóa học

Học phí:

Liên hệ

Thời lượng :
144 giờ
Thời gian :
18h-21h

Chi tiết khóa học

Khóa học big data nhằm cung cấp cho học viên những kiến thức và kỹ năng làm việc với Dữ liệu lớn.
“Dữ liệu lớn là những tài sản thông tin với ba chiều tăng trưởng (3V), tăng về lượng (volume), tăng về tốc độ (velocity), tăng về chủng loại (variety), do đó cần các hình thức xử lý mới để nâng cao khả năng ra quyết định, khám phá giá trị nội tại và tối ưu hóa quy trình làm việc”.

KHOÁ HỌC BIG DATA
PHÂN TÍCH DỮ LIỆU LỚN VỚI HADOOP VÀ SPARK

1. Tổng quan khoá học

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn, với quy mô vượt quá khả năng nắm bắt và xử lý của các công cụ phần mềm truyền thống trong khoảng thời chấp nhận. Big Data còn là tập hợp các kỹ thuật và công nghệ đòi hỏi cách tích hợp mới nhằm khám phá những giá trị tiềm ẩn to lớn từ những tập hợp dữ liệu lớn, đa dạng, phức tạp. Năm 2012, Gartner định nghĩa “Dữ liệu lớn là những tài sản thông tin với ba chiều tăng trưởng (3V), tăng về lượng (volume), tăng về tốc độ (velocity), tăng về chủng loại (variety), do đó cần các hình thức xử lý mới để nâng cao khả năng ra quyết định, khám phá giá trị nội tại và tối ưu hóa quy trình làm việc”.

big-data-icthanoi.edu.vn

2. Mục tiêu đào tạo

Mục tiêu của khóa học big data nhằm cung cấp cho học viên những kiến thức và kỹ năng cần thiết về các framework sau:

Hadoop: là nền tảng nguồn mở viết bằng Java hỗ trợ xử lý và lưu trữ các tập dữ liệu cực lớn trên môi trường tính toán phân tán. Cốt lõi của Hadoop gồm phần lưu trữ (Hệ thống tập tin phân tán Hadoop – HDFS) và phần xử lý (MapReduce).
Spark: là công cụ nguồn mở, có khả năng xử lý nhanh chóng, tiện dụng và phân tích. Nó có thể xử lý một lượng dữ liệu lớn với độ trễ thấp mà chương trình MapReduce thông thường không thể thực hiện.

Học viên bắt đầu tìm hiểu Thế nào là lưu trữ phân tán và xử lý dữ liệu lớn, và Tại sao không thể dùng các công cụ truyền thống để lưu trữ và xử lý dữ liệu lớn. Kế tiếp, tìm hiểu Spark (một công cụ kế tiếp MapReduce sử dụng Scala). Sau khi kết thúc khóa học, học viên có thể:

Cài đặt Hadoop version 2
Hiểu về Yarn và cơ chế làm việc
Hiểu sự khác biệt giữa xử lý thời gian thực (real time) và xử lý theo lô (batch)
Sử dụng MapReduce để phân tích xử lý theo lô
Các cách xử lý dữ liệu khác nhau với Java, Pig Latin và ngôn ngữ HQL
Thực hành nhiều ví dụ đa dạng
Sử dụng Sqoop và Flume để đưa dữ liệu lớn vào Hadoop cluster
Hiểu NoSQL và sử dụng HBase
Nắm rõ các khái niệm và tính năng của RDD trong Spark
Chuyển đổi và xử lý dữ liệu
Sử dụng ngôn ngữ truy vấn cấu trúc Spark (Spark SQL)

3. Nội dung & thời lượng đào tạo

Chương trình được đào tạo có thời lượng trong 5 ngày (40 giờ)
Nội dung chi tiết được đính kèm bên dưới
Ngôn ngữ giảng dậy: Tiếng Anh

4. Giảng viên

Giảng viên Sandeep Agarwal - Phụ trách đào tạo quốc tế NIIT tại Lagos & Abuja (Nigeria)

5. Phương pháp đào tạo

Học viên mang theo laptop (RAM tối thiểu: Linux OS 4GB , Windows 6GB)
Khóa học bao gồm 30% thời gian thảo luận lý thuyết và 70% thực hành.

Khoá học big data

6. Tài liệu, phòng học & trang thiết bị giảng dậy

Mỗi học viên được phát giáo trình của NIIT biên soạn và tài liệu hỗ trợ học tập miễn phí.

7. Chứng chỉ

Học viên tham dự từ 70% thời lượng đào tạo trở lên, được cấp Chứng chỉ tham gia khóa học Chuyên viên phân tích Dữ liệu lớn do NIIT cấp (Certificate of Participation).