Khóa học Big data

Khóa học Big data

  • Giáo viên Update...

  • Tư vấn
Thông tin khóa học
Học phí:
Liên hệ
  • Thời lượng :
    144 giờ
  • Thời gian :
    18h-21h
Chi tiết khóa học

Khóa học big data nhằm cung cấp cho học viên những kiến thức và kỹ năng làm việc với Dữ liệu lớn.
Dữ liệu lớn là những tài sản thông tin với ba chiều tăng trưởng (3V), tăng về lượng (volume), tăng về tốc độ (velocity), tăng về chủng loại (variety), do đó cần các hình thức xử lý mới để nâng cao khả năng ra quyết định, khám phá giá trị nội tại và tối ưu hóa quy trình làm việc”.

KHOÁ HỌC BIG DATA 
PHÂN TÍCH DỮ LIỆU LỚN VỚI HADOOP VÀ SPARK

 
1. Tổng quan khoá học

Big Data là thuật ngữ dùng để chỉ một tập hợp dữ liệu rất lớn, với quy mô vượt quá khả năng nắm bắt và xử lý của các công cụ phần mềm truyền thống trong khoảng thời chấp nhận. Big Data còn là tập hợp các kỹ thuật và công nghệ đòi hỏi cách tích hợp mới nhằm khám phá những giá trị tiềm ẩn to lớn từ những tập hợp dữ liệu lớn, đa dạng, phức tạp. Năm 2012, Gartner định nghĩa “Dữ liệu lớn là những tài sản thông tin với ba chiều tăng trưởng (3V), tăng về lượng (volume), tăng về tốc độ (velocity), tăng về chủng loại (variety), do đó cần các hình thức xử lý mới để nâng cao khả năng ra quyết định, khám phá giá trị nội tại và tối ưu hóa quy trình làm việc”.


big-data-icthanoi.edu.vn
 

2. Mục tiêu đào tạo

Mục tiêu của khóa học big data nhằm cung cấp cho học viên những kiến thức và kỹ năng cần thiết về các framework sau:

  • Hadoop: là nền tảng nguồn mở viết bằng Java hỗ trợ xử lý và lưu trữ các tập dữ liệu cực lớn trên môi trường tính toán phân tán. Cốt lõi của Hadoop gồm phần lưu trữ (Hệ thống tập tin phân tán Hadoop – HDFS) và phần xử lý (MapReduce).

  • Spark: là công cụ nguồn mở, có khả năng xử lý nhanh chóng, tiện dụng và phân tích. Nó có thể xử lý một lượng dữ liệu lớn với độ trễ thấp mà chương trình MapReduce thông thường không thể thực hiện.

Học viên bắt đầu tìm hiểu Thế nào là lưu trữ phân tán và xử lý dữ liệu lớn, và Tại sao không thể dùng các công cụ truyền thống để lưu trữ và xử lý dữ liệu lớn. Kế tiếp, tìm hiểu Spark (một công cụ kế tiếp MapReduce sử dụng Scala). Sau khi kết thúc khóa học, học viên có thể:

  1. Cài đặt Hadoop version 2

  2. Hiểu về Yarn và cơ chế làm việc

  3. Hiểu sự khác biệt giữa xử lý thời gian thực (real time) và xử lý theo lô (batch)

  4. Sử dụng MapReduce để phân tích xử lý theo lô

  5. Các cách xử lý dữ liệu khác nhau với Java, Pig Latin và ngôn ngữ HQL

  6. Thực hành nhiều ví dụ đa dạng

  7. Sử dụng Sqoop và Flume để đưa dữ liệu lớn vào Hadoop cluster

  8. Hiểu NoSQL và sử dụng HBase

  9. Nắm rõ các khái niệm và tính năng của RDD trong Spark

  10. Chuyển đổi và xử lý dữ liệu

  11. Sử dụng ngôn ngữ truy vấn cấu trúc Spark (Spark SQL)

3. Nội dung & thời lượng đào tạo

  • Chương trình được đào tạo có thời lượng trong 5 ngày (40 giờ)

  • Nội dung chi tiết được đính kèm bên dưới

  • Ngôn ngữ giảng dậy: Tiếng Anh

4. Giảng viên

  • Giảng viên Sandeep Agarwal - Phụ trách đào tạo quốc tế NIIT tại Lagos & Abuja (Nigeria)

5. Phương pháp đào tạo

  • Học viên mang theo laptop (RAM tối thiểu: Linux OS 4GB , Windows 6GB)

  • Khóa học bao gồm 30% thời gian thảo luận lý thuyết và 70% thực hành.
     

    khoá học big data phân tích dữ liệu
    Khoá học big data

6. Tài liệu, phòng học & trang thiết bị giảng dậy

  • Mỗi học viên được phát giáo trình của NIIT biên soạn và tài liệu hỗ trợ học tập miễn phí.

7. Chứng chỉ

  • Học viên tham dự từ 70% thời lượng đào tạo trở lên, được cấp Chứng chỉ tham gia khóa học Chuyên viên phân tích Dữ liệu lớn do NIIT cấp (Certificate of Participation).

8. Yêu cầu đầu vào

  • Học viên cần có kiến thức cơ bản về hệ điều hành Linux và ngôn ngữ lập trình Java

9. Nội dung khóa học


Ngày 1:
- Giới thiệu Big Data và Hadoop
- Cài đặt Hadoop
Ngày 2:
- Kiến trúc hệ thống tập tin phân tán trong Hadoop (HDFS)
- MapReduce
Ngày 3:
- Kiến trúc YARN
- Hive
Ngày 4:
- Pig
- Sqoop và Flume
Ngày 5:
- NoSQL và Hbase
- Cơ bản về Spark
- Cài đặt Spark
- RDD (Resilient Distributed Datasets)
- Spark SQL



 

Đánh giá sản phẩm

5

Thêm vào yêu thích Đã yêu thích