Học thêm kiến thức về Hadoop
hadoop
12
Male avatar

thynguyen viết ngày 13/07/2020

Hadoop là gì

Đây chắc hẳn không phải thuật ngữ gì quá xa lạ đối với các bạn làm Big data, có thể hiểu Hadoop là một tập hợp của các chương trình và quy trình nguồn mở, nó cho phép xử lý phân tán (distributed processing) các tập dữ liệu lớn trên các cụm máy tính (clusters of computers) thông qua mô hình lập trình đơn giản để đạt hiệu quả hơn cho việc vận hành Big data. Sau đây là một vài khái niệm và đặc tính cơ bản của Hadoop để giúp bạn có thể nhanh chóng hiểu được về thuật ngữ này một cách dễ dàng.

Phân tích Hadoop (HD)

HD tổng cộng có 4 module:

HDFS (Hadoop Distributed File System)

HDFS được hiểu là một hệ thống file có khả năng lưu trữ dữ liệu khủng khiếp và đồng thời giúp phân tán, ngoài ra còn có tính năng tối ưu hoá việc sử dụng băng thông giữa các node. Chính vì thế nó được sử dụng để chạy trên một cluster lớn với hàng chục ngàn node.

Bên cạnh đó, chúng ta có thể sử dụng HDFS như một ổ đĩa mà gần như không bị giới hạn về dung lượng. Nó cho phép truy xuất nhiều ổ đĩa như là 1 ổ đĩa, vì thể muốn tăng dung lượng chỉ cần thêm node vào hệ thống.

MapReduce (Hadoop MapReduce)

MapReduce là một framework giúp phát triển các ứng dụng phân tán theo mô hình MapReduce một cách dễ dàng và mạnh mẽ, hệ thống dựa trên YARN dùng để xử lý song song các tập dữ liệu lớn. Ngoài ra ứng dụng phân tán MapReduce có thể chạy trên một cluster lớn với nhiều node.

Hadoop YARN

Hadoop YARN có chức năng quản lý tài nguyên của các hệ thống lưu trữ dữ liệu và chạy phân tích. Chúng ta có thể mở rộng YARN ngoài một vài nghìn node thông qua tính năng YARN Federation. Tính năng này cho phép chúng ta buộc nhiều cụm YARN thành một cụm lớn. Điều này cho phép sử dụng các cụm độc lập, ghép lại với nhau.

Hadoop Common

Cuối cùng nhưng cũng quan trọng không kém, đây là thư viện và tiện ích cần thiết của Java để các module khác sử dụng. Những thư viện này cung cấp hệ thống file và lớp OS trừu tượng, đồng thời chứa các mã lệnh Java để khởi động Hadoop.

Ưu điểm của Hadoop

HD hỗ trợ người dùng viết và kiểm tra các hệ thống phân tán một cách nhanh chóng. Đây là cách hiệu quả cho phép phân phối dữ liệu và công việc xuyên suốt các máy trạm nhờ vào cơ chế xử lý song song của các lõi CPU.

Bên cạnh đó HD không bị phụ thuộc vào cơ chế chịu lỗi của phần cứng vì vậy bản thân Hadoop sở hữu các thư viện được thiết kế để phát hiện và xử lý các lỗi ở lớp ứng dụng.

Các server dù bị tháo gỡ nhiều lần thì vẫn hoạt động mà không bị ngắt quãng. Một lợi thế lớn của Hadoop ngoài mã nguồn mở đó là khả năng tương thích trên tất cả các nền tảng do được phát triển trên Java.

Tài liệu tham khảo

Tất cả các kiến thức trên đều được tổng hợp từ kiến thức và kinh nghiệm riêng của mình cùng với tham khảo 1 số nguồn trong và ngoài nước, để tìm hiểu nhiều hơn về HD mình để link bên dưới nhé!

hadoop.apache.org/docs/current/index.html
www.talend.com/resources/what-is-mapreduce/
topdev.vn/blog/hadoop-la-gi/

Bình luận


White
{{ comment.user.name }}
Bỏ hay Hay
{{comment.like_count}}
Male avatar
{{ comment_error }}
Hủy
   

Hiển thị thử

Chỉnh sửa

Male avatar

thynguyen

5 bài viết.
1 người follow
Kipalog
{{userFollowed ? 'Following' : 'Follow'}}
Cùng một tác giả
Male avatar
1 0
Elastic Search là gì? Elastic Search viết tắt là ES, đó là một phần mềm công cụ tìm kiếm được phát hành theo giấy phép Apache Liense. Công cụ Searc...
thynguyen viết 5 tháng trước
1 0
Bài viết liên quan
White
15 0
Hadoop là cái gì vậy? “Hadoop là một framework nguồn mở viết bằng Java cho phép phát triển các ứng dụng phân tán có cường độ dữ liệu lớn một cách ...
hell nguyen viết 4 năm trước
15 0
White
13 0
Trước khi so sánh khác nhau về HDFS và HDFS2. Chúng ta đi tìm hiểu về HDFS là cái gì, kiến trúc thế nào? Vì sao điều này lại quan trọng. Bởi vì đâ...
hell nguyen viết 4 năm trước
13 0
White
1 1
Gần đây mình có thử chạy hadoop trên aerospike database theo tutorial https://github.com/aerospike/aerospikehadoop Khi build xong jar file của sa...
Hoàng Minh Trung viết hơn 5 năm trước
1 1
{{like_count}}

kipalog

{{ comment_count }}

bình luận

{{liked ? "Đã kipalog" : "Kipalog"}}


Male avatar
{{userFollowed ? 'Following' : 'Follow'}}
5 bài viết.
1 người follow

 Đầu mục bài viết

Vẫn còn nữa! x

Kipalog vẫn còn rất nhiều bài viết hay và chủ đề thú vị chờ bạn khám phá!