Framework hadoop và cách cài đặt hadoop trên Ubuntu
White

Quản Như Phương viết ngày 23/02/2016

alt textHadoop là một framework nguồn mở viết bằng ngôn ngữ Java. Hadoop phát triển dựa vào ý tưởng của Google về mô hình Map/Reduce và hệ thống file phân tán Google File System. Hadoop là một framework dùng để chạy những ứng dụng trên một cluster lớn được xây dựng trên những phần cứng thông thường. Hadoop cung cấp một mô hình lập trình, tính toán song song, ngoài ra Hadoop còn cung cấp một hệ thống file phân tán cho phép lưu trữ trên nhiều node khác nhau.
• Những tính năng của Hadoop

  • Hadoop là một framework cho phép phát triển những ứng dụng phân tán.
  • Hadoop được viết bằng Java nhưng Hadoop cho phép phát triển ứng dụng phân tán trên Java và cả trên những ngôn ngữ khác như C++, Python.
  • Hadoop cung cấp một phương tiện lưu trữ dữ liệu phân tán trên nhiều node, hỗ trợ tối ưu hóa lưu lượng mạng đó là HDFS, HDFS che giấu tất cả các node phân tán, người phát triển những ứng dụng phân tán chỉ nhìn thấy HDFS như một hệ thống file cục bộ bình thường.
  • Hadoop giúp các nhà phát triển ứng dụng phân tán tập trung tối đa vào phần logic ứng dụng, bỏ qua một số phân chi tiết ứng dụng phía dưới (Phần này do Hadoop tự động quản lý).
  • Hadoop chạy trên môi trường Linux.
  • Sau đây là cách cái đặt hadoop trên 2 node Cấu hình chung cho 2 máy Bước 1: Kiểm tra trên cả 2 máy đã cài java hay chưa và kiểm tra phiên bản Java alt text Bước 2: Nếu chưa cài đặt java sẽ thực hiện cài đặt java cho máy bằng lệnh sau : alt text Bước 3: Cài đặt OpenSSH cho máy bằng lệnh sau: alt text

Bước 4:Tạo group cho người dùng :
root@master:# addgroup hadoop
root@master:# adduser --ingroup hadoop hduser
Bước 5:Cấu hình SSH cho máy :
root@master:# su- hduser
root@master:# ssh-keygen –t rsa –P ""
root@master:# cat~/.ssh/id_rsa.pub >> ~/.ssh/authrized_keys
root@master:#sshlocalhost
Bước 6: Cài đặt Hadoop lên hai máy Ubuntu:
root@master:# cd /usr/local
root@master:# tar xzf hadoop-1.0.3.tar.gz
root@master:# mv hadoop-1.0.3 hadoop
root@master:# chown -R hduser:hadoop hadoop
Bước 7: update $HOME/.bashrc:thực hiện mở file$HOME/.bashrc bằng lệnh gedit $HOME/.bashrc và thêm vào cuối file những dòng sau :

Set Hadoop-related environment variables

export HADOOP_HOME=/usr/local/hadoop

Set JAVA_HOME (we will also configure JAVA_HOME directly for Hadoop later on)

export JAVA_HOME=/usr/lib/jvm/openjdk-6-jdk

Some convenient aliases and functions for running Hadoop-related commands

unalias fs &> /dev/null
alias fs="hadoop fs"
unalias hls &> /dev/null
alias hls="fs -ls"

If you have LZO compression enabled in your Hadoop cluster and

compress job outputs with LZOP (not covered in this tutorial):

Conveniently inspect an LZOP compressed file from the command

line; run via:

$ lzohead /hdfs/path/to/lzop/compressed/file.lzo

Requires installed 'lzop' command.

lzohead () {
hadoop fs -cat $1 | lzop -dc | head -1000 | less
}

Add Hadoop bin/ directory to PATH

export PATH=$PATH:$HADOOP_HOME/bin
Bước 8: thực hiện mới hadoop-env.sh trong thư mục hadoop bằng lệnh: gedit /usr/local/hadoop/conf/ hadoop-env.sh và sửa lại các dòng sau.
export JAVA_HOME=/usr/lib/jvm/openjdk-6-jdk
export HADOOP_HOME=/usr/local/hadoop/
export PATH=$PATH:$HADOOP_HOME/bin
Bước 9: Chỉnh sửa lại các file *-site.xml. Trước khi sửa các file *-site.xml thì ta cần thực hiện một số thao tác sau.
root@master:# sudo mkdir -p /app/hadoop/tmp/
root@master:# sudo chown hduser:hadoop /app/hadoop/tmp/
root@master:# sudo chmod 750 /app/hadoop/tmp/
Bước 10: Mở và thêm vào file core-site.xml dòng lệnh sau theo đường dẫn: cd /usr/local/hadoop/conf/core-site.xml.

fs.default.name
hdfs://master:54310

Bước 11: Mở và thêm vào file mapred-site.xml dòng lệnh sau theo đường dẫn: cd /usr/local/hadoop/conf/mapred-site.xml.

mapred.job.tracker
master:54311

Bước 12: Mở và thêm vào file hdfs-site.xml dòng lệnh sau theo đường dẫn: cd /usr/local/hadoop/conf/hdfs-site.xml.

dfs.replication
2

2.3 Cấu hình trên máy Master
Bước 1: Thực hiện chỉnh sửa file ect/hosts như sau:
alt text
Bước 2: thực hiện chỉnh sửa file /usr/local/hadoop/conf/slaves như sau:
alt text
Bước 3: thưc copy khóa của các slave:
alt text

  1. Khởi động và chạy Hadoop Bước 1: thực hiện dòng lệnh sau : alt text Bước 2: Thực hiện khởi động các Node : alt text
  • Các bài viết khác có thể tham khảo.

http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-multi-node-cluster/

Bình luận


White
{{ comment.user.name }}
Bỏ hay Hay
{{comment.like_count}}
Male avatar
{{ comment_error }}
Hủy
   

Hiển thị thử

Chỉnh sửa

White

Quản Như Phương

1 bài viết.
0 người follow
Kipalog
{{userFollowed ? 'Following' : 'Follow'}}
{{like_count}}

kipalog

{{ comment_count }}

bình luận

{{liked ? "Đã kipalog" : "Kipalog"}}


White
{{userFollowed ? 'Following' : 'Follow'}}
1 bài viết.
0 người follow

 Đầu mục bài viết

Vẫn còn nữa! x

Kipalog vẫn còn rất nhiều bài viết hay và chủ đề thú vị chờ bạn khám phá!