Apache Nutch
White

RomBK viết ngày 22/06/2016

1.Cài đặt docker

1. Cài đặt java trên máy của bạn

  • Downloads java http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads-1880260.html
  • Tạo một thư mục jvm sudo mkdir /usr/lib/jvm/
  • Di chuyển vào thư mục jdk vừa downloads và chạy sudo mv jdk1.7.0_x/ /usr/lib/jvm/jdk1.7.0_x
  • Cài đặt java sudo update-alternatives --install /usr/bin/java java /usr/lib/jvm/jdk1.7.0_x/jre/bin/java 0
  • Xét Java_Home Thêm đường dẫn java sudo nano /etc/environment
  • Kiểm tra java trên máy source /etc/environment java --version

2. Cài ant

  • Downloads ant tại https://ant.apache.org/bindownload.cgi
  • Giải nén và xét biến môi trường Thêm đường dẫn đến ant: $ANT_HOME/bin sudo nano /etc/environment
  • Kiểm tra ant trên máy source /etc/environment ant --version

3. Cài Hbase

  • Downloads hbase version 0.94.27 https://www.apache.org/dist/hbase/
  • Giaỉ nén hbase
  • Thêm đường dẫn java vào file $HBASE_HOME/conf/hbase-env.sh export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_79/
  • Thêm cấu hình vào file $HBASE_HOME/conf/hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>file:///home/rombk/Downloads/Crawler/Nutch/Data/tmp</value> </property> <property> <name>hbase.cluster.distributed</name> <value>false</value> </property> <property> <name>hbase.zookeeper.quorum</name> <value>crawler.io</value> </property> <property> <name>zookeeper.znode.parent</name> <value>/hbase-unsecure</value> </property> <property> <name>hbase.rpc.timeout</name> <value>2592000000</value> </property> </configuration>
  • Thêm cấu hình vào file $HBASE_HOME/confregionservers crawler.io
  • Thêm cấu hình vào /etc/hosts [IP] crawler.io
  • Đổi hostname crawler.io
  • Chạy hbase $HBASE_ROOT/bin ./start hbase
  • Công web của hbase là :60010

4. Cài đặt elastich

  • Downloads elastich 1.7 https://www.elastic.co/blog/elasticsearch-1-7-3-released
  • Giải nén
  • Chạy elastich $ELASTICH_ROOT/bin ./elastich
  • Cổng web elastich là:9200

5.Cài đặt apache-nutch-2.3

  • Downloads apache-nutch-2.3 và giải nén http://nutch.apache.org/
  • Them cau hinh vao file NUTCH_ROOT/ivy/ivy.xml <dependency org="org.apache.gora" name="gora-hbase" rev="0.5" conf="*->default" />
  • Them cau hinh vao file $NUCTH_ROOT/conf/gora.properties gora.datastore.default=org.apache.gora.hbase.store.HBaseStore
  • Them cau hinh vao file $NUTCH_ROOT/conf/nutch_site.xml <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>plugin.folders</name> <value>plugins</value> </property> <property> <name>http.agent.name</name> <value>my name</value> </property> <property> <name>http.robots.agents</name> <value>my name</value> </property> <property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase.store.HBaseStore</value> </property> <property> <name>plugin.includes</name> <value>protocol-http|protocol-httpclient|urlfilter-regex|parse-(html|tika|metatags)|index-(basic|anchor)|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)|indexer-elastic|index-(metadata|more|basic|anchor|metadata)</value> </property> <property> <name>db.ignore.external.links</name> <value>true</value> </property> <property> <name>elastic.host</name> <value>localhost</value> </property> <property> <name>elastic.index</name> <value>webpage</value> </property> <property> <name>http.accept.language</name> <value>en-us,en-gb,en;q=0.7,*;q=0.3,vi,vi-VN</value> </property> <property> <name>http.redirect.max</name> <value>2</value> </property> <property> <name>db.max.outlinks.per.page</name> <value>-1</value> </property> <property> <name>parser.skip.truncated</name> <value>false</value> </property> <property> <name>storage.crawl.id</name> <value></value> </property> </configuration>
  • Them cau hinh vao file $NUTCH_ROOT/conf/hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>file:///home/rombk/Downloads/crawler/database</value> </property> <property> <name>hbase.cluster.distributed</name> <value>false</value> </property> <property> <name>hbase.zookeeper.quorum</name> <value>hbase.io</value> </property> <property> <name>zookeeper.znode.parent</name> <value>/hbase-unsecure</value> </property> <property> <name>hbase.rpc.timeout</name> <value>2592000000</value> </property> </configuration>
  • Chay cac lenh sau de build nutch ant eclipse -verbose ant runtime
  • Crawler voi nutch file:///home/rombk/Downloads/crawler/seed/urls Inject : ./nutch inject file:///home/rombk/Downloads/crawler/seed/urls Generate : ./nutch generate -topN 10 Fetch : ./nutch fetch -all Parse : ./nutch parse -all Updatedb : ./nutch updatedb -all Index : ./nutch index -all # Cấu nutch để kết nối đến mongo ## 1. Cài đặt mongo 3.0.12(Ubuntu 15.04)
  • Cài đặt mongo sudo apt-key adv --keyserver hkp://keyserver.ubuntu.com:80 --recv 7F0CEB10 echo "deb http://repo.mongodb.org/apt/debian wheezy/mongodb-org/3.0 main" | sudo tee /etc/apt/sources.list.d/mongodb-org-3.0.list sudo apt-get update sudo apt-get install -y mongodb-org
  • Kiểm tra mongo trên máy mongod --version ## 2. Cấu hình nutch
  • Thêm cấu hình vào file $NUTCH_ROOT/ivy/ivy.xml <dependency org="org.apache.gora" name="gora-mongodb" rev="0.5" conf="*->default" />
  • Thếm cấu hình vào file $NUTCH/conf/nutch-site.xml <property> <name>storage.data.store.class</name> <value>org.apache.gora.mongodb.store.MongoStore</value> </property>
  • Thêm cấu hình vào file $NUTCH/conf/gora.properties gora.datastore.default=org.apache.gora.mongodb.store.MongoStore gora.mongodb.override_hadoop_configuration=false gora.mongodb.mapping.file=/gora-mongodb-mapping.xml gora.mongodb.servers=mongo.io:27017 gora.mongodb.db=webpage
  • Cấu hình hosts [IP] mongo.io
  • Chú ý : Nutch 2.3.1 không thể kết nối được với mongo khi chạy từ intellij mà vẫn kết nối được khi chạy từ runtime.Do thư viện gora mà nutch 2.3.1

Tham khảo

Bình luận


White
{{ comment.user.name }}
Bỏ hay Hay
{{comment.like_count}}
Male avatar
{{ comment_error }}
Hủy
   

Hiển thị thử

Chỉnh sửa

White

RomBK

1 bài viết.
0 người follow
Kipalog
{{userFollowed ? 'Following' : 'Follow'}}
{{like_count}}

kipalog

{{ comment_count }}

bình luận

{{liked ? "Đã kipalog" : "Kipalog"}}


White
{{userFollowed ? 'Following' : 'Follow'}}
1 bài viết.
0 người follow

 Đầu mục bài viết

Vẫn còn nữa! x

Kipalog vẫn còn rất nhiều bài viết hay và chủ đề thú vị chờ bạn khám phá!