Cài đặt Mecab và Cabocha trên CentOs
mecab
1
cabocha
1
fulltext search
2
Male avatar

skul169 viết ngày 30/06/2015

Mecab va Cabocha la 2 công cụ phân tích ngôn ngữ nổi tiếng trong tiếng Nhật. Hơn hẳn so với VNtokenizer và VNtagger trong tiếng Việt, Mecab là công cụ phân tích câu ra từ (VNtokenizer) và loại từ(VNtagger). Còn cabocha là công cụ phân tích liên kết từ trong câu.

1. Chuyển sang quyền root

    sudo -su root

2. Cài đặt các trình biên dịch để build Cabocha

    yum install gcc-c++ compat-gcc-32 compat-gcc-32-c++

3. Cài đặt Mecab

    wget http://mecab.googlecode.com/files/mecab-0.98.tar.gz
    tar -xvf mecab-0.98.tar.gz
    cd mecab-0.98
    ./configure  --with-charset=utf8 --enable-utf8-only
    make
    make check
    make install

4. Cài đặt Mecab-ipadic

    wget http://mecab.googlecode.com/files/mecab-ipadic-2.7.0-20070801.tar.gz
    tar -xvf mecab-ipadic-2.7.0-20070801.tar.gz
    cd mecab-ipadic-2.7.0-20070801
    ./configure --with-mecab-config=/usr/local/bin/mecab-config --with-charset=utf8
    make
    make install

5. Cài đặt Mecab data binding

    wget http://crfpp.googlecode.com/files/mecab-java-0.98.tar.gz
    tar -xvf mecab-java-0.98.tar.gz
    cd mecab-java-0.98
    vi Makefile
    INCLUDE=java/include
    make

6. Cài đặt PATH

    export LD_LIBRARY_PATH=/usr/local/src/mecap-java-0.98:.
    export CLASSPATH=/usr/local/src/mecab-java-0.98/MeCab.jar:.
    echo $LD_LIBRARY_PATH
    echo $CLASSPATH
    java test
    #vi /etc/ld.so.conf
    /usr/local/src/mecab-java-0.98
    /usr/local/lib
    sudo ldconfig

7. Cài đặt CRF++

    wget http://crfpp.googlecode.com/files/CRF%2B%2B-0.58.tar.gz
    tar -xvf CRF++-0.58.tar.gz
    cd CRF++-0.58
    ./configure
    make
    make install

8. Cài đặt Cabocha

    wget http://cabocha.googlecode.com/files/cabocha-0.66.tar.bz2
    tar -xvf cabocha-0.66.tar.bz2
    cd cabocha-0.66
    ./configure --with-mecab-config=/usr/local/bin/mecab-config --with-charset=utf8 --enable-utf8-only
    make
    make check
    make install
Bình luận


White
{{ comment.user.name }}
Bỏ hay Hay
{{comment.like_count}}
Male avatar
{{ comment_error }}
Hủy
   

Hiển thị thử

Chỉnh sửa

Male avatar

skul169

27 bài viết.
5 người follow
Kipalog
{{userFollowed ? 'Following' : 'Follow'}}
Cùng một tác giả
Male avatar
4 0
Khi cần lấy data trong DB trên môi trường test của khách hàng thì bắt buộc phải sử dụng lệnh command line. Thường thì sẽ dùng một trong các patter...
skul169 viết gần 2 năm trước
4 0
Male avatar
4 6
Cấu hình Nginx làm Reverse Proxy cho Apache 1.Cài đặt Apache Nếu VPS chưa được cài đặt Apache thì bạn dùng lệnh sau để cài đặt: yum install http...
skul169 viết gần 2 năm trước
4 6
Male avatar
2 0
Trong PHP, nếu bạn muốn save file trùng tên nhau thì gán thêm số thứ tự kèm theo, ví dụ như test_1.txt] (để tránh việc bị ghi đè lên file cũ) thì h...
skul169 viết hơn 1 năm trước
2 0
Bài viết liên quan
White
7 0
Nghĩa là fulltext search, chứ không phải full textsearch. Có 2 cách giải thích, dựa trên tương phản: Full text vs không full text Ví dụ bài viế...
Ngoc Dao viết gần 2 năm trước
7 0
{{like_count}}

kipalog

{{ comment_count }}

bình luận

{{liked ? "Đã kipalog" : "Kipalog"}}


Male avatar
{{userFollowed ? 'Following' : 'Follow'}}
27 bài viết.
5 người follow

 Đầu mục bài viết

Vẫn còn nữa! x

Kipalog vẫn còn rất nhiều bài viết hay và chủ đề thú vị chờ bạn khám phá!