Bạn có chắc chắn muốn xóa bài viết này không ?
Bạn có chắc chắn muốn xóa bình luận này không ?
(Phần 1) Tôi đã Crawler 300M bài viết, 1.3B Comment, 130M người dùng của Facebook Việt Nam dư lào!
Vào một ngày đẹp trời, tôi đọc được bài báo về việc 1 trang web nọ có 1 số thanh niên bán dữ liệu người dùng Facebook, tôi bắt đầu lân la và kênh trao đổi là Telegram thần thánh hỏi mua thử xem giá bao nhiêu thì nhận được con số $5000 cho 70 triệu thông tin người dùng. Quá trình trao đổi giao dịch bằng tiếng anh nhưng qua quá trình gõ thì tôi đoán hắn ta(người bán) cũng là một người Việt Nam.
Tôi tự hỏi tại sao mình không crawler đống dữ liệu này về nhỉ, một số thánh còn comment mua hàng trên mạng cơ mà, từ đó có thể bóc được thông tin về số điện thoại. Từ số điện thoại và ID Facebook có thể làm được khá nhiều thứ, chẳng hạn như tra thông tin số điện thoại của 1 bạn nữ nào đó, he he.
Chuẩn bị:
Proxy: Cái này thì không thể thiếu được, lên mạng, reg kiếm 10 cái vps làm proxy.
Máy chủ: Cái này không thể thiếu được khi crawler đống dữ liệu cực lơn bên trên
Database: Elasticsearch, nghe mấy vụ rò rỉ dữ liệu user của Facebook toàn lộ Elasticsearch nên mình cũng chơi elasticsearch.
Crawler Public Page, Group
Việc đầu tiên để crawler được thì chắc phải cần seed keyword để tìm kiếm và crawler được thật nhiều Page, Group. Kiếm đâu ra đống keyword đó ở đâu bây giờ. Ngồi ăn cái bánh, uống chén trà và nhớ lại có lần lên Tiki.vn có cái api trả ra các keyword phổ biến của tiki.vn, bê nguyên đống keyword này vứt vào tìm kiếm có lẽ ra kha khá Page, Group. Và quả đúng như dự đoán, sau khi chạy đống trên đã cho ra được hơn 1 triệu Page, Group Việt Nam có lẫn 1 số của nước ngoài. (Sau này chạy mới biết, 1 triệu Page vẫn rất ít.). Ơ rê ca, xong phần việc đầu tiên, và có chút thành quả.
Hết phần 1!

