1
for4 2013 年 3 月 12 日 Python
+requests +lxml +celery |
4
xieren58 2013 年 3 月 12 日
Node + jquery
|
7
shinwood 2013 年 3 月 12 日 |
8
greatghoul 2013 年 3 月 12 日
@shinwood 这个用起来的确骚爽。
|
9
colincat 2013 年 3 月 12 日 via Android
java
|
10
for4 2013 年 3 月 12 日 @liuxurong
我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做. 还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑 |
11
wingoo 2013 年 3 月 12 日
scrapy
|
12
twm 2013 年 3 月 12 日
JAVA PHP
|
13
dulao5 2013 年 3 月 12 日
PHP + curl_multi_*
不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。 |
14
xjay 2013 年 3 月 12 日
scrapy
不解释 |
15
PrideChung 2013 年 3 月 12 日
ruby+norogiri
http://nokogiri.org/ |
16
amxku 2013 年 3 月 12 日
Python
+curl +celery |
17
1up 2013 年 3 月 12 日
http://www.gregreda.com/2013/03/03/web-scraping-101-with-python/ Web Scraping 101 with Python
|
18
cloverstd 2013 年 3 月 12 日
Python: urllib, urllib2, re
|
19
run2 2013 年 3 月 12 日
前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
cheerio很好用阿,完全是jQuery的语法。 require('http');require('cheerio');require('iconv').Iconv;require('mongodb'); |
20
chuck911 2013 年 3 月 12 日
还有人写个爬虫还非要用芹菜...
Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒 |
23
Linxing 2013 年 3 月 13 日 via Android
python beautifulsoup urlib爬文章
|
25
crazybubble 2013 年 3 月 13 日 @atom 用regex来做html parsing不推荐,我推荐用jsoup。
|
27
workaholic 2013 年 3 月 13 日 php+snoopy
|
28
akalanala 2013 年 3 月 13 日
@crazybubble 同推荐.
|
29
binux 2013 年 3 月 13 日
python + tornado AsyncHTTPClient + PyQuery
|
30
sonicwu 2013 年 3 月 13 日
Java
+ jsoup Python + Beautiful Soup + urllib + lxml |
31
dingyaguang117 2013 年 3 月 13 日
Python
+ Beautiful Soup + lxml + Scrapy |
32
atom 2013 年 3 月 13 日
|
33
zoran 2013 年 3 月 14 日
Java 可以试试这个 https://github.com/zhuoran/crawler4j
|
34
yangxin0 2013 年 3 月 14 日
看过别人用C
|
35
Xrong 2013 年 3 月 14 日
希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
|
36
zdwalter 2013 年 3 月 15 日
phantomjs, casperjs
|
37
zhouquanbest 2013 年 3 月 16 日
python + pyquery 是个好东西
会jquery就能写 |
38
nojt7Zm 2013 年 3 月 17 日
php
|
39
kingwkb 2013 年 3 月 17 日
|
40
gameending 2013 年 3 月 17 日
python跟java都写过,python很简洁,java的话我觉得也还不错
|
41
lbj96347 2013 年 3 月 17 日
node.js or python. :-)
|
42
kdepp 2013 年 7 月 7 日
node + cheerio
|
43
briefcopy 2014 年 8 月 18 日
用WebCollector(JAVA爬虫),https://github.com/CrawlScript/WebCollector
|
44
cangbaotu 2016 年 5 月 24 日
http://www.shenjianshou.cn/ 神箭手云爬虫
|
45
ssllff123 2016 年 10 月 10 日
|
46
billyellow 2016 年 11 月 16 日 推荐试下这个 http://www.zaoshu.io
|
47
GrahamCloud 2017 年 2 月 23 日
@billyellow 好的!
|
48
jiankaikey 2018 年 11 月 30 日
右键->另存为
|