V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
xdeng
V2EX  ›  程序员

你们都用什么来做爬虫的

  •  
  •   xdeng · 2013 年 3 月 12 日 · 19172 次点击
    这是一个创建于 4694 天前的主题,其中的信息可能已经有所发展或是发生改变。
    你们都用什么语言来做爬虫的,有什么好的介绍。。。
    第 1 条附言  ·  2013 年 3 月 13 日
    有没有c/c++的..................
    48 条回复    2018-11-30 18:50:29 +08:00
    for4
        1
    for4  
       2013 年 3 月 12 日   ❤️ 4
    Python
    +requests
    +lxml
    +celery
    xdeng
        2
    xdeng  
    OP
       2013 年 3 月 12 日
    @for4 -.-! 要学这么多东西啊
    for4
        3
    for4  
       2013 年 3 月 12 日
    @xdeng
    第一个是编程语言
    后面三个是可能需要用到的库

    这是我认为的写一个爬虫最简单易学的搭配
    xieren58
        4
    xieren58  
       2013 年 3 月 12 日
    Node + jquery
    liuxurong
        5
    liuxurong  
       2013 年 3 月 12 日
    我是 requests + pyquery

    另外
    @for4 celery通常用来做什么
    xdeng
        6
    xdeng  
    OP
       2013 年 3 月 12 日
    @xieren58
    @liuxurong 这个网站里的全都是 做网页的么
    shinwood
        7
    shinwood  
       2013 年 3 月 12 日   ❤️ 2
    试过python + Scrapy,感觉不错。

    http://scrapy.org/
    greatghoul
        8
    greatghoul  
       2013 年 3 月 12 日
    @shinwood 这个用起来的确骚爽。
    colincat
        9
    colincat  
       2013 年 3 月 12 日 via Android
    java
    for4
        10
    for4  
       2013 年 3 月 12 日   ❤️ 1
    @liuxurong
    我是把爬虫的各个功能部分分成小任务, 然后按需放入任务队列中. 这样既能有效的降低爬虫的复杂度, 同时用队列也能提高爬虫的稳健度, 比如失败重做.
    还有, 使用celery后你的爬虫就变成分布式的了, 可以简单的布置在多台机器上跑
    wingoo
        11
    wingoo  
       2013 年 3 月 12 日
    scrapy
    twm
        12
    twm  
       2013 年 3 月 12 日
    JAVA PHP
    dulao5
        13
    dulao5  
       2013 年 3 月 12 日
    PHP + curl_multi_*

    不过以后应该尝试nodejs了,并发容易实现,解析页面里的js更有优势。
    xjay
        14
    xjay  
       2013 年 3 月 12 日
    scrapy
    不解释
    PrideChung
        15
    PrideChung  
       2013 年 3 月 12 日
    ruby+norogiri
    http://nokogiri.org/
    amxku
        16
    amxku  
       2013 年 3 月 12 日
    Python
    +curl
    +celery
    1up
        17
    1up  
       2013 年 3 月 12 日
    cloverstd
        18
    cloverstd  
       2013 年 3 月 12 日
    Python: urllib, urllib2, re
    run2
        19
    run2  
       2013 年 3 月 12 日
    前几天 用nodejs写个玩,但不知道怎么部署在只有web服务的 PaaS上-,-
    cheerio很好用阿,完全是jQuery的语法。

    require('http');require('cheerio');require('iconv').Iconv;require('mongodb');
    chuck911
        20
    chuck911  
       2013 年 3 月 12 日
    还有人写个爬虫还非要用芹菜...

    Scrapy爽是因为它基于事件驱动的Twisted,我以前也很爱Scrapy,后来用上Node写爬虫就感觉从重型土炮换到了肩扛火箭筒
    atom
        21
    atom  
       2013 年 3 月 12 日
    @twm
    @colincat
    同为javaer,能否推荐下是哪个库?
    sohoer
        22
    sohoer  
       2013 年 3 月 13 日
    @atom
    JAVA?
    HttpURLConnection + Regex = Spider
    Linxing
        23
    Linxing  
       2013 年 3 月 13 日 via Android
    python beautifulsoup urlib爬文章
    liuxurong
        24
    liuxurong  
       2013 年 3 月 13 日
    @for4 谢谢。有没有celery的中文资料
    crazybubble
        25
    crazybubble  
       2013 年 3 月 13 日   ❤️ 1
    @atom 用regex来做html parsing不推荐,我推荐用jsoup。
    colincat
        26
    colincat  
       2013 年 3 月 13 日 via iPhone
    @sohoer htmlparse httpclient
    workaholic
        27
    workaholic  
       2013 年 3 月 13 日   ❤️ 1
    php+snoopy
    akalanala
        28
    akalanala  
       2013 年 3 月 13 日
    @crazybubble 同推荐.
    binux
        29
    binux  
       2013 年 3 月 13 日
    python + tornado AsyncHTTPClient + PyQuery
    sonicwu
        30
    sonicwu  
       2013 年 3 月 13 日
    Java
    + jsoup

    Python
    + Beautiful Soup
    + urllib
    + lxml
    dingyaguang117
        31
    dingyaguang117  
       2013 年 3 月 13 日
    Python
    + Beautiful Soup
    + lxml
    + Scrapy
    atom
        32
    atom  
       2013 年 3 月 13 日
    @crazybubble
    是个很棒的库,看到 http://try.jsoup.org/ 我就喜欢上它了
    zoran
        33
    zoran  
       2013 年 3 月 14 日
    Java 可以试试这个 https://github.com/zhuoran/crawler4j
    yangxin0
        34
    yangxin0  
       2013 年 3 月 14 日
    看过别人用C
    Xrong
        35
    Xrong  
       2013 年 3 月 14 日
    希望大家给推荐PHP的,毕业设计打算用这玩意写;都说用PHP写不大方便,但是还是希望大伙有写过的,提供源码参考下,有在线资源的也行。
    zdwalter
        36
    zdwalter  
       2013 年 3 月 15 日
    phantomjs, casperjs
    zhouquanbest
        37
    zhouquanbest  
       2013 年 3 月 16 日
    python + pyquery 是个好东西
    会jquery就能写
    nojt7Zm
        38
    nojt7Zm  
       2013 年 3 月 17 日
    php
    kingwkb
        39
    kingwkb  
       2013 年 3 月 17 日
    之前用python,现在换到ruby

    http://s.yanghao.org/
    gameending
        40
    gameending  
       2013 年 3 月 17 日
    python跟java都写过,python很简洁,java的话我觉得也还不错
    lbj96347
        41
    lbj96347  
       2013 年 3 月 17 日
    node.js or python. :-)
    kdepp
        42
    kdepp  
       2013 年 7 月 7 日
    node + cheerio
    briefcopy
        43
    briefcopy  
       2014 年 8 月 18 日
    cangbaotu
        44
    cangbaotu  
       2016 年 5 月 24 日
    http://www.shenjianshou.cn/ 神箭手云爬虫
    ssllff123
        45
    ssllff123  
       2016 年 10 月 10 日
    @for4 我和你想的一样,但是有些问题
    1 ,是不是 celery 就可以自动多线程了。任务只需要实现爬虫的功能就可以了。
    2 ,感觉并不快啊 。
    3 ,可否有写好的项目看看
    billyellow
        46
    billyellow  
       2016 年 11 月 16 日   ❤️ 1
    推荐试下这个 http://www.zaoshu.io
    GrahamCloud
        47
    GrahamCloud  
       2017 年 2 月 23 日
    @billyellow 好的!
    jiankaikey
        48
    jiankaikey  
       2018 年 11 月 30 日
    右键->另存为
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2949 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 03:35 · PVG 11:35 · LAX 19:35 · JFK 22:35
    ♥ Do have faith in what you're doing.