xiaoyu9527
V2EX  ›  问与答

如何才能写一个简单的代理抓取器?

  •  
  •   xiaoyu9527 · Nov 3, 2015 · 1653 views
    This topic created in 3886 days ago, the information mentioned may be changed or developed.

    想学习用 Python 写一个简单的代理抓取器

    抓取几个页面的代理

    测试延迟 高于 xxx 的抛弃

    然后导出 TXT

    2 replies    2015-11-03 14:07:08 +08:00
    wkdhf233
        1
    wkdhf233  
       Nov 3, 2015
    读 html ,正则匹配出代理信息,然后遍历 ping 一遍
    ping 可以搞个线程池高并发

    不过感觉网页上抓的代理,测延迟不如测连通性
    ETiV
        2
    ETiV  
       Nov 3, 2015
    https://github.com/wenson/proxypool

    早前 star 过的一个项目..不过我不会 python, 只是拿了他里面的页面地址而已..
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   5403 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 71ms · UTC 08:36 · PVG 16:36 · LAX 01:36 · JFK 04:36
    ♥ Do have faith in what you're doing.