gouchaoer

爬虫这一行太难了

  •  
  •   gouchaoer · May 11, 2017 via Android · 8555 views
    This topic created in 3324 days ago, the information mentioned may be changed or developed.
    不干这一行不知道,现在我看到爬虫两个字就想吐
    这玩意儿蛋疼的是需要去维护
    看友商能搞为啥你不能搞?
    维护代理之麻烦
    你不知道哪里暴露了自己是爬虫,因为暴漏点太多了
    你就想如果我是后台我怎么反你最釜底抽薪
    那些用 scrapy 爬个图片爬个逼乎爬个京东评论啥的看到就烦

    你们不知道我以前是个 php 后台,熟练的业务我可以飞快的搞,都是套路。。。可是自从入了爬虫坑,我 tm 从 py 到 php,自己写策略,因为根本没有可以参考的,自己编译 selenium 驱动,资源泄露,编译 chromedriver 因为绕不开 bug,搞安卓,写 chrome 扩展,自己猜友商怎么做代理方案复制,还搞出来了一些很 cool 的东西然而没暖用。。。znm 没有套路,太难了
    39 replies    2017-05-19 17:10:29 +08:00
    gouchaoer
        1
    gouchaoer  
    OP
       May 11, 2017 via Android
    某合作的友商喜欢用 QQ,我也喜欢用 qq,他们太好了,业务熟练,问的问题很好,质疑的好,比不上别人
    simple2025
        2
    simple2025  
       May 12, 2017 via iPhone
    大神教我写爬虫 a
    binux
        3
    binux  
       May 12, 2017
    chrome headless 模式可以用了。直接用呗,还要什么编译。
    限于工作限制,不能自己搞,不过我可以教你
    geelaw
        4
    geelaw  
       May 12, 2017 via iPhone
    WebDriver 啊
    WildCat
        5
    WildCat  
       May 12, 2017 via iPhone
    @binux 前辈,在伦敦找工作有什么经验可以分享吗
    binux
        6
    binux  
       May 12, 2017   ❤️ 7
    @WildCat #5 我都是想去哪就直接投的。。
    GoBeyond
        7
    GoBeyond  
       May 12, 2017 via Android
    scrapy 爬怎么了?
    lulinux
        8
    lulinux  
       May 12, 2017   ❤️ 1
    看到楼主这样的自言自语就烦
    murmur
        9
    murmur  
       May 12, 2017
    都抛弃 phantom 了。。
    lekai63
        10
    lekai63  
       May 12, 2017 via iPhone
    所以 php 成最烦的语言?!
    ob
        11
    ob  
       May 12, 2017 via Android
    难才有市场。。
    Messiahhh
        12
    Messiahhh  
       May 12, 2017 via Android
    对 爬虫的进攻比防守要难很多……
    panyanyany
        13
    panyanyany  
       May 12, 2017
    我用代理池去爬淘宝感觉还是可以的,只要控制好一个 ip 一小时内只爬几个页面,就很少被 ban。由于代理池里有 1k+个可用 ip,所以爬取效率目前来说可以接受。
    twm
        14
    twm  
       May 12, 2017 via iPhone
    技术没啥难的 难的是斗智斗勇
    gouchaoer
        15
    gouchaoer  
    OP
       May 12, 2017 via Android
    @binux 你会 chromium 二次开发么?我不想搞爬虫了,能带带我么?
    gouchaoer
        16
    gouchaoer  
    OP
       May 12, 2017 via Android
    @twm 我觉得你说得对,爬虫太没技术含量了,可斗智斗勇我不行啊,我没勇气又懒,人也笨
    dongxiaozhuo
        17
    dongxiaozhuo  
       May 12, 2017 via iPhone   ❤️ 4
    @gouchaoer 爬虫的烦恼两件事:突破反爬,解析页面。前者基本等于:你猜,后者等于富士康员工。
    MrFireAwayH
        18
    MrFireAwayH  
       May 12, 2017 via Android
    @binux 活捉跳蚤巨巨😱
    broono
        19
    broono  
       May 12, 2017 via Android
    @dongxiaozhuo 卧槽了 简直吐出了我的心声。目前在做 PY 爬虫 996 开发维护,有的还要自己封装成接口给人用做实时在线查询啊了个去,一个注册查询的接口要请求一两百个站真是感觉体力不支。
    对了,不知道富土康招不招人😂
    fuxkcsdn
        20
    fuxkcsdn  
       May 12, 2017 via iPhone
    特意去翻了你的发帖记录,没错,你不就是在 v2 上发过 2 篇爬虫分享文章的作者嘛😳遇到瓶颈了?
    sniffles
        21
    sniffles  
       May 12, 2017
    @dongxiaozhuo 强拍这条,大实话
    yangxiongguo
        22
    yangxiongguo  
       May 12, 2017
    最近在研究 Chrome Headless,有木有交流群之类的
    herozzm
        23
    herozzm  
       May 12, 2017 via Android
    @dongxiaozhuo 前者你猜就是去猜解网站的反爬策略,后者解析页面就是写各种正则,匹配规则,体力活
    soulmine
        24
    soulmine  
       May 12, 2017
    一把辛酸泪 坑是数不清的
    soulmine
        25
    soulmine  
       May 12, 2017
    @herozzm 前面也是体力活 斗智斗勇猜反爬 限速你要去测阈值
    suliuyes
        26
    suliuyes  
       May 12, 2017
    @herozzm 为什么一定要写正则?选择器和 xpath 也很好用啊。用正则超级累。
    herozzm
        27
    herozzm  
       May 12, 2017 via Android
    @suliuyes 有些
    herozzm
        28
    herozzm  
       May 12, 2017 via Android
    @suliuyes 有些场景必须正则,还有 json 的,xpath 和类 jquery 选择器不如正则方便,没有 class,没有 id,没有属性,藏的很深的 node
    cxh116
        29
    cxh116  
       May 12, 2017 via Android
    @panyanyany 请问代理池的 ip 是采集的?还是购买的?还是自己扫的?
    panyanyany
        30
    panyanyany  
       May 12, 2017   ❤️ 1
    @cxh116 #29 以前买过 ip,但感觉有效 ip 太少,现在主要是采集为主,采集回来还要验证一下,有效 ip 虽然也不多,但好在是免费的
    gulullu
        31
    gulullu  
       May 12, 2017
    znm。。。。陕西人?
    akafeng
        32
    akafeng  
       May 12, 2017
    推荐一款云爬虫产品: https://www.zaoshu.io
    我不是广告, 个人用过, 感觉很不错, 鼠标点一点就好了
    crab
        33
    crab  
       May 12, 2017   ❤️ 1
    @binux 你博客证书到期了。
    binux
        34
    binux  
       May 12, 2017 via Android
    @gouchaoer 调接口就够了,没必要源码层面二次开发
    gouchaoer
        35
    gouchaoer  
    OP
       May 12, 2017
    @chinafeng 我看你搞了这么久,赚钱了么?能拉上我么
    akafeng
        36
    akafeng  
       May 12, 2017
    @gouchaoer #35 什么东西 ?
    looplj
        37
    looplj  
       May 12, 2017
    其实现在的爬虫已经没什么技术难度了,有的只是资源问题。
    不管怎么样,只要浏览器端能看见的,都能够爬到,像百度指数那种最麻烦的都能用 OCR 做。只是速度慢点。
    其实什么策略都是没什么用的,有策略,速度就曼了,没什么用。
    所以,就是堆 IP,或者帐号而已。
    做到后面就没啥了,就是一些规则+流程而已
    TonyG
        38
    TonyG  
       May 19, 2017
    @gouchaoer 之前看过你的 PHP 爬虫文章,感觉写的太好了。又看到这篇,感觉唏嘘,这个方向确实太考验人了。你说都是自己编译 selenium, chromedriver,是现成的包有什么问题吗?另外现在有类似 Laravel Dusk 这种测试方案是否有用于爬虫的可能呢?
    gouchaoer
        39
    gouchaoer  
    OP
       May 19, 2017
    @TonyG 你以为我想编译啊,出了 bug 绕不开只有上咯。。。。我 laravel 黑
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   3957 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 125ms · UTC 05:21 · PVG 13:21 · LAX 22:21 · JFK 01:21
    ♥ Do have faith in what you're doing.