V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
huadaonan
V2EX  ›  Python

想找个爬虫高手学习下

  •  
  •   huadaonan · 2020 年 1 月 16 日 · 6667 次点击
    这是一个创建于 2192 天前的主题,其中的信息可能已经有所发展或是发生改变。
    主要目标是想学会爬 amazon,fb,淘宝,微博等大站,我觉得这几个站能搞定基本覆盖爬虫大部分知识了。
    有大神或者培训机构推荐吗。多谢 qq 805709000
    35 条回复    2020-01-19 13:31:27 +08:00
    1992w
        1
    1992w  
       2020 年 1 月 16 日
    直接爬,遇到问题就解决问题。
    huadaonan
        2
    huadaonan  
    OP
       2020 年 1 月 16 日
    直接卡到 用 selenium + 代理模式也爬几条就封掉了 就没什么好办法了
    linbingqinag
        3
    linbingqinag  
       2020 年 1 月 16 日 via Android
    GitHub 上可以看看,有很多实现
    murmur
        4
    murmur  
       2020 年 1 月 16 日
    爬虫都是小事,反扒那是个人吃饭的东西别人怎么会给你,一个淘宝就是顶级难度了还加了个等。。
    huadaonan
        5
    huadaonan  
    OP
       2020 年 1 月 16 日
    嗯 加一条 可以付费的
    ccoming
        6
    ccoming  
       2020 年 1 月 16 日
    我觉得爬完淘宝,其他都不是事儿。
    虽然我是瞎说的,哈哈哈。
    jdgui
        7
    jdgui  
       2020 年 1 月 16 日
    爬虫高手你估计得在监狱里面找
    matepi
        8
    matepi  
       2020 年 1 月 16 日 via iPhone
    有好的成套解决方案的,早就按服务 /次数 /条数收费了
    拿可收费的吃饭工具出来卖的,说明问题还不少,要么就是直接吃饭风险太大,只卖个工具风险分散点
    mmqc
        9
    mmqc  
       2020 年 1 月 16 日
    爬虫写得好,牢饭吃到老
    shimengren
        10
    shimengren  
       2020 年 1 月 16 日
    借楼,有没有 python 学习群呀,想加入学习下哈哈
    ClericPy
        11
    ClericPy  
       2020 年 1 月 16 日
    0. 想学爬虫, 爬淘宝吧
    1. 反爬太猛了, 好像 App 能爬
    2. 呀, 不是明文 HTTP 的
    3. 反编译看看 Java 源码
    4. 威武威武威武威武.....
    sprit
        12
    sprit  
       2020 年 1 月 16 日
    坐牢的那种
    linglongll
        13
    linglongll  
       2020 年 1 月 16 日
    最近在拿 puppeteer 爬一点 ins 的图 发现这种模拟浏览器的模式很棒 不知道 tb 对这个反爬做了什么拦截么 没动过 也不敢动。。。
    Tn5ohB1Yecdk3qCK
        14
    Tn5ohB1Yecdk3qCK  
       2020 年 1 月 16 日
    高手在牢里呢
    zdnyp
        15
    zdnyp  
       2020 年 1 月 16 日
    爬虫要学的太多了,培训班教的都是基础,找本书入门都比培训班强...
    fancy111
        16
    fancy111  
       2020 年 1 月 16 日
    淘宝做得不错,主要是价格难爬。
    目前只找到两种方法。
    kevinmissu
        17
    kevinmissu  
       2020 年 1 月 16 日
    建议你先开始爬淘宝 然后你会发现 我特么是脑袋抽风要来学爬虫?劝退利器
    tomczhen
        18
    tomczhen  
       2020 年 1 月 16 日 via Android
    正常用户浏览淘宝速度快点都能触发反爬,说简单的自己有没有实践过爬多点商品的?
    ShundL
        19
    ShundL  
       2020 年 1 月 16 日
    牢里 爬虫、外挂,攻击都就学会了
    liuxu
        20
    liuxu  
       2020 年 1 月 16 日
    淘宝正常浏览宝贝都能触发验证码,还是无限那种
    scyangjian
        21
    scyangjian  
       2020 年 1 月 16 日
    17L+1
    淘宝太凶残了
    yumenlong
        22
    yumenlong  
       2020 年 1 月 16 日
    我在爬淘宝,来吧,只有 app 一条路。
    VermouthcZzz
        23
    VermouthcZzz  
       2020 年 1 月 16 日
    面向监狱编程🐴
    Vhc001
        24
    Vhc001  
       2020 年 1 月 16 日
    1、从未爬过淘宝。
    2、正常淘宝购物都被识别为爬虫的我迫不得已只能注册了京东账号。
    3、京东电脑网页版登陆,验证码滑块划了十分钟几百次还是验证不通过,被迫下载京东 app 扫码才能登陆。

    我太难了
    XavierXJ
        25
    XavierXJ  
       2020 年 1 月 16 日 via iPhone
    这样一种思路:让软件模拟鼠标点击,截图桌面分析文字和图片,想要多线程的话,浏览器多开,开虚拟机
    no1xsyzy
        26
    no1xsyzy  
       2020 年 1 月 16 日
    @XavierXJ 最后三个分句铁定没了
    分析鼠标路径已经是至少 5 年前的技术了,鼠标疯狂瞬移直接拜拜
    Eugene1024
        27
    Eugene1024  
       2020 年 1 月 16 日
    随便学下法律
    explorerEX
        28
    explorerEX  
       2020 年 1 月 16 日
    @fancy111 哪两种方法 能提示下吗
    wersonliu9527
        29
    wersonliu9527  
       2020 年 1 月 17 日
    如果数据量不是太多,几个月前用过一种方法爬淘宝. 命令行开启一个 谷歌浏览器指定端口,再登录个小号,然后 selenium 去对接这个端口可以爬几十页.不知道现在还行不行0.0
    Mavious
        30
    Mavious  
       2020 年 1 月 17 日
    咸鱼(搭配手机浏览器)和淘宝 PC 端,人肉浏览都经常蹦滑动验证码,用鼠标去滑老是失败(我明明滑到底了)。
    你看正常用户都经常失败,那爬虫的难度真是不可想象……
    RSDTE
        31
    RSDTE  
       2020 年 1 月 17 日
    爬了淘宝, 能下单的那种.. .
    Iamnotfish
        32
    Iamnotfish  
       2020 年 1 月 18 日   ❤️ 1
    降低点难度,先从微博开始爬。现成可用的代码也很多,推荐一个项目 weibospider
    FaceBug
        33
    FaceBug  
       2020 年 1 月 18 日
    哈哈哈,你来我这干活啊,靠抓 amz、fb、aliexpress、ebay……吃饭的公司
    huadaonan
        34
    huadaonan  
    OP
       2020 年 1 月 19 日
    @cepczkd 可以啊。我是自带专家级别 dba 技能
    huadaonan
        35
    huadaonan  
    OP
       2020 年 1 月 19 日
    多谢大家踊跃出谋划策,我会阶段性汇报学爬虫的进展。我觉得可能还是做专项分析靠谱,针对问题找大家咨询。群策群力还是好
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   3059 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 10:51 · PVG 18:51 · LAX 02:51 · JFK 05:51
    ♥ Do have faith in what you're doing.