V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tianxiacangshen
V2EX  ›  PHP

网站日志找到大量 Python -urllib/2.7 之类的,是爬虫吗?

  •  
  •   tianxiacangshen · 2017 年 5 月 4 日 · 7583 次点击
    这是一个创建于 3179 天前的主题,其中的信息可能已经有所发展或是发生改变。
    2017-05-04 06:08:14 120.xx.xxx.xxx GET / - 80 - 58.211.2.120 Python-urllib/2.7 200 0 0 54

    持续两三天了,每秒钟几十次记录,这是网站被攻击还是有人采集内容?
    32 条回复    2017-07-16 11:44:37 +08:00
    misaka19000
        1
    misaka19000  
       2017 年 5 月 4 日 via Android
    这爬虫还把自己给暴露出来。。。神奇
    woshinide300yuan
        2
    woshinide300yuan  
       2017 年 5 月 4 日
    这不是明显的该屏蔽的吗 - -
    billlee
        3
    billlee  
       2017 年 5 月 4 日   ❤️ 2
    耿直的爬虫
    notes
        4
    notes  
       2017 年 5 月 4 日 via Android
    目测新手,用的还是自带的 urllib
    bytenoob
        5
    bytenoob  
       2017 年 5 月 4 日 via Android   ❤️ 1
    脚本小子
    wspsxing
        6
    wspsxing  
       2017 年 5 月 4 日
    UA 都不改一下,差评妥妥的。
    ywgx
        7
    ywgx  
       2017 年 5 月 4 日
    留着过年?
    LokiSharp
        8
    LokiSharp  
       2017 年 5 月 4 日
    估计故意的。。。看看有没有人处理
    richardma
        9
    richardma  
       2017 年 5 月 5 日
    猖狂的爬虫,23333
    tonychow
        10
    tonychow  
       2017 年 5 月 5 日
    显然爬虫, 都不知道隐藏下 UA
    araraloren
        11
    araraloren  
       2017 年 5 月 5 日
    ~~
    再明显不过的爬虫了。。
    封了 IP 呗
    crackhopper
        12
    crackhopper  
       2017 年 5 月 5 日
    666666
    yanzixuan
        13
    yanzixuan  
       2017 年 5 月 5 日
    连 UA 都不知道改的,估计是新手。另外你们的网站不设置一个 Limiter,限制一下一天的总的访问次数么?
    如果对方换 IP,你就限制下 1 分钟 /1 小时之内的访问次数吧。
    tttty
        14
    tttty  
       2017 年 5 月 5 日
    请问一下,如果遇到爬虫直接封 IP,这样不是会导致共用公网 IP 的用户误伤吗.. 比如校园网、网吧什么的?
    hard2reg
        15
    hard2reg  
       2017 年 5 月 5 日 via iPhone
    弱弱的问下,requests 的默认 ua 是啥
    jy02201949
        16
    jy02201949  
       2017 年 5 月 5 日
    真是耿直啊,而且还在用 urllib,新手随便抄了网上哪个教程弄的爬虫吧
    anexplore
        17
    anexplore  
       2017 年 5 月 5 日
    使用验证码机制啊
    pyufftj
        18
    pyufftj  
       2017 年 5 月 5 日
    @hard2reg 和 urllib 差不多,也带着 python 字样的,反正一眼就能识别出来的那种。。
    pyufftj
        19
    pyufftj  
       2017 年 5 月 5 日
    @tttty 只封一个不就行了吗。。
    kinghui
        20
    kinghui  
       2017 年 5 月 5 日
    @tttty 有可能封一个省市, 因为某些省市的某个运行商可能就一个出口 ip.
    hard2reg
        21
    hard2reg  
       2017 年 5 月 5 日 via iPhone
    @kinghui 就一个出口😂 ip 是多稀缺
    em70
        22
    em70  
       2017 年 5 月 5 日
    @tttty 只封 24 小时,不会有太大影响,别考虑太多小概率事件
    tttty
        23
    tttty  
       2017 年 5 月 5 日
    @kinghui 太可怕了...
    @em70 嗯 好的
    liuxu
        24
    liuxu  
       2017 年 5 月 5 日
    我虽然是个爬虫,但我行事坦荡,从不遮遮掩掩
    fuxkcsdn
        25
    fuxkcsdn  
       2017 年 5 月 5 日   ❤️ 1
    @hard2reg
    >>> import requests
    >>> requests.get('http://httpbin.org/user-agent').text
    u'{\n "user-agent": "python-requests/2.12.3"\n}\n'
    hsmocc
        26
    hsmocc  
       2017 年 5 月 5 日 via iPhone
    封 IP 显然是下策啊,一段时间内访问次数达到一个上限后出验证码吧
    tianxiacangshen
        27
    tianxiacangshen  
    OP
       2017 年 5 月 5 日
    @hsmocc 这样的话 每一次访问都要查询(次数)+插入数据库,不是很占用资源吗
    doublleft
        28
    doublleft  
       2017 年 5 月 5 日
    @tttty 是啊,会误伤! 我们公司不知道哪个傻比天天疯狂刷 v 站,我现在挂着代理上的……
    dsg001
        29
    dsg001  
       2017 年 5 月 5 日
    这种 UA 直接返回乱码数据呗
    qinbingchen
        30
    qinbingchen  
       2017 年 5 月 5 日
    难道这是我?
    flyshu
        31
    flyshu  
       2017 年 5 月 6 日
    新手刚看了知乎的入门教程来练手了
    dreamcountry
        32
    dreamcountry  
       2017 年 7 月 16 日
    我的网站也有大量的这种日志,这些人真是闲的蛋疼
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2767 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 13:10 · PVG 21:10 · LAX 05:10 · JFK 08:10
    ♥ Do have faith in what you're doing.