V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
peterjxl
V2EX  ›  程序员

腾讯云最近是在用 AI 爬虫抓取博客数据吗?把我博客搞崩好几天了

  •  
  •   peterjxl · 2025 年 7 月 14 日 · 3446 次点击
    这是一个创建于 186 天前的主题,其中的信息可能已经有所发展或是发生改变。

    我博客 2022 年就上线了,个人技术博客,访问量一直不大。

    但为了以防万一,我还是加了点防护措施,例如流量封顶,带宽封顶等,超过阈值一段时间会暂时下线博客,然后可以自动或手动上线博客

    但最近几天,博客访问量突然大了,一天到晚都在崩...

    实在忍不住了,就去查了下日志,发现访问最频繁的 IP 都是 175.24.248.xx 开头的,然后查到是腾讯云的 IP

    封禁了其中几个,但第二天博客又崩了,然后发现换了 IP ,当还是上面的 IP 段

    而且是一天到晚都在访问。现在我已经封了这些 60 多个 IP (请求会返回 403 ),但日志里还是一直在刷请求...

    IP 这么多,不太像是个别人的恶意攻击,这是官方在搞什么活动吗? 想起之前看过的新闻:

    想请教下是否还有什么法子... 虽然这种 CC 攻击好像是无解的,又不太想上 CloudFlare (有点慢)

    以下是截取的 IP:

    
    175.24.248.4
    175.24.248.6
    175.24.248.15
    175.24.248.19
    175.24.248.22
    175.24.248.29
    175.24.248.37
    175.24.248.40
    175.24.248.53
    175.24.248.80
    175.24.248.83
    175.24.248.84
    175.24.248.85
    175.24.248.94
    ......
    
    22 条回复    2025-07-18 09:34:03 +08:00
    liu731
        1
    liu731  
    PRO
       2025 年 7 月 14 日   ❤️ 1
    套 CF ,然后开 Block AI training bots
    iv8d
        2
    iv8d  
       2025 年 7 月 14 日 via Android
    确定不是刷你流量
    overstar
        3
    overstar  
       2025 年 7 月 14 日
    iptables + ipset 直接把 AS45090 干掉完事
    Shatyuka
        4
    Shatyuka  
       2025 年 7 月 14 日
    @tencentcloud 直接摇人
    WorseIsBetter
        5
    WorseIsBetter  
       2025 年 7 月 14 日
    现在的 AI 爬虫都不讲武德的,UA 模仿正常用户,很难用简单的规则去过滤。
    目前比较有效的无非是接入 Anubis 或者 go-away 这种基于计算量证明的对抗手段。

    当然对正常用户的影响还是有的,首先它比较吃性能,我的 pixel7 访问几个这样的网站就开始发烫了。
    还有很多用户根本不想在自己的浏览器上运行 JavaScript 。

    另外,最近流行一种「浏览器插件把用户设备当肉鸡来驱动 AI 爬虫」的操作(关键词:Mellowtel )。
    如果这种行为不能及时得到遏制,那反制的成本无疑会进一步提高……
    macaodoll
        6
    macaodoll  
       2025 年 7 月 14 日
    开 cdn 了?更像是刷流量
    peterjxl
        7
    peterjxl  
    OP
       2025 年 7 月 14 日
    @overstar 我用的是 CDN😂 对方也是访问的 CDN ,没法用 iptables
    peterjxl
        8
    peterjxl  
    OP
       2025 年 7 月 14 日
    @macaodoll 嗯,CDN ,很像是刷流量的
    ysicing
        9
    ysicing  
       2025 年 7 月 14 日
    @Shatyuka 这时候他们就会装死😂。

    字节的 bot 也是,完全不遵循 robots.txt
    cnrting
        10
    cnrting  
       2025 年 7 月 14 日
    难道你还指望人家付费爬吗
    12tall
        11
    12tall  
       2025 年 7 月 15 日
    EndlessMemory
        12
    EndlessMemory  
       2025 年 7 月 15 日
    直接上 cf 比较简单吧
    tencentcloud
        13
    tencentcloud  
       2025 年 7 月 15 日
    您好,已关注到您的反馈,关于您列举的这些 IP 信息,我们已按相关举报处理流程对使用方进行了转达通知,可关注后续访问情况;同时建议您使用相关安全产品或安全软件对可疑 IP 或 IP 段进行访问限制处理。若后续还有相关异常网络访问行为可通过腾讯云举报平台提单反馈,我们协助您评估处理,感谢您的支持和理解。
    peterjxl
        14
    peterjxl  
    OP
       2025 年 7 月 15 日
    @12tall 我查了下,Zip 炸弹的话效果有限,其实可以通过文件头信息判断大小的
    moyaya
        15
    moyaya  
       2025 年 7 月 15 日
    从去年就开始了,各种 AI 爬虫屡禁不止。
    peterjxl
        16
    peterjxl  
    OP
       2025 年 7 月 15 日
    @tencentcloud 好的,今天的话这些 IP 消停了点,谢谢。
    s1n1an
        17
    s1n1an  
       2025 年 7 月 15 日
    估计是爬虫,我去年就遇到了,47.128.xx.xx 的 IP 段一个劲抓取我博客页面,后来遇到阿里云的,UCloud 的,每次我都去手动屏蔽,然后去填单子举报。
    上 CF 会影响国内访问的体验,非必要还是不太推荐的。
    peterjxl
        18
    peterjxl  
    OP
       2025 年 7 月 15 日
    @s1n1an 嗯,目前的话消停了,果然还是得靠举报
    aladd
        19
    aladd  
       2025 年 7 月 15 日
    我一般都是 https://bgp.he.net/ip/175.24.248.4 查询后封整段。
    awsl2333
        20
    awsl2333  
       2025 年 7 月 16 日
    对我自己的博客场景来说
    1. 博客不需要 cdn 吧
    2. 其实大部分博客都可以用静态站点,托管在 cf ,Vercel ,GitHub Pages 是不是就可以了
    peterjxl
        21
    peterjxl  
    OP
       2025 年 7 月 16 日   ❤️ 1
    @liuhai233

    1. 不上 CDN 速度会很慢,我都是免费 + 收费 CDN 混合着用
    2. 确实挂在那些上面会方便点,而且省去了服务器的费用,就是我之前续费服务器比较久,到期后看看迁过去
    cozof
        22
    cozof  
       2025 年 7 月 18 日
    也有这个问题,最近看日志一大堆腾讯云的,今天看还是频繁爬取没有消停,这些爬虫吧也不知道干嘛的,UserAgent 也没有,host 也查不到。
    比如
    host 175.24.248.37
    Host 37.248.24.175.in-addr.arpa. not found: 3(NXDOMAIN)

    nginx 直接整段 deny 了。
    deny 175.24.248.0/24;
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2848 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 21ms · UTC 02:19 · PVG 10:19 · LAX 18:19 · JFK 21:19
    ♥ Do have faith in what you're doing.