V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
Kinnikuman
V2EX  ›  程序员

Anthropic 家的模型训练与其他家差别大吗?

  •  
  •   Kinnikuman · 1 天前 · 2884 次点击

    大家都知道 Anthropic 家的模型,尤其是 Opus 的实力,在编码的实际体验中是最强的,没有之一。即使拿 gemini3.1pro 和 gpt5.3codex 比,这俩也是比不上它一点。

    除了编码,大家跑龙虾也能感觉出来差别很大,尤其是多步骤工具链的复杂任务只有 opus 能完美胜任,opus 画的 svg 动效流程图也是比新的 gemini 强很多。

    我的问题是,公开互联网训练数据大家都是一样的,各家的 RL 也差不离(这点应该没什么技术壁垒),经济实力上 OpenAI/Google 应该更有优势,那为什么训练出来的大模型只有 opus 家最强?

    是 Anthropic 家训练更强调代码能力,侧重点不同导致的吗?

    24 条回复    2026-03-14 10:55:33 +08:00
    neteroster
        1
    neteroster  
       1 天前 via Android   ❤️ 2
    https://cursor.com/blog/cursorbench

    今天刚发的,内部包含 cursor 在真实用户的真实编码场景中遥测出的评测数据

    Opus 不说落后,在编码上已经没有全面领先态势了。
    6diyipi
        2
    6diyipi  
       1 天前
    直观感受 。Opus 花了 200 写的 bug, codex 一次修复、完美
    LHN
        3
    LHN  
       1 天前   ❤️ 2
    `即使拿 gemini3.1pro 和 gpt5.3codex 比,这俩也是比不上它一点。`谁告诉你的这俩比不上一点啊,我用 codex 解决不了的问题 opus4.6 也解决不了,claude 目前用着就是速度快一点
    CoderUndefined
        4
    CoderUndefined  
       1 天前
    @neteroster #1 但是看大部分反馈用 claude code 效果还是比 codex 好一些,可能各家 cli 工具,在工程上还有所不同
    kelvinji2009
        5
    kelvinji2009  
       1 天前
    每个人的体感不太一样,综合看 Opus 4.6 和 GPT 5.4 high 交替被夸。某个模型解决不了,换另外一个就解决了,这个也不能直接说明哪个模型更强,很可能跟上下文有关。交叉使用多个模型解决问题,也算是一种最佳工程实践了。
    sillydaddy
        6
    sillydaddy  
       1 天前
    真的差别那么大吗,没有特别大的感觉,我的感觉反而是 gpt5.3codex 比较稳定可靠。我是在 cursor 内测试的。

    下面的乘法题,gpt5.3codex 能做到,但 opus4.6 做不到(推理卡死、直接放弃改用 python )。都是用的最高推理能力。

    ```
    你能不借助工具,心算一道乘法题吗?为保证准确性,你必须要一步一步计算。这里的一步一步是指无论加法还是乘法,都只取 1 位数字计算。也就是 1 位数乘以 1 位数,1 位数加 1 位数,无论是中间过程还是结果。

    8346783724985839204724623 * 7827329472626174

    ```
    bbbblue
        7
    bbbblue  
       1 天前
    我感觉不太出来了。。。
    之前 cc 现在用 codex 用了几个礼拜了。。。没啥太明显的差别 可能唯一有变化的是 gpt 写完之后会自己再精装修一下(但是 cc 偶尔也会 其实也没太大区别。。。
    mogutouer
        8
    mogutouer  
       1 天前
    gpt 5.4 出来后感觉逻辑上没差别了,不过前端美观度还是 claude 略胜一筹,codex 有点直男。gemini 号称最强美工但 css 经常错乱,刚 3.1 刚发布的时候不是有个日见夜间切换按钮,尝试给他图片弄了一个,始终有样式问题,最后还是 claude 重来弄好的。
    https://imgur.com/O1J5fpq
    https://i.imgur.com/O1J5fpq.mp4
    cz5424
        9
    cz5424  
       1 天前
    @sillydaddy 我用 cursor 很容易卡死,但是 antigravity 就不会,opus4.6
    AoEiuV020JP
        10
    AoEiuV020JP  
       1 天前
    我始终感觉 claude 更懂我,
    每次其他模型火起来我都会试试,但就经常冒出来`你连这都听不懂吗`的疑问,
    也不是说 claude 就什么都能懂,但就是感觉其他总比 claude 差一些,
    有种没理解我的想法的感觉,尤其是我希望 AI 遵守什么约束参考什么 skill 调用什么工具,点名 GPT 家的总是不合我心意自己乱来,
    编程能力我是不觉得谁差的,
    defaw
        11
    defaw  
       1 天前
    从来没觉得 opus 强,用了几次都是蠢的要死故作深沉的在那进行一些可笑的推理,知识水平极差,没有知识就没有能力,知识这块 gpt 一直是最全面的,用 opus 推理 200k 上下文不如 gpt 直接给答案。
    deplives
        12
    deplives  
       1 天前
    [即使拿 gemini3.1pro 和 gpt5.3codex 比,这俩也是比不上它一点] 真是靠嘴比
    zjengjie
        13
    zjengjie  
       1 天前   ❤️ 1
    我用的公司给的 aws 上的 claude opus ,每次看到谁说这模型多么多么强一次解决问题没有任何缺点,我都怀疑自己用了个假模型。
    cvbnt
        14
    cvbnt  
       1 天前
    我用 codex 的 GPT5.4 ,我感觉和 opus4.6 已经不分伯仲了
    clow
        15
    clow  
       1 天前
    @defaw 有示例么,我看看是不是 gpt 真的强,这俩我都有会员
    default996
        16
    default996  
       1 天前
    一直在蹭免费的 codex 5.2 ,感觉已经很好了,有时候只需要手动修改一些代码就 OK 了
    cyp0633
        17
    cyp0633  
       1 天前
    感觉洗数据造数据有一套,要么就是后训练太领先了吧,我倾向于前者
    干活可能不再是最好的了,但语言上仍然简练有力而且自然
    ktyang
        18
    ktyang  
       1 天前
    我感觉 opus 还是聪明一点啊,gpt 偏老实一点,但是也没有断崖吧。
    defaw
        19
    defaw  
       1 天前
    @clow 两个场景,minecraft 的 3d 渲染,espidf 的嵌入式冷门库
    10bravoman24
        20
    10bravoman24  
       1 天前 via Android
    codex 5.3 的编码能力比 opus4.6 更强一些,但同样的 prompt 输入,它的理解能力上要差一些。
    vopsoft
        21
    vopsoft  
       1 天前 via Android
    个人觉得 Anthropic 强 其他的确实比不了一点儿
    crackidz
        22
    crackidz  
       22 小时 47 分钟前
    不说别的,Codex 5.3 Codex 已经在锤 Opus 4.6 了。至于 Gemini ?路边一条了,尤其是 Google 动不动就降智,现在编码这项上,已经基本和国产模型坐一桌了。
    prosgtsr
        23
    prosgtsr  
       14 小时 37 分钟前 via iPhone
    gpt 和 claude 这两家都有人吹
    gemini 刚出的时候吹前端写得好,现在也没见到了
    grok 大家只吹他能出涩图、别的路边一条
    XTTX
        24
    XTTX  
       11 小时 52 分钟前
    gemini 3.1 pro 专门为了 svg 做了训练,实际使用远超 opus 4.6. 这个年代,每个模型都有自己特长。把他们特长加入自己的工作流.
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2879 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 14:48 · PVG 22:48 · LAX 07:48 · JFK 10:48
    ♥ Do have faith in what you're doing.