V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  neteroster  ›  全部回复第 1 页 / 共 44 页
回复总数  864
1  2  3  4  5  6  7  8  9  10 ... 44  
1 天前
回复了 ern 创建的主题 Vibe Coding VSCode 里的 Codex 权限有不同吗?
删掉 ~/.codex/auth.json 然后重新登录试试
https://cursor.com/blog/cursorbench

今天刚发的,内部包含 cursor 在真实用户的真实编码场景中遥测出的评测数据

Opus 不说落后,在编码上已经没有全面领先态势了。
4 天前
回复了 ingrowthly 创建的主题 程序员 吐槽一下 DeepSeek 余额清空
看了一下,24 年 6 月充的 10 块还在
10 天前
回复了 neteroster 创建的主题 Apple Macbook Neo
简单总结:

- 8G 内存
- A18Pro 芯片
- 价格:256G = 4599 ,512G=5299 (官方)
- 屏幕:13 寸 2408 x 1506 (219 ppi),500nit
- 接口:USB-3 + USB-2 + 3.5mm
11 天前
回复了 shenzhenhk 创建的主题 MacBook Air MacBook M5 Air 硬盘最低 512GB 起!
@shenzhenhk 肯定是超过的,总体来说是划算了
11 天前
回复了 shenzhenhk 创建的主题 MacBook Air MacBook M5 Air 硬盘最低 512GB 起!
起售价涨了 500
2 月 16 日
回复了 typing 创建的主题 Claude 长期 Claude 用户试用了一下 ChatGPT/Codex
数学相关建议 5.2-xhigh ,5.3-codex 更加工程一点。然后推理至少都得开到 high 及以上,这种情况下几乎都会比 Claude 考虑全面,特别是长程任务。5.2-xhigh 在任务明确的情况下能工作超过 24h 做出完整的交付

Claude Opus 4.6 之前其实数学是相当糟糕的,我甚至不敢用它写一些难点的实验代码,4.6 好不少,基本能对标 5.2 才放心点
@neteroster 补充,这里有一些人做了一些实际问题的测试,虽然样本比较少,但总体符合我体感 https://linux.do/t/topic/1572659 gpt-5.2+ 在处理复杂长程任务是几乎没有对手的

唯一的例外是前端,这点 gpt 系列模型很一般
codex Windows 下有些小问题,没有处理可能体验不佳

除此之外 5.2-xhigh 是对标 opus4.6 的模型,5.3 codex 最近加快了速度,也很不错

Gemini 就算了,去和国产模型斗斗差不多,这周一批新国模出来大概率会全部超过他( agent 编码领域)
1 月 24 日
回复了 tthem 创建的主题 优惠信息 MacBook pro 14 寸 m5 32G + 512G 13000 值不值得买
之前研究过,小黄鱼上只要是你图中这个文案的机器都是有问题的,别买,有些人买到过拆过甚至换过屏幕的机器,根本不是所谓的未拆封
1 月 21 日
回复了 bixinhaner 创建的主题 程序员 Codex 的上下文为什么显示只有 258K?
有一个压缩阈值,参见 https://github.com/openai/codex/issues/9429

你不愿意的话也可以 patch 代码改回来
等月末 Intel PTL 产品出来看看
2025 年 12 月 22 日
回复了 c3de3f21 创建的主题 Local LLM Q: 关于读大部头 PDF 和 Mac Mini M4 能做的事情有些问题?
不要折磨自己了,你这个又不是什么强隐私相关需求。长上下文、rag 这种都是重 prefill ,高计算的负载,M 芯片最不擅长的领域就是这,首字慢到你怀疑人生,16G 内存能跑的模型长上下文注意力可想而知...
2025 年 12 月 21 日
回复了 Msxx 创建的主题 程序员 是我的错觉吗?感觉 Gemini 是个患有健忘症的玩意儿
@maolon Gemini 的 coding agent 就是不行,SWE 刷那么高,实际上一到实际工况里打不了 Opus 和 GPT 5.2 一点,毕竟 coding agent 起手就是 20+K ,再加上对指令遵循的强要求,都是 Gemini 的弱势区域
2025 年 12 月 20 日
回复了 Msxx 创建的主题 程序员 是我的错觉吗?感觉 Gemini 是个患有健忘症的玩意儿
Gemini 3 Pro 的有效上下文在 32K 左右,日常使用(特别是多轮对话) 20K 就可注意到显著的注意力和指令遵循下降,40K-50K 左右注意力崩溃。有趣的是,这甚至是相比 Gemini 2.5 Pro 的倒退。甚至 Gemini 3 Flash 也比 Gemini 3 Pro 有效上下文高。

这个问题关注到的人并不多,无脑吹反而更多。RP (角色扮演)社区是最先注意到这个问题的,他们在 Gemini 3 Pro 还未发布在竞技场匿名测试时就系统测试了其上下文能力,并通过体感立即注意到异常。
2025 年 12 月 16 日
回复了 YanSeven 创建的主题 程序员 Claude4.5,GPT5.2,Gemini3 pro 感官对比
GPT 5.2 (xhigh),长程 Agent 任务执行的新高度
2025 年 12 月 5 日
回复了 isbase 创建的主题 Google 各位觉得 Gemini 3 Pro 复杂编码表现如何?
Agent 编码的话,拉完了! Gemini 3 Pro 多轮对话 + (>20K 上下文) 的情况*几乎*是没法用的

当前推荐:

1. Claude Code / Cursor + Claude Opus 4.5
2. Codex + GPT-5.1 / GPT-5 / GPT-5-Codex-Max 或 Cursor + GPT-5 / GPT-5.1
2025 年 11 月 28 日
回复了 pmpmp 创建的主题 程序员 哈? LLM 的工具调用还能这么玩?!
其实 function call 或者 structure output 区别没那么大,推理后端没做约束解码的话,function call 的参数也不能保证准确... 做了约束解码的话,structure output 和 function call 都是保证准确的。

当然,唯一的例外的是,部分提供商只做了 function call ,或者只有 function call 用了约束解码
2025 年 11 月 28 日
回复了 fzdoudou 创建的主题 问与答 ChatGPT 订阅银行卡被拒绝
直接支付不支持大陆和香港卡,别想了
1  2  3  4  5  6  7  8  9  10 ... 44  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1029 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 45ms · UTC 18:50 · PVG 02:50 · LAX 11:50 · JFK 14:50
♥ Do have faith in what you're doing.