kennylam777

kennylam777

V2EX member #90581, joined on 2015-01-08 01:22:38 +08:00
Today's activity rank 7115
Per kennylam777's settings, the topics list is only visible after you sign in
Deals info, including closed deals, is not hidden
kennylam777's recent replies
1 day ago
Replied to a topic by nc Java Java 确实是内存高效的
我也不想用 JVM ,但 ElasticSearch 真的香,好像暫時還沒取代品?
雖然我還有在用 Python, 但 production 的東西我都轉向用 Go 了, 畢竟 compile time 能擋很多東西, strong type 讓 LLM 也能清楚理解數據結構

React 及 Python 的 project, 我都要用 strict type check 及 ruff 及 pyright 一類先檢查再讓 LLM 去宣告做完, 還真的能擋不少低級錯誤
4 days ago
Replied to a topic by Livid Local LLM DiffusionGemma
@BingoXuan Nemotron Nano 還真的不太行, Ultra 出來了好像也不太有性價比, 550B 等級的中國模型比它強。

btw, MTP 在 Coding agent 上加速效果挺明顯的, 我想是算 diff 一類能搬字過紙的任務上猜得到就能過, Gemma 4 31B Q4 在 5090 我試過能跑到最高 90tps, 反而 Qwen 3.6 27B 我都沒仔細看過最高 tps

但真的要快的話, 把 Qwen 3.6 35B 灌下去, tokens 嘩啦嘩啦就跑一堆出來還算爽的, max tps 過 130, 簡單任務也算能用
4 days ago
Replied to a topic by Livid Local LLM DiffusionGemma
@commoccoom 我單張 RTX5090, Q3.6 27B Q5_K_XL 用以上配置能跑 context 102400, 56tps

另外我還有兩張 RTX3090 的 NVLink 能跑 Gemma 4 31B Q8, F16 K/V, ctx 51200, 55-60tps, 但現在要買 3090 及它的 NVLink 應該不容易。

聽說有人在淘寶魔改了 V100 能插 PCIe 及多卡 NVLink, 但這種魔改的東西除非你對 inference 很有經驗, 否則不建議用。也有些人用舊款 AMD MI50 32GB 去組多卡, 但好像 llama.cpp 沒直接支援要用改版的, 也不太建議用。

RTX6000 Pro 的 96GB VRAM 及超大 bandwidth 肯定是單卡最強的民用產品

32GB 的新品好像還有 Intel Arc Pro B70, 比 RTX5090 便宜不少, 但這個 llama.cpp 的支援可能不完整, vllm 倒是有 Intel 自己的版本有維護能配 Qwen 3.5
4 days ago
Replied to a topic by Livid Local LLM DiffusionGemma
@BingoXuan 我是 Codex 及 Antigravity 雙持的, 都是 USD20 等級的套餐, 但自從我本地有 Qwen 3.6 27B (Q5_K_XL Weights, Q8 K/V, MTP)後, 有一次我兩家的 agent 都跑到 debug 一半沒了 quota 很焦慮。

還好之前有練過用本地跑 VSCode Copilo 及 Claude Code, 拿 Qwen 3.6 27B 給我上還真的能把事情做好。

這時候我就深深感受到這東西會減少人們對 Subscriptions 及 API 的依賴, 很佛心但也會影響利潤吧。
4 days ago
Replied to a topic by Livid Local LLM DiffusionGemma
@BingoXuan Gemma 4 這次很給力吧, reddit 上不少人都同意文字類答案比 Qwen 3.6 好, Qwen 3.6 是英語及中文很強, 但 Gemma 4 的廣東話及繁體字比 Qwen 3.6 強超多, Gemma 4 31B 在 agentic coding 用廣東話對答如流, Qwen 3.6 就會用簡體中文標準漢語回應, 也有一些 benchmark 說 Gemma 4 31B 比 Qwen3.6 27B 在 coding planing 更細密。

Qwen 3.6 是絶代的話就慘了, Google 不會放更好的模型出來, 畢竟 Qwen 還是很能打我也是 Gemma 4 及 Qwen 3.6 兩個模型都有在用。

@Livid 怪不得會選 26B A4B MoE, memory bandwidth 擺在那 TPS 是壓力, 反而我好奇的是 Qwen 3.6 35B A3B 的簡中應該也很強, 速度更快, 選用 Gemma 4 26B A4B 的選因是?
4 days ago
Replied to a topic by Livid Local LLM DiffusionGemma
不過我記得第一個實作 Diffusion Language Model 的是這個 HKU 團隊, 那時他們家的 Sudoku 的解題特別強。
https://github.com/HKUNLP/DiffuLLaMA

玩過 DiffuLLaMA Demo 很有趣, Diffsuion 文字輸出是先把句子長度固定, 然後內容再走出來, 先畫靶再射箭的感覺, 不是 Autoregressive 的書寫次序, 但那時字(token)蹦出來後就不會再動。

這次 DiffusionGemma 更有趣的是內容還會在 render 過程中變動, 我倒期待 Llama-Server 的實作出來是如何的, 如果 Sudoku 強的話可能龍蝦一類 vision+computer use 的用途會有驚喜?
4 days ago
Replied to a topic by Livid Local LLM DiffusionGemma
@coefu 我倒希望 Qwen 繼續開源跟 Gemma 一拼, Google 沒對手的話就不會放新模型了

正如以前用 RTX 5090 都沒有一個本地模型能 agentic coding, 大部分都倒在了第一個 failed tool call 上, 倒是 Qwen 3.5 27B 出來後才算有一個能用
對呀本來就 11 號重號, 原本是 6 號的
不就是把 Claude Code/Antigravity/Qwen 等等改成名人的名稱, 又是一個 "Hey I vibecoded a groundbreaking blah blah"的貼

現實很美好, 但用起來要先解決 Codex/AGY 能不能讓你的 program 包起來用的基本問題, 不然就引發 claude code -p 事件了
About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   981 Online   Highest 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 602ms · UTC 19:52 · PVG 03:52 · LAX 12:52 · JFK 15:52
♥ Do have faith in what you're doing.