即刻App年轻人的同好社区
下载
App内打开
Tefnut
451关注331被关注4夸夸
🧑‍🏫ENTP-T 6w7
🗂在和遗忘做抗争
💻CS PhD/Al4Science->Structural Biology
Tefnut
2天前
Cursor 发了 Composer 2 的技术报告,有两个点很值得关注:

1/ OpenAI Anthropic 面向大客户的天花板被砍了一截。Cursor 已经证明:在特定领域(coding)训练专业模型,Serving Cost 比通用 SOTA 模型更低,且训练成本可控、技术路线成熟。换句话说,大客户完全有能力自己训一个垂直领域的专用模型,而不是被通用 API 定价绑架。这对 OpenAI/Anthropic enterprise 收入是实质性威胁。利好云计算。

2/ NVIDIA 护城河依然极高。Composer 2 是在 NVIDIA B300(Blackwell)上训的,用了 MXFP8 NVFP4 这种 block-scaled tensor-core 精度格式。这在一两年前完全无法想象——你不仅要有卡,还得有能力把新硬件特性吃透。训练横跨三个 region GPU 集群 + 四个 region CPU 集群。
00
Tefnut
6天前
关于Cursor Composer 2 Kimi K2.5 的差距只能说,基础设施可以租,人才也要看用来干什么,数据才是真正的资产。

只有最顶尖的人用最顶尖的模型才能带来对当前阶段模型有价值的数据,剩下的数据纯纯是污染。

这对于整个行业倒是好事,只要能把入口做大就能收集到数据来训练专有模型,基础设施已经不是瓶颈了。
00
Tefnut
8天前
Claude Code用TypeScript写的,所以Anthropic买了Bun。
Codex用Rust写的,所以OpenAI买了Astral。

不得不说GPT在科学计算和更严肃的编程任务上比Claude强了不止一点。
00
Tefnut
11天前
用Cursor很久了,今天刚意识到plan mode之后把任务分到几个agents完成度要高很多。
这个月大概是有史以来用得最多的一个月,用了 1.5B token。
00
Tefnut
12天前
给模型开xhigh然后等半天真不如自己多聊几轮再写清楚用medium快点完成。一个prompt等 20 分钟,我自己的context都加载不过来。
00
Tefnut
12天前
我原来一直觉得CPU不重要,自己的电脑有个 8 核绰绰有余了,直到现在开了三个worktree agents每个都在build。
10
Tefnut
14天前
CursorBench跟人类体感比较接近了。50% 这条线很准确。
Opus 4.5 开始进入全自动模式,很少需要人类干涉。
我之前一直觉得Codex系列模型一般,但是 5.3 开始可用度挺高,一般开medium就能解决问题,也在 50% 这条线上。
至于Cursor里还提供的Opus 4.6 Max,我总感觉它虽然很努力做推理,但是浪费了我很多时间,一轮plan mode通常要 20 分钟。
00
Tefnut
15天前
让GPT-5.4 维护一个已经长久失修的算子库,从切换到nanobind,到把PTX换成post Ampere的语法,到补充一个cutlass的实现,竟然没遇到什么阻力就做完了。

在这些细分领域明显比Opus 4.6 要强,感觉OpenAI大概率有超高质量的数据。
00