即刻App年轻人的同好社区
下载
App内打开
袁进辉
659关注3k被关注10夸夸
连续创业者,SiliconFlow,OneFlow,LightYear AI
袁进辉
4天前
放假前和晚点一起聊了下对GPT o1的认识以及行业动态,祝朋友们中秋节快乐🎑

曼祺_火柴Q: 本期量大管饱!我们在 OpenAI o1 发布第二天邀请硅基流动创始人@袁进辉 与我们分享了他对 o1 新技术的理解,和他观察到的这半年开发者生态变化(他上次做客晚点聊是今年 1 月 一些总结: 【技术】 ·o1 的 “Wow”来自突破了大语言范式下,推理能力没那么强的预期,Alpha 家族此前也用强化学习,但 o1 结合了 LLM 和强化学习 ·强化学习、思维链、test-time compute,单看都不是石破天惊的 idea,OpenAI 做了很好的组合 ·强化学习和思维链主要是补足数据的不足,现有方法都不改变大模型依然是一个统计学习,数据里没有或不充分的就学不好 ·test-time compute 是在推理(inference)阶段放更多资源,以前推理一次,现在推理 N 次 【影响】 ·对英伟达——未来总体算力需求会大幅提升,推理端尤甚 ·最大潜在应用价值:Agent ·对中国公司:不改变越来越少的公司训练基础模型的趋势 ·算力短期冗余:更少公司讯基础模型,算力价格已在下降,推理算力量没那么快起来, 【开发生态】 ·“每天和开发者打交道,不会觉得行业变冷” ·现在很多开发者是小微企业或个人,不在 VC 视野内 ·硅流云服务平台上被调用最多的开源模型?——可以去听播客(前面就有~ 中秋快乐!🎑(也可以先 mark,明天上班听 😀

10
袁进辉
7天前
中秋节前最后一次更新:flux dev 商业版上线,大约一周后文生图产品就开始收费了

SiliconCloud上线Flux.1[dev]:文生图比肩MJ v6,免费尝鲜

04
袁进辉
7天前

云中江树: Claude 直出 AI 简历提示词来了 不懂设计,没有审美,这是在 AI 加持下,在群友的诸多反馈建议支持下才做出来的。 受 刚哥@李继刚 的知识卡片,一泽@一泽Eze 的社交名片生成启发,从卡片 -> 名片 -> 简历,做简历是从简单到复杂外推得到的想法。 对简历内容的分析引导生成, AI 已经可以做的很好了,因此不是我核心关注的问题。 我核心关注的是 AI 的审美,写代码,指令遵循,上下文长度,语义理解等能力能不能支撑起简历生成这个任务,目前阶段我觉得最好的 Claude 就是我的试验台。 和给通义写的 html+css 的方案不同,受到上下文限制,Claude 一次写不了这么长的代码,为了压缩长度,用的 react + Tailwind CSS 方案。 直接塞代码 fewshot 的做法虽然看起来不简洁优雅,但绝对稳定。另一方面,这也不失为一种程序员眼中的工程美学。 我分享出去的提示词,大家都会惊奇,怎么效果这么稳定的好? 原因就在这,也许是工程背景出身的原因,我比较关注怎么能低成本拿到稳定精准的结果。 我一向都认为,在能完成任务的前提下,长度没必要节省。过去一年token费用已经降低了几百倍,未来只会更便宜,所以没必要太过关注提示词长度,聚焦核心目标的高效达成上就好。 这个项目目前还有很多问题:简历内容,简历导出,样式调整等等,都给使用者带来了很多的门槛,不过,都可以通过产品化解决。 AI简历这个项目的尝试,目标是让自己和大家看到AI的可能性,毕竟这只是一个探索性项目。这些问题,目前都是有解的,新一代技术的这个产品做得好的话,可以颠覆掉目前市面上同类产品。 提示词太长,放文章里了:https://mp.weixin.qq.com/s/IdMpz2DIWM1g1b3CJxgISA

00
袁进辉
7天前
DeepSeek模型的生成结果
33
袁进辉
7天前
前几天@李继刚 基于Claude设计了一个有趣的毒舌prompt- 汉语新解,深得网友喜欢,实现这种效果需要大模型能洞察一个词的深层含义,还得用辛辣幽默精炼的语言把本质揭示出来,最终生成html代码实现视觉布局。那国产大模型能不能做到呢,可以,结构化Prompt高手@云中江树 设计了一个能用国产模型的汉语新解prompt,SiliconFlow小伙伴儿快速实现了一个原型,发现GLM4-9B, Qwen 2 72B, DeepSeek V2.5都能实现这些效果。

一针见血,硅基流动发布毒舌AI“智说新语”

01
袁进辉
8天前
o1 上线另一项重大启发:inference scaling law,在inference 上多花点算力比在训练上继续投入算力收益要大的多,inference的空间和价值又增加了。
40
袁进辉
8天前
无论怎么玩,还是统计,对数据的归纳:1,next token prediction, “吃”后面一般是“饭”;2,所谓常识,“饿了”要“吃饭”,“吃饭”会“变饱”,也都是因为训练数据里包含大量这样的模式;3,单纯pre train对reasoning做的不太好,也是因为训练数据里 A->B->C->D 这样任务级别粗颗粒度、长序列的模式匮乏,不足以让模型记忆这种规律,那就需要通过构建reward model的方式创造、合成足够的数据教会模型。这一套方法论已被实践证明很有效,剩下就是在各个行业复制,困难的应该还是构建数据闭环,譬如具身智能、世界模型,怎么高效收集数据是关键。

刚刚,OpenAI震撼发布o1大模型!强化学习突破LLM推理极限

11
袁进辉
8天前
o1 发布引发人们对思维链/self play强化学习在大模型里应用的关注,可能短期又会产生很多像之前对涌现的迷信或对幻觉的迷惑,其实大部分现象用过去的理论能解释,大模型技术的能力边界在理论上已经开始变得清晰,推荐王立威老师这篇访谈,用通俗易懂的语言解释了一些很本质的道理。

北大王立威:理论视角看大模型,为什么AI既聪明又愚蠢 | 智者访谈

02
袁进辉
9天前
最近平台更新升级太多了,只能都攒到一篇文章了,欢迎朋友们继续鞭策,提改进建议,要做的事情太多了

SiliconCloud更新日志0912:新增六大功能

30
袁进辉
10天前
基础设施超前投资,“要致富先修路”的逻辑。中长期,AI价值无处不在也是必然。现在整个行业的瓶颈在应用,怎么才能让应用更多更好呢,我们为这个目标做点事

rosicky311_明浩: 周一在substack看到一篇关于当下AI领域的投资与市场现状综述, https://artificialintelligencemadesimple.substack.com/p/the-current-state-of-ai-markets-guest 今天看到@袁进辉 他们公司公众号翻译了这篇稿子,正好推荐下……

01