即刻App年轻人的同好社区
下载
App内打开
歸藏
563关注24k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
12:11
Nano Banana Pro 的上线依然还在提高!

提示词:为你的家乡做张城市海报

所有的元素都会自动根据你选择城市进行调整:

比如云海的艺术风格、3D 字体上面的装饰、经纬度、建成时间、别称、独特的鸟类和生物、天际线景观和古建筑

提示词:

一张针对 [城市名称] 的城市渲染数字艺术海报。

画面核心主体是一个漂浮在白云上方、形状像所选城市的并且占据画面大部分内容的微型岛屿。岛屿的形状与城市在地图上的形状相似,无缝融合城市独特的标志性地标、自然景观及文化元素。加入城市特有的鸟类、电影般的光影、鲜艳色彩、航拍视角和阳光反射效果,建筑不宜太多太密集。

岛屿展现历史与现代的无缝融合。一部分是该城市最具代表性的古代历史建筑;另一部分平滑过渡为城市的地标建筑和天际线景观。

岛屿漂浮浩瀚云海之上。云海采用该城市所在文化圈的传统艺术风格进行表现。

立体城市拼音或英文名的 3D 文字漂浮在微型岛屿的上方,这组文字像一个生态与文化共生的微缩生态装置。

在画面四周和主体周围,叠加一层极简、高雅、具有博物馆展板质感的信息排版层。主要检索相关的城市信息,主要信息使用经典的衬线字体,辅助数据可使用极细的极简无衬线体。在画面的角落,以类似古典地图集或高级杂志扉页的方式排版。用衬线体标注城市的地理坐标、别称或建城年份,以及当前的天气,作为装饰性的背景信息,整体排版留白极多,排版克制、干净、平衡,如同在欣赏一件珍贵的艺术品。

风格要求: Octane Render, C4D, Isometric City, Micro World, Living Ecosystem, 8k Resolution. DreamWorks style, 3D modeling, delicate, soft light projection.
34
歸藏
10:44
NotebookLM 的笔记作为上下文添加到 Gemini App 里面。

这个功能现在已经实装,你可以针对 NotebookLM 的内容在 Gemini 里面提问了
64
歸藏
2天前
Andrej Karpathy 分享了他 2025 年的总结

关于训练范式的变化、benchmark 的失效、Cursor、Claude Code、VibeCoding、LLMGUI

---------------------------------------

LLM 主流技术栈发生了比较大的变化从SFT和RLHF 变成了RLVR。

RLVR涉及针对客观的(不可被操纵的)奖励函数进行训练,这允许更长时间的优化。

RLVR被证明提供了很高的能力/成本比,这吞噬了原本用于pretraining的计算资源。

来通过生成更长的推理轨迹和增加"思考时间"来控制能力作为测试时计算的函数。

在2025年对benchmark的普遍冷漠和信任丧失。

核心问题是,benchmark几乎按定义就是可验证的环境,因此立即容易受到RLVR及其通过合成数据生成的较弱形式的影响。在测试集上训练是一种新的艺术形式。

Cursor最值得注意的是它令人信服地揭示了"LLM应用"的新层次——人们开始谈论"X领域的Cursor"。

像Cursor这样的LLM应用为特定垂直领域捆绑和编排LLM调用:
它们进行"context engineering"
它们在幕后将多个LLM调用编排成日益复杂的DAG,仔细平衡性能和成本权衡
它们为人在回路中提供特定于应用的GUI
它们提供"自主性滑块"

他认为LLM实验室将倾向于培养出能力全面的大学生,但LLM应用将通过提供私有数据、传感器和执行器以及反馈循环,将它们组织、微调并实际激活为特定垂直领域的专业团队。

Claude Code (CC) 作为LLM Agent的首次令人信服的展示出现——某种以循环方式将工具使用和推理串联起来进行扩展问题解决的东西。

CC 值得注意的是它在你的电脑上运行,使用你的私有环境、数据和上下文。

他认为这方面OpenAI做得有问题,步子迈得太大了,不应该把Codex全部放在云上。

CC不只是一个像Google那样你访问的网站,它是一个"生活"在你电脑上的小精灵/幽灵。这是与AI交互的一种新的、独特的范式。

Vibe coding将改造软件并改变职位描述。

他在推文中创造了"vibe coding"这个术语,完全没意识到它会走多远:)。

vibe coding不仅使普通人能够接触编程,它还使受过训练的专业人士能够编写更多(通过vibe编码的)否则永远不会被编写的软件。

他还vibe编码了整个临时应用只是为了找到一个bug,因为为什么不呢——代码突然变得免费、短暂、可塑、一次性使用后可丢弃。

Google Gemini Nano banana是2025年最令人难以置信、改变范式的模型之一。

LLM是类似于1970年代、80年代等的计算机的下一个主要计算范式。因此,我们将看到基于根本相似原因的类似创新。我们将看到个人计算的等价物、微控制器的等价物(cognitive core)、互联网的等价物(agent互联网)等等。

特别是在UIUX方面,与LLM"聊天"有点像在1980年代向计算机控制台发出命令。

文本是计算机(和LLM)的原始/首选数据表示,人们实际上不喜欢阅读文本——它缓慢且费力。相反,人们喜欢以视觉和空间方式消费信息,这就是为什么在传统计算中发明了GUI。

同样,LLM应该以我们喜欢的格式与我们交谈——图像、信息图、幻灯片、白板、动画/视频、网络应用等。

但谁真正要构建LLM GUI呢?在这个世界观中,nano banana是这可能看起来像什么的第一个早期暗示。重要的是,它的一个显著方面是,它不仅仅是关于图像生成本身,而是关于来自文本生成、图像生成和世界知识的联合能力,所有这些都纠缠在模型权重中。

总结: 2025年是LLM令人兴奋且略显意外的一年。LLM正在成为一种新型智能,同时比我预期的聪明得多,也比我预期的愚蠢得多。无论如何,它们非常有用,我认为即使在当前能力下,该行业还没有意识到它们潜力的10%。与此同时,有太多想法可以尝试,从概念上讲,这个领域感觉非常开放。正如我今年早些时候在Dwarkesh播客上提到的,我同时(表面上看似矛盾地)相信我们将看到快速和持续的进步,并且仍有大量工作要做。系好安全带。

来源:x.com/karpathy/status/2002118205729562949
43
歸藏
2天前
太猛了!谷歌 Gemini 直接塞了一个N8N 进去

把 Opal 塞到了 Gem 功能里面,自然语言创建工作流

​人人都可以创建自己的带界面的AI应用了,还能分享给其他Gemini用户使用,不消耗你的额度

用这个把我的屏幕使用时间提示词可视化变成了网页。一键生成海报、文本和播客

顺便写个教程,由于篇幅所限,这里就只写基础的,关于Opal那部分,进里面看吧:mp.weixin.qq.com

首先是入口,在侧边栏这里找到“探索Gem”这个选项进去就行。

进去之后你就看到除了之前的 Gem 界面和设置之外,上面出现了一个全新 Gem 的实验。

点击这个“New Gem”就可以进入到新的 Gem 的创建界面。

进入到创建页面之后很简单的一个输入框,你直接告诉他想要做什么就可以。

回车之后就会开始构建 Gem 应用,右侧会有进度一般很快就能搞定,你就可以在右侧测试刚刚生成的 Gem 。

新的 Gem 支持的格式非常丰富,包括我们常见文件、youtube视频、甚至还可以录制网页操作视频和涂鸦。

上传了自己的训练数据上去测试,结果相当的详细,上面是数据看板,中间是各种表格,最下方是对我的训练建议。

但这里全是英文,我们还是需要修改一下,简单的修改直接在左侧说提示词就可以。

修改之后分析结果就全部变成中文了,而且分析的数据相当详细。

上面是整体的训练分析,中间是各个部位的数据,接下来是进步的和退步的训练,最后是个性化数据分析和建议。

当然你肯定这时候对于结果是有些不满意的,比如网页没有图片全是字,你觉得左边通过提示词进行修改太烦了。

这时候我们就可以点击右上角那个“Open Advanced Editor”去到真正的 Opal 界面进行编辑。
920
歸藏
2天前
牛皮,FLow 里面真的可以选择 Nano Banana Pro 4K 2K 分辨率图片下载了

Ultra 的价值再次提高!我终于不需要在 AI Studio 里面掏两分钱了。

还可以直接将 Nano Banana Pro 生成的图片用 Veo 3.1 变成视频,闭环了
02
歸藏
2天前
Claude Chrome 插件现在向所有的 Cluade 付费用户开放了

侧边栏常驻、支持多标签与现有登录书签协作,帮你操作浏览器中的网页执行任务

而且支持 Claude Code 调用,在浏览器内直接运行与测试代码、读取控制台日志与客户端错误。
这里必须要有 Claude 付费,不能用 API
01:20
58
歸藏
3天前
今年 b 站的观看时长明显变短了不少,明明感觉时间更自由了,但娱乐时间变少了
00
歸藏
3天前
藏师傅字节 Seedance 1.5 Pro 视频模型首测!

这次支持了音画同出,更惊喜的是还支持方言生成,同时表演中的情绪表达和复杂运镜也都有非常大的进步

可以去火山引擎、豆包和即梦尝试,先看一下藏师傅的测试视频混剪

下面是具体的测试点评,提示词可以去长文看:mp.weixin.qq.com

案例 1

首先我找了一个可能没那么方言的方言陕西话,很多人说普通话的人可能听得懂,但又有一些读音很独特的词。

这种一般是比较难的,因为素材跟普通话太接近了,而且很多词不好标注,只有真的下功夫才能搞好。

同时场景选了我每天看的陕西面食吃播场景,文生视频,看一下整个画面和音频的融合程度,吃东西的时候也会影响说话,可以考验模型对于场景的判断。

结果相当惊喜,“聊咋咧”和“美滴很”这两个比较难的词都说出来了,而且音调也确实是陕西话的音调。意外的是提示词遵循比较好,知道先说一句然后喝饮料再说一句。

案例 2

然后是四川方言,我选了一个非常有挑战性的场景,在提示词里面加入了三个年龄不同、性别不同、打扮相差也很大的角色,说着不同的话。

这个提示词说实话难度有点大了,但 Seedance 1.5 Pro 确实给了我很大的惊喜,每次抽卡都能比较好的遵循提示词完成任务。

每个人都在用自己角色应该有的音色和音调在说话,而且不会串,“巴适得板”这种四川话独有的词也说的不错。

我是没有指定镜头运动方式的,它自己会将镜头通过类似摇臂旋转的方式对准正在说话的人,而且还有一点类似手持设备的晃动,镜头为止也在麻将桌没有露面的那个角色那里,看起来就像那个人手持拍摄一样。

案例 3

最后是粤语,这里也选了一个相当有市井生活气息的餐馆场景,依然文生视频。

生成出来的时候这个运镜真的顶,直接非常顺滑的从服务员的背面切换到正面,而且说话的时候很自然的打到男生的脸上。

提示词遵循也非常好,每个提示词中的细节都兼顾到了,还有所有动作台词的时间顺序。

对话里面以我这个不太懂粤语的人听,还挺是那个味的,粤语特有的发音也都可以说,也欢迎“粤语警察”提意见。

现在各种 AI 影视爆款里面涉及到音画同出的除了各种真实人像之外,宠物 AI 视频的流量也占了半壁江山,所以这里也需要考察一下宠物的声音和唇形同步。

案例 4

首先是小猫吃播,吃播对于音效和表情要求很高,吃东西必须得是跟视频材质相同的视频,这里小猫吃煎饺咔滋咔滋的声音就让人听的非常有食欲。

而且猫咪在咀嚼的时候很好的表现了出了非常拟人的为食物陶醉的表情,但是有没有恐怖谷的问题,相当不错。

案例 5

这里让猫咪说人话,除了嘴型以外还有解刨结构的考验,很多视频动物说人话的时候嘴里的舌头和牙齿就会变得像人,这里 Seedance 1.5 Pro 就很好。

模型输出的也是类似孩子的声音,最后我们还用...来表示说话的节奏和表现困意,生成的时候也按照对应的节奏放慢了说话速度。

案例 6

既然说到了音画同出的能力,那么模型的表演能力和情绪表现也是非常重要的部分,很多时候情绪或者表演能力跟音频的关系相当大,只有画面的时候表现力是不够的。

这里主要表现的是恐惧压抑和恳求的复杂情绪,眼睛这里很传神,将恐惧害怕同时又由于的情绪表现的很好。

第一句话的时候先是声音很低的,这个时候仿佛还没有下定决心,等到第二句话的时候就表现出那种反正说都说了胆子都大了,同时声音也变大了。

在第二句话的时候画面的变化也在同步发生,眼神明显坚定了很多。

案例 7

测试一下在 2D 风格化画风下的唇形同步以及面部情绪表现。

没想到在侧脸加 2D 的情况下模型的唇形同步、表情以及情绪变化还能表现的这么好,而且也没有出现向3D 转换的倾向相当稳定。

最后的啜泣声音与说话的声音融合的也非常好,碰到机器人的时候也有跟金属碰撞的声音,细节表现相当不错了。

这次更新的模型对于复杂运镜控制的表现也好了很多,可能你通过前面的一些案例也可以看出来,我们再来点难得。

案例 8

首先是一个大家熟知的高级运镜技巧希区柯克变焦。

我们这里搞的非常的离谱了,一个连续 12 秒而且速度非常快的希区柯克变焦,现实还是很难搞的,没想到它居然搞定了。

人物的表情也会有微妙的变化,同时音效也会跟随变焦的速度与主角呼吸的节奏变化,对于人物紧张的情绪渲染的异常的到位。

案例 9

这是一个长镜头测试,对于每个区域的规定也很详细。

可以看到每个部分中提示词要求的内容都有呈现,同时在人物遮挡前和遮挡后都保持了很好的一致性。

运镜部分非常稳定,而且在比较难得转弯部分以及最后人物停止之后擦汗的部分都严格遵循了提示词的要求,尤其最后镜头变焦到人脸的时候相当顺滑。

今天,火山引擎正式发布豆包视频生成模型Seedance 1.5 pro,即日起,个人用户可在即梦AI、豆包APP、火山方舟体验中心体验;企业用户自12月23日起可在火山引擎使用该模型API。
01:48
36
歸藏
4天前
Open AI ChatGPT 左侧导航添加了“应用”选项

进去以后可以看到现在 GPT 已经连接的所有应用,AI 领域的 App Store 逐渐成型

今天他们也开放了应用连接到 ChatGPT 的申请,创业公司感觉可以冲一波,GPT 本身流量还是很大的

这里申请:openai.com/index/developers-can-now-submit-apps-to-chatgpt/
13
歸藏
4天前
注意⚠️:

随着 Gemini 3 Flash 的上线 Gemini APP 的模型选择发生变化

快速是不带思考的 Gemini 3 Flash 模型
思考时带思考的 Gemini 3 Flash 模型
只有 Pro 才是带思考的 Gemini 3 Pro 模型
71