即刻App年轻人的同好社区
下载
App内打开
歸藏
563关注24k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
1天前
太猛了!谷歌 Gemini 直接塞了一个N8N 进去

把 Opal 塞到了 Gem 功能里面,自然语言创建工作流

​人人都可以创建自己的带界面的AI应用了,还能分享给其他Gemini用户使用,不消耗你的额度

用这个把我的屏幕使用时间提示词可视化变成了网页。一键生成海报、文本和播客

顺便写个教程,由于篇幅所限,这里就只写基础的,关于Opal那部分,进里面看吧:mp.weixin.qq.com

首先是入口,在侧边栏这里找到“探索Gem”这个选项进去就行。

进去之后你就看到除了之前的 Gem 界面和设置之外,上面出现了一个全新 Gem 的实验。

点击这个“New Gem”就可以进入到新的 Gem 的创建界面。

进入到创建页面之后很简单的一个输入框,你直接告诉他想要做什么就可以。

回车之后就会开始构建 Gem 应用,右侧会有进度一般很快就能搞定,你就可以在右侧测试刚刚生成的 Gem 。

新的 Gem 支持的格式非常丰富,包括我们常见文件、youtube视频、甚至还可以录制网页操作视频和涂鸦。

上传了自己的训练数据上去测试,结果相当的详细,上面是数据看板,中间是各种表格,最下方是对我的训练建议。

但这里全是英文,我们还是需要修改一下,简单的修改直接在左侧说提示词就可以。

修改之后分析结果就全部变成中文了,而且分析的数据相当详细。

上面是整体的训练分析,中间是各个部位的数据,接下来是进步的和退步的训练,最后是个性化数据分析和建议。

当然你肯定这时候对于结果是有些不满意的,比如网页没有图片全是字,你觉得左边通过提示词进行修改太烦了。

这时候我们就可以点击右上角那个“Open Advanced Editor”去到真正的 Opal 界面进行编辑。
716
歸藏
1天前
牛皮,FLow 里面真的可以选择 Nano Banana Pro 4K 2K 分辨率图片下载了

Ultra 的价值再次提高!我终于不需要在 AI Studio 里面掏两分钱了。

还可以直接将 Nano Banana Pro 生成的图片用 Veo 3.1 变成视频,闭环了
02
歸藏
1天前
Claude Chrome 插件现在向所有的 Cluade 付费用户开放了

侧边栏常驻、支持多标签与现有登录书签协作,帮你操作浏览器中的网页执行任务

而且支持 Claude Code 调用,在浏览器内直接运行与测试代码、读取控制台日志与客户端错误。
这里必须要有 Claude 付费,不能用 API
01:20
58
歸藏
1天前
今年 b 站的观看时长明显变短了不少,明明感觉时间更自由了,但娱乐时间变少了
00
歸藏
2天前
藏师傅字节 Seedance 1.5 Pro 视频模型首测!

这次支持了音画同出,更惊喜的是还支持方言生成,同时表演中的情绪表达和复杂运镜也都有非常大的进步

可以去火山引擎、豆包和即梦尝试,先看一下藏师傅的测试视频混剪

下面是具体的测试点评,提示词可以去长文看:mp.weixin.qq.com

案例 1

首先我找了一个可能没那么方言的方言陕西话,很多人说普通话的人可能听得懂,但又有一些读音很独特的词。

这种一般是比较难的,因为素材跟普通话太接近了,而且很多词不好标注,只有真的下功夫才能搞好。

同时场景选了我每天看的陕西面食吃播场景,文生视频,看一下整个画面和音频的融合程度,吃东西的时候也会影响说话,可以考验模型对于场景的判断。

结果相当惊喜,“聊咋咧”和“美滴很”这两个比较难的词都说出来了,而且音调也确实是陕西话的音调。意外的是提示词遵循比较好,知道先说一句然后喝饮料再说一句。

案例 2

然后是四川方言,我选了一个非常有挑战性的场景,在提示词里面加入了三个年龄不同、性别不同、打扮相差也很大的角色,说着不同的话。

这个提示词说实话难度有点大了,但 Seedance 1.5 Pro 确实给了我很大的惊喜,每次抽卡都能比较好的遵循提示词完成任务。

每个人都在用自己角色应该有的音色和音调在说话,而且不会串,“巴适得板”这种四川话独有的词也说的不错。

我是没有指定镜头运动方式的,它自己会将镜头通过类似摇臂旋转的方式对准正在说话的人,而且还有一点类似手持设备的晃动,镜头为止也在麻将桌没有露面的那个角色那里,看起来就像那个人手持拍摄一样。

案例 3

最后是粤语,这里也选了一个相当有市井生活气息的餐馆场景,依然文生视频。

生成出来的时候这个运镜真的顶,直接非常顺滑的从服务员的背面切换到正面,而且说话的时候很自然的打到男生的脸上。

提示词遵循也非常好,每个提示词中的细节都兼顾到了,还有所有动作台词的时间顺序。

对话里面以我这个不太懂粤语的人听,还挺是那个味的,粤语特有的发音也都可以说,也欢迎“粤语警察”提意见。

现在各种 AI 影视爆款里面涉及到音画同出的除了各种真实人像之外,宠物 AI 视频的流量也占了半壁江山,所以这里也需要考察一下宠物的声音和唇形同步。

案例 4

首先是小猫吃播,吃播对于音效和表情要求很高,吃东西必须得是跟视频材质相同的视频,这里小猫吃煎饺咔滋咔滋的声音就让人听的非常有食欲。

而且猫咪在咀嚼的时候很好的表现了出了非常拟人的为食物陶醉的表情,但是有没有恐怖谷的问题,相当不错。

案例 5

这里让猫咪说人话,除了嘴型以外还有解刨结构的考验,很多视频动物说人话的时候嘴里的舌头和牙齿就会变得像人,这里 Seedance 1.5 Pro 就很好。

模型输出的也是类似孩子的声音,最后我们还用...来表示说话的节奏和表现困意,生成的时候也按照对应的节奏放慢了说话速度。

案例 6

既然说到了音画同出的能力,那么模型的表演能力和情绪表现也是非常重要的部分,很多时候情绪或者表演能力跟音频的关系相当大,只有画面的时候表现力是不够的。

这里主要表现的是恐惧压抑和恳求的复杂情绪,眼睛这里很传神,将恐惧害怕同时又由于的情绪表现的很好。

第一句话的时候先是声音很低的,这个时候仿佛还没有下定决心,等到第二句话的时候就表现出那种反正说都说了胆子都大了,同时声音也变大了。

在第二句话的时候画面的变化也在同步发生,眼神明显坚定了很多。

案例 7

测试一下在 2D 风格化画风下的唇形同步以及面部情绪表现。

没想到在侧脸加 2D 的情况下模型的唇形同步、表情以及情绪变化还能表现的这么好,而且也没有出现向3D 转换的倾向相当稳定。

最后的啜泣声音与说话的声音融合的也非常好,碰到机器人的时候也有跟金属碰撞的声音,细节表现相当不错了。

这次更新的模型对于复杂运镜控制的表现也好了很多,可能你通过前面的一些案例也可以看出来,我们再来点难得。

案例 8

首先是一个大家熟知的高级运镜技巧希区柯克变焦。

我们这里搞的非常的离谱了,一个连续 12 秒而且速度非常快的希区柯克变焦,现实还是很难搞的,没想到它居然搞定了。

人物的表情也会有微妙的变化,同时音效也会跟随变焦的速度与主角呼吸的节奏变化,对于人物紧张的情绪渲染的异常的到位。

案例 9

这是一个长镜头测试,对于每个区域的规定也很详细。

可以看到每个部分中提示词要求的内容都有呈现,同时在人物遮挡前和遮挡后都保持了很好的一致性。

运镜部分非常稳定,而且在比较难得转弯部分以及最后人物停止之后擦汗的部分都严格遵循了提示词的要求,尤其最后镜头变焦到人脸的时候相当顺滑。

今天,火山引擎正式发布豆包视频生成模型Seedance 1.5 pro,即日起,个人用户可在即梦AI、豆包APP、火山方舟体验中心体验;企业用户自12月23日起可在火山引擎使用该模型API。
01:48
36
歸藏
2天前
Open AI ChatGPT 左侧导航添加了“应用”选项

进去以后可以看到现在 GPT 已经连接的所有应用,AI 领域的 App Store 逐渐成型

今天他们也开放了应用连接到 ChatGPT 的申请,创业公司感觉可以冲一波,GPT 本身流量还是很大的

这里申请:openai.com/index/developers-can-now-submit-apps-to-chatgpt/
13
歸藏
2天前
注意⚠️:

随着 Gemini 3 Flash 的上线 Gemini APP 的模型选择发生变化

快速是不带思考的 Gemini 3 Flash 模型
思考时带思考的 Gemini 3 Flash 模型
只有 Pro 才是带思考的 Gemini 3 Pro 模型
71
歸藏
3天前
不知道谷歌咋优化的,

Gemini 3 Flash b 模型在swe-bench verified arc-agi-2 两个测试集的成绩居然超过了 Gemini 3 Pro
41
歸藏
3天前
来了!谷歌发布 Gemini 3 Flash 模型

相较于 Gemini 2.5 Flash 稍微涨价,但是在几乎所有基准上都超过了 Gemini 2.5 Pro 的的分,速度提升 3

推理效率也很高,完成日常任务时,平均使用的 token 2.5 Pro 30%。

多模态推理能力和代码能力依然相当强悍

已在谷歌全平台上线
21
歸藏
3天前
看着各家都开始发力了,腾讯坐不住了

开始了新的 AI 组织架构升级,姚顺雨担任 AI Infra 部、负责人。

TEG新成立「AI Infra部」、「数据计算平台部」,「数据平台部」更名为「AI Data部」,撤销「机器学习平台部」。

在人事方面,「AI Infra部」负责人应该就是就是95后的姚顺雨。

姚顺雨任职首席AI科学家,向刘炽平汇报;同时兼任大模型部负责人和AI infra部负责人,直接向庐山(TEG负责人、集团SVP)汇报。
73