即刻App年轻人的同好社区
下载
App内打开
歸藏
563关注24k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
1天前
藏师傅字节 Seedance 1.5 Pro 视频模型首测!

这次支持了音画同出,更惊喜的是还支持方言生成,同时表演中的情绪表达和复杂运镜也都有非常大的进步

可以去火山引擎、豆包和即梦尝试,先看一下藏师傅的测试视频混剪

下面是具体的测试点评,提示词可以去长文看:mp.weixin.qq.com

案例 1

首先我找了一个可能没那么方言的方言陕西话,很多人说普通话的人可能听得懂,但又有一些读音很独特的词。

这种一般是比较难的,因为素材跟普通话太接近了,而且很多词不好标注,只有真的下功夫才能搞好。

同时场景选了我每天看的陕西面食吃播场景,文生视频,看一下整个画面和音频的融合程度,吃东西的时候也会影响说话,可以考验模型对于场景的判断。

结果相当惊喜,“聊咋咧”和“美滴很”这两个比较难的词都说出来了,而且音调也确实是陕西话的音调。意外的是提示词遵循比较好,知道先说一句然后喝饮料再说一句。

案例 2

然后是四川方言,我选了一个非常有挑战性的场景,在提示词里面加入了三个年龄不同、性别不同、打扮相差也很大的角色,说着不同的话。

这个提示词说实话难度有点大了,但 Seedance 1.5 Pro 确实给了我很大的惊喜,每次抽卡都能比较好的遵循提示词完成任务。

每个人都在用自己角色应该有的音色和音调在说话,而且不会串,“巴适得板”这种四川话独有的词也说的不错。

我是没有指定镜头运动方式的,它自己会将镜头通过类似摇臂旋转的方式对准正在说话的人,而且还有一点类似手持设备的晃动,镜头为止也在麻将桌没有露面的那个角色那里,看起来就像那个人手持拍摄一样。

案例 3

最后是粤语,这里也选了一个相当有市井生活气息的餐馆场景,依然文生视频。

生成出来的时候这个运镜真的顶,直接非常顺滑的从服务员的背面切换到正面,而且说话的时候很自然的打到男生的脸上。

提示词遵循也非常好,每个提示词中的细节都兼顾到了,还有所有动作台词的时间顺序。

对话里面以我这个不太懂粤语的人听,还挺是那个味的,粤语特有的发音也都可以说,也欢迎“粤语警察”提意见。

现在各种 AI 影视爆款里面涉及到音画同出的除了各种真实人像之外,宠物 AI 视频的流量也占了半壁江山,所以这里也需要考察一下宠物的声音和唇形同步。

案例 4

首先是小猫吃播,吃播对于音效和表情要求很高,吃东西必须得是跟视频材质相同的视频,这里小猫吃煎饺咔滋咔滋的声音就让人听的非常有食欲。

而且猫咪在咀嚼的时候很好的表现了出了非常拟人的为食物陶醉的表情,但是有没有恐怖谷的问题,相当不错。

案例 5

这里让猫咪说人话,除了嘴型以外还有解刨结构的考验,很多视频动物说人话的时候嘴里的舌头和牙齿就会变得像人,这里 Seedance 1.5 Pro 就很好。

模型输出的也是类似孩子的声音,最后我们还用...来表示说话的节奏和表现困意,生成的时候也按照对应的节奏放慢了说话速度。

案例 6

既然说到了音画同出的能力,那么模型的表演能力和情绪表现也是非常重要的部分,很多时候情绪或者表演能力跟音频的关系相当大,只有画面的时候表现力是不够的。

这里主要表现的是恐惧压抑和恳求的复杂情绪,眼睛这里很传神,将恐惧害怕同时又由于的情绪表现的很好。

第一句话的时候先是声音很低的,这个时候仿佛还没有下定决心,等到第二句话的时候就表现出那种反正说都说了胆子都大了,同时声音也变大了。

在第二句话的时候画面的变化也在同步发生,眼神明显坚定了很多。

案例 7

测试一下在 2D 风格化画风下的唇形同步以及面部情绪表现。

没想到在侧脸加 2D 的情况下模型的唇形同步、表情以及情绪变化还能表现的这么好,而且也没有出现向3D 转换的倾向相当稳定。

最后的啜泣声音与说话的声音融合的也非常好,碰到机器人的时候也有跟金属碰撞的声音,细节表现相当不错了。

这次更新的模型对于复杂运镜控制的表现也好了很多,可能你通过前面的一些案例也可以看出来,我们再来点难得。

案例 8

首先是一个大家熟知的高级运镜技巧希区柯克变焦。

我们这里搞的非常的离谱了,一个连续 12 秒而且速度非常快的希区柯克变焦,现实还是很难搞的,没想到它居然搞定了。

人物的表情也会有微妙的变化,同时音效也会跟随变焦的速度与主角呼吸的节奏变化,对于人物紧张的情绪渲染的异常的到位。

案例 9

这是一个长镜头测试,对于每个区域的规定也很详细。

可以看到每个部分中提示词要求的内容都有呈现,同时在人物遮挡前和遮挡后都保持了很好的一致性。

运镜部分非常稳定,而且在比较难得转弯部分以及最后人物停止之后擦汗的部分都严格遵循了提示词的要求,尤其最后镜头变焦到人脸的时候相当顺滑。

今天,火山引擎正式发布豆包视频生成模型Seedance 1.5 pro,即日起,个人用户可在即梦AI、豆包APP、火山方舟体验中心体验;企业用户自12月23日起可在火山引擎使用该模型API。
01:48
35
歸藏
1天前
Open AI ChatGPT 左侧导航添加了“应用”选项

进去以后可以看到现在 GPT 已经连接的所有应用,AI 领域的 App Store 逐渐成型

今天他们也开放了应用连接到 ChatGPT 的申请,创业公司感觉可以冲一波,GPT 本身流量还是很大的

这里申请:openai.com/index/developers-can-now-submit-apps-to-chatgpt/
13
歸藏
1天前
注意⚠️:

随着 Gemini 3 Flash 的上线 Gemini APP 的模型选择发生变化

快速是不带思考的 Gemini 3 Flash 模型
思考时带思考的 Gemini 3 Flash 模型
只有 Pro 才是带思考的 Gemini 3 Pro 模型
70
歸藏
1天前
不知道谷歌咋优化的,

Gemini 3 Flash b 模型在swe-bench verified arc-agi-2 两个测试集的成绩居然超过了 Gemini 3 Pro
41
歸藏
1天前
来了!谷歌发布 Gemini 3 Flash 模型

相较于 Gemini 2.5 Flash 稍微涨价,但是在几乎所有基准上都超过了 Gemini 2.5 Pro 的的分,速度提升 3

推理效率也很高,完成日常任务时,平均使用的 token 2.5 Pro 30%。

多模态推理能力和代码能力依然相当强悍

已在谷歌全平台上线
21
歸藏
2天前
看着各家都开始发力了,腾讯坐不住了

开始了新的 AI 组织架构升级,姚顺雨担任 AI Infra 部、负责人。

TEG新成立「AI Infra部」、「数据计算平台部」,「数据平台部」更名为「AI Data部」,撤销「机器学习平台部」。

在人事方面,「AI Infra部」负责人应该就是就是95后的姚顺雨。

姚顺雨任职首席AI科学家,向刘炽平汇报;同时兼任大模型部负责人和AI infra部负责人,直接向庐山(TEG负责人、集团SVP)汇报。
73
歸藏
2天前
试了一下飞书升级的 aily 工作助手,非常强!

它甚至能实现帮你定时地从你整个企业的文档中总结、提炼信息,搜索补充之后生成网页。同时在网页里还有播客,这个一句话就能搞定,太牛了!

企业在飞书积累的的上下文终于可以释放出他的巨大价值。

介绍一下具体的能力:

它可以快速帮你整理和总结各种文件(飞书的文档、表格、会议纪要等)。

另外,它还具有信息搜索能力,可以从外部搜索知识,对你的文档和信息进行补充。

它还可以帮你撰写各种报告、活动策划和宣传文案。同时,这些内容会自动帮你创建成飞书云文档。

这个功能非常方便,尤其是对于一些用飞书的工作人员来说,不用自己来回复制查找,只需要在云文档里进行编辑。这是一个把文档变成了和AI共创的过程。

另外,它支持生成图片、海报、播客、网页等各种你能想到的模态内容。

比如我这里让它检索我飞书文档中所有涉及到Nano Banana Pro的图像提示词,他很快就搜索出来了。

我让他为我这些图像提示词和图像做一个网页,展示这些提示词。我都没想到他能完成,真的,结果非常完美。

我一直想整理我的这些提示词,现在一句话就搞定了。

然后我想试一下更复杂的。我找了一个飞书云文档中的一个文档,让它把这个文档变成网页。同时网页里面需要嵌入一个播客来讲解这个产品,一句话就搞定了,没有修改。

更重要的是,它用豆包生成了网页中的产品介绍图片和海报,然后把这些图片嵌入到了网页里,直接帮你把网页素材生成了出来。而这个我是没有要求的,它自己处理的。

另外,它也支持定时任务。你完全可以将你每天必须要做,或者每周必须要做的一些调研任务、内容生产任务,全部都让它在你规定的时间前处理好,然后同步给你的飞书。

最后,你想说有些数据不在飞书里,我们企业的数据在其他系己里面应该怎么办?他们支持自定义MCP工具,你可以通过这个 MCP 直接把企业内部的一些数据也同步给 aily。

提示一下:aily检索企业内知识,仅支持企业账号。个人版本暂不支持搜索,但是可以发给aily特定文档进行处理。
211
歸藏
2天前
Deepseek 离职之后加入小米的罗福莉也注册了推特,看来新模型是她主导的

介绍了一下昨晚小米发布的 MiMo‑V2‑Flash 模型技术细节

架构:采用 Hybrid SWA(混合可加权注意力)。在长上下文推理上优于其他线性注意力方案,且固定 KV cache 更适配当前基础设施。窗口大小以 128 最佳;512 反而降性能;“sink values”必须保留,不能省略。

MTP(多 token 预测):对高效 RL 很关键。除首层外只需很少微调即可拿到较高 accept length。3 MTP在编码任务上实现 >3 accept length 和约 2.5×速度提升,能解决小批量 On‑Policy RL 长尾样本导致的 GPU 空闲问题。本次因时间未并入 RL 回路,但非常契合;3 MTP已开源,便于社区开发。

MOPD 后训练:采用 Thinking Machine On‑Policy Distillation,将多个 RL 模型融合,效率收益显著。相较标准 SFT+RL 流程,计算量降到不足 1/50 仍可匹配教师模型表现,并显露出“学生自我强化为更强教师”的演进路径。

强调务实工程与产线友好。Hybrid SWA + 固定 KV cache 提高长上下文与部署效率;MTP 带来训练/推理并行收益;MOPD 以极低算力复刻/融合 RL 能力。
15
歸藏
2天前
最近各种哈基米风格重新演绎经典小说和影视剧的内容爆火。刷到好多几十万赞的视频。

我抽象了一下他们的创作方式,然后整理成了 Medeo 的提示词

这个目前非常容易起号,建议有想法的可以赶紧行动一波

这里用哈基米风格重新演绎诡秘之主里克莱恩第一卷的蜕变过程

具体方式就是把几个知名的Meme形象(dora、耄耋、奶龙....)图片和提示词一起放到Medeo里面。

Medeo 哈基米 Meme 风格小说、影视剧、真实事件讲解视频提示词:

请启动全流程视频创作模式,基于我提供的经典影视剧或小说《诡秘之主》的剧情逻辑和关键的一段剧情,制作一段风格独特的第三方叙事视频,先检索或者在知识库中查找这个小说或者影视剧的经典桥段或者世界观。

首先,请深入分析我上传的参考图片中的角色形象(例如耄耋、企鹅、奶龙、噜噜等),提取它们的生物特征与神态,生成图片的时候,务必要保证它们的(面部和身体)露出服装外面的部分要与原图完全一致,用Gemini生成图片的时候,不要把名字写到提示词里,就只说根据我上传的参考图生成什么什么图片就行,防止名称误导模型并利用你的知识库检索原著作品中主角与反派的经典造型。你需要将这些萌宠角色无缝代入原著角色的身份,要求它们身着原著中极具辨识度的古装、战甲或现代戏服,衣物材质要有布料或金属的真实纹理,只有头部或者漏出的身体采用 Meme 的形象,服装还是原著的服装。但身体比例和脸部特征保持原有的萌系或滑稽感,形成一种强烈的反差萌。

画面风格方面,采用水墨风格迪士尼皮克斯风格的2.5D高品质渲染。需要使用 Gemini 生成图片,角色装扮需要符合原著,光影要明亮且富有通透感,使用次表面散射(SSS)技术表现角色皮肤或毛发的细腻质感,背景采用微缩景观般的精致建模,色彩饱和度适中,营造出一种像是置身于高昂动画电影中的视觉体验。

剧情构建与分镜生成上,根据我提供的剧情内容,务必保证叙事的完整,不要偷懒节省图片和镜头,镜头语言要流畅,多使用缓慢的推拉镜头来强调情绪的转变,必须以耄耋这只猫咪为主角,其他群众也是猫咪的样子,主要配角选择“奶龙”、“噜噜”或者“企鹅”。

最后,也是最关键的,请生成一段第三人称的旁白口播文案,并配上深沉但略带反差的纪录片式男声。文案必须严格遵守以下“哈气和哈基米”的语言体系:将所有人类种族或家族称为“某某咪”(如萧咪、纳兰咪);将所有的攻击、斗气、内力或魔法或者权谋斗争统一称为“哈气”;在描述剧情的关键道具的时候,在道具名称后加上“南北绿豆”这个词作为完整的道具名称;将原本严肃的修炼等级或地位描述得像是在几个 Meme 打架。旁白语调要一本正经地胡说八道,配合画面中萌宠们严肃又滑稽的表演,完成对原著经典桥段的解构与重塑。

具体的文章内容为: XXXXX
01:30
313
歸藏
3天前
OpenAI 有可能今晚发布新的图像模型

他们发了一张新图像模型生成的 Sam 的照片

图片领域卷起来了啊
20