即刻App年轻人的同好社区
下载
App内打开
歸藏
564关注25k被关注50夸夸
产品设计师、模型设计师、 不会代码的独立开发者。
关注人工智能、LLM 、 Stable Diffusion 和设计。
歸藏
12:01
王炸!千问接入阿里全生态,能订机票点外卖

千问今天的发布会真的整了个大的。全面接入了阿里系所有的生活服务生态业务,比如淘宝闪购、飞猪、淘宝、支付宝等。

你可以在千问这个入口,让 AI 自动帮你完成所有在阿里系可以完成的事情,比如点外卖、订机票。

比如你可以让他帮你推荐成套的淘宝商品或者进行比价,尤其是我这个直男在挑礼物的时候真的很痛苦,你完全可以跟他说送礼对象的信息,让他帮你选一下礼物。

当然也可以帮你快速点淘宝闪购的外卖,直接跟他说就行,尤其是需要点很多人的东西或者你有精准的目的,可以完全跳过 UI 层的交互直接在千问 APP 内完成下单,我这里让他帮我点了一下明天的早餐,选的还行。

也可以调用高德和飞猪的服务帮你进行行程规划和订票,从路线到旅游服务一步到位,完全不需要跳转其他 APP。

当然这次还增加了任务助理功能,可以帮你调研信息、写文档、做报表、写网页。比如我让他调研了中国AI 漫剧行业出个报告,他直接给了网页、PDF 文档,甚至给了详细数据的表格,这三份内容还不是都是一样的,专门为内容载体做了优化,当然做 PPT 也没问题。

神奇的是,还有一个 AI 打电话的能力,可以帮你店电话到餐厅预定座位。

这次千问真是做到了人无我有,毕竟阿里这十几年建立的商业帝国是最强大的壁垒,医疗、政务、购物、旅游、外卖,基本上覆盖了生活需要的所有场景。

而且他们真的狠,全部接入千问之后,用户真的不需要浏览原来复杂的交互,直接剔除需求就可以了。

相信很多朋友刚接触 AI 的时候都想过这种在一个 AI 应用里享受日常所有的服务,没想到这么快就实现了。

而且随着用户不断的使用千问执行各种任务和享受服务,AI 也会越来越了解用户,真正建立数据飞轮。

目前这些服务已经上线,可以点千问 APP 的“办事”入口体验。
1832
歸藏
11:52
最近开源的两个项目一个快 700 Star,一个快 500 Star

分别是藏师傅提示词库和 PPT 生成 Skills

在之前很难想象开发和发布会这么轻松和简单

尤其 PPT 生成 Skills 这个,震撼我的不是 Claude Code 可以写好代码和逻辑,而是他写的各种文档详细且排版优美,我可以跟着文档了解和学习整个项目
012
歸藏
11:29
Claude Code 发布了两个不错的更新

MCP 工具搜索以及接受或者拒绝提示的时候 Tab 键补充信息

MCP 工具搜索这个很好,以前如果你在 Claude Code 里面安装了大量 MCP ,在检索工具的时候就会占用你大量的上下文。

MCP 工具搜索加入之后,工具会动态的加载到上下文里面。

如果你有一个 MCP 服务创建者的话需要重点关注 "server instructions” 这个参数,不然有可能没办法正常拉起 MCP。

接受或者拒绝提示的时候 Tab 键补充信息,这个太有用了。

每次他对了一部分错了一部分的时候我都会很纠结,不知道该同意还是拒绝这次操作,现在完全可以补充信息。
00
歸藏
11:02
Open AI 宫斗还在继续啊

Thinking Machines CEO 也就是前 Open AI CTO Mira 突然宣布解雇了他们公司的 CTO Barret Zoph

原因是 Barret Zoph 有不道德的行为,有人说是他给竞争对手泄露了机密信息。

结果 Barret Zoph 扭头宣布自己回到 Open AI 上班了,而且还带了两个其他的研究员 Luke Metz Sam Schoenholz 回来

Sam 开始挖之前从 Open AI 离职的人了,不知道这一进一出有涨了多少工资
01
歸藏
2天前
谷歌 Veo 3.1 昨晚这个更新牛皮啊

新的多图参考和 4K 超分,直接把可用性拉满了

多图参考(Ingredients to Video)中人物和物品一致性大幅增强,支持输出竖版视频,也能融合纹理、角色和物品。

视频分辨率也有变化,现在官方支持更好的 1080P 4K 超分服务。

目前 FLOW 上就可以使用,选择“素材生视频”就可以,只支持 Veo 3.1-Fast 模型。
00:08
04
歸藏
2天前
Pixverse 发布 R1 实时视频世界模型

藏师傅也试了一下

前几天测试的 Pixverse R1 终于发布了,这是一个可以实时生成并且可以随时通过提示词介入修改后续内容的世界模型。

极限情况下可以实时生成 1080P 的高清视频,感觉成本再下来一点以后 AI 游戏和交互式的影视内容有戏了啊。

------

简单介绍一下使用体验,目前他们在一个单独的平台测试需要邀请码。

你可以选择预制的的三个主题进行体验,三个主题分别是巨龙巢穴、二战主题、海底世界,正式版本会增加到 6 个。

也可以创建自己的主题,选择画面比例、风格输入主题相关提示词就可以了。

生成之后主要的互动就是在他播放的过程中输入提示词来改变当前视频生成的剧情走向。

而且这里生成的视频居然还是带音乐、音效混合旁白的,比以前所谓的实时生成的模型强了不少。

------

算法和架构上主要的优化有:

这是个原生的多模态模型支持将文本、图像、视频、音频统一为连续的 Token 流,接受任何模态的输入。

PixVerse-R1 改成了非扩散的自回归架构,用来实现无限连续的生成,还使用了增加注意力机制,确保长时间生成的内容一致性。

为了适配实时视频生成的性能,他们将原来的迭代降噪逻辑进行了多项优化,他们叫瞬时响应引擎 (IRE),主要包括三个优化:

Temporal Trajectory Folding:传统模型从噪点到清晰图像需要迭代几十步,他们直接暴力压缩到仅需 1–4 步。

Guidance Rectification:直接将传统的 CFG 逻辑蒸馏到了模型参数内部,节省了时间。

Adaptive Sparse Attention:生成高分辨率的视频的时候让模型学会学会“抓大放小”,自动识别重要区域进行精细计算,大幅降低计算负载。

-------

目前由于成本问题需要邀请码才能测试,生成的分辨率是 480P,过几天会提高到 720P。
00:29
20
歸藏
2天前
Antigravity 开始支持 Skills 了,这下要爆发了

他们文档写的不好,我摸索了一下怎么用,这里分享一下

------

Antigravity 支持两种类型的 Skills,Workspace 和全局。

具体的使用和创建方式就是将你的 Skills 文件夹移动到两个不同的文件位置。

Workspace Skills 需要在你当前打开的项目文件夹下,

<workspace-root>/.agent/skills/<skill-folder>/

比如我我的项目文件叫 Prompt 那他就在这个位置

/Users/guohao/Documents/Text content/Prompt/.agent/skills

全局的 Skills 需要放在 Antigravity 的安装文件夹下面,

~/.gemini/antigravity/skills/<skill-folder>/

比如我自己电脑的话他应该在这里:

/Users/guohao/.gemini/antigravity/skills/

Mac 下打开具体文件夹的方法是:点击访达,在桌面最上面的 Tab 栏找到前往,输入对应的路径。

当你把 Skill 放进去以后,Antigravity Agent 就可以看到你的 Skills 列表,然后如果你的对话内容看起来跟某个 Skills 相关,他就会读取这个 Skills. md 的内容并执行。

比如你用我写的 PPT 生成 Skills 的话就是,帮我基于 XXX 文档创建一个 PPT。
817
歸藏
2天前
很多朋友问我,前几天展示那个可以生成带动效的 PPT 的 skill 是怎么做和怎么用的

​写了一篇内容,再介绍一下:mp.weixin.qq.com

项目也已经开源:github.com

这里先简单介绍一下如何使用

当然你也可以看我项目的 README 文件,或者公众号的内容。

在安装前我们需要简单做一些准备,准备一可灵和谷歌的 API。

首先就是谷歌的 API,主要用于使用 NanoBanana Pro 模型生成图片。
可以去 AI Studio 获取,这里你的 API 需要开启付费,免费的无法调用 Nano Banana Pro 模型。

然后是可灵的 API 这里主要用于给 PPT 生成转场动画视频,我用的国内的版本。
建议先用那个 69 块钱的体验包,这个并发只有 3 我已经在代码里面做了处理。

然后我们就可以获取到需要的可灵 API 了。这里创建的时候会产生两个 Key 我们都需要。

------

安装方式也很简单,如果你已经装了 ClaudeCode 或者 OpenCode 这类支持 Skills 的 CLI 的话,直接把下面提示词发给他们就行。

这里需要注意的是你需要将提示词中的三个 API Key 改为你自己的,刚才我们都已经获取到了。

安装的时候建议开启 Plan 模式,这样出问题的几率会小点,同时如果安装过程中,出问题就让他自己修复就好。
Plan 的开启方式是按两次 Shift+ Tab 键。

------

安装完成之后我们就可以使用了,首先需要将你想要生成 PPT 的文档放到一个文件夹里面去,当然你也可以没有文档先让他调用搜索工具帮你写一个。

然后在这个文件夹里面启动 Claude Code 。

这里顺便推荐我的另一个开源项目 Claude-Start,可以快速切换 Claude Code 的模型提供商,方便你快速更换模型,实现多个 Claude Code 窗口用不同的模型启动。

启动了 Claude Code 之后我们就可以直接跟他说了,简单来说就是“调用 Skills 将当前文件夹下的 XXX 文档生成 PPT”。

Skills 启动之后就会有一系列的选项让你选择,比如你要生成几页的 PPT、只生成图片还是要带动效视频、图片分辨率是多少,通过键盘的方向键正常选择就可以,之后就是一路回车等待就可以了,全程不需要交互。

生成之后他会自动保存所有的 PPT 图片并且给你一个用来演示 PPT 的网页,你可以通过键盘在浏览器控制 PPT 的播放。
124
歸藏
3天前
搞基建这块,老马确实是牛逼

真是把给特斯拉造厂房的经验,都拿来造数据中心了

它的「大又硬」(MACROHARD)数据中心现在安装了来自特斯拉的 Megapack 电池系统,用来作为备用电源并平衡电力负载。

目前运行着130台风冷机组,相当于200兆瓦的制冷能力。同时还新建了135台相同的水冷冷却塔,制冷能力建成以后会拉到400兆瓦。

再配合上前几天从韩国买的5台天然气驱动的发电轮机,完全自给自足了
40
歸藏
3天前
离谱的是,Claude Code 的创造者说,Cowork 这个部分的代码全部都是 Claude Code 写的!

我们已经进入到 AI 自己指挥自己、自己创造自己的时代了
611