即刻App年轻人的同好社区
下载
App内打开
殷悦Melody
150关注4k被关注10夸夸
研究 AI 中 | 🥽 做过 XR OS|🎮给无人机做过游戏关卡|🪞给健身镜做新手引导|🖥 给TV做过手势控制|🧩视频是迷你传记
殷悦Melody
12天前
真正的 MI Girl 😎
60
殷悦Melody
14天前
在B站上认识了一个前司同事,今年转行做了国际学校的数学老师,就聊起当老师的感受如何。

她说当老师后最让她触动的一个瞬间是:有一次下课以后,有一个女生跑过来问:“老师,你最喜欢的颜色是不是绿色?因为你的手机壳、水杯和羽绒服都是绿色。”

她说上班的两年时间中,从来没有人关心过她最喜欢的颜色是什么。
20
殷悦Melody
22天前
搜索的本质在于压缩,从海量文本里提炼见解 The essence of search is compression: distilling insights from a vast corpus. —— Anthropic blog 《How we built our multi-agent research system》
10
殷悦Melody
1月前
豆包 PC 端的实时双语字幕功能已经全量了,用的是豆包·同声传译模型,日常看视频遇到机翻场景可以配合使用~
01
殷悦Melody
1月前
这算是一个好广告吗?一开始以为是索尼的,再看以为电商平台的,最后仔细一看是 AI 应用的 🥲
30
殷悦Melody
1月前
体验了一下 Google Meet 的英-西同声传译功能

1. 只要参会者有一个人是 Google AI Pro 会员,就可以给所有参会人开通这个功能,选择以后其他参会者会收到弹窗告知选择自己是否开通该功能
2. 克隆出的音色感觉并不是很像,但速度很快。从说话到听到翻译音频延迟大概 1-2
3. 偶尔会出现英翻西的时候没有出西语,直接复述了一遍英语
4. 用户投屏播英语或西语视频不会被翻译,只翻译麦克风音频
5. 会议录制的视频还是默认只录原声,不会把生成的翻译音频叠加上去
6. 如果说其他语种也会当成英语发音,因为没有任何逻辑,所以听到的西语效果类似于复读一遍这个句子
41
殷悦Melody
2月前
今天看了 veo3 的样片作品,还是能明显发现很多人物不一致的问题。

巧妙的是制作者用了一些方案来规避这些问题。比如用有代表性的红发特指主人公,比如用一个人不同的年龄阶段画面,比如用一些眼睛、手的特写镜头,比如加一些回忆,梦境的画面。

又去 Youtube 看了一些素人博主体验Google Flow,调了很多次都没调出自己想要的画面镜头。

所以有时候明确知道这个工具做不了什么,可能是最大的竞争力。
20
殷悦Melody
2月前
最近看到一篇 OpenAI MIT Media Lab 的联合论文,研究了 ChatGPT 对话和语音模式下情感研究。

研究基于 400 万次对话,4000 名用户调研,以及 28 天内 1000 名用户的随机对照实验来观察互动时用户的情感倾向。

论文使用了一种情感分类器对用户涉及孤独、脆弱、自尊、依赖进行分类,触发后会再用 20 个子分类器来提取更多的感情线索。

论文里一些有趣的数据:
1. 触发情感分类器占所有消息总数的比例不到 1%,但是其中有 1/10 的用户触发情感分类器的比例超过 50%,说明一小波用户在高频贡献情感对话(论文也提到这部分用户值得后续单独研究)

2. 语音模式对比 IM 消息对话触发情感分类器的概率是 3-10

3. ChatGPT 的高频用户(使用时长 Top 1/4),更频繁地使用高级语音模式和纯文本模型,同时也倾向于使用高级语音模式。这些用户某些子分类器的概率是对比用户的 2 倍以上,这部分用户的特点是日常社交程度更低,以及情感依赖高(总使用时长比其他任何因素都更能预测用户对该模型的情感投入)

4. 在对照实验里,语音模式对比文本对话在 28 天里都提升了用户的情绪健康;分配到语音模式用户占比最高的话题是「进行随意对话和闲聊」,而「基于事实查询」明显少于 IM 对话

5. 实验里有两个语音模型, Engaging Voice 模式相比 Neutral Voice 模式的区别是显著增加了助手的(而非用户的)情感化提示,但 28 天实验对比下来对用户的感情分类器触发概率影响并不显著
13
殷悦Melody
2月前
小米 Buds 5 Pro 经常遇到用着用着歌就停了,今天发现 app 里有个功能叫【佩戴检测】默认开启,这个算法在我佩戴时候以为耳机是摘了,所以给我把歌停了。

感觉这种默认开启的功能还是得谨慎再谨慎,用户还得自己找 bug。而且属于做好了用户没啥感知,做差了用户叫苦连篇的功能🥲
20
殷悦Melody
3月前