即刻App年轻人的同好社区
下载
App内打开
Figo.L
429关注634被关注1夸夸
🚀 AI应用创业,清华黑客松获奖开发者
💻 前初创公司产品负责人,前VC投资人
关注AI|XR,欢迎交流✨vx:Figo_High
Figo.L
6月前
清华黑客松第三名!周五参加声网大会时突然想到这个idea,周六中午开始开发,一天时间build一个多模态ios应用,队友起的“智图ai”这个名字我也很喜欢。

-初衷是参会时发现所有人都在举着手机拍ppt,突然想到我相册里有超过一半是ppt照片、但却几乎没有再看过。没有删掉、是因为觉得哪天会再看,没有再看、是因为查看相册的效率太低了。

-所以做一个图像理解将ppt照片里的信息结构化提取、便于查阅回顾、甚至再进一步进行知识管理,似乎是客观存在的刚需。

-今天中午开发完后,刚好@orange.ai 橘子老师来分享干货认知,于是就边听分享、边把ppt随手用app拍下来,然后自动提取信息、自动生成总结和思维导图,一切都是丝滑交互、几乎无感。

-橘子老师的分享非常棒、长达20来页,可称ai产品顶级认知。不过我只保留了其中5页分享给大家看,想听完整分享还是要去找橘子老师哈哈。

-有幸获得第三名,运气非常好!感谢主办方和评委,更感谢后端+prompt开发的队友、感谢产品建议+做ppt的队友!

-第一次参加黑客松,并且是以产品+前端开发的角色,也是更加意识到组建一支团队的意义。

这个产品方向确实挺有意思、并且还有一些新功能计划加上,虽然还没想好在做ai播客项目之余、如何推进这个项目,仍然诚邀对这个方向感兴趣的技术开发同学联系我、前端/后端/模型侧都可,也欢迎产品和市场(尤其出海)的同学联系我,大家一起开发出更多ai时代的好应用!
00:16
1428
Figo.L
7月前
我的AI播客产品Listener.ai,现在发布产品原型Demo,是一款ios端的应用。

产品特点:
-面向消费侧而非创作侧,采用移动端app是因为用户消费播客大多在通勤/家务/运动等场景,因此移动端更适合用户实际消费需求。

-可以直接通过公众号文章/B站视频/小宇宙播客的链接,一键生成AI播客,其中对音视频文件采用ASR转录为文字,因此对于没有字幕的音视频网站同样支持!

-支持结构化交互,可以通过点击文本直接跳转相关片段,解决了用户漏听、有选择地听、重复听等情况。

-提供了内容概要和查看原文的浏览窗口,便于用户边收听边了解内容概要、以及对感兴趣的细节查看原文/原音视频。

-创建新播客时,可以选择对话或单口两种模式。对话模式借鉴notebookLM的形式
,单口模式更关注内容细节(曾帮我有效刷掉了大量信息)。

-设计了知识库系统,可以对感兴趣的内容进行收藏添加进知识库,后期将支持更多样的知识管理功能(如结构化等)。

以上仅为已实现的AI播客基础功能,后续还有更多新颖的功能设计,甚至有望重塑当前产品形态的大版本功能。

此处诚招技术合伙人。我个人背景为产品和投资出身,上述产品虽是个人独立开发,但为进一步做出更好的产品,需要更专业的伙伴合作。下一步工作是共同推动该产品测试上线。

希望有兴趣于此、或已入局但寻求合作的开发者伙伴联系我,探讨交流合作,一起做一款AI时代全新信息消费形式的好产品!
01:07
3250
Figo.L
7月前
自用了 2 个月的 AI 播客产品,我的体验是信息质量至关重要,用户对此会十分苛刻,没人会忍受听一堆低价值的信息。

而影响 ai 播客信息质量的因素很多,不同用户偏好、内容类型、消费形式等等都会有不同需求,因此会是一个高度个性化的事,所以最终要么是一个非常散的产品形态、要么是一个必须兼容并包的产品形态。

底层逻辑还是,这是一个信息过载的时代,用户对信息需求永远是高质量高效率的,这是 AI 想做主驾驶必须要解决的。

阑夕ོ: 我可以算是AI的极端拥戴者了,即便如此,我也非常谨慎于AI批量生产垃圾的能力,智能化的用途很广,给互联网增加过剩其实是最没价值的方向。 而且AI生产出来的东西,有点遵循「一旦它涉足了你正好熟知的领域」的规律,如果没有专业的主控者,就只能被门外汉看来「不明觉厉」,实际上全是能够被一眼看穿的纰漏。 说得更直白点,AI的定位始终是副驾驶,如果使用者开车技术不行,就根本做不出达到交付标准的内容出来。 NotebookLM这波就是典型的震惊体,很多人会觉得播客又被颠覆了,普通人随便弄半个小时就能生成上架一档完整的播客,这还得了,要变天了⋯⋯ 但会这么认为的人,其实根本不懂播客,播客是最没工业化批量生产容身之地的行业,这里既没有流量补贴的玩法,内部的竞争程度得也够卷,商业变现的逻辑更是跟着人设走的,拿AI预制菜去跑马圈地,除了徒增服务器负载之外,除了取悦自己之外,没有任何意义。 AI的总结也是,如果是用于自己的研读学习,可能问题不大,但是交付到全网,那股异味就怎么都挥之不去,尤其是比如我这种天天和文字打交道的,对于AI总结的无效堆砌和信息丢失简直太敏感了,属于卒读即会破坏我自身文本系统的做法,代价太高了。 换位思考,我也能够理解画手群体对于AI绘画的「尸块」评价,虽然这里面确实有着对饭碗被砸的恐慌,但在他们眼里,AI作品的糊弄性是很强的,一般人跑图觉得自己也能画东西了是一码事,让专业艺术家去接受审美降级又是另一码事。 我前几天跟人说,我对AI的使用,是在交付上零容忍,在兴趣上无上限,什么意思呢,就是在我懂和擅长的领域,比如写给你们看的成品里,没有任何AI的成分,但在我自己是外行的领域,且并不指望拿来交付,只为玩票体验,比如用Midjourney画点东西,用Runway跑跑视频,我对AI是完全拥抱的,同时不会把它交付到垂直社区里增进污染。 这也是我对AI的使用原则,它应该成为扩大人类外延的工具,而不是替换掉人类的训练结果。 当然了,在工作过程里利用AI能力则是另一种场景,不在上述评判当中。

40
Figo.L
7月前
电子挂画+语音prompt生图,是个不错的AIGC消费场景么?

-昨晚看到客厅墙上的挂画,突然想到这是一个不多的、图片直接用于消费而非创作的场景。

-家里这幅画挂太久了我想换一幅,但再去买去选去挂我又嫌麻烦,如果我简单对它说一声我想要什么、它就能很快画出来、甚至手机都不用掏出来,体验应该会很好。

-可以画各种类型,艺术、风景、抽象、明星、游戏,甚至可以炼个用户的lora、生成个人写真照挂起来(这个需求有待验证)。

-技术实现应该很简单,硬件就是个屏,云端接个asr和flux就行了,但是软硬件集成及交互有产品定义空间。

-这幅画我买来花了200块不到,因此电子的卖到1k以内我应该愿意接受。

-去搜了下,Boe有款画屏推出几年了(见图)、21寸卖1k5,ANMUT有款壁画音响、果然也支持AI生图但手机操控、价格也要再贵一倍。

-成本目测有下降空间,应该是因为量小,红米27寸4K屏也才卖1k3。

感觉挺有意思的,逻辑上有啥硬伤么?
92
Figo.L
7月前
这个方向还是被歸藏老师带火了!

我开发了款这个方向的产品,可以将小宇宙播客/公众号文章/b站视频,非常便捷地、提炼为更适合高效收听或阅读的内容,并尽量还原内容的细节,以及一些可能略有差异化的流畅交互和功能设计。

产品原型已经写好一段时间,一直自用没对外测试。总体效果还可以,帮我刷掉了大量囤积的文章/播客/视频。

欢迎有参与兴趣的技术同学联系我。近期若顺利推出测试版本,将优先邀请大家参与测试。

歸藏: 另一个 ChatGPT 时刻就要来了。 Karpathy 说 NotebookLM 播客功能中可能蕴含着类似 ChatGPT 的机会,一个新的 AI 交互范式。 我一直关注和等待的东西,终于有行业核心人物注意到了,这个机会可能比 ChatGPT 还要大的多。 写了篇内容详细介绍了一下这个新的 AI 范式里面的逻辑: 将已有的庞大文本内容利用日渐成熟的其他模态 AI 模型转换为更多可被用户消费的内容形态,从而满足更多的用户消费场景。 这里的详细一些:https://mp.weixin.qq.com/s/1hqyb8SFBNVzrMkG8X1QEw Perplexity 的发现页面将全世界大量不同语言的新闻内容重新整合,变为可以被不同语言消费的新闻信息流,同时 TTS 的加入让用户的消费场景获得了极大的拓展,可以不用盯着屏幕了。 NotebookLM 将用户感兴趣的长篇文字内容拆解、总结、整合,让其更符合用户消费习惯,播客的加入也让整理内容的消费场景获得了拓展,另外对谈的形式也避免了让用户提问题这个成本很高的动作。 **这一范式的主要特点是:** - AI 自动收集整理文本内容 - 将原始文本内容转换为可被消费的其他模态内容 **主要的解决了下面这些问题:** - 拓展内容消费来源:不同语言不同地区的内容都可以被消费。 - 拓展内容消费场景和形式:同一份内容可以被变为图文、单口播客、对谈播客、视频。 - 降低内容消费成本:长篇深度内容可以被结构为简单的、简短的内容供用户消费。 **这一范式实现的前提只有一个:** 各个模态 AI 生成模型开始真正成熟,生产的文本、音频、视频没有违和感,可以被消费。 NotebookLM 生成的播客能如此出圈也是因为他的对谈播客声音自然流畅,非常有感情,没有 AI 感。Perplexity 整理和收集的新闻行文简明扼要,废话很少,图文混排的时候文字和图片相关性也很强。 目前成熟应用的场景还是图文和声音,随着视频生成和检索技术的成熟,这一范式迟早会落地到视频上,到时候可能不止是 ChatGPT 这种级别的机会了。

01
Figo.L
9月前
试了下看奥运时,用AI语音通话作观赛助手,伪球迷福音!效果还不错,方便了解运动员背景信息和技术风格、比赛规则和常规战术、以及前序赛况和赛程信息。

天然的语音交互场景。能公放适合多人一起观赛、也不会嫌吵,且提供聊天话题,试下来海螺ai体验不错、比豆包更好一些。

有几点不足:1)缺少声纹识别,很容易把解说员的声音串进去,2)没接搜索能力下,缺乏时效性的比赛信息,3)还不能像gpt4o那样随时插话打断,导致手机还是得放在手边。
00
Figo.L
10月前
发现AI提取对话音频的关键细节能力还是太弱。本来想把平时囤的播客用AI快速刷了,看来还是不行...

试了不同模型、不同prompt、以及切成多段分别处理,效果都不太好、至少比提炼文章时效果差很多,是因为人说话时语句更碎、细节更散更多么?有没有什么办法?

像podwise和豆包插件之类的,我更多还是用于听前筛选和听后复盘,无法“替代”听播客。因为播客除了观点逻辑,还有大量有价值的事实细节,所以有效提取细节非常重要。
41
Figo.L
10月前
能实时处理长视频流,对AR+AI是至关重要的能力。通过STAR记忆机制、将记忆划分为不同粒度语义信息区别处理,空间信息记多了会忘、时间信息记多了会模糊、抽象后则会像概念一样深刻、被唤醒后则能记起更多记忆碎片。相当自然且精妙的记忆结构设计!

开源视频版GPT-4o?快速记忆,实时问答,拿下CVPR'24长视频问答竞赛冠军

00
Figo.L
10月前
可变焦要来了吗?首先就要解决固定焦平面导致的眼部疲劳问题,否则串流办公下长期使用容易加深近视(惨痛教训..),如此MR办公可以再近一步。

代码显示 Quest Pro 2 或将搭载备受期待的变焦透镜

00
Figo.L
10月前
nice,所以视频可以边生成边播放了,甚至可以倍速播放、拖动进度条了?!
用的优化方法是通过分类精简注意力计算的频次,来减少注意力的冗余计算,逻辑上十分合理。

示例中4s视频只需4-5秒生成时间,几乎可以做到无缝边生成边播放了,甚至生成时间再下降一半、就可以2倍速播放了,甚至可以拖动进度条了、并不再是以时间为轴、而是以情节标签为轴。

即小说实时转视频播放,那还就只差写个好故事了,想想就有意思。

史上首个实时AI视频生成技术:DiT通用,速度提升10.6倍

02