即刻App年轻人的同好社区
下载
App内打开
陈南
154关注2k被关注1夸夸
🌊 高强度探索AI应用层ing
🤔 Curious 24/7
🔍 关注人性、产品与商业
🤖 AI应用产品经理 & 全栈开发者
置顶
陈南
4月前
在AI应用领域找方向的框架:
1. AI的基本特点是什么?
* 类人级的智能(之前需要人参与才能进行的流程,现在能不能让AI来做?)
* 具有跨领域的知识
* 推理能力正在逐步增强
* 感官能力正在与人对齐
* 超越人类的信息吸收速度(之前人做不了的事情,现在有了AI,还能不能做?这个方向也是目前没有引起市场重视的点,也是可以投入精力做差异化竞争的点)
* 低廉的横向复制边际成本(之前用人来做太贵的事情,现在能不能用AI取得指数级别的成本降低?)
2. 我满足用户的什么诉求?
* 功能性诉求
* 高思考成本的场景下都取得了不错的用户反馈
* 对于有这项技能的人,AI做的不仅是提效,而是将问题的维度变了,做的是升维
* 对于没有这项技能的人,做的是自我权力的扩张
* 低思考成本的目前没有
* 情感与社会性诉求
* 第一层:关注内在,有娱乐的诉求
* 第二层:身处在一个社会群体中,面对来自四面八方的影响,人需要对生活有尽可能多的掌控感,需要通过学习或外部工具来获得掌控感或安全感
* 第三层:在群体中,每个人都想要显得与众不同,展示出自己的价值,有装逼诉求。
* 第四层:人会本能地想要与社会产生连接、融入,为了更好地融入,也会通过一些模仿性的从众行为来获得群体认可。

怎么确定要不要做这个方向?
* 规模有多大?
* 现在进去是不是合适的时机?
* 契合度怎么样?适不适合我们做?
04
陈南
16天前
👍很赞的角度,认知成本比肌肉成本更难克服 //@Flusstal: 学习成本更低的那部分观点赞同,但是补充一下我自己的经历。
我零几年就拥有了自己的手机,那个时候手机普遍是T9,而且输入法没有“学习”,想要的某个字往往固定在某一行的某个位置,所以T9用习惯后我甚至可以把手机藏课桌里盲打。
那个时候使用电脑的时间比手机更长,26键打字更快,所以我也会买T26的手机,但是明显感受到操作上的不便:1.拇指移动频率增加(T9一个位置是三个字母),2.无法单手打字(T26都比较宽)。人就是趋懒的,我趋的是肌肉上的懒,所以我就一直用9键。
2010年开始我就使用智能手机了,以前输入法的默认布局是26键是因为这样更好做词典,现在仍旧如此(我知道是因为每次下载输入法都必须手动切换布局),说明这个布局使用的人更多。有跟我同样用过按键机的朋友,后来也转到了26键,说白了就是9键的学习成本和输入成本都更高,对于已经非常熟悉它的人来说尚且如此,更别说从没接触过的……

讲这个经历是想补充另一个观点:人的趋懒分为认知层面的和肌肉层面的。我懒得动更多肌肉,所以比起语音(不仅手要点击,嘴和肚子、胸腔还得动)或手写(写字费的力气更多)这种费肌肉的,我更愿意去付出认知成本。但是输入法这个事情却呈现的是大部分人“比起认知成本,更愿意付出肌肉成本”的现象。

陈南: 前段时间写过一篇文章(https://m.okjike.com/originalPosts/66f9eec8d58d98ec7fe51c96?s=ewoidSI6ICI1ZWUwYmY1NjMxMGY4NDAwMTczNjljYzciCn0=),思考在AI的影响下,2025年出生的孩子会如何看待人机交互。 今天刷到一个小红书帖子,提到现在很多初中生竟然习惯用手写和语音输入,刷了几百条评论,发现还挺普遍。我以为9键和26键才是年轻人的主流输入方式,手写和语音输入是老年人的专属,这件事确实颠覆了我的认知。 仔细想了想,思考出一些比较合理的解释。 这一代的初高中生,基本上是在2010年以后出生,我们就按2010年出生算,到小学开始使用手机的时候,大概是2016年左右,那一年,苹果已经发布了iPhone 7,小米发布了MIX概念机,开启了全面屏时代,智能机市场逐渐走向成熟。 或许是刚上小学,拼音还没学全,也不会写几个字,所以他们一开始使用手机就是用语音输入,学会写一些字之后,他们学会了用手写输入。 又或者是大部分孩子由老人家带,而老人基本上都用语音输入或手写输入,耳濡目染之下,他们也是用这两种方式。 那么问题来了,小学早就学完了拼音,为什么会有这么多初中生高中生还在使用手写、语音输入呢?我认为有两点原因。 第一,现在很多家庭没有电脑,他们根本没有使用键盘的机会,对于他们来说,对键盘没有先入为主的偏好。 第二,我看评论区,有人提到一个现象,不涉及隐私的时候可能会使用语音输入,涉及隐私的时候,他们会选择手写输入。大家都知道,人的习惯是很难改变的。对于现在25岁以上的人来说,上小学的时候,键盘是唯一的输入方式,即使不会拼音或五笔,也得硬着头皮学。而对于他们来说就很不一样了,当他们上小学的时候,语音和手写无疑对他们来说是学习成本更低的一种输入方式,当习惯了这两种输入方式之后,再让他们去学习拼音输入,是一种痛苦,切换成本很高。 对于这件事,我有很深刻的体会。因为我从小习惯使用键盘打字,初中有了智能手机之后,我也一直使用26键。当时学校里有一些同学从小没怎么用过电脑,我发现,他们有了智能手机之后,默认的输入方式是9键。我当时就在想,这玩意打字怎么可能比26键快,结果现实却打了我的脸,经过一段时间的训练,他们用9键打字的速度比我还快很多。为了不服输,我就尝试用了一两天9键,看看能不能体会到这玩意的美妙,结果在使用的过程中,简直痛苦无比,时常会想,这段话我用26键打起来多快,用9键打起来也太慢了,按键是少了,但是,同样是按4下键盘,9键的候选词可能性要比26键多很多,在当时的我看来是一种效率很低的输入方式,实在是不习惯,早早投降认输。 今天我们看到的,其实也是很类似的情况。在我看来,手写似乎是一种比拼音慢很多的输入方式。但是,我在评论区就找到了真实的打脸案例,有人提到,TA用拼音打字反而很慢,手写的速度要快很多,不明白拼音有什么好的。 此刻的手写,恰似当年的9键。我突然意识到,我的26键输入已经是上两代的产物了,真是让人感慨万千。 这也提醒了我一件事,很多我们这一代人认为想当然的事情,在下一代人眼里可能截然相反。正如我在之前那篇文章里举的例子一样,现在的小宝宝接触的设备都是触屏,他们理所当然地认为电视也是可以触摸的。 要想面向下一代人做产品,需要将自己充分地代入他们的身份,清空自己的记忆,从他们出生之日开始,一个一个细节去对比,相对于我们而言,他们所接触到的世界,到底是什么样的。一个生下来就接触最新科技的人,和一步步看着新科技从不靠谱的小玩具走向工业级产品的人,眼中的世界到底有什么不同。 我们看似生活在同一个世界,但可能又不是同一个世界。在主流社会关注很少的地方,或许正在发生着更深层的变化。

11
陈南
23天前
前段时间写过一篇文章(m.okjike.com),思考在AI的影响下,2025年出生的孩子会如何看待人机交互。

今天刷到一个小红书帖子,提到现在很多初中生竟然习惯用手写和语音输入,刷了几百条评论,发现还挺普遍。我以为9键和26键才是年轻人的主流输入方式,手写和语音输入是老年人的专属,这件事确实颠覆了我的认知。

仔细想了想,思考出一些比较合理的解释。

这一代的初高中生,基本上是在2010年以后出生,我们就按2010年出生算,到小学开始使用手机的时候,大概是2016年左右,那一年,苹果已经发布了iPhone 7,小米发布了MIX概念机,开启了全面屏时代,智能机市场逐渐走向成熟。

或许是刚上小学,拼音还没学全,也不会写几个字,所以他们一开始使用手机就是用语音输入,学会写一些字之后,他们学会了用手写输入。

又或者是大部分孩子由老人家带,而老人基本上都用语音输入或手写输入,耳濡目染之下,他们也是用这两种方式。

那么问题来了,小学早就学完了拼音,为什么会有这么多初中生高中生还在使用手写、语音输入呢?我认为有两点原因。

第一,现在很多家庭没有电脑,他们根本没有使用键盘的机会,对于他们来说,对键盘没有先入为主的偏好。

第二,我看评论区,有人提到一个现象,不涉及隐私的时候可能会使用语音输入,涉及隐私的时候,他们会选择手写输入。大家都知道,人的习惯是很难改变的。对于现在25岁以上的人来说,上小学的时候,键盘是唯一的输入方式,即使不会拼音或五笔,也得硬着头皮学。而对于他们来说就很不一样了,当他们上小学的时候,语音和手写无疑对他们来说是学习成本更低的一种输入方式,当习惯了这两种输入方式之后,再让他们去学习拼音输入,是一种痛苦,切换成本很高。

对于这件事,我有很深刻的体会。因为我从小习惯使用键盘打字,初中有了智能手机之后,我也一直使用26键。当时学校里有一些同学从小没怎么用过电脑,我发现,他们有了智能手机之后,默认的输入方式是9键。我当时就在想,这玩意打字怎么可能比26键快,结果现实却打了我的脸,经过一段时间的训练,他们用9键打字的速度比我还快很多。为了不服输,我就尝试用了一两天9键,看看能不能体会到这玩意的美妙,结果在使用的过程中,简直痛苦无比,时常会想,这段话我用26键打起来多快,用9键打起来也太慢了,按键是少了,但是,同样是按4下键盘,9键的候选词可能性要比26键多很多,在当时的我看来是一种效率很低的输入方式,实在是不习惯,早早投降认输。

今天我们看到的,其实也是很类似的情况。在我看来,手写似乎是一种比拼音慢很多的输入方式。但是,我在评论区就找到了真实的打脸案例,有人提到,TA用拼音打字反而很慢,手写的速度要快很多,不明白拼音有什么好的。

此刻的手写,恰似当年的9键。我突然意识到,我的26键输入已经是上两代的产物了,真是让人感慨万千。

这也提醒了我一件事,很多我们这一代人认为想当然的事情,在下一代人眼里可能截然相反。正如我在之前那篇文章里举的例子一样,现在的小宝宝接触的设备都是触屏,他们理所当然地认为电视也是可以触摸的。

要想面向下一代人做产品,需要将自己充分地代入他们的身份,清空自己的记忆,从他们出生之日开始,一个一个细节去对比,相对于我们而言,他们所接触到的世界,到底是什么样的。一个生下来就接触最新科技的人,和一步步看着新科技从不靠谱的小玩具走向工业级产品的人,眼中的世界到底有什么不同。

我们看似生活在同一个世界,但可能又不是同一个世界。在主流社会关注很少的地方,或许正在发生着更深层的变化。
2121
陈南
26天前
update一下思考框架

陈南: 在AI应用领域找方向的框架: 1. AI的基本特点是什么? * 类人级的智能(之前需要人参与才能进行的流程,现在能不能让AI来做?) * 具有跨领域的知识 * 推理能力正在逐步增强 * 感官能力正在与人对齐 * 超越人类的信息吸收速度(之前人做不了的事情,现在有了AI,还能不能做?这个方向也是目前没有引起市场重视的点,也是可以投入精力做差异化竞争的点) * 低廉的横向复制边际成本(之前用人来做太贵的事情,现在能不能用AI取得指数级别的成本降低?) 2. 我满足用户的什么诉求? * 功能性诉求 * 高思考成本的场景下都取得了不错的用户反馈 * 对于有这项技能的人,AI做的不仅是提效,而是将问题的维度变了,做的是升维 * 对于没有这项技能的人,做的是自我权力的扩张 * 低思考成本的目前没有 * 情感与社会性诉求 * 第一层:关注内在,有娱乐的诉求 * 第二层:身处在一个社会群体中,面对来自四面八方的影响,人需要对生活有尽可能多的掌控感,需要通过学习或外部工具来获得掌控感或安全感 * 第三层:在群体中,每个人都想要显得与众不同,展示出自己的价值,有装逼诉求。 * 第四层:人会本能地想要与社会产生连接、融入,为了更好地融入,也会通过一些模仿性的从众行为来获得群体认可。 怎么确定要不要做这个方向? * 规模有多大? * 现在进去是不是合适的时机? * 契合度怎么样?适不适合我们做?

00
陈南
27天前
前两天用GPT-4o生成素材,用Cursor做了一个简易版的食物消消乐小游戏。制作素材的过程中,发现模型原生图片输出对内容的掌控力非常强,可以用很低的使用门槛生成较高质量的素材。
跟之前一样,代码全部开源,欢迎有兴趣的朋友交流~
体验地址: tile-matching-game-chi.vercel.app
Github地址: github.com
04
陈南
27天前
LLM原生图片输出能力的影响仍远远被低估

如果我们将LLM能力迭代的过程看作是“如何将机器打造成类似于人的智慧体的过程”,在原生图片输出能力的加持下,LLM已经具备了充分用视觉理解这个世界并用图片表达其认知的能力,这将会对几乎所有与视觉相关的行业造成影响。如果用一句话来描述native image output能力的本质,我会说: 感官能力正在迅速与人对齐。

这个观点可能会有点让人困惑,有朋友会问,之前的AI模型(Stable Diffusion、Flux)不是已经可以生成图片了吗?其实很不一样,之前的生图模型更多是基于扩散技术,而GPT-4o是多模态融合后的自回归技术。在GPT-4o生成图片时,它可以充分利用自身在训练过程中形成的丰富世界知识和推理能力(非Reasoning模型也有一定推理能力),这也是它在图片理解能力和图片细节的掌控度上与扩散模型拉开代差的重要原因。

在对图片内容的掌控力上,Gemini 2.0 Flash已经展现出了还不错的能力,而更大参数量的GPT-4o直接将效果上升了一个台阶。通过对比这两个模型,我们就能轻易判断出,下一代模型在这方面只会做得更好。以前很多需要使用各种软件(Photoshop、Blender等)才能做出的产出图,以后将可以由模型直出,跳过中间环节。

从出发点来讲,模型厂商迭代模型、打造AGI的过程就是逐渐复刻类人级智能的过程。

既然是打造类人级智能,那么,从经济学角度讲,当AI的智能提升时,这种低成本、听话、高智能、高效率、24小时运转的智能注定会对一部分人力市场造成挤压。

提效与替代是一体两面的概念。一个部门之前需要10个人,当5个人能完成所有工作的时候,这5个人确实是提效了,但是另外5个人就会被替代。AI的能力在一开始体现为提效,逐步会展示出替代的特征,近期最明显的将是设计相关领域(不仅是视觉设计,还包括3D模型设计等)。

那么,LLM多模态融合的下一步趋势是什么?其实也比较容易推测。以GPT-4o为例,现在既有image output能力,也有audio output能力,视频应该是很自然的,当高刷新率image输出配合audio输出时,就可以生成视频了。

推导到这一步,我们会发现,实现这一目标的最大瓶颈是GPU,相比于GPU的数量,目前最缺的其实是单个GPU的运行效率,刚刚讲的“高刷新率”需要消耗大量的GPU资源,而在当前的硬件条件下,似乎很难规模化提供给用户。幸亏,像可灵这种模型目前已经有很不错的图生视频能力,在当前硬件还不够发达的情况下,让我们也可以借助GPT-4o生成的图片来尝试一些视频创作。

大多数人还没反应过来,LLM原生图片输出能力具有非常大的潜力,它将会颠覆很多与视觉相关的领域。这两天在逛小红书的时候,经常会看到有人对GPT-4o生成的图片嗤之以鼻,挑剔里面的瑕疵,每次看到这样的场景,我就想起了2022年Midjourney V1刚出来的时候,很多人嘲笑说这么差的效果能有什么用,结果我们也看到了,仅仅过了9个月,Midjourney V4的效果就已经足够让人震惊。

正如我之前的文章(m.okjike.com)里提到的,当看到某一项技术有一些苗头时,就应该准备开始入场了,你准备好入场了吗?
00
陈南
1月前
用GPT-4o试着生成了一批iOS 19风格的icon,效果还不错
13
陈南
1月前
大家应该都玩过2D版的贪吃蛇,那如果以第一人称视角进入贪吃蛇游戏,会是怎样一种体验?带着这个好奇心,我在业余时间借助Cursor做了一款3D贪吃蛇游戏。
你不仅可以和AI对战,还可以观察2个AI对战,除此之外,还能以第一人称视角观看AI对战,以“蛇的视角”观察游戏的时候,才发现贪吃蛇也是个非常紧张刺激的游戏。
跟之前一样,代码全部开源,欢迎有兴趣的朋友交流~

另外,推荐遇到疑难杂症的同学试试Cursor里的Claude 3.7 Sonnet MAX,有个操控上的Bug Claude 3.7 Sonnet死活解决不了,最后牙一咬开了MAX,发现一两轮对话就解决了,算下来成本不到1块人民币,ROI极高。

体验地址: game-explore-ten.vercel.app
代码仓库: github.com
02
陈南
1月前
昨天在尝试了用Gemini 2.0 Flash和腾讯的Hunyuan3D-2mv生成3D模型之后,有一种很明显的预感,做游戏的门槛也在快速降低,晚上趁热打铁,用Cursor耗费2个多小时做了一款“哪吒炫舞”网页小游戏,目前功能还很简单,只有2个动作,但是已经能感觉到AI在游戏开发方面的潜力了。代码全部开源,欢迎有兴趣的朋友交流~

顺便分享两个小tips:
1. 让Gemini 2.0 Flash生成的人物三视图最好是T型姿势,要不然很难自动识别骨架。
2. Adobe的 Mixamo 平台很有用,绑定骨架后,有上千种人物姿势可以选择。

在线体验地址:3d-game-dance.vercel.app
代码地址:github.com
00:22
111
陈南
2月前
用Gemini 2.0 Flash多模态能力做室内装修,给一张毛坯房的图,让它输出装修后的图片,效果也很不错👍
214
陈南
2月前
Gemini 2.0 Flash开放多模态输出功能,可以直接输出图片,刚刚试了一下,效果很惊艳,只需要简单的几句话就可以完成之前需要借助controlnet或者lora才能完成的事情。

一年之前我判断,多模态输入输出能力一定是LLM未来的重要演进方向,今天Google第一个将这项能力推送给了广大用户。

LLM强大的语义理解能力和世界模型,很快会让文生图领域发生翻天覆地的变化,专门的文生图模型可能即将退出舞台。

(2024年3月我的即刻:什么是OpenAI不会做的事情 m.okjike.com
31