即刻App年轻人的同好社区
下载
App内打开
陈言_Linkc
137关注1k被关注0夸夸
🔮 致力于创新团队工作流程 AI化
💡 跨周期产品设计师
🎲 社区、媒体科技、生态治理专精
🏄 效率工具爱好者,玩票自媒体
陈言_Linkc
2天前
AI的妙用,深度搜索功能还是很方便的,确实是挖掘出很多我理解不到的观点。
10
陈言_Linkc
3天前
OpenAI 发布了最新的模型系列:GPT-4.1、GPT-4.1 mini GPT-4.1 nano。这三款模型目前仅通过API提供,旨在为开发者带来更强大的能力和更优的成本效益。

核心亮点:
1️⃣性能超越前代: 新模型系列在各项基准测试中普遍超越了 GPT-4o GPT-4o mini,尤其在 编码 指令遵循 方面取得了显著进步。
2️⃣编码能力大幅提升: GPT-4.1 SWE-bench Verified 上的得分高达 54.6%,比 GPT-4o 提升了 21.4%,成为领先的编码模型。它在处理代码 diff、遵循格式、减少冗余编辑等方面也更可靠。
3️⃣指令遵循更精准: Scale MultiChallenge 基准测试中,GPT-4.1 得分提高了 10.5%,能更可靠地理解和执行复杂、多步骤或带有约束条件的指令。
4️⃣更强的长上下文处理: 所有三款新模型均支持高达 100万 token 的上下文窗口,远超之前的 128k token。同时,它们对长上下文的理解和信息提取能力也得到了优化(如“大海捞针”测试和新的 OpenAI-MRCR、Graphwalks 评估所示),能更好地处理大型代码库、长文档分析等任务。

优化的成本与效率:
1️⃣GPT-4.1 mini: 小型模型性能的巨大飞跃,在许多基准上甚至超越了 GPT-4o,但延迟近乎减半,成本降低了 83%。
2️⃣GPT-4.1 nano: OpenAI 迄今为止 最快、最便宜 的模型,拥有 100万 token 上下文窗口,性能超越 GPT-4o mini,非常适合需要低延迟的任务(如分类、自动补全)。
整体成本下降: GPT-4.1 GPT-4o 的中位数查询成本降低了 26%。同时,对于重复传递相同上下文的查询,提示缓存(prompt caching)折扣提高到 75%。
3️⃣视觉能力增强: 新模型系列,特别是 GPT-4.1 mini,在图像理解方面表现优异,在 MMMU、MathVista 等多个视觉基准测试中得分亮眼,并能在无字幕的长视频理解(Video-MME)任务中取得领先。
4️⃣更适用于构建智能体(Agents): 改进的指令遵循可靠性和长上下文理解能力,使 GPT-4.1 系列模型在驱动能够自主完成任务的 AI 智能体方面更为有效。
(知识更新: 知识库更新至 2024年6月。)

GPT-4.5 Preview 将被弃用: 由于 GPT-4.1 在性能和成本上更具优势,GPT-4.5 Preview 将在 2025年7月14日 停用,开发者有三个月时间进行迁移。

总而言之,GPT-4.1 系列是 OpenAI 聚焦于开发者实际需求,在编码、指令遵循、长上下文处理和成本效益方面迈出的重要一步,为构建更智能、更可靠、更强大的 AI 应用和智能体解锁了新的可能性。欢迎开发者们通过 API 探索和使用这些新模型!
03
陈言_Linkc
15天前
又是用GPT-4o整活儿的一天。
21
陈言_Linkc
17天前
这个GPT-4o的玩法挺火,我是在@歸藏(guizang.ai) 看到的,自己优化了一下提示词。
这里有一点建议:
- 先尝试AI能不能理解想要画的内容,如果可以,就不要添加不必要的提示;
- 如果AI不能理解或者有版权限制,就先增加文字描述,比如演员的名字、场景、物品;
- 如果形象生成的有问题,再增加演员的照片。(比如梁朝伟、黄秋生AI就知道长什么样,林家栋就差点)

下面的提示词是我用来画陈佩斯的。
------------------
创建一个全身人物手办玩具,玩具的形象参考我上传的照片。让它成为一个动作人偶(action figure blister pack)。
在人偶旁边,是他的装备:(与玩具人偶一起放到包装里)
- 毛瑟C96手枪
- Gray Fur Felt Fedora Hat
- 白色毛巾
此外,在包装上的文案,主题是"白日做梦!",副标题是"陈佩斯"。
你设计的包装应该具有抗日战争相关的元素。以一种真实的方式来可视化这个场景。
输出图片比例2:3。
------------------
01
陈言_Linkc
19天前
花了一个晚上等GPT-4o生图,这个视频把我当时能想到的场景都试了一遍。
AI只是提升了普通人创作的下限,同时在某些环节扩展了专业人士的能力范围。对这句话的体会越来越深。

设计师怎么用AI?GPT-4o挑战4大设计岗位 - 小红书

00
陈言_Linkc
19天前
服了
00
陈言_Linkc
19天前
昨天在盖茨基金会的传播年会上分享AI相关的话题,正好会议主题是中美关系,我也在这一页歪楼讲了一些自己的观点和见闻。(以下内容和图片关系不大,不要深究)
1. 这页标题是“东西并进”,我和同事们还讨论过措辞,是不是应该用社交媒体上最常见的“东升西落”?一方面我觉得这个词不准确,有明显的民族带入。另外在AI领域,我认为东西(中美双方)可能玩的并不是同一个游戏。(这点会在后面展开)
2. 这次会议有一个重要的议题,是如何在当前的国内外以及中美关系下做有价值的传播。私下交流中大家都有一些切身体会,无论是中国企业还是美国企业,都不太敢主动传播。
3. 我最近有两个小故事,恰好符合这个体感。一是春节前Google市场部的小伙伴给我发了一个文档——Google官方庆祝春节的传播文案,让我帮忙看看会不会有问题。我带入舆情和不当信息审核的角色也没有发现问题,我的同事也没有。一问才知道,是里面有一个贪吃蛇吃掉“福”字的动画(蛇年),他们担心这个形象可能会引发中国用户的抱怨。
4. “Google被搞得草木皆兵啊!hhh”我直接嘲笑了对方。而在上周,我受邀参观特斯拉上海Megafactory。特斯拉给我的感觉这就像是一个中国初创公司,直接、务实,一切为产品交付服务。这次活动是为了纪念中国的MegaPack产品正式交付澳洲客户。私下特斯拉的同学叮嘱,不要在传播中提及马斯克,也不要提及其他国家。我一向认为特斯拉已经被上海人民接纳为亲生的工厂,没想到也这么谨小慎微。而这种事每天都在发生。
5. 会上一位嘉宾讲到Trump政府想在中美谈判中得到什么,以及中国政府可能如何应对。其中有一类黑天鹅事件是和AI相关的。
6. 我认为DeepSeek在当时极有可能成为那只黑天鹅。只不过它的出现太突然了,这家公司不在中美任何一方的关注范围。而且美国人在忙着交接,我们在忙着过节。万幸。
7. 还有嘉宾提到了Manus,我认为这类产品不大会成为一只黑天鹅,这和中美对于AI的理解有关。
8. 美国主流资金和力量的目标是快速达成AGI,并在这个过程中保持持续领先。他们有优秀的人才、最好的学府和机构、充沛的资金和算力、对于AGI高度一致的共识。
9. 中国社会自上而下更看重的是AI的落地与商业化。我们有庞大的人口基数、丰富的商业化经验、比较低的商业/隐私和版权履约成本,我们希望能在短期内看到AI的“结果”。二者没有优劣之分。
10. 我在分享时有人提问,中国什么时候能追赶上美国。“追赶”分为好几个层面。一是有没有人能提出并证明颠覆Scaling Law的新路径,并带动业界跟进,成为AI新的发展范式;二是有没有AI底层架构上的创新,比如在大语言模型领域取代Transformer;三是在工程层面提出新架构、新方法,类似DeepSeek;四是在产品或者商业化方面取得影像业界的成就。
11. 上面四个标准,一、二很难,目前的架构都是经过十年甚至更长时间达成的。三很有机会,两边都各有尝试。四是分歧,我认为是中国的机会,更有可能出现一个AI领域的巨无霸。
跨界交流挺好,收获颇多。
01
陈言_Linkc
22天前
昨晚玩GPT-4o的生图功能到睁不开眼,作为一个Midjourney超过10000张的用户,这种体验太特别了。
在Midjourney或者Stable Diffusion中,你的指令必须是精准的,还要考虑模型对于元素风格的理解能力,以及各种LORA模型的激活。但和4o合作的感受完全不同。

我们一起做了一组幻想题材的作品。

和4o一起生图,可以从想法开始,再到创意、构图、风格,你们要做的是相互启发。比如我让AI畅享一下,机器人主导的社会是什么样的,他说这非一个纯赛博的世界,机器人是人类发明的,它们虽然先进,但还是在追求人性,因此机器人的社会就是在模仿人类。所以有了下面的场景。

我希望能表现冲突,一种机器人和人类身份错位的反差,我觉得表现得也不错。当然在整个过程中多次触发OpenAI得道德机制,没办法,哪边都有这个问题。

从思考创意到生图,再到优化,都是在一个工作场景下完成的,这个体验足够震撼了。

(即刻web版上传完图片以后不能调整顺序啊~)
00
陈言_Linkc
22天前
阿里发布了Qwen2.5-Omni ,新一代多模态旗舰模型,支持文本、图像、音频、视频输入,提供实时流式响应和自然语音合成。该模型在 Hugging Face 等平台开源,具备卓越的跨模态理解和语音生成能力。

架构创新了,有点意思。

Qwen2.5-Omni在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。
在多模态任务OmniBench,Qwen2.5-Omni达到了SOTA的表现。此外,在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。

官方体验Qwen Chat:chat.qwenlm.ai
Hugging Face:huggingface.co
ModelScope:modelscope.cn
DashScope:help.aliyun.com
GitHub:github.com
Demo:modelscope.cn
02
陈言_Linkc
29天前
波士顿动力可能是被最近宇树等几家中国的机器人公司激励了一下,也发不了自己旗下机器人进行各种拟人动作的演示demo。几个基本动作自然、连贯,波士顿动力的演示更加内敛,没有可以设计营销点,只是渐进式地发布成果。
01:07
21