即刻App年轻人的同好社区
下载
App内打开
OrangeCLK
542关注6k被关注12夸夸
互联网话题优秀贡献者
www.orangeclk.com
不用「您」字
不用「她」字
置顶
OrangeCLK
7月前
# OpenAI与新闻公司的合作伙伴关系
OpenAI已经和很多新闻公司签了协议,达成内容与产品战略伙伴关系(strategic content and product partnership)。
综合公开信息,协议内容大概包括几个部分:
- 用户可以使用ChatGPT的browsing插件获取这些新闻内容,并且以附带链接的方式展示给用户。
- ChatGPT会优先展示合作媒体的内容。
- OpenAI给新闻机构提供技术服务。
- OpenAI可以用新闻公司的新闻内容训练模型(细节存疑)。

OpenAI的知识产权与内容负责人Tom Rubin表示,目前签的协议“很大程度上”不包括用新闻数据训练这部分。个人猜测,只有和少数媒体巨头的合作才包括数据训练这部分,大部分其他的合作只是将媒体内容作为ChatGPT产品browsing插件的内容基底(LLM grounding)。

OpenAI支付的金额大概在每年数百万到数千万美元不等,不同媒体费用不同。

# 新闻业对大语言模型的特殊意义

截至目前,人工智能模型的训练还依赖外界的数据输入。人类世界发生的种种事情,只有在被记者制作成文字、音频、视频作品之后,才能够被模型习得。记者是把现实中发生的事转化为比特信息的职业。

当然,社交网络上也有很多信息在描述世界上发生的事情,但是这些信息质量良莠不齐。而数据质量对模型品质很重要123,社交网络数据需要再筛选。而且,社交网络巨头也不会轻易允许其他公司免费拿这些材料去训练,Reddit、Stack Overflow这些优质社区的数据,和新闻数据一样,也都是需要付费才能获取训练许可。

另一方面,RAG产品也需要让搜索的内容基底品质优秀,从阴谋论论坛帖子搜索信息,和从被信任的新闻机构搜索信息,输出品质天壤之别。虽然前者未必不满足用户需要,但一般而言不支撑目前“AI助手”产品的功能定位。

科技公司和新闻机构的关系已经变化。社交网络时代,科技公司和新闻机构是竞争者,双方竞争流量和广告预算。但在大语言模型时代,科技公司和新闻机构合作的空间更大,因为二者利益变得更加一致。新闻机构是大语言模型的上游,科技公司需要支持新闻机构存续下去来给自己提供训练素材和RAG基底。

目前主流新闻网站大多开启了付费墙,如果科技公司不付费,将没有办法合法地获取新闻内容提供给用户。为了满足用户查询时效信息的需求,科技公司也有必要获取新闻机构的授权。2023年,OpenAI的browsing插件下架了相当长一段时间,就是因为付费墙版权问题。

在大语言模型产品流行之后,很多消费者查询信息的需求已经被“AI助手”产品消化掉,新闻网站的访问量和收入进一步下滑,这一部分损失也可以由科技公司的信息使用授权费弥补。

# 搜索引擎与SEO 付费搜索引擎

汇集了大量用户的互联网头部产品会被流量猎手盯上,早年大家讨论百度比较多,现在谷歌搜索问题也很严重,小红书可能五年前作为优质信源崛起,而现在也已经成为伪科学和软广告的天堂。

中文用户可能只感到谷歌的中文搜索被SEO农场填充,觉得可能是谷歌对中文搜索疏于维护,但其实谷歌搜索的劣化现象不局限于中文。近年英文世界关于谷歌搜索质量下降的讨论已经越来越多。HackerNews和X上常见,推荐这两篇比较近且制作精良的讨论:
- How Google perfected the web (theverge.com)
- How Google is killing independent sites like ours - HouseFresh

同为搜索引擎,Kagi就没有这个问题。Kagi团队的努力固然很重要,但我想,如果Kagi成为流量很大的搜索引擎,那么也难以抵挡流量猎手的侵蚀。

我很喜欢Kagi团队的一个项目:Kagi Small Web。Kagi团队搜集了网络上的很多高质量小众站点。Kagi会把这些站点的内容放到搜索结果中,还会提供汇总的RSS和API。不太清楚这项工作需要花费多高的成本。

前几天有一篇网络文章流行:《中文互联网的崩塌》,里面提到作者用谷歌和百度搜索“马云”,时间选定在1998-2005年,发现都搜不到有效内容。但我用Kagi就可以搜到。旧网页本来就会逐渐丢失,但“崩塌”感也有相当一部分来源是搜索引擎与SEO产业对抗之后留下的后遗症。

流量高地注定要被流量猎手攻陷,那么Kagi这样的流量低地呢?由于流量太少,无法依靠广告支撑运转,所以Kagi的商业模式是付费订阅。没错,Kagi是一款付费搜索引擎。新闻业的规律在搜索引擎领域再次上演:免费的信息劣质,优质的信息不能免费获取。

这也很符合一分钱一分货的基本逻辑。低质信息会自己花钱寻求曝光在用户面前;而高质信息需要用户付费购买。

流量猎手会用AI生成很多低质量页面,获取主流搜索引擎的流量。相反,优质新闻却普遍有付费墙,无法被一般爬虫获取——即便开放给爬虫,这种获取也是违法的。所以,如果以互联网上可搜、读取的内容作为RAG基底,那么基底的品质就会难以控制。

最近一个典型的例子就是豆包对Perplexity和Google的污染,而Perplexity自己也在通过Perplexity pages污染Google。

OpenAI很早就积极和新闻机构谈判,付费获取内容。自己选信源,然后挨个找信源谈,再优选这些信源提供给客户;而不是陷入和流量猎手们的持久对抗。如果RAG的基底被劣质信息席卷,AI助理这个概念本身的需求就无法被完成,给流量黑客搭便车,还会损害自己产品的质量与口碑。

知识共享许可协议
本作品采用知识共享署名-相同方式共享 4.0 国际许可协议进行许可。

大语言模型的新闻采购与SEO猎手

01
OrangeCLK
1天前
社交网络上总是有很多人批评创作者傲慢,听不进用户的声音。用户越多的产品越是如此。我觉得实际情况是如果用户说什么就做什么,那就完蛋了。而尤其是杰作,最需要作者精神,这在社交网络时代也许会被解读为傲慢。
社交网络会成为troll的放大器,大基数的小比例人群一边骂一边用也影响口碑。怎么办呢?一直觉得社交网络没有为这些负外部性向社会支付代价。

Julian.: 人的语言常常和人的行为背离,有时候是故意的,甚至很多时候在表达时人是意识不到的。 这其实是产品经理很大的一道门槛,你将那些被浓烈表达出来的语言作为自己做产品的指引,往往最后会一塌糊涂。甚至你也纳闷:为啥啊,我都按他们说的那么做了为什么他们最后却用不起来。 因为人的行为常常和人的语言背离,关注那些反复在行为上发生但不被浓烈讨论的地方,与语言的盛宴保持一定距离才能有空间看得更清醒。 而在另一面,只有少数表达者对表达内容负有行为责任。

00
OrangeCLK
1天前
Mass media的退潮,现在是for you media。

Diiiii: 影视作品的质量在下降吗?过去几年,陷入“剧荒”、“片荒”的次数越来越多。个人体感上,优秀的新电影、新剧集作品数量有断崖式的下降,在全球范围内都是如此。 举例来说,我个人喜欢定期去豆瓣电影的“一周口碑榜”上去找一些评价较高的新片来看,“评价较高”的标准是豆瓣评分在 8 分以上。几年前基本上Top10 口碑榜上几乎所有的作品都可以达标,而最近则基本上只有 2、3 部在 8 分以上。不仅仅是周榜单,即便把全年都算上,能达标的片子都很有限。2023 年豆瓣电影的年度评选里,“评分最高的华语电影”、“评分最高的外语电影”甚至“年度冷门佳片”里,都出现了大量评分在 8.0 以下的作品。剧集方面,豆瓣用户对剧集的评分一向更水一些,因此“评价较高”的标准应该在 8.5 分以上。同样,达标的剧集这几年显著变少。 能想到的一些原因包括: - 需求侧,社会变得更加撕裂,共识减少,造成“众口一词的好作品”越来越少; - 需求侧,随着用户审美口味的提升,导致打分标准也提升了; - 供给侧,娱乐方式的变化,用户更多的时间转向短视频,导致影视行业的预算和人才也随之迁移; - 供给侧,创新难度变大,优秀的题材大都被前人使用过了,再考虑到政治正确的限制,百尺竿头更进一步的可能性变得越来越小; - 供给侧,优秀作品的创作本身就是非连续的,有周期,或许这几年赶上了波谷也说不定; ...... 除了电影和剧集之外,不知道其他领域的创作是否面临同样的瓶颈。直观感觉是优秀的音乐作品也在变少,书籍似乎好些,但个人看到的好书更多是non-fiction,如果只看小说(fiction),似乎也有同样的问题... 纯粹个人体感,也许不对。

00
OrangeCLK
1天前
试了一下Gemini Deep Research,过程很像Kimi探索版,读了151个网页,最终结果基本信息全对。不过比kimi探索版慢很多,不知道是不是生成长篇报告这个过程慢,从界面动画上看,是读网页本身就比kimi慢很多了。
这是付费功能,而kimi是免费提供的,每天限额五次。最近在手机app上好像把这个功能入口下掉了,是不是太贵了。

OrangeCLK: 第一直觉是perplexity的设计加o1-mini的能力在这个场景应该是弱弱联合,效果不会好。 数了一下,perplexity错了三个地方。 我用Kimi探索版试了试,错了一个: https://kimi.moonshot.cn/share/cs75p8hm9sk0lcqv39pg Kimi为完成这个任务总共读了438个网页,而且还挺快的。

81
OrangeCLK
2天前
感觉Kimi现在处于非常好的位置,用户多,模型的强度又不受以即刻和推特为代表的技术爱好者社区的关注。
21
OrangeCLK
2天前
OrangeCLK
3天前

一颉: 谈谈自己对于某些类型新闻特稿/非虚构的看法。2019 年自己的职务稿件写过负债的年轻人,《时尚先生Fine》创刊号封面文章《负债者》,内核甚至编织的逻辑都与后来谷雨的一篇报道非常雷同。当时那篇稿子被要求只抓住年轻人被消费主义裹挟在网上大举借债,最终倾家荡产、生活崩塌的核心。但由于缺乏对于消费金融财经角度的认知,不同性质的债务被混为一谈。首先根据一本财经的行研,消费贷在互联网小贷中并不占据主体。其次对于消费贷没有区分场景,没有区分贷款方是持牌或是非持牌类消费金融机构,也没有与用银行信用卡以卡养卡套现、涉及诈骗的套路贷、校园贷等区隔开来。在对于网贷众生相的描摹中,个体的悲苦和离奇境遇在这类社会题材的「特稿」中是成立的。但出发点是否以偏概全,对不同类型的债务该如何归纳梳理,资本和监管的角色如何,这些疑问在稿件操作的过程中,始终没有被厘清,而这篇试图对网络小贷包罗万象稿件的新媒体稿,终究因为与编辑达不成共识,未曾定稿。现在看来,认知上的断层、完全以被访者的主观陈述出发,缺少更加专业的判断分析,让这种大杂烩式的特稿成为皮毛,触及不了底层本质。写出一个「好看」的、喧嚣的故事不难,但是不应该舍本逐末、哗众取宠,一味注重吸睛的煽情主义黄色新闻,却蔑视或者不做扎实的案头考据,只重视耸动的碎片化事实,或者说被受访者投喂的事实,甚至没有去质疑或者交叉核查这些信息的有效性,不注重术业有专攻,信息取之有道,以及方法论本身是否符合行业规范。

00
OrangeCLK
4天前
里面提到一点:ComfyUI不适配专业设计师。实践中我也体会到AI绘图给设计师能帮上的忙不太多,ComfyUI也用不起来,不知道明年能不能有新的工具可以让设计工作更有效率一些。

EP 64. 对话 Comfy 核心中国力量:多模态生成全球狂奔之年,开源与商业化发生了什么

OnBoard!

12