即刻App年轻人的同好社区
下载
App内打开
HwangSSS
1k关注4k被关注5夸夸
↦ 💼在 AFFiNE
↦ 做过 handstime.app/sleepycoffee.app/lofidot.com
HwangSSS
1天前
中午看了一下 Google I/O 的视频。不得不说,Google 修自行车这个 Case,真的比 Apple 拿个手机扫描狗狗高多了...
00
HwangSSS
7天前
现在流行搞一堆原子化的 tool,让一个基础 LLM 在一个沙盒里面做强化学习。Open AI 刚刚出的 Codex-1 应该就是吧? 那是不是 Browser-1、Computer-1 都在路上了。
00
HwangSSS
10天前
我有一个很简单的测试 Agent 能力的 case

Use the PokéAPI to create a Notion Database for me. It needs to:

Get basic Pokémon information
Get Pokémon abilities
Get Pokémon forms
Get game indices
Get Pokémon held items
Get Pokémon base stats and other data Then, each Pokémon should correspond to one record in the database.

Include Pokémon from number 1 to 386, and I want to ensure their images are visible in the Gallery view.And use tool calling, in this [Notion URL] page

首先 PokeAPI 是一个免登陆就可以获取数据的 API,然后这个任务,需要获取 386 条数据,如果是一般的 LLM 通过 tool calling 处理,实际上很容易出错、上下文超出。基本上没有办法做到。但是这又是一个现有模型理论上能达成的需求。几乎所有主流的大模型,都能正确判断需要怎么实现需求。

如果是一个会点编程的人,在 Cursor 这样的编程软件帮助下,很快就能完成。其实就是简单的 python 脚本就能做到。

然后主要考察的能力是能否完成这任务,处理上下文超出的情况,然后执行脚本或者 tool calling 的处理。
03
HwangSSS
10天前
什么时候,足球鞋也成为时尚单品了 🤣
00
HwangSSS
14天前
最近试 o3 ,感觉和 Claude 有很明显的区别。o3 总是会多看很多信息,然后再开始工作。aka 用很多 tool calling aka 花更多钱 aka🌚 真是一个勤奋好模型。
00
HwangSSS
23天前
我试了,Claude / Gemini / o3 在没有复杂 prompt 的情况下,都不太可用 //@AndyXu: 你试一下复杂的甚至有细节的 svg 看看, claude 应该是远超其他几个的

HwangSSS: 测试了一下几个模型画SVG 的能力 🤔,除了 o4-mini / 4o 其他都还不错。

00
HwangSSS
24天前
测试了一下几个模型画SVG 的能力 🤔,除了 o4-mini / 4o 其他都还不错。
52
HwangSSS
24天前
模型会越来越强,价格会越来越便宜。

所有模型外增强模型能力的部分都会被模型内化,变成模型越来越强的一个部分。

看到 o3 的128k long content 能力已经是 100分了🙃
00
HwangSSS
1月前
很多人说大厂不会变成 AI 的接口,事实是一样的事情在过去就发生过了。比如,百度自己也觉得不会被移动互联网冲击。

说到底,你不做接口,有的是人做。大厂最怕的就是掉队,最喜欢做的事就是跟风。

高德 百度 腾讯地图都做了 MCP 不就是这个道理吗。今天地图服务做了,明天外卖就跟上了,后天 UGC 也来了。

然后人们发现,AI 真的可以给你选一个便宜健康的外卖了,这个世界就变了。

那些不愿意变成接口的大公司,发现业务增长真的掉队了。
60
HwangSSS
1月前
当我以为“库存克星”只是调侃时,发现原来 Cook 早就说过 “库存是邪恶”的 😆
00