这两天看到一个帖子:让 CC 输出 HTML 代替 Markdown 来解决输出太长不想读的问题。
突然想到这本质上还是因为 CLI 这种回合制的交互形态足够通用但不够友好,GUI 虽友好但缺乏一套高自由度且低成本的 harness,鼠标、摄像头、数位板等输入设备成了摆设,用户被 CLI 捆住了手脚。
市面上有一些看似 GUI,但本质上仍然是 CLI 交互形态的产品,比如 Manus、Workbuddy 等等,这类产品并没有解决人机交互自由度的问题,仅仅类似于 IPython 到Jupyter Notebook 的演进:可能对一小部分专业用户有帮助,但不可能成为国民级产品形态。
人没法想象没见过的东西,所以在我有限的认知范围内,定制化的浏览器大概会是下一代 Agent 产品的主要交互形态:模型输出前端页面,并且能够理解用户与自己所输出内容的交互行为,进而做出相应的反馈。(新的前端标准需要被制订,前端的春天要回来了?)
这个演进的过程大概会像 PC 图形界面演化一样:算力和 token 成本突破某个临界点,同时出现一家苹果式的公司/团队/独立开发者。也会类似功能机到智能机的进化,诞生一个平台/框架,在此基础上生长出世间万物🤔