大神Andrej Karpathy用vibe coding做了一个菜单图片生成器MenuGen,是AI编程非常好的案例,详细说明了需求来源,编程的思路,遇到的各种问题,最终上线的体验。
MenuGen体验地址
www.menugen.app关于这个需求痛点,我深有同感,在美国欧洲的餐厅点餐,拿到菜单,就是一页纯文字的菜品列表,只有名称+一行文字说明,根本不知道这些菜到底是怎么样的。
我刚开始以为是自己英语菜,但是问了local同事,他们也说其实也经常看不懂,所以他们会查Google maps的食物图片。我问为什么餐厅不改成图文并茂的菜单,比如中餐馆,说这样就不够好看 aesthetically appealing🙄
Karpathy用cursor+claude 3.7编程,拍照,用OpenAI API做OCR识别菜单,用了Replicate API基于菜品描述生成图片,逻辑比较简单,生成图片跟餐厅的实际菜品可能也有差别,但对食客来说已经够用了。
由此对AI编程的一些思考
1. AI编程不是单纯降低传统编程的成本,而是开拓新的场景。大厂程序员的饭碗还是很稳定的,AI编程只能做做小东西,还无法根据产品经理的需求单来生成可用代码,以及多年积攒下来的屎山代码,也不是大模型能驾驭得了的。
2. 很多需求没有被满足,不是单纯编程成本的问题,还涉及到利益格局。比如美国餐厅坚持用纯文字菜单,为了审美调性,不然图文并茂会让餐厅掉价,虽然顾客需要图片参考;比如出版社对采用AI翻译的意愿不高,因为每个语种都可以卖版权,一键AI翻译后,他们没办法赚钱了。围绕用户的个性需求,AI编程可以避开这些传统利益带来的限制。
3. 现在大模型本身可能不是最大的瓶颈,而是服务于大模型的基建缺乏。过去几十年,互联网进行了数字化,线上化,但这套信息基建是围绕人建立的,比如人的鼠标+键盘+显示器对应的交互,或者各种文档、接口是给程序员看的。如果我们接下来把大模型当做一个人,那就需要为它配备对应的基础服务,帮它landing好,否则它没办法好好干活
4. 过去的旧分类,会被新生事物打破。figma是个设计UI的软件,但它这周推出了Figma make,设计师直接基于设计草稿就可以生成可交互的网页;Canva是个图片模板产品,但4月也推出 canva code,图片模板创作者不再是它的唯一供给,营销图片也不是它唯一能满足的场景;秘塔搜索支持对搜索结果,生成可视化的网页,编程这里是内容的呈现方式,而不是功能。