端午打算让宿舍里的 RTX 3060 连跑 72 小时 AI 服务。
一张显卡塞了两个模型:
· Gemma 12B:日常问答,回答严谨不胡说
· 20B 长文模型:16384 上下文,生成 71 tok/s
全依赖 Flash Attention 和 Q8_0 缓存优化,把显存压到极限才跑出来。
成本就一张卡钱,端午测试只摊电费:
① 留言“求测试”,免费领 500 Tokens
② 0.99 元/天,全模型畅玩
③ 2.99 元,端午畅玩包
源码已开源:
github.com⚠️ 端午当天(6.19)统一开机发 Key,现在先预约占坑~
#独立开发的日常 #AI工作流