复盘下近期用ai做中高端商业项目的经历吧⬇️
😂首先,最近的两个项目都失败了,甲方都是大品牌,预算较多(以aigc报价标准来看)战线长且频繁确认。和甲方们的沟通方式都是完全做好一个步骤就审核一个步骤,这样相对不会浪费双方时间,但缺少深入探讨和解决问题的空间。
✌️两个活都是被要求使用ai做多个场景的设计,并让场景和产品或人物完美结合🖼️
1️⃣一个项目做产品宣传照,要求完全逼真写实摄影风格,祛除ai味的同时还对景观,构图,光线都有具体要求。
2️⃣另一个项目是服务于短片,风格和创意有一定发挥空间,但场景里的核心元素有非常具体的要求,客户希望有炸裂视觉效果的同时也能精准表现一些必要的元素(如:墙上有一幅画,画里有具体的某人,画在燃烧🔥如同《道林格雷的画像),另外,还要做出特定效果的视频片段🎬给后期团队合成。
真正的难点有两个,因为要匹配特定角度的人或产品,所以对构图和透视要求很苛刻;一些特定的景物必须用ai完美搞定,景物在现实生活中还不存在🥵至于画面风格和视频动态,虽然很重要,但因为之前做过很大强度的相关训练所以难度不大。
🎛️我使用的主力AI工具有mj,flux/sd(comfyui),recraft,gpt 4o,即梦和lib也有用到但参与度很低。
💢遇到的问题和挣扎过程:
我的思路是先用prompt和参考图搞定构图,之后用lora和各种风格种子搞定美术风格,再通过参数调整控制精度和风格耦合度,最后上comfyui和ps做合成和精修。几块工作分明,这样相对可控便于调整。
问题还是出在可控性上⚠️mj可以搞定视觉风格,但出图可控性极差;flux体系下比较好的风格都相对泛滥入不了甲方法眼且细节瑕疵也很多,因此只能去炼丹了----炼丹解决两个问题,精确 and 审美✌️
由于基于flux/sd训练专属的lora时间来不及,所以转而“冒险”去用mj的profile和moodboard功能。这两个功能和flux/sd训练lora的底层逻辑是很像的,都是需要精挑细选训练集(参考图)但是mj为使用者省去了打标和调参数这两个很耗精力的步骤,另外我看到过老外用这个路径实现过很高水准的商业作品👍因此觉得值得一试~
然后我花了海量的时间准备和搜集素材⏳并花同样多的时间去筛选素材和调试训练成果...这个过程异常艰辛,在大部分画面中,我需要控制的要素至少有4️⃣种:透视,光影色调,物体造型,质感和材质。而mj调试这些要素的参数又有好几个维度:模型版本,基础风格(profile),特定风格和参考程度(moodboard)等等等等🫨在连续工作好几个小时后,搞出几张自己还算满意的图……但最终还是放弃了这条路线❌因为一旦甲方提出一些修改要求,无论是深入到具体参数和训练集细节里做调整,还是整个流程重跑一遍,后果都是都是灾难性的...除非我能笃定一版就能征服甲方爸爸,但这是不可能的😂尤其是项目1️⃣处于作品发布能有更好效果而不是只做个“行活”,我决定适当冒险,用了一个不太常见的风格。
目前aigc就是这样,缺乏成熟可靠的工作方法,这个时候只能发挥主观能动性大胆尝试更多路径。于是我打开了传说中的gpt 4o,把几张mj做的风格ok细节欠佳的图喂给它,通过精确的指令让其修改和调整画面。gpt的可操控性确实强大👍可以说是言出法随,但硬伤在于审美过于单一,所有原图的风格都遭到了一定程度上的破坏。最终gpt还是搞定了两组场景,用时仅花费半小时。
⏳留给我的时间不多了...recraft是最后的救命稻草,recraft最近出了新的功能,可以最多上传五个参考图,支持自由调整各个参考图的权重,不仅能控制光影色调和材质,还可以定制构图偏好,可谓“一键训练小模型”。另外recraft还有不输于大部分comfyui工作流的一键换背景功能,我可以先摆放好人物和产品,之后配合训练的“小模型”让recraft直接生成透视正确又兼具风格的场景。事实证明,这个尝试大体成功了,不过recraft自制“小模型”局限太大了太大了,我一口气弄了十多个style,有的侧重景物、有的侧重构图、有的侧重光影,用来满足特定和具体需求,前后耗时又是大几个小时....
最终,我凭借mj加gpt和recraft,还有comfyui微调细节的方式及时交了第一轮作业....甲方给予了修改反馈,一家因为风格不匹配要大改,一家需要精度和细节再upup,于是都果断又遗憾的选择了终止合作🔥战斗过也燃尽了,感谢甲方,我们都对“美”有苛刻要求,但继续改下去对双方都会造成很大负担和困扰。
问题出在素材和模型储备不足,还有当前工作方法的客观缺陷。ai工作流若要产出媲美顶尖摄影或cg工业的作品,我认为还是有一定胜算,但要投入巨量的人力和时间成本。
一些思考🤔
视觉类aigc的精髓在训练,当然prompt也很重要,但视觉和语言之前的差距,像一座大山。想要作品足够美足够准确,就去认真针对具体场景和需求训练lora/profile/style等等等吧,prompt只是一个启动器,用来运用和调度诸多大小模型的能力。
目前aigc工具之间的割裂程度,好像一座大山。每遇到一个特定需求就要摸索一套特定的工作方法,去排布这些工具的使用顺序和比率,这个过程非常锻炼人,但长期看也很没意义😂aigc什么时候可以具备工业级的内容产出能力,这是个太大话题...但我觉得仅仅是未来一小段时间内,无论是企业还是个人,积极探索和积累ai工作流价值很巨大。
诸多ai工具里,midjourney暂时离商业落地最远,但v7发布后的一系列功能迭代,让我对它还是持有乐观态度,哪怕它还是解决不了可控和精度问题,也完全可以在创意/审美积累和风格探索上发挥巨大作用,作为创作最底层。
flux体系现在离商业应用最近,如果项目1️⃣给我更宽裕的时间,我会用flux来工作,不过有趣的是,用flux基本就要用lora,而很多牛比lora的训练集又是由Midjourney提供,所以我还是在用Midjourney➕flux😂
gpt潜力看上去很大,或许代表了未来的趋势,即模型即应用,相比下来comfyui可能只是过渡时期的产物。
最后的最后,我更加坚定的认为,用好ai,功夫不在ai上。考虑到我自己的工作偏好,计划接下来投入大部分时间在手绘和传统cg技术上,因为它们可以让我更加完善,而ai不能。