Q为什么要构建内容审查系统?
1.确保模型不会产生政策禁止内容。
2.跟踪和评估输入输出,确保符合安全标准。
3.为特定内容(教育等高敏内容)提供精准的内容控制粒度。
内容审查系统设计与训练方法
1.分类
涉及详细分层分类法,减少标注时判断主观性。
2.主动学习
从生产的内容中注定捕获罕见事件。
3.质量控制
通过定期校准会议优化标注指令,解决标注者主观差异。
4.合成数据
用AI使用LLM生成数据解决内容冷启动和反事实偏差问题。
5.领域自适应
解决分布差异,即公开数据与真实生产数据不匹配的问题。
6.模型探查
通过红队测试(人工故意诱导模型犯错)和关键词探查识别模型的过拟合与弱点。
如何建立一个大模型?
1.整合公开数据(crawled,academia)与合成generated数据,构建冷启动数据集。
2.汇集冷启动数据、标注后的生产数据(人工打标的真实用户数据)、增强数据(为了补齐模型短板而针对性构造的数据),形成训练集,通过评估和用户反馈形成闭环。
3.建立F1核心评估指标,针对不同类别阈值设置进行分析。如自伤等类别极度稀缺且风险极高,模型要在此类指标上特殊加权。将新模型与现有API在相同测试集上进行横向比较。
3.舆情监测。捕获统计报告的漏报、误报样本,基于新taxonomy评估指令重新标注。根据情报➕用户反馈频次和严重程度,调整该类样本在训练集中权重。
4.主动学习。模型对未标注数据进行筛选,挑选高价值样本进行人工标注再回流至训练集。
5.结合数据增强和公平与偏差修正优化模型。
如何识别模型表现差距与漏洞?
通过对抗性评估与细粒度探测,对比模型预测值和专家标注,分析F1偏低上特定类别,定位失分点。主要方式包括红队人工对抗,以及输入缩减寻找最小集。
如何提出有效举措以提升模型表现?
主要通过针对性补丁和领域迁移。通过主动学习选择高价值样本进行人工标注,合成数据用于针对性提升,让模型主动特征提取、判断数据来源、特征博弈,从而忽略跨领域噪音、关注风险特征本身,学会跨领域识别风险。