即刻App年轻人的同好社区
下载
App内打开
惜心伟祺
6关注12被关注0夸夸
推荐排序 广告搜索 到nlp到aigc一路走来
惜心伟祺
2年前
海贝壳--静物
01:30
00
惜心伟祺
2年前
剑客
01:40
00
惜心伟祺
3年前
事缓则圆
00
惜心伟祺
3年前
transformer架构中softmax漏洞在讲什么

意思是:
1.逗号句号是异常值,可以出现在每个单词后,也可能每个单词后不出现它
2.逗号句号出现预料中频率很高,为了保证预测准确性,网络每个参数精度要高
3.softmax不存在忽略预测值选项,所以为了保证预测值需要参数精度高
4.softmax优化后在分母加一,梯度有趋于零的选择,就是可以忽略异常值选项
所以就是引入忽略异常值选项后,参数精度可以低还能保效,训练可以更快不需要犹豫异常值抉择
这种底层问题发现确实牛逼

ChatGPT危了!「注意力公式」8年神秘bug首曝光,Transformer模型恐大受冲击

00
惜心伟祺
3年前
试了下sdxl
整体效果提升不少
语意理解有提升
控制力还是不太够
00
惜心伟祺
3年前
大模型出厂应该具备什么能力

chatglm6b确实在垂类存在微调容易掉其它能力问题
感觉模型是参数太少问题 出厂时候训练够多
但从参与度角讲 参数确实不够鲁棒应该是没做出厂参数分布位校对
这其实可以理解
1.这难度很大 复杂度很高
2.不太容易衡量参数后调的鲁棒位在哪
这其实就很像在调试一台精密仪器的参数,要在各种环境表现都不错,同时在各种环境微调还要容易调

llama确实出厂参数调都不错 应该内部有团队很关注这块
所以你看市面基于llama做二次模型训练很多
生态也很不错
但是glm其实基本就是chatglm直接用
基本看不到基于glm做的二次训练还能成一个生态的
这个感觉还是glm团队要去考虑的
如何让下游生态能够起来
让其它伙伴容易参与进来

容易补强垂类没有的能力 好训练 这一定是很重要一条
否则你学了一些又掉了一些 我为什么不用专用模型呢
00
惜心伟祺
3年前
大模型agent能否构建新的数据驱动范式
大模型带来的对稠密信息的处理和消费能力
会推动数据产业更进一步发展

zhuanlan.zhihu.com

安全验证 - 知乎

00
惜心伟祺
3年前
专用模型和大模型区别

专用模型在特定任务上数据集合如果够
任务得到足够训练理论是可以做到很不错的效果的
那为什么还需要再设计大模型 提出大模型的概念
大模型的优势何在 这个问题相信大家都困扰过
如果从解决已知问题角度考虑 确实两者差别不大
但是一个本质区别是:大模型可以解决它训练数据集里没出现过的问题
也就是说大模型进入zeroshot和fewshot能力
那么为什么大模型会具备这样能力呢
1.大模型给的数据多,需要记住这么多数据,逼迫它学会一些知识内部结构(知识能力分层)
2.大模型在任务设计的时候就已经考虑了能力分层和抽象化概念的能力

远洋之帆 的想法: 专用模型和大模型区别 | 专用模型在特定… - 知乎

00
惜心伟祺
3年前
uncondition3d的用处
00
惜心伟祺
3年前
大模型看似简单为何却不容易做出来
个人觉得思维差异 大家还在单模型惯性思维
可大模型确实系统工程思维
所以训练技术侧讲是一次技术升级

安全验证 - 知乎

00