惜心伟祺的个人主页

即刻App年轻人的同好社区

下载

App内打开

惜心伟祺

6关注12被关注0夸夸

推荐排序广告搜索到nlp到aigc一路走来

惜心伟祺

2年前

海贝壳--静物

01:30

0 00

惜心伟祺

2年前

剑客

01:40

1 00

惜心伟祺

3年前

事缓则圆

0 00

惜心伟祺

3年前

transformer架构中softmax漏洞在讲什么

意思是：
1.逗号句号是异常值，可以出现在每个单词后，也可能每个单词后不出现它
2.逗号句号出现预料中频率很高，为了保证预测准确性，网络每个参数精度要高
3.softmax不存在忽略预测值选项，所以为了保证预测值需要参数精度高
4.softmax优化后在分母加一，梯度有趋于零的选择，就是可以忽略异常值选项
所以就是引入忽略异常值选项后，参数精度可以低还能保效，训练可以更快不需要犹豫异常值抉择
这种底层问题发现确实牛逼

ChatGPT危了！「注意力公式」8年神秘bug首曝光，Transformer模型恐大受冲击

0 00

惜心伟祺

3年前

试了下sdxl
整体效果提升不少
语意理解有提升
控制力还是不太够

0 00

惜心伟祺

3年前

大模型出厂应该具备什么能力

chatglm6b确实在垂类存在微调容易掉其它能力问题
感觉模型是参数太少问题出厂时候训练够多
但从参与度角讲参数确实不够鲁棒应该是没做出厂参数分布位校对
这其实可以理解：
1.这难度很大复杂度很高
2.不太容易衡量参数后调的鲁棒位在哪
这其实就很像在调试一台精密仪器的参数，要在各种环境表现都不错，同时在各种环境微调还要容易调

llama确实出厂参数调都不错应该内部有团队很关注这块
所以你看市面基于llama做二次模型训练很多
生态也很不错
但是glm其实基本就是chatglm直接用
基本看不到基于glm做的二次训练还能成一个生态的
这个感觉还是glm团队要去考虑的
如何让下游生态能够起来
让其它伙伴容易参与进来

容易补强垂类没有的能力好训练这一定是很重要一条
否则你学了一些又掉了一些我为什么不用专用模型呢

0 00

惜心伟祺

3年前

大模型agent能否构建新的数据驱动范式
大模型带来的对稠密信息的处理和消费能力
会推动数据产业更进一步发展

zhuanlan.zhihu.com

安全验证 - 知乎

0 00

惜心伟祺

3年前

专用模型和大模型区别

专用模型在特定任务上数据集合如果够
任务得到足够训练理论是可以做到很不错的效果的
那为什么还需要再设计大模型提出大模型的概念
大模型的优势何在这个问题相信大家都困扰过
如果从解决已知问题角度考虑确实两者差别不大
但是一个本质区别是：大模型可以解决它训练数据集里没出现过的问题
也就是说大模型进入zeroshot和fewshot能力
那么为什么大模型会具备这样能力呢
1.大模型给的数据多，需要记住这么多数据，逼迫它学会一些知识内部结构（知识能力分层）
2.大模型在任务设计的时候就已经考虑了能力分层和抽象化概念的能力