即刻App年轻人的同好社区
下载
App内打开
承安
109关注13被关注0夸夸
一个喜欢前沿科技的数据集、数据标注的saleman
做过区块链产品运营、云计算、电子签。
打算将AI4science探索到底,拥抱变化每一天
承安
02:01
什么是RAG?基本原理是啥?为何我们说通用模型只是起到了总结作用?🤔
AI知识库
【提供高质量数据集】
【业余业余人员的整理】
【这只是我的偏执和爱好】
整理完毕‼️补充完毕了,中间我试了试CherryStudio玩了下现有的开源工具。[暗中观察R]感兴趣的可以试试

什么是rag?又如何搭建自己的AI知识库? - 小红书

00
承安
3天前
前几日👀自己发的笔记,才发现之前准备过rag

后面偶然刷到后,就整理下RAG的笔记。
以为搞定了AI知识库和切片、向量存储……
没想到刷到一个公众,才发现RAG还有更复杂的架构。
真的是😦学不完学不完
#自学#你是怎么自学的
#AIGC创作大赛·夏日
70
承安
3天前
【模型的推理能力如何提升?!!】
——入行学习半个月
除了在算法和模型框架上下功夫,还有一块就是提升喂给数据集的质量。

比如我们想提高模型在解答数学题、物理题的能力。那么我们就可以收集大量的题目以及详细的解答过程的数据集。

【数据集、数据标注】

于是我们计划,整理一批关于coding、数学、物理以及类似lean4格式的reasoning,还有高水平的IMO题目等多模态Benchmark题目合集。
需要可以联系~

👇则是我们整理的近期agent开源数据集

最全Agent开源数据集分享系列一

00
承安
4天前
#高质量数据集
浙江大学计算机创新研究院孵化的AI数据标注团队--整数智能(www.molardata.com
目前团队由浙江大学及国内外各大高校的硕博毕业生组成,且是一家全球化的公司,在海外都有多个标注基地。目前也在行业内做了SuperGPQA、OmniDocBench的工作,以及IMO级别的lean4格式的reasoning数据集。

Best wish,总的说涉及数据需求的复杂、废时、废人力的事情就交给我们。我个人也提供算力相关的服务

提供的部分:
-「丰富的标注工具」(可定制工具)
ꔷ 2D:图像分类、关键点、2D语义分割、立体框、OCR标注、图像逐帧
ꔷ 3D:3D点云框、语义分割、车道线标注、2D/3D融合工具
ꔷ 文本:NER、SPO文本三元、逻辑链(预)
ꔷ 音频:ASR标注、音素标注
ꔷ 4D:4D标注、ACL多模态
ꔷ 前沿:RLHF、SFT、合成数据
技术上有效减低跳变问题,保证Cuboid大小一致
00
承安
18天前
高质量的ai模型、自动驾驶
离不开高质量的数据集

https://mp.weixin.qq.com/s/IR25G0yDHjhlLTQkXe9aSw

00
承安
25天前
👌在整数智能做Ai标注
提供优质的训练集
20
承安
2月前
新技能
00
承安
2月前
有个有趣的事情
抖音变化:
抖音今年在长内容上加入了关闭屏幕可听的功能。———一边在小宇宙做博客一边又可以将视频内容投放在抖音上。可能博客在高质量内容传播中的比例会上升🔝。
另一个是社交。
互联网产品的光明顶是社交,人与人发生关系(社会关系)的前提是验明身份。而腾讯捞捞的把握了国人14亿的互联网身份这个基础设施。用社交去做任何新业务都是一种下坡攻击。特别是流量产品
于是今年抖音的朋友板块改版,加入了再添加好友的功能。社交网络这块字节可能在2025年会加大投入。
00
承安
3月前
偏执使然,做业务几年了。越来越想自己做个产品出来,于是从去年开始自学产品设计、数据分析、数据表结构、uml建模语言……
但是好像还是很难。
目前失业的状态下,存款耗尽。我要不要放弃
00
承安
4月前
自控能力确实是人与人拉开距离的核心原因,现在娱乐软件和移动端绑架了太多注意力
00