即刻App年轻人的同好社区
下载
App内打开
GitHub充电宝
8关注1k被关注1夸夸
💫 一个深耕互联网行业的技术宅。
🧣微博同名!
GitHub充电宝
8天前
MiniMax 旗下 Speech-02语音模型登顶TTS TOP1。

全球第一个真正实现多样化、个性化定义的语音模型。

除了常用的语音克隆及TTS外,还可以实现通过对音色的文字描述生成对应音色(C端暂未上线),在同一段语音中,也可实现跨语言的高质量语音合成。

详细的实测内容:mp.weixin.qq.com

体验地址:www.minimaxi.com
11
GitHub充电宝
14天前
字节把【Coze/飞书低代码工作流】核心开源了!

字节跳动(ByteDance)近期开源了其基于节点的流程构建引擎:FlowGram。而且也是在飞书工作流、扣子自动化 等产品中使用的核心可视化流程引擎。

结合节点式设计和 AI 增强功能,提供直观的可视化工作流构建体验。它支持 固定布局(结构化流程) 和 自由布局(灵活连接),通过 AI 自动化任务(如数据清洗、报告生成),并允许开发者扩展节点功能。

它通过前端可视化编辑器(React)实现节点拖拽和连接,结合后端 AI 集成(支持 豆包、DeepSeek、Kimi 等通用大模型),提供流畅的交互体验。FlowGram 的设计目标是简化工作流开发,同时通过 AI 增强自动化能力。

特别适合需要明确输入输出的可视化工作流场景。

核心功能亮点
• 双布局模式:支持固定布局、自由布局,可实现卡片式排布(节点拖拽)或流程图式排布(自由线条连接)。
• AI 能力增强:可接入豆包、月之暗面Kimi、DeepSeek等大模型能力,增强工作流的智能化处理。
• 丰富的交互体验:提供拖拽、连线、节点配置、参数输入、状态高亮等交互设计,确保输入输出清晰。
• 节点控制丰富:分支判断、循环执行、嵌套子流程、条件表达式等均可灵活配置
• 强大的扩展能力:具备良好扩展性,可为节点增加自定义功能或集成外部服务
• 低代码能力支撑:具备构建更大规模自动化系统的基础组件和扩展体系

GitHub:github.com
官网:flowgram.ai
12
GitHub充电宝
17天前
英伟达在5月1日发布了一款开源语音识别模型:Parakeet TDT 0.6B V2,其以 600M 参数登顶 Hugging Face Open ASR 榜单。

平均词错误率(WER)仅 6.05%,超越所有主流闭源模型。它能在 1 秒内转录 60 分钟高质量音频。

基于 FastConformer 架构和 TDT 解码器,仅用 600M 参数实现超低 WER 和极快推理速度。训练数据为 12 万小时 Granary 数据集(含 LibriSpeech、Common Voice 等)。

CC-BY-4.0 许可允许商业和非商业使用!

HF 模型地址:huggingface.co
ASR 排行:huggingface.co
01
GitHub充电宝
21天前
给代码库做个CT扫描,一键生成交互式Wiki文档!

DeepWiki-Open是一款开源 AI 文档生成工具!主打 AI 驱动的代码分析和自动化文档生成!

它将 GitHub 或 GitLab 仓库一键转为交互式 Wiki,生成结构化文档和 Mermaid 图表,让开发者快速掌握项目全貌。

基于 FastAPI(后端)、Next.js(前端)和 RAG 技术。通过分析代码库的结构、文件和 README,生成交互式 Wiki 文档,包含架构图、模块说明和依赖关系。

主要功能
• 一键生成交互式 Wiki: 自动将 GitHub/GitLab 仓库转为交互式 Wiki 文档
• 支持私有仓库:支持 Git 私钥配置,安全接入你的企业/私有项目
• AI 智能分析:利用 LLM 解析模块结构、函数含义、依赖关系等
• Mermaid 图表可视化: 自动绘制项目模块架构图、函数依赖图(Mermaid.js)
• 类维基导航结构:文件、模块、类、函数逐层展开,逻辑层次清晰
• 交互式前端:清爽 UI,支持全文检索、代码预览、图谱浏览

GitHub:github.com
08
GitHub充电宝
22天前
新型轻量级音频模型问世!1.5B参数挑战 Whisper 与 Qwen2-Audio!

Aero-1-Audio 是一款新型的1.5B参数音频模型,由 LMMs-Lab 开发,基于 Qwen-2.5-1.5B 构建。

训练仅需 16 个 H100 GPU 和 50k 小时音频数据(约 5B 令牌),耗时不到 24 小时。其独特能力是处理长达 15 分钟的连续音频,无需分段,保持上下文连贯性。

核心功能
• 轻量模型体积:仅 1.5B 参数
• 支持长音频:可处理最长 15 分钟连续语音,无需分段,可保持上下文连贯
• 语音识别(ASR):在语音识别准确率高
• 音频理解:支持复杂音频分析(如语音、音效、音乐)和指令驱动任务

HF模型:huggingface.co
HF体验:huggingface.co
03
GitHub充电宝
25天前
今天我要给大家分享一个真正能让你“轻松上手,快速开发”的宝藏开源框架:FastMCP。

它的存在,就像是给开发者开了一道绿灯:既能帮你省下大量处理底层细节的时间,又能让你专注在功能创新和业务逻辑上!

#FastMCP,这款最近开源的超级轻量 Python 框架,直接把 MCP 开发体验提升了一个维度!

只需简单几行代码,就能快速定义工具、资源、提示,搭建完整的 MCP Server & Client。

主要特性
• 简洁优雅的装饰器语法:使用简单 Python 装饰器定义 MCP 工具/资源/提示
• 工具链支持:快速组合多个工具,支持单工具、多工具、组合式智能体
• API 集成:内置 OpenAPI/FastAPI 支持,一键将现有 API 转为 MCP 服务
• 图像处理原生支持:内置了图像处理模块,轻松搞定图像上传、压缩、转码等操作
• LLM 客户端功能:支持连接任意 MCP 服务器,自动检测传输协议

GitHub:github.com
09
GitHub充电宝
26天前
月之暗面 Moonshot AI 正式开源了 Kimi-Audio,可以帮助我们解决处理音频时来回切换不同工具的痛点。

它是一款开源音频基础模型,基于 Qwen 2.5-7B 构建,可以统一处理音频理解、生成和对话任务。

依托 1300 万小时音频数据预训练,通过混合输入(离散语义标记 + 连续声学特征)与创新架构,统一多种任务。

Kimi-Audio 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、情感识别(SER)、声音分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。

主要功能
• 语音识别 (ASR):在AISHELL-1上字错误率(WER)仅 0.60%,优于 Whisper 和 Paraformer
• 多任务音频理解:声音分类、情感识别、音频问答任务,表现出色
• 端到端语音对话:支持情绪、口音、语速等个性化控制
• 高效流式生成:使用 BigVGAN 声码器和分块流机制(look-ahead),延迟低至毫秒级
• 开源评估工具包:Kimi-Audio-Evalkit 提供标准化评估,覆盖 ASR、AQA、SER 等任务

GitHub:github.com
模型 HuggingFace:huggingface.co
03
GitHub充电宝
27天前
一款在昨日登顶 GitHub Trending 的榜首项目:Suna,可以通过自然语言对话,整合浏览器自动化、文件管理、网络爬虫和 API 集成等强大功能,轻松完成市场调研、行程规划、数据分析等复杂任务。

3天内新增了 5.5K+ Star!从4月23日的 780 飙升到现在的 6.4K 标星!

Suna 是一个开源通用 AI 代理平台。

它通过 Python/FastAPI 后端、Next.js/React 前端和 Docker 隔离环境,结合 Chromium 浏览器、Redis 数据持久化和 LiteLLM(支持 Claude、GPT-4o LLM),提供强大的任务自动化能力。

所有动作都可在隔离的 Docker 沙箱中执行,安全性拉满。

GitHub:github.com/kortix-ai/suna
在线体验:www.suna.so
335
GitHub充电宝
29天前
大部分 OCR 工具存在许多痛点,比如:配置繁琐、模型庞大、图表识别差、精度低、识别结构乱、不能图文结合理解等等。

而且传统 OCR 工具非常依赖文本提取。

今天给小伙伴们推荐一款彻底摆脱传统 OCR 限制的 AI 文档处理神器:No-OCR。

它不再依赖 OCR,而是用多模态 AI + 向量索引来理解整本 PDF,支持图文混合搜索、视觉问答、内容归档查询,是文档智能搜索与问答的全新范式!

真正的无需 OCR 即可实现轻松处理复杂布局、图表和图像,极大提升文档分析效率。

GitHub: github.com/kyryl-opens-ml/no-ocr
525
GitHub充电宝
1月前
经常做自媒体的小伙伴们,水印移除一直是图片处理的难题,最近在 GitHub 又发现一款完全开源免费的 AI 水印移除工具:WatermarkRemover-AI。

经常做自媒体的小伙伴们,水印移除一直是图片处理的难题,最近发现一款完全开源免费的 AI 水印移除工具:WatermarkRemover-AI。

主要功能
支持多图批量处理:支持单张图片或整个文件夹批量去水印
提供精准水印识别:基于微软Florence-2视觉大模型,可识别各种样式水印
上下文感知修复:使用 LaMa inpainting 模型,实现“原图级”上下文感知图像填补
灵活配置支持:可设置水印最大尺寸、透明度灵敏度,适配不同图片
多格式输出:支持导出为 .png / .webp / .jpg
GUI + 命令行双模式:提供图形界面操作和 CLI 脚本
无需 GPU 支持:在普通笔记本也能流畅运行,轻量级推理

GitHub:github.com/D-Ogi/WatermarkRemover-AI
858