即刻App年轻人的同好社区
下载
App内打开
GitHub充电宝
8关注1k被关注1夸夸
💫 一个深耕互联网行业的技术宅。
🧣微博同名!
GitHub充电宝
1天前
今天我要给大家分享一个真正能让你“轻松上手,快速开发”的宝藏开源框架:FastMCP。

它的存在,就像是给开发者开了一道绿灯:既能帮你省下大量处理底层细节的时间,又能让你专注在功能创新和业务逻辑上!

#FastMCP,这款最近开源的超级轻量 Python 框架,直接把 MCP 开发体验提升了一个维度!

只需简单几行代码,就能快速定义工具、资源、提示,搭建完整的 MCP Server & Client。

主要特性
• 简洁优雅的装饰器语法:使用简单 Python 装饰器定义 MCP 工具/资源/提示
• 工具链支持:快速组合多个工具,支持单工具、多工具、组合式智能体
• API 集成:内置 OpenAPI/FastAPI 支持,一键将现有 API 转为 MCP 服务
• 图像处理原生支持:内置了图像处理模块,轻松搞定图像上传、压缩、转码等操作
• LLM 客户端功能:支持连接任意 MCP 服务器,自动检测传输协议

GitHub:github.com
01
GitHub充电宝
2天前
月之暗面 Moonshot AI 正式开源了 Kimi-Audio,可以帮助我们解决处理音频时来回切换不同工具的痛点。

它是一款开源音频基础模型,基于 Qwen 2.5-7B 构建,可以统一处理音频理解、生成和对话任务。

依托 1300 万小时音频数据预训练,通过混合输入(离散语义标记 + 连续声学特征)与创新架构,统一多种任务。

Kimi-Audio 支持语音识别(ASR)、音频问答(AQA)、音频字幕(AAC)、情感识别(SER)、声音分类(SEC/ASC)、文本到语音(TTS)、语音转换(VC)和端到端语音对话。

主要功能
• 语音识别 (ASR):在AISHELL-1上字错误率(WER)仅 0.60%,优于 Whisper 和 Paraformer
• 多任务音频理解:声音分类、情感识别、音频问答任务,表现出色
• 端到端语音对话:支持情绪、口音、语速等个性化控制
• 高效流式生成:使用 BigVGAN 声码器和分块流机制(look-ahead),延迟低至毫秒级
• 开源评估工具包:Kimi-Audio-Evalkit 提供标准化评估,覆盖 ASR、AQA、SER 等任务

GitHub:github.com
模型 HuggingFace:huggingface.co
02
GitHub充电宝
3天前
一款在昨日登顶 GitHub Trending 的榜首项目:Suna,可以通过自然语言对话,整合浏览器自动化、文件管理、网络爬虫和 API 集成等强大功能,轻松完成市场调研、行程规划、数据分析等复杂任务。

3天内新增了 5.5K+ Star!从4月23日的 780 飙升到现在的 6.4K 标星!

Suna 是一个开源通用 AI 代理平台。

它通过 Python/FastAPI 后端、Next.js/React 前端和 Docker 隔离环境,结合 Chromium 浏览器、Redis 数据持久化和 LiteLLM(支持 Claude、GPT-4o LLM),提供强大的任务自动化能力。

所有动作都可在隔离的 Docker 沙箱中执行,安全性拉满。

GitHub:github.com/kortix-ai/suna
在线体验:www.suna.so
322
GitHub充电宝
5天前
大部分 OCR 工具存在许多痛点,比如:配置繁琐、模型庞大、图表识别差、精度低、识别结构乱、不能图文结合理解等等。

而且传统 OCR 工具非常依赖文本提取。

今天给小伙伴们推荐一款彻底摆脱传统 OCR 限制的 AI 文档处理神器:No-OCR。

它不再依赖 OCR,而是用多模态 AI + 向量索引来理解整本 PDF,支持图文混合搜索、视觉问答、内容归档查询,是文档智能搜索与问答的全新范式!

真正的无需 OCR 即可实现轻松处理复杂布局、图表和图像,极大提升文档分析效率。

GitHub: github.com/kyryl-opens-ml/no-ocr
39
GitHub充电宝
8天前
经常做自媒体的小伙伴们,水印移除一直是图片处理的难题,最近在 GitHub 又发现一款完全开源免费的 AI 水印移除工具:WatermarkRemover-AI。

经常做自媒体的小伙伴们,水印移除一直是图片处理的难题,最近发现一款完全开源免费的 AI 水印移除工具:WatermarkRemover-AI。

主要功能
支持多图批量处理:支持单张图片或整个文件夹批量去水印
提供精准水印识别:基于微软Florence-2视觉大模型,可识别各种样式水印
上下文感知修复:使用 LaMa inpainting 模型,实现“原图级”上下文感知图像填补
灵活配置支持:可设置水印最大尺寸、透明度灵敏度,适配不同图片
多格式输出:支持导出为 .png / .webp / .jpg
GUI + 命令行双模式:提供图形界面操作和 CLI 脚本
无需 GPU 支持:在普通笔记本也能流畅运行,轻量级推理

GitHub:github.com/D-Ogi/WatermarkRemover-AI
855
GitHub充电宝
14天前
分享 GitHub 上的一款开源的高效AI数据聚合工具:OneFileLLM。

它能自动从网页、GitHub 仓库、ArXiv 论文、YouTube 视频等来源提取内容,整合为单一文本文件并复制到剪贴板,极大提升 LLM(大语言模型)处理效率。

该工具基于 Python 开发,依赖轻量,支持 PDF、Jupyter Notebook 等格式。

主要功能
多源数据支持:覆盖 GitHub 仓库、ArXiv 论文、YouTube 视频和网页内容等。
多种文件格式处理:支持 PDF、Jupyter Notebook(.ipynb)、Markdown、Python 脚本等多种格式。
内置网页爬取:支持爬取网页及其链接内容,最大深度可配置(默认 2 层)。
Sci-Hub 集成:通过 DOI PMID 自动下载 Sci-Hub 论文,转换为文本。
文本预处理与优化:提供标记计数,确保输出适合 LLM 上下文窗口,并支持 XML 封装,内容更规范。
一键输出至剪贴板:整合内容为单一文本文件,自动复制到剪贴板。

GitHub: github.com/jimmc414/onefilellm
01
GitHub充电宝
16天前
开源 AI 手机操作神器,解锁 Android 自动化新时代!

BrowserUse ComputerUse 席卷 AI 自动化领域后,手机操作类项目终于迎来重磅选手:DroidRun!

这款工具让 AI Agent 能像人类一样操作 Android 手机,结合视觉理解与 UI 结构提取,实现流畅的交互体验。

它不仅能打开 App、发送消息,还能自动导航菜单、处理错误,甚至完成复杂任务如订车或录视频。

项目由一支创新团队开发,目标是让非技术用户也能轻松部署 AI 手机助手。项目尚未正式开源,但据开发者透露,GitHub 仓库即将上线,可能附带完整代码和文档。

主要功能
视觉+UI解析:结合视觉模型(识别屏幕内容)和 UI 结构提取(解析控件树),实现精准交互。
智能自愈机制:智能检测错误(如网络中断、界面变化),自动调整操作路径。
Android Portal APK:类似Agent通行证的Android应用,部署后AI可通过它操控整个系统。
多系统管理(即将上线):支持多台设备多实例,支持复杂工作流与并行处理。
元素追踪(即将上线):精准提取点击元素,复现 LLM 行为,确保自动化一致性。
凭证管理器(即将上线):支持登录信息和 2FA 绑定,个性化你的使用体验。

官网:droidrun.ai
00:21
621
GitHub充电宝
24天前
情感语音的“开源先锋”!网易开源的一款TTS神器:EmotiVoice。

一个强大的开源 TTS 引擎,完全免费,支持中英文双语,还包含2000多种不同的音色,以及特色的情感合成功能,支持合成包含快乐、兴奋、悲伤、愤怒等广泛情感的语音。

同时它还提供 Web 界面和 OpenAI 兼容 API,确保使用与集成的便捷性。无论是个人开发者还是企业用户,EmotiVoice 都能满足多样化需求。

GitHub:github.com/netease-youdao/EmotiVoice
06
GitHub充电宝
24天前
免费开源的吉卜力风格图像神器:EasyControl Ghibli。

效果毫不逊色于GPT-4o!这款轻量级模型不仅完全免费,还能在 Hugging Face 上直接体验。

基于 FLUX.1-dev 的 DiT 架构,通过轻量级 LoRA 模块实现高效控制,现已在 Hugging Face 平台上线。

主要特点
• 高还原吉卜力风格:柔光、暖调、空灵感,图像仿佛宫崎骏亲绘。
• 轻量 LoRA:即插即用,快速部署,不占资源。
• 灵活分辨率支持:位置感知训练,多场景、多尺寸轻松适配。
• 合成速度快:因果注意机制 + KV 缓存技术,响应迅速,适合批量创作。
• 版权安全:训练数据仅使用100张亚洲人脸 + GPT-4生成图,规避版权问题的同时保障风格精准。
• 开源零门槛:无需下载或编程,直接在 Hugging Face 网页使用。

在线Demo:huggingface.co
113
GitHub充电宝
1月前
超酷的PDF转换工具!直接支持DeepSeek V3,本地AI精准解析PDF扫描件!

这是一款开源的 PDF 处理工具:PDF Craft,专注于将扫描书籍的 PDF 文件转化为 Markdown EPUB 格式。

核心功能:
本地 AI 驱动,无需联网,保护隐私
Markdown & EPUB 输出,兼容性强
智能清理页眉、页脚、页码、脚注
公式、图表智能处理
自动构建目录和章节

GitHub: github.com/oomol-lab/pdf-craft
854