通义听悟的api+阿里云oss+trae solo,自己搭建服务实现音频单个及批量 转写功能实现了。
需求还是想实现超100小时的语音识别,以及更方便提取文本内容,目前的各种线上服务,数据的获取汇总会比较麻烦,飞书妙计公司的存储也有限。
通义听悟的语音识别转写0.6元/小时,短时存储价格忽略不计,内网流量为0。
最先开始用的火山引擎的api和存储,发现价格对比下来阿里云的便宜好多。
流程是,使用公网先上传到阿里云的oss,然后形成内网url,然后将url传递给通义听悟的api,再查询api任务的结果,写入到本地数据库。
代码框架用的是fastapi,trae solo说自己不支持,实际上是可以修改已经生成好的python项目。而且fastapi的接口,很方便其他工具接入使用,可以后续再接别的系统,或者本地浏览器的油猴脚本。
其他平替:飞书妙计、通义听悟,get笔记,或者其他大模型或语音识别工具。