自动转录笔记调研
包含:自动转录笔记、网课、会议纪要、字幕,等内容 (本质都是一样的,可以互相借鉴)
在电脑里打开软件和 WPS,然后开会,开会的讲话内容就会实时转成文字的输入到WPS中。
做一个这样的软件难不难?

开发一个能够实时将会议讲话内容转换为文字并输入到WPS文档中的软件,技术上是可行的,但需综合考虑语音识别、实时处理、软件集成等技术难点。以下是具体分析及现有类似方案参考:
- 语音识别技术
- 实时性要求:需支持低延迟的语音转文字,通常依赖云端或本地化的语音识别引擎(如阿里云、腾讯云、OpenAI Whisper等)。例如,OpenAI Whisper在嘈杂环境下的识别表现较好。
- 准确率优化:需处理多方言、口音、专业术语等问题。部分工具(如Dragon NaturallySpeaking)通过学习用户语音习惯提升准确率。
- 与WPS的集成
- API或插件开发:需调用WPS的API接口或开发插件,将转写后的文字实时输入到文档中。例如,WPS应用市场已提供录音转文字功能,但需会员权限。
- 自动化脚本:通过Python等脚本语言模拟键盘输入或调用WPS的COM接口,实现文本自动填充。
- 系统兼容性
- 需适配不同操作系统(Windows/macOS)及WPS版本,可能涉及多平台开发。
WPS内置功能
WPS已集成录音转文字功能,支持上传音频或实时录音转写,转写结果可直接在Word中编辑,但需付费会员。
第三方录音转文字工具
- 全能速记宝:支持实时转写,高准确率,可导出为TXT、Word等格式,适合会议记录。
- 录音转文字助手:实时转写音频,支持多语言和批量处理,可直接编辑文本。
- Descript:结合音频编辑与文字转写,支持实时协作和文本同步编辑。
- 搜狗输入法:通过语音输入功能实时转文字,适合直接输入到文档中。
- 云端服务集成
使用云服务API(如阿里云语音识别、Azure Speech)开发自定义工具,结合自动化脚本将结果输入WPS。例如,网易见外平台支持批量处理和离线转写。
基于现有API的快速实现
采用成熟的语音识别API(如OpenAI Whisper、讯飞语音)处理音频,通过脚本或插件将文本推送至WPS。此方案开发周期短,但需支付API调用费用。
本地化部署方案
使用开源语音识别引擎(如Mozilla DeepSpeech)部署本地服务,避免依赖网络,适合对隐私要求高的场景,但需优化性能和准确性。
插件化开发
为WPS开发专用插件,集成语音识别模块,实现一键录音和实时输入。需研究WPS插件开发文档,适合长期维护的产品。
- 实时性与准确性平衡:需优化算法减少延迟,同时通过上下文校正提升准确率。
- 多场景适配:支持多人会议、嘈杂环境、多语言混合等复杂场景。
- 用户交互设计:提供快捷操作(如快捷键启动/暂停)、文本校对功能等,提升体验。
开发此类软件的核心难度在于语音识别的实时性与准确性,以及与WPS的无缝集成。现有方案可通过组合第三方API和自动化工具实现,若需商业化产品,建议参考“全能速记宝”“Descript”等成熟工具的功能设计,并优先选择云端服务降低开发成本。如需进一步了解技术细节或现有工具对比,可查阅相关来源。

以下是一些可以实现视频自动截图和语音识别生成笔记的软件工具,适合用于网课、学习或PPT视频等场景:
- 功能:NoteGen 是一款开源的跨平台 AI 笔记应用,支持截图记录、剪贴板监听和文本输入。它可以通过 OCR 自动识别截图中的文字,并结合 ChatGPT 将碎片化信息整理成结构化笔记。
- 特点:支持多设备同步,通过 GitHub 管理笔记,内置 Markdown 编辑器,支持语音输入,适合学习和知识管理。
- 平台:Windows、Mac、Linux,未来计划扩展到 iOS 和 Android。
- 功能:NotesGPT 是一款 AI 驱动的语音笔记工具,支持实时语音转录、自动总结和多语言处理。它还可以将视频内容转录为文本,并生成摘要。
- 特点:支持屏幕截图、聊天记录和语音转文字,适合学习和会议记录。
- 平台:主要为桌面端和网页端。
- 功能:听脑AI 提供实时录音转写、录屏和课堂笔记整理功能,能够将视频中的语音内容转换为文字,并生成笔记。
- 特点:适合教育场景,能够高效整理课堂笔记,支持笔记共享。
- 平台:网页端和客户端。
- 功能:Sonic 是一款 AI 驱动的语音记录和转录工具,支持录制、转录、总结和整理音频。它还可以上传音频文件或粘贴 YouTube 视频链接进行自动转录。
- 特点:支持多语言转录和翻译,提供多种导出格式(如 TXT、DOC、PDF),适合学生和内容创作者。
- 平台:iOS 和网页端。
- 功能:ScreenPipe 是一款 AI 助手工具,支持 24 小时不间断屏幕录制、语音录制和中文 OCR 功能。它能够将录制的视频和音频内容存储到本地数据库,并支持 AI 助手对话。
- 特点:适合需要长时间录制和整理的场景,如网课或会议。
- 平台:桌面应用(CLI、付费版和免费版)。
- 功能:闪念贝壳是一款语音记录和 AI 辅助笔记应用,支持语音转文字、智能卡片生成和多设备同步。
- 特点:适合快速捕捉灵感和整理复杂想法,支持多种创作工具的导出。
- 平台:iOS、Android 和网页浏览器。
- 功能:CapsWriter 是一款基于 FunASR 模型的语音识别工具,支持中英文视频转文字。它能够快速将视频中的语音内容转换为文本。
- 特点:转换速度快,适合本地视频的快速转录。
- 平台:桌面端。
- 如果你需要一个功能全面且支持多平台的工具,NoteGen 和 NotesGPT 是不错的选择。
- 如果主要用于教育场景,听脑AI 和 ScreenPipe 更适合。
- 对于移动设备用户,闪念贝壳 和 Sonic 提供了便捷的语音记录和转录功能。
你可以根据自己的需求选择合适的工具进行试用。
(见下)
做简单demo的话还好吧。语音实时转录 + 写入wps,单拎出来都有成熟的解决方案,和类似产品。
但要进阶一点,成熟产品,确实有一些难点。能处理好进阶高阶需求的,目前应该还没软件能做到。
- 一是API的问题。准确率、实时性、性能的平衡,看api和调参吧,具体再调研。然后就面对吵闹环境、多语言环境的跳转。
- 二是一些复杂会议情况,如多人发言,需要区分不同人的麦克风并转录,如果用云方式识别会带来压力。允许同时发言的情况下,还需要对捋清说话内容并自动切割对话段,按时间线排列。
- 三是前面还是把语音通话软件 + wps的模型。实际完整产品可能更希望把功能整合。做个视频会议软件 (共享屏幕、禁言、聊天室加密等)、简易的文本编辑、再加点AI工具进去等
- 四是如果带视频会议的情况,特别是有板书/屏幕分享的情况。还需要转录非语音内容。对于网课视频/学习视频/PPT视频,需要做自动截图功能。
市场分析:会议类我不太熟,但类似的学习视频类的笔记化相关方案我倒有一些经验的,而且我觉得这种的应用面会更多。此外还有的就是 “会议/直播/网课” 其实都挺同源的。大部分模块都是复用的,只需要改动较少的东西就可以扩展为能满足需要这几个需求的用户,扩大市场
当然,需求可以逐步增加。可以从demo做起,然后逐步研究进阶的东西,但都需要一定的开发周期,细节要点非常多。
可以把问题细化,分成很多模块,分别调研分析
需要把可能使用到的功能模块分别进行分析:
这点比较多。也最需要精力去调研、研究、调参、分析、迭代的
库和api的例子:非常多,略
应用的例子,我所比较看好的是 Neuro
的直播效果
如果你不知道Neuro,推荐去了解一下。他的直播是这样的:
直播在多个平台同时进行,包括 Twitch/油管、Twitch日文台、Bilibili。
然后他有一个 多语种多推流 的东西。直播时说的是英语,但同时在多个平台都有对应的字幕 (对应英文、日文、中文)!
所以你能够在B站看他的直播,以及能通过字幕看到他在说什么。
直播平台包括B站。可以找B站切片 (例如这个) 来看一下具体效果,我觉得非常不错。AI翻译很准
(注意: Neuro是AI,先有的文本生成,再转语音,所以是直接翻译的文本。Vedal说话的才是语音识别出来的)
Neuro 确实已经实现了多语种推流,在不同平台有不同翻译的字幕。在B站直播时,他的字幕是中文。
请问他使用了什么现成的工具吗?有复刻和参考的东西吗?
根据目前的搜索结果,Neuro的老父亲Vedal确实曾提到过他的多语种推流计划,但并未明确指出具体使用了哪些现成的工具。他计划通过同时开多个直播,将画面切割并在不同频道播送不同语言的字幕版本。
虽然没有直接证据表明Neuro使用了特定的字幕工具,但可以推测其技术实现可能参考了现有的实时字幕和翻译技术。例如:
- Whisper 模型:这是一个开源的语音识别项目,支持多语言语音转录和翻译,适合实时字幕生成。
- Felo Subtitles:这是一款支持多语言实时字幕和翻译的工具,适用于直播场景。
- 人人译视界:基于流式ASR技术,能够实时生成多语种字幕并同步显示。
这些工具和技术都具备实时字幕生成和多语言翻译的能力,可能为Neuro的多语种推流提供了技术参考。然而,具体的实现细节和是否直接使用了这些工具,目前没有明确的官方声明。
看来你不知道。虽然我也暂时没找到,但感觉应该会在直播的时候谈过。但视频内容GPT和搜索引擎搜不到。不然就去粉丝群问一下应该有。我记得在 “多语种多推流” 的那个直播视频里大概说过一下,好像是写了个 OBS 插件来实现的。
可以分别调研实时版和非实时版。先非实时版的肯定性能会更好,而且根据情况可以进行换用。可能还有 "伪实时"
不同软件的方案不同
- 可以把笔记软件集成在一起,这样最方便
- 之前通过GPT调研得知WPS是允许api往里写内容的,word之类的应该也可以,有宏
- Obsidian也可以通过插件往里插入,如 Local REST 能提供api往里写东西
- 哪怕笔记软件本身不支持,也能在外部插入。文本类格式自然不必多说,哪怕像word类和富文本,我记得python也有对应的office库可以往里写内容
如果要做这点,最好是基于本地的实时语音识别
实现要点
- 需要切分双方的对话,然后用较好的方式展示出来
- 对于实时,多人的发言应该同时记录显示。如果是字幕形式,可以多行分别用不同颜色显示不同人说的话。还是用 Neuro&Vedal 来举例,就像 https://www.bilibili.com/video/BV1DFYBeAET7 中的效果那样。并且他们的聊天也比较接近于网课或会议连麦,的那种交流的状态
- 而对于聊天记录,我觉得前面那种聊天对话的效果就很不错(如果你在看当前页面的时候没有渲染出来则忽略该句)
难点:有可能两个的语音挨得比较紧 (对骂时双方都存在一种能边听边说的对话,或者打断时也会有语音重叠的部分)
应用点:这里还是用 Neuro Vedal 的例子来说明,他两个的自动字幕的颜色是不一样的!
要求:点击对应的文字,可以便捷跳转到相应的视频的位置
- 时间戳笔记
- Obsidian 的 Media Extended (经典,但很久没人维护了)
- Obsidian 的 Timestamp Notes (一年多没人维护了)
- 浏览器插件 —— askify+globalspeed
- 浏览器插件 —— 哔哩哔哩字幕列表。这个仅限B站,我日常在B站学习也经常使用这个,挺好用
核心需求是:导入视频链接分析并分析
比本地版方便,但要云
应用举例:VideoNotes
主要针对:网课/学习/PPT视频
核心要点:
- 对于PPT能够自动截到每张PPT最后内容全部显示出来的那一张
- 对与有板书/投影PPT的情况,除了需要截图黑白板板书写到最完的一幕,还需要需要智能去除教师的遮挡 (教师会走动,他走动的时候去获取他之间遮挡的那个部分)
- 甚至有些教程他是人物画面和投屏/PPT画面互相切换的,这种也需要能够智能识别
应用举例:
- VideoNotes 支持的是提供一个界面同时有视频+笔记区域,然后需要你手动按按钮进行截屏并自动在笔记中插入。
这种方案适合边看视频边做笔记,可以作为未能实现 “智能截图” 前的一种临时方案 - 百度网盘的视频总结 (与下基本相同)
- 夸克AI的视频总结,夸克AI搜索革新:最长支持6小时视频总结,智能生成“AI课件”
- 下图中 “右下角” 的模块,就是自动截图方案了

- “图文并茂”、根据内容同步滚动,都不错
