自动转录笔记调研

LincZero2025/2/26

自动转录笔记调研

包含：自动转录笔记、网课、会议纪要、字幕，等内容 (本质都是一样的，可以互相借鉴)

需求/灵感

在电脑里打开软件和 WPS，然后开会，开会的讲话内容就会实时转成文字的输入到WPS中。
做一个这样的软件难不难？

调研

GPT调研

@deepseek @kimi 回答下这个问题

deepseek

开发一个能够实时将会议讲话内容转换为文字并输入到WPS文档中的软件，技术上是可行的，但需综合考虑语音识别、实时处理、软件集成等技术难点。以下是具体分析及现有类似方案参考：

一、技术实现难度与关键环节

语音识别技术

实时性要求：需支持低延迟的语音转文字，通常依赖云端或本地化的语音识别引擎（如阿里云、腾讯云、OpenAI Whisper等）。例如，OpenAI Whisper在嘈杂环境下的识别表现较好。
准确率优化：需处理多方言、口音、专业术语等问题。部分工具（如Dragon NaturallySpeaking）通过学习用户语音习惯提升准确率。

与WPS的集成

API或插件开发：需调用WPS的API接口或开发插件，将转写后的文字实时输入到文档中。例如，WPS应用市场已提供录音转文字功能，但需会员权限。
自动化脚本：通过Python等脚本语言模拟键盘输入或调用WPS的COM接口，实现文本自动填充。

系统兼容性

需适配不同操作系统（Windows/macOS）及WPS版本，可能涉及多平台开发。

二、现有类似产品与方案参考

WPS内置功能
WPS已集成录音转文字功能，支持上传音频或实时录音转写，转写结果可直接在Word中编辑，但需付费会员。
第三方录音转文字工具

全能速记宝：支持实时转写，高准确率，可导出为TXT、Word等格式，适合会议记录。
录音转文字助手：实时转写音频，支持多语言和批量处理，可直接编辑文本。
Descript：结合音频编辑与文字转写，支持实时协作和文本同步编辑。
搜狗输入法：通过语音输入功能实时转文字，适合直接输入到文档中。

云端服务集成
使用云服务API（如阿里云语音识别、Azure Speech）开发自定义工具，结合自动化脚本将结果输入WPS。例如，网易见外平台支持批量处理和离线转写。

三、开发方案建议

基于现有API的快速实现
采用成熟的语音识别API（如OpenAI Whisper、讯飞语音）处理音频，通过脚本或插件将文本推送至WPS。此方案开发周期短，但需支付API调用费用。
本地化部署方案
使用开源语音识别引擎（如Mozilla DeepSpeech）部署本地服务，避免依赖网络，适合对隐私要求高的场景，但需优化性能和准确性。
插件化开发
为WPS开发专用插件，集成语音识别模块，实现一键录音和实时输入。需研究WPS插件开发文档，适合长期维护的产品。

四、潜在挑战与优化方向

实时性与准确性平衡：需优化算法减少延迟，同时通过上下文校正提升准确率。
多场景适配：支持多人会议、嘈杂环境、多语言混合等复杂场景。
用户交互设计：提供快捷操作（如快捷键启动/暂停）、文本校对功能等，提升体验。

五、总结

开发此类软件的核心难度在于语音识别的实时性与准确性，以及与WPS的无缝集成。现有方案可通过组合第三方API和自动化工具实现，若需商业化产品，建议参考“全能速记宝”“Descript”等成熟工具的功能设计，并优先选择云端服务降低开发成本。如需进一步了解技术细节或现有工具对比，可查阅相关来源。

kimi

以下是一些可以实现视频自动截图和语音识别生成笔记的软件工具，适合用于网课、学习或PPT视频等场景：

1.NoteGen

功能：NoteGen 是一款开源的跨平台 AI 笔记应用，支持截图记录、剪贴板监听和文本输入。它可以通过 OCR 自动识别截图中的文字，并结合 ChatGPT 将碎片化信息整理成结构化笔记。
特点：支持多设备同步，通过 GitHub 管理笔记，内置 Markdown 编辑器，支持语音输入，适合学习和知识管理。
平台：Windows、Mac、Linux，未来计划扩展到 iOS 和 Android。

2. NotesGPT

功能：NotesGPT 是一款 AI 驱动的语音笔记工具，支持实时语音转录、自动总结和多语言处理。它还可以将视频内容转录为文本，并生成摘要。
特点：支持屏幕截图、聊天记录和语音转文字，适合学习和会议记录。
平台：主要为桌面端和网页端。

3. 听脑AI

功能：听脑AI 提供实时录音转写、录屏和课堂笔记整理功能，能够将视频中的语音内容转换为文字，并生成笔记。
特点：适合教育场景，能够高效整理课堂笔记，支持笔记共享。
平台：网页端和客户端。

4. Sonic

功能：Sonic 是一款 AI 驱动的语音记录和转录工具，支持录制、转录、总结和整理音频。它还可以上传音频文件或粘贴 YouTube 视频链接进行自动转录。
特点：支持多语言转录和翻译，提供多种导出格式（如 TXT、DOC、PDF），适合学生和内容创作者。
平台：iOS 和网页端。

5. ScreenPipe

功能：ScreenPipe 是一款 AI 助手工具，支持 24 小时不间断屏幕录制、语音录制和中文 OCR 功能。它能够将录制的视频和音频内容存储到本地数据库，并支持 AI 助手对话。
特点：适合需要长时间录制和整理的场景，如网课或会议。
平台：桌面应用（CLI、付费版和免费版）。

6. 闪念贝壳

功能：闪念贝壳是一款语音记录和 AI 辅助笔记应用，支持语音转文字、智能卡片生成和多设备同步。
特点：适合快速捕捉灵感和整理复杂想法，支持多种创作工具的导出。
平台：iOS、Android 和网页浏览器。

7. CapsWriter Offline

功能：CapsWriter 是一款基于 FunASR 模型的语音识别工具，支持中英文视频转文字。它能够快速将视频中的语音内容转换为文本。
特点：转换速度快，适合本地视频的快速转录。
平台：桌面端。

适用建议

如果你需要一个功能全面且支持多平台的工具，NoteGen 和 NotesGPT 是不错的选择。
如果主要用于教育场景，听脑AI 和 ScreenPipe 更适合。
对于移动设备用户，闪念贝壳 和 Sonic 提供了便捷的语音记录和转录功能。

你可以根据自己的需求选择合适的工具进行试用。

网页调研

（见下）

个人感觉

做简单demo的话还好吧。语音实时转录 + 写入wps，单拎出来都有成熟的解决方案，和类似产品。

但要进阶一点，成熟产品，确实有一些难点。能处理好进阶高阶需求的，目前应该还没软件能做到。

一是API的问题。准确率、实时性、性能的平衡，看api和调参吧，具体再调研。然后就面对吵闹环境、多语言环境的跳转。
二是一些复杂会议情况，如多人发言，需要区分不同人的麦克风并转录，如果用云方式识别会带来压力。允许同时发言的情况下，还需要对捋清说话内容并自动切割对话段，按时间线排列。
三是前面还是把语音通话软件 + wps的模型。实际完整产品可能更希望把功能整合。做个视频会议软件 (共享屏幕、禁言、聊天室加密等)、简易的文本编辑、再加点AI工具进去等
四是如果带视频会议的情况，特别是有板书/屏幕分享的情况。还需要转录非语音内容。对于网课视频/学习视频/PPT视频，需要做自动截图功能。

市场分析：会议类我不太熟，但类似的学习视频类的笔记化相关方案我倒有一些经验的，而且我觉得这种的应用面会更多。此外还有的就是 “会议/直播/网课” 其实都挺同源的。大部分模块都是复用的，只需要改动较少的东西就可以扩展为能满足需要这几个需求的用户，扩大市场

当然，需求可以逐步增加。可以从demo做起，然后逐步研究进阶的东西，但都需要一定的开发周期，细节要点非常多。

模块

可以把问题细化，分成很多模块，分别调研分析

需要把可能使用到的功能模块分别进行分析：

语音识别模块

这点比较多。也最需要精力去调研、研究、调参、分析、迭代的

实时

库和api的例子：非常多，略

应用的例子，我所比较看好的是 Neuro 的直播效果

Note

如果你不知道Neuro，推荐去了解一下。他的直播是这样的：

直播在多个平台同时进行，包括 Twitch/油管、Twitch日文台、Bilibili。
然后他有一个多语种多推流的东西。直播时说的是英语，但同时在多个平台都有对应的字幕 (对应英文、日文、中文)！

所以你能够在B站看他的直播，以及能通过字幕看到他在说什么。

直播平台包括B站。可以找B站切片 (例如这个) 来看一下具体效果，我觉得非常不错。AI翻译很准

Warning

(注意: Neuro是AI，先有的文本生成，再转语音，所以是直接翻译的文本。Vedal说话的才是语音识别出来的)

Neuro 确实已经实现了多语种推流，在不同平台有不同翻译的字幕。在B站直播时，他的字幕是中文。

请问他使用了什么现成的工具吗？有复刻和参考的东西吗？

deepseek

服务器繁忙，请稍后再试。

kimi

balabala

他有说过他用了这些吗？还是说你是猜的

kimi

根据目前的搜索结果，Neuro的老父亲Vedal确实曾提到过他的多语种推流计划，但并未明确指出具体使用了哪些现成的工具。他计划通过同时开多个直播，将画面切割并在不同频道播送不同语言的字幕版本。

虽然没有直接证据表明Neuro使用了特定的字幕工具，但可以推测其技术实现可能参考了现有的实时字幕和翻译技术。例如：

Whisper 模型：这是一个开源的语音识别项目，支持多语言语音转录和翻译，适合实时字幕生成。
Felo Subtitles：这是一款支持多语言实时字幕和翻译的工具，适用于直播场景。
人人译视界：基于流式ASR技术，能够实时生成多语种字幕并同步显示。

这些工具和技术都具备实时字幕生成和多语言翻译的能力，可能为Neuro的多语种推流提供了技术参考。然而，具体的实现细节和是否直接使用了这些工具，目前没有明确的官方声明。

看来你不知道。虽然我也暂时没找到，但感觉应该会在直播的时候谈过。但视频内容GPT和搜索引擎搜不到。不然就去粉丝群问一下应该有。我记得在 “多语种多推流” 的那个直播视频里大概说过一下，好像是写了个 OBS 插件来实现的。

非实时

可以分别调研实时版和非实时版。先非实时版的肯定性能会更好，而且根据情况可以进行换用。可能还有 "伪实时"

插入到软件、协同

不同软件的方案不同

可以把笔记软件集成在一起，这样最方便
之前通过GPT调研得知WPS是允许api往里写内容的，word之类的应该也可以，有宏
Obsidian也可以通过插件往里插入，如 Local REST 能提供api往里写东西
哪怕笔记软件本身不支持，也能在外部插入。文本类格式自然不必多说，哪怕像word类和富文本，我记得python也有对应的office库可以往里写内容

多人发言

如果要做这点，最好是基于本地的实时语音识别

实现要点

需要切分双方的对话，然后用较好的方式展示出来
对于实时，多人的发言应该同时记录显示。如果是字幕形式，可以多行分别用不同颜色显示不同人说的话。还是用 Neuro&Vedal 来举例，就像 https://www.bilibili.com/video/BV1DFYBeAET7 中的效果那样。并且他们的聊天也比较接近于网课或会议连麦，的那种交流的状态
而对于聊天记录，我觉得前面那种聊天对话的效果就很不错（如果你在看当前页面的时候没有渲染出来则忽略该句）

难点：有可能两个的语音挨得比较紧 (对骂时双方都存在一种能边听边说的对话，或者打断时也会有语音重叠的部分)

应用点：这里还是用 Neuro Vedal 的例子来说明，他两个的自动字幕的颜色是不一样的！

时间戳笔记、笔记/字幕与视频时间戳的关联

要求：点击对应的文字，可以便捷跳转到相应的视频的位置

时间戳笔记
- Obsidian 的 Media Extended (经典，但很久没人维护了)
- Obsidian 的 Timestamp Notes (一年多没人维护了)
浏览器插件 —— askify+globalspeed
浏览器插件 —— 哔哩哔哩字幕列表。这个仅限B站，我日常在B站学习也经常使用这个，挺好用

视频导入方案

核心需求是：导入视频链接分析并分析

比本地版方便，但要云

应用举例：VideoNotes

视频的自动截图方案

主要针对：网课/学习/PPT视频

核心要点：

对于PPT能够自动截到每张PPT最后内容全部显示出来的那一张
对与有板书/投影PPT的情况，除了需要截图黑白板板书写到最完的一幕，还需要需要智能去除教师的遮挡 (教师会走动，他走动的时候去获取他之间遮挡的那个部分)
甚至有些教程他是人物画面和投屏/PPT画面互相切换的，这种也需要能够智能识别

应用举例：

VideoNotes 支持的是提供一个界面同时有视频+笔记区域，然后需要你手动按按钮进行截屏并自动在笔记中插入。
这种方案适合边看视频边做笔记，可以作为未能实现 “智能截图” 前的一种临时方案
百度网盘的视频总结 (与下基本相同)
夸克AI的视频总结，夸克AI搜索革新：最长支持6小时视频总结，智能生成“AI课件”
- 下图中 “右下角” 的模块，就是自动截图方案了
- “图文并茂”、根据内容同步滚动，都不错

链接到当前文件 0

没有文件链接到当前文件