AI VOICE GENERATION

输入文字。听见声音。用一个属于您自己的声音。

把任意文本转为自然的语音 — 并从一段简短的片段克隆一个属于您自己的声音 — 就在您的设备上完成。使用设备端声音时，一切都在您自己的机器上运行，您的文稿和声音样本无需离开它。

前往 Microsoft Store 获取看看它能做什么 ↓

免费上手 • 您的第一个声音克隆免费 • 设备端声音可离线工作

核心功能

做出令您自豪的语音所需的一切

一个真正的声音库、您自己的克隆声音、即时回放和导出 — 全部在您自己的设备上完成。

一键文字转语音

输入或粘贴文本 — 离线声音没有长度限制 — 挑选一个角色，按下朗读即可听到它被流式传回给您。停止可随时干净地结束。

克隆一个属于您自己的声音

用一段简短的参考片段制作自定义声音 — 录制 6–15 秒或导入一个文件 — 无需训练步骤，也无需录音室。您的克隆声音会显示在选择器顶部，可即刻复用，而您的第一个克隆免费。

一个真正的声音库

从内置的离线声音、高级云端声音、高质量的设备端神经网络声音，以及您自己的克隆声音中选择 — 全部来自同一个可搜索的选择器。

快速找到任意声音

在列表上方的快速筛选框中输入文字，即可按名称或语言即时缩小范围。您的克隆声音始终归组在顶部，永远只需一次点击即可触及。

无需重新合成即可回放

带波形拖动条的可定位片段播放器可即刻回放您最近生成的片段和克隆参考片段 — 无需重新生成。可在 0.5× 到 2.0× 之间调整朗读速度而不改变音高，然后导出为 WAV 或 MP3。

默认离线，隐私为本

内置的 Amy 声音完全在您的设备上运行 — 关闭网络它依然照常工作。克隆参考音频和您的生成历史以加密形式存储在设备上。只有可选的云端声音才会把您的文本发送至设备之外，而且仅在您选用它们时。

支持 16 种语言

界面提供 16 种语言，并自动跟随您的操作系统，也可在设置中一键切换。声音同样可朗读多种语言。

选择您的引擎

免费使用设备端 Piper 声音起步。Pro 加入高级的 OpenAI 兼容云端声音、高质量的设备端神经网络声音(Kokoro、Parler-TTS),以及高级克隆引擎(OpenVoice、Zonos、MetaVoice) — 为每项工作挑选合适的工具。

为流畅而生

实时状态行会在音频生成时报告进度，完整的键盘无障碍支持让您保持高效，无界面的命令行工具可编写脚本批量生成。在多次生成之间保持设备端 AI 声音处于加载状态，使重复生成即刻启动。

工作原理

三步将文字转为口语音频

1. 输入您的文本

输入或粘贴您想朗读的内容。免费的设备端声音首次使用时下载一次(约 60 MB),随后离线运行 — 任何内容都不会被发送至任何地方。

2. 挑选声音并朗读

选择离线的 Amy 声音、您自己的克隆声音，或一个 Pro 库声音，设定速度，然后按下朗读。音频会流式传入并回放。

3. 回放与保存

用可定位的播放器拖动并回放片段 — 无需重新生成 — 然后将其保存为 WAV 或 MP3 文件，用于旁白、播客或无障碍音频。

FREE 与 PRO 对比

一个免费声音和一个免费克隆 — 而非仅是试用

免费层级为您提供一个真正的声音和一个真正的克隆声音。Pro 关乎选择 — 完整的声音库、云端和设备端神经网络声音，以及无限克隆。

Free

离线的 Amy 声音(Piper) — 完全在您的设备上，无需账号，没有限制
您的第一个克隆声音，由免费克隆引擎制作 — 显示在选择器顶部，没有 Pro 标记
完整的应用 — 朗读、停止、速度、可定位的播放器、导出、快速筛选以及 CLI
没有按字符计量，也没有用量上限

Pro

所有其他 Piper 声音(更多角色和语言)
云端声音 — 使用您自己的 API 密钥的高级 OpenAI 兼容声音
本地 AI 声音(Kokoro、Parler-TTS) — 高质量、在您的设备上、任何内容都不会被发送至任何地方
无限克隆以及高级克隆引擎(OpenVoice、Zonos、MetaVoice)

Pro 分为个人版和商业版条款;两者解锁相同的声音 — 区别在于许可条款，而非功能。学生、教育工作者、研究人员、非营利组织及其他合资格用户可申请为期 12 个月的免费 Pro 许可。

一切默认离线运行。只有可选的云端声音和可选的 AI-Server 克隆卸载才会把数据发送至设备之外，而且仅在您选用它们时。设备端神经网络声音和大型克隆模型首次使用时会下载大文件(最重的可能需要 30–60 分钟);离线的 Amy 声音只需下载约 60 MB。

适合对象

为每一位值得让话语 — 以及声音 — 保持私密的人而设

当文稿涉及敏感信息、或声音本就只属于您时，AI Voice Generation 会把 AI 带到您的文本旁，而非将您的文本和声音样本送上云端。

内容创作者

需要配音和旁白的 YouTuber、播客主播和视频剪辑师 — 还能拥有一个可在各集之间复用、无需重新录制的一致自定义声音。

无障碍辅助

任何想让文本以清晰、一致的设备端声音朗读出来、并可离线工作的人 — 无需账号，没有使用费。

教育工作者与在线学习

教师和课程作者以私密、无需账号的工作流程，将课堂讲稿、幻灯片和讲义转为带旁白的音频。

开发者与注重隐私的团队

无界面命令行工具可编写脚本批量生成语音；而无法将文稿或声音肖像发送至第三方云端的机构，则可获得加密的设备端存储和离线的默认设置。

实际效果

走进 AI Voice Generation 内部

已输入文本的 AI Voice Generation 页面，含声音选择器、速度控制以及朗读、停止和保存按钮

声音页面:输入文本、挑选声音和速度，按下朗读 — 还有一条实时状态行随音频生成而显示。

一个可搜索的声音库 — 快速筛选即可找到任意声音，您的克隆声音固定在顶部。

用可定位的波形播放器即刻回放任意片段 — 无需重新合成。

从一段简短的参考片段创建自定义克隆声音 — 您的第一个克隆免费。

挑选一个克隆引擎 — 免费引擎可供起步，或使用 Pro 的高级引擎以获得更高质量。

从麦克风录制 6–15 秒 — 或导入一个片段 — 以克隆您自己的声音。

使用您的麦克风或电脑自身的音频作为克隆的参考。

设置:默认声音、输出格式与速度、音频保留，以及保持设备端 AI 声音处于加载状态。

16 种语言的本地化界面，一键切换。

套餐

Free 真正可用。Pro 关乎声音的选择。

Free 为您提供完整的应用 — 文字转语音、您的第一个声音克隆、可定位的播放器、导出、快速筛选以及 CLI — 搭载离线的 Amy 声音，没有使用计量，也没有打扰式弹窗。Pro 解锁完整的声音库:每一个内置声音、高级云端声音、高质量的设备端神经网络声音、高级克隆引擎，以及无限克隆。

学生、教育工作者、研究人员、非营利组织及其他合资格用户可申请为期 12 个月的免费 Pro 许可。

查看套餐与许可 →