AI VOICE GENERATION
把任意文本转为自然的语音 — 并从一段简短的片段克隆一个属于您自己的声音 — 就在您的设备上完成。使用设备端声音时,一切都在您自己的机器上运行,您的文稿和声音样本无需离开它。
前往 Microsoft Store 获取 看看它能做什么 ↓
免费上手 • 您的第一个声音克隆免费 • 设备端声音可离线工作
粘贴一句话、一段文字或整篇文稿,挑选一种声音,按下生成即可听到自然的语音。想要某个特定声音?录制或拖入一段简短的参考片段,应用便会建立一个可复用的自定义克隆声音 — 默认全部在您自己的电脑上运行。
一个真正的声音库、您自己的克隆声音、即时回放和导出 — 全部在您自己的设备上完成。
输入或粘贴文本 — 离线声音没有长度限制 — 挑选一个角色,按下朗读即可听到它被流式传回给您。停止可随时干净地结束。
用一段简短的参考片段制作自定义声音 — 录制 6–15 秒或导入一个文件 — 无需训练步骤,也无需录音室。您的克隆声音会显示在选择器顶部,可即刻复用,而您的第一个克隆免费。
从内置的离线声音、高级云端声音、高质量的设备端神经网络声音,以及您自己的克隆声音中选择 — 全部来自同一个可搜索的选择器。
在列表上方的快速筛选框中输入文字,即可按名称或语言即时缩小范围。您的克隆声音始终归组在顶部,永远只需一次点击即可触及。
带波形拖动条的可定位片段播放器可即刻回放您最近生成的片段和克隆参考片段 — 无需重新生成。可在 0.5× 到 2.0× 之间调整朗读速度而不改变音高,然后导出为 WAV 或 MP3。
内置的 Amy 声音完全在您的设备上运行 — 关闭网络它依然照常工作。克隆参考音频和您的生成历史以加密形式存储在设备上。只有可选的云端声音才会把您的文本发送至设备之外,而且仅在您选用它们时。
界面提供 16 种语言,并自动跟随您的操作系统,也可在设置中一键切换。声音同样可朗读多种语言。
免费使用设备端 Piper 声音起步。Pro 加入高级的 OpenAI 兼容云端声音、高质量的设备端神经网络声音(Kokoro、Parler-TTS),以及高级克隆引擎(OpenVoice、Zonos、MetaVoice) — 为每项工作挑选合适的工具。
实时状态行会在音频生成时报告进度,完整的键盘无障碍支持让您保持高效,无界面的命令行工具可编写脚本批量生成。在多次生成之间保持设备端 AI 声音处于加载状态,使重复生成即刻启动。
输入或粘贴您想朗读的内容。免费的设备端声音首次使用时下载一次(约 60 MB),随后离线运行 — 任何内容都不会被发送至任何地方。
选择离线的 Amy 声音、您自己的克隆声音,或一个 Pro 库声音,设定速度,然后按下朗读。音频会流式传入并回放。
用可定位的播放器拖动并回放片段 — 无需重新生成 — 然后将其保存为 WAV 或 MP3 文件,用于旁白、播客或无障碍音频。
免费层级为您提供一个真正的声音和一个真正的克隆声音。Pro 关乎选择 — 完整的声音库、云端和设备端神经网络声音,以及无限克隆。
Pro 分为个人版和商业版条款;两者解锁相同的声音 — 区别在于许可条款,而非功能。学生、教育工作者、研究人员、非营利组织及其他合资格用户可申请为期 12 个月的免费 Pro 许可。
一切默认离线运行。只有可选的云端声音和可选的 AI-Server 克隆卸载才会把数据发送至设备之外,而且仅在您选用它们时。设备端神经网络声音和大型克隆模型首次使用时会下载大文件(最重的可能需要 30–60 分钟);离线的 Amy 声音只需下载约 60 MB。
当文稿涉及敏感信息、或声音本就只属于您时,AI Voice Generation 会把 AI 带到您的文本旁,而非将您的文本和声音样本送上云端。
需要配音和旁白的 YouTuber、播客主播和视频剪辑师 — 还能拥有一个可在各集之间复用、无需重新录制的一致自定义声音。
任何想让文本以清晰、一致的设备端声音朗读出来、并可离线工作的人 — 无需账号,没有使用费。
教师和课程作者以私密、无需账号的工作流程,将课堂讲稿、幻灯片和讲义转为带旁白的音频。
无界面命令行工具可编写脚本批量生成语音;而无法将文稿或声音肖像发送至第三方云端的机构,则可获得加密的设备端存储和离线的默认设置。
声音页面:输入文本、挑选声音和速度,按下朗读 — 还有一条实时状态行随音频生成而显示。
一个可搜索的声音库 — 快速筛选即可找到任意声音,您的克隆声音固定在顶部。
用可定位的波形播放器即刻回放任意片段 — 无需重新合成。
从一段简短的参考片段创建自定义克隆声音 — 您的第一个克隆免费。
挑选一个克隆引擎 — 免费引擎可供起步,或使用 Pro 的高级引擎以获得更高质量。
从麦克风录制 6–15 秒 — 或导入一个片段 — 以克隆您自己的声音。
使用您的麦克风或电脑自身的音频作为克隆的参考。
设置:默认声音、输出格式与速度、音频保留,以及保持设备端 AI 声音处于加载状态。
16 种语言的本地化界面,一键切换。
桌面版(Windows、macOS、Linux)是主要版本,配有用于自动化的无界面命令行工具。浏览器、iOS 和 Android 版本也已推出 — 部分高级的设备端神经网络声音和克隆引擎需要一台性能足够的桌面电脑(少数仅支持 GPU)。立即在 Windows 上通过 Microsoft Store 获取。
Free 为您提供完整的应用 — 文字转语音、您的第一个声音克隆、可定位的播放器、导出、快速筛选以及 CLI — 搭载离线的 Amy 声音,没有使用计量,也没有打扰式弹窗。Pro 解锁完整的声音库:每一个内置声音、高级云端声音、高质量的设备端神经网络声音、高级克隆引擎,以及无限克隆。
学生、教育工作者、研究人员、非营利组织及其他合资格用户可申请为期 12 个月的免费 Pro 许可。
免费上手,设计上即在设备端运行,您的第一个声音克隆免费。在 Microsoft Store 获取 AI Voice Generation,或先了解一下套餐。