最近释出的文本语音模型 Kokoro v0.19 只使用 8200 万个参数,但其 TTS Spaces Arena 排名高居第一,高质量的 AI 语音朗读可能意味着未来真人朗读的有声书将愈来愈稀少。
Kokoro 模型权重使用 Apache 许可发布,支持美式英语、英式英语、法语、韩语、日语和
中文普通话。开发者 Claudio Santini 在 Kokoro v0.19 基础上开发了一个 Python 3 应用 Audiblez,可用于在本地将电子书转变成有声书。
测试显示,在苹果笔电 M2 MacBook Pro 上,将有 10 万单词的道金斯(Richard Dawkins)《自私基因》转变成有声书共花费了 2 小时时间。
https://github.com/santinic/audiblez