微软智能语音新增 5 个角色 “飙演技”

IT之家12月11日消息近期，微软智能语音实现技术升级，一次性新增了 5 个声音角色供用户自由选择，覆盖男女声和不同年龄段，以及不同性格和声线特征，包括阳光活泼的男青年（云希）和独立自信的女青年（晓萱），温柔大方的女中青年（晓涵）和多才多艺的女青年（晓墨），以及成熟睿智的女中老年（晓睿）。另外，中年男声（云野）也同步更新了多种声音风格。他们与此前多个声音角色一起，共同组成了微软丰富的中文智能语音 “家族”。

下面是新增以及更新角色声音 demo：

类似人类主播在播讲一个有声小说时会模拟不同的角色，微软最新的智能语音也支持声线变换，一人模拟多个角色，比如女生扮演男生，年轻人扮演老人的声音，做到 “声随境转”，大秀声音 “演技”。同时，不同的声线变化也包含多种情感变换，让角色更加活灵活现。

正是基于这些丰富多样且功能强大的声音角色，用户得以自由组合出丰富的音频产品。

IT之家获悉，这些新声音在开发过程中采用了最新的迁移学习技术，仅利用少量表现力语料数据，便可以训练出具有高质量、高自然度表现力语音生成能力的源模型。该源模型通过对人类语音表现力特征的深入挖掘，获取了稳定性高，适应性强的语音情感表征，极大地丰富了合成语音的表现力与可控性。微软还进一步构建了基于角色和风格变换的隐式表达空间，可以灵活地将多个不同的角色和风格适应到一个新的表现力丰富的说话人模型。

目前，微软语音合成多角色可应用在有声书、儿童故事、新闻串讲等多种场景，满足不同的产品矩阵。

对于音频内容产业而言，微软此次语音合成多角色技术更新不仅令声音风格更为多样且具有感染力，也将进一步降低音频内容生产成本、提高制作速度和质量。