研究目的
提出一种在模型训练过程中不使用任何平行数据的语音转换方法,以解决现有依赖平行数据方法的局限性。
研究成果
所提出的基于自适应受限玻尔兹曼机的非平行语音转换方法能有效捕捉潜在的语音学信息,并在不依赖平行训练数据的情况下适配说话人特征。其性能与传统平行训练方法相当,在灵活性及适用于任意说话人对方面具有优势。未来工作可探索其在说话人识别、语音识别及语音情感控制等领域的应用。
研究不足
该研究发现,当隐藏单元数量超过最优值后性能会下降,这表明表征能力与源说话者及目标说话者之间隐藏单元分布的相似性之间存在权衡。此外,随着训练人数的增加,随机梯度下降学习方法可能会使与说话者无关的参数产生偏差。
1:实验设计与方法选择:
本研究采用自适应受限玻尔兹曼机(ARBM)进行非平行语音转换训练,重点捕捉潜在音位信息与说话人自适应特征。
2:样本选取与数据来源:
使用ASJ连续语音研究语料库的语音数据,包含16名说话人(8男8女)的数据用于训练和评估。
3:实验设备与材料清单:
采用从513维WORLD频谱计算得到的梅尔倒谱特征作为声学特征表示。
4:实验流程与操作步骤:
ARBM模型训练设置最多32个隐藏单元,学习率0.01,动量0.9,批量大小为R×100,迭代100次。语音转换通过分解语音为音位与说话人相关信息、替换后者并重组信号实现。
5:01,动量9,批量大小为R×100,迭代100次。语音转换通过分解语音为音位与说话人相关信息、替换后者并重组信号实现。
数据分析方法:
5. 数据分析方法:分别采用梅尔倒谱失真改善比(MDIR)和平均意见分(MOS)听测进行客观与主观性能评估。
独家科研数据包,助您复现前沿成果,加速创新突破
获取完整内容