研究目的
提出一种语音转换(VC)方法,该方法利用新近提出的概率模型——循环时序受限玻尔兹曼机(RTRBM),用于捕捉声学序列中的高阶时序依赖关系,并通过神经网络(NN)将源说话人的重音特征转换为目标说话人的特征。
研究成果
所提出的结合说话人相关RTRBM和神经网络的语音转换方法能有效从序列数据中捕捉具有时间依赖性的独特说话人信息,在梅尔倒谱失真(MCD)指标上优于传统方法,并能在不同性别间保持稳定性能。
研究不足
该方法可能面临过度平滑或过拟合问题,尤其是当训练样本准备不充分或训练数据量相对于参数数量不足时。
1:实验设计与方法选择:
该方法采用RTRBM模型分别处理每位说话者以捕捉高阶时间依赖性,并通过神经网络实现特征转换。
2:样本选择与数据来源:
使用ATR日语语音数据库的声学特征,通过动态规划处理源说话者与目标说话者的平行数据。
3:实验设备与材料清单:
以STRAIGHT频谱计算得到的24维MFCC特征作为输入向量。
4:实验流程与操作步骤:
包括训练每位说话者的RTRBM模型、训练投影特征的神经网络以及微调整个网络。
5:数据分析方法:
采用梅尔倒谱失真(MCD)和平均意见得分(MOS)听力测试评估性能。
独家科研数据包,助您复现前沿成果,加速创新突破
获取完整内容