研究目的
提出一种在模型训练过程中不使用任何平行数据的语音转换方法,以解决现有依赖平行数据方法的局限性。
研究成果
所提出的基于自适应受限玻尔兹曼机的非平行语音转换方法,其性能与传统需要平行数据的方法相当,且具有无需预定义语句或完美对齐的优势。该方法在不同性别配对间均有效,并在说话人识别、语音识别等领域展现出应用潜力。
研究不足
模型的性能受隐藏单元数量以及表示能力与源说话者、目标说话者之间隐藏单元分布相似度之间权衡的影响。由于采用随机梯度下降学习方法,训练说话者数量超过一定值后,模型性能不会显著提升。