SiFiSinger: SiFi-GAN を内包した歌唱音声合成
☆芦田 裕飛,中鹿 亘
概要: 歌唱音声合成は,可能な限り基本周波数(f0)の制御と品質の双方が達成できることが望ましい.
例えば,テキスト音声合成においては End-to-End モデルのVITS [1]やJETS[2]などが成功を収めているが,あくまでテキスト音声合成のためで,f0 の制御性は不足している.
歌唱音声合成の既存手法であるXiaoiceSing [3]は,WORLD ボコーダを用いることから,f0 の制御性は高いが,品質に限界がある.
歌唱音声合成が End-to-End 化できるのであれば,品質の向上が見込めるが,f0 の制御性を保ったまま End-to-End 化することについては議論されていなかった.
そこで,品質改善と f0 の制御性を両立できるようにするには学習可能で f0 制御性もあるボコーダとして SiFi-GAN [4]を活用し,さらに End-to-End 化する SiFiSinger を提案する.
提案手法によって,品質向上と f0 の制御性をおおよそ両立可能であることを実証した.
sifisinger

図1: SiFiSingerのアーキテクチャ

デモ音声

index

自然音声

Xiaoice+SiFi

Xiaoice+SiFi(GTラベル)

SiFiSinger(提案手法)

SiFiSinger(提案手法/GTラベル)

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

参考文献:
  1. [1] Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speech
  2. [2] JETS: Jointly Training FastSpeech2 and HiFi-GAN for End to End Text to Speech
  3. [3] XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System
  4. [4] Source-Filter HiFi-GAN: Fast and Pitch Controllable High-Fidelity Neural Vocoder