WaveNet: A Generative Model for Raw Audio | DeepMind

https://deepmind.com/blog/wavenet-generative-model-raw-audio/?platform=hootsuite
DeepMindを使って高品質の音声や音楽をCNNで生成する。
深層学習で人間に近い、リアルな合成音声の作成に成功
http://newswitch.jp/p/6051

 それに対し、WaveNetは人間の声をはじめ元の音声信号をサンプルごとに直接モデリングする。ニューラルネットワークの深層学習により、自ら作り出した出力を入力に戻しながらトレーニングを重ね、サンプル周波数16kHzという高い品質で自然に聞こえる音声を合成していくという。
 男性、女性を含め、声の種類も変えられ、さらに、テキストがなく言語ですらないものの、息継ぎや唇の動きを再現し、まるでどこか知らない土地の言葉のように聞こえる、意味不明の不気味な合成音声まで作成できた。
 どのような音声信号でも扱えることから、音楽でも実験を試みた。ただし、音楽の譜面を読み込ませるのではなく、クラシック音楽ピアノ曲のデータセットでトレーニングしたところ、即興でオリジナルのピアノ曲を勝手に作曲・演奏するようになったという。

ディープラーニングで人間と同じトーン・スピード・抑揚を再現して自然な音声を出力する「WaveNet」をDeepMindが開発 - GIGAZINE
http://gigazine.net/news/20160912-wavenet/