前々回:【サンプル音声あり】つくよみちゃんUTAU音源制作中! 清楚な少女声を目指して……【アドバイス大歓迎!】
前回:つくよみちゃんUTAU音源 合成エンジン比較
初めに
最初に、前々回の記事で紹介した音源をABC順に列挙します。()内は収録音階です。
・Average(G4)
・Average2(G4)
・Breathy(A4)
・Cheerful(G4)
・Deep(D4)
・Dynamic(D5)【要検討】
・Falsetto(D5)【要検討】
・Tender(G4)【没】 ※今回は登場しません
・Whisper(C5)【没】 ※同上
・Average2(G4)
・Breathy(A4)
・Cheerful(G4)
・Deep(D4)
・Dynamic(D5)【要検討】
・Falsetto(D5)【要検討】
・Tender(G4)【没】 ※今回は登場しません
・Whisper(C5)【没】 ※同上
ご覧の通り、音源名はABC順でそろえようとしています。
便宜上、A〜Dとか、B以降といった呼び方をすることがあります。その場合のDはDeepです。(Dynamicは没にするつもりだったので、DeepにDを使っています)
原音に対する処理
前々回での問題点・不明点について調査するため、まずはAverageの原音のクオリティをできるだけ高めてみました。
@AverageとAverage2の統合
原音を聞き比べて、良い方のみ集めたAverageを作りました。
Aノイズ除去方法の見直し
いただいたアドバイスの中に、「ローカットをすると高音域が目立ってシャリシャリすることがある」という情報がありました。
厳密にはロー“カット”はしていませんでしたが、低音域のノイズを抑えるために、イコライザーで200Hz以下の音量を下げていました。原音を人の耳で聞く上では声に変化は感じられない範囲での処理でしたが、確かに音声合成には影響がある可能性があります。
実際に比較してみたところ、原音の低音域はそのままにしておいた方が、UTAUから出力される音は少しだけまろやかになったような気がしました。プラシーボ効果かも知れませんが……。
そのため、低音ノイズが感じられるところは個別に対処することにしました。
とはいえ、Averageは相変わらずB以降よりもシャリシャリします。
EQの有無ではあまり差がないのに、AとB以降に明確な差があるということは、低音域が云々というよりも、やはり声質の方に問題があるようです。
Bリップノイズの除去&子音の調整
リップノイズやポップノイズの除去はもちろん、子音も波形編集で整えました。
AverageとAverage2があったので、時には良い方の子音と良い方の母音を継ぎ接ぎするという手間もかけてみました。
C発声開始位置の統一
冒頭から約0.2秒のところに最初の母音が来るように合わせたのですが、子音で合わせた方が良かったのかも知れません。setParamで発声開始位置を200msecに設定すれば、1モーラ目だけは自動でもカッチリ行くかと期待しましたが、そうは行きませんでした。
ついでに、原音の前後の無駄な無音部分をカットし、原音のファイルサイズをなるべく小さくしました。
D音圧を振幅0.5(-6.02dB)を目安に調整
飛び出ている部分は抑え、小さい部分は大きくし、原音の時点である程度音圧を統一しました。これがUTAUにとって良いことなのかどうかは、後述の理由によりまだ確認できていません。
コンプレッサーを一律でかけるのではなく、Audacityのエンベロープツールでちょこちょこ調整しました。
最新版Averageによる「テスト2」(←曲名)
Cまでの段階(音圧調整前)のAverageがこちらです。
そして、DまでやったAverageがこちら。
参考までに、前々回の記事の段階。(冒頭に入っているのは原音の一部です)
何故か、Cまでの方は発声が前のめりというか、発声に隙間ができないんですよね。原音にはDの作業をしたかどうかしか違いはなく、発声タイミングは同じで、setParamでの発声開始位置設定は両方とも200msecなのですが。
そのため、ちゃんとした比較ができず、Dの作業がどのような影響を与えたのかは分かりませんでした。
シャリシャリ感についてはあまり変わりませんでしたが、丁寧なノイズ除去が功を奏し、前々回の段階では入りまくっていた子音部のノイズは撲滅されました。
最新版Averageによる真面目な歌
実用性を検証するため、今度は少し真面目なメロディーと歌詞で歌わせてみました。
※原音設定をきちんとしていないため、ところどころ変な音が入っています。最初は「誰かが捨てた」と言っています。
さらに、リバーブをかけてみました。
ややノイジーではありますが、キャラ声の再現という点においては、結構頑張っているのではないでしょうか。
※つくよみちゃんは「清楚で優しい14歳の女の子」です。詳細は前々回の記事参照。
真面目な歌&リバーブで音源比較
B以降の音源も、真面目な歌&リバーブで比較してみました。
Average以外は、まだノイズ除去や音圧調整をしていません。原音設定はどれもきちんとしていません。
◆Average(G4)
これは先ほどと同じデータです。
スタンダード音源のくせに、これが一番シャリシャリします。でも一番キャラ声が再現できているのもこれだと思います。
力が入っているわけでも、力が抜けているわけでもない、平均的で自然なバランスを目指しています。
◆Breathy(A4)
いわゆる弱音源です。
前々回での公開で、声質が良いと評判でしたが、良くも悪くも「優しい声音を“作って”ます」という感じで歌うので、スタンダード音源の座はAverageのままです。
音量が不安定なのは、音圧調整で直るでしょうか?
◆Cheerful(G4)
朗々と歌うという程度ですが、相対的にこれが強音源に当たります。
「つくよみちゃんの声としては元気すぎる」という理由でスタンダード音源の座をAverageに譲っていますが、このサンプルだけで比べるならCheerfulが一番綺麗です。(一瞬盛大にやらかしてはいますが)
仕上がり次第では「Clear」に改名するかも知れません。
◆Deep(D4)
D4という低め(当社比)の音程で収録されています。音源名と組み合わせると覚えやすいです。
低音部のために作られただけあって、最後の「ても」でその力を見せつけてくれます。
また、低いところ以外で使っても、深みのある響きを出すことができます。これはA〜Cにはない特徴です。
◆Dynamic(D5)
強音源としての活躍を期待して作られた音源でしたが、やっぱり癖が強すぎるので没にします。
こんなふざけた声のために作業したくない……(笑)
◆Falsetto(D5)
これも前々回は没にするかどうか迷っていましたが、これを聞いて没にする決心が固まりました。
高音部はA〜Cで間に合ってますよね。
ということで、A〜Dの4音源に絞ろうと思います。
ご意見、ご感想、アドバイス大歓迎です!
※企画者のスキルは、
・UTAUは完全に初心者
・DTM経験あり
・Audacityによる音声編集が可能(ホワイトノイズ・リップノイズ・ポップノイズの除去、子音・母音のすげ替え、タイミング調整等)
・声に特徴があるので声のお仕事のご依頼をいただくこともあるが、声のスキルはあまりなく、編集力でカバーしている
・歌がマジで下手糞で、発声の改善は望めない
・改造だんぼっちを所有
という感じです。
追記:Twitterに動画を投稿しました!
【つくよみちゃんUTAU音源制作中!】
— 棋譜読みちゃん@10/17 UTAU動画UP! (@Kifuyomi) 2018年10月17日
本日新しい記事をUPしました!https://t.co/hRhB2gdeyn
前半は原音に対する処理の話です。後半では、前回のサンプル音声よりも真面目な歌で、表情音源の実用性を検証しています。ご意見、ご感想、アドバイス大歓迎です!
※動画の音声は完成品ではありません。 pic.twitter.com/kyRhuXakqE
スポンサーリンク