作曲

CeVIO AIで1曲作ってみて(NEUTRINOとの比較)

「CeVIO AI 東北ずん子」ソングボイス公式デモソング制作にあたり、ソフトを使用してみての感想を書いてみる。

CeVIO AIこんなソフト

合成音声はNEUTRINOしか使用したことない観点から、今回CeVIO AIを使用してみて「エディタならではの違い」と「ソフトに触れて気づいたこと」を列挙する。

まずニューラルネットワークを用いた歌声シンセサイザー「NEUTRINO」と同じく、「CeVIO AI」もベタ打ちでほぼ問題ない。十分人間らしい歌声が出力される。もっと言えば、キャラクターらしい個性を乗せた調声済みのデータにデフォルト調整されると言ったほうが正しいか。

声の出し方、発音のクセ、モデルによる特性が再現されるのは両ソフトとも同じ目的レベルで採用できる。異なる企画であるためアプローチは異なれど、ある同じ人物の歌声を再現しようというゴールが同じであれば、突き詰めれば同じものが出来上がるのは容易に想像できるだろう。

NEUTRINOはCeVIO AIとどう違う?

ここで「NEUTRINO」は人のような歌声を楽器として起用できるようにしたAI合成音声の先駆けで、MusicXMLという音符と歌詞の情報を持ったファイルを読み込むことで歌声を計算し推定するためのフリーソフトであり、単体で歌わせることはできない。音符と歌詞の入力、MusicXMLファイルへの出力ができるソフトが別に必要だ。NEUTRINOのニューラルネットワークのパラメータで計算するための入力データがMusicXMLであり、手軽な解決方法として公式ページでも「MuseScore」という、こちらもフリーの楽譜作成ソフトが紹介されている。

ちなみに筆者は吹奏楽で18年ほど楽譜を読んできたが、書けない。曲を作るにはピアノロールエディタでの知識しかなく、「音楽ツクールDX」もしくは「Domino」というフリーのMIDI作成ソフトで作曲し、MIDIファイルで保存→MuseScoreで読み込み、歌詞を入力、MusicXMLファイルを出力→NEUTRINOで読み込みwavファイルを出力という流れを取る。

ここまでを1手順として初めて歌声が確認できる。つまり一部分を調整するたびに確認し追い込んでいく作業には向いていないことがわかるだろう。

CeVIO AIはNEUTRINOとどう違う?

一方「CeVIO AI」はエディタであり、単体で歌を歌わせることができる。音符を入力している画面で歌声が再生できる。発音タイミングやピッチなど調整できるパラメーターが多く準備されている。使ってみると歌手に楽譜を渡すのでなく、歌手にコントローラーを付けた様なものだと感じた。

リアルな歌声が無料で導入できる「NEUTRINO」と、エディタ込みで調声を手軽に追い込みたいという要望に応える「CeVIO AI」と、棲み分けされている。

対応するモデルも両ソフトで違うため、声で選ぶ場合もあるだろうし、東北3姉妹といった両ソフト対応の声であれば、使いやすさではもちろん調整できるCeVIO AIに軍配が上がる。圧倒的な時間コストの削減だけでなく、「NEUTRINOでは出来なくはないが手間を考えると諦めていた」調声も追い込んでいけるのだ。

興味が出た方はまず無料の「NEUTRINO」で自分で入力した曲をキャラクターが歌ってくれる感動を味わってみて欲しい。

そこで痒いところが出てくるはずだ。「ここはもっと滑らかにしたい」「ここは短くしたい」「音程が上がるタイミングを遅くしたい」。映像制作と同じく、作曲作業は修正の連続だ。ほとんどの時間が修正作業で出来ている。これが増えれば増えるほど、「エディタがあればなぁ」となる。

※「NEUTRINO」にも「NEUTRINO調声支援ツール」というNEUTRINOでの調声を支援する便利な非公式ツールがある。調整ごとに即時反映しないという点はあるが、タイミングの前後とピッチのカーブ描きをGUI上で行えるため調声の幅がいきなり上がる素晴らしいソフトであり、「CeVIO AI」導入前に試してみるのも手だ。

CeVIO AI 東北ずん子ソングボイスを使ってみて

作った曲がこちら。この際の「CeVIO AI」での編集でどう使いやすかったかPRする。無料ソフトである“「NEUTRINO」との出来ることの違い”と考えると見やすいかと思う。

東北ずん子ソングボイスの声質

東北ずん子(本名:じゅん子)はCV:佐藤 聡美氏の息多めの優しい声。そのため地声と裏声との境が曖昧で、個人的には高音がとても綺麗なため、これをフィーチャーした曲も作った過去があるほど。発音的には宮城県出身だからか「がぎぐげご」が訛ってる。

この辺りは声優さんが同じ為NEUTRINO版と同じ感覚で使用が可能だ。

CeVIO AIという「エディタ」部分がNEUTRINOとの差異としては大きいと思うため、個人的には特に調声ナシでも行けたが、デモソングということでイジれるところをイジったワケだが、エディタとして優れていると感じた点を記事化していく。

・発音のタイミング調整

進めば→「すっすめば」という歌唱箇所の場合、「su-su-me-ba」では不自然に聞こえるが、「sus-u-me-ba」と子音を独立して前倒しすることでより人の発音に近づく。これはローマ字でのタイミング調整がなければ実現できない。

NEUTRINO調声支援ツールでも同じことが可能。

「s」を独立してずり上げられる

・ブレスのキャンセル

CeVIO AIでは音の切れ目全てに、自動で休符に合わせた長さのブレスが入る。

非常に人間味の出る演出だが、音を切りたいのでなく言葉としての「っ」の表現など、スタッカートとして8部音符、8部休符を繰り返すような場合においては過剰となるため、wav出力後に波形ソフトでブレスを消すか、CeVIO AI段階で歌詞に「っ」を足すテクニックでブレス無し無音を作り出せる。

「ま/[ブレス]/し/ろ」でなく→「まっ/し/ろ」と入力し「まっ」のタイミング調整でclをずり上げる。

またこれも一つ前と同様に「っ」後の発音は、次の子音が漏れ出るのが自然なので、「し」の「sh」もずり上げておく。

ブレスなしの隙間を空けられる

・子音のみの発音

日本語においても発音上は「です」→「de-s」、「ます」→「ma-s」など最後の母音が不要な場面がある。

2文字以上入力した歌詞に「’」(全角アポストロフィ)で直前の母音をキャンセルできる。

「活を入れる」の歌詞にて「かつ’」と入力することで「ka-tsu」でなく「ka-ts」の発音に調整可能。「か」と「つ」に分けず1音符に2文字とも入れることが条件。

「か」を長めに発音したい場合など、「ka」と「ts」のタイミングはエディタのタイミング調整画面で行う。

「’」直前の母音を無音化できる

・ピッチ調整

人間が歌う場合は音符通りではなく歌いやすいように、早めに次の音程に入ることがあるが、これもピッチの調整で再現可能だ。

↓デフォルトの音程は緑、調整後の音程はオレンジで表示される。

楽譜通りに歌わないことで人間味が増す

また、意図的に滑らかに上下しトロンボーンのような粘っこい浮遊感を表現することが可能。曲で聴くとキビキビとピッチが命中すると合わないかと思う。(曲中では2:20から)

ピッチカーブをペンツールでゆっくりに

また実験的なピッチ調整として高音から一気に落とすことで、落下時の叫びの表現にも挑戦したが、かなり自然に実現できた。

エディタなので当然ながら任意の範囲を即時プレビューでき、NEUTRINOでは音声ファイルの書き出し→確認→調整→また書き出しの繰り返し作業いわゆる調整ガチャが圧倒的に効率的に行えた。

仮にNEUTRINOで1箇所10分かかる作業が1,2分で済むとなれば、実質妥協していたクオリティに手を加えることが可能となる。

実際の作業では皆、調整箇所が1箇所ということはないであろう。よりCeVIOの優位性(恩恵)が分かってもらえるかと思う。

もちろん声質の段階的な変化(大人っぽい声、子供っぽい声)もスライダー調整できるため、CeVIOでないと実現できない細かなニュアンスも追い込める。

CeVIO AIは調声できるし、しなくても良い

「調整できる余地が広い」ことと「調整しなくてはならない」ことは同義ではなく、ベタ打ち段階で既に十分な歌声になる。上記のようにピッチ変化をゆっくりにしたかったり発音タイミングを少しズラしたいといった、作曲者のこだわりによって追い込む「効率の良い調声が可能」という点が、商用エディタとして成立しているレベルと捉えた。

つまり「CeVIO AIは調声できるし、しなくても良い」となる。

おまけ:MV裏話

歌詞を書きながら大枠のメロディ、伴奏、映像を頭に浮かべるのだが、デモソングともあり多少なりとも頑張ろうということで、絵本のような一本のストーリー軸をはじめからほぼ決めていた。

構想段階でポージングが多数必要と考えたためキャラクターは3Dモデルを活用し、フルアニメーションでなくとも表現ができる最小限の動きで作画コストを抑えることにした。ポージング用のフリーソフト「MikuMikuDance」と公式配布のMMD用モデルがあれば、全身の関節の角度をキーフレーム入力させるだけで一定クオリティのキャラ絵が完成することは前作「四輪駆DOPE猫次第(ずんだもんMMDモデル使用)」にて習得していたため、キャラ絵の準備はスムーズであった。

また、古き良きジャパニメーションを3D映像に輸入するため、いくつかの制限を取り入れる。

・カメラは24fps
・キャラクターモーションのみ12fps(2コマ打ち)
・疑似セルシェーディング
・モーションブラーは使わない

・カメラは24fps

筆者は映画の秒間24フレームでシャッタースピードが半分の1/48秒で作られる独特のパラパラ感に陶酔している。信者といって良い。今回はことアニメーションであるため問答無用で24fpsで作ることを固く決意していた。なんなら理由がなければ全動画24fpsで作ってしまうきらいがある。

・キャラクターモーションのみ12fps(2コマ打ち)

筆者はまた、慣れ親しんだ昔ながらのリミテッドアニメーションの(コマ数の少ない)パラパラ感のある動きも大変好みで、これは作画枚数を減らすことでのコスト面に優れているだけでなく、アニメならではの動きの緩急(タメ、ツメと呼ばれます)を強調することに一役買っている。

しかしMikuMikuDanceでは30fpsでしかモーションを出力できず、これを実現するために単に均等にフレームを落としてしまうと、ただフレームレートが落ちるだけだ。

特にキャラクターの動作を映像で表現するためには、落としてはならない、必要なキーとなるポージングが存在する。「歩き」で言えば「前足の踵が地面に接地+後ろ足の踵が上がった瞬間」「後ろ足が体を前に蹴り出す」「左右の足の前後が入れ替わった瞬間」は省略できない。

ここまで読んでなんとなくお分かりかと思うが、MikuMikuDanceにて30fpsでキーとなるモーションをキーフレーム付けし、無理やり必要なコマを抜き出した。不自然になるモーションは泣く泣く1フレームずつ手付けし、24fpsで2フレーム表示させたスピードを想像し作り込むことになった。

後半は盛り上がりに伴い、アクションも激しくなるためフレームレートを上げ、動きの解像度を損なわないよう留意した。2回目の弓を掴むカットは1コマ打ちだ。

・疑似セルシェーディング

元がアニメ絵寄りのキャラ、モデリングなので、写実的な陰影が付くライティングはPS1のムービーレベルの不気味さを醸し出すと考え、数十分ソフトと格闘したが、知識が足りず思うようなキャラの魅力が出るライティングに辿り着かなかったので、いっそのこと影は真っ黒にアメコミ風にした。影にグラデーションを付けないことでアニメの塗りが多少再現できたように思う。

おそらく、筆者の考える一部の影にのみ入る色のある光は、手描きならではのものなのでしょう。少し調べると格闘ゲームのストリートファイター5では「照り返し」という表現で実現できているので、一部のシェーダーでしか実現できなさそうだった。早々に諦め制作を進めることを優先とした。

SFVのグラフィックスの仕組み(3)~Enlightenを採用。ついに間接光表現を導入!より

このタイミングで、キャラクターの縁に線画を入れたらイラストらしくなるかとレイヤースタイル:境界線を入れてみたが野暮ったく、追い込むのに時間がかかりそうとこれも見送った。

完成へ

あとはMikuMikuDanceでポージングしたらMMDBridgeでobjエクスポート→After EffectsのElement 3Dでインポートして照明、カメラを作り込めば完成。

今回は一部編曲とミックスをそばちょ氏へ任せたため、作編曲とMVで筆者の作業は25時間ほどであった。

細かいことはよくわからないが、送り返された完成曲がなんだかとても聴きやすくなって嬉しかった。映像は目で見て分かるので作るのは容易だが(容易ではないが)、音の周波数をどうこうするのは難しく、すごい技術だと思う。感謝。

最後に

いかがでしたか?でまとめる記事が好きではないので、きちんと総評すると、AIによる歌唱の時代となり、そのエディタもここまでUIが準備され、ほぼ即時計算が出来てくるとなると、歌手を第三者が操作しているという錯覚に陥る程「パソコンで歌う」という行為の敷居が低くなってきた。

これが進む中でも作曲者側の個性を出す部分と、音声モデルとしての個性を守る部分とがせめぎ合い、どういったコンテンツが生まれていくのかという楽しみもある。超絶調声で全く違うキャラのように変えてしまうことだってできるだろう。

今後実装されて欲しい機能としては「声の強さ」である。声質や発音のクセはキャラクターとしての個性を左右するため大きく外せないはずだ。感情の表現には音量の大小ではなく、強弱が必要だ。DAWで言うところの大手の有料プラグインでは同じ音程でも数種類の強さの音が用意されており、音量によって適した音が再生される方式を取るものがある。

これも無段階でなく音の強さを4種類内蔵した音源であれば、音が切り替わる段階が存在する。強さ(velocity)109では「まだ弱い」、110では「強過ぎる」といった具合だ。DAWでは音の強さであるvelocityが127段階あるため、完璧を求めるなら一つの音階につき127録音必要となる。

これを無段階に「混ぜる」ことができればイメージ的には目的を達すると考えられる。

以前、「VOICEVOX」作者のヒホ氏へ「声の強さ」のシミュレートは可能か訪ねた際は、下記のように「学習させるデータ外の音声表現はまだ難しい領域」だという答えを頂いた。

つまり、少なくともこの分野で進化する余地があるということだ。

ものづくりをする人間は安心していい。機械がすべき仕事は機械にいくら任せても、人の手が必要な分野はいくらでも残る。少なくとも「何が好きか」という判断はCPUに任されることはないのだから。そうなのだから。

CeVIO AI 東北ずん子公式デモソングを作りました前のページ

岩沼とずんだで曲を作りました「言ワヌ-間ヌ間ヌ」次のページ

ピックアップ記事

  1. なぜ?After Effectsの操作を「スクリプト」で効率化
  2. なぜ?After Effectsのレイヤーをエクスプレッションで効率化
  3. フリーランスの開業届提出は開業freeeでとにかく簡単に

関連記事

  1. 作曲

    曲がテレビで流れました「東北ずん子のミュージックパラダイス」

    知人のそばちょ氏と作った曲がテレビの電波に乗りました。…

コメント

  1. この記事へのコメントはありません。

  1. この記事へのトラックバックはありません。

CAPTCHA