Monday, August 2, 2021

商用可・無料の音声読み上げツール「VOICEVOX」が公開 ~素人でも手軽に満足のいく品質が得られる丁度よさが魅力 - 窓の杜

jumpalitanbolot.blogspot.com
「VOICEVOX」

 好みのキャラクターにテキストを読ませることのできる音声合成ソフト「VOICEVOX」が、8月1日に公開された。現在、本ソフトの公式サイトから無償でダウンロード可能。書庫ファイルのサイズは3.3GBほどと比較的大きくなっているので、ダウンロードの際は注意。

 「VOICEVOX」は、手軽に「そこそこ品質がよい」結果を得られる音声読み上げツール。有償ツールほどの機能は持たないが、誰でもすぐに扱えて、やろうと思えば簡単なイントネーションなどの調整まで行える柔軟性が特徴だ。商用・非商用問わず無料で使えるのもうれしい。音声合成ソフトを使ったことないユーザーや、使ったことはあるが挫折してしまったユーザー、難しそうで手が出せないでいるユーザーに是非お勧めしたい。

 利用するにはまず、公式サイトから書庫ファイル(ZIP形式)をダウンロードし、適当なフォルダーに展開する。ファイルパスに日本語が含まれるとエンジンエラーが発生することがあるとのことなので注意したい。「C:VOICEVOX」などにインストールするとよいだろう。

 展開したフォルダーのなかにある「VOICEVOX.exe」をダブルクリックして起動すると、まずエンジンのモードを選択するダイアログが現れる。基本的にはパフォーマンスに優れるGPUモードがおすすめだが、利用するには3GB以上のビデオメモリを搭載したNVIDI製GPUが必要となる。CPUモードでも「VOICEVOX」は利用できるので、要件を満たさない場合はCPUモードを選ぼう。

まずエンジンのモードを選択

 ユーザーインターフェイスはシンプルで、ツールバーと編集エリアから成る。編集エリアにはキャラクターのアイコンと、そのキャラのセリフを入力するボックスがあり、右下の[+]ボタンを押すことで行を追加できる。キャラクターは今のところ2種類用意されており、アイコンのクリックで切り替えが可能だ。

  • 四国めたん:落ち着いた優しい声
  • ずんだもん:子どもっぽい高めの声

 ボイスキャラクターは商用・非商用問わず無償で利用できるが、クレジットの表記が必要になる点には注意したい。また、将来的にはキャラクターを拡充していきたいとのことなので期待しよう。

 セリフを入力すると、編集エリアの下部と右に新しいペインが現れる。下のペインはアクセントとイントネーションを調整するエリア、右のペインはそれ以外の声の調子をカスタマイズできるエリアだ。

 アクセントの調整は、マウスで音程のグラフを操作しながら行う。単語の切り分けは自動で行われるが、もし意図したものと異なっていれば分割や結合も可能。アクセントモードからイントネーションモードに切り替えればより詳細な調整も可能で、頑張れば方言も再現できる。再生ボタンで実際の音声を確かめながら、手探りでパラメーターを調整していこう。

アクセントの調整は、マウスで音程のグラフを操作しながら行う。単語の切り分けは自動。あとから修正も可能
アクセントモードからイントネーションモードに切り替えればより詳細な調整も可能で、頑張れば方言も再現できる

 一方、右のペインでは話速、音高、抑揚の3つをスライドで調整できる。焦っているときは話速を早く、感情が高ぶっているときは音高を高く……といった風に調整してやれば、ある程度の感情表現が可能だ。

 音声の保存は、ツールバーの[書き出し]コマンドから行う。保存先のフォルダーをダイアログで指定すると、そこに1行ごと、連番でWAVEファイルが出力される。ただし、ファイル名が重複しているときは強制的に上書きされてしまうので注意したい。上書きを避けたい場合は、保存先のフォルダーを分ける必要がある。

保存先のフォルダーをダイアログで指定すると、そこに1行ごと、連番でWAVEファイルが出力される

 なお、本ソフトのソースコードは「GitHub」で公開されるとのこと(執筆時現在、作業中)。ライセンスは「LGPL v3」だが、作者に連絡すればソースコードの公開が不要な別ライセンスでも提供されるという。

Adblock test (Why?)


からの記事と詳細 ( 商用可・無料の音声読み上げツール「VOICEVOX」が公開 ~素人でも手軽に満足のいく品質が得られる丁度よさが魅力 - 窓の杜 )
https://ift.tt/3jbWh0V
科学&テクノロジー

No comments:

Post a Comment