satoshi's invents

IP of musics evy1 (eVocaloid) singer
proposed by Prof.Satoshi Nishimura / Jichi Med Univ(JAPAN)

E-mail: If interested (snishi-tky(a-mark)ninus.ocn.ne.jp )
Back to top

既存技術ボーカロイド技術の発展 back ground:vocaloid techs

ボーカロイドによる歌唱は一定の成功をおさめた。
now, vocaloid (e-singer) tech is well developed, and widely accepted
however, vocaloid is always "pre-programmed", and not real time performed
new software and data management system was developed to make real-time vocaloid singer
human performer dont need to follow music scores

歌詞「ひらがな」と、音程をピアノ譜面に入力すると、DSP演算で計算の後、音声が作られる。

さらに、即時性・リアルタイム性を狙い、 yamahaからボーカロイド技術をLSIに集約したチップが発売された。

今回使用のNSX・Evy1モジュール。（yamaha、アイデス開発）

歌詞「ひらがな」と、音程（高低・強弱・長さ）を信号としておくると、
ミリ秒のレイテンシのあとに音声が信号として出力される。
似たようなコンセプトのモジュールがソフト・ハードともに他社からも開発された。

楽譜通りに歌わせるだけであれば、即時性は必要ない。録音のほうが編集もしやすい。
演者が演奏をし、ボーカロイド発声することにのみ、リアルタイムは意味を持つ。
そのため、機能を鍵盤に集約した製品も開発された。(yamaha, VKB-100)

リアルタイムでのボーカロイド歌唱があれば、新しい音楽カテゴリになる

リアルタイムの演奏に使えない

リアルタイムでのボーカロイド歌唱は、新しい音楽になるだろう。
では、既存の発声モジュールは、楽器のように使えたのか？「NO」だ。

歌詞はまえもってライブラリとしてデータ入力しておく。

そのあと、鍵盤入力がされる。

入力に対して、発声モジュールに命令をおくる。

ここでおおきな２つの問題。

歌詞をトレースするために、鍵盤入力に歌詞を振らないといけない。
実際の譜面と、鍵盤入力は微妙な差がたくさんある。
鍵盤のなかにはメロディ以外も含まれる。鍵盤入力のなかで歌わせるものを選ばないといけない。

一音でもずれると歌として成立しない。
過去の製品では、ボタン押しのような作業になり、演奏・表現とはいえなかった。

実際の演奏に歌をあわせるには、AI処理が必要。

AI処理による発声

Movie: how it runs
このように、任意の鍵盤入力にたいして、メロディラインを選び、
適切な歌詞を振ることができるようになった。

Movie: how it runs
AI処理をしないと、すべての音にたいして歌詞がどんどん進んでしまうので、
ばらばらになって歌唱として成立しない。
今回のAI処理では、歌うべき音を選び、歌詞をあてて発声している。

AI処理により、極端なアレンジがあっても、ちゃんと「歌える」

ライブラリと判断フロー

このような楽譜を元にして、

楽譜をデジタル化した、「歌詞」と「音程」をライブラリ化しておく。

リアルタイムのMIDI鍵盤からの、信号入力にたいして、ライブラリを参照する。（発明のコア）

メロディにたいして、音程にあった歌詞があるとき「歌う」
歌詞はひとつずつ進行していく
高い音がメロディになりやすい
メロディは極端に上下しない
いくつか音を演者が飛ばしてしまうことがある
極端に短い音は棄却する

という判断を繰り返していく。判断には「重み」があり動的に調節される。
上手く歌えたときは、「重み」を調節しルールをより厳密にしていく。
しばらく歌えない入力が続いたときは、ルールを緩和し、歌いやすくする。

ユーザーインターフェースとして顔を採用している。
発音に応じて、口が開閉するだけでなく、
「うまく歌えてるとき」は表示がおおきくなる。
演者側にもフィードバックする。

さらに、歌った場所は楽譜にも自動でマーク表示されていく。

動的AI判断は、人が行うあいまいな入力への応答をきめるのに最適

Back to top