自動採譜の仕組みとは？音声からMIDIが作られる流れを解説

自動採譜とは？

自動採譜とは、音声ファイルから音の高さ、タイミング、長さなどを推定し、 MIDIや楽譜の形に変換する技術です。従来は人間が耳で聴き取って音符を書き起こす作業（いわゆる耳コピ）を、 AIや信号処理によって自動化したものと考えるとイメージしやすいでしょう。

自動採譜は、耳コピを完全に置き換えるものではなく、「ざっくりした下書き」を素早く作るための補助ツールとして使うのが現実的です。細部の精度は曲によって変わるため、最終的な仕上げは人間が行うのが一般的です。

自動採譜ツールは、内部で次のような処理を順に行っています。

人間が「メロディを聞き取る」プロセスを、コンピューターは数値解析として再現しています。ただし、人間が無意識に行っている「メインの音を選び取る」という判断は、アルゴリズムにとっては難しい処理のひとつです。

自動採譜の中核は「ピッチ推定」と「オンセット検出」です。

ピアノのように音の立ち上がりがはっきりしている楽器は、ピッチ推定もオンセット検出も比較的安定しやすい傾向があります。一方、ボーカルのように音程が滑らかに変化する音や、ストリングスのように立ち上がりが緩やかな音は、解析が難しくなります。

近年は、ディープラーニングを用いた自動採譜技術が大きく進歩しました。従来のルールベースのアルゴリズムと比べて、AIモデルは大量の音源データから学習しているため、ノイズや複雑な音源にもある程度対応できます。

たとえば、ピアノ専用にチューニングされたAIモデルは、和音やペダル使用時の音の重なりもかなり高い精度で識別できるようになっています。ただし、それでもバンド音源やボーカル中心の曲では、完全な採譜には届かないことが多いのが現状です。

音楽には複数の楽器、倍音、ノイズ、リバーブなどが含まれます。そのため、AIが本来のメロディ以外の音を音符として検出することがあります。具体的には、次のような原因で誤検出が発生しがちです。

前処理に少し手をかけるだけで、自動採譜の結果は驚くほど安定することがあります。

自動採譜の結果は、MuseScoreやDAWに読み込んで仕上げることで、実用的な楽譜やMIDIになります。

自動採譜は、音声をMIDIや楽譜に変換するための信号処理とAI技術の組み合わせです。完全な楽譜を一発で生成するわけではありませんが、耳コピや楽譜作成を効率化する「下書き作成ツール」として活用すると、非常に実用的です。

仕組みを理解しておくと、結果が崩れたときに何が原因かを推測しやすくなり、前処理や修正の判断もしやすくなります。