■サウンド研究者・データベース [データ作成:平成16年6月]

Sagayama Shigeki
氏名 嵯峨山茂樹
所属 東京大学 教授 (大学院情報理工学系研究科 システム情報学専攻 / 工学部 計数工学科)
所在地 〒113-8656 東京都文京区本郷 7-3-1
最終学歴 東京大学 大学院 工学系研究科 修士
卒業・修了年 1974
学位 博士(工学)
所属学会 IEEE (Institute of Electrical and Electronic Engineers)  Signal Processing Society  情報処理学会 (IPS) 電子情報通信学会 (IEICE) 日本音響学会 (ASJ) 計測自動制御学会 (SICE) 国際音声通信学会 (ISCA) AVIRG
連絡先 TEL 03-5841-6900
連絡先 FAX 03-5841-6953
連絡先 E-Mail
Web-site http://hil.t.u-tokyo.ac.jp
専門分野 (1) 音楽信号処理、音楽情報処理
(2) 音声認識、音声分析合成、音声信号処理、マイクロフォンアレイ
(3) 手書き文字認識、数式認識
(4) 音声対話擬人化エージェント、ヒューマンインタフェース、対話システム
現在の主な研究テーマ (1) 音楽信号処理、音楽情報処理

・Specmurt 法による多声音楽信号からの MIDI 変換
 Specmurt と呼ぶ新概念を案出し、実験を通して、多数のピッチを含む音楽信号のピッチを抽出することができることを確かめた。これにより MIDI信号に自動あるいは半自動で変換し、楽器変換、音色変換、速度変換、和声組み換え、旋律加工などの加工が容易に行える。

・Harmonic Clustering 法による多重ピッチ解析
 上記と補完し合う技術として、極めて分解能が高い多重ピッチ抽出法として Harmonic Clustering 法を提案した。これにより、従来不可能であった和音を構成するビブラートつきの構成音を分離、周波数推定、音色(調波構造)推定、MIDI 変換などが可能である。また、非調和な楽音(ピアノなど) も扱える。MIDI に変換した後は、前項のような様々な加工ができる。

・テキストからの歌声の生成
 HMM 音声合成法を用いて、歌詞つきの楽譜からそれを歌う音声を合成することができる。

・自動和声づけ
 与えられた旋律に対し、(尤度の意味で)最適な和声を自動的に付与する手法を開発した。基本的なアイディアは、音声認識とのアナロジーにより、和声を隠れ状態として音楽を HMM によりモデル化し、Viterbi 経路探索により、尤度最大の和声系列を求めるものである。この技術には、転調の検出、転調に即した和声づけなども含まれる。

・リズム認識とMIDI信号からの自動採譜
 音声認識の手法を用いて、MIDI 信号(Specmurt法などにより音響信号から変換されたMIDI信号も含む) から、各音符長を決定し、楽譜に変換する。この問題は、従来、量子化(クオンタイズ)の問題とされて来て、個々の音長を最も合致する音符に変換して来た結果、緩急をもつ芸術的な演奏の楽譜化は不可能であった。そこに音声認識の言語モデルと音響モデルの考え方を、楽譜リズムモデルと音長変動モデルに対応させて、新しい手法を開発した。この方法により、3拍子系と2拍子系(4拍子を含む)の区別、小節線の位置の推定、テンポの変動への追従などが可能になり、この分野の技術が大きく進歩した。この技術を用いて、音楽データベース構築、MIDIキーボード入力での音楽検索、楽譜浄書、自動和声づけなどの前処理などを行なう。

・自動対位法技術
 音楽編曲では、和声づけだけでは不十分であり、特にクラシック音楽風の編曲では、与えられた旋律に対してよい響きを持つ「対旋律」を作る必要がある。この技法は対位法と呼ばれ、音楽大学などで講義されるが、これを自動化する試みはまだ殆んどなされていなかった。われわれは、音声認識で用いられる動的計画法と確率論を用いて、その技術を開発した。この技術は、与えられた旋律に対し、単なるコードづけ以上の、音楽的な編曲を行う技術として利用できる。

(2) 音声認識、音声分析合成、音声信号処理、マイクロフォンアレイ

・雑音中の音声認識
 雑音中では音声認識性能が著しく低下する。これに対処するために、音声モデルを雑音に適応させる手法があり、PMC法やヤコビ適応法などがある。我々はさらに性能を向上させられる手法を達成した。

・マイクロフォンアレイによる雑音除去の新原理CSCC法
 マイクロフォンアレイ入力に対し、複素スペクトル領域で幾何学的な方法により、移動する雑音、非定常な雑音(妨害音声など)などに対処できる、学習不要な雑音除去技術CSCC法(複素スペクトル円心法)を開発した。これにより目的音声のSNを向上させられるばかりでなく、音声認識性能も飛躍的に向上できた。

(3) 手書き文字認識、数式認識

 音声認識の手法を用いることにより、かなり崩れた手書き文字のオンライン認識が可能になった。さらに、オンライン手書き数式認識の研究を進めており、手書きで数式を書いて、文書作成ソフトなどに挿入することができる。

(4) 音声対話擬人化エージェント、ヒューマンインタフェース、対話システム

・音声対話擬人化エージェントの無償ツールキット (Galatea Toolkit) 開発
 IPAから3年間の支援を受けて、音声認識、音声合成、顔画像合成、対話制御統合などの機能モジュールからなる無償のオープンソースソフト Galatea Toolkit を公開している。これは、10以上の大学などの研究機関の協力体制に依るものである。嵯峨山はそのプロジェクトリーダを務めた。現在、より詳細な制御を可能にして、人間らしい対話を目指している。

注目成果・特許番号 特許出願中 数件 (後日公表します)
共同研究者・開発者 西本卓也(助手)、酒向慎司(特任助手)
共同研究者・開発者募集  開発中の音楽情報処理、音楽信号処理の技術は、音楽から楽譜を(現在のところ半自動で)起こす技術、多重の音を分離する技術、音をMIDIコードに変換して音色などを操作する技術などを含んでおり、新たな応用分野を拓ける可能性を持つ。製品化を狙って企業と共同で研究開発を行いたい。
 また、マイクロフォンアレイ技術や雑音中の音声認識技術などは、音声認識を応用する上で有用な技術であり、これについても企業と共同で製品に結び付けて行きたい。
自己PR・趣味 音楽が趣味であるので、音楽を数理的および信号処理的な観点から、音声認識の考え方をベースにして、新しい技術を開発して行きたく思っています。

研究者一覧に戻る  専門分野からの検索に戻る