×

[PR]この広告は3ヶ月以上更新がないため表示されています。
ホームページを更新後24時間以内に表示されなくなります。

タイトル

音声処理

人間が持っている重要な感覚として視覚と聴覚があります。 これに対しDSPは、画像処理・音声処理という機能を持っています。 人間は音楽と言葉の両方を聞き取ります。 DSPはこの分野にも革新的な変化をもたらしました。

音楽
マイクとスピーカーをつなぐケーブルはとても長いものです。 そこで、データの劣化を防ぐために、アナログデータをディジタルデータに変換します。 カセットテープとCDの音質を比べればその効果がよくわかります。 一般的に音楽はサウンドスタジオで録音されます。 場合によっては、特定の楽器が必要になったり、歌手が個々に録音することもあります。 この自由度の高い録音技術により、サウンドエンジニアは思いのままに曲を作り上げることができます。 特定のトラックを完成品に組み込む作業をミックスダウンと言います。 DSPは、フィルタリング・信号の追加と削除・信号の編集といったミックスダウンに必要となる重要な機能を、サウンドエンジニアに与えます。

DSPの興味深い用途の一つに、音の残響を人為的に生成するというものがあります。 音を伝えるケーブルをただ単に接続しただけでは、外で演奏していると思われるほど、音質の低下が目立ってしまいます。 これは人間がエコーや残響に非常に敏感であるために発生する問題です。 サウンドスタジオにはこの問題を最小限に抑えるための工夫がこなされています。 DSPはミックスダウン中に人為的にエコーや残響を発生させ、理想的なリスニング環境をシミュレートします。 数百ミリ秒遅らせたエコーは、大聖堂の中にいるような印象をリスナーに与えます。 10〜20ミリ秒遅らせたエコーは、程よいサイズのリスニングルームにいるような印象をリスナーに与えます。

言語の生成
言語の生成と認識は、人間と機械の間でコミュニケーションを取る場合に利用されます。 その場合人は手と目よりもむしろ、口と耳を利用します。 これは手や目がふさがっている時(運転中、手術中など)にはとても便利な方法です。 コンピュータによる言語の生成のために、ディジタル録音と声道シミュレーションという2つの試みがなされました。 ディジタル録音では、声をディジタル化して保存し、圧縮します。 蓄積したデータは解凍し、元のアナログ信号に戻してから再生します。 1時間ほど録音しても、その容量は3Mバイト程度にしかならないので、容量の少ないコンピュータでも利用することができます。 これが一般的に利用されているディジタル言語の生成方法です。

声道シミュレーションは、人間の言語生成の物理的なメカニズムを真似ようと試みるとても複雑な技法です。 人間の声道は、声門のサイズや形により決定された共振周波数を響かせる、言わば音響空洞の働きをします。 音声は、有声音、または摩擦音と呼ばれる二つのうちのどちらかに起因します。 有声音は、声道にある声帯の振動が周期的な空気の振動を生み出すことによって発生します。 それに対し摩擦音は、歯と唇の隙間のような狭い部分で空気が乱れることによって発生します。 声道シミュレーターはこの2つ(有声音と摩擦音)を表すディジタル信号によって動作します。 声道の特徴は、それと似た反響を生成するディジタルフィルターを通すことによってシミュレートします。 この試みは「Speak & Spell」という子供達のための学習支援ソフトとして世界中で販売されました。

言語の認識
言語の自動認識には、言語の生成よりもはるかに高度な技術を要します。 人間の脳は言語認識を上手に行うことができます。しかしコンピュータはうまく行うことができません。 コンピュータは非常に速いスピードで計算を行うことによって大量のデータを蓄積したり、目的のデータを瞬時に取り出したりすることができます。 さらに、何度も繰り返し行うような仕事でも飽きることなく、効率的に行うことができます。 残念なことに、現代のコンピュータは生の感覚データに直面したとき、力を発揮することができません。 毎月の電気代をユーザーに知らせるといった作業はコンピュータにとって容易です。 しかし音声を理解することはコンピュータにとってとても大変な作業です。

ディジタル信号処理では、言語を認識するための方法として、言語の特徴の抽出と照合という2つのステップをふみます。 まず入力されてくる音声信号を単語ごとに分離させ、励起の型と共振周波数を抽出します。 そしてここで得た値とデータベースに登録されている言葉とを比べ、最も近いものを選び出します。 多くの場合、これらのシステムで扱われる言語は数百語程度しかなく、さらに語と語の間にはっきりとした休止が 含まれているものしか正しく認識することができません。そのため、話者それぞれに話し方の教育を施さなければなりません。 これは商用アプリケーションには適していますが、人間の聴覚と比べた場合、その差は歴然です。 この分野でヒット商品を生産し、莫大な利益を得るためには、まだまだ多くの課題が残っています。