info medical NeXT Mac Mail Search bar NERV

about Macintosh

<- previous next -->

29/May

ViaVoice for Macintosh

BBSFAQSearchSite Map

028_Andrea Electronics NC-71

028_Andrea Electronics NC-71

IBM ViaVoiceミレニアム for MacintoshにはAndera Electronics社のHeadsetが付属する。マック版に付属するのはフロストカラーのヘッドセットで、5色のiMacカラーのイアーピースとヘッドバンドカバーで色を変えることが出来る。アナログ音声入力にしか対応していないのでiBookでは使用できない。

また、マイクはノイズキャンセル機能を内蔵している。パワーブック内蔵のマイクロフォンでの音声認識は期待できない。

029_DP path matching

同じ単語でも、その時々で読み上げる速度、のばし方など微妙に違ってくる。音声認識ではこの差は大きい。

横軸に「限界深度」と発音した波型を示す。縦軸にあるサンプルと適合し、最もDP pathが短いものが選択されることになる。(概念図)

029_DP path matching

030_Word Modeling Tree

030_Word Modeling Tree

DP pathマッチングを行う時、8万語に及ぶサンプルとの比較を行う。この辞書をもっと拡張すれば認識率は上昇するように思えるが、実は逆で誤認率が増加してしまう。紛らわしさが増えるからだ。

ViaVoiceが連続音声認識技術を実用レベルまでにした背景には、日本語文章を徹底的に分析し、3つの単語順の発生頻度を調査し、確率的手法で次に現れる単語を絞り込んだことにある。

例えば地名で例えるのなら、東京都のあとには23区名が予想されるわけで、別の市町村名はリストの最後になる。2つ目の単語のDP Path Matching対象が狭められ、3つ目も同様に絞り込まれる。

031_SpeakPad

ViaVoiceは現状ではSpeakPadというアプリケーションとして供給される。「ことえり」などのIM的な使用は出来ない。

SpeakPadがアクティブなときは、アプリケーションメニューすぐしたにVoiceCenterと呼ぶタスクバーが現れる。ここにマイクロフォンアイコン(オン、オフ、スリープ)、ユーザー名、ステータスエリアが表示される。デクテーション画面(音声入力画面)で文章を選ぶと、別ウインドウに他の候補リストが表示される。訂正するときはここで選択する。もしくは「今の文章を削除」というボイスコマンドも使用できる。しかし、訂正を行ったほうが学習効果が期待できる。

031_SpeakPad


iaVoice ミレニアム for Macintosh(日本語版)が本日発表されました。価格は12000円で、システム必要条件はCPUがG3、266MHz以上のアナログ音声入力を内蔵したMacintosh、MacOS 8.5.1以上ですから、PowerBook G3 Series、PowerBook (FireWire)の殆どが対象になります。

製品にはノイズキャンセル機能を内蔵したヘッドセットが付属しています。028_Andrea Electronics NC-71が付属しますが、付属するパーツの交換で5色のiMacカラーに模様替えできます。ブラックモデルが無いことは、PowerBookとのコーディネートを考えると少し残念です。


ViaVoiceは8万語の基本辞書と、単語追加時に役立つバックアップ辞書をWindows版よりも多い15万語持っています*1。最初から全てを利用するのではなく8万語に絞ってあると考えるべきで、使い込み、自分専用の用語を追加登録することで認識率が上昇します。

連続音声認識技術が実用性を帯びたキーテクノロジーは030_Word Modeling Treeにあります。IBMは日本語を統計的手法で徹底的に分析し、3つの単語の並びの出現頻度を調査したのです。ここに、日本語文法などをいたずらに持ち込まず、純粋に出現確率を参考に、029_DP path matchingの検索範囲を絞り、

背反する高速性と認識精度の両方を手にしたのです。

識機構を理解した上で、より精度を上げる「読み上げ方」を実行しましょう。

単語間の関連を重視するので、読み上げはある程度一気に文章を発音するべきです。パターンマッチングに掛ける時間が不足すると、マッチングを途中でうち切ってしまうので、適度な「間」は必要でしょう。ただし、認識速度と精度の度合いはスライダーで調節出来るので、クロック数の遅めな機種では、強制的に精度に振ることも出来ます。通常は「オート」で良いとのことです。

認識がうまくいかないからといって、「認識がぁ」「うまくぅ」「いかない、まるぅ」などと意図的に切ると、さらに状況は悪化します。「認識がうまくいかない、まる」と一気に喋り、少しまってあげるのが良いようです。

ただ、PowerBook G3 Series 333/14と現在の標準からはやや遅い機種でも、待たないでぺらぺらと読み上げて十分実用になるのは驚きです。

平板に発音するのがこつで、口語的口調でしゃべり掛けると認識結果はまったく意味をなさないほど乱れてしまいました。


ViaVoiceは特定話者向け音声認識ソフト

であるため、使用開始時にはエンロール作業が必要です。この作業は2段階に分かれておりクイックエンロールは短い3行ほどの文章を読み上げるだけで終了します。導入から1分も有れば試しに使うことが出来るのです。

実用精度を得るにはやはり15分前後かかるエンロール作業を行うべきでしょう。これも文章を読み上げるだけで、失敗して最初から読み直すということがないように改良されています。

これらの学習結果はユーザー毎に記憶されます。ユーザーの切り替えはViaVoice上で管理されています。現状でMacOS 9のマルチユーザー環境と連動することは考えられていないそうです。(あるユーザーでログインしたあと、ViaVoice側で違うユーザーを指定できない、もしくはその逆が生じるおそれがあるとのこと)

専門用語辞書などのカスタマイズ作業は1000万円単位の費用を掛ければ可能だそうですが、個人ユーザーとは無縁です。そのかわり標準で供給されるボキャブラリエクスパンダを使用すると、指定した文章ファイルから学習が必要な単語を抜き出して、パーソナルボキャブラリに追加するよう促してくれます。地道な作業さえ惜しまなければ、カスタム辞書の作成は可能です。

余談ですが、私はユーザー毎の特定話者学習機能とは別にグループ間での専門用語や発生頻度などの学習情報の共有化機能の搭載を希望します。


後に他アプリケーションとの連携について触れたいと思います。現在、対応しているのは

  • クラリスワークス(ワープロ部分)
  • MicroSoft Word
  • America Online (メール部分)
  • Netscape communicator(メール部分)
  • Microsoft Outlook Express

だけになります。例えば「クラリスワークスへ転送」とボイスコマンドを入力すれば、クラリスワークスが自動的に起動し031_SpeakPadでの編集内容がコピーされます。

インプットメソッド(IM)的な使用方法を期待した人は失望するかもしれませんが、現在、ViaVoiceの全機能がSpeakPadと呼ばれるアプリケーションで供給されているの

で仕方がありません。連携にはカットアンドペーストが可能ですからそれほど困ることはないでしょう。Apple Worksに対応していないのはローカライズのミスでしょうか。

Windows版ではSDKも存在し、音声認識の一部を搭載したソフトウェアも発表されています。*2 Macintosh版は今始まったばかりという印象は拭えません。

実際、Windows版と比較すると、文章が出力されるまで若干のもたつきを感じます。また、句読点の自動入力機能は搭載が見送られました。Macintoshプラットフォームへの開発者の不慣れが見え隠れします。

浮動小数点演算を多用する認識エンジンのブラッシュアップがすすめば、実質ファーストバージョンであるMac版の今後の未来は明るいと思います。

ーボードを打つことが苦痛でない人にとっては、コンピュータに向かって喋るという作業は、気恥ずかしいし、ストレスがたまるかも知れません。

しかし、口述筆記が可能な精度があり、大量の文章入力を必要とする新聞記者や文筆家が、実際に使っているとも聞ききました、

気分を変えてコンピュータに向かいたい時によいかもしれません。それよりも、キーボードアレルギーの多くの医師には電子カルテがぐっと近づいた気がします。


*1ViaVoiceミレニアム日本語版〜製品紹介
*2IBM ViaVoice Developer フォーラム

<- previous next -->

メディカル マッキントッシュ

medical macintosh (c) 1998,1999,2000,2001,2002,2003,2004
Written/Edited by Y.Yamamoto M.D.
Privacy and Security Policy

ご自由にリンクして下さい。

アップルおよびアップルのロゴは、アメリカ合衆国およびその他の国々におけるApple Computer,Inc.の登録商標です。

POWERBOOK ARMYおよびmedical macintoshは、独立したユーザグループで、アップルコンピュータ株式会社が権限を与えた団体、支援する団体、またはその他に承認する団体ではありません。