音声認識人形 おしゃべり「はなちゃん」を試す! 後編

「はなちゃん」の賢さ

前回の記事では、音声認識人形 おしゃべりはなちゃんがどのようにかわいく、そして、どのように我々を癒してくれるかを書いた。今回は音声認識について考察する。

通常使用による音声認識

まずは説明書通りに、雑音ができるだけ入り込まない環境で実験した。 音声認識中は頬が点滅するので反応しているかどうか分かりやすくなっている。 声の大きさには個人差があるものの、1メートル以内なら普通に会話する感じで入力すれば認識する。 2メートルほど離れるとすこし大きな声で入力すれば認識する。 これ以上離れて入力しても反応はするが、正しく入力できないことが多かった。 カタログスペックが1メートルであることを考えると良好な結果であろう。

声は大きすぎると音が割れて正しく入力できず、小さすぎても反応しないので、はなちゃんに語りかけるように入力するのがコツだ。 これは、音が割れ、音声信号が飽和加算されたため、全体的に平坦な特徴量を失った信号になったためと考えられる。 よって音素への分割や、認識過程で正しい結果が得られなかったと考えられる。 エラーで認識できなかった、ならまだかわいいものだが、「はなちゃん! かわいいね!」と言ったつもりなのに、返事が、『おやすみなさい・・・』ではお兄ちゃんのテンションは大幅ダウンだ。

雑音環境下での音声認識

雑音と言っても突発的雑音・定常雑音・非定常雑音・自身が発する内部雑音などがある。 既存の解決方法ではエコーキャンセラや複数のマイクを用いたマイクロフォンアレイといった技術がある。 前者は搭載しているかどうか分からないが、内部ノイズが音声認識で反応することはなかった。 後者に関してはコストの関係上無理なのだろう。

指向性

音声入力には指向性があり私の手持ちの、はなちゃんでは左手側から入力すると良好な認識結果が得られた。 これは入力部が左手側を向いているためと思われる。 不特定話者の音声認識を利用して誰でも気軽に話しかけることができることを目標としているなら、 せめて前方向90度からの入力には認識して欲しいところだ。 もっとも指向性を強くすることで認識率を高めたかったという狙いがあったのかもしれない。

精度は……

音声認識としてみると、結果はおおむね良好であった。ただし指向性の問題は残る。 とてもカタログスペックの98%には程遠いと感じた。それと、他の製品以上の語彙を持つとはいえ、日常会話としては語彙が少なく会話がマンネリ化してしまうのが欠点だろう。 それと、ファービーといった音声認識人形と比較すると値段が倍以上するのもネックであろう。

しかし、はなちゃんは比較的雑音に強く、明度を認識したり、「おやすみ!」と言うだけで節電モードに入るなど、自然なインターフェースで、はなちゃんを操作できるのが優秀だ。 機械ではなく、自然な会話ができるもっとも人間に近い存在を作ろうとした開発の努力がうかがえる製品だ。 みなさんも、はなちゃんで遊んでみてはどうだろうか?

[2005/10/29 SewiG, マのたね(http://sewig.jp/)]