「ななめ聞き」システム

統語情報を用いた、視覚障害者のための、「速聞き」システム

 

鳥原 信一

 

日本アイ・ビー・エム株式会社 東京基礎研究所   慶應義塾大学大学院 政策・メディア研究科

 

242-8502 神奈川県大和市下鶴間1623-14

日本アイ・ビー・エム株式会社 東京基礎研究所 (LAB-S72)

пF046-215-4596  E-mailtorihara@jp.ibm.com

 

あらまし  視覚により「ななめ読み」が可能である。しかしながら、音声は連続的、直線的であり、聴覚による「ななめ聞き」は不可能であるとされてきた。

テキスト全体を高速に音声合成すると、理解が困難になる。そこで、全体は速く合成するが、統語情報を用いて、重要品詞は、相対的に、遅く合成する。これにより、「ななめ聞き」が可能になる。視覚障害者が音声によるインターネット・ブラウザを利用する際などに有効であると思われる。

 

キーワード  速聞き、ななめ聞き、視覚障害者

 

An “Oblique” Listening Method for the Visually Impaired

 

Shinichi Torihara

 

Tokyo Research Laboratory, IBM Japan, Ltd.  Graduate School of Media and Governance, Keio University

IBM Japan, Ltd. Tokyo Research Laboratory

1623-14 Shimotsuruma, Yamato-city. Kanagawa. 242-8502 Japan

Tel : +81-46-215-4596  E-mail : torihara@jp.ibm.com

 

Abstract  Normally-sighted people can increase their scanning and reading ability by a method known as "diagonal" reading. The blind and visually impaired, however, must rely on a conversion of written text to speech. The problem with this is that speech sounds generated from text are sequential and linear. If you listen to speech sounds at a faster than normal speed, you will not be able to understand them well. In this study, we propose a rapid "oblique" listening method for the blind and visually impaired by controlling speed based upon the linguistic information (syntax, new and old information) of any given text. Verbs, nouns and negative adverbs, and new information will be played at relatively slower speed, the remaining parts at a much faster speed. The need for the visually impaired for improved access to widespread interdisciplinary knowledge is obvious. This method will help them share the advantages of "diagonal" reading currently available only to the fully sighted.

 

Keyword  Rapid Listening, Oblique Listening, the blind and visually impaired

 

 


1.         はじめに

 正常に視力のある方は、「ななめ読み」として知られている手段によってScanningおよびReadingの能力を高めることが可能である。しかしながら、視覚障害者は、電子テキストを音声に変換し、これによってReadingを行うことが多い。音声は連続的だあり直線的である。全体を高速に再生すればする程、内容の理解が困難となる。

本研究では、テキストの言語情報(統語情報、新・旧情報など)に基づいた再生スピード制御による視覚障害者のための速聞き、「ななめ聞き」法を提案する。動詞、名詞、否定の副詞および新情報は比較的ゆっくりのスピードで再生する。その他の部分は高速に再生する。視覚障害者の広範囲な知識、情報へのアクセスの改善の必要性は自明である。提案する手法は、正常な視力を持つ方にのみ可能な「ななめ読み」を視覚障害者にも供与することになる。

 

 

2.         従来技術とその問題点

2.1       高速再生モード

 IBMHome Page Reader(HPR)[1] には高速再生モードがある。

 また、市販のVTR(ビデオデッキ)には高速再生機能がついているものがある。これは、音声を一定間隔でまびく(Decimation)することによって実現している。VTRの場合は、音声情報とともに画像情報があるので理解が比較的可能である。

 視覚障害者のためのインタネット音声ブラウザであるHPRにおいては、女声音がLinkを読み上げているので高速に再生し、男声音から女声音に変わるところで通常再生に戻す。頭出しには有効である。

 

1. HPRおよびVTRの音声まびき

 

  

テキスト ボックス: 高速再生 

 

 

 

 

 

 

 

 


2. HPRの(テープレコーダのような)頭出し機能

 

 

2.2       テキスト要約

 現在研究されている多くのテキスト要約(抄訳)は、テキスト中の類出単語(キーワード)や接続詞、主張・決定の動詞から、重要な文を抽出し、接続詞などによってスムーズなつながりとするものである[2]。テキスト要約した結果を読み上げるのも、内容理解の手段としては有効であるが、全体をScanning, Readingしたことにはならない。

 積極的なReadingの態度でありながら、効率よく内容理解ができることが望ましい。

 

 

 

 

 

 

 

 

 

 

 


3. テキスト要約

 

 

2.3 分かりやすいテレビ音声

 NHK技術研究所は、高齢者にテレビの音声が聞き取りやすく、分かりやすくするためのデバイスを開発している[3]

 実際の放送を可能な限りゆっくりと再生する技術である。話し言葉には無音の時間(ポーズ)があり、この時間を利用している。この研究は、「ななめ聞き」のように効率を求めるのではなく、ゆっくりと分かりやすく再生するのが目的である。しかしながら、すべてゆっくり再生するのではなく、重要な単語(形態素)のみをゆっくり再生すると一般の方々にも理解しやすくなると思われる。

 

 

 

 

 

 

 


4. ゆっくり再生の仕組

 

3.         「ななめ聞き」法

3.1       目的

 HPRのように全体を高速再生するものではない。テキスト要約のように抽出された一部を再生するものでもない。

Readingは、次の3っの過程から成るとされている。

@     Scanning

A     Reading

B     Mastering

本研究では、@のScanningに焦点をあてる。

すなわち、全体を読み、どんな事がどこに書いてあったかを理解するものである。

 

 

3.2       スピード制御による実現

 単語の重要度を何らかの方法で検出し、重要単語は比較的ゆっくりに、それ以外のところは高速に再生する。スピードの他に「強調」などの音声データの加工については、検討を要する。

 重要でないところであっても再生音が聞こえる必要がある。人間は、情報を補完(予測)して、聞くことができるからである(全体が速いと補完・予測が困難である)。

人間が高速に朗読しても理解できるが、テキスト音声合成音は速く再生すると、ぎこちなくなる。音と音の同化作用、重要でないところは曖昧になるべきところが、一音一音がはっきりと高速に合成されるからである。このあたりの研究が待たれるところである。

 

 

3.3       品詞による重要単語決定

 自然言語の基底には述語論理があり、述語動詞とその論理項(argument)である名詞によって認知・生成されている[4]

 次に、3つのレベル(深さ)による表記法を紹介する。動詞、名詞が重要な要素であることを示したい(AD : Adjunct は付加的要素であり重要ではない)。

 

5. 自然言語の基底構造

 

 

3.4       試作

 品詞によって音声合成の再生スピードを制御し「ななめ聞き」システムを試作した。

 

Parts of Speech

Speed

Verb, Noun, Negative Adverb

Slower

Others

Faster

 

6. 品詞によるスピード制御

 

大きいフォントは重要であり、比較的ゆっくり(250words / min)、小さいフォントは高速(500words / min)に再生した。

 

7. 「ななめ聞き」模式図

 

 

4.         課題

4.1       再生時間

 次に再生時間の表を示す。250500.wavは、org.wavより41.64%短く、250.wavより11.48%短く再生可能である。

 ただし、認知実験をしていないので、評価について検討が必要である。

 

 

1. 再生時間の比較

 

 

4.2       新情報・旧情報

 話し手、聞き手に共通情報が旧情報である。話し手が聞き手に未だ獲得されていないと思っており新たに伝える情報が新情報である[2]

 これは、重要な品詞(動詞、名詞など)であってもfocusを消失する。

 

我輩は である犬は 追う

旧情報   新情報   旧情報  新情報

 
 

 

 

 


8. 新情報、旧情報

 

 新・旧情報により、統語レベルのみによる「ななめ聞き」より分かりやすいものになると思われる。

 

 

5.         おわりに

 英文テキストを品詞解析し、重要単語(動詞、名詞、否定の副詞)には、’\spd=250\’のタグを付加し、それ以外の品詞には、’\spd=500\’のタグを付加して、「ななめ聞き」システムを試作した。

 英語のNative Speaker 4名に聞いてもらったところ重要語がどんどん頭(耳)に飛び込んでくるので、集中力がいるとのことだった。

 今後、新・旧情報などにより、強調・非強調の精度を高めたい。

 また、スピード制御によってのみ実験してみたが、他の音声情報の変化・加工による効果も試してみるつもりである。

 

 

6.         謝辞

 本研究にあたり、助言をいただいた日本アイ・ビー・エム()大和研究所 野崎 広志氏、慶應義塾大学大学院 石崎研究プロジェクトの石崎 俊教授、森本 由加氏をはじめ皆さんに感謝します。

 

 

参考文献

 

[1] http://www.jp.ibm.com/accessibility/soft/hpr-

    view.html

[2]  長尾 真編, 自然言語処理, 岩波書店, 1996年

[3]  http://www.strl.nhk.or.jp/publica/nenpou-h9/

    2-2-1.htm

[4]      Hadgeman, L., Introduction to government and binding theory, Blackwell, 1994.