日本放送協会
音声認識の新次元、音響イベントまで捉える技術

日本放送協会
音声認識の新次元、音響イベントまで捉える技術
本特許は、音声データをフレームに分割し、各フレームの音響特徴量を分析することで音響イベントを認識する音声認識装置の技術について述べています。畳み込みニューラルネットワークを利用したこの装置は、音響特徴量に基づいて音響イベントの事後確率を計算し、それに基づいて音響イベントを表す文字列のデータを出力します。これにより、音声だけでなく、笑い声や特定の音などの音響イベントも認識することが可能となります。また、音声認識結果の発話内容を示す文字列のデータと音響イベントを表す文字列のデータを組み合わせて、ユーザーによる指定に従って情報を修正する機能も備えています。これにより、より高精度な音声認識と音響イベントの認識が可能となります。
つまりは、異なる種類の音響イベントを認識し、文字列データとして出力する音声認識装置の特許技術です。
AIによる特許活用案
おすすめ業界 ITエンターテイメントセキュリティ
- 音声認識システムの強化
- エンターテイメント分野への応用
- セキュリティ分野への応用
この技術を利用することで、従来の音声認識システムを強化することが可能です。具体的には、音声だけでなく、非音声の音響イベントまで認識できるようになるため、よりリアルな音声認識が可能となります。
この技術は、音響イベントを認識できるため、映画やテレビ番組などのエンターテイメント分野での応用が期待できます。例えば、字幕生成の際に、音声だけでなく音響イベントも考慮に入れることで、よりリアルな字幕生成が可能となります。
この技術は、特定の音響イベントを認識することができるため、セキュリティ分野での応用が期待できます。例えば、特定の音(ガラスが割れる音など)を認識して警報を発するなどのシステムが考えられます。
活用条件
- サブスク
- 譲渡
- ライセンス
商品化・サービス化 実証実験 サンプル・プロトタイプ
特許評価書
- 権利概要
出願番号 | 特願2014-033024 |
発明の名称 | 音声認識装置、及びプログラム |
出願人/権利者 | 日本放送協会 |
公開番号 | 特開2015-158582 |
登録番号 | 特許第0006327745号 |
- サブスク
- 譲渡
- ライセンス
準備中です