国立研究開発法人情報通信研究機構
高度な音声認識技術を活用した識別器

国立研究開発法人情報通信研究機構
高度な音声認識技術を活用した識別器
本発明は、音声認識分野における当該識別器を用いた学習済みモデルと、その学習方法に関するものです。識別器は、入力信号から所定時間のフレームごとに積層された複数の残差ブロックを生成します。各残差ブロックは、複数の時間遅延層とそれをバイパスするショートカット経路を有しています。これにより、入力信号に対してラベルのシーケンスを出力する能力を持ちます。アテンションモジュールは、対応する残差ブロックに与えられる入力とその出力に基づいて、各タイムステップごとに重みを更新します。この学習方法は、トレーニングデータセットを用い、アテンションモジュールが存在しない状態で初めてトレーニングを行い、その後アテンションモジュールを配置して再度トレーニングを行います。
つまりは、時間遅延層とアテンションモジュールを組み合わせた、積層された残差ブロックを利用した識別器とその学習方法
AIによる特許活用案
おすすめ業界 IT通信医療
- 音声認識システムの開発
- ヒューマンマシンインターフェースの改善
- 医療分野への応用
本発明を用いて、高精度な音声認識システムを開発することが可能です。特に、音声コマンドや音声アシスタント等の開発に有用でしょう。
時間遅延層とアテンションモジュールを組み合わせた残差ブロックを用いることで、人間の声をより正確に理解し、より自然なヒューマンマシンインターフェースを実現することが可能です。
音声認識技術の応用は、医療分野でも有用です。例えば、医師の発話をリアルタイムでテキスト化し、電子カルテに記録する等の用途に利用できます。
活用条件
- サブスク
- 譲渡
- ライセンス
商品化・サービス化 実証実験 サンプル・プロトタイプ
特許評価書
- 権利概要
出願番号 | 特願2018-142418 |
発明の名称 | 識別器、学習済モデル、学習方法 |
出願人/権利者 | 国立研究開発法人情報通信研究機構 |
公開番号 | 特開2020-020872 |
登録番号 | 特許第0007209330号 |
- サブスク
- 譲渡
- ライセンス
準備中です