WhisperRealtime

OpenAIのWhisperをベースにした、リアルタイム音声認識プラグイン。Unreal Engineで、マイク入力からの文字起こしや、指定フレーズのどれが話されたかを判定することができます。BPから呼び出し可能で、Pythonや専用サーバーなどは必要ありません。

製品概要

ブループリントでいくつかのノードを呼び出すだけで使用できます。
Pythonや別途専用サーバなどを用意する必要はありません。

ゲームスレッドを極力ブロックしないよう、ONNX化されパフォーマンス最適化済みのAI処理をスレッドプールで実行します。

・マイク音声入力からテキストへの文字起こし、および、英文への翻訳
・マイク音声入力に基づき、指定された短いフレーズの発話確率を推定
・マイク音声入力に基づき、指定された長いフレーズのどこまでが発話されたかを推定

CUDAによるGPUアクセラレーションには、対応するNVIDIA GPUが必要です。また、マニュアルに記載の特定バージョンのCUDA、cuDNNのインストールが必要です。

EXE形式のデモプロジェクトを無料で配布しています。
パフォーマンスや認識精度などをお確かめください。

本プラグインで使われている技術の詳細を記載したブログ記事です。
どのような最適化が施され、どのようにUE上に実装されているのか、その一端を見ることができます。