WhisperRealtime

OpenAIのWhisperをベースにした、リアルタイム音声認識プラグイン。Unreal Engineで、マイク入力からの文字起こしや、指定フレーズのどれが話されたかを判定することができます。BPから呼び出し可能で、Pythonや専用サーバーなどは必要ありません。

製品概要

主な特徴

簡単

ブループリントでいくつかのノードを呼び出すだけで使用できます。
Pythonや別途専用サーバなどを用意する必要はありません。

高速

ゲームスレッドを極力ブロックしないよう、ONNX化されパフォーマンス最適化済みのAI処理をスレッドプールで実行します。

主要機能

・マイク音声入力からテキストへの文字起こし、および、英文への翻訳
・マイク音声入力に基づき、指定された短いフレーズの発話確率を推定
・マイク音声入力に基づき、指定された長いフレーズのどこまでが発話されたかを推定

CUDAによるGPUアクセラレーションには、対応するNVIDIA GPUが必要です。また、マニュアルに記載の特定バージョンのCUDA、cuDNNのインストールが必要です。

無料デモ

EXE形式のデモプロジェクトを無料で配布しています。
パフォーマンスや認識精度などをお確かめください。

無料デモはこちら↗

ダウンロード

ストアページへ↗

マニュアル

マニュアルページへ↗

技術詳細

本プラグインで使われている技術の詳細を記載したブログ記事です。
どのような最適化が施され、どのようにUE上に実装されているのか、その一端を見ることができます。

ブログページへ↗

解説動画