ユーザー向けAIソリューションにおけるGPUの恩恵

 

TEGSYSでは、事例ページや技術情報記事でのテーマとしてAIアプリケーションを取り上げることがあります。
それらは主に、”モデル構築のための学習”のような高いGPU性能が求められる用途を想定していますが、ユーザーの立場では実際にAIソリューションをコンピュータで利用する恩恵も気になるところです。
今回はこれまでとは少し視点を変え、構築されたモデルを組み込んだAIソリューションを利用する上で、GPUの性能差がどのように影響するのかを検証しました。

利用したアプリケーション

音声文字起こしソリューション “SecureMemo” の オンプレミス版をNishika株式会社様よりご提供いただき、会議の音声録音の文字起こし処理を行いました。

SecureMemo | Nishika株式会社 様
SecureMemoは世界最高水準の精度94.7%を誇るAI文字起こしソフトウェア。
社内会議やZoomミーティングの音声をセキュアにテキスト化することができ、OpenAI Whisperを基にした高精度な文字起こし性能を提供します。
さらに、完全自動の話者識別機能や機密性の高い音声ファイルの処理と出力テキストの保存が可能であることから、警察や官公庁、医療機関など様々な業界で導入実績があります。

検証環境

GPU

比較に使用したGPUとスペックは下記のとおりです。

GPU architecture NVIDIA GeForce RTX 6000 Ada NVIDIA GeForce RTX 4090 NVIDIA GeForce RTX A6000 NVIDIA GeForce RTX4080 Super NVIDIA RTX4000 SFF Ada 20G NVIDIA T400 4GB
CUDA core 18176 16384 10752 10240 6144 384
Tensor core 568 512 336 320 192
RT core 142 128 84 80 48
memory size 48 GB GDDR6 24 GB GDDR6X 48 GB GDDR6 16 GB GDDR6X 20 GB GDDR6 2 GB GDDR6
memory bandwidth Up to 960 GB/s Up to 1008GB/s Up to 768GB/s Up to 736.3GB/s Up to 280.0 GB/s Up to 80.0 GB/s
Maximum power consumption 300W 450W 300W 320W 70 W 30 W

コンピュータ仕様

GPU以外のハードウェア仕様は、以下の条件に揃えてパフォーマンスを測定しました。

Chipset Intel W790
CPU Intel Xeon w7-2465X
RAM 合計64GB (DDR5-4800 ECC Registered 16GB x4)
Storage 1.92TB SSD S-ATA

検証

SecureMemoの「高精度化」オプションを有効にし、GPU処理による文字起こしを行い、所要時間を測定しました。

録音ファイルには5名による約1時間の会議を収録した、約55MBのmp3を利用します。

結果

GPUの種類 文字起こしにかかった時間
NVIDIA RTX6000 Ada 48GB 約4分
NVIDIA GeForce RTX4090 約4分
NVIDIA A6000 48GB 約6分
NVIDIA GeForce RTX4080 Super 約4分30秒
NVIDIA RTX4000 SFF Ada 20GB 約7分
NVIDIA T400 4GB 約3時間6分

秒単位ではわずかな差があったものの、RTX6000 AdaとRTX4090の所要時間にはほとんど差がありませんでした。
RTX4000 SFF Adaはミドルクラスに位置する製品ですが、それでも実時間 (約1時間) の約12%の時間で会議音声のテキスト化を行うことができます。

なお、処理中のGPUメモリ使用量は概ね最大8GB程度で推移していたことから、今回は利用しなかったGeForce製品のミドルクラス製品でも十分なメリットがあると考えられます。

また、入力する音声ファイルのサイズによらず、ビデオメモリ使用量は上記の値で推移していました。GPUの性能差に沿って所要時間も増大し、エントリークラスのT400では会議の実時間以上の時間を要しました。GPUメモリが上記の8GBを下回っている製品ではパフォーマンスに大きな落ち込みが発生すると考えられます。
ただし、高精度化オプションの無効化により、GPUメモリが一定低い環境でもパフォーマンスの落ち込みを抑えられる可能性はあります。

総括

SecureMemoのシステム要件では、GPUにビデオメモリ容量12GB以上搭載の製品が推奨されております。

VRAM 12GB以上 (8GB以上)
※CUDA Toolkit 11.7を利用

利用環境 | Nishika株式会社 様 ※外部ページへ飛びます

2024/4/1現在、12GBビデオメモリを搭載した最新世代のGeForce製品NVIDIA RTX4070 Superの市場流通価格はおよそ¥100,000-前後で推移しています。

「AIソリューションというと、ハイエンドなGPUでなければ恩恵を受けられないのではないか…」という認識は少なからずあるのではないかと推察しますが、一般市場向け製品の性能でも、大きな効果を得られるAIソリューションがすでに登場しています。
今回ご提供いただいたSecureMemoは単純な文字起こしだけでなく、話者の識別や音声言語の自動翻訳にも対応しており、世界最高水準の94.7%の音声認識精度によりこれまで何度も繰り返し再生しながら作成する必要があった音声記録の文字化を自動化することができます。
「AIってよく分からない…」とこれまで敬遠していた方にも、AIを使ってできることの実例として参考になりますと幸いです。

AIモデル開発/AIソリューションの利用に最適なマシン構成のご相談はお気軽に!

研究用・産業用PCの製作・販売サービス TEGSYS – テグシス

width="340"

width="430"

このエントリーをはてなブックマークに追加