ELYZA-LLAMA3-8Bによる日本語LLM推論速度比較 (続編)

ELYZA-LLAMA3-8Bによる日本語LLM推論速度比較 (続編)

背景と目的

近年、生成AIの活用が急速に進展する中で、大規模言語モデル(LLM)の推論性能は、実務運用における重要な評価指標のひとつとなっています。特に日本語処理に特化したLLMを導入する際には、生成品質のみならず、応答速度の最適化も欠かせません。

本記事では、ELYZA社が提供する日本語特化モデル「LLAMA-3-ELYZA-JP-8B」を対象に、NVIDIA製GPU「PRO6000 Max-Q」における推論性能を評価しました。前回記事と同一の設計を踏襲しつつ、RTX 5090、RTX 4090、RTX 5000 Adaとの比較を行い、日本語LLMにおける実用的なGPU選定の一助となるデータを提示します。

前々回記事:もし、LLMに太宰治の『走れメロス』を要約させたらGPU構成ごとのパフォーマンスはどうなるのか?

前回記事:ELYZA-LLAMA3-8Bによる日本語LLM推論速度比較

PRO6000 Max-Q搭載マシンの構成を相談する

テスト環境

公平性を担保するため、CPU、メモリ、ストレージ、OS、実行方法などの条件をすべて統一しました。

共通構成

  • CPU:AMD EPYC 9554 64C/128T
  • メモリ:384GB
  • ストレージ:1TB SATA SSD
  • OS:Ubuntu Linux
  • 推論実行:Docker 上の Ollama、REST API 経由で測定

GPU

  • 検証対象:PRO6000 Max-Q
  • 比較対象:RTX 5090、RTX 4090、RTX 5000 Ada

※合計4つのGPUで比較検証

使用モデルとプロンプト

検証では、日本語に特化した大規模言語モデル「LLAMA-3-ELYZA-JP-8B」を使用しました。このモデルは、ELYZA社が開発したLLMであり、日本語の自然言語処理において高い精度と応答性を持つことが知られています。
推論は、Docker環境上で稼働するOllamaを用い、REST API経由で実行しました。各プロンプトに対して3回の推論を行い、その平均値を評価対象としています。これにより、一時的な揺らぎや処理負荷の影響を最小限に抑え、安定した比較が可能となっています。

  • モデル:LLAMA-3-ELYZA-JP-8B。各プロンプトは3回測定の平均を採用。
  • 500字要約のプロンプト:「太宰治著『走れメロス』のストーリーを500字で要約してください。」
  • 1000字要約のプロンプト:「太宰治著『走れメロス』のストーリーを1000字で要約してください。」

これらのプロンプトは、短文・長文それぞれの生成における処理時間の違いを明確にするために設計したものであり、GPUごとの性能差を比較する上での指標となります。

推論時間の比較結果

各GPUにおける推論処理の平均時間を測定し、基準となるRTX 5090との相対比較を行いました。対象プロンプトは「500字要約」と「1000字要約」の2種類で、それぞれ3回の測定を行い、平均値を算出しています。

この比較により、各GPUが短文・長文生成においてどの程度の処理速度を持つかを定量的に把握することが可能となります。特に、実務での応答時間が重要となる対話型アプリケーションや長文要約処理における、GPU選定の参考となるデータです。

GPU 500字 平均 (秒) 5090比 1000字 平均 (秒) 5090比
RTX 5090 2.000 1.00× 3.340 1.00×
RTX 4090 2.460 1.23× 3.820 1.14×
RTX 5000 Ada 4.430 2.22× 7.220 2.16×
PRO6000 Max-Q (本検証) 2.076 1.04× 3.172 0.95×

PRO6000 Max-Qの性能

500字要約

  • RTX 5090比では、+3.8% 遅い
  • RTX 4090比では、-15.6% 速い
  • RTX 5000 Ada比では、-53.1% 速い

1000字要約

  • RTX 5090比では、−5.0% 速い
  • RTX 4090比では、-17.0% 速い
  • RTX 5000 Ada比では、-56.1% 速い

これにより、短文ではRTX 5090が優位ですが、長文ではPRO6000が逆転し、5090を上回る結果となりました。

考察

生成文の長さによってGPUの相対的な性能が変化する点は興味深い結果です。短文生成では初期オーバーヘッドが支配的となり、5090が優位に立ちます。一方で、長文生成ではトークン生成速度やアーキテクチャ特性の違いが効き、PRO6000が優位に転じる傾向を示しました。

ただし、本検証では各プロンプトを3回ずつ実行した平均値を採用しており、電力制御、サーマル設計、ドライバのバージョン、量子化設定、サンプリング手法などの要因により数%程度の揺らぎが生じる可能性があります。今回の5090とPRO6000の差も、その揺らぎの範囲に収まると解釈できます。

したがって、今回の検証から導かれる妥当な結論は、「RTX 5090とPRO6000 Max-Qは、本検証条件では実質的に同等の推論性能を示した」という点です。条件が変われば差が大きく出る可能性はあるものの、本記事の測定においては両者の性能は拮抗していると言えます。

注意点

  • 本検証は「推論速度のみ」を評価対象としており、生成品質や応答内容の正確性は含まれていない。
  • ストレージはSATA SSDを使用しており、NVMe環境では結果が異なる可能性がある。
  • プロンプト長、温度設定、トークナイザの違い、システム負荷なども結果に影響し得る。
  • 再現性を確保するには、条件の固定と詳細な記録が不可欠である。

参考:PRO6000 Max-Qで生成した要約文

太宰治著『走れメロス』のストーリーを500字で要約 ×3回 (clickで開く)
1回目

太宰治の小説「走れメロス」は、1948年に発表された短編小説です。物語は、古典的な寓話と小説の形式を合わせた独特のスタイルで展開されます。\n\n主人公のメロスは、王に忠誠を誓い、最愛の妹シルビアとの結婚を許してもらおうとしています。ところが、王はメロスに無理難題を出します。50人いる王の臣下全員の首を刎ねることと引き換えに、シルビアと結婚させてくれるという条件です。\n\nメロスは、妹を思う気持ちからこの命令を実行する決意を固めます。王の臣下が順番に首を刎ねられていく中で、メロスは唯一の友人であるナスターシュキンと共に「走れ」という言葉を繰り返し、次第に自暴自棄になっていきます。\n\nその後、メロスは王の命令を実行するが、最後の臣下となったナスターシュキンが抵抗したため、首を刎ねることができません。結果としてメロスは、自分の首も自分で刎ねてしまうという結末を迎えます。\n\nこの物語は、友情と忠誠心、自由意志の重さをテーマに展開され、太宰治の代表作のひとつです。

※2.102秒

2回目

太宰治の「走れメロス」は、1948年刊行の短編小説です。物語は、王と名乗る男が、メロスという名前の男に「私が嘘をついていたらお前はこの鎖を切れ」と命令します。\n\nメロスは疑うことなく王の言葉を信じ、実際に王が嘘つきであることが明らかになるまで走り続けます。途中で出会ったシドーという男は、メロスを追い越して王の元へ行くことを提案しますが、メロスは「走れ」という王の命令に忠実であり、断ります。\n\nやがて、メロスが到着した時にはすでに王は死んでおり、シドーが待ち構えていました。王が嘘つきであることが判明し、メロスは鎖を切ることを躊躇しますが、結局自らの手で鎖を断ち切ります。\n\nこの行為の意味は、王の死後には失われ、メロス自身も傷付いた精神状態となります。物語の最後は、メロスの涙と絶叫に包まれる暗い情景で終わります。\n\n「走れメロス」は、太宰治の代表作であり、人間の愚かさや不条理を描くために使用されたストーリーです。

※1.986秒

3回目

太宰治の小説「走れメロス」は、1948年に発表された短編小説です。物語は、ある理由から友人を追いかける男の姿を通じて、人間の善性と愚かさを描き出しています。\n\n主人公のメロスは、真実を口にしたために投獄されていた友人シラスを助け出すため、約束の期日までに100km先の王宮に到着しなければならないという条件で王に許しを請うます。メロスは走り始めるが、途中で休憩や食事をとるなどして時間を浪費します。\n\n一方、シラスはメロスのことを心配し、自ら獄吏に嘘の報告をしてメロスが来ないように工作をします。メロスが王宮に到着した時には、期日が過ぎており、シラスはすでに処刑されていました。メロスはシラスの死体を見た後、自らも首を吊って死ぬことを決意し、王の前で首を吊ります。\n\nこの物語は、人間の善と悪の葛藤を描いています。メロスの友人愛や義理という善性が、愚かさや不合理に打ち克つことができず、悲劇的な結末を迎えます。この小説は太宰治の代表作として知られ、読者に深い印象を残しています。

※2.141秒

太宰治著『走れメロス』のストーリーを1000字で要約 ×3回 (clickで開く)
1回目

太宰治の短編小説「走れメロス」は、1951年に発表された作品です。物語は、主人公メロスの執拗な友人である王と、メロスが王に課した罰を中心に展開します。\n\n物語は、王が二人の商人に金貨3000枚を騙し取られ、その一部始終をメロスが目撃するところから始まります。王は自責の念に駆られ、メロスに対して嘘をついたことを告白します。メロスは王の嘘を許す代わりに、王が二人の商人を捕まえるまで自分の足で王の元へ向かうという条件を提示します。\n\nメロスは走り始めますが、途中で様々な人に会い、話を聞きながら進みます。道中で出会った老婆や少年などがメロスの行く手を阻もうとするも、メロスは王のためと信じて突破します。\n\n一方、王は二人の商人を捕まえようとし、商人に金貨3000枚を返す代わりに、自分を殺してくれと依頼するが、商人は王を殺さず、メロスが来るまで待つと言います。やがてメロスが到着し、王は王妃に、メロスが来る前に死ぬように嘘をつきます。\n\n王妃は王の言葉を信じ、王の首を刎ねるようになりました。しかし、メロスが現れ、王が生きていることを知り、王妃は怒りに身を任せて王に報復します。王は大怪我を負い、メロスは王の元へ駆けつけます。\n\n物語は、メロスの執拗な友情と王の罪悪感が中心です。王は自責の念に駆られ、メロスには罰せられるべきであると認識します。最後に王は、王妃に謝り、死を望みます。王妃も許しを与え、二人は共に生きる決意を固めます。\n\n「走れメロス」は友情の深さや罪悪感など、人間の内面に焦点を当てた作品です。

※3.212秒

2回目

太宰治の「走れメロス」は、1948年に発表された短編小説です。物語は、主人公である青年メロスと王様の奇妙なやりとりを軸に展開します。\n\nメロスは、友人シラスが偽者だと告げ口したことに対する罰として、自分の首を斬るように命じられます。メロスは、王様の命令に背くか、友情を選ぶかの二択を迫られます。最後の忠誠心が残っているメロスは、王様に嘘偽りなく「シラスは真実の友人です」と告げ口したことがないと主張するも、王様は彼の首を斬る命令を下します。\n\nメロスは、王様から預かった「自分自身の命」を守るため、走って逃げようと決意します。メロスが王宮から出た後、王様は、シラスに真実を告げ口した者には死刑を執行すると宣言し、自らの判断が間違っていたことを悟ります。\n\nその後、メロスは、命懸けで走り続ける中で、自己の存在と友情について深く考えるようになります。走ることによって、内面世界では「真実」を追求することができたのです。やがて、疲れ果てたメロスは王宮に戻り、「真実を告げ口した」ことを理由に処刑されることになる。\n\n物語の結末で、シラスは、偽者であると知らされた後も、友人としてメロスの元へ行く決心をし、待ち伏せする。王様がメロスを捕まえようとした時、シラスは自分が偽者であることを明かし、メロスを救うために身代わりになる。\n\n結局、「走れメロス」という物語では、真実と友情の間で悩み、自己の命懸けで走り続けたメロスの葛藤や内面の深化が描かれていまsu

※2.962秒

3回目

太宰治の小説「走れメロス」は、1948年発表の短編小説です。物語は、メロスという男が王様から与えられた命令に従い、危険な旅をします。\n\nメロスは王様の前で、友人シンメルとその美しい妹アフリカーヌのことを話し、それを知った王様はメロスに「シンメルが嘘つきであるかどうかを確かめろ」と命令します。メロスは必ずやり遂げると誓い、走ってシンメルの元へ向かいます。\n\nメロスは旅の途中で出会った老人から、シンメルが嘘つきであるという噂を聞きます。しかし、その老人の真意は不明です。メロスはこの情報を信じて、王様に報告することを決心します。\n\n一方、シンメルの元へ向かう途中で、メロスはアフリカーヌと出会います。アフリカーヌは美しい人であり、メロスは彼女に惹かれますが、それを抑えて旅を続けます。\n\nやがて、メロスはシンメルの元へ到着し、真相を確かめようとします。しかし、そこで見たのは嘘つきの男というより、むしろ善人であるシンメルの姿でした。メロスはこの誤解を正すべく王様に報告することをやめる決心をします。\n\nその夜、メロスはアフリカーヌと再会し、二人は結ばれます。この二人の愛の力が彼らを危険から守り、幸福へ導きます。メロスはこの旅で学んだ真実は「友情」や「忠義」の大切さということを王様に報告することで、自らの命を捧げる決心をします。\n\n翌朝、メロスは王様の元へ戻り、命令に反した結果として処刑されます。死刑台でメロスは、「走れメロス」という王様の命令が「友情」や「忠義」を超えるものであると悟ります。\n\nこの物語は、太宰治の代表作として知られ、「人間の本質」「友情」や「命」の意味を深く探求した作品です。

※3.343秒

注意点

本検証は、GPUごとの推論速度に焦点を当てたものであり、生成された文章の品質や内容の正確性については評価対象外としています。そのため、実際の運用においては、速度だけでなく生成品質や応答の一貫性など、複合的な観点からの検討が必要です。

また、検証環境において使用したストレージはSATA SSDであり、初回ロード時などのI/O性能に影響を受ける可能性があります。特に、NVMe SSDを使用した場合とは挙動が異なる可能性があるため、環境差による影響を考慮する必要があります。

さらに、プロンプトの長さ、温度設定 (生成の多様性を制御するパラメータ)、トークナイザの違い、システム負荷などの要因によって、推論時間は変動する可能性があります。これらの条件は、モデルの挙動に直接影響を与えるため、再現性のある評価を行うには、設定の統一と記録が重要です。

注意点まとめ

  • 本検証は「速度のみ」を評価対象としており、生成品質は含まれていない。
  • SATA SSD環境での測定結果であり、NVMe環境とは異なる可能性がある。
  • プロンプト設定やシステム負荷などにより、推論時間は変動し得る。

まとめ

本検証では、日本語特化LLM「LLAMA-3-ELYZA-JP-8B」の推論性能を、複数のGPU環境で比較しました。特に注目すべきは、PRO6000 Max-QとRTX 5090が、短文・長文生成の両方において実質的に同等の性能を示した点です。
短文生成 (500字) では、RTX 5090がわずかに優位に立ちましたが、その差は3.8%と極めて小さく、実務上の影響は限定的です。一方、長文生成 (1000字) ではPRO6000が5090を5.0%上回る結果となり、トークン生成速度やアーキテクチャの特性が効いたと考えられます。
また、RTX 4090やRTX 5000 Adaとの比較では、PRO6000が明確な優位性を示しました。特にRTX 5000 Adaに対しては、短文・長文ともに約50%以上高速であり、コストパフォーマンスの観点からも注目に値します。
ただし、今回の検証は推論速度に特化したものであり、生成品質や応答の正確性は評価対象外です。さらに、電力制御やドライバのバージョンなど、細かな要因による揺らぎも考慮する必要があります。
総じて、PRO6000 Max-Qは、RTX 5090と並ぶ高性能GPUとして、日本語LLMの実運用において十分な選択肢となり得ることが示されました。今後は、量子化設定や生成品質を含めた総合的な評価が求められます。

大規模言語モデル向けマシンの導入を相談する

関連情報

自然言語処理に関連するPC提案事例

事例No.PC-25000461
機械学習・大規模言語モデル (LLM) 処理向けマシン

詳しくはこちら

事例No.PC-TW2D252130
大規模言語モデル計算処理向けマシン

詳しくはこちら

事例No.PC-TUKM253379
Llama-3対応自然言語処理用ワークステーション

詳しくはこちら

事例No.PC-11242
生物学向け大規模言語モデルの学習用マシン

詳しくはこちら

AIモデルに関連する技術記事

AI開発向けマシン選定のポイント
ロボティクス関連製品のご紹介 -NVIDIA Three Computers構想-

LLM向けワークステーション選びのご相談はお気軽に!

研究用・産業用PCの製作・販売サービス TEGSYS – テグシス

width="340"

width="430"

お問い合わせ

※ 本稿は前回記事と同一構成での追加計測結果です。記載の製品名は各社の商標または登録商標です。

このエントリーをはてなブックマークに追加