事例No.PC-11242
参考価格:
2,528,900

生物学向け大規模言語モデルの学習用マシン

用途:生物学向け大規模言語モデル (ProteinBERT、 ChemBERTa、 HyenaDNAなど) の学習

お客さまからのご相談内容

生物学向け大規模言語モデルの学習用マシンの導入を検討している。
ProteinBERT、 ChemBERTa、 HyenaDNAといった生物学で用いられる大規模言語モデルを事前学習から実行したいと考えている。

ProteinBERTはNvidia Quadro RTX 5000、ChemBERTaはNVIDIA Tesla T4、HyenaDNAはNVIDIA A100をそれぞれ学習に使用したとの情報があるため、GPUの性能を重視したい。

予算300万円以内で、上記の用途における計算処理を最も高速化できる構成を提案してほしい。

また、設置場所の制限があるため、筐体サイズはミドルタワー程度で、100V環境で使用可能な構成が望ましい。

希望する条件は以下の通り。

・GPU:性能重視
・電源:100V環境に対応
・筐体:ミドルタワー程度
・予算:300万円以内

テガラからのご提案

お客さまご希望の条件に沿った構成をご提案しました。
ご予算・利用環境を踏まえたうえで、GPU性能を重視した構成です。

GPUの選定について

GPUはNVIDIA RTX A6000 x2枚を搭載しています。
ProteinBERT開発元の公式サイトによると、学習済みモデルの構築にはNVIDIA RTX5000を用いて1か月ほど要したと記載されています。
A6000はRTX5000より世代が新しく、ラインナップ上でも上位モデルにあたる製品のため、RTX5000よりも高い処理性能が期待できます。

例として挙げていただいたNVIDIA Tesla T4は、推論向けとして利用されることが多い製品です。そのため、本構成ではNVIDIA TeslaT4よりも単体性能が高いA6000を採用しています。

NVIDIA A100とRTX A6000の違い

また、NVIDIA A100は、A6000とは異なり、GPGPU専用カードです。
高いfp64性能を持ち科学計算に適した製品ですが、今回のようなDeepLearning用途ではfp64性能が利用されることはほとんどありません。
あわせて、価格に関してもA6000と比較して非常に高額で、かつ専用の筐体でなければ利用できないことから、今回の利用条件や用途におけるマッチングが高くないと判断しました。

 

ストレージに関しては、ProteinBERTの開発元よりユーザー自らモデルの学習を行う場合は1TB以上のストレージ容量を確保することが推奨されているため、2TBのシステムディスク、4TBのデータディスクを搭載しています。
なお、学習中に頻繁なデータアクセスが発生することを想定して、ストレージはすべてSSDとしています。

OSはWindows 11を選択しています。
ご使用予定の言語モデルは基本的にはPythonパッケージで提供されているもののため、Pythonを使用可能なOSであれば、ご希望に応じて変更も可能です。

本事例の構成は、お客様から頂戴した条件を元に検討した内容です。
いただいた条件に合わせて柔軟にマシンをご提案いたしますので、掲載内容とは異なる条件でご検討の場合でも、お気軽にご相談ください。

お客様の声 AIモデル開発 環境整備のためのお役立ち情報
AIモデル開発向けマシン選定のポイント 生成AIモデル開発向けマシン選定のポイント
テグシスの延長保証サービス「あんしん+」 HDD返却不要サービス

 

 

お問い合わせ

 

主な仕様

CPU Intel Xeon W5-2455X (3.20GHz 12コア)
メモリ 128GB REG ECC
ストレージ1 2TB SSD M.2
ストレージ2 4TB SSD S-ATA
ビデオ NVIDIA RTX A6000 48GB x2
ネットワーク on board (1GbE x1 /10GbE x1)
筐体+電源 ミドルタワー型筐体 + 1500W
OS Microsoft Windows 11 Professional 64bit

キーワード

・DeepLearningとは
DeepLearningは機械学習の一種であり、多層のニューラルネットワークを用いて高度なパターン認識や予測を行う手法。一般的に大量のデータを必要とするため、データが豊富な場合に効果的な手法とされている。 また、DeepLeanigは画像認識や音声認識、自然言語処理などの分野で広く用いられている。複雑な特徴や関係性を学習することができるため、従来の機械学習手法よりも高い精度を発揮することができる。

参考:【特集記事】機械学習ってなんだろう ※弊社オウンドメディア「TEGAKARI」に飛びます

・Pythonとは
Pythonは、Python Software Foundation (PSF) が著作権を保持する、オブジェクト指向プログラミング言語。プログラミングの構文がシンプルなため可読性が高く、目的に応じたライブラリやフレームワークといったコンポーネントが豊富に揃っていることも特徴。プログラミングの初学者から上級者に至るまで人気の言語。

参考:Python ※外部サイトに飛びます

・BERTとは
BERT (Bidirectional Encoder Representations from Transformers) は、Googleが開発した自然言語処理 (NLP) モデル。与えられた文脈に基づいて単語を理解することができ、言語処理における幅広いタスクに適用される。
また、BERTは事前学習とファインチューニングの2つのフェーズで構成されている。事前学習では、大規模なコーパスから学習された汎用的な言語モデルが作成される。ファインチューニングでは、特定のタスクに適用するために、小規模なデータセットから学習されたモデルが調整される。
従来のNLPモデルに比べて高い精度を示し、複雑なタスクにも対応できることが特徴で、テキスト生成、質問応答、文書分類、言語翻訳などに応用されており、NLPの分野で最も有名なモデルの1つとして広く使われている。

・ProteinBERTとは
ProteinBERTは、BERTをベースにしたタンパク質言語モデル。 UniRef90データベース上の最大1億600万のタンパク質で事前学習されており、非常に長いタンパク質配列を含む、ほぼあらゆる長さのタンパク質配列を処理することが可能。

参考:GitHub – nadavbra/protein_bert ※外部サイトに飛びます

・ChemBERTaとは
ChemBERTaは、RoBERTa (BERTの亜種)  を用いた、化学構造の表記方法であるSMILES記法の大規模言語モデル。 医薬品設計、化学モデリング、特性予測などに用いられている。

参考:GitHub – seyonechithrananda/bert-loves-chemistry: bert-loves-chemistry: a repository of HuggingFace models applied on chemical SMILES data for drug design, chemical modelling, etc. ※外部サイトに飛びます

・HyenaDNAとは
HyenaDNAは、ヒトゲノムを100万トークンの塩基配列として事前学習した大規模言語モデル。 単一ヌクレオチド単位 (ATGC) でのトークン化により、ヌクレオチド単位での解析が可能。

参考:GitHub – HazyResearch/hyena-dna: Official implementation for HyenaDNA, a long-range genomic foundation model built with Hyena ※外部サイトに飛びます

事例追加日:2023/11/09
事例No.PC-10873
参考価格:
1,466,300

自然言語処理モデル用ワークステーション

用途:BERTのFine-tuningおよびNVIDIA Clara Parabricks

お客さまからのご相談内容

手持ちのGPU x2台 (RTX A6000 2台またはA100 2台)を使用するためのマシンを購入したい。
希望する条件は以下の通り。

・100Vの電源環境で動作する構成を希望
・消費電力はできるだけ小さくしたい
・居室で使用するため、GPU使用時以外は静音が望ましい。ただし、GPU使用時の稼働音は許容する
・用途はBERTのFine-tuningおよびNVIDIA Clara Parabricks
・予算は150万円

予算は年度を超えても大丈夫だが、できるだけ早く入手できると嬉しい。

テガラからのご提案

ご要望に合わせて構成を検討しました。
消費電力を意識して、Ryzen Threadripper構成としています。

搭載するGPUはRTX A6000を想定しています。
A100はGPU本体に冷却FANがないため、GPU冷却機構を持つGPGPUサーバー用の筐体が必須となり、ご予算内での実現は難しいとお考えください。

100V環境で利用できる電源容量

電源ユニットは1600W対応品としていますが、100V環境での利用では1300W程度までが利用可能です。 入力が最大100V/15Aの交流に対して直流への変換時にロスがあり、80+の最大変換効率であるTITANIUMであっても、100%動作時の変換効率は90%です。100V/15A時は1500W x0.9として1350Wが理論上の上限となります。

上記を前提に、CPU側は極力消費電力が少ないことが望ましいと考えられるため、1CPU構成のThreadripper構成をご提案しました。 また、本構成は1CPU構成のため物理的に筐体内部スペースの余裕がありますので、200V環境で利用する場合にはRTX A6000を合計3台利用することができます。

 

本事例の構成は、お客様から頂戴した条件を元に検討した内容です。
掲載内容とは異なる条件でご検討の場合でも、お気軽にご相談ください。

稼働音対策をご希望のお客様には、エスアイ社製の静音ラックと合わせたご提案も承っております。
静音性を重視したマシン導入をお考えの際には、気兼ねなくご相談ください。

エスアイ社製 静音ラックの特長
[1]ユーザーの環境とマシンに合わせた専用設計のラックを提供
[2]静音性と安全放熱を高い次元で両立
[3]音響の専門技術を軸としたメーカーなので、静音性の技術力が高い
[4]マシン適合の技術サービスが付帯し、安全運用を約束
お客様の声 AIモデル開発 環境整備のためのお役立ち情報
AIモデル開発向けマシン選定のポイント 生成AIモデル開発向けマシン選定のポイント
テグシスの延長保証サービス「あんしん+」 HDD返却不要サービス

 

 

お問い合わせ

 

検索キーワード
自然言語処理モデル用ワークステーション,BERT Fine-tuning,NVIDIA Clara Parabricks,GPU x2台,RTX A6000,A100,100V電源環境,消費電力,静音,予算150万円

主な仕様

CPU AMD Ryzen ThreadripperPRO 5975WX (3.60GHz 32コア)
メモリ 256GB REG ECC
ストレージ 1TB SSD M.2
ビデオ on board (VGAx1)
ネットワーク on board (1GbE x1 10GBase-T x1)
筐体+電源 タワー型筐体 + 1600W
OS Ubuntu 20.04

キーワード

・BERTとは
BERT (Bidirectional Encoder Representations from Transformers) は、Googleが開発した自然言語処理 (NLP) モデル。与えられた文脈に基づいて単語を理解することができ、言語処理における幅広いタスクに適用される。
また、BERTは事前学習とファインチューニングの2つのフェーズで構成されている。事前学習では、大規模なコーパスから学習された汎用的な言語モデルが作成される。ファインチューニングでは、特定のタスクに適用するために、小規模なデータセットから学習されたモデルが調整される。
従来のNLPモデルに比べて高い精度を示し、複雑なタスクにも対応できることが特徴で、テキスト生成、質問応答、文書分類、言語翻訳などに応用されており、NLPの分野で最も有名なモデルの1つとして広く使われている。

 

・Fine-tuningとは
Fine-tuningとは、事前学習済みの機械学習モデルを特定のタスクに適用するために、タスクに関連するデータセットを用いてモデルを微調整すること。例えば、自然言語処理の場合、大規模なコーパスから学習した汎用的な言語モデルを、特定のテキスト分類タスク (感情分析、スパム検出、トピック分類など) に適用することができる。この場合、モデルは特定の分類タスクに関連する少量のデータセットから学習され、最終的には特定のタスクに最適化される。
Fine-tuningによって、大量のデータを必要とせずに、既存の汎用的なモデルを特定のタスクに適用することができる。

 

・NVIDIA Clara Parabricksとは
NVIDIA Clara Parabricksは、GPUベースの高速なゲノム解析ソフトウェア。ゲノム解析のタスクを大幅に高速化するために、GPUアクセラレーションを利用している。
配列アラインメント、バリアントコール、ゲノムアセンブリなどのタスクに使用されるソフトで、高速な処理速度と高い精度を実現し、短い時間で大量のデータを処理することができる。
また、ハードウェアに依存しないアルゴリズムを採用しているため、様々なGPUプラットフォーム上で動作する。

参考:NVIDIA Clara Parabricks (NVIDIA) ※外部サイトへ飛びます

 

 

事例追加日:2023/04/13

ご注文の流れ

お問い合わせフォームよりご相談内容をお書き添えの上、 お問い合わせください。
(お電話でもご相談を承っております)
弊社より24時間以内にメールにてご連絡します。
必要に応じてメールにて打ち合わせさせていただいた上で、 メール添付にてお見積書をお送りします。
お見積もり内容にご納得いただけましたら、メールにてご注文ください。
ご注文確定後、必要な部材を手配し PCを組み立てます。
(掛売りの場合、最初に新規取引票のご記入をお願いしております)
動作チェックなどを行い、納期が確定いたしましたらご連絡いたします。
(納期は仕様や製造ラインの状況により異なります)
お客様のお手元にお届けいたします (ヤマト運輸/西濃運輸)

お支払い方法

お支払い方法は、お見積もりメール・お見積書でもご案内しています。

法人掛売りのお客様
原則として、月末締、翌月末日払いの後払いとなります。
学校、公共機関、独立行政法人のお客様
納入と同時に書類三点セット(見積書、納品書、請求書)をお送りしますのでご請求金額を弊社銀行口座へ期日までにお振込み願います。
先に書面での正式見積書(社印、代表者印付)が必要な場合はお知らせください。
企業のお客様
納品時に、代表者印つきの正式書類(納品書、請求書)を添付いたします。
ご検収後、請求金額を弊社銀行口座へお支払い期日までにお振込み願います。
銀行振込(先振込み)のお客様
ご注文のご連絡をいただいた後、お振込みを確認した時点で注文の確定とさせていただきます。

修理のご依頼・サポートについて

弊社製PCの保証内容は、お見積もりメールでもご案内しています。

■お問合せ先
テガラの取り扱い製品に関する総合サポート受付のWEBサイトをご用意しております。
テガラ株式会社 サポートサイト

※お問い合わせの際には、「ご購入前」と「ご購入後」で受付フォームが分かれておりますので、ご注意ください。

メール support@tegara.com
電話 053-543-6688

■テグシスのサポートについて
保証期間内の修理について

保証期間内におけるハードウェアの故障や不具合につきましては、無償で修理いたします。
ただし、お客様による破損や、ソフトウェアに起因するトラブルなど保証規定にて定める項目に該当する場合は保証対象外となります。
保証期間経過後も、PCをお預かりしての初期診断は無料で実施しております。

無料メール相談
PCの運用やトラブルにつきまして、メールでのご相談を承ります。経験・知識の豊富な技術コンサルタントが無料でアドバイスいたします。
※調査や検証が必要な場合はお答えできなかったり、有償対応となることがあります

オプション保証サービス

「あんしん+」 もしもの時の延長保証サービス

PCのご購入時にトータル5年までの延長保証をご選択いただけます。また、ご購入後にも延長保証を申し込むことができます。
延長を申し込みいただきますと、標準保証と同等の保証を期間満了まで受けることができます。
なお、PCの仕様によっては料金が異なる場合があります。

延長保証あんしん+ ご加入のタイミング
※仕様によっては保証期間の延長ができない場合があります。

HDD返却不要サービス

保証期間内にPCのHDD(SSD)が故障した場合、通常、新品のHDDとの交換対応となり、故障したHDDはご返却いたしません。
しかしこの「HDD返却不要サービス」にご加入いただければ、保証期間内にHDD(SSD)が故障した場合には新品のHDDをご提供いたしますが、故障したHDDを引き渡していただく必要はありません。お客さまの大切なデータの入ったHDDをお手元に保管しておくことができます。

オンサイト保守サポート

故障発生時、必要に応じエンジニアスタッフが現地へ訪問し、保守対応を行うサービスです。
発送にかかる手間、時間を短縮できますので、緊急性の高い保守に最適です。

費用ご参考(目安)
本体+延長保証代金の10%~
※ 製品の性質や価格帯、条件等により異なります。
★TEGSYS オンサイト保守利用規約はこちら (pdf)
お客様のご要望をうかがい、最適なPCの構成をご提案する
「お客様だけのオーダーメイドPC」を製作しています。
用途に応じた細かなアドバイスや迅速な対応がテガラの強みです。

上記の仕様はテガラでお客様に提案したPC構成の一例です。
掲載内容は提案当時のものであり、また使用する部材の供給状況によっては、現在では提供がむずかしいものや、部材を変更してのご提案となる場合がございます。

参考価格については、提案当時の価格(送料込・税込)になります。
ご相談時期によっては価格が異なる場合がございますので、あらかじめご了承ください。