大規模言語モデル（LLM）は、高スペックのサーバを使用すれば良いと思っていませんか？

府内翼

11か月前

はじめに

改めて申し上げるまでもないかもしれませんが、OpenAI社のChatGPTを中心とした生成AIの活用が国内外で急速に進んでいます。
その中で、個人の活用は進んでいますが、法人での利用において、大規模言語モデル（LLM）にファインチューニングさせる情報が社外秘などの非公開情報である事から、クローズドな環境で利用したいという事が1つ課題となっており、その中でプライベートAI、いわゆるオンプレミスサーバを活用した独自LLMのニーズが高まっています。
加えて、LLMで使用するGPUサーバは一般的に高価であり、導入に向けた障壁が高く、GPUサーバに関する適切なアーキテクチャ構成を選ぶことが従来のアーキテクチャと比べてコストパフォーマンスという観点で、重要になっています。
今回は、AWSに構築した独自LLMの非機能（拡張性）検証に関する一部をご紹介します。

検証内容

今回の検証内容での想定ユースケースは、AWS環境にてRAG（Retrieval-Augmented Generation：検索拡張生成）で使用する独自LLMの非機能（拡張性）に関する評価となります。
また、検証スコープは以下の図の通りで、回答生成部分（推論部分）として使用する独自LLMに対する性能評価に限り、学習用のLLMに関しては対象外となります。

独自LLMの推論サーバに対して、平均的にリクエストが来るワークロードを使用し、アーキテクチャとしては回答生成部分にシンプルに推論サーバ1台設置したものを基準とした上で、スケールアップ・スケールアウトのいくつかのパターンにて検証を実施しました。

検証に使用したGPUインスタンス（Amazon EC2インスタンスタイプ）

【G5インスタンス】　g5.xlarge、g5.12xlarge、g5.48xlarge
【G4dnインスタンス】　g4dn.xlarge、g4dn.12xlarge、g4dn.metal
【G6インスタンス】　g6.xlarge、g6.12xlarge、g6.48xlarge
【P4インスタンス】　p4d.24xlarge

多重度（スレッド数）：1~8多重

入力トークン数：約2,000、出力トークン数：50

検証結果

検証を行った結果、高価で高スペックのp4d.24xlarge1台に対し、比較的低コストのg5.xlargeを多重度（同時リクエスト数）に応じた台数分を複数並べる方が約三分の一のコストで、同程度のレスポンスタイムを実現できるアーキテクチャ構成になる事が分かり、高価なGPUインスタンスを使用するより、比較的安価なGPUインスタンスを複数台並べる構成が性能を上げるコストパフォーマンスとして良い事が分かりました。

まとめ

AWSに構築した独自LLMの非機能（拡張性）検証の一部に関して紹介しました。
今回の検証では、独自LLMの推論サーバに対して、比較的低コストのGPUインスタンスを複数台並べる構成の方がコストパフォーマンスが良い事が分かりました。

ただ、言わずもがなお客様へご提案する際にどんな条件で検証を行うべきか利用するユースケースを踏まえ決めていく必要があります。
そこは、今後生成AIに関わるエンジニアの腕の見せどころですね。

※記載されている会社名、商品名、またはサービス名は、各社の登録商標または商標です。

記事に関するお問い合わせ