はじめに

皆様は普段生成AIを使っていますか?生成AIを使っているとしたらどのようなモデルを使っているでしょうか?
一般的に使われている生成AIだとGPTやClaude、Google Geminiといった大規模言語モデル(LLM:Large Languege Model)を思い浮かべた方も多いと思います。
LLMの進化は凄まじく、OpenAIが2025年1月に発表したo3-miniではモデルでは米国の数学コンテストであるAIMEにおいて87%の正答率を記録しています。
このようなLLMの性能を向上させる要因の1つとしてパラメータ数があります。パラメータ数を増加させることでLLMの表現力が向上し、より広範囲のタスクの実行が可能となります。
しかしパラメータ数を増加させることによって、推論/学習にかかる時間の増加・必要なマシンスペックの増加・消費電力量の増加といったデメリットも発生しています。
例えばGPT-3の学習には約1,287MWhの電力量が必要であり、推論も含めればさらに消費電力が増えることになります。
以上のような問題に対して、LLMと反対の方向性に着目した小規模言語モデル(SLM:Small Languege Model)が最近注目されています。
SLMはパラメータの数を削減して消費電力を抑えるとともに、学習時間を高速化して特定のタスクへ特化させることが可能となっています。
SLMの例としてはNTT製のSLMである「tsuzumi」や、Microsoftが2024年12月に発表した「Phi-4」が挙げられます。
SLMも近年性能が向上してきており、tsuzumiではテキストに加え画像の理解も行うマルチモーダルや、独自の言語処理によってGPT-3.5のようなLLMを超える日本語性能を示しています。

本記事ではSLMの可能性、活用する際のポイントについてご紹介します。

SLM(小規模言語モデル)の可能性

前節ではLLMと比較しながらSLMの特徴を説明しましたが、本節ではSLMを活用することによって新たにどのようなことが可能になるのかについて説明していきます。
先ほど述べたようにSLMはLLMと比べて消費電力が少なく、オンプレミス下でも生成AIを利用することができるようになります。
例えばNTT製の言語モデルである「tsuzumi」は下位のGPU一基で動作することができます。
では具体的にどのような状況でオンプレミスでの生成AI活用が必要になるでしょうか?
例えば、自社の業務に関わるデータを用いて生成AIによる業務効率化を行う場合、パブリッククラウド上で提供されるLLMでは自社の業務データもパブリックラウド上にアップロードする必要があります。
しかし、実際には自社のセキュリティ要件によって機密性の高いデータをパブリッククラウド上にアップロードできず、LLMの利用ができなくなるため生成AIの活用が停滞してしまうことになるでしょう。
一方でSLMはLLMと比べて軽量であるため大規模なデータセンタを必要とせず、オンプレミス下でも生成AIの利用が可能です。
したがってオンプレミス環境でSLMを動作させることで、パブリッククラウド上にアップロードできない機密データと連携し、より業務に紐づいた生成AIの活用を行うことができるようになるのです。

SLM(小規模言語モデル)の活用におけるポイント

SLMの活用による効果を説明してきましたが、今後SLMの活用を進めていくにあたって従来のLLMと同じ考え方でシステムを構築しても十分なパフォーマンスを発揮することはできません。
SLMはLLMと比べて汎用的なタスクへの性能が劣る代わりに特定タスクへの特化や高スペックでないマシンでも動作可能という特徴があるため、SLMに合ったシステムの考慮が必要となります。
SLMを用いたアプリケーションの構成を示したうえで、以下のポイントが重要となってきます。

①チューニング
SLMではLLMと同様にRAG(Retrieval-Augmented Generation)の構成を取って業務データの活用を行うことも可能ですが、学習コストが低いことからチューニングによって独自文書の知識を取り込むことが可能です。
一般的にチューニングにかかる手間は多く難易度も高いため、短期的な視点では多くのユースケースにおいてSLMでもRAGの構成を取った方が精度が出やすい傾向があります。
しかし、中長期的な視点ではSLMのチューニングには回答の形式を学習させることで安定した回答出力ができることや、処理が多いRAGよりも推論速度が向上するといった総合的な利点があります。
将来的にチューニング手法が確立されて高精度な回答生成ができるようになった場合には、SLMに学習させて独自のモデルを生成することが主流になると考えています。
したがって本節では現時点で主流の構成であるRAGではなく、近い将来必要になるかもしれないSLMでチューニングを行う際のポイントについて説明します。
まず、チューニングを行うことによって考慮するべきポイントはパラメータが増加する点です。
例えば学習率や学習回数などは代表的です。
チューニングによって生成されたモデルの評価が低い場合にはこれらのパラメータを再度調整して学習し直すため、チューニングには時間がかかることになります。
さらにチューニングの手法にも複数あり、SLMのすべてのパラメータを更新するフルファインチューニングだけでなく、一部のパラメータのみを更新するファインチューニングの手法も存在します。
例えばLoRA(Low-Rank Adaptation)と呼ばれる手法では一部のパラメータしか更新しないため学習時間・必要メモリを抑えられるにもかかわらず、特定のタスクにおいてフルファインチューニングと同様の精度を達成したと報告されています。
LoRAのようなファインチューニングの手法を用いることで短期間での学習が可能であり、さらに同じSLMのモデルから様々な目的に特化した複数のモデルを生成することができます。
上記のようなチューニングのポイントを意識することで、将来的には特定領域に特化した高精度なモデルを生成することが期待できます。
さらに個々の領域・タスクごとに特化させた複数のSLMを用いてそれぞれの業務に活用することでより生成AIによる業務変革を推し進めることができるようになっていくことでしょう。

②システム基盤開発
SLMは軽量であるという性質上Azure Open AIのようなマネージドサービスではなく、オンプレミスや仮想マシン上で扱うことが多くなります。
そのために従来のシステムと同様にインフラの設計・非機能要件の考慮が必要となります。
例えば、SLM独自に考慮する必要がある要件の1つとしてレスポンスタイムがあります。
SLMの推論にかかる時間には入出力トークン数やGPUの性能・台数などの要素が大きく影響します。
大量のデータを一度にインプット・加工するような瞬間最大出力が求められるユースケースでは高性能のGPUを積んだマシンが推奨されますが、複数のユーザーが同時にリクエストを投げる状況においては中程度の性能のマシンを複数台用意する場合がレスポンスタイムにおいて優れており、コスト最適にもなりやすいです。
また、SLMのパラメータ数によっては必要なGPUメモリにも留意すべきです。
例えば16bit量子化で70億パラメータのSLMを用いる場合にはおおよそ2(bite)×7B=14(GB)のメモリが必要になります。
求められるスペックに達していないGPUを用いた場合にはOOM(Out of Memory)エラーが生じてしまいます。
SLMを用いたシステムでは上記のようなSLM独自のポイントを設計段階で考慮しない場合、後戻りが発生するため注意が必要です。
しかしSLM独自の要件を考慮してシステム基盤開発を行えば、LLMを用いた場合よりもレスポンスタイムの短い生成AIシステムやよりセキュアな生成AIシステムの構築を実現することができるようになります。

まとめ

生成AIの利活用が急速に進んできており、最近ではLLMだけでなく特定タスクに特化し、プライベートな環境でも利用可能なSLMも注目されています。
ただしSLMはLLMと同様の形でシステムに組み込んでも性能を活かせず、SLMを活用するためにはLLMと異なったチューニングによる特定領域への特化や非機能要件を満たすためのシステム基盤開発がポイントとなっていました。
そのようなSLM独自のポイントを考慮することでLLMではカバーできていなかったパブリックに上げられないプライベートなデータの利用を実現し、より幅広い業務に対して生成AIを活用することが可能となるのです。

※記載されている会社名、 商品名、またはサービス名は、各社の登録商標または商標です。