コンテンツにスキップ

slm

LumeGuard AI v1.6 マルチベースモデル対応で広がる選択肢

前回の記事では、v1.4で 精度100%(60/60) を達成した4つの技術的改善を解説しました。今回は、v1.6で対応した Gemma 4 ベースモデル と、Qwen3 / Gemma 4 の横並び評価から見えた PII 検知精度のさらなる引き上げ について説明します。

何が変わったのか

v1.6では、これまで唯一の本番モデルであった Qwen3-1.7B に加え、Gemma 4 E2B(Beta) をベースとしたバリアントを新たに提供できるようになりました。さらに、両モデルを横並びで評価する過程で見つかった2つの潜在課題を解消し、複数 PII を含む数百文字テキストの一括検知でも GPU 上で精度100%(20/20) を達成しています。

指標(マルチPIIベンチマーク・GPU) v1.5(Qwen3のみ) v1.6 Qwen3 v1.6 Gemma 4
正解率 17/20 程度 20/20(100%) 20/20(100%)
平均レスポンス 2.0 秒 1.27 秒 1.25 秒
最遅ケース 11.5 秒(退化ループ) 2.74 秒 1.98 秒
Safe ケース TN 7/10 10/10 10/10

この結果は、ベースモデルの多様化クロスモデル評価で見つかった2点の改善 の組み合わせによって達成されました。

LumeGuard AI 誤検知ゼロ・見逃しゼロ

前回の記事では、ファインチューニングにより精度95%を達成したLumeGuard AIの3つのアドバンテージについて解説しました。今回は、v1.3からv1.4への進化で 精度100%(60/60) を達成した技術的改善を説明します。

何が変わったのか

v1.3の時点で目標の95%を達成していましたが、2件のFalse Negative(見逃し)と1件のFalse Positive(誤検知)が残っていました。v1.4では、これらすべてを解消し、60件のテストケースを 全てパス しています。

指標 v1.3 v1.4
正解率 95.0%(57/60) 100.0%(60/60)
True Positive 33件 34件
True Negative 24件 26件
False Positive 2件 0件
False Negative 1件 0件

この結果は、単一の改善ではなく、4つの技術的アプローチの組み合わせ によって達成されました。

LumeGuard AI が実現する3つのアドバンテージ

前回の記事 では、オンプレミスで完結するプロンプト監査ライブラリ - LumeGuard AI の概要をご紹介しました。本記事では、ファインチューニングによって達成した成果と、LumeGuard AI が提供する 3つのアドバンテージ について詳しく解説します。

ファインチューニングで目標精度を達成

2日間にわたるファインチューニング作業の結果、当初の目標であった 精度95%以上 を達成しました。60件のテストケース(日本語30件・英語30件)に対し、57件を正しく判定しています。今後も継続してテストを行い精度を向上させる予定です。

この成果を支える3つのアドバンテージ - 精度パフォーマンスSLM (軽量言語モデル) ― について説明します。

LLMとSLMの共存時代へ:小型言語モデル(SLM)

知っておくべき現実:ChatGPTの運用コスト

OpenAIのGPT-4を使用した場合、1日1000万リクエスト(各1000トークン)を処理すると、推論コストだけで月額約300万円に達することもあります。さらに、応答時間は平均2〜5秒、ピーク時には10秒を超えることも珍しくありません。

こうした課題が、AI業界に新たな潮流を生み出しています。それが 小型言語モデル(Small Language Models - SLMs) です。

MicrosoftのPhi-3-miniは38億パラメータながらGPT-3.5に匹敵する性能を達成し、推論コストを90%削減。応答時間も100ミリ秒以下を実現しています。