コンテンツにスキップ

slm

LumeGuard AI 誤検知ゼロ・見逃しゼロ

前回の記事では、ファインチューニングにより精度95%を達成したLumeGuard AIの3つのアドバンテージについて解説しました。今回は、v1.3からv1.4への進化で 精度100%(60/60) を達成した技術的改善を説明します。

何が変わったのか

v1.3の時点で目標の95%を達成していましたが、2件のFalse Negative(見逃し)と1件のFalse Positive(誤検知)が残っていました。v1.4では、これらすべてを解消し、60件のテストケースを 全てパス しています。

指標 v1.3 v1.4
正解率 95.0%(57/60) 100.0%(60/60)
True Positive 33件 34件
True Negative 24件 26件
False Positive 2件 0件
False Negative 1件 0件

この結果は、単一の改善ではなく、4つの技術的アプローチの組み合わせ によって達成されました。

LumeGuard AI が実現する3つのアドバンテージ

前回の記事 では、オンプレミスで完結するプロンプト監査ライブラリ - LumeGuard AI の概要をご紹介しました。本記事では、ファインチューニングによって達成した成果と、LumeGuard AI が提供する 3つのアドバンテージ について詳しく解説します。

ファインチューニングで目標精度を達成

2日間にわたるファインチューニング作業の結果、当初の目標であった 精度95%以上 を達成しました。60件のテストケース(日本語30件・英語30件)に対し、57件を正しく判定しています。今後も継続してテストを行い精度を向上させる予定です。

この成果を支える3つのアドバンテージ - 精度パフォーマンスSLM (軽量言語モデル) ― について説明します。

LLMとSLMの共存時代へ:小型言語モデル(SLM)

知っておくべき現実:ChatGPTの運用コスト

OpenAIのGPT-4を使用した場合、1日1000万リクエスト(各1000トークン)を処理すると、推論コストだけで月額約300万円に達することもあります。さらに、応答時間は平均2〜5秒、ピーク時には10秒を超えることも珍しくありません。

こうした課題が、AI業界に新たな潮流を生み出しています。それが 小型言語モデル(Small Language Models - SLMs) です。

MicrosoftのPhi-3-miniは38億パラメータながらGPT-3.5に匹敵する性能を達成し、推論コストを90%削減。応答時間も100ミリ秒以下を実現しています。