slm

2026年5月3日
in ai, ai-agent, llm, slm, prompt-audit
このページは約9分で読めます

LumeGuard AI v1.6 マルチベースモデル対応で広がる選択肢

前回の記事では、v1.4で 精度100%（60/60） を達成した4つの技術的改善を解説しました。今回は、v1.6で対応した Gemma 4 ベースモデル と、Qwen3 / Gemma 4 の横並び評価から見えた PII 検知精度のさらなる引き上げ について説明します。

何が変わったのか

v1.6では、これまで唯一の本番モデルであった Qwen3-1.7B に加え、Gemma 4 E2B（Beta） をベースとしたバリアントを新たに提供できるようになりました。さらに、両モデルを横並びで評価する過程で見つかった2つの潜在課題を解消し、複数 PII を含む数百文字テキストの一括検知でも GPU 上で精度100%（20/20） を達成しています。

指標（マルチPIIベンチマーク・GPU）	v1.5（Qwen3のみ）	v1.6 Qwen3	v1.6 Gemma 4
正解率	17/20 程度	20/20（100%）	20/20（100%）
平均レスポンス	2.0 秒	1.27 秒	1.25 秒
最遅ケース	11.5 秒（退化ループ）	2.74 秒	1.98 秒
Safe ケース TN	7/10	10/10	10/10

この結果は、ベースモデルの多様化 と クロスモデル評価で見つかった2点の改善 の組み合わせによって達成されました。

2026年2月7日
in ai, ai-agent, llm, slm, prompt-audit
このページは約8分で読めます

LumeGuard AI 誤検知ゼロ・見逃しゼロ

前回の記事では、ファインチューニングにより精度95%を達成したLumeGuard AIの3つのアドバンテージについて解説しました。今回は、v1.3からv1.4への進化で 精度100%（60/60） を達成した技術的改善を説明します。

何が変わったのか

v1.3の時点で目標の95%を達成していましたが、2件のFalse Negative（見逃し）と1件のFalse Positive（誤検知）が残っていました。v1.4では、これらすべてを解消し、60件のテストケースを 全てパス しています。

指標	v1.3	v1.4
正解率	95.0%（57/60）	100.0%（60/60）
True Positive	33件	34件
True Negative	24件	26件
False Positive	2件	0件
False Negative	1件	0件

この結果は、単一の改善ではなく、4つの技術的アプローチの組み合わせ によって達成されました。

2026年1月31日
in ai, ai-agent, llm, slm, prompt-audit
このページは約8分で読めます

LumeGuard AI が実現する3つのアドバンテージ

前回の記事では、オンプレミスで完結するプロンプト監査ライブラリ - LumeGuard AI の概要をご紹介しました。本記事では、ファインチューニングによって達成した成果と、LumeGuard AI が提供する 3つのアドバンテージ について詳しく解説します。

ファインチューニングで目標精度を達成

2日間にわたるファインチューニング作業の結果、当初の目標であった 精度95%以上 を達成しました。60件のテストケース(日本語30件・英語30件)に対し、57件を正しく判定しています。今後も継続してテストを行い精度を向上させる予定です。

この成果を支える3つのアドバンテージ - 精度、パフォーマンス、SLM (軽量言語モデル) ― について説明します。

2025年9月29日
in ai, llm, slm
このページは約15分で読めます

LLMとSLMの共存時代へ：小型言語モデル(SLM)

知っておくべき現実：ChatGPTの運用コスト

OpenAIのGPT-4を使用した場合、1日1000万リクエスト（各1000トークン）を処理すると、推論コストだけで月額約300万円に達することもあります。さらに、応答時間は平均2〜5秒、ピーク時には10秒を超えることも珍しくありません。

こうした課題が、AI業界に新たな潮流を生み出しています。それが 小型言語モデル(Small Language Models - SLMs) です。

MicrosoftのPhi-3-miniは38億パラメータながらGPT-3.5に匹敵する性能を達成し、推論コストを90%削減。応答時間も100ミリ秒以下を実現しています。