品質改善の実験
AI の判定設定や閾値を自動で改善するための試験場です。改善案を提案 → 精度を確認 → 承認して適用、という流れで運用します。
このページの使い方(クリックで展開/折りたたみ)
品質チェックの精度を継続的に上げるため、2 種類の「実験」が実行できます。実験 = 現在の設定と比べて、新しい設定の方が良いかを数値で確かめる作業です。
- ① AI プロンプトの改善
Gemini / Claude に渡している指示文そのものを Claude に改善提案させます。「ここで誤検知が多い」というフィードバックを材料に、候補を 3 つ生成 → 採点用の正解データセットと照らし合わせて F1 スコアで比較 → 良ければ承認して適用。 - ② SSIM 閾値の最適化
画像差分の「どのくらいずれたら警告するか」の数値を総当たりで試し、正解データセット上で最も精度が高い閾値を探します。AI 呼び出しを使わないので高速・無料。
どちらの実験も候補生成まで自動、適用は必ず手動承認です。精度が下がる候補は自動で却下されるため、本番に悪化版が入るリスクはありません。
① AI プロンプトの改善(ハーネス)
誤検知フィードバックを材料に Claude が改善プロンプト候補を 3 本生成します。正解データセットで F1 を測り、良い候補のみ手動承認で適用できます。
※ 実行には少量の Claude API 費用がかかります(1 回あたり数円程度)
② SSIM 閾値の最適化(autoresearch)
既存の検出結果を使って閾値を総当たりで再分類し、正解データセットで最適な F1 を探します。AI は呼び出さないので無料・高速です。
実験履歴 (4)
| 作成日時 | 対象 | 仮説 | ステータス | |
|---|---|---|---|---|
| 2026-04-21 13:56:55 | Claude 精密判定 | 全角と半角の数字が異なると診断されるが、微妙なフォントの太さの違いと思える。 | 完了 | |
| 2026-04-19 07:29:24 | Claude 精密判定 | 画像サイズの少しの違いと、微妙な位置のずれのご認識を修正して | 完了 | |
| 2026-04-19 07:25:53 | Claude 精密判定 | 画像の微妙なサイズ違いとずれのご認識を直したい | 実行中 | |
| 2026-04-19 07:20:07 | Claude 精密判定 | 画像の微妙なサイズ違いとずれのご認識を直したい | 失敗 |