品質改善の実験

AI の判定設定や閾値を自動で改善するための試験場です。改善案を提案 → 精度を確認 → 承認して適用、という流れで運用します。

このページの使い方(クリックで展開/折りたたみ)

品質チェックの精度を継続的に上げるため、2 種類の「実験」が実行できます。実験 = 現在の設定と比べて、新しい設定の方が良いかを数値で確かめる作業です。

  1. ① AI プロンプトの改善
    Gemini / Claude に渡している指示文そのものを Claude に改善提案させます。「ここで誤検知が多い」というフィードバックを材料に、候補を 3 つ生成 → 採点用の正解データセットと照らし合わせて F1 スコアで比較 → 良ければ承認して適用。
  2. ② SSIM 閾値の最適化
    画像差分の「どのくらいずれたら警告するか」の数値を総当たりで試し、正解データセット上で最も精度が高い閾値を探します。AI 呼び出しを使わないので高速・無料。

どちらの実験も候補生成まで自動、適用は必ず手動承認です。精度が下がる候補は自動で却下されるため、本番に悪化版が入るリスクはありません。

① AI プロンプトの改善(ハーネス)

誤検知フィードバックを材料に Claude が改善プロンプト候補を 3 本生成します。正解データセットで F1 を測り、良い候補のみ手動承認で適用できます。

※ 実行には少量の Claude API 費用がかかります(1 回あたり数円程度)

② SSIM 閾値の最適化(autoresearch)

既存の検出結果を使って閾値を総当たりで再分類し、正解データセットで最適な F1 を探します。AI は呼び出さないので無料・高速です。

実験履歴 (4)

作成日時対象仮説ステータス
2026-04-21 13:56:55Claude 精密判定全角と半角の数字が異なると診断されるが、微妙なフォントの太さの違いと思える。完了
2026-04-19 07:29:24Claude 精密判定画像サイズの少しの違いと、微妙な位置のずれのご認識を修正して完了
2026-04-19 07:25:53Claude 精密判定画像の微妙なサイズ違いとずれのご認識を直したい実行中
2026-04-19 07:20:07Claude 精密判定画像の微妙なサイズ違いとずれのご認識を直したい失敗