Experiments — PDF to HTML

このページの使い方（クリックで展開/折りたたみ）

品質チェックの精度を継続的に上げるため、2 種類の「実験」が実行できます。実験 = 現在の設定と比べて、新しい設定の方が良いかを数値で確かめる作業です。

① AI プロンプトの改善
Gemini / Claude に渡している指示文そのものを Claude に改善提案させます。「ここで誤検知が多い」というフィードバックを材料に、候補を 3 つ生成 → 採点用の正解データセットと照らし合わせて F1 スコアで比較 → 良ければ承認して適用。
② SSIM 閾値の最適化
画像差分の「どのくらいずれたら警告するか」の数値を総当たりで試し、正解データセット上で最も精度が高い閾値を探します。AI 呼び出しを使わないので高速・無料。

どちらの実験も候補生成まで自動、適用は必ず手動承認です。精度が下がる候補は自動で却下されるため、本番に悪化版が入るリスクはありません。

① AI プロンプトの改善（ハーネス）

誤検知フィードバックを材料に Claude が改善プロンプト候補を 3 本生成します。正解データセットで F1 を測り、良い候補のみ手動承認で適用できます。

対象:どちらの AI 判定モデルの指示文を改善するか選びます仮説（何を改善したいか）:Claude に伝える改善の方向性。短い 1 文で OK

※ 実行には少量の Claude API 費用がかかります（1 回あたり数円程度）

既存の検出結果を使って閾値を総当たりで再分類し、正解データセットで最適な F1 を探します。AI は呼び出さないので無料・高速です。

仮説（目的）:記録用のメモ。閾値探索自体には影響しません

作成日時	対象	仮説	ステータス
2026-04-21 13:56:55	Claude 精密判定	全角と半角の数字が異なると診断されるが、微妙なフォントの太さの違いと思える。	完了
2026-04-19 07:29:24	Claude 精密判定	画像サイズの少しの違いと、微妙な位置のずれのご認識を修正して	完了
2026-04-19 07:25:53	Claude 精密判定	画像の微妙なサイズ違いとずれのご認識を直したい	実行中
2026-04-19 07:20:07	Claude 精密判定	画像の微妙なサイズ違いとずれのご認識を直したい	失敗