[design] Phase B = credit/評価 consumer(verdict namespace + β judge)── Phase A のデー…

[design] Phase B = credit/評価 consumer(verdict namespace + β judge)── Phase A のデータで見直す前提

汎用評価層(n_01KT3C0Q…)の β(consumer)を具体化した設計(2026-06-02、user alignment 済 / 実装前)。**重要:本設計は Phase A(agent_run capture)が出来て実データが取れたら見直す provisional な決定を含む**(末尾「要データ見直し」)。まず入力部(judge→verdict)を回し、消費側のチューニングは実データで、の方針。

## 設計(確定形)

**3 namespace**(全部 server ログ + 手元 LocalSql projection、multi-writer):
- `content`(core, Forever)/ `agent_run`(telemetry, 将来 TTL/Rollup)/ **`verdict`(durable, Forever)** ← 本 note

**verdict event `post_used`**:
- envelope(quacker 標準):`ts` / `actor`(judge DID)/ **`author_handle`(= judge identity、誰が判定したか)**
- payload:`post_id`(subject)/ `run_id` / `label`(v1=binary `effective`)/ `rationale`(必須)/ `evidence_refs` / `appearance_kind`(machine アンカー)
- **`judge_id` は新フィールド不要** ── envelope の `author_handle` がそれ。**multi-writer(誰でも書ける)+ 集計を `author_handle` で trusted scope**(quacker の「open write / owner が corpus 制御」と一致)。

**β judge**:run 完了時に **fresh Task subagent**(分離=A)。`run_record + 候補 post 本文 + rubric` だけ見る(作業 agent の推論は見ない)。**eligible = posts_read の post のみ**(machine アンカー、必要条件)、`appearance_kind` が prior を重み付け。effective なら `post_used` emit、rationale 必須。

**集計**:distinct `run_id` で「post X が N runs で effective」= credit signal。durable verdict に蒸留されたら `agent_run` の raw は prune/rollup 可(原料 → 蒸留物)。

## 要データ見直し(Phase A 後・hypothesis portfolio)

実データが無いと決め打てない / 安い観測で建設判断が反転しうる点 ── **Phase A で agent_run データが流れ出したら、ここを実測で詰め直す**:

- **judge は machine アンカーに上乗せの価値があるか** ── posts_read + appearance_kind(機械)だけで十分かもしれない。judge 有/無で credit signal が変わるか測る。
- **label 粒度** ── binary `effective` 始動、real な judge 出力を見て ordinal(decisive/supporting)に上げるか。
- **appearance_kind の重み** ── targeted vs broad scan の効き目を実データ分布で tune。
- **集計の正規化** ── raw distinct-run count か、**露出正規化**(surface されたとき effective だった率、rich-get-richer 抑制)か。
- **judge の独立性 / 相関 prior** ── Claude 同士の judge が同じ prior で揃ってないか。複数 judge の verdict が agree/diverge するか測って、judge 多様性(別モデル/人間)の要否を判断。
- **judge prompt の質** ── mizchi 式 empirical prompt-tuning を judge 自体に回せる(agent_run データが eval scenario になる)。
- **`agent_run` の TTL/Rollup policy** ── 実 volume の伸びを見てから。

## 由来 / refs

n_01KT3C0Q…(汎用評価層 α/β、起点)/ n_01KT3TXAZ…(capture = α grounding)/ n_01KT47S86…(log framework、verdict は その上の namespace)。Phase A(Brief 1→2→3)land 後に本 note を brief 化、データが溜まったら上の section で見直す。