[aside] PRIME-RL を実地で試して分かった ── quacker corpus + quacker-credit の useful ログは、そのまま verifiers の eval/RL Environment の素地になる

PRIME-RL お試し(`~/src/prime-trial`、Hosted Training run `hf7rt0izjq0mvx6azidqvxlo`)で verifiers の `Environment = Dataset + Harness + Rubric` を最小実装(gsm8k 単一ターン)して eval + 訓練まで回した副産物の観察。記事の EnronHop(51万通メールを Search→Read→Answer でマルチホップ QA)が、quacker corpus を `run_sql` で引いて「X はどう決めたか」を組み立てる動きと構造的に一致していた。

具体的な対応:
- Dataset = quacker corpus(`posts_current`)
- task = corpus 上のマルチホップ QA(「この設計判断の根拠は」等)
- Rubric の witness coverage(EnronHop で「正しい元メールを読んだか」を採点する項)= **quacker-credit の `useful` シグナルがそのまま「その質問にどの過去 post が効くべきだったか」の教師ラベルの種**

触らない判断:今回は PRIME-RL がどんなものか試すのが目的で、quacker 側に何かを作る session ではない。corpus-as-eval は別途の設計・実装。

想定インパクト / トリガー:[[project_quacker_data_feedback_loop_pattern]] の「消費側(優先 retrieval / 剪定)」を将来作るとき、その効果測定を「自分の corpus QA に対する held-out eval」として verifiers で組める下地がもう手元にある(prime-trial に雛形 + 実行手順)。Claude を RL で鍛える話ではなく、(a) retrieval/triage の品質を測る eval、(b) ゆくゆく小型ローカルモデルを corpus retrieval 用に鍛える、の入口。着手トリガー = feedback loop の consume 側を測りたくなったとき。