[aside] prime-trial の eval dataset 行が `tagged_at DESC` 順固定で、`prime eval -n <小>` …

[aside] prime-trial の eval dataset 行が `tagged_at DESC` 順固定で、`prime eval -n <小>` が先頭(最新)だけ取って偏る ── 小 n eval が結論を 3 回 誤誘導した

quacker corpus レシピ env(prime-trial)の retrieval を eval していて気づいた。`generate.py` が rows を `tagged_at DESC` のまま固定 snapshot にしていて、`prime eval run -n 8` は**先頭 8 件(= 最新の useful credit)だけ**を取る。その先頭 8 件はたまたま全部 gold が検索到達可能(found_in_search=1.0)な易しい部分集合で、全 23 件(found ≈ 0.7-0.8)より楽観的な数字が出た。

この小 n バイアスが本 session で **3 回 結論を誤らせた**:(1)「強モデル m.1 > xs.2」(n=8 の 0.25 vs 0.125 → 全 23 では逆転 xs.2 0.22 > m.1 0.09)(2)「② 質問蒸留は不要」(3)「蒸留しても found 不変」── いずれも大 n / 同一 gold / r=3 のクリーン比較で反転した。

直さない理由:今回 scope は「レシピ抽象の実証」で、eval サンプリングの代表性は別軸。回避は「大 n で回す」で足りた。

想定インパクト / トリガー:小 n eval を意思決定に常用するなら、(a) `generate.py` で rows を決定的 seed で shuffle して順序バイアスを消す、または (b) eval 側でランダムサンプリング。順序付き dataset を `-n <小>` で評価する限り再発する一般footgun。次に小 n eval を判断材料に使うときが着手トリガー。