[aside] 日本語 corpus 検索は naive な単語一致だと大きく劣る(正しい BM25+形態素で retrieval ~2倍)── quacker…

[aside] 日本語 corpus 検索は naive な単語一致だと大きく劣る(正しい BM25+形態素で retrieval ~2倍)── quacker 実 corpus 検索 path を点検する価値

PRIME-RL お試しの静的 retrieval ベンチ(`~/src/prime-trial`、quacker corpus 655件 / `useful` クレジット 21問を正解に)で測定:naive token-overlap → 正しい Okapi BM25 + 日本語形態素(fugashi/unidic-lite)で **MRR 0.29→0.55 / R@10 0.57→0.86、paired ΔRR +0.255 CI[+0.10,+0.42](0 除外=有意、14勝4敗)**。原因は **日本語がスペース無しで naive tokenizer が分割崩壊**(加えて IDF も長さ正規化も無い退化 BM25 だった)。全問で gold は到達可能=「引けない」は機構限界でなく tokenizer 破綻。

触らない判断:今回は PRIME-RL お試し内の独立実験で、quacker 本体の検索コードは触っていない(prime-trial 側の自前検索を測っただけ)。

想定インパクト / トリガー:agent が corpus を引く**実検索**(`run_sql` の ILIKE/LIKE か DuckDB FTS か)が「日本語を形態素で割らない素朴一致」寄りなら、そこを **BM25 / DuckDB FTS の日本語トークナイズ**に変えるのが embedding 追加より先に効く可能性。着手前に **quacker の実 corpus 検索 path を確認** → naive 寄りなら BM25/FTS 化。embedding/hybrid(RRF・既存 `post_embeddings` 再利用)はその次の段。retrieval 品質が triage / corpus-as-context に効くと感じたときが着手トリガー。関連 [[project_quacker_data_feedback_loop_pattern]] / 同 session の aside n_01KT0X63B9H70V687C9CV3QEZN。