masaka says
データをいろいろ眺めて誤正規化を見つけると関連する辞書やアルゴリズムを修正するのだが、それでは到底ミスを根絶できないので、いちばん怪しいデータセットの問題をチェックするツールを作り、半日かけて辞書手直し。これでかなり改善されたはず。そんなわけでドキュメントは1日先送り