IIR の階層的クラスタリングを試す (nakatani @ cybozu labs)

screenshot

Pathtraq で Web ページの自動分類を手がけてみて。Web ページは日々どんどん変わっていくのでフィルタは常に更新されなければいけないんですが、そのためには適切なタイミングに、適切な学習データを用意しなければならない。大変。 メンテナンスフリーが理想ですが、もちろん難しい。 現実的なところとしては「追加学習が必要なことを検知して、適切な学習データの候補を提案してくれる」というものが作りた...

http://labs.cybozu.co.jp/blog/nakatani/2009/01/iir.html

tfidf + consine similarity, HAC

http://b.hatena.ne.jp/entry/http://labs.cybozu.co.jp/blog/nakatani/2009/01/iir.html