3章 その1 simple-rssでRSS/Atomフィードを読む - 橋本詳解

screenshot

3章はクラスタリング。 35ページまでかけて複数の英文blogのRSSフィードから単語を切り出し、 http://kiwitobes.com/clusters/blogdata.txt のような単語と出現回数のリストを作っている。このblogdata.txtを使ってしまっても良いのだけど、せっかくだからrubyでやってみる。 本はPythonなので http://www.feedparser.org を使って記事本文データを持ってきて正規表現などでHTMLタグを外したりしているが、...

http://d.hatena.ne.jp/shokai/20081027/1225078858
http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/shokai/20081027/1225078858