JRubyとPOIを使ってMS Officeのテキストを抜き出すライブラリを作りました - moroの日記

screenshot

仕事で必要になりそうな気配がしてきたので、夏休み中にMS Officeドキュメントに含まれるテキストを抽出するためのツールを作ってみました。 DeltaAttackという名前でGitHubで公開しています。 http://github.com/moro/delta_attack/tree/master 最初はxlhtmlでテキストを抽出しようとしたんですが、SI屋さんがよく見かけるような複雑な段組みのExcel帳票をうまく抜けませんでした。というかよりに...

http://d.hatena.ne.jp/moro/20080921/1222014050
http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/moro/20080921/1222014050