Ruby で pdf からテキスト抽出 - つぶやき〜

screenshot

ところが寝る前に HMDT3版を読んでいたら Ruby で pdf からの text 抽出が載っていた ので、ちょっと Nature とかの pdf から text 抽出して doi を抜き出せるか試してみた。 #!/usr/bin/env ruby # # Created by mako on 2008-01-29. # Copyright (c) mako. All rights reserved. # What? # This_script.rb extracts text from pdf file # 参考にした URL # http://builder.japan.zdnet.com/sp/07leopard/story/0,3800082822,20360029-2,00.htm begin require 'osx/cocoa' O...

http://d.hatena.ne.jp/ma_ko/20080129#p2
http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/ma_ko/20080129#p2