Nokogiri::HTMLはGoogle検索結果をパースできない→解決策あり - ’(rubikitch wanna be (a . lisper))

screenshot

Nokogiriは実在するぶっ壊れたHTMLでもパースできるらしい。Nokogiri.parseはヒューリスティックにHTMLかXMLかを判断して、合ったパーサを使うようになっている。でもHTMLだとわかっている場合はNokogiri::HTML.parseと明示したほうがよい。nokogiri.rbより引用。module Nokogiriclass self#### Parse an HTML ...

http://d.hatena.ne.jp/rubikitch/20090118/1232214592

「HTML要素もBODY要素も閉じてない」少しでもバイトを減らすためとは言えGoogleキモい。

http://b.hatena.ne.jp/entry/http://d.hatena.ne.jp/rubikitch/20090118/1232214592