2014年でも html を解析してゴニョゴニョするなんて要件はまだまだある訳で、そんな時に便利なのが pup というコマンドです。
EricChiang/pup - GitHubREADME.md pup pup is a command line tool for processing HTML. It reads from stdin, prints to stdout,...
https://github.com/EricChiang/pup
通常、こういったツールは perl や ruby、python 等で提供されランタイムがインストールされていない環境で動かすのはちょっとした手間が発生していました。しかし pup ならば golang で出来ているのでバイナリ1つあれば動かせます。
使い方は、例えばこのサイトのパーマリンクのHTMLを得たいならば
curl -s http://mattn.kaoriya.net/ | pup a.permalink
とするだけ。CSS セレクタで指定します。またテキストを得たいならば
curl -s http://mattn.kaoriya.net/ | pup a.permalink text{}
といった具合です。一応バイナリリリースもされていますが現状 Windows で色付き表示(-c
フラグ)でエスケープシーケンスが表示されてしまいます。
pull-requestを送ってあるので、うまく行けばマージして貰えると思います。
追記: マージされました