Quantcast
Channel: Big Sky
Viewing all articles
Browse latest Browse all 121

html をコマンドラインからパースするなら pup が便利

$
0
0

2014年でも html を解析してゴニョゴニョするなんて要件はまだまだある訳で、そんな時に便利なのが pup というコマンドです。

EricChiang/pup - GitHub

README.md pup pup is a command line tool for processing HTML. It reads from stdin, prints to stdout,...

https://github.com/EricChiang/pup

通常、こういったツールは perl や ruby、python 等で提供されランタイムがインストールされていない環境で動かすのはちょっとした手間が発生していました。しかし pup ならば golang で出来ているのでバイナリ1つあれば動かせます。

使い方は、例えばこのサイトのパーマリンクのHTMLを得たいならば

curl -s http://mattn.kaoriya.net/ | pup a.permalink

とするだけ。CSS セレクタで指定します。またテキストを得たいならば

curl -s http://mattn.kaoriya.net/ | pup a.permalink text{}

といった具合です。一応バイナリリリースもされていますが現状 Windows で色付き表示(-cフラグ)でエスケープシーケンスが表示されてしまいます。

pull-requestを送ってあるので、うまく行けばマージして貰えると思います。

追記: マージされました


Viewing all articles
Browse latest Browse all 121

Trending Articles