pywebhdfsにHAとFederationをサポートするPRがマージされた
WebHDFSについて
WebHDFSはhdfsコマンドではなくREST APIにhttpでアクセスできる便利なもの。
Hoop(httpfs)とwebhdfsの違い - たごもりすメモとかが図もあってわかりやすいと思う。
背景1 (hdfsコマンドへの不満)
MapReduceなどを使って解析を行って、その結果を可視化するとかを行っていると、スクリプトの中で頻繁にHDFSにアクセスすることになった。
そしてShellスクリプトが量産されるわけだが、自分はPythonでスクリプトを書きたかった。
最初はsubprocessの中でhdfsコマンドを叩いていたが、レイテンシが結構あるし、lsコマンドの結果をパースしてファイル名を取得する必要があって微妙だった。
そんな話をしたらWebHDFSがあるよと教えてもらった。
背景2 (WebHDFSとの出会い)
WebHDFSに触ってみたら、レイテンシがすごく短いし、JSONが返ってくるので扱いやすい。心が踊った。
テンションが上ってHDFSのWebUIみたいなことができるシェルインタプリタを作った。 できる処理はls, cat, cd, pwdでread/get的なものだけにしていた。
その時自分でWebHDFSのREST APIのうすいラッパーを実装した。
これがわりと必要十分な機能は揃っていたためチームでもこのapi.pyが使われるようになった。
背景3 (自作ラッパーの限界)
自作ラッパーはシェルインタプリタ用に遊びで作っていたので、実業務で利用されるとカバーしているAPIが少なかった。
特に新規ファイル作成とかは、1回NameNodeにリクエストを投げて、返ってきたDataNodeのURIに対して再度ファイル内容とともにリクエストを投げるという形式で、自分で全部実装するのはめんどくさすぎた。
また認証周りもめんどくさくて、APIに渡す引数が増えていきそうだった。
そこでOSSのPythonのWebHDFSラッパを探すことにした。
ライブラリ探し
PythonからHDFSを操作する - 偏った言語信者の垂れ流しに辿り着いた。
そこでは2つのライブラリが比較されていた。2013年の比較だが参考になった。
pywebhdfs
webhdfs-py
実際、PYPIを見てもWebHDFSライブラリはリリースが2014-01-20と古く、もうメンテナンスされていない気がした。
そこでpywebhdfsを使うことにした。しかしこのライブラリではHAとFederationがサポートされていなかった。
HAとFederationについて
HA(High Availability)とはHadoopのNameNodeが単一障害点だった欠点を解消するために、ActiveとStandbyという2つ以上のNameNodeを起動しておき、ActiveなNameNodeが落ちたらStandbyだったNameNodeが自動でActiveに切り替わるという仕組みで、実際の業務でHadoopを使うなら必須な機能。
Federationは複数のNameNodeがメタ情報(ディレクトリ構造とか)を分担してメモリに保持する仕組み。貧弱なメモリのNameNodeで大規模なクラスタを管理しようとすると全てのメタ情報が載り切らない。この時/data/
以下はNameNode1で、/user/
以下はNameNode2でそれ以外はNameNode3でという感じで分割できる仕組み。
どちらも自分たちのプロジェクトでは使っている。
現状pywebhdfsは1つのNameNodeのホスト名を渡すので、Activeが落ちた時に、APIはずっとエラーを返すようになってしまい、それを外側で検知して切り替えたりしないといけない。
HAとFederationのサポートの実装
いろいろ考えたが、pywebhdfsのIssueにもHAのサポートが欲しいという声が上がっていたので、PRを投げることにした。
しばらくの土日はいろんなパターンでHA/Federationをサポートする仕組みを実装した。
最終的には、パスにマッチする正規表現とそれに該当するNameNodeのリスト(HAならActiveとStandby)を順序付きの辞書でAPIのコンストラクタに渡すことにした。
順序付きの辞書にしたのは、それ以外のパス(.*
)とは最後にマッチさせたいからだ。
実装にあたって気をつけたのは、HA/Federationを利用していないユーザーには今までと同じインターフェースを保つこと。
そしてPRを投げた。
support federation and HA by cloverrose · Pull Request #22 · pywebhdfs/pywebhdfs · GitHub
もらったレビューを反映して、今朝マージされた :)
1ヶ月待っていたので感慨深かった。
余談
HDFSのシェルインタプリタは自作のapi.pyではなく、自分のパッチが当たったpywebhdfsを使って実装し直して現在も気に入って使っています。
Pythonでインタプリタを作るときにはreadlineをラップしたcmdという便利なものがあります。
- 23.1. cmd — 行指向のコマンドインタープリタのサポート — Python 2.7ja1 documentation
- cmd – Create line-oriented command processors - Python Module of the Week
TABで補完とかが簡単に実装できるし、入力読み取り→実行のループも勝手にやってくれます。初めて知ったけど、今後また何か作るときに使っていきたい。