My online activities
検索
以前の記事
2013年 02月 2013年 01月 2012年 03月 2012年 02月 2012年 01月 2011年 12月 2011年 11月 2011年 10月 2011年 09月 2011年 08月 2011年 07月 2011年 06月 2011年 05月 2011年 02月 2011年 01月 2010年 12月 2010年 11月 2010年 10月 2010年 09月 2010年 08月 2010年 07月 2010年 06月 2010年 05月 2010年 04月 2010年 03月 2010年 02月 2010年 01月 2009年 12月 2009年 11月 2009年 10月 2009年 09月 2009年 08月 2009年 07月 2009年 06月 2009年 05月 2009年 04月 2009年 03月 2009年 02月 2009年 01月 2008年 12月 2008年 11月 2008年 10月 2008年 09月 2008年 08月 2008年 07月 2008年 06月 2008年 05月 2008年 04月 2008年 03月 2008年 02月 2008年 01月 2007年 12月 2007年 11月 2007年 10月 2007年 09月 2007年 08月 2007年 07月 2007年 06月 2007年 05月 2007年 04月 2007年 03月 2007年 02月 2007年 01月 2006年 12月 2006年 11月 2006年 10月 2006年 09月 2006年 08月 2006年 07月 2006年 06月 2006年 05月 2006年 04月 2006年 03月 2006年 02月 2006年 01月 2005年 12月 2005年 11月 2005年 10月 2005年 09月 2005年 08月 2005年 07月 2005年 06月 2005年 05月 2005年 04月 2005年 03月 2005年 02月 2005年 01月 2004年 12月 2004年 11月 2004年 10月 2004年 09月 2004年 08月 2004年 07月 2001年 01月 カテゴリ
全体 Math Science Book Log Misc Business Music IT Food Topic Movie Art Stat Politics Muttering Off Topic 未分類 ブログパーツ
その他のジャンル
ファン
記事ランキング
ブログジャンル
画像一覧
|
2010年 11月 17日
Google Refine 2.0 http://code.google.com/p/google-refine/ Googleのデータクレンジングツール。ローカルwebサーバーで動作するアプリである。なぜローカルで動作するwebサーバにしているかというと、それには理由があるのだ。ほんと、ビックリ。 公開しているデータはタイトルやデータ形式がマチマチで、それを自分のところで統計解析するには、データレンジングをかなりやらなければいけなかった。そのためには、いままでgrepだとかfindだとかのコマンドやPythonスクリプトで半狂乱になって汚れ落としをしていたけれど、このGoogle Refineを使うとそういう問題がアホみたいに簡単に解決する。 例えば、カテゴリカルデータがセルに割り当てられているとする。記入者によってそれが略語だったりフルの名称だったりマチマチである。これを全て一つの文字列に置き換えたいとする。このGoogle Refineを使えばクラスタリングアルゴリズムが複数の行や列をまたいで似たような文字列を探してきてくれてサジェスチョンしてくれる。そして、その文字列を一気通巻で検索、置換できるのだ。 以下のビデオを見れば一目瞭然。こういうムチャクチャ有用なツールの作者は例によってインド訛りだ。ただ、この英語はとてもキレイ。 Google Refine 2.0 - Introduction (1 of 3) http://www.youtube.com/watch?v=yNccGtn3Wb0&feature=player_embedded また、webに公開されているテーブルをデータとして使いたいのだけれど、複雑怪奇なHTMLテーブルで人生が嫌になることがある。これもGoogle Refineを利用すれば、テキストファセッティング機能やテキストフィルタリングを屈指して、きちんとしたデータテーブルに整序することができるのだ。しかも、すべての操作はJython/Pythonの辞書として記録されているので、これを自動スクリプトとして別のデータにも適用できるのだ。まさに神ツール。つまり、ここにローカルで動作するwebサーバーである意義があるのだ。 更には、このGoogle Refineに読み込まれたオブジェクトは全てJython(またはClojureまたはGoogle Refine Expression Language (GREL))オブジェクトとして扱うことができるので、それをWeb Service APIに載せることも簡単だ。例えば、住所が入力されているカラムがあるとして、そのカラムを丸ごとGoogle Maps APIにJSON経由で食わせて、セルごとの位置情報を取得することもできる。Python(やClojure)のちょっとした知識があり、JavaScriptやJSONやRESTの仕様とWeb APIの利用方法を知っているだけで、データ整理を外部Webサービスに外注することができるのだ! これはもう神ツールとしかいいようがない。これからは、これなしでは生きていけないな。
by yutakashino
| 2010-11-17 18:19
| IT
|
ファン申請 |
||