My online activities
検索
以前の記事
2013年 02月 2013年 01月 2012年 03月 2012年 02月 2012年 01月 2011年 12月 2011年 11月 2011年 10月 2011年 09月 2011年 08月 2011年 07月 2011年 06月 2011年 05月 2011年 02月 2011年 01月 2010年 12月 2010年 11月 2010年 10月 2010年 09月 2010年 08月 2010年 07月 2010年 06月 2010年 05月 2010年 04月 2010年 03月 2010年 02月 2010年 01月 2009年 12月 2009年 11月 2009年 10月 2009年 09月 2009年 08月 2009年 07月 2009年 06月 2009年 05月 2009年 04月 2009年 03月 2009年 02月 2009年 01月 2008年 12月 2008年 11月 2008年 10月 2008年 09月 2008年 08月 2008年 07月 2008年 06月 2008年 05月 2008年 04月 2008年 03月 2008年 02月 2008年 01月 2007年 12月 2007年 11月 2007年 10月 2007年 09月 2007年 08月 2007年 07月 2007年 06月 2007年 05月 2007年 04月 2007年 03月 2007年 02月 2007年 01月 2006年 12月 2006年 11月 2006年 10月 2006年 09月 2006年 08月 2006年 07月 2006年 06月 2006年 05月 2006年 04月 2006年 03月 2006年 02月 2006年 01月 2005年 12月 2005年 11月 2005年 10月 2005年 09月 2005年 08月 2005年 07月 2005年 06月 2005年 05月 2005年 04月 2005年 03月 2005年 02月 2005年 01月 2004年 12月 2004年 11月 2004年 10月 2004年 09月 2004年 08月 2004年 07月 2001年 01月 カテゴリ
全体 Math Science Book Log Misc Business Music IT Food Topic Movie Art Stat Politics Muttering Off Topic 未分類 ブログパーツ
その他のジャンル
ファン
記事ランキング
ブログジャンル
画像一覧
|
2007年 09月 22日
Programming Collective Intelligence この本は、本当ならばこっそりと読んで、内容を自分だけのスキルセットとしておきたかった部類の本である。統計学と離散数学さらには情報数学そして最適化手法を用いて、データから意味のある情報を分類するための方法とコードが、Pythonを用いて具体的に解説してあるのだ。 簡単に言うと、データ判別法の実践的クイックチュートリアルコースである。 データ判別法として本書で取り上げあられるのは次のものである。 ・ピアソンの積率相関係数 ・ナイーブベイジアン判別法 ・多次元スケーリング法を用いた判別手法 ・決定木を用いた判別手法 ・簡単なニューラルネットワークを用いた判別手法 ・最適化手法としてのシミュレートアニーリング法 ・最適化手法としての遺伝的アルゴリズム法 ・サポートベクターマシンを用いた判別手法 ・k-最近傍決定則を用いたモデル予測 ・非負値行列因子分解を用いた判別手法 これらのガチなアカデミックの手法を、具体的なWebサービスの問題に適用するノウハウを教えてくれるのだ。具体的なサービスとはつぎのものである:商品リコマンド、マーケット対象グループの発見、検索のためのページランキング、スパムフィルタをはじめとするドキュメントフィルタリング、注目情報の抽出、価格戦略の決定、デートサイトのマッチメイキング、証券市場予測。 簡潔な解説とわかりやすいコード、これらがあるために必ずしも統計学や離散数学などの学習は必要としない。ガウス関数やピアソンの積率相関係数なども一から実装するなどの、車輪の再発明を厭わない丁寧な解説がすばらしい。 ただ、個人的な興味から言うと、ナイーブベイジアンフィルタはあるがマルコフ連鎖モンテカルロがないのは残念だし、サポートベクターマシンがあるのにカルマンフィルタがないのはやはり寂しい気がする。しかし、どちらの手法も解説が大変なことから考えると仕方ないかもしれない。 さらに注意するべきことは、この本のコードは、あくまで手法やアルゴリズムを理解するためのサンプルコードに過ぎず、データ量が限られたケースにしか適用できない。つまり、実装が数式定義に忠実にPythonによってベタに書かれているために、これをそのまま実際のWebサービスやデータマイニング業務に適用しても、データスケールの点ですぐに破綻してしまうだろう。業務に適用するには、分散環境やC言語へのポートなどいろいろな工夫が必要になるのは言うまでもない。 しかしそうはいっても、統計・数値計算フレームワークを一切使うことなく、スクリプト言語の直上に、ガチの実装レベルでこれらのデータマイニング技術を開示している数少ない実践書であり、しかもわかりやすい解説であるから、その価値は大変なものであると思う。Pythonコードから他の言語へのポーティングも簡単だし。逆に言ってしまうと、このレベルの内容はこの本により既にコモンナレッジになってしまったので、平均以上を目指すならばもっと上の知識と技術が必要である、ということに他ならない。 超オススメ。
by yutakashino
| 2007-09-22 23:23
| Book
|
ファン申請 |
||