My online activities
検索
以前の記事
2013年 02月 2013年 01月 2012年 03月 2012年 02月 2012年 01月 2011年 12月 2011年 11月 2011年 10月 2011年 09月 2011年 08月 2011年 07月 2011年 06月 2011年 05月 2011年 02月 2011年 01月 2010年 12月 2010年 11月 2010年 10月 2010年 09月 2010年 08月 2010年 07月 2010年 06月 2010年 05月 2010年 04月 2010年 03月 2010年 02月 2010年 01月 2009年 12月 2009年 11月 2009年 10月 2009年 09月 2009年 08月 2009年 07月 2009年 06月 2009年 05月 2009年 04月 2009年 03月 2009年 02月 2009年 01月 2008年 12月 2008年 11月 2008年 10月 2008年 09月 2008年 08月 2008年 07月 2008年 06月 2008年 05月 2008年 04月 2008年 03月 2008年 02月 2008年 01月 2007年 12月 2007年 11月 2007年 10月 2007年 09月 2007年 08月 2007年 07月 2007年 06月 2007年 05月 2007年 04月 2007年 03月 2007年 02月 2007年 01月 2006年 12月 2006年 11月 2006年 10月 2006年 09月 2006年 08月 2006年 07月 2006年 06月 2006年 05月 2006年 04月 2006年 03月 2006年 02月 2006年 01月 2005年 12月 2005年 11月 2005年 10月 2005年 09月 2005年 08月 2005年 07月 2005年 06月 2005年 05月 2005年 04月 2005年 03月 2005年 02月 2005年 01月 2004年 12月 2004年 11月 2004年 10月 2004年 09月 2004年 08月 2004年 07月 2001年 01月 カテゴリ
全体 Math Science Book Log Misc Business Music IT Food Topic Movie Art Stat Politics Muttering Off Topic 未分類 ブログパーツ
その他のジャンル
ファン
記事ランキング
ブログジャンル
画像一覧
|
2010年 06月 18日
調べ物をしていたときに行き当たったエッセイである。
Statistical Modeling: The Two Cultures http://bit.ly/9AMRIn 著者は、機械学習のEnsermble learningの権威、Baggingアルゴリズム、Random Forestアルゴリズムの創始者であり、今は亡きLeo Breiman氏である。 これのエッセイは本質を突いていて本当に面白い。最近では(特に欧米にて)純粋統計学コミュニティから離れた、統計を道具として使う科学コミュニティにおいて、頻度主義の呪縛から離れたベイジアンベースの統計モデリングが大流行していて、Hierachicalモデリングやベイジアンに基づいたロバスト推定をしなければダメなデータ解析という雰囲気になってきているようだ。この論文というか随想は「頻度 VS. ベイズ」という対立軸よりも更に下層にある、そもそも統計モデルを仮定して大丈夫なの?ということについて述べているのだ。 つまり、大多数のスタティスティシャンや統計を道具として使う研究者は、頻度にしろベイズにしろ、データはストカスティックな「データモデル」から生成され、そのデータモデルの母数を推定したりモデルの検定をする。つまり、データモデルが存在することを大前提としている。このBrieman氏のエッセイは、自身の機械学習という分野を構築してきた経験から、そのデータモデルって本当に仮定できるの?仮定していいの?という疑問を提示しているのだ。 たとえば、このエッセイでは「羅生門効果」という言葉を出してくる。黒澤明の名画「羅生門」にちなんだもので、羅生門のプロットは、芥川龍之介の原作小説「藪の中」でご存じの通り、一つの事件を巡って複数人が証言するのだが、その証言のどれもが違った証言だったというものだ。一つの事実なのに別の表現が可能になってしまう、これをこのエッセイでは以下のように言っている。 いま30個の変数があり、そのうち5つの変数を線形回帰で利用するべく選択したい。30個から5つのセットを選ぶ組合せは大体140,000通り(注:実際にはchoose(30,5) = 142506通り)あり、ここから(線形回帰のモデルを)選ばなければならない。大抵は残差の最小二乗和(RSS)が一番小さいものを選ぶか、テストセットがある場合はそのテストの結果が小さいものを選ぶ。しかし、RSSが1.0%に収まるもの5つの式が存在することが(往々にして)あるだろう。…例えば以下の三つの式の全てがRSS1.0%に収まるとして、一体どれを採用すればいいんだろうか? そうなんだよね。普通こういうときは「オッカムのカミソリ」の原理から説明変数の小さなモデルを採用するものだけれど、この場合は説明変数も同じ数だから全く選ぶことができない。これが「羅生門効果」である。 このような事例をだして、統計モデリングか内包する決定不能性から、決定するべきでない「データモデル」を強引に仮定することに問題があるんじゃないか、むしろそこはアンノウンにしたまま、入力と出力の具合をみてその入力出力を説明する「決定木」やニューラルネットを(機械学習的に)生成的に決めていくべきじゃないのか、という話になっていき、だんだんRandom forestっぽい話になっていく。 確かに、その通りだとは思う。ただ、機械学習的に入力出力の説明を「生成」していくにしろ、その決定木なりニューラルネットなりランダムフォレストなりを形作る「アルゴリズム」がまた新たな「羅生門効果」の原因となりかねない。つまり、Brieman氏が統計モデリングを批判するのに用いた「羅生門効果」は自分のアルゴリズムモデリングというものをも攻撃する両刃の剣のように思う。 むしろ、これは数理モデルや科学のモデル自体が抱える根本的な問題であり、どうやっても「モデリング」をやる限りは「羅生門効果」を避けることは原理的にできないようだ、というようなことを考えさせられた。 このエッセイはマストリードである。
by yutakashino
| 2010-06-18 22:38
| Math
|
ファン申請 |
||