重回帰分析 - エクセル＆グラフのティップス倉庫

エクセルには本当に多くの機能が搭載されていますが、今日はその中でも覚えておくと便利な重回帰分析のやり方について説明をします。

そもそも重回帰分析とは何か？事例を使って説明してみましょう。（僕は統計の専門家ではないので、初歩的に知っておいたほうがいいという点に絞って解説します。もし詳しく知りたい、アカデミックに内容を押さえたいと言う人は、wikipedia先生かgoogle先生に聞いてみてください。）

ある町のワンルームマンションの賃料を調べてみたところ、一番安いところだと4万4千円、最も高い物件だと11万円する。この賃料の差は、どうやら駅からの距離（徒歩での所要時間）、広さ、築年数といった要素が賃料に影響を与えている事は想像できるのだが、一体具体的にどのような法則性があるのか考えたい。ファイルダウンロードはこちら：apartment.xlsx

別に賃貸物件でなくてもいいです。過去の事例やすでにあるファクトなどから法則性を導き出すのが重回帰分析。ちょっと抽象的に言えば、何かしらのアウトプットの変数（「目的変数といいます）と、それに対して影響を与えるであろう複数の変数（「説明変数」といいます）とが、一体どんな関係にあるのか数式で示そうというのが重回帰分析。この数式が導き出されれば、説明変数さえ入手すれば容易に予測することが可能になりますよね。エクセルでの操作方法、分析結果で見るべき基本となるポイントについて動画でまとめたのでご参照ください。

重回帰分析を行うと、その分析結果がチャートで出てきます。着眼点は主に二つ。

数式がどんなものかを把握する

数式の精度を確認する

以下順を追って説明します。

数式がどんなものかを把握する

「係数」というところを見てください。これが目的変数を説明する数値になります。今回のケースでいえば、

賃料＝徒歩での所要時間ｘ（-674）＋広さｘ（1,758）＋築年数ｘ（-797）＋49,575

という式が導き出されます。この町のワンルームマンションの賃料は、この式で算出することができる、ということですね。とっても簡単。

数式の精度を確認する

数式は必ず算出されますが、精度が高いかどうかは別問題。精度が低ければ、その数式は出したものの使えない、ということになります。
この精度を確認するときに良く見るのが下記3点です。

重決定R2／補正R2・・・決定係数と呼ばれるものです。導き出した数式がどのくらい事象を説明できるか、その「あてはまり度合い」を示したものです。重決定R2と補正R2の違いは、説明変数が増えれば増えるほど決定係数であるR2は上昇するので、その変数の増減によるR2への影響分を修正したのが補正R2。なので、一般的には補正R2を使います。今回のケースで言うと、補正R2が0.80なので「80％この数式で事象が説明できる」といった感じになります。
P-値・・・平たく言うと（平たく言いすぎ？）仮のこの変数がゼロだったとしてもこの式が成り立つ可能性がどのくらいあるか？というのを示したのがP-値。つまりP-値が小さいということは、この変数の影響は大きい、この変数は外せない、ということを意味します。逆にP-値が大きいということは、その変数は影響がないので外したほうがいい、ということを意味します。一般的にはP-値は0.05未満だとOKと言われてますね。ちなみにP-値の「P」とはProbability（起こりうる確率）のこと。その要素がなかったとしても数式が成り立つ「確率」ということですね。
t・・・tは係数を標準誤差で割ったものです。重回帰分析をすれば係数はバシっとシングルナンバーで出るけれども、実際にはブレがあるわけですよね。それが簡単に言うと標準誤差なわけですが、このブレが大きいと係数自体の信頼性がなくなってしまう。その信頼性を図るためにtというのがあります。P-値とは違って、tは大きいほうが望ましい（標準誤差＝ブレが小さければtは大きくなる）。一般的には2以上でOKとしています。

繰り返しになりますが、今回の重回帰分析の説明はかなり砕いた形で説明をしていますので、より正確に把握したい。細かく内容を知りたいという方は、別のサイトを参考にしてみてください（笑）