一生旅行生活してえ

旅行とか写真とか。たまには自己研鑽。一生旅行生活してえ。

t検定についての考え方を整理してみた

証券アナリストのための数学として、一般的な統計学の知識も求められる。

平均とか分散とかそのあたりはまだいい、共分散、回帰分析、重回帰分析あたりは実際に具体的なデータを用いて考えることでなんとか理解ができる。しかし、t検定に関する標本を用いた仮説検定はなかなか腑に落ちなかったため、改めて整理してみたいと思う。

母集団が正規分布の場合

母集団が正規分布に従うのであれば話はわかりやすい。母平均・母分散を元に標準化してそこから求めればよい。標準化の手順は具体的には

z=\cfrac{X-\mu}{\sigma} \cdots (1)

X:確率変数
\mu:母平均
\sigma標準偏差(母分散の2乗根)

で示されるzを元に計算する。この式そのものの意味はゴタゴタ文章で書くより図を見たほうがわかりやすいので、参考文献のP114-115を見てもらいたい。これをすることで、正規分布に従えばどんな確率変数であっても、平均0、分散1の標準正規分布に変形できる。そしてzに対する確率密度関数の値は、通常一覧表が与えられるのでそこから引用すればよい。ググれば出てくるし、一覧表が無くてもExcelでも計算可能だ。

例えば、20代日本人男性の平均身長が172cm、標準偏差が10cmのとき、180cm以上の人は上位何%に位置するか?という例題があった場合は以下のようになるであろう。

z \geq \cfrac{180-172}{10}=0.8

z=0.8の時の確率密度関数の値は、標準正規分布の表を見ると0.211855つまり約21%である。ゆえに、上記例題において、180cm以上の人は上位21%に属することになる。

ここで話が逸れるがVaRについて補足する。上記例では上位何%かというパーセンテージを求めたが、VaRを求めるときはその逆で、上位(下位)N%に達する時の値は何か?を求める。今回で言えば、上位21%に達する時の身長は?という観点である。これを、「下位N%に達する時の損失額は?」と言い換えたのがVaRである。数式的には(1)のXを求めることになる。

母集団が正規分布かどうかわからない時

さて問題は、都合よく母集団が正規分布かどうか分からないし、そもそも母集団における母平均や母分散を、現実問題どうやって求めるのか?という話である。というか、むしろ数限られるデータから母集団の平均や分散を求めたいの統計学というものであろう。具体的に言うと、20代日本人男性の平均身長172cmというのを、何百万人以上いる20代日本人男性の身長をかき集めて計測するのは現実的に不可能なので、統計的に推定するのが統計学における醍醐味でもある。

数限られるデータのことを標本(サンプル)という。この標本を元に統計学はアプローチを行う。ここで出てくる考え方として重要なのが、中心極限定理およびt値の概念である。

中心極限定理

母集団が正規分布に従うか従わないかに限らず、そこから抽出した標本平均の分布はサンプルサイズが大きくなるにつれて正規分布に従う。ポイントは母集団の分布特性に依らないというところと、標本が正規分布に従うのではなく、標本平均正規分布に従うである。

母集団の分布特性に従わないので、正規分布しないような母集団であっても全く問題ない。というか、この世の中において都合よく母集団が正規分布するなんて保証はどこにもない、しかし、そこから選んだ標本(平均)であれば正規分布をするので、これを利用して正規分布を前提にした解析が可能であるという、強力な定理である。

t分布

 この標本から統計的に推定するにあって必要となる概念がt値である。定義は以下の通り。

t=\cfrac{ \overline{X} - \mu }{SE} \cdots(2)

\overline{X}:標本平均
\mu:母平均
SE:標準誤差(SE:standard error)※標準偏差ではないし、標本誤差でもない。標本平均の標準偏差のことである。

なお、SEは以下の定義となる。

SE=\cfrac{s}{\sqrt{n}}

s:標本標準偏差
n:自由度(サンプルサイズ)

 この値の導出についてはここでは省略するが、(1)式にかなり似ていることがわかるであろう。この数式の根拠は標本平均は母平均と等しく、標本分散は母分散÷サンプルサイズと等しい、つまり、t分布はN( \mu , \cfrac{\sigma^2}{n})正規分布に従うことを示すところからきている。 

この式から、標本平均・標本分散・サンプルサイズが分かればそこから母平均を推定できる。あくまで推定である。t分布において、上位(下位)5%を境界値として、その範囲内に母平均が収まることを導出する。話が脱線しそうなのでここでは詳細な例などは省略する。

仮説検定

そしてこの仮説検定こそが一番やりたいことなのだが、これが超とっつきづらい。統計学における妥当性を示す過程においては、そのままいっていることを示せば良さそうなのを、あえて背理法で示す。もちろんそのまま言っている通り検証できるパターンもないわけではないのだが、一般的に背理法を用いた仮説検定を行う。

そして、ここで行いたい検証というのは「観測している事象が偶然かいなか」を検証したいためである。そして仮説検定において示したいのは「偶然である」ということなのである。

具体的な例をあげる。とあるファンド30本の平均リターンが3.2%で、その標本標準偏差が6.7%の時、あるファンドマネージャーが運用しているファンドのリターンは5.8%のパフォーマンスであった。このファンドマネージャーの力量は凄いのだろうか?ということを確認したい。

これに至るアプローチとしては、まずこの5.8%のリターンというのは偶然的に高い数値なのか、それとも誤差と言えるレベルでまぁそういうこともあるよね、となるのかを考える。

この時、以下のように仮説を立てる。

H_{0} : \mu =3.2 \% ・・・帰無仮説
H_{1} : \mu >3.2 \% ・・・対立仮説

もともとの命題は平均リターン3.2%に対して5.8%は高すぎるか?という話であったが、ここで立てている仮説は5.8%というリターンに対して、平均リターン3.2%は妥当か?という逆の観点である。これを帰無仮説として定義し、これを否定することで対立仮説の正しさを証明する。これこそが背理法を用いて検証する理由となる。

なぜこんなことをするかというと、A=Bの形で検証するのは数学的に計算で示せるが、"高い"ということを数学的に検証するのは難しいためである。(もし、A>Bの形で統計学的に示そうとすると、5.7%なら高い?5.69%なら?5.68%なら?と、際限なく検証していかないといけない。)

で、その偶然性というのは有意水準を元に決定する。有意水準は5%だったり1%だったり10%だったりするが、いずれにせよこれは恣意的に決められる。「こうこうこういう理論に基づき5%と定める」とかそういうのではなく、「まぁ5%なら偶然と言えるんじゃね?」という感覚である。

なお、ここでは有意水準を5%とする。そうすると表より、5%の水準は自由度n-1=29よりt=1.6991となり、これと、5.8%のリターンで算出したt値を比較する。具体的には

\cfrac{ 5.8 - 3.2 }{6.7/\sqrt{30}}  ≒ 2.1254

これより、t値は5%水準1.6991を大きく超えた2.1254のため、偶然と言えるレベルの範囲に達しているということを示す。つまり、平均リターンが3.2%の時、5.8%というリターンは誤差の範囲を超えてもはや偶然のレベルの高さ(=有意に高い)であるということを示すので、当初の命題(帰無仮説)は正しくないことを表す。その結果、背理法的に対立仮説が成立する、つまり、「平均リターンが3.2%より高い状態ではないと、5.8%なんてリターンは普通起きない」というのが成立する。

そして、これを定性的に解釈する。「5.8%のリターンは偶然でした」という結論とするのではなく、「平均リターン3.2%の状況下で5.8%のリターンを叩き出したというのは、このファンドを運用したファンドマネージャーがそれだけ力量があり、普通起きないレベルでの高い数値を出すことができた」という具合である。 

※ちなみに、逆算してt=1.6991の時のリターン値を求めると、[1.121%, 5.278%]と算出される。つまりこのレベルなら誤差の範囲内でよくあるリターンということを示すことになる。

 証券アナリスト二次試験の問題においては、都合よくnがいくつだとか標本分散がいくつだとかが明示化されず、t値が与えられてそこから標準誤差を算出するような式変形となるため、その出題のされ方に少々戸惑ってしまう。しかし、上記仮説検定の内容が頭に入っていれば十分対応できるであろう。

参考文献

やはりこの本は良書である。

はじめての統計学

はじめての統計学

  • 作者:鳥居 泰彦
  • 発売日: 1994/01/01
  • メディア: 単行本