検定力についてわかりやすく解説【統計学入門30】

こんにちは，米国データサイエンティストのかめ(@usdatascientist)です．

ついにこの統計学講座も第30回まできました．ここまで読んでいる人(どれくらいいるかな笑)は，かなり統計リテラシーがついているかと思います．

今回は前回の記事の続きで，検定力(power)について詳しく解説していきます！

（追記）全16時間の統計学動画講座を公開しました！☆4.8の超高評価をいただいている講座です．こちらの記事に講座の内容とクーポン情報を書いていますので是非チェックしてください．

検定力とは？

第1種の誤り(\(\alpha\))と第2種の誤り(\(\beta\))がトレードオフの関係にあって，同時に下げることができないことを前回の記事で解説しました．(以下再掲)(青線が帰無分布，緑線が対立分布です)

今回の記事では，もう一つ別の指標「どれだけ正しく帰無仮説を棄却し，対立仮説を成立できるか」について考えてみましょう．

仮説検定は，「帰無仮説を棄却して対立仮説を成立することを狙っている」ので，それをどれだけ正しくできるのかというのが鍵になるのはわかると思います．

この指標のことを検定力(power)と言います．(検出力と言ったりもします)

検定力は，対立仮説が正しい場合に帰無仮説を棄却する確率なので，帰無分布と対立分布の図でいうと以下のオレンジ色の部分になります．つまり，\(1-\beta\)になることがわかると思います．

表でいうと以下の部分です．

検定する際には帰無仮説を棄却することを狙っているので，この検定力が高い方が都合がよくなるわけです．(しかし，高すぎるのも問題です．この辺りも含め，今回の記事で解説していきます．)

では，この検定力が高いというのは，どういう時なのか？大きく三つあります．

1.有意水準が高い
2.サンプルサイズ(標本の大きさ)が大きい
3.帰無分布と対立仮説が離れている

それぞれみていきましょう！

検定力を高くするには？高すぎるといけない理由

まず第一に，有意水準を高く設定すると検定力も高くなります．図で見ると一発ですね．有意水準を高くするということは，それだけ帰無仮説を棄却する確率が上がるわけですから，対立仮説が成立する確率が上がります．(青線が帰無分布，緑線が対立分布です)

しかし，有意水準を高くすると出来レース的な結果になってしまうので，普通有意水準を意図的に高い数字を設定することはありません．
一般的に有意水準には5%か1%を使うので，それよりも高い水準を使うというのはそれだけ帰無仮説を意図的に棄却しやすくしているとされ，受け入れられるものではありません．

なので，有意水準\(\alpha\)を固定したうえで，どのように検定力を高められるかを考えてみましょう．

次に，サンプルサイズとの関係を見てみます．

サンプルサイズを大きくすると，帰無仮説を棄却できる可能性が高くなるのはイメージできると思います．

例えば前々回の例で，変更前後の不良品率が，標本100個のうちそれぞれ4%と5%であるのと，標本を1万個とって不良品率がそれぞれ4%と5%とでは信頼度が違いますよね？

これは図で見ても明らかです．サンプルサイズが大きくなるということは，標本分布の分散が小さくなるということです．つまり，帰無分布や対立分布が細く尖るイメージですね！なぜ分散が小さくなるかは第7回を参照してください．

つまりこういうこと↓(青線が帰無分布，緑線が対立分布です)

この時，有意水準は変わっていないところに留意してください．(今回の図では上側5%)

じゃぁ，できるだけ標本を大きくすればいいんだね！

と思う人が多いんですが，これには注意が必要です．

検定力が高すぎると，微妙な差でも有意差ありと判断されてしまうからです．(青線が帰無分布，緑線が対立分布です)

別に差があることを差があると言って何が悪いの？

まぁ確かにこれだけだと実際にある微妙な差を検出できて良いように聞こえるんですが，実際の検定の際に大標本で検定をして，微妙な差を検知して「有意差あり」と言われてもしっくりこないですよね？それってサンプルサイズが大きすぎるから，微妙な差を拾ってませんか？ってなるわけです．

最近はビッグデータでの解析が当たり前になってきたので，かなりの大標本で検定をすることが可能になってきています．例えば数万件の標本同士の平均をみて，「ほらね，有意差ありでしょ？」と言われても，もはやそれは検定の意味を成していない場合があります．数万件も標本があれば，微妙な差でも「有意差あり」と判断されてしまうからです．

さらに言うと，それだけの標本からデータを得られたのなら，母集団の差の検定をせずとも今あるデータを使って有意義な分析ができそうです．もはやそんな標本に対して差の検定をするまでもなく，実際のデータの分布と値を見れば良いケースがほとんどです．「何でもかんでも検定をしてp値を出す」というのはナンセンスです．

補足
「サンプルサイズを大きくすると，本当は差がないのに有意差がでてしまう」というのは間違えです．「本当は差がないのに有意差がでてしまう確率」は\(\alpha\)であり，これは標本の大きさに寄りません．ただ現実問題，本当に差があるのかわからない状況で検定を行う上に，本当に差がない母集団同士を検定することは滅多にないです．多かれ少なかれ，少しは差があるケースがほとんどです．(前々回の例でも，工場の生産過程を変えたなら不良品率は全く一緒にはならないよね？という期待があります．)．つまり，検定をする際には暗黙的にある程度差があるだろうけど，それって有意なの？というのを確かめたいわけです．(本来「程度差」を検定するものではないのでおかしな話ですが)．そこでサンプルサイズが大きいと，小さな差があったとしても有意差と出てしまうので「検定の結果があまり参考にならなくなってしまう」恐れがあるわけです．これが検定力が高すぎるといけない理由です．

じゃぁ，検定力はどれくらい高ければ良いの？

多くの参考書では，Cohenが提唱した0.8という数字が適切な検定力だとしています．なので，0.8になる様にサンプルサイズを調整するのが一般的です．

しかし，検定力を決める要因としてもう一つ「二つの母集団の差がどれくらいあるのか」という指標があります．つまり「帰無分布と対立分布がどれくらい離れているか」ということです．この指標のことを効果量(effect size)と呼びます．（検出したい差(効果)の量ということですね)

補足
厳密には効果量は「標準化された平均値差」です．帰無分布や対立分布は，通常標準化された検定統計量の分布であり，実際の母集団の分布を表しているわけではないので注意です．

帰無分布と対立分布が離れていれば当然検定力があがるのはイメージできると思います．明らかに差がある母集団を検定するのは，差が微小な母集団を検定するよりも簡単に帰無仮説を棄却できますからね．(青線が帰無分布，緑線が対立分布です)