Simple linear regression
by Makoto Kaneko MD, MClSc (Family Medicine), PhD (Medicine)
今回はLinear regression/Analysis of Varianceという授業の事前課題
①Comparing several groups using analysis of variance.
https://www.ncbi.Notes: Comparing several groups using analysis of variance.nlm.nih.gov/pmc/articles/PMC2351202/
②Multiple significance tests: the Bonferroni method.
③Simple linear regression in medical research
④Points of Significance: Simple linear regression
の4つが取り上げられています。
①では3群以上の平均を比較したい時に用いるANOVA(分散分析)の考え方について説明されています。
分散分析については
も非常に分かりやすいです。
「3群ある時に2群ずつ比較して有意差があるかを見る」ということは多重比較になってしまうので行わない、というところから②に繋がります。
②は多重比較とボンフェロー二法の紹介です。
多重比較というのは検定を繰り返し行うことを指しており、検定を多く行えば行うほど偶然帰無仮説が棄却される可能性が高くなります。それを防ぐための方法の一つがボンフェローニ法で有意水準(通常は0.05が良く用いられます)を検定数で割ったものを新たな有意水準として適用する、というものです。α=0.05で20回検定するとしたら0.05/20=0.0025を新たな有意水準としてそれぞれの検定に適用します。従ってより保守的な(有意になりにくい)値を設定することになります。
③と④はsimple linear regressionの話題で、これは次回以降のmultivariable linear regressionやlogistic regressionの導入となっています。
ここでは2つの変数(xとy)の関係を直線で表す場合のことを考えます。
simple linear regressionでは両者の関係は
y=切片+傾き × x
で表されます。
大きくは下記の3つの使い方があるとされています。
・予測:xの値からyを予測したい(xが1動くとyがいくつ動くか)simple linear regressionの最も一般的な使い方だと思います。
・相関:これはどちらが原因でどちらが結果という区別はなく、一方が増えるともう一方も増える、あるいは一方が減るともう一方が減る、という様な関係性がある場合を指します。
・要約:これはシンプルにxとyの関係性を式で表すことを指しており、原因や結果を念頭に置いたものではありません。
基本的には一番最初の「予測」を目的としてliner regressionが用いられることが多いと思います。統計ソフトの普及によって計算自体は簡便に行えるようになりましたが、正しく検定を行い、解釈するために必要なステップが取られていない場合もあります。以下に③に記載されていたlinear regressionを用いる際のステップについて紹介します。
linear regressionを用いるための3つのステップ
- まずは図示してみる:いきなり解析したり、要約統計量だけを見たするのではなく、散布図などの形でプロットしてみて、外れ値が無いか、線形になっているかなどを確認することが重要です
- 残差をプロットしてみる:式から得られたyの値と実際に観測されたyの値を残差(residuals)と言います。残差が正規分布していたり、等分散であったりすることがlinear regressionの前提となっているので確認が必要となります。
- 論文に記載する時は最終的な結果だけでなく、読者が後から同じ作業をするのに必要な情報を過不足なく記載する