ファイ係数(Phi coefficient)は、2つの二値変数(2×2分割表に表されるカテゴリ変数)間の関連の強さを表す統計的指標です。これは相関係数の一種であり、二値データ版のピアソンの積率相関係数とみなすことができます。φ係数は、0から1までの範囲で変化し、0は「全く関連がない」、1は「完全な関連」を意味します。符号(正負)を持つこともあり、正の値は正の関連、負の値は負の関連を示します。
φ係数は、2×2のクロス集計表に基づく統計的効果量(effect size)としても広く利用されており、カイ二乗検定(χ²検定)の結果と密接に関係しています。たとえば、中央値検定やマクネマー検定のようにχ²統計量が算出される場面で、効果量の報告としてφ係数が用いられることが一般的です。
ファイ係数の定義
ファイ係数は、2×2分割表の4つの度数(セルの観測値)から次の式で定義されます。
| 変数B=1 | 変数B=0 | 合計 | |
| 変数A=1 | a | b | a+b |
| 変数A=0 | c | d | c+d |
| 合計 | a+c | b+d | N=a+b+c+d |
このとき、ファイ係数 φ は以下の式で定義されます。
$$
\phi = \frac{ad – bc}{\sqrt{(a+b)(a+c)(b+d)(c+d)}}
$$
ここで、a,b,c,dは各セルの観測値、Nは総サンプルサイズです。φ係数はピアソンの相関係数と同様の構造を持ち、−1から+1の範囲で値をとります。
ファイ係数とカイ二乗統計量の関係
φ係数は、χ²検定(カイ二乗検定)と密接に関係しています。特に2×2分割表の場合、次の関係式が成立します。
$$
\phi = \sqrt{\frac{\chi^2}{N}}
$$
ここで、χ²はカイ二乗統計量、Nはサンプルサイズ(全体の観測数)です。この式により、χ²検定を実施した結果から容易にφ係数を計算することができます。
ファイ係数の理論的背景
φ係数は、2つの二値変数 X と Y のピアソン相関係数に対応します。ピアソン相関係数は一般に次式で定義されます。
$$
r_{XY} = \frac{cov(X,Y)}{\sigma_X \sigma_Y}
$$
ここで、cov(X,Y)は共分散、σ_X, σ_Yはそれぞれの標準偏差です。2つの変数が0または1しか取らない二値変数の場合、この式は簡略化されてφ係数と同値になります。
前提条件
- 変数が二値(2カテゴリー)であること(φ係数は2×2分割表に限定されます)
- 観測が独立していること(同一被験者の繰り返し測定では不適切)
- 十分なサンプルサイズ(各セルの期待度数が5未満の場合は注意)
ファイ係数の範囲と解釈
φ係数は −1 から +1 の範囲の値をとります。
| φの値 | 解釈 |
|---|---|
| +1 | 完全な正の関連 |
| 0 | 無関連 |
| −1 | 完全な負の関連 |
実際には0〜0.7程度の範囲に収まることが多く、周辺度数により±1に達しない場合もあります。
効果量としての解釈基準
| φ | 効果の大きさ |
|---|---|
| 0.10 | 小さい効果 |
| 0.30 | 中程度の効果 |
| 0.50 | 大きい効果 |
φ係数の計算手順
- データを2×2のクロス表にまとめる。
- 各セルの観測度数 a,b,c,d を求める。
- 次式でφを計算する。
$$
\phi = \frac{ad – bc}{\sqrt{(a+b)(a+c)(b+d)(c+d)}}
$$ - または、χ²統計量が既に得られている場合は以下の式を用いる。
$$
\phi = \sqrt{\frac{\chi^2}{N}}
$$
実例1:喫煙と肺疾患の関連
次の2×2表を考えます。
| 肺疾患あり | 肺疾患なし | 合計 | |
| 喫煙者 | 40 | 60 | 100 |
| 非喫煙者 | 10 | 90 | 100 |
| 合計 | 50 | 150 | 200 |
$$
\phi = \frac{40\times90 – 60\times10}{\sqrt{(40+60)(40+10)(60+90)(10+90)}} = \frac{3000}{\sqrt{100\times50\times150\times100}} = \frac{3000}{8660.25} = 0.346
$$
φ=0.35であり、中程度の正の関連があると解釈されます。
実例2:広告接触と購入行動
| 購入した | 購入しない | 合計 | |
| 広告を見た | 45 | 55 | 100 |
| 広告を見ない | 20 | 80 | 100 |
| 合計 | 65 | 135 | 200 |
$$
\phi = \frac{45\times80 – 55\times20}{\sqrt{(45+55)(45+20)(55+80)(20+80)}} = \frac{2600}{\sqrt{100\times65\times135\times100}} = \frac{2600}{9393.97} = 0.277
$$
φ=0.28であり、広告閲覧と購入行動には小〜中程度の関連があると判断されます。
実例3:治療法と症状改善の関係
| 改善あり | 改善なし | 合計 | |
| A法 | 70 | 30 | 100 |
| B法 | 55 | 45 | 100 |
| 合計 | 125 | 75 | 200 |
$$
\phi = \frac{70\times45 – 30\times55}{\sqrt{(70+30)(70+55)(30+45)(55+45)}} = \frac{1500}{\sqrt{100\times125\times75\times100}} = \frac{1500}{9682.5} = 0.155
$$
φ=0.16であり、効果は小さいと判断されます。
φ係数の符号の意味
φ係数は正の値として報告されることが多いですが、セル配置によっては負の値を取る場合もあります。負の値は「一方の変数が高いとき、もう一方が低い傾向」を示します。
| 成功 | 失敗 | 合計 | |
| 新手法 | 10 | 90 | 100 |
| 旧手法 | 90 | 10 | 100 |
$$
\phi = \frac{10\times10 – 90\times90}{\sqrt{(10+90)(10+90)(90+10)(90+10)}} = \frac{-8000}{10000} = -0.8
$$
φ = −0.8 となり、強い負の関連があることを示します。
φ係数とクラメールのVの関係
φ係数は2×2表限定の指標ですが、クラメールのVは任意のk×m表に拡張したものです。クラメールのVの定義式は次の通りです。
$$
V = \sqrt{ \frac{\chi^2}{N(k – 1)} }
$$
ここで、kは行数、mは列数です。2×2表のときは \( k – 1 = 1 \) となるため、φ係数と完全に一致します。
$$
V = \sqrt{ \frac{\chi^2}{N} } = \phi
$$
したがって、φ係数はクラメールのVの特別な場合(k=2, m=2)と位置づけられます。
φ係数とオッズ比の関係
φ係数はオッズ比(odds ratio, OR)と密接な関係を持ちます。オッズ比は2つの事象の発生確率の比を表し、次式で定義されます。
$$
OR = \frac{ad}{bc}
$$
φ係数との関係は単調増加であり、以下のように近似的関係が成り立ちます。
$$
\phi \approx \frac{\log(OR)}{\sqrt{ \pi^2 / 3 + (\log(OR))^2 }}
$$
オッズ比が大きくなる(つまり関連が強くなる)とφ係数も大きくなります。ただし、非対称な分割表ではφが±1に達しないため、単純な変換はできません。
φ係数の信頼区間推定
φ係数の点推定値だけでなく、信頼区間(confidence interval, CI)を求めることで、推定の不確実性を評価できます。φ係数の分布は正規近似に基づいて以下のように求められます。
$$
SE(\phi) = \frac{(1 – \phi^2)}{\sqrt{N – 1}}
$$
95%信頼区間は次式で表されます。
$$
\phi \pm 1.96 \times SE(\phi)
$$
この近似はNが十分に大きい場合に有効です。サンプルサイズが小さい場合にはブートストラップ法による信頼区間推定が推奨されます。
φ係数の利点と限界
利点
- 直感的に理解しやすい(−1〜1のスケール)
- χ²検定から容易に算出できる
- 効果量として広く認知されている
- ピアソン相関係数と同様に対称的
限界
- カテゴリ数が2以外の場合は使用できない
- 行列の不均衡(周辺度数の偏り)で値が歪む
- 最大値が±1に達しない場合がある
- 名義変数の関係には限定的
このため、3×3以上のクロス表ではクラメールのVを使用するのが一般的です。
φ係数の応用分野
ファイ係数は非常に幅広い分野で利用されています。
- 医学研究:曝露(喫煙、薬剤投与)と疾患の関連
- 教育研究:教育法と合格率の関連
- 心理学:刺激条件と反応結果の一致率
- マーケティング:広告接触と購買行動
- 社会調査:意見態度と行動傾向の関連
これらの分野では、p値による有意性検定に加えて、φ係数を併記することで、統計的有意性と実質的効果を併せて評価することが推奨されています。
φ係数と効果量の報告の意義
近年、APA(American Psychological Association)などの学術ガイドラインでは、単にp値の有意・非有意を報告するだけでなく、効果量(effect size)を報告することが強く推奨されています。
φ係数はその中でも、名義尺度の2値変数に対する代表的効果量として位置づけられています。
研究報告においては次のように記述するのが望ましいとされています。
χ²(1) = 12.4, p < .001, φ = 0.25 (中程度の効果)
このように報告することで、統計的に有意であるだけでなく、関連の実質的な強さを明示できます。
φ係数の注意点と実務上の解釈
- 周辺度数の偏りに注意
片方のカテゴリが極端に少ない場合、φ係数は小さく見積もられやすくなります。 - 対称性の理解
φ係数は対称指標であり、変数の順序を入れ替えても値は変わりません。 - 効果量の解釈は相対的
φ=0.3が心理学では中程度でも、医学では大きいとみなされることがあります。 - サンプルサイズ依存性
χ²統計量とは異なり、φはサンプルサイズに依存しませんが、サンプルが極端に小さいと信頼性が低下します。
φ係数の発展的トピック
名義変数の多カテゴリー化への拡張
2×2表でなく3×3以上のカテゴリデータの場合、クラメールのVまたはピアソンの相関比(η)を用いることが一般的です。
二値変数の重回帰モデルとの関係
φ係数が高い2値変数同士の関係は、ロジスティック回帰モデル(logistic regression)における独立変数間の相関構造として問題になる場合があります(多重共線性)。
φ係数の偏り補正
サンプルサイズが小さい場合、φは過大推定されることがあります。その補正として、バイアス修正φ(φc)が提案されています。
$$
\phi_c = \phi \times \sqrt{\frac{N – 1}{N}}
$$
まとめ
ファイ係数(φ係数)は、2つの二値変数間の関連の強さを測定するための重要な統計指標です。その数式モデルはシンプルでありながら、χ²検定やオッズ比など他の手法とも密接に関連しており、統計的有意性だけではなく、効果の実質的な大きさを表現する際に極めて有用です。
