詳細説明

このページは 2007年 10月 09日 03時12分44秒 にクロールしたキャッシュ情報です。


検索キーワード= ジャニーズ
優先キーワード= 山田涼介

相関とは?

[ 28] 相関分析
[引用サイト]  http://www.find.takushoku-u.ac.jp/staff/aratame/method/corr.html

二つの連続的変数の間の関係を調べる方法として最も基本的かつ重要な手法が散布図を描くことです。エクセルで散布図を描くときには、挿入メニュー、グラフから散布図を選びます。
これに対して、カテゴリー変数(非連続・質的変数)の場合は散布図を描いても値が散らばらないため、パターンがよく分かりません。そのためカテゴリー変数間の関係を調べるときにはクロス集計をよく用います。以下、一人あたりGNPと乳児死亡率の以下の例を用いて説明します。
相関係数はXとYの共分散(Sxy)をXの標準偏差(Sx)とYの標準偏差(Sy)の積で割ったものです。
Xの偏差とYの偏差が同時に正(すなわち両方とも平均値より大きい場合)、および同時に負(すなわち両方とも平均値より小さい場合)には正の値をとり、
Xの偏差が正でYの偏差が負、もしくはXの偏差が負でYの偏差が正の場合には負の値をとり、
またX、Yをグラフに書くと、偏差積和の絶対値が大きな値をとる傾向が強い場合、XとYの間に直線的関係があることが明らかになると思います。
ただし、以上の傾向は、ケース数が増加するにつれ偏差積和も増加する傾向があるため、偏差積和の増加が相関の度合いの増加を示しているのか、ケース数の増加に由来するのか分かりません。そこで、ケース数(n)で割って偏差積和の平均を求めたものが共分散です。すなわち、共分散とは偏差の積、すなわち偏差積の総和(すなわち偏差積和)を計算し、その平均を計算したものです。このように共分散 Sxyとは、基本的には、平均値を基準とした場合のXとYのペアがどのように変化するか、その方向と強さをを示した値です。
ただし共分散はデータの単位によって大きさが大きく変化するため、2変数の直線的関係を測る尺度としては、余り適当ではありません(ためしにエクセルのシートで単位を10倍にして共分散の値がどう変化するか試してみてください)。そこで、Xの標準偏差SxとYの標準偏差Syの積で割り、標準化したものが相関係数です。
相関係数は2変数の間の直線的関係の強さを示すものです。ただし、二変数の間に散らばりがあることが前提です。
2変数の間に相関がないことは、必ずしも本当に「関連がない」ことを示しているとはいえません。先に示したように、相関係数が1の場合には、2変数の間に完全な直線的関係があることを示しています。しかし、関係の形は直線だけであるとは限りません。もし曲線的な関係がある場合には、それがどんなに重要かつクリアーな関係であっても、前述の相関係数で把握することはできません。
また、相関係数が大きいこと、またプラス、マイナスの方向性を示していることが、必ずしも相関の度合い、方向を正しく反映しているとは限りません。例えば、次のデータを見てください。
このデータは、競合する商品AとB(例えば、キリンビールとサッポロビール)の売上高を示したものです。単純に相関係数を計算すると、r=0.499となり、Aが増加するとBも増加することを示唆しています。しかし都市規模別にグラフに描くと、それぞれどちらかというと負の相関関係の存在することを示唆しています。(皆さんも試してみてください。)
これは、AとBは第3の変数、人口、と正の関係を持っており、人口数が大きくなると売上高が大きくなるため、AとBの相関を直接はかると、正の相関が出てしまうためです。このような場合には、第3の変数の影響をコントロールする必要があります。もっとも簡単な方法は、

 

リンク