相関分析をPythonで行う
以前の投稿で、相関係数についてまとめたことがある。2つの量的変数を対象に、その2つがどれだけ(計算上は)関係性があるかを示してくれる数値である。
今回は、この相関係数を出力するコードをまとめておく。
# 必要なライブラリのインポート
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# データの読み込み
df = pd.read_csv('data.csv') # 'data.csv'をデータファイルのパスに置き換えてください
# 相関行列の作成
corr_matrix = df.corr()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm')
plt.title('Correlation Matrix')
plt.show()
しかし,以前にもまとめたが相関係数が高いことと実際に関係があるかは別の観点で考えなくてはならないことは留意が必要である.
相関係数はあくまで数値としての計算上出るものであり,それはつまり数値がそういうデータならば機械的に相関があると出力してしまうことになる.