『入門・社会統計学』第11章

　第11章　主成分分析(PCA)と（探索的）因子分析(EFA)

1-1　データが有する情報量の次元の縮約

　ここでも引き続きデータフレイム名はdata01としておく。まずは使用する変数の度数分布から，欠損値処理が必要かどうかを確認し，必要なものは処理をする。

# 欠損値の指定
table(data01$q0101, useNA="always")
table(data01$q0102, useNA="always")
table(data01$q0103, useNA="always")
table(data01$q0200, useNA="always")
table(data01$q0301, useNA="always")
table(data01$q0302, useNA="always")
table(data01$q0401, useNA="always")
table(data01$q0402, useNA="always")
table(data01$q0403, useNA="always")

data01$q0103[data01$q0103 ==9] <- NA
data01$q0200[data01$q0200 ==7] <- NA

　次に，使用する変数だけ取り出してオブジェクトvarsに纏めておき，そこから完備ケース分析用にケース選択したvarsを作成する。

# ここでは，使用する変数だけを取り出してまとめておく
vars0 <- cbind(data01$q0101, data01$q0102, data01$q0103,
data01$q0200, data01$q0301, data01$q0302,
data01$q0401, data01$q0402, data01$q0403)
vars <- vars0[complete.cases(vars0),] # 完備ケース分析の準備

こうすれば主成分分析は簡単に出来る。

(pr1 <- prcomp(vars, scale=T)) # 主成分分析を実行して結果を表示

scale=Tというオプションは元の変数を標準化するというオプションである。標準化の関数がscale( )であったことを思い出そう。prcomp( )関数のデフォルトはscale=Fであり，明示的に指定しないと標準化されない。標準化をしないと元の変数の単位や散布度の違いによって結果が影響される。元の変数の散布度の違いも重要であるならばそれでも良いが，ここでの分析例のようにそもそも単位がまったく違ったり散布度の違いが重要でない場合は，明示的にscale=Tとすることが必要である。scale=Fが分散共分散行列の固有値分解に，scale=Tが相関係数行列の固有値分解に対応する。

names(pr1) # 主成分分析の結果に含まれる情報名を確認
pr1$sdev^2 # 標準偏差を二乗して分散（＝固有値）を求める。
eigen(cor(vars)) # 相関係数行列を固有値分解すると，主成分分析の結果と一致する。

1-2　主成分の選出

1-3　主成分と元の変数の関係の解釈

2-1　潜在変数(latent variable)から観測変数(observed variable)への影響

2-2　因子の選出

　変数群vars1を固有値分解した結果の固有値のスクリープロットを，色々と装飾しながら描いてみる。赤が各因子の固有値の大きさ，青は累積割合である。

# 変数群vars1の相関係数行列を固有値分解した固有値（分散）の値
eigen(cor(vars1))$values
# その固有値の累積割合を計算してヴェクトルに格納
cum.prop <- cumsum(eigen(cor(vars1))$values)/sum(eigen(cor(vars1))$values)
cum.prop

# 各固有値のグラフ
plot(eigen(cor(vars1))$values, type="b",　family="serif", col="red",
xlab="因子番号", ylab="固有値", main="9変数の固有値分解の結果", yaxt="n")
axis(side=2, col="red", col.axis="red", family="serif")
abline(h=1, col="red") # 固有値1以上の基準線
par(new=T) # グラフの重ね描き
# 固有値の累積割合のグラフ
plot(cum.prop, type="b", col="blue", axes=F, xlab="", ylab="",
pch=4, lty=2)
axis(side=4, col="blue", col.axis="blue", family="serif")
abline(h=.6, col="blue", lty=2) # 累積割合60%の基準線

パッケイジ"psych"のfa.parallel( )関数による平行分析

　適切な因子数を決定する為に，やや専門的な「平行分析」を行ってみる。パッケイジpsychが必要になるので，インストールしていなければ，install.packages("psych", repos="http://cran.ism.ac.jp/") などとしてインストールする必要がある。既にインストールしてある場合には，library(psych)としてパッケイジを有効化するか，或いは以下の様にダブルコロンを用いてパッケイジの中の特定の関数だけを呼び出す。この分析は乱数を発生させて，乱数の相関係数行列を固有値分解した結果と比較する為（

清水裕士「因子分析における因子数選択のための基準」2012年5月23日），場合によっては何度か繰り返すうちに適切な因子数が1だけ変化する事が有り得る。この分析例では，3もしくは4の因子数が適切となった。

psych::fa.parallel(vars1, SMC=TRUE)

　また，分析のたびにグラフを出力する。PCは主成分分析の場合，FAは因子分析の場合である。赤い点線で表されているシミュレイションの結果よりも固有値が大きければ採用すべきとなる。

杉野勇 (SUGINO Isamu)　お茶の水女子大学・人間発達科学専攻・応用社会学コース担当

『入門・社会統計学』サポートウェブ

第11章　主成分分析(PCA)と（探索的）因子分析(EFA)

1-1　データが有する情報量の次元の縮約

1-2　主成分の選出

1-3　主成分と元の変数の関係の解釈

2-1　潜在変数(latent variable)から観測変数(observed variable)への影響

2-2　因子の選出

2-3　因子負荷量(factor loadings)と寄与率(contribution)

2-4　因子の解釈

発展1-1　確証的因子分析(CFA)と構造方程式モデリング(SEM)

発展1-2　構造方程式モデリングとパス解析(path analysis)

杉野 勇 (SUGINO Isamu) お茶の水女子大学・人間発達科学専攻・応用社会学コース担当

『入門・社会統計学』サポートウェブ

第11章 主成分分析(PCA)と（探索的）因子分析(EFA)

1-1 データが有する情報量の次元の縮約

1-2 主成分の選出

1-3 主成分と元の変数の関係の解釈

2-1 潜在変数(latent variable)から観測変数(observed variable)への影響

2-2 因子の選出

2-3 因子負荷量(factor loadings)と寄与率(contribution)

2-4 因子の解釈

発展1-1 確証的因子分析(CFA)と構造方程式モデリング(SEM)

発展1-2 構造方程式モデリングとパス解析(path analysis)

杉野勇 (SUGINO Isamu)　お茶の水女子大学・人間発達科学専攻・応用社会学コース担当

『入門・社会統計学』サポートウェブ　

　第11章　主成分分析(PCA)と（探索的）因子分析(EFA)

1-1　データが有する情報量の次元の縮約

1-2　主成分の選出

1-3　主成分と元の変数の関係の解釈

2-1　潜在変数(latent variable)から観測変数(observed variable)への影響

2-2　因子の選出

2-3　因子負荷量(factor loadings)と寄与率(contribution)

2-4　因子の解釈

発展1-1　確証的因子分析(CFA)と構造方程式モデリング(SEM)

発展1-2　構造方程式モデリングとパス解析(path analysis)