モデルに基づいたクラスター分析

モデルに基づいたクラスター分析

http://mjin.doshisha.ac.jp/R/29/29.html
を参考にやってみた

mclustパッケージをダウンロード

まず書かれているように
plot(EMclust)
ってやったけどエラー

どうやらmclustパッケージに
EMclustは今入っていないらしい

最適なモデルとクラスター数を推定する
他の方法を探したところ,
mclustBIC()という関数を使って出力することができた

> dataBox[1:10,]
level sd b_count
1 1 2.1213203 1
2 3 5.6568542 4
3 3 0.7071068 1
4 3 0.7071068 2
5 3 0.7071068 1
6 3 0.7071068 1
7 3 3.5355339 2
8 1 7.7781746 2
9 1 0.7071068 1
10 2 0.7071068 1
#levelはfactor型
> resBIC<-mclustBIC(dataBox)
> resBIC

BIC:
EII VII EEI VEI EVI VVI EEE
1 -4888.486 -4888.486 -4098.916 -4098.916 -4098.916 -4098.916 -3904.991
2 -4121.385 -3446.235 -3659.491 -3330.219 -3549.513 -3133.444 -3657.563
3 -3846.101 NA NA NA NA NA NA
4 -3870.095 NA NA NA NA NA NA
5 -3894.099 NA NA NA NA NA NA
6 -3849.553 NA NA NA NA NA NA
7 -3873.551 NA NA NA NA NA NA
8 -3732.823 NA NA NA NA NA NA
9 -3710.579 NA NA NA NA NA NA
EEV VEV VVV
1 -3904.991 -3904.991 -3904.991
2 -3773.685 -2454.184 -3113.267
3 NA NA NA
4 -3574.007 NA NA
5 NA NA NA
6 NA NA NA
7 NA NA NA
8 NA NA NA
9 NA NA NA

> plot(resBIC, G = 1:7, ylim = c(-3000,-5000), legendArgs = list(x = "bottomright", ncol = 5))

(出力)

> mhc<-hc(modelName="EEE",data=dataBox)
> cl<-hclass(mhc,4)
> cl[1:10]
[1] 1 2 3 3 3 3 2 2 3 3

参考URL
http://www.stat.washington.edu/research/reports/2012/tr597.pdf


他のrandamLCA()とかlca()は
使用例に1/0データしかなかったけど

この関数は例でiris使ってるから
参考 irisデータセット
R言語で統計解析入門: 操作:データセット「iris」の解析とグラフ作成 梶山 喜一郎

てことでこれなら量的データ使えるのかなーとか.
ついでに因子データも入れちゃったんだけど
果たして大丈夫なのかなw

でも
http://www.m-te.com/conjoint3/index.html
には質的・量的変数に用いることができる

って書いてあったし,
どっかでも併用している例があったから
大丈夫だとは思うんだけど
このパッケージが対応してないとかあるかも...

ただこれだとクラスター数1が最適...
結局だめなんじゃないかーっていう(´ ` )

でもとりあえずだけど
クラスター数4でやってみたら
なんとなくいい感じのクラスタリングはできた

でもこんな
あいまいな感じで
結果出すわけにはいかんよー

まだまだ調べなきゃ.