2016年4月3日日曜日

データアナリストへの道:その1 クラスター分析を(久しぶりに)やってみる

データアナリストには二つのキャラクタータイプがあるそうで、1つはコンサル型、もう一つはエンジニア型だとか。所属や企業によるのですが、どちらも兼ね備えている人は少ないし高いし、で個別にアサインされることが多いのではないかと思います。
コンサル型であっても技術知識は必要でして、データを出されたときに「このデータの分析視点や軸は合っているの?」という前提条件を理解しないと、出発点からして間違うことになるからです。

私は分析のスキルセットが極薄なのと、もともとの指向性がコンサル型だと思い込んでいるのですが、せっかくのデータを前に「理解不能」という状況にならないために、少しづつ「おさらい」をしていく予定です。

その1は「クラスター分析」です。
ECのレコメンドシステムやダイレクトメールマーケティングによく使われている分析手法のひとつで、膨大なデータの母集団をグル―ピングします。

久々にRを起動し、デタラメデータでやってみました、クラスター分析。テーマは・・・「会社の人たちのクラスタリング」!! データは嘘データなのですが、評価軸は客観性の高いものを揃えてぶっこんでみました。ポジション、勤務年数、業務などですね。

凍り付いたRの操作方法のおさらいは、下記サイトを参考にしました。分かりやすくて感謝です。
http://bio-info.biz/tips/r_hclust.html

結果はこちら! ↓↓
【豆知識】
下の図は「デンドログラム」といいまして、 並び順で近いもの同士ほど似ているグルーピングとなります。



クラスター分析では、各要素の距離を測るアルゴリズムが複数あって、試行錯誤が必要なのですが、上記はウォード法です。
そして、何種かのアルゴリズムを試してみても変更がないクラスターがありまして「なるほどなあ~~~」と感心した次第です。データの精度が低すぎるわりになかなかR、空気読む子だな!



さて、これはあくまでもデータのアウトプットであり、 この結果を見て分析をすることが本筋です。
それを解説することは諸事情から控えるとして(なぜww) 、私の想像に近いものに落ちました。


データってやっぱり面白い!