2015-05-10

テキストマイニング

仕事でテキストマイニング実装することになりそう。

久しぶりにMeCabと戦う。が、
今使ってる自宅PCになぜかMeCabがはいらない。

> install.packages ("RMeCab", repos = "http://rmecab.jp/R")
Warning in install.packages("RMeCab", repos = "http://rmecab.jp/R") :
'lib = "C:/Program Files/R/R-3.2.0/library"' は書き込み可能ではありません
URL 'http://rmecab.jp/R/bin/windows/contrib/3.2/RMeCab_0.9999.zip' を試しています
Content type 'application/zip' length 1648705 bytes (1.6 MB)
downloaded 1.6 MB
パッケージ ‘RMeCab’ は無事に展開され、MD5 サムもチェックされました
ダウンロードされたパッケージは、以下にあります
C:\User\AppData\Local\Temp\RtmpeGv1R3\downloaded_packages

警告が出てしまっていて、
インストールがうまくできていない...。
ぐぐったら、どうも「AppData」ってとこに入っちゃったのがNGっぽい。

R、パッケージのインストールについて -Rのパッケージをインストールで- その他（プログラミング・Web制作） | 教えて!goo

管理者権限ならいけるかも、とのことだったので、
試しにやってみたらできた！

なるほどねー。

勉強になりました。

2015-03-08

最適化問題

先日、データ解析コンペティションのOR部会で発表してきました。
準備足らなさすぎて、資料も体もぼろぼろでしたが、
どうにか当日は迎えられました。
内容はひどかったけど…。

弊社の通常業務を、
通常通りにやりながら研究を進める事が、
どれだけ難しいかをとりあえず体感しつつ。
やはり研究は楽しいなと実感。
次回リベンジを心に決めました。ね。

今回トライしたのは、
POSデータを使った品揃え最適化のためのモデル構築。

２つの方向で試みて、
結果どちらもうまいこと出ずに終わってしまった…。

試み１）項目反応理論
試み２）最適化問題

私は２の最適化問題からアプローチ。
モデルの方向性としてはよかった、
というか絶対うまくいくはずのモデルなんだけど、
Rでうまくそれが実装できずに終わってしまった。

どうしたらあれをそのままRで実装できたんだろう…。
というよりもRのパッケージを使うんじゃなくて、
自分で０から組んだ方が早かったのだろうか…。

考え方は下記の通り。

使用するデータ

　・同一チェーン６店舗のPOSデータ

使用する変数（店舗Aにおける売り上げ最大化の場合）

　・店舗Aにおけるブランド別売り上げ本数
　・全店におけるブランド別売り上げ本数シェア
　　→全店におけるシェア＝ブランド別の売り上げポテンシャルと捉える
　・ブランドの平均販売価格（１本あたり）

目的関数（最大化）

　店舗Aにおける売り上げ＝ブランド別販売本数（x）× ブランド別平均販売価格 × 全店におけるブランド別売り上げ本数シェア

制約条件

　・店舗Aにおける陳列ブランド数は現在のブランド数と同じもしくは少ない
　・ブランド別販売本数（x）は０以上の整数値

x初期値

　・店舗Aの現在の販売本数

うまく実装できなかったことも原因だと思うけど、
そもそもこの式のままではxが初期値からほぼ動かずに収束してしまう。
全店におけるブランド別売り上げ本数シェアを、
各ブランドの売れるポテンシャルと捉えて変数を使用しているけど、
そこの影響度が低いのだろうか。

まだまだ試行錯誤が必要？
というよりもそもそも最適化問題の知識をしっかり押さえてないのが問題？

引き続き、勉強します。

2014-09-28

項目反応理論

今日の勉強。

項目応答理論（こうもくおうとうりろん）または項目反応理論（こうもくはんのうりろん）、略称IRT (Item Response Theory; Item Latent Theory) は、評価項目群への応答に基づいて、被験者の特性（認識能力、物理的能力、技術、知識、態度、人格特徴等）や、評価項目の難易度・識別力を測定するための試験理論である。
項目応答理論 - Wikipedia

TOEICやITパスポート試験などに使われている分析手法。
みんなが解けない問題を解けたほうがすごい。的なこと。

ただし、問題の難易度と配点の高低の相関関係の考え方（仮説）は二つあるらしい。

問題の難易度が高い程、配点が高くなる関係がある
問題の難易度が低い場合は配点が低くなり、逆に問題の難易度が高い（正答率が偶然に正答する確率と同一）場合も配点が低くなる関係がある

IRTではテストの一元性が保障されている必要があるので、事前に確認する必要がある。
※一元性とは、すべての変数が一つの主成分で説明できる状態のこと。

今日はここまで。

2014-09-28

復活したい

Diary

そろそろ復活させたい
勉強用ノート。

今年はついに
データ解析コンペティションにもでるし。

ちゃんと勉強再開しよう。

今日は今からこの二冊をまとめる。
※社内PJ用だけども。
読み込んだ本だから、多分すぐに終わる...はず。

マーケティングリサーチの論理と技法第4版

作者: 上田拓治
出版社/メーカー: 日本評論社
発売日: 2010/03/20
メディア: 単行本
購入: 8人クリック: 10回
この商品を含むブログ (2件) を見る

購買心理を読み解く統計学―実例で見る心理・調査データ解析28

作者: 豊田秀樹
出版社/メーカー: 東京図書
発売日: 2006/06
メディア: 単行本
クリック: 3回
この商品を含むブログ (7件) を見る

あとこれも読んでみた。
流行もん。

データサイエンティストの仕事術（日経BP Next ICT選書）

作者: 日経情報ストラテジー
出版社/メーカー: 日経BP社
発売日: 2014/07/03
メディア: Kindle版
この商品を含むブログ (1件) を見る

最後の数ページだけよかった。

2014-09-28

SEMの不適解

R 統計学

不適解が出てしまった時の対処。

不適解とは、
　・推定値の絶対値が1以上
　・誤差分散が撹乱項の分散が0やマイナス
など。

これらは一般に論文には出せない。

ただし「サンプル変動による不適解」と判断できれば、
論文に載せることも不可能ではない。

参考。
http://ssjda.iss.u-tokyo.ac.jp/seminar2002_2a.pdf
http://homepage2.nifty.com/nandemoarchive/sem/futekikai.htm

2013-11-07

共分散構造分析２

R 統計学

昨日に引き続き、共分散構造分析の勉強。

Rでsemパッケージがうまくいかないので、今日はlavaanパッケージと格闘。

2．lavaanパッケージ

使い方は、semパッケージとあんまり変わらない。
ただ、モデルの記述方法が違う。

モデルの記述方法

=~ 潜在変数の定義
~ 回帰（右辺：説明変数/左辺：目的変数）
~~ 残差共分散（相関）

スクリプト例

# 入力用データ
dat <- read.csv("入力ファイル.csv", header=TRUE, row.names=1)
# 入力データの標準化　
dat2 <- data.frame(scale(dat))

# モデルの定義
model1 <-
'
# 潜在変数の定義
adv =~ webadv + magadv + tvcm
kpr =~ tvnews + newspaper + magazine + webnews + sns
# 回帰式
ikou ~ adv + kpr
jittai ~ ikou
# 残差（共分散）
webadv ~~ webnews + sns
magazine ~~ magadv
tvcm ~~ tvnews
'
# 実行
fit <- sem(model1, data=dat2, mimic="EQS")
# 出力
summary(fit, fit.measures=TRUE, standardize = TRUE)