解析のいろは: 10月 2013

2013年10月22日火曜日

【PickUp】ソーシャルからコマースの系譜-PinterestからSumally、FANCY、そしてOrigamiへ

ソーシャルからコマースへの系譜　PinterestからSumally、FANCY、そしてOrigamiへ（前編）【Eコマースコンバージョンラボ】　2013/7/16　ソーシャルメディアマーケティングラボ　より

Eコマースとソーシャルの接近やソーシャルコマースの事例があげられています。日本ではソーシャルコマースはまだ限定的で、あらゆる商品に適用できる方程式があるという状況ではないですが、こういう方法もあるんだなってことでピックアップしました。

日本発のサービスということでは「Origami」がユニークです。スマートフォン向けのソーシャル買い物アプリで、しかもiPhoneのみ。扱う商材はセレクトショップや百貨店などの、比較的高い価格帯の商品です。ターゲットがすごく限られてマーケットが狭い、と思うでしょう？　でも個人的にはこれはおおいにアリだと思うんです。マーケ的に見ると、市場が狭いといいつつ最初から指向性の高いユーザーが入ってくるわけですから、有象無象の中から選別するよりずっと効率がいいと思うんですね。とはいえ、多くの商品はショップや他のモールでも買える場合が多く、価格と価値のバランスをどう取るかが「Origami」の課題になるのかなと思います。今後、OtoO機能や雑誌とのタイアップをする予定があるということなので、ちょっと楽しみなのですが、いかんせんiPhoneアプリ。当方、アンドロでございます…アンドロ対応アプリ作ってください。すごい機会損失だと思うんだけど。

「Pintarest」 は日本でも今後活用される可能性が高いのではないでしょうか。キュレーションサービスの分類なんでんすが、集めて構成した画像からeコマースへの誘導が出来ます。日本では楽天、サンリオなどが導入しているようですが、これが成果を出すのはまだ先という感じです。スクラップブック好きな女子は惹かれるかもしれません。海外ではそれなりに結果が出ているようですが、日本でのユーザー数がどこまで伸びるか、というところにかかってくるでしょうか。

ところで、本題です。ええ、そうなんです。本日の隠れテーマは実は「Facebookでeソーシャルコマースやソーシャルギフトってどうなのよ」なんですね！（最初から書け）

Facebookのカートや決済機能が導入されますよ、というニュースからはや2年ほどでしょうか。現状、アプリではFacebook内決済機能が幾つか提供されていますが、日本での活用状況はというとちょっと香ばしい感じです。当方の記憶も導入するよ。導入した企業があるよ（http://web-tan.forum.impressrd.jp/e/2011/11/28/11621）。というニュースだけで停止していたため「日本でも今後広がるんじゃない？」とテキトーなことを言ったこともありましたが、その後調べてみると撤収・停止していたり・・・道理で、FBのセミナーに行ったときに商材として全く触れないわけだ。FBのソーシャルギフトも、物品よりデジタルの贈り物の選択が多いので、早々に物販は廃止になってます。
狭義のソーシャルコマース、ソーシャル内で商品の販売が決済まで完結するという定義をした場合、Facebookではソーシャルコマースは上手くいかない。

という説が闊歩するのもやむなしなのが現状です。
以前、セミナーで聞いたのですが、台湾におけるFacebookを参照元とするECサイトの流入割合は相当多いらしいです。しかし台湾でソーシャルコマースが活発かというとそういう話は聞かない。 EC系、販売系でのFBの活用というのは「ファンの獲得、ロイヤルカスタマーの育成」の場として利用することが現実的な利用方法のようです。
アトリビューション分析測定の方法がもう少し進めば、ユーザー行動におけるソーシャルの地位が再評価されると思います。あと、アメリカで効いても日本では効かないということもあります。ソーシャルの市場規模や成熟度もそうですが、商品購入に関するスタンス（ひいては国民性）の違いも関連していると思うのですがどうでしょうか。いつか、そのような違いを研究してみたいですね。
余談ですが、アメリカと日本の様々な違いを数字とかわいいイラストで示したコンテンツがあったので掲載します。元ネタのページはすでに存在しないようです。

数字で見る『日本とアメリカの違い』がおもしろい！

http://matome.naver.jp/odai/2131407138973197201(NAVERまとめ)
よだれ出てるよ！

空想レベルの話ばかりで恐縮ですが、そのうちソーシャルで決済しようがECサイトで買おうが、問題にならなくなるんじゃないかと勝手に思っています。最近うえっとなるほど見かける「オムニチャネル」というワード。どこで買う、というのが重要ではなく、ソーシャル、ネット、リアル店舗などあらゆる接点を駆使し、最終的にはどこでもいいので自社を選んでもらう、という考え方です。ストーカーみたいですね。私的な感想ですが、リタゲ広告すごくウザいです。あれは消えてよし！
次から次へと良くこんな考え方を捻り出せるよなあと感心しているのですが、それだけ消費社会が成熟しきって、熾烈な顧客争奪戦を繰り広げている危機感が強いということなんですね。

もっと極論をいうと、BtoCであれBtoBであれ、業態や商材に合ったとびきりのユーザーエクスペリエンスを深く考える必要があり、それを実現するためにはウェブ上での行動履歴だけじゃ全然足りなくて、業務に踏み込んで、リアル・ネットを問わない顧客の姿を掴むということが必要だ、と企画書を泣きながら書いてて思う今日このごろ。

2013年10月9日水曜日

【解析いろは26】Rでソーシャルリスニングをやってみた　2

Rでソーシャルリスニングをやってみた　1では解析前の設計とデータ取得、整形についての話でした。いよいよ分析に入ります。
と、その前に。ちょっとおさらいです。

＜今回のトライの目的＞
世の中には無料で使える、基本のレポート機能がついたツールやサービスがリリースされているのになんでわざわざRで、アナログ作業までして分析をやっているの？　と思われるかもしれません。
①Rのトレーニング
②Rでテキストマイニング（ツィート内容に極力踏み込まず、できるだけ機械的に判断と処理をするトレーニング）
③アカウントとは無関係のソーシャルリスニングだから。
ツィート数とか日別動向とかインフルエンサーなんてお飾りですよ！ アカウントに紐付かない純粋なクチコミを、テキスト内容に踏み込んで分析する！（ような感じだけどそこまで深くやってないよ！）これが今回のメインテーマであります。
実際に、Twitterアカウントを開設していないクライアントがリアルでキャンペーンを実施し、ツィッター上でどの程度話題になっているか知りたい、というオーダーを受けたことがあります。ソーシャルの公開記事は様々な情報、ウソもホントも詰め込まれた生の情報源なのです。

(1)　分析作業1　Rでデータを分類、ソート

整形したデータは下記の通りです。
・データ形式　CSV
・データは、主体を　1=個人　2=関係者　3=セミナー・講座情報、ニュースサイト　4=bot　に分類した「主体分類」、「ツィート内容」で構成

エクセルでも出来る作業ですが、練習のためRでデータを主体ごとに切り分けました。
＜作業の流れ＞
①Rを起動し、プラグインRcmdrを開く
RcmdrはRをGUI的に操作するプラグインです。でもほぼコマンド入力であることに変わりはありません。
②csvデータを読み込み、表示
③データを主体区分の数値別に切り分けて、新たにCSVで保存。今回使用したのは1のグループのデータと、2＋3のグループのデータです。botはウザいから除外しました。

(2)　RMecabでテキストマイニング

RMecabはRのテキストマイニングのパッケージです。日本語の形態素解析エンジンの「MeCab」をRで操作するためのものです。ギャル語にはぁたいぉうしてるのかしらぁ？　あとこのエンジンやパッケージはなんて読むのでしょうか。このエンジンの制作者さんのサイトには「めかぶ」の写真があるんですが…やっぱり「めかぶ」なんですかね。

＜作業の流れ＞
①RMecabを起動して、(1)で作成したすべての発言データ・グループ1のデータ・グループ2＋3のデータを順次分析する。
②すべての発言の分類データを眺めて気になった点をメモる。
③メモを元にさらに比較用データの絞り込みや気になる単語を調べる。今回はクラスター分析はやりませんでした。今度時間があるときにやってみようと思います。

下のイメージはすべての発言データのRMecabでの分析結果の一部です。
Mecabは「形態素解析」で、意味の最小の単位で切り分け、分類してくれます。すごい！これは基本の解析関数の“RMeCabFreq（）”を使っていますが、他にも様々な関数があるので用途に応じて使い分けをします。
切れてしまってますが、「ウェブ解析士」キーワードの絞り込みだから「ウェブ」「解析」「士」が当然頻出回数が多いです。これらのワードはどのグループでも必ず共通で登場するので検討対象からは除外してます。

吐き出されるデータは、行番号、形態素（最小の日本語）、品詞（大分類）、品詞（小分類）、出現回数（Freq）です。この関数のメリットは重複がなくカウントされ、テキスト内に登場している形態素が頻度という数値で把握、という点ですね。
まずは全部の分類をぼやーっと眺めて、なんとなく全体を把握。こんなことを考えてデータをいじってます。↓
・『個人グループとセミナー・関係者グループのツィートに差があるか＞あると仮定＞個人とセミナー・関係者の形態素の並び比較』
・『個人とセミナー・関係者の形態素の名詞・動詞・形容詞のみの並び比較』
・『個人グループの感情を拾ってみよう＞個人グループデータの形容詞絞り込み』や『助動詞と形容詞の「ない」の否定のテキストのピックアップ』

(3)　分析とレポートはエクセルで

最も難関のテキストマイニングの処理はRで行い、詳細の分析はエクセル上でやりました。オートフィルタでちゃちゃと切り替えながら見ていきます。今回はデータをいろんなフィルタでソートしてぱらぱらと見て、気づきをメモって、後で再検討します。いつも大体そんな感じです。
いろんなことを多角的に見て、実施し、それからレポートにまとめていきます。これがクライアント向けの場合は、すべてを載せるのではなく、クライアントの知りたいことに即した形で、不要なデータを削っていきます。

(4)　結果要旨

がっつりグラフなんかも作ってレポート形式にしたのですが、余所様に関わることを一方的に調べただけなので、公開はしません。オチがなくてすいません。

以下、簡単に今回の分析結果の要旨です。
●計測期間内に運営主体のツィートが少ない。
●インフルエンサーは関係者グループの数名とボット。

●個人のツィート数は全ツィート数の約49%、半分近くあるけれどツィート内容を見ると解析士資格取得者やニュースサイトが含まれているので、純粋ないち個人のツィートの実数はもっと少ない。（分類方法をもっと精密にする必要がある）
●個人のツィートにつき助動詞及び形容詞の「ない」で否定語を調べたところ、強いネガティブ発言は見受けられなかった。
●関係者・セミナーグループでの頻出度が高い名詞は「講座」「認定」、個人では「データ」「講座」「資格」。部分的に被っているものの、個人グループでは「資格」が多いことから、取得対象としての資格や講座に興味があると推測する。

◎まとめ

個人のツィートにフォーカスしたところ、強いネガティブ・否定発言はないようです。形容詞分類でも、形容詞の否定「ない」を除いてネガティブイメージのある形容詞は「難しい」「高い」でした。（いずれも頻度が少ないため、それがすべてのユーザーの状態を示す形容詞であるとはいえません）。
今回はネガティブな発言はなかったものの、継続的にツィートを見て、ユーザーの疑問や資格に対する見方を把握していくことも重要かな、と思いました。
個人グループのツィートは、認定資格を取得していると思われるユーザー（資格既取得層）と資格に興味がある・これから受験する・勉強中といったユーザー（未取得層）の二つに分類できます。ツィッターで資格既取得層か、未取得層（潜在的ユーザーも含めて）のどこに・どのように情報を発信していくか運用設計を考えることも重要だと思います。

＜反省＞
当たり障りのない要旨になってしまいました。通常、レポートはクライアントの要求に応じて定義し、それに役立つように作成するものですから、相手がいないとどうしてもボヤけたレポートになってしまう、という点も収穫でした。今回の分析で分かったその他の課題は、
・ユーザー分類をどのように・いかに効率よくやって精度をあげるか
・データの取得方法
・今回のテキストマイニングは形態素の数の把握だが、ユーザーと、重要形容詞や名詞との発言の相関のグラフ化や、ツィート内容についてもっと突っ込んだ分析をしたい。
です。
言語の用法や言語の相関関係や傾向については実に素人的な所感です。当方、テキストマイニングの専門家でもなく、この分析は社会学のような学問の探究を目的としていません。でも、「ユーザーの本音の仮説を立てる」ということであればこの程度でもそれなりに役立つ情報になると思います。

分析に王道はあっても正道はない！（最近気に入ってる言葉らしい）
いろんな方法があっていいと思います。仮説が正しいかどうかはその後のアクションと検証が証明してくれます。

2013年10月7日月曜日

【解析いろは25】Rでソーシャルリスニングをやってみた　1

トレーニングがてら、Rでツィッターのデータを元にソーシャルリスニング（ぽい何か）をやってみました。超適当ですが、解析ってこういうことをするんだな、という段取りや必要なことの確認ができました。

ビッグデータやデータサイエンティストがバズワードとなっていますが、ウェブ解析担当もアクセスログだけを分析するだけでは足りなくなってきています。それはすなわち、ウェブ解析＝ユーザーの行動履歴の分析がより効果を求められるようになったからで、解析の意義と目的が浸透してきた証としてよろこぶべきことだと思います。

ビッグデータなんてウチの会社には無縁だよと思っているアナタ。今日、急に上司や社長から「今はユーザーの声に耳を傾けるソーシャルリスニングの時代。だから弊社の企業名がどんだけソーシャルでささやかれているか調べてくれ！」なんて無茶振りがあるかもしれません。昨日どこかのセミナーに行ってなんか聞いてきたんだな……なんて、死んだ魚のような目にならないでください。
時間と人力はある程度必要ですが、すごい分析ツールや他社サービスを導入する前に、やってみてはどうでしょうか。やってみれば意外と簡単です。ヘタレな私が言うのだから間違いない！

今回重要視したのは生のデータをいかに取得し分析するか、という段取りです。下記は一例であり、この方法がベターでもベストでもありません。ただ分析に必要な段取りは積んでいるつもりですので、参考になれば幸いです。

なお、今回収集したサンプルデータと分析は具体的な改善とかなんとかそういった事を一切念頭においてませんし、分析結果が「正解」ではありません。仮説とはいえないほどの想像あるいは妄想というご理解でお願いします。

◎準備するもの
・Rをインストールし使える状態にしておくこと。（必須）
・テキストマイニング用のプラグイン「MeCab」をインストールしておくこと（必須）
・参考書として「Ｒによるテキストマイニング入門」石田基広　著　（ほぼ必須）
・親しみやすいようにRcmdrというGUIプラグインを入れておくと（若干）効率アップするかもしれない。（気が向けば）

◎Rってなに？という方へ
無料のくせにすごく優秀なデータ解析ソフト。解析用途別のプラグインもたくさんある。
http://www.r-project.org/

人文科学系や医学系、理工学系の学部にいたら触ったことがあるかもしれないですね。当方、法学部出身ですが、法学って一番データ解析に遠い学問のような気がする……論理思考と解釈の学問なんですよね。言語とデータ処理における論理思考ってちょっと違うんですよね。今ものっそい苦労してます。言葉を解釈でねじ曲げることに慣れているもんだから、言葉でデータをねじ曲げたくなるとか。アカン…

(1)　分析対象となるデータとその範囲を決める

調査内容：Twitter上でキーワード「ウェブ解析士」が期間内にどのくらいツィートされているかを計測し、ユーザーを分類してグループ毎にツィート内容にどのようなワードが頻出しているかを調べる。
調査目的：計測期間内のツィートの頻度とグループ：個人ユーザーのツィートの傾向について仮説を立てる
ソーシャル：Twitter
調査対象キーワード：ウェブ解析士
調査期間：13/9/2～13/10/2

キーワード決めは重要です。決めないと無限に対象が広がるからです。また、調査内容も決めておかないとひどい目に遭います。無限分析のループ。分析をするにあたっては「何を知りたい」「どのように調べるか」「範囲」を決めることがとっても重要です。

もし、初めてソーシャルの調査を行うのであれば、ソーシャルグラフやインタレストグラフを作成してユーザーとの関係を可視化するのもいいと思います。ソーシャルグラフ等の可視化はAPIを利用した無料のツールが結構あります。いいぞ、もっとやれ！
Twitter関係の概要調査なら「Topsy」（http://topsy.com/）をよく利用します。インフルエンサーや期間指定したキーワードの発言やレポートまでしてくれる便利なツールです。かつては日本語が弱いという話でしたが、今はかなり使えると思います。（Analyticsなどの機能をフルに使うにはメールアドレスなどの登録が必要です）。
ちなみに、今回のメインテーマ（であるはず）の『R』でTwitterのソーシャルグラフの作成が可能であるようです。（対象アカウントのパスワードが必要）
参考記事：ITmedia　＠IT　第5回インターリュード: TwitterとR

(2)　データの取得方法を考える

アクセスログなら大体何らかの分析ツールを介しているので取得については基本的に悩まなくていいです。ですが今回は自前で収集するのでちょっと考えなくちゃいけません。
Rで直接Twitterにアプローチしてデータをひっぱってくることも可能なようですが、アイパスなどの制約があるのでこれも今回はスルー。（おいぃ！）

参考記事： ITmedia　＠IT　　第5回インターリュード: テキストマイニングの入門の入門

公開されているデータを効率よく目的に合致した内容で取得するために、Topsyを使いました。

(3)　データの取得とクリーニング

Topsyで検索キーワードで絞り込んで期間を指定して表示します。残念ながらCSVのダウンロード機能はないので、ユーザー、Tw日、Tw内容を手作業でピックアップしました。ＡＰＩをカスタマイズすればらくらくなんでしょうけど、今回そんな余裕はない！　（件数も少なかったし…）
クリーニングとは、例えば空欄や値が不正な場合（欠損値）★の処理をどうするかとか、不要なデータを削除するとか、分析しやすい形にデータを整える作業です。今回、欠損値はないのと、URLはRで絞り込みをするので放っておきました。
で、最終的にデータをCSV形式に収めます。

★この「欠損値」をどう扱うかが分析データでは重要なファクタなので、本当は真剣に考えないといけないのです。

(4)　解析設計をする

慣れていたり以前やったことのある分析データならば最初に検討しておくべきことですが、今回はお初のデータなので、ここで解析設計をしました。
まず適当に幾つかデータを拾って読んでみて、どんなツィートがあるのかばっくりと感じます。感じる、というのが、目的で、ここで深く読んでいくと分析の意味がありません。

どうやら、関係者や告知のツィートと個人の感想みたいな「感じ」に大きく分かれるようです。
じゃあ、ユーザーをグルーピングして発言の傾向を見よう。そして個人ユーザーに着目して、どのようなワードがよく使われているか、そこにグループ別の差はないかを調べよう、と決めました。

【設計】
1.ユーザーをセグメント分類する　＞　(3)　に戻って作業（　bot、関係者、セミナー、個人を適当に分類。ルールは、ユーザー名やツィートに特定のワードが含まれているか否か。関係者はサイトをあらかじめ調べてピックアップしておき、分類　など）★
2.エクセルでの作業★
　グラフなどのビジュアル化
　概要のグラフ化と把握（日別動向、ユーザーセグメント別割合）
　3.データの詳細な比較検討

3.Rでの作業
　グループ毎に発言を分類
　グループ毎に発言をテキストマイニングし、傾向を把握

長くなったので、Rで分析編はまた後日～。

★今回は発言数が多くないのと、明らかに関係者やセミナー告知が多かったので強引にユーザー分類をしました。普通はやってらんないので、インフルエンサーという分類が多いのだと思います。分類による比較軸があると分かりやすいのでいいですが、ケースによりますねこの方法。
★今回の作業のほとんどはエクセルで出来ますし、そのほうが早いです。一部、無理矢理Rでやったところもありますが、単純集計やグラフ化はエクセルでやっつけました。ツールに拘りを持つのではなく、目的達成のためにどの方法がいいのか、で決めるべきだと思います。

＜MEMO＞
これら過程の時間と工数をきちんと記録ておくことをおすすめします。できたら、他社サービスの価格も調べておきましょう。レポートと共に調査にかかるコスト概算も提出すれば、レポート作業と効果の費用の把握が容易になります。

Rでソーシャルリスニングをやってみた　2に続きます

2013年10月1日火曜日

【解析いろは24】個人情報保護方針を時々思い出してやってください

今回はちょっと難しいような、でも最近ホットなテーマとつながっているので無視できない話題です。
サイトに掲載している個人情報保護保護方針、最近チェックしてますか？　

“顧”客から“個”客へ、というのが近時のマーケティングの主流です。ユーザーが「求めるもの」を差し出すのは当たり前で、「まだ知らないけど欲しいと思わせるもの」を提供するような時代です。従って、会員登録制度を取り、ログインしてもらって行動履歴と購入データを結びつけて詳細に“個”を分析することがもはや当たり前になってきています。

では、ユーザーに対しては、いつ、どういう目的でどの範囲でこれこれの情報を取得し利用する場合があります、とアナウンスしているのでしょうか。通販事業者の場合は、会員登録時に規約や個人情報保護方針を見せて同意してもらっているのが通常だと思います。まー、ほとんどの人がきっちり読んでないですよね。また、最近では行動ターゲティング広告やリターゲティング広告についての記載が追加されていると思います。さらっと告知されていたりメールで届いたりしていたかもしれませんが、ほぼスルーじゃないですか。

今後、個人情報の取得や利用について、よりわかりやすい表示と同意が求められる可能性があります。

経済産業省　「ＩＴ融合フォーラムパーソナルデータワーキンググループ報告書を取りまとめました」（2013/5/20)
http://www.meti.go.jp/press/2013/05/20130510002/20130510002.html

概要版が分量もコンパクトでわかりやすいです。日米の企業活動におけるIT投資や分析対象データの比較などもとても興味深いです。日本でも分析の対象はぐっと広がることでしょう。ウェブ解析だけやってればいい時代は過ぎてしまったのかもしれません。

どういうことに注意するべきか、覚書です。

(1)説明
(2)ユーザーの選択の自由の保証
(3)透明性の確保（どういう仕組みで情報を収集しているか、など）
(4)データの安全性
　＋　
(5)ユーザーのメリットを明示、提供

ちなみにディミトリ・マークス著の「データ・サイエンティストに学ぶ「分析力」」でもこのことに触れています。そこに書かれているように、データ収集と分析は、ユーザーに知られてはいけない後ろ暗いものであってはなりません。データを明示された目的と手段で収集し、ユーザーに高い付加価値を渡すことが重要だと述べています。
個人情報の在り方も、ユーザーの認知や周辺情報や法律の整備によって変わってきます。
また、個人情報は収集する側もユーザー側もよくわかっていないことが多いので急に守りに入ったり壁を作ったりします。守る方に行き過ぎると、例えば地域社会での孤立といった弊害もあるわけです。
両者の理解と了解、その手段が確保される、相互にシアワセな関係になれる制度を期待します。

前記の報告書概要に記載されていた、

「昨今のパーソナルデータを巡る消費者と事業者の間のトラブルの多くは、事業者が消費者の期待を裏切る形でパーソナルデータを利用したと評価され、社会的な批判を受けるというものである。」

という文言はしっかりと覚えておきたいと思います。

ちょっと置き去りになりがちなのですが、各種データ分析を仕事にしている以上は知らないでは済まされません。時々、いや結構な回数で個人情報保護方針ちゃんのことを思い出してやってください。

登録: 投稿 (Atom)

2013年10月22日火曜日

【PickUp】ソーシャルからコマースの系譜-PinterestからSumally、FANCY、そしてOrigamiへ

2013年10月9日水曜日

【解析いろは26】Rでソーシャルリスニングをやってみた 2

(1) 分析作業1 Rでデータを分類、ソート

(2) RMecabでテキストマイニング

(3) 分析とレポートはエクセルで

(4) 結果要旨