Geek
         アメリカ、サンフランシスコでVMWorld2015が始まった。
もしかすると、参加することができたかもしれないが、
結局のところ行けなかったので、どうせならと、
世間で何が注目されているのかをTwitterからわかるのではないかと思いなんちゃって形態素解析をしてみた。

ぶっちゃけ初めての試みなのであんましうまく言っていないと思う。



 
 
データの取得はPython-twitterを利用。

コードや環境に関してはそれだけで1記事かけそうであるので割愛。
そのうちに記載しようと思う。

取得期間

 現地時間 9月1日 16:00-9月2日10時
 ※8月30日から9月3日の間で開催されているのでこの時点で出遅れ気味。やった意味がないかもしれない
検索条件は ハッシュタグ #VMWorld

取得したデータは重複を排除して 7253 Tweet(0.11 Tweet/s)
RTが含まれていることを 考慮するともっと少なくなる。

データクレンジングテクニックなどもないので、ひとまずRTが含まれているTweetを排除し、
さらに短縮URLを排除したTweetをMecabに食わせた結果が以下。

4970 # 名詞,サ変接続,*,*,*,*,*
3017 EOS
1854 @ 名詞,サ変接続,*,*,*,*,*
1406 VMworld 名詞,一般,*,*,*,*,*
1199 . 名詞,サ変接続,*,*,*,*,*
992 at 名詞,一般,*,*,*,*,*
981 the 名詞,一般,*,*,*,*,*
864 to 名詞,一般,*,*,*,*,*
811 ! 名詞,サ変接続,*,*,*,*,*
783 VMworld 名詞,固有名詞,組織,*,*,*,*
631 : 名詞,サ変接続,*,*,*,*,*
591 __ 名詞,サ変接続,*,*,*,*,*
585 ' 名詞,サ変接続,*,*,*,*,*
529 - 名詞,サ変接続,*,*,*,*,*


記号などが入っていて超よろしくない。
あとVMworldのハッシュタグを削除しても、VMWorldという単語が多い。(当たり前か)

うーん、名詞だけで抽出して、記号を省いても頻出単語としては、

VMWorld , booth , amp , EMC , today ,cloud , session ,Storify といったところ。

とりあえず本日はここまで。
#VMWorld という検索条件が良くなかったかもなので vmware という単語も合わせて抽出してみることにする。


2015/09/04 追記。
Openshiftに定期的にアクセスしてなかったせいで、9月1日16時-21時頃の時間でしかデータを抽出できていなかった。
(idle状態に入っていた)

うーん。ますます難しいなー。
スポンサーサイト

関連キーワード(ユーザータグ):
VMware
仮想化
PowerCLI

トラックバック用URL ;http://gatolynx.blog100.fc2.com/tb.php/276-bf8fff58

コメントの投稿

非公開コメント