スポンサー広告
         
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
 
 

Geek
         備忘録。

Twitterの形態素解析などをしていて短縮URLだけを削除する。
もともと取得しなければ良いのだけれども後々必要になるかもしれないしで、取得していたが、
その一方で、形態素解析時に非常に扱い難い。
特に、かならずあるわけではなく、140文字の中のどこに出現するかわからない。ので、


sed -e "s/http....[0-9a-zA-Z\.\/]*//g"


という形で削除してみることにする。

http も https も削除可能。Twitterアプリなんかでは冒頭が消されていることが多いが、生データにはhttpが入っている・・・はず。
スポンサーサイト
 
 

トラックバック用URL ;http://gatolynx.blog100.fc2.com/tb.php/283-f2d11c33

コメントの投稿

非公開コメント

上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。