ぱそきいろのIT日記

ぱそきいろがITに関する記事を書いていきます。

WordCloud でアイドルの歌詞を比較してみる

こんにちは,ぱそきいろです.

WordCloudを使って遊んでみたのでそのことについて書いていきます.

AKB48,乃木坂46,欅坂46,日向坂46の秋元康系とその他のももクロ,モーニング娘。で全然違う傾向が観れたので,そこに注目です.

WordCloudの作成

これは色々と記事があるので,参考にしてください.

米津玄師の歌詞をWordCloudで可視化してみた。 - Qiita
【備忘録】日本語のワードクラウドを作る - Qiita

主な流れとしては,

  • Webスクレイピングで歌詞を保存する
  • 保存した歌詞を読み込んで
  • wordcloudに渡す

と言った感じです.

様子を見ながら「ん」とか「の」とかを取り除いてください.

stop_words = ["ん","の"]
wc = WordCloud(font_path="/Library/Fonts/ipaexm.ttf",regexp="[\w']+",background_color="white",stopwords = set(stop_words),width=640,height=480)
画像を作成する

では,作成した画像を見ていきます.

モーニング娘。

f:id:takabsk55:20191123215610p:plain:w500
モーニング娘。

ももいろクローバーZ

f:id:takabsk55:20191123215703p:plain:w500
ももいろクローバーZ

AKB48

f:id:takabsk55:20191123215752p:plain:w500
AKB48

乃木坂46

f:id:takabsk55:20191123215812p:plain:w500
乃木坂46

欅坂46

f:id:takabsk55:20191123215840p:plain:w500
欅坂46

日向坂46

f:id:takabsk55:20191123215909p:plain:w500
日向坂46

まとめ

こうみると秋元康は「僕」「君」「誰」となど人に関する単語が多いですね.
それに比べてももクロは「夢」,モーニング娘。は「愛」「恋」が多いのが特徴的ですね.
これだけ違いが顕著だとすると,歌詞からアーティストを判別できるかもしれないです.
また挑戦してみたいと思います.
ありがとうございました!