こんにちは,ぱそきいろです.
WordCloudを使って遊んでみたのでそのことについて書いていきます.
AKB48,乃木坂46,欅坂46,日向坂46の秋元康系とその他のももクロ,モーニング娘。で全然違う傾向が観れたので,そこに注目です.
WordCloudの作成
これは色々と記事があるので,参考にしてください.
米津玄師の歌詞をWordCloudで可視化してみた。 - Qiita
【備忘録】日本語のワードクラウドを作る - Qiita
主な流れとしては,
- Webスクレイピングで歌詞を保存する
- 保存した歌詞を読み込んで
- wordcloudに渡す
と言った感じです.
様子を見ながら「ん」とか「の」とかを取り除いてください.
stop_words = ["ん","の"] wc = WordCloud(font_path="/Library/Fonts/ipaexm.ttf",regexp="[\w']+",background_color="white",stopwords = set(stop_words),width=640,height=480)
画像を作成する
では,作成した画像を見ていきます.
モーニング娘。
ももいろクローバーZ
AKB48
乃木坂46
欅坂46
日向坂46
まとめ
こうみると秋元康は「僕」「君」「誰」となど人に関する単語が多いですね.
それに比べてももクロは「夢」,モーニング娘。は「愛」「恋」が多いのが特徴的ですね.
これだけ違いが顕著だとすると,歌詞からアーティストを判別できるかもしれないです.
また挑戦してみたいと思います.
ありがとうございました!