前回の記事では、Pythonと機械学習を使ってコウメ太夫さん風ツイートを自動生成してみた。今度は、コウメ太夫さんのツイートを題材にWord Cloudを作ってみました。Word Cloudとは、使われている単語を、頻度に応じて大きさや色を変えてドーンと表現するあれだ。前回の記事はこちら
完成したWord Cloud(ワードクラウド)
サムネイルにも使っているが、完成したWord Cloudがこれだ。
初心者も、それなりにPythonで機械学習っぽいことが出来るようになった。
そして、この図を見て気になることは、やっぱりチクショーが前面に来るんだなってこと。
実際のコーディング画面
コーディングに使用した環境はGoogle Colabratory(コラボラトリー)。簡単にPythonを使った機械学習が試せるので、是非一度使ってみてほしい。
まずはざっと流れを記載する。次の章で簡単な用語の説明をする。
使った形態素解析ツールはjanomeだ。下記コマンドでインストールが出来る。
!pip install janome
続いて、Word Cloudで使用できるフォントをダウンロード。
!apt-get -y install fonts-ipafont-gothic
さらに、前回の記事の通りスクレイピングで集めたテキストファイルをGoogle Colabratoryにアップロードした。koumeAI.txtというファイルだ。
from google.colab import files
uploaded = files.upload()
そして、Word Cloudを実行。Word Cloudの実行コードについては、こちらの他サイト様を参考に実施した。
参考サイト:http://cedro3.com/ai/word-cloud/
matplotlib(マットプロトリブ)を使って、Google Colabratoryに表示するためにWord Cloudの実行結果は以下のようになる。
出来上がった画像ファイルをダウンロードして、使っている。
初心者向けのPythonと機械学習の用語説明
今回Word Cloudを作成するために、学んだ単語は以下の通り。これらの用語について、私と同じような初心者向けに簡単に説明する。さらに深く理解したい場合は別途webで検索してみてほしい。
形態素分析
普段使っている文章を、最小単位の品詞で分解すること。この形態素分析はほとんど手法が決まっていて、下記のJanomeやMecabなどが有名。
参考リンク:https://udemy.benesse.co.jp/ai/morphological-analysis.html
Janome(じゃのめ)
形態素分析で使用されるツール。Pythonにインストール(pip)して使用した。
参考リンク:https://udemy.benesse.co.jp/ai/morphological-analysis.html
Google Colabratory
初学者向けに書くとWebブラウザ(インターネット)で、Pythonや機械学習、ディープラーニングが気軽に使えるGoogleのサービス。めちゃくちゃ便利。
参考リンク:https://colab.research.google.com/notebooks/welcome.ipynb?hl=ja
Word Cloud(ワードクラウド)
最初に書いた通り、頻度に応じて使われている単語を大きさや色を使ってドーンと表現するあれ。おしゃれ風に見えるため、最近目にする機会が多い。
参考リンク:https://kotobank.jp/word/%E3%83%AF%E3%83%BC%E3%83%89%E3%82%AF%E3%83%A9%E3%82%A6%E3%83%89-674221
Matplotlib
Pythonのライブラリの一つで、グラフなどの描画が出来る。
参考リンク:https://blog.codecamp.jp/python-Matplotlib
Pythonと機械学習の初心者がここまで出来るようになるための勉強方法
私はUdemyの動画教材を使ってPythonと機械学習の勉強をしました。Pythonと機械学習の勉強に役立った講座はこちらの2講座です。講座の詳しい内容は以前書いた記事に書いてあります。
- 【キカガク流】人工知能・機械学習 脱ブラックボックス講座
- PythonによるWebスクレイピング~入門編~【PythonによるWebスクレイピング〜入門編〜【業務効率化への第一歩】】
Udemyのお得な購入方法についての説明記事はこちら
参考にしたサイト様
今回はこちらのサイト様を参考にWord Cloudの作成をいたしました。大変勉強になりました。ありがとうございました。
cedro-blog