文系おじさんにも優しい!『BERT による自然言語処理入門』第六回「HuggingFace Transformers」(その2)

AI学習ダイアリー
1g1円のマグロ250g乗せた漬け丼

恥ずかしい。
なんだか自分で勝手にハードルを上げていたみたいだ。

前回、

配布コードをGithubのレポジトリ(*1)から・・・

というところで悲鳴を上げたが、

Githubの該当ページ。初心者にはどこをクリックしていいかわからん!

なんのことはない、

用意されたリンクからColaboratoryNotebookを開くことができます。

ということで、
頭を悩ます必要はなかったのだ(*2)
*1 「リポジトリとは、ファイルやディレクトリの状態を記録する場所です」『サルでもわかるGit入門』より

いつかは必要な基本知識!

*2 初心者は(私です)、すぐGit入門の本やサイトを読み、ドツボにはまっていく。ここでは何も知らなくていいのだ。

第4章 Huggingface TransformersのURLをクリックすれば、
勝手にColabが開き、
ファイルが展開される。

ページを下にスクロールした。文系おじさんにも優しい真心こもった工夫!

そこにコードがずらりと並んでいて、
あとは、セルの左側の実行ボタンをクリックするだけ。

あっけない。

さっそく始めよう。
まずは、
Transformersの他に、
PythonからMecab(形態素解析ツール)を使えるFugashiと辞書のipadicインストール(*3)
*3 Colabの場合、Pipコマンドの前にをつける。

さらに、Transformersのライブラリ、
BertJapanese-TokenizerBertModelインポートする。

ちなみに、

ダウンロードインストールはどこが違うのか?(*4)

とか、

インストールインポートってなにが違うのか?(*5)

とか頭に浮かぶかもしれないが、
そんな寄り道をしていては先には進めない。

ここからようやくBERTを用いた処理で、

1.トークナイザー(BertJapanese-Tokenizer)を使い、文章をトークン化する。
2.1.で作ったトークン(*6)をBERT(BertModel)に入力し、出力を得る。

という2つのステップの説明が始まる。

使う日本語モデルは、
東北大学の研究チームによって作成された
cl-tohoku/bert-base-japanese-whole-world-masking

お待たせ。
いよいよ本論が始まる。

*4 ざっくり言うと、ダウンロードはPCへの保存、インストールはアプリなどのPCへの組み込み。
*5 importは、インストール済のライブラリ等を「これから使いますよ〜」と宣言すること。
*6 正確には、トークンを、encode()関数を用いて、IDに変換して入力する。

Follow me!

PAGE TOP