恥ずかしい。
なんだか自分で勝手にハードルを上げていたみたいだ。
前回、
配布コードをGithubのレポジトリ(*1)から・・・
というところで悲鳴を上げたが、
なんのことはない、
用意されたリンクからColaboratoryでNotebookを開くことができます。
ということで、
頭を悩ます必要はなかったのだ(*2)。
*1 「リポジトリとは、ファイルやディレクトリの状態を記録する場所です」(『サルでもわかるGit入門』より)
*2 初心者は(私です)、すぐGit入門の本やサイトを読み、ドツボにはまっていく。ここでは何も知らなくていいのだ。
第4章 Huggingface TransformersのURLをクリックすれば、
勝手にColabが開き、
ファイルが展開される。
そこにコードがずらりと並んでいて、
あとは、セルの左側の実行ボタンをクリックするだけ。
あっけない。
さっそく始めよう。
まずは、
Transformersの他に、
PythonからMecab(形態素解析ツール)を使えるFugashiと辞書のipadicをインストール(*3)。
*3 Colabの場合、Pipコマンドの前に!をつける。
さらに、Transformersのライブラリ、
BertJapanese-TokenizerとBertModelをインポートする。
ちなみに、
ダウンロードとインストールはどこが違うのか?(*4)
とか、
インストールとインポートってなにが違うのか?(*5)
とか頭に浮かぶかもしれないが、
そんな寄り道をしていては先には進めない。
ここからようやくBERTを用いた処理で、
2.1.で作ったトークン(*6)をBERT(BertModel)に入力し、出力を得る。
という2つのステップの説明が始まる。
使う日本語モデルは、
東北大学の研究チームによって作成された
cl-tohoku/bert-base-japanese-whole-world-masking 。
お待たせ。
いよいよ本論が始まる。