文系おじさんにも優しい！『BERT による自然言語処理入門』第六回「HuggingFace Transformers」(その２）

ＡＩ学習ダイアリー

1g1円のマグロ250g乗せた漬け丼

2021.08.25

恥ずかしい。
なんだか自分で勝手にハードルを上げていたみたいだ。

前回、

配布コードをGithubのレポジトリ(＊１)から・・・

というところで悲鳴を上げたが、

Githubの該当ページ。初心者にはどこをクリックしていいかわからん！

なんのことはない、

用意されたリンクからColaboratoryでNotebookを開くことができます。

ということで、
頭を悩ます必要はなかったのだ(＊２)。
＊１　「リポジトリとは、ファイルやディレクトリの状態を記録する場所です」（『サルでもわかるGit入門』より）

いつかは必要な基本知識！

＊２　初心者は(私です)、すぐGit入門の本やサイトを読み、ドツボにはまっていく。ここでは何も知らなくていいのだ。

第４章 Huggingface TransformersのURLをクリックすれば、
勝手にColabが開き、
ファイルが展開される。

ページを下にスクロールした。文系おじさんにも優しい真心こもった工夫！

そこにコードがずらりと並んでいて、
あとは、セルの左側の実行ボタンをクリックするだけ。

あっけない。

さっそく始めよう。
まずは、
Transformersの他に、
PythonからMecab(形態素解析ツール)を使えるFugashiと辞書のipadicをインストール(＊３)。
＊３　Colabの場合、Pipコマンドの前に！をつける。

さらに、Transformersのライブラリ、
BertJapanese-TokenizerとBertModelをインポートする。

ちなみに、

ダウンロードとインストールはどこが違うのか？（＊４）

とか、

インストールとインポートってなにが違うのか？（＊５）

とか頭に浮かぶかもしれないが、
そんな寄り道をしていては先には進めない。

ここからようやくBERTを用いた処理で、

１．トークナイザー(BertJapanese-Tokenizer)を使い、文章をトークン化する。
２．１．で作ったトークン(＊６)をBERT(BertModel)に入力し、出力を得る。

という２つのステップの説明が始まる。

使う日本語モデルは、
東北大学の研究チームによって作成された
cl-tohoku/bert-base-japanese-whole-world-masking 。

お待たせ。
いよいよ本論が始まる。

＊４　ざっくり言うと、ダウンロードはPCへの保存、インストールはアプリなどのPCへの組み込み。
＊５　importは、インストール済のライブラリ等を「これから使いますよ〜」と宣言すること。

＊６　正確には、トークンを、encode()関数を用いて、IDに変換して入力する。

Follow me!

関連

PAGE TOP