【まとめ】単語をベクトル化する！！ー文系分野をチカラ技で理系の世界へ！〜ゼロつく２・２章

わたしが選んだ「自然言語処理(Natural Language Processing：NLP)」とは、

自然言語(日本語や英語など）をコンピュータに理解させるための技術

である。

俳句を詠むAIを作る！　©️ＡＩ一茶くん

自然言語は柔らかい(＊１)
それに対して、コンピュータ言語(＊２)は規則に縛られて固い。
だから、
柔らかい言語を頭の固いコンピュータに理解させるのは一筋縄ではいかない難しい問題だ。

ーそんな話でこの本は始まる(＊３)

ゼロつく２というらしい（本当かどうか知らんけど）

＊１　柔らかいとは、柔軟に意味や形が変わるあいまいさがあることを指す。
＊２　機械語、プログラミング言語、マークアップ言語など。
＊３　第１章はニューラルネットワークの復習で、本編は第２章から始まる。

言語の意味の最小単位は「単語」である。

だから、
コンピュータに単語の意味を理解させるために、
単語の意味をうまくとらえた表現方法を考える。

方法は３つあり、
そのなかでいちばんいい方法が、
３つめのword2vecを使った推論ベースの手法だが、それは第３章で解説される。

本章(第２章)では、

１．シソーラス(＊４)による手法

に簡単に触れ、

２．カウントベースの手法

で、
① 単語の「分散表現」と
② 重要な手法の根拠となっている「分布仮説」
について詳説している。

＊４　シソーラス(類似辞書)とは、同義語、類義語、上位・下位関係など、単語の意味的な関係を記述した言語資源。有名なものに「WordNet」がある。

単語をベクトルであらわす

という文系には想像もつかない方法が、①分散表現だ。

なるほど、
ベクトルなら足したり引いたり計算できる。

さらに、

単語の意味は、周囲の単語によって形成される

というのが、②分布仮説だ。

だから、

意味的に近い単語はベクトル空間で距離的にも近いはず

と考える。

それを、カウントベースの手法、

単語の共起行列(＊5)を作り、
PPMI行列(＊６)に変換し、
ロバスト性(＊７)を高めるため、
SVDによる次元削減(＊８)を行い、
各単語の分散表現を得ること

で確かめる。

話はややこしいのだが、
文系分野のアイテムを、
計算で解決しようという理系への変換のチカラ技が、新鮮でおもしろい。

ひとつひとつのコードを確認する力量はないので、まずは概念を理解して次の章に進む。

＊５　共起行列　共起する単語をテーブルにまとめたもの。そのテーブルの各行がベクトルに対応する。共起とは、ある単語がある文章に出たとき、その文章に別の限られた単語がひんぱんに出現すること。例「しとしと」と「雨」
＊６　PPMI行列　共起行列から’the’のような高頻度単語のノイズを取り除いた行列。
＊７　ロバスト性　さまざまな外部の影響によって影響されにくい性質のこと。
＊８　SVDによる次元削減　疎な行列（意味のない０が多い）であるPPMI行列を、特異値分解(SVD)という手法を使い重要な情報だけ残して密な行列に変換すること。

ゼロつく２こと『ゼロから作るDeep Learning2 自然言語処理編』はこちらから！

Follow me!

共有:

関連