4. 形態素解析とは
形態素解析の代表的なツール
-U N(2 )
J MA 9 年~
- h S n(6 )
C a e 9 年~
- C b (2 )
Me a 0 年~
- y e (9 ) N w
K T a 0 年~ ← e !
・ KTa
y e はその前に比べ先進的なアプローチを取っている(今回は解説しない)
・ ただし現在で最も多く使われるのは Me a
Cb
Me a は精度9 %って言うし、形態素解析はもう解決した分野では?
Cb 9
-9
9 %できるのは新聞記事などのかたい文章
-崩れた日本語(不自然言語)は実用にも満たないこともある
-不自然言語の形態素解析は最近注目されているっぽい次の課題
02
6. 辞書を用意
辞書選び
・ 何種類も無料で配布されている
・ コスト推定(後述)のため本格的にはコーパスも必要になるが、
単語の辞書だけでも簡単な形態素解析器は作れる
辞書の主要なものとして
-P -i
IAdc
- AS - i
N I jc
Td
- nDc
U ii
単語数は N I - i< U ii<IAdc
AS j c
Td nDc P -i
・ 今回は実験としてIAdc
P -iを使用
・ ただしほとんどの辞書には互換性があり、取り替えられる
04
9. 辞書引き
辞書検索のためのデータ構造、トライ木(Ti
r)
e
文字列の最初から順番にたどっていく
これだと O (
(文長) が O 文長)
2
) ( で辞書引きが
できるので総当たりより効率が良い
・ C mmo Pe x e rh
o n rfi S ac
-ある文字が開始位置の単語を列挙
-これを全ての文字に適用して
Ti
r 木から辞書引きする
e
>>CS”
> P(東海道新幹線”)
>>東 : 名詞
> :
>>東海 : 名詞
> :
>>東海道 : 名詞
> :
I g b ht:jw k e iogw k トライ木
ma e y t /a ip da r/ i/
p /. i . i
>>東海道新幹線 : 名詞
> :
07
「新幹線」というワードが入っていないのに注意
13. 最適な単語列を発見する
コスト最小法
・ 連接コスト :
二つの単語のつながりやすさ
・ 生起コスト :
一つの単語の出現しやすさ
全ての文字の連接コスト+生起コストが最小になる解をアンサー
そのまま求めると計算しきれないので…
秘策 : i ri
Vt b アルゴリズム
e
1
1
14. 最適な単語列を発見する
左・右文脈I
D
・ 実は辞書の中の mar .e(
tx f
id 連接表)を見るためのI番号
D
ある単語 A Bが連接をなすとき,
,
・ 単語Aは左文脈Iを見る
D
・ 単語Bは右文脈Iを見る
D
mar .e :
tx f
id
左文脈I
D 右文脈I 連接コスト
D
0 15
34 -9
96
15
34 15
32 -7 8
25
15
32 0 -4
91
.
.
. ..
. ..
.
例えば左文脈Iが1 5 で右文脈Iが1 5 だと、ここで連接コストが -7 8
D 34 D 42 25
mar .e には (
tx f
id 単語)、つまり1 0 0 0 0 0
2 0 0 0 0 0 以上のデータがある
※I「0
D 」はB SE S
O /O 1
2
16. コスト推定
一体どうやってコーパスから連接コストを推定するのか
Hid nMak v d l MM)
de ro Mo e(
H
・ 日本語で言うと 隠れマルコフモデル
・ 前の品詞とその単語の品詞の情報から学習する
C n io aR n o F ls R )
o dt n l a d m i d( F
i e C
・ 難しすぎてよく分からない
・ 全ての候補を考慮して推定できるのでH MMより精度がいいらしい
・ Me a に採用
Cb
詳細は
東藍,
浅原正幸,松本裕治.0 6条件付確率場による日本語未知語処理.
20.
情報処理学会自然言語処理研究会予稿集.
ht:cnicpn i/1 0 4 2 2 5
t / i i . /a 1 0 0 8 4 3
p /. . j
a d
1
4
17. まとめ
簡単な形態素解析器を作るには
辞書引き
・ トライ構造
・ C mmo Pe x e rhを使って
o n rfi S ac
全通りの単語候補(= ラティス構造を作る)
最適な単語列を発見する
・ 連接コスト +生起コスト
・ Vtri
i b アルゴルリズムで最適解を見つける
e
コスト推定(オプション)
・ 統計的に求める
・ 正解データを作ってそこから推定
1
5
18. 参考・引用文献
P to による日本語自然言語処理 (
yh n 入門自然言語処理の1 章が公開されている)
2
ht:nt.o geo e o snt n /o /o kj/h 2 t
t / l g o l d . m/v / u kd cb o - c 1 . ml
p/ k c c r p h
日本語形態素解析入門 V ro 0 .
es n .1
i 9
ht:n it/ yod ctc / / 1 9 0 1 .d
t / a . ~ t/o / hj j 9 9 5 4 f
p / so e ma ma p
Me a 汎用日本語形態素解析エンジン
Cb
ht:w wj a r/l / C bp f
t / w .p . gfie Me a .d
p/ t o s
1
6