【MeCab辞書】辞書に単語登録

前回、「嵐の相葉君は動物が好き」をIgoで分解したところ
「相葉」が「相」と「葉」で分かれました。
今回、キチンと「相葉」で認識してもらうために独自の単語を辞書に登録します。

まずは独自の辞書ファイルを作成
C:\igo\mecab-ipadic-2.7.0-20070801にadd.csvを新規作成します。
add.csvに以下を追加。(ファイル名は何でも言い)

相葉,1290,1290,2000,名詞,一般,*,*,*,*,あいば,アイバ,アイバ

先頭に追加したい単語を設定、次の1290はleft-id.def,right-id.defをみてこれだなと思う品詞を設定。
途中の2000は優先順位で、始めから用意されている辞書ファイルの中の「相」と「葉」よりも小さい値にしておけばOK。名詞、一般〜の部分は項目の数さえあっていれば適当でOK。
ちなみにはじめから用意されている辞書にはこんな感じで単語登録されていて優先順位が75676617だからそれ以下の2000であれば独自に登録した「相葉」の方が優先的に採用される。
言ってる意味わかるかな??

Prefix.csv(128): 相,559,559,7567,接頭詞,動詞接続,*,*,*,*,相,アイ,アイ
Noun.csv(60451): 葉,1285,1285,6617,名詞,一般,*,*,*,*,葉,ハ,ハ

Igo用の辞書ファイルを生成します。
コマンドプロンプトで以下をたたく!

C:\igo>java -cp igo-0.4.5.jar net.reduls.igo.bin.BuildDic ipadic mecab-ipadic-2.7.0-20070801 EUC-JP

出来上がったipadicを使って日本語解析を行う。
実行の仕方は前回を参照。
その結果


嵐 名詞,一般,*,*,*,*,嵐,アラシ,アラシ
の 助詞,連体化,*,*,*,*,の,ノ,ノ
相葉 名詞,一般,*,*,*,*,あいば,アイバ,アイバ
君 名詞,接尾,人名,*,*,*,君,クン,クン
は 助詞,係助詞,*,*,*,*,は,ハ,ワ
動物 名詞,一般,*,*,*,*,動物,ドウブツ,ドーブツ
が 助詞,格助詞,一般,*,*,*,が,ガ,ガ
好き 名詞,形容動詞語幹,*,*,*,*,好き,スキ,スキ
お見事!んーマンダム!