ChaIME: Stochastic Input Method Editor
大規模コーパスを用いた統計的仮名漢字変換

注意

Google 日本語入力の登場により、ウェブコーパスを用いた統計的かな漢字変換の優位性は示されたと考え、 2月16日を持って本システムの実験を停止しました。お付き合いどうもありがとうございました。今後はスタンドアロン版のリリースを目指します。

はじめに

近年 Web などで大量なテキストデータが手に入るようになり、一般ユーザもコンピュータで文章を入力する機会が飛躍的に増えました。ワープロの時代と比べると、Windows や Mac に付属する仮名漢字変換ソフトもだいぶ賢くなり、それほどストレスなく変換できるようになってきました。

一方、Linux や FreeBSD といったオープンソース界における仮名漢字変換システムは、Canna や Wnn といった Unix の古い時代からあった入力メソッドがずっと使われており、2001年になって初めて近年デフォルトで採用するディストリビューションも増えてきた Anthy が登場しました。

現在の Anthy は確率的言語モデルの導入(2005)、識別モデルの導入(2006) を経て、モダンな仮名漢字変換システムになっていますが、Canna で用いられている辞書、cannadic をベースとしており、人手による単語パラメータのチューニングや、付属語辞書のメンテナンスなど、人手の介在する余地が多く、開発にコストがかかります。

そこで、本入力メソッド ChaIME (チャイム)では、統計的自然言語処理の手法を用い、大規模コーパス(Google 日本語 N グラム)から推定した統計を用いることで、データ量の問題に対処し、品詞や連接コストの人手による調整なしに高精度な変換を可能にしています。ユーザは単語登録の際に品詞などの情報を登録しなくてよいので、辞書作成も簡単です。

サンプル変換

ATOK 2007 の誤変換事例に載っている例文を比較してみました。

ChaIME	ATOK 2007	Anthy 9100c	AjaxIME
請求書の支払日時	請求書の市は来日時	請求書の支払い日時	請求書の支払いに知事
近く市場調査を行う。	知覚し冗長さを行う。	近く市場調査を行う。	近く市場調査を行う。
その後サイト内で	その五歳都内で	その後サイト内で	その後再都内で
去年に比べ高い水準だ。	去年に比べた海水順だ。	去年に比べたかい水準だ。	去年に比べ高い水準だ。
昼イチまでに書類作っといて。	昼一までに書類津くっといて。	昼一までに書類作っといて。	肥留市までに書類作っといて。
そんな話信じっこないよね。	そんな話心十個内よね。	そんなはな視診時っこないよね。	そんな話神事っ子ないよね。
初めっからもってけばいいのに。	恥メッカら持って毛羽いいのに。	恥メッカ羅持ってケバ飯野に。	始っから持ってけば良いのに。
熱々の肉まんにぱくついた。	熱々の肉まん二泊着いた。	あつあつの肉まん２泊付いた。	熱熱の肉まんにぱくついた。

ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデルを学習するとうまく行くかもしれません。

統計的仮名漢字変換

統計的仮名漢字変換についてページを分けました。

既知の問題点(優先度順)

連濁、促音化などへの対処
かな漢字モデルの読みつきコーパスからの推定
辞書のオートマトン化する(単語引くのが速くなる)

今後の改善案

かな漢字変換の順位学習としての定式化
ユーザ学習の理論的な定式化

Google 日本語 N グラムデータはこちらから購入することができますが、商用利用不可・学術目的限定ですので、当サイト以外でこのデータを用いた入力メソッドを公開する予定はありません。個人的にクロールしたデータ(e.g. Wikipedia)から抽出した統計量を用いたバージョンは要望があれば用意するかもしれません。

謝辞

本入力メソッドの一部は奈良先端科学技術大学院大学 Creative and International Competitiveness Project 2007 (学生主体のプロジェクト型研究) の支援を受けています。

現京都大学の森信介さんには2007年の言語処理学会で「一緒にフリーの仮名漢字変換ソフトを作ろう」と声をかけてくださいました。森さんのお誘いがなければ作っていなかったと思います。どうもありがとうございました。Preferred Infrastracture の徳永拓之さんも、今後仮名漢字変換ソフトの研究を盛り上げていきましょう。

工藤拓さんは Google 日本語 N グラムの公開から仮名漢字変換の実装のアドバイスまで多岐に渡って助けていただいています。 Google 日本語 N グラムと MeCab がなければこのプログラムは成り立ちません。ありがとうございます。

浅原正幸さんは奈良先端科学技術大学院大学入学当初からチューターになっていただき、非常にのびのびとプロジェクトをやらせてもらっています。単語の辞書引きに使っている NAIST-jdic (元 IPADic) のメンテナンスとリリースも引き受けてくださっています。いつもお世話になっています。

Anthy 作者の田畑悠介さんからは Gentoo Linux の開発者をしていたころからお世話になっており、入力メソッド(IM)飲み会にも呼んでもらったり、いつも楽しい話題を振ってくださって感謝しています。フリーのかな漢字変換の開発に、少しは最新の研究成果を還元できたらなと思っています。

履歴

履歴についてもページを分けました。

Mamoru Komachi <komachi--at--tmu.ac.jp>
Tokyo Metropolitan University

ChaIME: Stochastic Input Method Editor 大規模コーパスを用いた統計的仮名漢字変換

注意