Google 日本語入力の登場により、ウェブコーパスを用いた統計的かな漢字変換の 優位性は示されたと考え、 2月16日を持って本システムの実験を停止しました。 お付き合いどうもありがとうございました。 今後はスタンドアロン版のリリースを目指します。
近年 Web などで大量なテキストデータが手に入るようになり、一般ユーザも コンピュータで文章を入力する機会が飛躍的に増えました。ワープロの時代と 比べると、Windows や Mac に付属する仮名漢字変換ソフトもだいぶ賢くなり、 それほどストレスなく変換できるようになってきました。
一方、Linux や FreeBSD といったオープンソース界における仮名漢字変換 システムは、Canna や Wnn といった Unix の古い時代からあった入力メソッドがずっと使われており、2001年になって 初めて近年デフォルトで採用するディストリビューションも増えてきた Anthy が登場しました。
現在の Anthy は確率的言語モデルの導入(2005)、識別モデルの導入(2006) を経て、モダンな仮名漢字変換システムになっていますが、Canna で用いられて いる辞書、cannadic をベースとしており、人手による単語パラメータの チューニングや、付属語辞書のメンテナンスなど、人手の介在する余地が多く、 開発にコストがかかります。
そこで、本入力メソッド ChaIME (チャイム)では、統計的自然言語処理の 手法を用い、 大規模コーパス(Google 日本語 N グラム)から推定した統計を用いることで、 データ量の問題に対処し、品詞や連接コストの人手による調整なしに高精度な 変換を可能にしています。ユーザは単語登録の際に品詞などの情報を登録しなくて よいので、辞書作成も簡単です。
ATOK 2007 の 誤変換事例に載っている例文を比較してみました。
ChaIME | ATOK 2007 | Anthy 9100c | AjaxIME |
---|---|---|---|
請求書の支払日時 | 請求書の市は来日時 | 請求書の支払い日時 | 請求書の支払いに知事 |
近く市場調査を行う。 | 知覚し冗長さを行う。 | 近く市場調査を行う。 | 近く市場調査を行う。 |
その後サイト内で | その五歳都内で | その後サイト内で | その後再都内で |
去年に比べ高い水準だ。 | 去年に比べた海水順だ。 | 去年に比べたかい水準だ。 | 去年に比べ高い水準だ。 |
昼イチまでに書類作っといて。 | 昼一までに書類津くっといて。 | 昼一までに書類作っといて。 | 肥留市までに書類作っといて。 |
そんな話信じっこないよね。 | そんな話心十個内よね。 | そんなはな視診時っこないよね。 | そんな話神事っ子ないよね。 |
初めっからもってけばいいのに。 | 恥メッカら持って毛羽いいのに。 | 恥メッカ羅持ってケバ飯野に。 | 始っから持ってけば良いのに。 |
熱々の肉まんにぱくついた。 | 熱々の肉まん二泊着いた。 | あつあつの肉まん2泊付いた。 | 熱熱の肉まんにぱくついた。 |
ブラウザから使える IME としては AjaxIME が有名ですが、AjaxIME よりは仮名漢字変換モデルをがんばっているので、多少精度がよいようです。 ATOK 2007 はたまたま失敗する事例ばかり集めているので悪く見えますが、 普段はもっとよいですね。言語モデルを Web コーパスから作り、仮名漢字 変換モデルを新聞記事から作っているので、上記4つの硬い文は ChaIME でも正しく変換できることは予測可能ですが、下記4つは難しいです。 このような文体で書かれたコーパス(ブログデータ?)から仮名漢字変換モデル を学習するとうまく行くかもしれません。
統計的仮名漢字変換について ページを分けました。
Google 日本語 N グラムデータはこちら から購入することができますが、商用利用不可・学術目的限定ですので、 当サイト以外でこのデータを用いた入力メソッドを公開する予定はありません。 個人的にクロールしたデータ(e.g. Wikipedia)から抽出した統計量を用いた バージョンは要望があれば用意するかもしれません。
本入力メソッドの一部は奈良先端科学技術大学院大学 Creative and International Competitiveness Project 2007 (学生主体のプロジェクト型研究) の支援を受けています。
現京都大学の森信介さんには2007年の言語処理学会で「一緒にフリーの仮名漢字変換ソフト を作ろう」と声をかけてくださいました。森さんのお誘いがなければ作って いなかったと思います。どうもありがとうございました。Preferred Infrastracture の徳永拓之さんも、今後仮名漢字変換ソフトの研究を盛り上げていきましょう。
工藤拓さんは Google 日本語 N グラムの公開から仮名漢字変換の実装の アドバイスまで多岐に渡って助けていただいています。 Google 日本語 N グラムと MeCab がなければこのプログラムは成り立ちません。 ありがとうございます。
浅原正幸さんは奈良先端科学技術大学院大学入学当初からチューターになって いただき、非常にのびのびとプロジェクトをやらせてもらっています。 単語の辞書引きに使っている NAIST-jdic (元 IPADic) のメンテナンスと リリースも引き受けてくださっています。いつもお世話になっています。
Anthy 作者の田畑悠介さんからは Gentoo Linux の開発者をしていたころから お世話になっており、入力メソッド(IM)飲み会にも呼んでもらったり、いつも 楽しい話題を振ってくださって感謝しています。フリーのかな漢字変換の開発に、 少しは最新の研究成果を還元できたらなと思っています。
履歴についてもページを分けました。