ChaIME の更新履歴・研究開発ログ

トップに戻る

2008年12月28日: 第1回入力メソッドワークショップ(WIM 2008)開催。さまざまな人が集まった。夜は飲み会。濃い集まり……(いい意味で)
2008年12月9日: Hadoop 上でクラスタリングのコードが動き始める。しかし時間がない……
2008年12月2日: クラスベースのクラスタリングのコードを書き始める。目的は精度の向上とモデルサイズの縮小。
2008年9月23日: 自然言語処理若手の会にてポスター発表。自然言語処理の研究者の前で話したのは初めてだったが、いろいろおもしろいコメント、というか新機能のアイデアをもらう。
2008年9月7日: 情報処理学会夏のプログラミング・シンポジウムで口頭発表。興味は持ってもらえたのだが、少し場違いな感じであった。 (プログラミングの品格について語り合う飲み会的な場所だったので……)
2008年9月1日: 共同研究先の人が元 MS にいたらしく、統計的な手法を用いた IME についても興味があるそうで、いろいろ意見交換する。
2008年4月15日: SKK サーバプロトコルを実装する。しかし Emacs クライアント(ddskk)から使えない。優先度高くないのでこのまま。
2008年4月14日: AjaxIME からインタフェースを拝借する。工藤さんありがとうございます。
2008年4月9日: MeCab の nbest_generator.{cpp,h} を見ながら後ろ向き A* 探索を書く (Google の工藤さん、NTT の永田さん助言ありがとうございます)。 N-best 解が出せるようになる。速度的にはそんなに気にならないが、メモリに乗るか乗らないか問題があるので、クラスタリングでサイズ削減する予定。
2008年4月7日: 仮名漢字モデルも(これまでハッシュに入れていたが)辞書引きすることにした。辞書のサイズは合わせて TokyoCabinet で2GB程度。Tx を使うと1GB程度になる。メモリに乗れば検索は速いが、乗らないとものすごく遅い。 Tx の mmap 版を試してみる。
2008年3月25日: 2-gram の確率値を毎回計算するのでなく4096 * -log(P)を用いることにした(森さんの助言による)。体感かなり速くなった。
2008年3月22日: 慶應義塾大学の理工学部のキャンパスへ行き、Social IME 作者の nokuno さんと意見交換。Social IME Web API の仕様の話や今後の高速化についての話など。
2008年3月18日: 言語処理学会第14回年次大会にて森さんから高速化手法についてアドバイスを受ける。また、某社にて仮名漢字変換エンジンの開発をなさっている方からいろいろ助言をいただく。
2008年3月14日: プロジェクト報告書提出(大学院教育改革プログラムにおける開発期間終了)。本サイト公開。
2008年3月11日: 研究室内で公開し、Firefox だけでしか動作確認していなかったが Safari と Internet Explorer にも対応した。Apache の設定をいじって接続に失敗する問題を解決。
2008年3月10日: Ajax でローマ字→仮名変換するように修正を加える。スプリングセミナーのデモではひらがなで入力してもらっていたのでいまいちだった。工藤さんの AjaxIME を参考にしようとしたが、1日では理解するのが不可能だったので、簡単なほうに流れてしまう。
2008年3月7日: NAIST スプリングセミナーでポスター&デモ。22プロジェクト中ちょうど真ん中くらいの人気。ビームサーチだと枝狩りの影響でぐちゃぐちゃな変換結果が出るので、遅くてもまともな変換結果のほうがよかろうと Viterbi 検索にする。変換がやたら遅いのが気になるが、一回変換すると変換結果がキャッシュされるのでそんなに遅くなかったりする(半分インチキ)。DP した結果はあるので A* 探索すれば N-best が出せるはずなのだが、時間的に間に合わず。
2008年2月27日: 研究室内で中間報告&デモ。精度も悪く時間もかかるので、あまり評判はよくなかった。動的計画法で全探索するとやたら重いのでビームサーチしていた。しかし長い文を入れると残ってほしい候補がビーム幅の影響で消えてしまうという問題があった。
2008年2月20日: 単語分かち書きしなくても変換できるようになる。自動単語分割のやり方が分かる。
2008年2月18日: (このころまでに)単語分かち書きすれば変換できるようになる。分かち書きさえできればあとは辞書を見るだけなので、結局時間がかかるのは(Microsoft Research でもそうだったが)大規模なデータをどう扱っていくかというところである。
2008年2月8日: ようやく Google 日本語 N グラムが届いたのでコードを書き始める。結局言語モデルは自分で作ることになると思い、一から実装することに決定。
2007年12月30日: 第2回目入力メソッド飲み会。マウンテンビューにいる田畑さんの代わりにローカルオーガナイザーになるつもりが、田畑さんに調整してもらって、森さんに会場提供してもらって、oxy くんに店の予約してもらい、頭が下がる。まだコードは書いていなかったがコンセプトについて話した。年内は森さんの研究室の学生さんが書いた単漢字の仮名漢字変換エンジンのコードを読んでいた。
2007年10月19日: NAIST の大学院教育改革プログラムのプロジェクトの一つに採択される。チューターは浅原さん。
2007年10月10日: インターンから帰ってきたので研究室の研究会で秋口から作ろうと思っている仮名漢字変換エンジンについて話す。ちょうど NAIST で大学院教育改革プログラムが採択され、学生企画のプロジェクトを募集していたので、簡単にまとめて応募してみる。最初 Anthy をベースにしようかという話だったが、森さんと話し合った結果独自路線で API だけ揃えましょう、というところに落ち着く。
2007年3月22日: IBM 東京基礎研究所(当時)の森さんと予測入力のポスター発表を聞いていてフリーの仮名漢字変換エンジンを作りませんか、と声をかけてもらう。森さんとは2006年6月にシドニーであった国際会議で知り合い、そのとき仮名漢字変換に興味があるということを伝えていたのであった。5月から Microsoft Research に行って MS-IME を使ったなにかの研究をさせてもらうつもりだったが、こちらでやるとなると MS-IME のソースコードとか見るとまずいので、インターンのテーマは検索ログを使ったものにしてもらう。インターン中メンターを引き受けてくれた人は MS-IME の日本語部分を担当していた人である。
2006年12月29日: 田畑さんに誘ってもらって関西 input method 飲み会。Mana 作者の yoriyuki さんから chasen をペースに入力メソッドを作った話を聞く。 chasen のコードは何人もの手が入っていていろいろすごいことになっていたという話も聞いていたので、大変だったろうなあと想像。自分で参考にするなら mecab を読もうと思う。自分は研究と開発の中間というかそのあたりを行ったり来たりするのがいいなかなと思う。
2005年10月29日: 関西オープンソースにて風博士作者の zoe さんに誘ってもらって焼肉に行くと Sumibi 作者の kiyoka さんがいたので Sumibi の話を聞いたりする。はてなダイアリーの全データを追加したら1.5GBでかなりよくなっただとかそういう話を聞いて少し興奮する。まだ自然言語処理学び始めたばかりだったので、自動的にコーパスを追加すれば変換できるようになるというのが理解できなかった。
2004年11月27日: Anthy 作者田畑さんのお誘いで uim conference に出る。このころはまだ HMM (隠れマルコフモデル) なにそれ? という感じだった。ちなみにまだ NAIST に進学するか東大でフィールド言語学の研究するか迷っていたが、半年後には NAIST に来ていた。田畑さんには有形無形ものすごくお世話になる。
2003年9月-2004年3月くらい: uim メンテナ(当時)の tkng さんがものすごい勢いで uim のバグを直してくれるので Gentoo 開発者(当時)として本家のパッケージに入れたり tkng さんにさらにバグリポートしたり。自分が仮名漢字変換エンジン作ることになるとは思っていなかった。

Mamoru Komachi <komachi--at--tmu.ac.jp>
Tokyo Metropolitan University