ChaIME の更新履歴・研究開発ログ

トップに戻る

2008年12月28日
第1回入力メソッドワークショップ(WIM 2008)開催。さまざまな人が集まった。 夜は飲み会。濃い集まり……(いい意味で)
2008年12月9日
Hadoop 上でクラスタリングのコードが動き始める。しかし時間がない……
2008年12月2日
クラスベースのクラスタリングのコードを書き始める。目的は精度の向上と モデルサイズの縮小。
2008年9月23日
自然言語処理若手の会にてポスター発表。 自然言語処理の研究者の前で話したのは初めてだったが、いろいろおもしろい コメント、というか新機能のアイデアをもらう。
2008年9月7日
情報処理学会夏のプログラミング・シンポジウムで口頭発表。 興味は持ってもらえたのだが、少し場違いな感じであった。 (プログラミングの品格について語り合う飲み会的な場所だったので……)
2008年9月1日
共同研究先の人が元 MS にいたらしく、統計的な手法を用いた IME についても 興味があるそうで、いろいろ意見交換する。
2008年4月15日
SKK サーバプロトコルを実装する。しかし Emacs クライアント(ddskk)から使えない。優先度高くないのでこのまま。
2008年4月14日
AjaxIME からインタフェースを拝借する。工藤さんありがとうございます。
2008年4月9日
MeCab の nbest_generator.{cpp,h} を見ながら後ろ向き A* 探索を書く (Google の工藤さん、NTT の永田さん助言ありがとうございます)。 N-best 解が出せるようになる。速度的にはそんなに気にならないが、 メモリに乗るか乗らないか問題があるので、クラスタリングでサイズ削減する予定。
2008年4月7日
仮名漢字モデルも(これまでハッシュに入れていたが)辞書引きすることにした。 辞書のサイズは合わせて TokyoCabinet で2GB程度。Tx を使うと1GB程度になる。 メモリに乗れば検索は速いが、乗らないとものすごく遅い。 Tx の mmap 版を試してみる。
2008年3月25日
2-gram の確率値を毎回計算するのでなく4096 * -log(P)を用いることにした(森さんの助言による)。体感かなり速くなった。
2008年3月22日
慶應義塾大学の理工学部のキャンパスへ行き、Social IME 作者の nokuno さんと意見交換。Social IME Web API の仕様の話や今後の高速化についての話など。
2008年3月18日
言語処理学会第14回年次大会にて森さんから高速化手法についてアドバイスを受ける。また、某社にて仮名漢字変換エンジンの開発をなさっている方からいろいろ助言をいただく。
2008年3月14日
プロジェクト報告書提出(大学院教育改革プログラムにおける開発期間終了)。本サイト公開。
2008年3月11日
研究室内で公開し、Firefox だけでしか動作確認していなかったが Safari と Internet Explorer にも対応した。Apache の設定をいじって接続に失敗する問題を解決。
2008年3月10日
Ajax でローマ字→仮名変換するように修正を加える。スプリングセミナーのデモではひらがなで入力してもらっていたのでいまいちだった。工藤さんの AjaxIME を参考にしようとしたが、1日では理解するのが不可能だったので、簡単なほうに流れてしまう。
2008年3月7日
NAIST スプリングセミナーでポスター&デモ。22プロジェクト中ちょうど真ん中くらいの人気。ビームサーチだと枝狩りの影響でぐちゃぐちゃな変換結果が出るので、遅くてもまともな変換結果のほうがよかろうと Viterbi 検索にする。変換がやたら遅いのが気になるが、一回変換すると変換結果がキャッシュされるのでそんなに遅くなかったりする(半分インチキ)。DP した結果はあるので A* 探索すれば N-best が出せるはずなのだが、時間的に間に合わず。
2008年2月27日
研究室内で中間報告&デモ。精度も悪く時間もかかるので、あまり評判はよくなかった。動的計画法で全探索するとやたら重いのでビームサーチしていた。しかし長い文を入れると残ってほしい候補がビーム幅の影響で消えてしまうという問題があった。
2008年2月20日
単語分かち書きしなくても変換できるようになる。自動単語分割のやり方が分かる。
2008年2月18日
(このころまでに)単語分かち書きすれば変換できるようになる。分かち書きさえできればあとは辞書を見るだけなので、結局時間がかかるのは(Microsoft Research でもそうだったが)大規模なデータをどう扱っていくかというところである。
2008年2月8日
ようやく Google 日本語 N グラムが届いたのでコードを書き始める。結局言語モデルは自分で作ることになると思い、一から実装することに決定。
2007年12月30日
第2回目入力メソッド飲み会。マウンテンビューにいる田畑さんの代わりにローカルオーガナイザーになるつもりが、田畑さんに調整してもらって、森さんに会場提供してもらって、oxy くんに店の予約してもらい、頭が下がる。まだコードは書いていなかったがコンセプトについて話した。年内は森さんの研究室の学生さんが書いた単漢字の仮名漢字変換エンジンのコードを読んでいた。
2007年10月19日
NAIST の大学院教育改革プログラムのプロジェクトの一つに採択される。チューターは浅原さん。
2007年10月10日
インターンから帰ってきたので研究室の研究会で秋口から作ろうと思っている仮名漢字変換エンジンについて話す。ちょうど NAIST で大学院教育改革プログラムが採択され、学生企画のプロジェクトを募集していたので、簡単にまとめて応募してみる。最初 Anthy をベースにしようかという話だったが、森さんと話し合った結果独自路線で API だけ揃えましょう、というところに落ち着く。
2007年3月22日
IBM 東京基礎研究所(当時)の森さんと予測入力のポスター発表を聞いていて フリーの仮名漢字変換エンジンを作りませんか、と声をかけてもらう。 森さんとは2006年6月にシドニーであった国際会議で知り合い、そのとき仮名漢字 変換に興味があるということを伝えていたのであった。5月から Microsoft Research に行って MS-IME を使ったなにかの研究をさせてもらうつもりだったが、 こちらでやるとなると MS-IME のソースコードとか見るとまずいので、 インターンのテーマは検索ログを使ったものにしてもらう。 インターン中メンターを引き受けてくれた人は MS-IME の日本語部分を担当していた 人である。
2006年12月29日
田畑さんに誘ってもらって関西 input method 飲み会。Mana 作者の yoriyuki さんから chasen をペースに入力メソッドを作った話を聞く。 chasen のコードは何人もの手が入っていていろいろすごいことになっていた という話も聞いていたので、大変だったろうなあと想像。 自分で参考にするなら mecab を読もうと思う。自分は研究と開発の中間というか そのあたりを行ったり来たりするのがいいなかなと思う。
2005年10月29日
関西オープンソースにて風博士作者の zoe さんに誘ってもらって焼肉に行くと Sumibi 作者の kiyoka さんがいたので Sumibi の話を聞いたりする。 はてなダイアリーの全データを追加したら1.5GBでかなりよくなっただとか そういう話を聞いて少し興奮する。まだ自然言語処理学び始めたばかりだったので、 自動的にコーパスを追加すれば変換できるようになるというのが理解できなかった。
2004年11月27日
Anthy 作者田畑さんのお誘いで uim conference に出る。このころはまだ HMM (隠れマルコフモデル) なにそれ? という感じだった。ちなみにまだ NAIST に進学するか東大でフィールド言語学の研究するか迷っていたが、 半年後には NAIST に来ていた。田畑さんには有形無形ものすごくお世話になる。
2003年9月-2004年3月くらい
uim メンテナ(当時)の tkng さんがものすごい勢いで uim のバグを直して くれるので Gentoo 開発者(当時)として本家のパッケージに入れたり tkng さんにさらにバグリポートしたり。自分が仮名漢字変換エンジン 作ることになるとは思っていなかった。

Mamoru Komachi <komachi--at--tmu.ac.jp>
Tokyo Metropolitan University