自然言語処理研究者のための Wikipedia との付き合い方。

Wikipedia のダウンロード

クローラは使わない。Wikimedia Downloads から圧縮ファイルがダウンロードできる。同一 IP から同時にコネクションを張ったりするとアクセス禁止になることもあるので、 複数コネクションを張るようなダウンロードクライアントを使っている人は注意。

MySQL の高速化

MySQL の INSERT が遅いときは自動コミットのせいなので

  1. set autocommit=0
  2. start transaction
  3. commit

と手動でコミットするようにすれば速くなる。

必要なデータだけロードする

対訳対を得たりするのは langlinks.sql をロードすればいいが、 とりあえず全言語間での翻訳対が不要なときは ll_lang を見て必要な言語の データだけロードするようにする。(2008年5月現在81言語ある)


Mamoru Komachi <komachi--at--tmu.ac.jp>
Tokyo Metropolitan University