webmining


ウェブマイニング

大規模サービス技術入門(技術評論社 2010)

どのようにスケーラブルなウェブサービスを作るか、という内容で、検索エンジンを作る過程で文字列処理や記事の分類タスクなどが登場。大規模化するというのは単にデータを大きくすればいいというわけではなく、情報科学の基礎知識がちゃんと分かった上でないとできない、ということがよく分かる良書。

Google を支える技術(技術評論社 2008)

Google の検索エンジンを支える技術を、公開されている論文の紹介をすることで解説するというコンセプトの本。単なる翻訳ではなく、理解しやすいように丁寧に書かれている。『大規模サービス技術入門』同様、大規模化するに当たっての課題を理解できる。

バッドデータハンドブック(オライリー 2013)

アンソロジー形式の本で、いろいろな内容について書かれているが、現実のデータは人工データとは違い、例外と戦わなければいけないし、大規模化する必要もないのに無闇に大規模化してしまって失敗した、というような教訓が書かれた実例集。ウェブデータをどのようにスクレイピング(ほしい情報をウェブサイトから抽出)するか、といった内容も、体系的ではないがあちこちの章に分散して書かれている。他の解説はたとえば 現実はバッドデータが9割 を参照。

Python によるデータ分析入門 -- NumPy、pandas を使ったデータ処理 第2版(オライリー 2018)

ウェブマイニングというよりデータマイニングや機械学習のテーマだが、NumPy/SciPy という強力な数値計算ライブラリや matplotlib による可視化、pandas によるデータ分析、ipython による操作など、かゆいところに手が届く大変な良書。scikit-learn について紹介されていればデータマイニング・機械学習入門としても完璧であった。他の解説はたとえば 詳しい人が読んでも楽しめる入門書は良書 を参照。

集合知プログラミング(オライリー 2008)

Python で機械学習のアルゴリズムについて解説した本。現実的な設定でコードが豊富に載っているのでお勧め。最近は紹介されているサービスやAPI等ちょっと古いかもしれない。

入門ソーシャルデータ(オライリー 2011)

Python でウェブマイニングに関するいろいろなトピックについて解説した本。翻訳はいまいちだが、コードが豊富に載っているのでお勧め(ただし、コードが読みやす いとは限らないので、Python の入門書を片手に読んだほうがよい。また、この本のプログラミングの仕方は参考にしないほうがよい)。たとえば 『入門ソーシャルデータ』で文書クラスタリングと文書要約を学ぶ を参照。2014年に第2版が出たようなので、もしかしたら改善されているかもしれない。

Comments