Colorful Wires

エンジニアリングの勉強の記録

Document Classification Algorithms

ちょっと古い文献ですが、文書分類で使う特徴選択法について調べるために読みました。

知りたいこと

  • 特徴選択はどれくらいパフォーマンスに影響するのか。
  • Text Classification で使われる特徴選択法はどんなものがあるか

特徴選択はどれくらいパフォーマンスに影響するのか

  • 判別器やデータセットにかなり依存する。
  • 文献ではなんと特徴選択しない SVM が最も良い精度というオチだった。
  • まず手法自体は色々試したほうがいいよね、ということが学べました。

Text Classification で使われる特徴選択法はどんなものがあるか

  • Information Gain
  • Mutual Information
  • Chi-Square
  • Recursive Feature Elmination (RFE)
    • 時間がかかる。
    • 筆者は、高速な方法 (Improved RFE) を提案したようです。