Colorful Wires

エンジニアリングの勉強の記録

マルチラベル文書分類での特徴量生成後の処理

マルチラベルの文書分類タスクで特徴量生成後に行う処理のアプローチを調査しました。

知りたいことは以下の 2 点です。

特徴量を所与として分類を判定する処理にはどんなものがあるか
複数の特徴量を統合する処理にはどんなものがあるか

特徴量を所与として分類を判定する処理の概要

参考文献では、利用可能なアプローチを以下のように整理しています。

Knowlede Engineering
Machine Learning
- Popular Approach
  - Multinominal Naive Bayes (pp.38-39)
  - Decesion Tree
  - SVM
  - kNN
- Unpopular Approach
  - Distance Based Learning (カテゴリ平均を求めておき、距離をみる)
    - Euclidean distance
    - Projection distance
    - Modified Projecction distance
  - Linear Discriminant Function
  - Regularized Linear Discriminant Function (ドキュメント数が特徴量の次元数より少ないとき)
  - Logistic Regression

正解データ数が少ないときに、判別機の学習を行わず、事例ベースでコサイン類似度などで判定を行う方法を使うことがあります。この方法は、kNN の $k=1$ のバージョンつまり最近傍法としておくと、上の整理の枠組みに収まります。

複数の特徴量を統合する処理

参考文献では FI (Feature Integration) としていますが、これはドキュメントの複数の特徴量を単純に連結する方法です。次元がどんどん増えてしまうものの、PCA で次元を落とせば問題ないようです。

参考文献

Automated Document Classification: Methods and Algorithms

Automated Document Classification: Methods and Algorithms

作者:Busagala, Lazaro S.P.
発売日: 2010/09/02
メディア: ペーパーバック

※文書分類の流れ

Feature Generation
Feature Reduction
document frequency
Learning
Classification

※参考文献 1 の提案手法について

TF-IDF よりも RFPT (Relative term Frequency with Power Transformation) の方が優れているという主張。
OCR で取得した、文字認識に間違いのあるデータに対して RFPT が効果的らしい。面白い観点です。
次元削減の方法としては PCA と、正準相関分析(CDA) を組み合わせて使用。