Colorful Wires

エンジニアリングの勉強の記録

One-class Document Classification

One-class Document Classification: One-class Document Classification via Neural Networks and Support Vector Machines

One-class Document Classification: One-class Document Classification via Neural Networks and Support Vector Machines

作者:Yousef, Malik
発売日: 2009/06/03
メディア: ペーパーバック

知りたいこと

自分の知らない特徴量の作り方は何かあるか。

Hadamard Product

筆者は、アダマール積という特徴量が有効だと言っています。

アダマール積といっても、何のことはなく、Bag of words の重みづけに、トレーニングデータでの単語の出現回数を使う方法です。

タスクによってはよいのかもしれないです。（この文献のタスクは One-class のため、有効に効きそうです）

トレーニングデータの文書数が増えると、重みが Document Frequency に近づくと思いますので、コーパスによっては、IDF とは逆の傾向が出ると思います。通常 TF-IDF がうまくいくことを考えると、 One-class でないタスクにはうまくいかなそうな印象を持ちました。