Colorful Wires

エンジニアリングの勉強の記録

One-class Document Classification

知りたいこと

  • 自分の知らない特徴量の作り方は何かあるか。

Hadamard Product

筆者は、アダマール積という特徴量が有効だと言っています。

アダマール積といっても、何のことはなく、Bag of words の重みづけに、 トレーニングデータでの単語の出現回数を使う方法です。

タスクによってはよいのかもしれないです。 (この文献のタスクは One-class のため、有効に効きそうです)

レーニングデータの文書数が増えると、 重みが Document Frequency に近づくと思いますので、 コーパスによっては、IDF とは逆の傾向が出ると思います。 通常 TF-IDF がうまくいくことを考えると、 One-class でないタスクにはうまくいかなそうな印象を持ちました。