知りたいこと
- 自分の知らない特徴量の作り方は何かあるか。
Hadamard Product
筆者は、アダマール積という特徴量が有効だと言っています。
アダマール積といっても、何のことはなく、Bag of words の重みづけに、 トレーニングデータでの単語の出現回数を使う方法です。
タスクによってはよいのかもしれないです。 (この文献のタスクは One-class のため、有効に効きそうです)
トレーニングデータの文書数が増えると、 重みが Document Frequency に近づくと思いますので、 コーパスによっては、IDF とは逆の傾向が出ると思います。 通常 TF-IDF がうまくいくことを考えると、 One-class でないタスクにはうまくいかなそうな印象を持ちました。