テキスト分類とクラスタリングについて、包括的にまとめた一冊です。

知りたいこと

Text indexing とは何か

Text indexing とは、文や複数の文を単語のリストにすることです。

そういえば、過去に Text indexing を明確に 1 つのプロセスと考えず、非構造化されたままプログラムを書いたことがあります。見通しが悪くなった記憶があります。

おおよそ以下の流れになるようです。

私が忘れたことのある処理です。

Stemming では Root にします。(例: simplest → simple)

日本語ではどうするのが良いのかは別にまとめます。

英語では on, to, in, but, however などを指定します。 negative な単語は、感情の推定時などには、例外的に残します。

重みの小さな語を捨てることです。

捨て方には大きく 3 つのアプローチがあります。 1. ランクベースのアプローチ。決まった個数の上位の単語を残します。 2. スコアベースのアプローチ。しきい値以上の単語を残します。 3. 混合アプローチ。

単語の位置によって、捨てるか捨てないかを変える方法もあります。パラグラフの最初と最後には重要な語があります。

事前に文長を検討することは重要で、文長が短い場合は情報が落ちる可能性が大きくなるので、 Index Filtering を行わないことがあります。

文に含まれていない関連のある語を追加することです。

External words (virtual words) という、関連のある単語を、検索エンジンを使って取得します。これにより、単語数が増えます。

ここでは、Collocation を使います。

単語毎に以下を選ぶ問題として最適化することのようです。

後で書きます。