テキストマイニング

ドキュメントからテキストのみを抽出する

先日の修正版のさらに修正版 http://d.hatena.ne.jp/m-tanaka/20080129 http://d.hatena.ne.jp/m-tanaka/20080206FilterがNULL文字列を返却したさいに、StringBuilderだとうまく扱えないので、少し修正 //参考 //http://sqljunkies.com/HowTo/C4AC6E97-8D84-…

ドキュメントからテキストのみを抽出する

先日の修正版 http://d.hatena.ne.jp/m-tanaka/20080129FilterがNULL文字列を返却したさいに、StringBuilderだとうまく扱えないので、少し修正 //参考 //http://sqljunkies.com/HowTo/C4AC6E97-8D84-411D-8551-08CE63EC99B6.scuk using System; using System…

ドキュメントからテキストのみを抽出する

ちょっと思うところがあって、テキストマイニングに挑戦中。 まずは、対象となるテキストを集める必要があるのだが、多くのドキュメントはWordやExcel、PDFで保存さているのでこれらのドキュメントからテキストを抽出する必要がある。 そこで、http://sqljun…