各種バイナリ文章全文検索ツール
拡張子.pdf, .xls, .doc などの各種バイナリ文章ファイルからテキストを抽出し、全文検索できるツールを作りました。
ダウンロード
対応拡張子
対応の拡張子は以下の通りです。
拡張子 | ファイル種類 |
.rtf | リッチテキスト |
.docx | Microsoft WORD 2007/2010/2013(OOXML) |
.xlsx | Microsoft Excel 2007/2010/2013(OOXML) |
.pptx | Microsoft PowerPoint 2007/2010/2013(OOXML) |
.doc | Microsoft WORD ver5.0/95/97/2000/XP/2003 |
.xls | Microsoft Excel ver5.0/95/97/2000/XP/2003 |
.ppt | Microsoft PowerPoint 97/2000/XP/2003 |
.sxw/.sxc/.sxi/.sxd | OpenOffice.org |
.odt/.ods/.odp/.odg | Open Document |
.jaw/jtw | 一太郎 ver5 |
.jbw/juw | 一太郎 ver6 |
.jfw/jvw | 一太郎 ver7 |
.jtd/jtt | 一太郎 ver8/9/10/11/12 |
.oas/oa2/oa3 | OASYS/Win |
.bun | 新松/松5/松6 |
.wj2/wj3/wk3/wk4/123 | Lotus 123 |
.wri | Windows3.1 Write |
Adobe PDF | |
.mht/mhtml | Webアーカイブ |
.html | HTML |
.eml | OutlookExpressのエクスポート形式 |
ソースコード
こちらのツールはオープンソースであり、どなたでも自由に改変・再配布可能です。ソースコードは以下にあります。
謝辞
このツールのテキストの抽出には http://ebstudio.info/home/xdoc2txt.html を使用させていただいております。
コメント