各種バイナリ文章全文検索ツール
拡張子.pdf, .xls, .doc などの各種バイナリ文章ファイルからテキストを抽出し、全文検索できるツールを作りました。
ダウンロード
対応拡張子
対応の拡張子は以下の通りです。
| 拡張子 | ファイル種類 |
| .rtf | リッチテキスト |
| .docx | Microsoft WORD 2007/2010/2013(OOXML) |
| .xlsx | Microsoft Excel 2007/2010/2013(OOXML) |
| .pptx | Microsoft PowerPoint 2007/2010/2013(OOXML) |
| .doc | Microsoft WORD ver5.0/95/97/2000/XP/2003 |
| .xls | Microsoft Excel ver5.0/95/97/2000/XP/2003 |
| .ppt | Microsoft PowerPoint 97/2000/XP/2003 |
| .sxw/.sxc/.sxi/.sxd | OpenOffice.org |
| .odt/.ods/.odp/.odg | Open Document |
| .jaw/jtw | 一太郎 ver5 |
| .jbw/juw | 一太郎 ver6 |
| .jfw/jvw | 一太郎 ver7 |
| .jtd/jtt | 一太郎 ver8/9/10/11/12 |
| .oas/oa2/oa3 | OASYS/Win |
| .bun | 新松/松5/松6 |
| .wj2/wj3/wk3/wk4/123 | Lotus 123 |
| .wri | Windows3.1 Write |
| Adobe PDF | |
| .mht/mhtml | Webアーカイブ |
| .html | HTML |
| .eml | OutlookExpressのエクスポート形式 |
ソースコード
こちらのツールはオープンソースであり、どなたでも自由に改変・再配布可能です。ソースコードは以下にあります。
謝辞
このツールのテキストの抽出には http://ebstudio.info/home/xdoc2txt.html を使用させていただいております。


コメント