网友评分:
5分
Extract Text 能够提取不同类型文档的文本内容。它基于微软索引服务器中的技术,该服务器使用称为iFilter的东西来索引文件中的文本。
从PDF文档中提取文本
从PDF文件中提取文本所需的PDF过滤器DLL包含在Adobe Reader 7.0.5到9.x中。从Adobe Reader 10(也称为Adobe Reader x)的发布开始,该DLL不再是Adobe Reader安装的一部分。
从Office文档中提取文本
Microsoft提供了一个筛选器包,使您能够从以下文件格式提取文本:.docx、.docm、.pptx、.pptm、.xlsx、.xlsm、.xlsb、.zip、.one、.vdx、.vsd、.vss、.vst、.vdx、.vsx和.vtx。
这个程序使用起来很简单。它是一个命令行实用程序,只接受两个参数。它必须知道要从中提取文本的文档的文件名。它还需要保存提取文本的新文件的文件名。
支持32位和64位过滤器。
现在使用Microsoft.NET 4.0而不是2.0。
标签: 文本提取