上一篇                     
               
			  javaio怎么读取doc
- 后端开发
- 2025-07-23
- 3742
 “`java,// 需添加Apache POI依赖,import org.apache.poi.hwpf.HWPFDocument;,import org.apache.poi.hwpf.extractor.WordExtractor;,import java.io.FileInputStream;,// 读取doc文件示例,try (FileInputStream fis = new FileInputStream(“test.doc”)) {, HWPFDocument doc = new HWPFDocument(fis);, WordExtractor extractor = new WordExtractor(doc);, String text = extractor.getText();, System.out.println(text); // 输出文档文本内容,} catch (Exception e) { e.print
 
在Java中读取.doc文件(Microsoft Word旧版格式)需要借助第三方库,因为.doc文件是二进制格式的复合文档结构,无法通过标准的Java IO(如FileReader或BufferedReader)直接解析为文本内容,以下是使用Apache POI库读取.doc文件的详细方案:
准备工作:添加Apache POI依赖
Apache POI是开源的Java库,支持操作Microsoft Office文档(包括.doc和.docx),需在项目中引入以下依赖:
| 依赖类型 | 配置示例(Maven) | 说明 | 
|---|---|---|
| Maven | <dependency>n <groupId>org.apache.poi</groupId>n <artifactId>poi</artifactId>n <version>5.2.3</version>n</dependency> | 用于 .doc文件的核心依赖 | 
| Gradle | implementation 'org.apache.poi:poi:5.2.3' | 同上 | 
注意:若需处理.docx文件,还需添加poi-ooxml依赖。
读取.doc文件的步骤
 
创建输入流
FileInputStream fis = new FileInputStream("path/to/file.doc"); 
解析文档
使用HWPFDocument类(POI对.doc的支持):
import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.extractor.WordTextExtractor; HWPFDocument document = new HWPFDocument(fis); WordTextExtractor extractor = new WordTextExtractor(document); String text = extractor.getText(); // 提取纯文本
处理复杂内容
.doc文件可能包含段落、表格、图片等元素,需通过POI的API逐层解析:
| 功能 | 对应类/方法 | 示例代码 | 
|---|---|---|
| 获取段落文本 | Range.getParagraphs() | for (int i = 0; i < document.getRange().numParagraphs(); i++) { ... } | 
| 读取表格数据 | Table[] tables = document.getTables(); | 遍历 tables数组,调用Table.getRows()和Row.getCells() | 
| 提取元数据 | DocumentSummaryInformation dsi = document.getDocumentSummaryInformation(); | 获取作者、标题等信息 | 
.doc与.docx处理差异对比
 
| 特性 | .doc处理方式 | .docx处理方式 | 
|---|---|---|
| 核心类 | HWPFDocument | XWPFDocument | 
| 文本提取 | WordTextExtractor | XWPFWordExtractor | 
| 表格处理 | Table接口 | XWPFTable类 | 
完整代码示例
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordTextExtractor;
import java.io.FileInputStream;
import java.io.IOException;
public class DocReader {
    public static void main(String[] args) throws IOException {
        FileInputStream fis = new FileInputStream("example.doc");
        HWPFDocument document = new HWPFDocument(fis);
        WordTextExtractor extractor = new WordTextExtractor(document);
        String content = extractor.getText();
        System.out.println(content);
        extractor.close();
        document.close();
        fis.close();
    }
} 
注意事项
- 性能问题:.doc文件解析需加载整个文档到内存,大文件可能导致OOM错误,建议使用流式处理或限制文件大小。
- 兼容性:Apache POI对老旧.doc格式的某些特性(如嵌套表格、宏)支持有限,复杂文档可能需要手动调整。
- 替代方案:若允许修改源文件格式,建议将.doc转换为.docx,因POI对.docx的支持更完善且性能更佳。
FAQs
为什么不能用Java标准IO(如FileReader)直接读取.doc文件?
 
- 原因:.doc文件是二进制格式,包含字体、段落样式、嵌入对象等复杂结构,直接按文本读取会破坏格式并产生乱码,必须通过专用库解析二进制结构。
如何读取加密的.doc文件?
 
- 解决:使用HWPFDocument的密码参数构造函数:HWPFDocument document = new HWPFDocument(fis, "password"); 若文档保护(如只读),需额外 
 
  
			