上一篇
“`java,// 需添加Apache POI依赖,import org.apache.poi.hwpf.HWPFDocument;,import org.apache.poi.hwpf.extractor.WordExtractor;,import java.io.FileInputStream;,// 读取doc文件示例,try (FileInputStream fis = new FileInputStream(“test.doc”)) {, HWPFDocument doc = new HWPFDocument(fis);, WordExtractor extractor = new WordExtractor(doc);, String text = extractor.getText();, System.out.println(text); // 输出文档文本内容,} catch (Exception e) { e.print
在Java中读取.doc文件(Microsoft Word旧版格式)需要借助第三方库,因为.doc文件是二进制格式的复合文档结构,无法通过标准的Java IO(如FileReader或BufferedReader)直接解析为文本内容,以下是使用Apache POI库读取.doc文件的详细方案:
准备工作:添加Apache POI依赖
Apache POI是开源的Java库,支持操作Microsoft Office文档(包括.doc和.docx),需在项目中引入以下依赖:

| 依赖类型 | 配置示例(Maven) | 说明 |
|---|---|---|
| Maven | <dependency>n <groupId>org.apache.poi</groupId>n <artifactId>poi</artifactId>n <version>5.2.3</version>n</dependency> |
用于.doc文件的核心依赖 |
| Gradle | implementation 'org.apache.poi:poi:5.2.3' |
同上 |
注意:若需处理.docx文件,还需添加poi-ooxml依赖。
读取.doc文件的步骤
创建输入流
FileInputStream fis = new FileInputStream("path/to/file.doc");
解析文档
使用HWPFDocument类(POI对.doc的支持):

import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.extractor.WordTextExtractor; HWPFDocument document = new HWPFDocument(fis); WordTextExtractor extractor = new WordTextExtractor(document); String text = extractor.getText(); // 提取纯文本
处理复杂内容
.doc文件可能包含段落、表格、图片等元素,需通过POI的API逐层解析:

| 功能 | 对应类/方法 | 示例代码 |
|---|---|---|
| 获取段落文本 | Range.getParagraphs() |
for (int i = 0; i < document.getRange().numParagraphs(); i++) { ... } |
| 读取表格数据 | Table[] tables = document.getTables(); |
遍历tables数组,调用Table.getRows()和Row.getCells() |
| 提取元数据 | DocumentSummaryInformation dsi = document.getDocumentSummaryInformation(); |
获取作者、标题等信息 |
.doc与.docx处理差异对比
| 特性 | .doc处理方式 |
.docx处理方式 |
|---|---|---|
| 核心类 | HWPFDocument |
XWPFDocument |
| 文本提取 | WordTextExtractor |
XWPFWordExtractor |
| 表格处理 | Table接口 |
XWPFTable类 |
完整代码示例
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordTextExtractor;
import java.io.FileInputStream;
import java.io.IOException;
public class DocReader {
public static void main(String[] args) throws IOException {
FileInputStream fis = new FileInputStream("example.doc");
HWPFDocument document = new HWPFDocument(fis);
WordTextExtractor extractor = new WordTextExtractor(document);
String content = extractor.getText();
System.out.println(content);
extractor.close();
document.close();
fis.close();
}
}
注意事项
- 性能问题:
.doc文件解析需加载整个文档到内存,大文件可能导致OOM错误,建议使用流式处理或限制文件大小。 - 兼容性:Apache POI对老旧
.doc格式的某些特性(如嵌套表格、宏)支持有限,复杂文档可能需要手动调整。 - 替代方案:若允许修改源文件格式,建议将
.doc转换为.docx,因POI对.docx的支持更完善且性能更佳。
FAQs
为什么不能用Java标准IO(如FileReader)直接读取.doc文件?
- 原因:
.doc文件是二进制格式,包含字体、段落样式、嵌入对象等复杂结构,直接按文本读取会破坏格式并产生乱码,必须通过专用库解析二进制结构。
如何读取加密的.doc文件?
- 解决:使用
HWPFDocument的密码参数构造函数:HWPFDocument document = new HWPFDocument(fis, "password");
若文档保护(如只读),需额外
