当前位置：首页 > 后端开发 > 正文

javaio怎么读取doc

admin
后端开发
2025-07-23
3742

“`java，// 需添加Apache POI依赖，import org.apache.poi.hwpf.HWPFDocument;，import org.apache.poi.hwpf.extractor.WordExtractor;，import java.io.FileInputStream;，// 读取doc文件示例，try (FileInputStream fis = new FileInputStream(“test.doc”)) {， HWPFDocument doc = new HWPFDocument(fis);， WordExtractor extractor = new WordExtractor(doc);， String text = extractor.getText();， System.out.println(text); // 输出文档文本内容，} catch (Exception e) { e.print

在Java中读取.doc文件（Microsoft Word旧版格式）需要借助第三方库，因为.doc文件是二进制格式的复合文档结构，无法通过标准的Java IO（如FileReader或BufferedReader）直接解析为文本内容，以下是使用Apache POI库读取.doc文件的详细方案：

准备工作：添加Apache POI依赖

Apache POI是开源的Java库，支持操作Microsoft Office文档（包括.doc和.docx）,需在项目中引入以下依赖：

依赖类型	配置示例（Maven）	说明
Maven	`<dependency>n <groupId>org.apache.poi</groupId>n <artifactId>poi</artifactId>n <version>5.2.3</version>n</dependency>`	用于`.doc`文件的核心依赖
Gradle	`implementation 'org.apache.poi:poi:5.2.3'`	同上

注意：若需处理.docx文件，还需添加poi-ooxml依赖。

读取`.doc`文件的步骤

创建输入流

FileInputStream fis = new FileInputStream("path/to/file.doc");

解析文档

使用HWPFDocument类（POI对.doc的支持）：

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordTextExtractor;
HWPFDocument document = new HWPFDocument(fis);
WordTextExtractor extractor = new WordTextExtractor(document);
String text = extractor.getText(); // 提取纯文本

处理复杂内容

.doc文件可能包含段落、表格、图片等元素,需通过POI的API逐层解析：

功能	对应类/方法	示例代码
获取段落文本	`Range.getParagraphs()`	`for (int i = 0; i < document.getRange().numParagraphs(); i++) { ... }`
读取表格数据	`Table[] tables = document.getTables();`	遍历`tables`数组，调用`Table.getRows()`和`Row.getCells()`
提取元数据	`DocumentSummaryInformation dsi = document.getDocumentSummaryInformation();`	获取作者、标题等信息

`.doc`与`.docx`处理差异对比

特性	`.doc`处理方式	`.docx`处理方式
核心类	`HWPFDocument`	`XWPFDocument`
文本提取	`WordTextExtractor`	`XWPFWordExtractor`
表格处理	`Table`接口	`XWPFTable`类

完整代码示例

import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordTextExtractor;
import java.io.FileInputStream;
import java.io.IOException;
public class DocReader {
    public static void main(String[] args) throws IOException {
        FileInputStream fis = new FileInputStream("example.doc");
        HWPFDocument document = new HWPFDocument(fis);
        WordTextExtractor extractor = new WordTextExtractor(document);
        String content = extractor.getText();
        System.out.println(content);
        extractor.close();
        document.close();
        fis.close();
    }
}

注意事项

性能问题：.doc文件解析需加载整个文档到内存，大文件可能导致OOM错误,建议使用流式处理或限制文件大小。
兼容性：Apache POI对老旧.doc格式的某些特性（如嵌套表格、宏）支持有限,复杂文档可能需要手动调整。
替代方案：若允许修改源文件格式，建议将.doc转换为.docx，因POI对.docx的支持更完善且性能更佳。

FAQs

为什么不能用Java标准IO（如`FileReader`）直接读取`.doc`文件？

原因：.doc文件是二进制格式，包含字体、段落样式、嵌入对象等复杂结构，直接按文本读取会破坏格式并产生乱码,必须通过专用库解析二进制结构。

如何读取加密的`.doc`文件？

解决：使用HWPFDocument的密码参数构造函数：
```
HWPFDocument document = new HWPFDocument(fis, "password");
```
若文档保护（如只读），需额外

Java IO 文件

javaio怎么读取doc

准备工作：添加Apache POI依赖

读取`.doc`文件的步骤

创建输入流

解析文档

处理复杂内容

`.doc`与`.docx`处理差异对比

完整代码示例

注意事项

FAQs

为什么不能用Java标准IO（如`FileReader`）直接读取`.doc`文件？

如何读取加密的`.doc`文件？

javaoa办公系统怎么做

阿里云虚拟主机的数据库

相关推荐

热门文章

javaio怎么读取doc

准备工作：添加Apache POI依赖

读取.doc文件的步骤

创建输入流

解析文档

处理复杂内容

.doc与.docx处理差异对比

完整代码示例

注意事项

FAQs

为什么不能用Java标准IO（如FileReader）直接读取.doc文件？

如何读取加密的.doc文件？

javaoa办公系统怎么做

阿里云虚拟主机的数据库

相关文章

相关推荐

热门文章

读取`.doc`文件的步骤

`.doc`与`.docx`处理差异对比

为什么不能用Java标准IO（如`FileReader`）直接读取`.doc`文件？

如何读取加密的`.doc`文件？