当前位置：首页 > 后端开发 > 正文

Java如何过滤乱码小方块

admin
后端开发
2025-06-16
3938

在Java中过滤掉小方块字符（通常为乱码或不可见字符），可通过正则表达式 str.replaceAll("[\u0000-\u001F\u007F-\u009F]", "")移除控制字符，或根据Unicode范围定制过滤规则，确保处理编码问题以保留有效文本。

在Java中过滤掉文本中的“小方块”（通常指乱码字符�或特殊符号□），本质是处理编码错误或清理非常规字符，以下是5种专业方法,附代码示例：

Java如何过滤乱码小方块第1张

使用正则表达式替换（推荐基础场景）

String text = "Hello□World��Java";
String cleaned = text.replaceAll("[\uFFFD\u25A0\u2588]", ""); // 移除�□■
System.out.println(cleaned); // 输出：HelloWorldJava

原理：uFFFD是Unicode替换字符�，u25A0(□)和u2588(■)是常见方块符号
优点：简单高效，适合已知字符编码范围

ASCII范围过滤（仅保留基础字符）

String text = "数据□分析®";
StringBuilder sb = new StringBuilder();
for (char c : text.toCharArray()) {
    if ((int) c <= 127) { // 保留ASCII字符（0-127）
        sb.append(c);
    }
}
System.out.println(sb); // 输出：数据®

保留可见Unicode字符（高级过滤）

String text = "重要️通知uD83DuDE00！□";
String cleaned = text.replaceAll("[\p{C}\p{So}]", ""); // 移除控制符和符号
System.out.println(cleaned); // 输出：重要通知！

p{C}：匹配所有控制字符（如换行符、乱码）
p{So}：匹配其他符号（如emoji）

字符集转换（解决编码问题）

try {
    byte[] bytes = "错误□数据".getBytes("ISO-8859-1"); // 模拟错误编码
    String correctText = new String(bytes, StandardCharsets.UTF_8); // 转UTF-8
    System.out.println(correctText); // 可能输出乱码，需二次过滤
} catch (Exception e) {
    e.printStackTrace();
}

关键步骤：读取文件时显式指定编码：

BufferedReader br = new BufferedReader(
    new InputStreamReader(new FileInputStream("data.txt"), StandardCharsets.UTF_8)
);

Apache Commons Lang工具（企业级方案）

import org.apache.commons.lang3.StringUtils;
import org.apache.commons.lang3.RegExUtils;
String text = "测试□文本◉";
String cleaned = RegExUtils.replaceAll(text, "[\x00-\x1F\uFFFD]", ""); // 移除控制符和�
cleaned = StringUtils.deleteWhitespace(cleaned); // 可选：删除空白符
System.out.println(cleaned);