当前位置：首页 > 后端开发 > 正文

java中怎么去重

admin
后端开发
2025-08-18
21

va中可通过HashSet、LinkedHashSet等集合自动去重，或用Stream API的distinct()方法，以及Map相关收集器实现数据去重

Java编程中,数据去重是一个常见且重要的操作，尤其在处理大量数据时，以下是几种常用的方法来实现这一目标，每种方法都有其适用场景和优缺点。

java中怎么去重第1张

使用HashSet进行去重

原理：HashSet是基于哈希表实现的集合类，它不允许存储重复的元素，当向HashSet中添加元素时，如果该元素已经存在，则不会被再次添加，利用这一特性可以很方便地对一组数据进行去重。
步骤
- 创建一个HashSet对象。
- 遍历原始数据集,将每个元素添加到HashSet中。
- 由于HashSet自动处理了重复项，所以最终得到的就是一个不含重复元素的集合。
- 如果需要将结果转换回列表或其他形式,可以使用相应的构造函数或方法来完成。

示例代码

import java.util.HashSet;
import java.util.Arrays;
import java.util.List;
import java.util.ArrayList;

public class RemoveDuplicatesExample {
public static void main(String[] args) {
Integer[] numbers = {1, 2, 3, 4, 5, 1, 2, 6};
// 创建HashSet并添加所有元素
HashSet set = new HashSet<>(Arrays.asList(numbers));
// 转换为ArrayList以便查看顺序（可选）
List uniqueNumbers = new ArrayList<>(set);
System.out.println(“去重后的数组: ” + uniqueNumbers);
}
}


4. 优点与缺点
   优点：简单易用，效率高，特别适合于无需保留原顺序的情况。
   缺点：不保证元素的插入顺序；对于基本类型数组需要先装箱成对应的包装类对象才能使用。
 使用LinkedHashSet保持顺序的同时去重
1. 原理：与普通的`HashSet`不同，`LinkedHashSet`不仅具有去重功能，还能维护元素的插入顺序，这使得它在一些既要求去重又希望保留原有顺序的应用中非常有用。
2. 步骤
   创建一个`LinkedHashSet`实例。
   同样地，遍历原始数据并将其加入到`LinkedHashSet`中。
   因为`LinkedHashSet`会按照元素的插入顺序保存它们，所以可以直接从中获取到去重后的结果而不会打乱次序。
3. 示例代码
```java
import java.util.LinkedHashSet;
import java.util.Arrays;
import java.util.List;
import java.util.ArrayList;
public class LinkedHashSetExample {
    public static void main(String[] args) {
        String[] words = {"apple", "banana", "cherry", "apple", "date"};
        // 使用LinkedHashSet去重同时保持顺序
        LinkedHashSet<String> linkedSet = new LinkedHashSet<>(Arrays.asList(words));
        // 转成List以方便展示
        List<String> uniqueWords = new ArrayList<>(linkedSet);
        System.out.println("去重并保持顺序后的单词列表: " + uniqueWords);
    }
}

优点与缺点
- 优点：既能去重又能维持元素的插入顺序。
- 缺点：相比普通HashSet稍微慢一点，因为要额外维护链表结构来记录顺序。

使用Stream API中的distinct()方法

原理：自Java 8引入了Stream API之后，我们可以更加简洁优雅地完成许多集合操作。Stream.distinct()提供了一个便捷的手段来进行去重，它会返回一个新的流，其中只包含不重复的元素。
步骤
- 将原始数据源转化为流（Stream）。
- 调用distinct()方法过滤掉重复项。
- 根据需求收集结果到新的容器里,如列表、数组等。

示例代码

import java.util.stream.Stream;
import java.util.List;
import java.util.Arrays;
import java.util.Collectors;

public class StreamDistinctExample {
public static void main(String[] args) {
List numList = Arrays.asList(10, 20, 30, 20, 40, 10);
// 使用Stream API去重
List distinctNums = numList.stream().distinct().collect(Collectors.toList());
System.out.println(“通过Stream API去重后的列表: ” + distinctNums);
}
}


4. 优点与缺点
   优点：代码简洁明了，可读性强；适用于函数式编程风格。
   缺点：底层仍然依赖于`HashSet`实现，因此性能上不会有显著提升；对于初学者来说可能不够直观。
 使用Map数据结构辅助去重
1. 原理：除了上述直接的方法外，还可以借助`Map`（映射表）的特性间接实现去重，具体做法是将待检查的数据作为键存入Map中，由于Map中的键是唯一的，这样就可以达到去重的目的，值部分可以根据实际需求设置，甚至可以是固定的占位符。
2. 步骤
   初始化一个空的`HashMap`或其他类型的Map。
   遍历输入的数据序列，尝试将每个元素作为键放入Map中，若某个键已存在，则跳过；否则继续。
   提取出所有的键即为去重后的结果。
3. 示例代码
```java
import java.util.HashMap;
import java.util.Map;
import java.util.List;
import java.util.ArrayList;
import java.util.Arrays;
public class MapBasedDeduplication {
    public static void main(String[] args) {
        Character[] chars = {'a', 'b', 'c', 'a', 'd', 'b'};
        Map<Character, Boolean> charMap = new HashMap<>();
        for (Character c : chars) {
            charMap.put(c, true); // 这里的value并不重要，主要是利用key的唯一性
        }
        // 获取所有的key组成新的列表
        List<Character> uniqueChars = new ArrayList<>(charMap.keySet());
        System.out.println("通过Map去重后的字符列表: " + uniqueChars);
    }
}

优点与缺点
- 优点：灵活性高，可以根据业务逻辑自定义如何处理重复项；适合复杂的场景。
- 缺点：实现相对复杂一些；需要额外考虑如何有效地管理和访问这些键值对。

方法	是否保持顺序	适用场景	性能特点	备注
HashSet	否	一般去重需求	高效快速	最常用基础方案之一
LinkedHashSet	是	需保留顺序时的去重	略低于HashSet但可接受	兼顾顺序与去重的良好选择
Stream API (distinct())	取决于源数据的顺序	函数式风格编码偏好	同HashSet相近	现代Java推荐的写法之一
Map辅助	否	复杂条件下的定制化去重	视具体情况而定	适用于特定业务逻辑下的去重任务