在Java中如何使用HashSet去除集合重复元素_HashSet操作指南

HashSet基于哈希表实现,不允许重复元素、允许一个null值、不保证顺序且非线程安全,底层使用HashMap存储,add()添加重复元素时返回false;可通过将List转为HashSet实现去重,如List转Set后重复项被自动过滤;自定义对象需重写equals()和hashCode()方法才能正确去重;去重后可转回ArrayList;若需保持插入顺序可用LinkedHashSet,排序可用TreeSet;HashSet添加和查找平均时间复杂度O(1),适合大数据量但消耗额外内存。

在Java中,HashSet 是一种基于哈希表实现的集合类,它继承自 AbstractSet 并实现了 Set 接口。它的最大特点就是不允许重复元素,并且不保证元素的顺序。正因为这一特性,HashSet 常被用来去除集合中的重复元素。

HashSet 的基本特性

使用 HashSet 去重前,先了解它的几个关键点:

  • 不允许存储重复元素:添加相同元素时,add() 方法返回 false,原集合不变。
  • 允许一个 null 值:HashSet 可以包含一个 null 元素。
  • 非线程安全:多线程环境下需手动同步或使用 Collections.synchronizedSet() 包装。
  • 底层基于 HashMap:每个元素作为 key 存储,value 使用一个固定对象(如 PRESENT)。

如何用 HashSet 去除重复元素

将已有集合(如 ArrayList、数组等)转为 HashSet,重复项会自动被过滤。以下是常见操作示例:

1. 从 ArrayList 中去除重复元素

List list = Arrays.asList("apple", "banana", "apple", "orange", "banana");
Set set = new HashSet<>(list);
System.out.println(set); // 输出: [banana, orange, apple](顺序可能不同)
  

2. 手动添加元素并去重

Set numbers = new HashSet<>();
numbers.add(1);
numbers.add(2);
numbers.add(2); // 重复,不会添加
numbers.add(3);
System.out.println(numbers); // 输出: [1, 2, 3]
  

3. 去重后保留为 List

如果需要将去重后的结果转回 List:

List uniqueList = new ArrayList<>(set);

自定义对象去重的注意事项

对于自定义类(如 Person),HashSet 判断重复依赖于 equals()hashCode() 方法。必须正确重写这两个方法,否则即使内容相同也会被视为不同对象。

示例:Person 类的正确重写

public class Person {
    private String name;
    private int age;

    public Person(String name, int age) {
        this.name = name;
        this.age = age;
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (!(o instanceof Person)) return false;
        Person person = (Person) o;
        return age == person.age && Objects.equals(name, person.name);
    }

    @Override
    public int hashCode() {
        return Objects.hash(name, age);
    }
}
  

这样,当两个 Person 对象 name 和 age 相同时,HashSet 就能识别为重复并自动去除。

性能与适用场景

HashSet 的添加和查找操作平均时间复杂度为 O(1),效率很高,适合大数据量去重。但注意:

  • 不维护插入顺序 —— 如需保持顺序,可使用 LinkedHashSet
  • 若需排序,可用 TreeSet
  • 去重过程中会消耗额外内存,因底层是 HashMap 实现。
基本上就这些。HashSet 是 Java 中最简单高效的去重工具,只要注意重写 equals 和 hashCode 方法,就能在大多数场景下稳定使用。