在Java中如何使用Stream.distinct去除集合重复元素_Stream去重实践指南

distinct()方法基于equals()和hashCode()去除重复元素,对基本类型和字符串可直接使用,自定义对象需重写这两个方法;示例中对User类按姓名和年龄去重,结合map、filter等操作可实现复杂逻辑,该操作有状态且短路,适用于多数业务场景。

在Java 8中引入的Stream API为集合操作提供了强大而简洁的方式,其中distinct()方法是去除重复元素的重要工具。它能帮助开发者快速对数据进行去重处理,无需手动编写复杂的逻辑。

distinct方法的基本原理

Stream.distinct()会返回一个由原流中不重复元素组成的新流,其去重依据是元素的equals()hashCode()方法。这意味着:

  • 对于基本包装类型(如Integer、String),可以直接使用,因为它们已正确重写这两个方法
  • 对于自定义对象,必须重写equals()hashCode(),否则无法按预期去重

该操作是有状态的(stateful),因为它需要维护已见过的元素来判断是否重复,同时它是短路操作,可以在流未完全消费前终止处理。

对基本类型和字符串去重示例

处理简单类型的集合时,distinct()开箱即用:

List names = Arrays.asList("Alice", "Bob", "Alice", "Charlie", "Bob");
List uniqueNames = names.stream()
                                 .distinct()
                                 .collect(Collectors.toList());
System.out.println(uniqueNames); // 输出: [Alice, Bob, Charlie]

同理可用于Integer、Double等类型列表,结果将保留第一次出现的值。

对自定义对象去重的关键步骤

假设有一个User类,我们希望根据姓名和年龄去重:

class User {
    private String name;
    private int age;

    public User(String name, int age) {
        this.name = name;
        this.age = age;
    }

    @Override
    public boolean equals(Object o) {
        if (this == o) return true;
        if (!(o instanceof User)) return false;
        User user = (User) o;
        return age == user.age && Objects.equals(name, user.name);
    }

    @Override
    public int hashCode() {
        return Objects.hash(name, age);
    }
}

然后使用:

List users = Arrays.asList(
    new User("张三", 25),
    new User("李四", 30),
    new User("张三", 25)
);

List uniqueUsers = users.stream()
                                .distinct()
                                .collect(Collectors.toList());

若未重写equalshashCode,即使内容相同也会被视为不同对象,导致去重失败。

结合其他操作实现复杂去重逻辑

有时需先转换或筛选再去除重复。例如从用户列表中提取唯一部门名:

List uniqueDepartments = users.stream()
                                       .map(User::getDepartment)
                                       .filter(Objects::nonNull)
                                       .distinct()
                                       .collect(Collectors.toList());

也可以与sorted()组合,先排序再去重,控制输出顺序。

基本上就这些。只要理解了equals/hashCode的作用机制,并合理组合Stream链式调用,distinct就能高效解决大多数去重场景。注意性能方面,大量数据时可能影响内存使用,但多数业务场景下表现良好。