使用Gson解析NDJSON文件中的多个JSON记录

本文详细介绍了如何在Java中利用Gson库解析NDJSON(换行符分隔的JSON)文件,以读取并映射文件中的所有独立JSON记录到对应的DTO对象列表中。针对一次性只能读取一个记录的问题,文章提出了基于JsonReader的循环读取策略,并强调了reader.peek()方法在判断文件末尾时的关键作用,同时提供了完整的示例代码和重要注意事项。

理解NDJSON格式与Gson的初始挑战

NDJSON(Newline Delimited JSON)是一种特殊的数据格式,其中每行都是一个独立的、有效的JSON对象,各行之间通过换行符分隔。与传统的JSON数组不同,NDJSON文件本身并非一个单一的JSON数组,而是多个JSON对象的集合。

当尝试使用Gson库解析NDJSON文件时,常见的初学者误区是直接调用gson.fromJson(reader, YourDTO.class)。例如,对于一个包含多条客户记录的customer.json文件:

// Record # 1
{
 "profile":{
      "salutation":"Mr",
      "title":null,
      "company":null
   },
   "phone":{
      "home_phone":null
   },
   "addresses":[
      {
         "address_id":"1",
         "first_name":"Veronica"
      }
   ],
   "orders":{
      "placed_orders_count":2
   }
}
// Record # 2
{
    "profile":{
      "salutation":null,
      "title":null
   },
   "phone":{
      "home_phone":null
   },
   "addresses":[
      {
         "address_id":"2",
         "title":""
      }
   ],
   "orders":{
      "placed_orders_count":0
   }
}
// ... 更多记录

如果使用以下代码尝试读取:

import com.google.gson.Gson;
import com.google.gson.stream.JsonReader;
import java.io.FileReader;
import java.io.IOException;

// 假设 CustomerFeedDTO 已经定义
// ...

public class InitialNdjsonReaderExample {
    public static void main(String[] args) {
        Gson gson = new Gson();
        try (JsonReader reader = new JsonReader(new FileReader("customer.json"))) {
            // 这种方式只能读取第一个JSON对象
            CustomerFeedDTO customerFeedDTO = gson.fromJson(reader, CustomerFeedDTO.class);
            System.out.println("成功读取第一个记录: " + customerFeedDTO);
            // 后续的记录将无法读取到,因为fromJson方法在读取完一个完整的JSON对象后就会停止。
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

这段代码只会成功解析文件中的第一个JSON对象,因为gson.fromJson()方法在读取完一个完整的JSON对象后就会停止。为了读取所有记录,我们需要一种机制来逐个处理文件中的每个JSON对象。

解决方案:循环读取与JsonReader

要正确解析NDJSON文件中的所有记录,核心思想是利用JsonReader的流式读取特性,通过循环逐个解析JSON对象。

以下是实现这一目标的详细步骤和示例代码:

  1. 初始化JsonReader和Gson: 创建Gson实例和指向NDJSON文件的JsonReader。
  2. 设置宽松模式: 调用reader.setLenient(true)。这在处理一些非严格符合JSON规范的输入时非常有用,例如可能存在注释或未引用的字段名等。对于NDJSON文件,虽然通常是严格的,但开启此模式可以增加兼容性。
  3. 循环读取: 使用while (reader.peek() != JsonToken.END_DOCUMENT)作为循环条件。
    • reader.peek()方法用于查看下一个令牌的类型,而不会实际消耗它。
    • JsonToken.END_DOCUMENT表示已经到达JSON文档的末尾。通过检查这个令牌,我们可以确保在文件完全读取完毕后安全地退出循环。
  4. 解析并添加: 在循环内部,每次迭代都调用gson.fromJson(reader, CustomerFeedDTO.class)来解析当前行的JSON对象,并将其添加到预先创建的List中。
import com.google.gson.Gson;
import com.google.gson.stream.JsonReader;
import com.google.gson.stream.JsonToken; // 导入 JsonToken
import java.io.FileReader;
import java.io.IOException;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;

// CustomerFeedDTO 类定义 (详见下一节)
class CustomerFeedDTO {
    private Map profile;
    private Map phone;
    private ArrayList addresses;
    private Map orders;
    private ArrayList customs;

    // Getters and setters (省略具体实现,但实际应用中需要)
    public Map getProfile() { return profile; }
    public void setProfile(Map profile) { this.profile = profile; }
    public Map getPhone() { return phone; }
    public void setPhone(Map phone) { this.phone = phone; }
    public ArrayList getAddresses() { return addresses; }
    public void setAddresses(ArrayList addresses) { this.addresses = addresses; }
    public Map getOrders() { return orders; }
    public void setOrders(Map orders) { this.orders = orders; }
    public ArrayList getCustoms() { return customs; }
    public void setCustoms(ArrayList customs) { this.customs = customs; }

    @Override
    public String toString() {
        return "CustomerFeedDTO{" +
               "profile=" + profile +
               ", phone=" + phone +
               ", addresses=" + addresses +
               ", orders=" + orders +
               ", customs=" + customs +
               '}';
    }
}

public class NdjsonMultiRecordReader {
    public static void main(String[] args) {
        List customerFeedDTOs = new ArrayList<>();
        Gson gson = new Gson();

        // 使用 try-with-resources 确保资源自动关闭
        try (JsonReader reader = new JsonReader(new FileReader("customer.json"))) {
            // 启用宽松模式,以处理可能存在的非严格JSON格式
            reader.setLenient(true);

            // 循环读取直到文档结束
            while (reader.peek() != JsonToken.END_DOCUMENT) {
                CustomerFeedDTO customerFeedDTO = gson.fromJson(reader, CustomerFeedDTO.class);
                customerFeedDTOs.add(customerFeedDTO);
                System.out.println("成功读取记录: " + customerFeedDTO); // 打印每条记录以验证
            }

            System.out.println("\n所有记录读取完毕。总计 " + customerFeedDTOs.size() + " 条记录。");

        } catch (IOException e) {
            System.err.println("读取文件时发生错误: " + e.getMessage());
            e.printStackTrace();
        }
    }
}

DTO类定义

为了成功映射NDJSON数据,需要一个对应的Java数据传输对象(DTO)类。根据提供的NDJSON结构,一个示例的CustomerFeedDTO可以定义如下:

import java.util.ArrayList;
import java.util.Map;

public class CustomerFeedDTO {
    // 使用Map来灵活处理内部结构不固定的JSON对象
    private Map profile;
    private Map phone;
    // 使用ArrayList来处理JSON数组
    private ArrayList addresses;
    private Map orders;
    private ArrayList customs;

    // 构造函数 (可选)
    public CustomerFeedDTO() {}

    // Getters and Setters (必须提供,Gson通过反射调用它们进行数据绑定)
    public Map getProfile() {
        return profile;
    }

    public void setProfile(Map profile) {
        this.profile = profile;
    }

    public Map getPhone() {
        return phone;
    }

    public void setPhone(Map phone) {
        this.phone = phone;
    }

    public ArrayList getAddresses() {
        return addresses;
    }

    public void setAddresses(ArrayList addresses) {
        this.addresses = addresses;
    }

    public Map getOrders() {
        return orders;
    }

    public void setOrders(Map orders) {
        this.orders = orders;
    }

    public ArrayList getCustoms() {
        return customs;
    }

    public void setCustoms(ArrayList customs) {
        this.customs = customs;
    }

    @Override
    public String toString() {
        return "CustomerFeedDTO{" +
               "profile=" + profile +
               ", phone=" + phone +
               ", addresses=" + addresses +
               ", orders=" + orders +
               ", customs=" + customs +
               '}';
    }
}

注意: 实际应用中,Map 和 ArrayList> 可以被更具体的DTO类或泛型类型替换,以实现更强类型的数据访问和更清晰的代码结构。例如,profile可以是一个ProfileDTO对象,addresses可以是一个List,这样可以更好地封装数据并提供类型安全。

注意事项

  1. reader.setLenient(true)的重要性: 此方法允许JsonReader在解析JSON时更加宽容,例如接受未引用的名称、单引号字符串、C风格注释等。虽然NDJSON规范通常要求严格的JSON,但实际文件中可能存在一些不规范的格式。开启此模式可以提高解析的健壮性。

  2. reader.peek()与reader.hasNext()的比较:JsonReader确实有一个hasNext()方法,但它在到达文档末尾时可能会抛出IllegalStateException。相比之下,reader.peek() != JsonToken.END_DOCUMENT是一种更安全、更推荐的判断文件末尾的方式,它通过检查下一个令牌类型来避免异常。

  3. 资源管理:try-with-resources: 在处理文件I/O时,确保FileReader和JsonReader等资源被正确关闭至关重要,以防止资源泄露。Java 7及更高版本提供的try-with-resources语句是管理这些可关闭资源的最佳实践,它能确保在try块结束时(无论正常结束还是异常结束)自动关闭资源。

  4. 异常处理: 文件读取和JSON解析过程中可能会出现IOException或JsonSyntaxException等异常。在生产代码中,应提供健壮的异常处理机制,例如记录错误日志、向用户提供友好的错误信息或采取恢复措施。