如何使用Golang读取大文件并分块处理_避免内存占用过高

Go读大文件应流式处理:用bufio.Scanner分行读(设Buffer防超长行),或手动Read分块复用缓冲区;重载处理逻辑避免累积引用;并行时限制channel缓冲并复制数据。

用 Go 读取大文件时,直接 os.ReadFilebufio.NewReader(file).ReadString('\n') 全量加载会迅速耗尽内存。核心思路是:**不一次性加载全部内容,而是按需流式读取、分块处理、及时释放**。

使用 bufio.Scanner 分行流式读取(适合文本日志类)

bufio.Scanner 默认缓冲区 64KB,可安全处理超大文本文件(如 GB 级日志),它内部自动分块扫描,不会把整文件塞进内存。

  • 设置合理的 MaxScanTokenSize 防止单行过长导致 panic(例如日志含超长 base64 字段)
  • 每扫到一行就立即处理(解析、过滤、写入数据库或新文件),处理完即丢弃该行引用
  • 避免在循环中累积切片(如 lines = append(lines, line)),否则仍会内存暴涨

示例:

scanner := bufio.NewScanner(file)
scanner.Buffer(make([]byte, 64*1024), 10*1024*1024) // 扩大缓冲区上限防超长行
for scanner.Scan() {
  line := scanner.Text() // 注意:line 是当前缓冲区内的拷贝,安全
  processLine(line) // 立即处理,不保存
}
if err := scanner.Err(); err != nil { /* 处理错误 */ }

手动控制读取块大小(适合二进制/自定义格式)

当文件不是纯文本,或需要固定字节块(如每 1MB 解析一次协议头),用 io.ReadFullfile.Read() 配合复用缓冲区更灵活。

  • 预分配一个固定大小的 []byte(如 1MB),在 for 循环中反复重用,避免频繁 GC
  • n, err := file.Read(buf) 读取实际字节数,n == 0 表示 EOF
  • buf[:n] 进行处理(注意只处理有效长度),处理完无需清空,下次读会自然覆盖

示例:

buf := make([]byte, 1024*1024)
for {
  n, err := file.Read(buf)
  if n > 0 {
    processChunk(buf[:n]) // 只传有效部分
  }
  if err == io.EOF { break }
  if err != nil { /* 处理错误 */ }
}

结合 goroutine 并行处理(谨慎使用)

若处理逻辑较重(如 JSON 解析、网络请求),可将读取与处理解耦:一个 goroutine 负责读块并发送到 channel,多个 worker goroutine 消费。但要注意:

  • channel 缓冲区大小要限制(如 ch := make(chan []byte, 10)),防止未消费块堆积吃光内存
  • 发送前必须复制数据(ch ),否则所有 goroutine 共享同一底层数组,结果错乱
  • 简单场景下,并行反而因调度和 channel 开销得不偿失,优先保证单 goroutine 流式稳定

其他关键细节

  • 始终检查 err,尤其 io.EOF 要正确识别,避免死循环
  • file.Seek(0, 0) 可重置偏移量,方便多次遍历(但一般应避免)
  • 处理完及时 file.Close(),配合 defer 更稳妥
  • runtime.GC() 强制触发回收通常没必要,Go 的 GC 已足够智能;重点是别让数据长期驻留内存