如何使用Golang读取大文件并分块处理_避免内存占用过高_技术教程

Go读大文件应流式处理：用bufio.Scanner分行读（设Buffer防超长行），或手动Read分块复用缓冲区；重载处理逻辑避免累积引用；并行时限制channel缓冲并复制数据。

用 Go 读取大文件时，直接 os.ReadFile 或 bufio.NewReader(file).ReadString('\n') 全量加载会迅速耗尽内存。核心思路是：**不一次性加载全部内容，而是按需流式读取、分块处理、及时释放**。

使用 bufio.Scanner 分行流式读取（适合文本日志类）

bufio.Scanner 默认缓冲区 64KB，可安全处理超大文本文件（如 GB 级日志），它内部自动分块扫描，不会把整文件塞进内存。

设置合理的 MaxScanTokenSize 防止单行过长导致 panic（例如日志含超长 base64 字段）
每扫到一行就立即处理（解析、过滤、写入数据库或新文件），处理完即丢弃该行引用
避免在循环中累积切片（如 lines = append(lines, line)），否则仍会内存暴涨

示例：

scanner := bufio.NewScanner(file)
scanner.Buffer(make([]byte, 64*1024), 10*1024*1024) // 扩大缓冲区上限防超长行
for scanner.Scan() {
line := scanner.Text() // 注意：line 是当前缓冲区内的拷贝，安全
processLine(line) // 立即处理，不保存
}
if err := scanner.Err(); err != nil { /* 处理错误 */ }

手动控制读取块大小（适合二进制/自定义格式）

当文件不是纯文本，或需要固定字节块（如每 1MB 解析一次协议头），用 io.ReadFull 或 file.Read() 配合复用缓冲区更灵活。

预分配一个固定大小的 []byte（如 1MB），在 for 循环中反复重用，避免频繁 GC
用 n, err := file.Read(buf) 读取实际字节数，n == 0 表示 EOF
对 buf[:n] 进行处理（注意只处理有效长度），处理完无需清空，下次读会自然覆盖

示例：

buf := make([]byte, 1024*1024)
for {
  n, err := file.Read(buf)
  if n > 0 {
    processChunk(buf[:n]) // 只传有效部分
  }
  if err == io.EOF { break }
  if err != nil { /* 处理错误 */ }
}