StringIO和BytesIO

你有没有过这种时候？只是想快速测试一段读写类文件的代码，但不想真的在项目根目录留临时文件？或者在 API 交互、数据管道处理时，要构造/解析一段完全不需要落地的字符串或二进制流？Python 的 io.StringIO 和 io.BytesIO 就是内存中的完美类文件流替身——它们继承自标准的 io.TextIOBase/io.BufferedIOBase 接口，但数据直接存在内存缓冲区里，省去了磁盘 I/O 的开销，API 却和真实磁盘文件几乎一致，代码可以在两种模式间无缝切换。

先搞清楚：什么时候用哪个？

两个类唯一的核心区别是数据的操作类型，选不对会直接报错（比如给 StringIO 写 bytes，给 BytesIO 写 str）：

StringIO：纯文本流操作，只接受 Unicode 字符串（Python 3 的 str），输出也是 str
BytesIO：二进制流操作，只接受字节序列（bytes 或 bytearray），输出也是字节类

上手 StringIO：内存中的文本缓冲区

基础玩法：创建+写入+读取

from io import StringIO

# 方式1：先创建空缓冲区，再逐段/多次写入
text_io = StringIO()

# write() 方法会返回写入的字符数
text_io.write("Python")  # 输出字符数：6
text_io.write(" ")    # 输出字符数：1
text_io.write("StringIO") # 输出字符数：8

# 方式2：初始化时直接传入文本内容（等价于先 write 一遍后自动回到开头
full_text = """Line 1: 快速测试
Line 2: 自动换行
Line 3: 逐行读取也能用
"""
preloaded_text_io = StringIO(full_text)

读取操作，完全像读文件一样：

# 读取所有内容（不改变当前指针位置）
# 方式A：getvalue() 最常用，随时拿全部
full_combined = text_io.getvalue()
print(full_combined)  # 输出: Python StringIO

# 指针相关的读取：先调整指针（write默认从空指针开始写，读完内容后指针在末尾，需要seek回去
text_io.seek(0)  # 移动指针到文件头

# 方式B：read(n) 读取 n 个字符，不传 n 就读剩余所有
first_6 = text_io.read(6)
print(first_6)  # 输出: Python
remaining = text_io.read()
print(remaining)  # 输出:  StringIO

# 方式C：逐行迭代（文件对象迭代器本身就是逐行的）
preloaded_text_io.seek(0)
for line_num, line in enumerate(preloaded_text_io, start=1):
    print(f"第{line_num}行：{line.strip()}")

其他实用方法（对应真实文件）

text_io.seek(0)
print(text_io.tell())  # tell() 查当前指针位置
text_io.write("覆盖开头")  # 从当前位置覆盖写入，后面的旧内容会被截断吗？？？
# 看这里：先看截断——先写覆盖开头的6个字符后，原剩余的" StringIO里的"ngIO"去哪了？
print(text_io.getvalue())  # 输出: 覆盖开头IO？不对，等下原text_io之前的内容是"Python StringIO"（15个字符？哦我之前写的是6+1+8=15？那覆盖6个后剩下的9个？哦等下Python的StringIO默认是**不自动截断剩余内容的！除非你手动调用truncate()
text_io.truncate(6)  # 从当前指针（或指定位置）截断到这里
text_io.seek(0)
print(text_io.read())  # 现在才是：覆盖开头

上手 BytesIO：内存中的二进制缓冲区

和 StringIO 几乎完全对应，但**所有操作换成字节相关就行：

写入时必须用 bytes/bytearray，Python 可以用 b'' 前缀或者 str.encode('utf-8') 生成
读取时出来的是 bytes，要转文本用 decode('utf-8')
getbuffer() 方法可以拿到只读的底层内存视图（避免复制数据，适合大二进制流处理）

基础玩法

from io import BytesIO

# 方式1：空缓冲区逐段写入二进制
bin_io = BytesIO()
# 写中文的话必须编码成utf-8
bin_io.write(b"Python")  # 输出字节数：6
bin_io.write(" BytesIO".encode("utf-8"))  # 输出字节数：8
# 或者写二进制数组也可以
bin_io.write(bytearray([0x48, 0x65, 0x6C, 0x6C, 0x6F]))  # 输出字节数：5

# 方式2：预加载二进制内容
preloaded_bin = b"\xe4\xb8\xad\xe6\x96\x87"
preloaded_bin_io = BytesIO(preloaded_bin)

读取+内存视图（高性能）

# getvalue() 拿所有字节
full_bin = bin_io.getvalue()
print(full_bin)  # 输出: b'Python BytesIOHello'

# 内存视图，适合处理不需要复制的大二进制片段
bin_view = bin_io.getbuffer()
print(bin_view[:6])  # 输出: <memory at 0x...> （切片直接看前6个字节
print(bytes(bin_view[:6]))  # 转成bytes：b'Python'

# 其他读取
preloaded_bin_io.seek(0)
print(preloaded_bin_io.read(3).decode("utf-8"))  # 输出: 中

真实项目中的高频场景

单元测试模拟文件：比如测试一个读取 Excel 导出的函数，不需要真的生成 Excel 文件
网络API交互：比如用 requests 库模拟上传文件时，直接传 BytesIO 对象
文本/二进制数据临时中转：比如爬虫爬取的压缩包解压前不需要存本地，直接在 BytesIO 里解压
CSV/JSON/XML 临时生成/解析：比如临时生成一段 CSV 给前端，不需要落地

性能&最佳实践

性能小 tips

一般小到中量数据（比如几十MB以内）直接用 getvalue()/read() 没问题
大二进制流（比如几百MB以上） 优先用 getbuffer() 切片
Python 3 的 io.StringIO/io.BytesIO 比旧版的 cStringIO/StringIO/BytesIO 更快，别用旧模块了！

最佳实践

1. 用上下文管理器自动关闭

虽然内存缓冲区不需要像文件一样强制关闭（Python 垃圾回收会处理，但养成习惯+避免内存泄漏风险更好

with StringIO() as text_io:
    text_io.write("自动关闭的内存流")
    content = text_io.getvalue()
# 这里 text_io 已经关闭，不能再写入/读取了

2. 重用缓冲区

避免频繁创建销毁大对象

with BytesIO() as bin_io:
    for _ in range(10):
        bin_io.write(b"数据块")
        # 处理本次数据
        print(bin_io.getvalue())
        # 清空重用：truncate(0) 把长度设为0，再 seek(0) 把指针移回0
        bin_io.truncate(0)
        bin_io.seek(0)

总结

io.StringIO 和 io.BytesIO 是 Python 标准库中非常实用的小工具：

完美模拟文件对象的完整接口
数据在内存中，速度快
避免了不必要的磁盘 I/O
代码可以在内存流和真实文件间无缝切换

下次再遇到“不想写文件/读文件，但要用文件接口”的场景，别犹豫，直接上它们！

#StringIO和BytesIO

#先搞清楚：什么时候用哪个？

#上手 StringIO：内存中的文本缓冲区

#基础玩法：创建+写入+读取

#读取操作，完全像读文件一样：

#其他实用方法（对应真实文件）

#上手 BytesIO：内存中的二进制缓冲区

#基础玩法

#读取+内存视图（高性能）

#真实项目中的高频场景

#性能&最佳实践

#性能小 tips

#最佳实践

#1. 用上下文管理器自动关闭

#2. 重用缓冲区

#总结