Python字符串系统学习路线第41讲_核心原理与实战案例详解【技巧】

舞夢輝影 2025-12-26 00:00:00 次阅读

Python字符串是不可变的Unicode序列，所有“修改”操作均创建新对象；频繁拼接应使用''.join()；str与bytes需显式编码解码；split、f-string、正则替换及中文路径处理需按规范编码。

Python字符串的本质是不可变的Unicode序列，理解这一点，就抓住了所有操作逻辑的起点。它不是字符数组，也不是字节流，而是一串经过编码规范约束的文本单元。任何看似“修改”字符串的操作（比如replace、upper、切片拼接），实际都是创建新对象——原字符串毫未改变。

这直接决定你写代码的方式：

str是文本，bytes是原始字节。二者之间没有自动转换：

不是记住方法名，而是理解它们在什么前提下安全、高效：

split() / rsplit()：默认按空白符切分（含\n\t\r\u00A0等），且会自动过滤空字段；若需保留空字段或按固定字符切，显式传入sep参数（如s.split(',') ）
format() / f-string：f-string在运行时求值，更轻量；format支持命名、位置、嵌套表达式，适合动态模板；两者都支持格式说明符（如f"{x:.2f}"）
正则替换中的\1 \2：必须用re.sub(r'(\d+)-(\d+)', r'\2-\1', s)，反斜杠后数字表示捕获组编号；若想字面输出反斜杠，得写r'\\1'或'\\\\1'