特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

当前位置 : 主页 > 编程语言 > python >

Python RawString与open文件的newline换行符遇坑解决

来源：互联网收集：自由互联发布时间：2023-01-30

目录背景思路遇到的问题思考过程 Raw String 如果字符串没转义字符，那么 Raw String 跟普通 String 完全一致误区：注意单个字符的引号问题启发正则替换的问题 open 文件的 newline 参数

背景

一次工作中，我需要完成某个文件的字符串替换。

需求是这样的：文件A有个占位符，需要利用Python3，把占位符替换成文件B的内容。文件都不大，可以一次性读到内存处理。

我想，这不是简单的open read replace write就搞定了嘛？

结果，还真有点麻烦！

思路

全量读取文件A，保存到变量templace
全量读取文件B，保存到变量text
利用python的re.sub实现正则替换，保存到新变量result
把变量result内容写入文件A

with open('A', encoding='utf8') as f:
  template = f.read()
with open('B', encoding='utf8') as f:
  text = f.read()
result = re.sub(r'占位标识符', text, template, 1)
with open('A', 'w', encoding='utf8') as f:
  f.write(result)

遇到的问题

文件B内有换行符，也有字符串\n，按上文的方式处理后，所有的字符串\n都变成了换行符！

举个例子，template是我是：{}（其中{}就是占位符），text是下面的文本：

哈哈
哈哈\n哈哈

替换后，如下图所示：

可以看到，当我打印re.sub结果时，所有的\n都变成了换行符，字符串\n消失了！

这的确令人烦躁，本来五分钟可以搞定，结果要花多余的时间处理这个问题。如果你学会了本文，以后都不用再去费脑筋了～

思考过程

一开始遇到这个问题，是在写入文件后发现的，所以并没定位的这么准确，当时跟换行符相关的，我怀疑了以下方面：

字符串定义没有使用 Raw String（例如r'xxx'这种方式）。
正则替换出了问题。
写入文件时，newline参数导致。

如果我们能把这3个问题全都弄清楚，以后定位就非常快了！

Raw String

Python中，如果字符串常量的定义前加了个r，就表示 Raw String 原始字符串。

Raw String 特点在于，字符串常量里的\将不具有转义作用，它仅仅代表它自己。

例如，你定义个普通字符串"\n"，这个字符串长度其实是1，它只包含了1个换行符，对应的 ASCII 是10。

如果你定义了原始字符串"\n"，这个字符串长度就是2，它包含了字符\和字符n。

如果字符串没转义字符，那么 Raw String 跟普通 String 完全一致

转义字符有这些：

也就是说r'\haha'跟'\haha'是完全一致的，因为\h不是转义字符，所以这种情况下，没必要加r。

误区：注意单个字符的引号问题

有一个令人疑惑的点：理论上讲，r'\'应该就是'\\'，但是当你使用r'\'时，Python会报错。

这是因为Python在编译时，读取字符串时，如果字符串以单引号开头，遇到\'后，不论你是不是Raw String，都会继续认为是字符串，不会把'当作结束符。估计是一个历史遗留问题。我们只能接受现实。

如何证明呢？你给字符后面加个空格，发现它们是相等的：r'\ '和'\\ '。但是单独的字符r'\'就报错了。

但是这种情况只有r'\'或r"\"才会发生，如果字符串长度为2，是没问题的，例如r"\\"可以被合法定义。

启发

定义字符串时，如果你是这么定义："哈哈\n哈哈"，那么这个字符串长度是5，包含了1个换行符。

如果你是这么定义：r"哈哈\n哈哈"，那么这个字符串长度是6，不包含换行符，包含字符\和n。

同样，当你写入文件时，如果是f.write('\n')，就表明写入了换行符，但如果是f.write(r'\n')，就表明写入了字符串"\n"。

正则替换的问题

这是导致本文问题的根本原因。使用re.sub时，所有的字符串r"\n"都被当作了换行符。

怎么办呢？

只要我们替换前，把原始文件对应的字符串的r"\n"都改为r"\\n"，手动多加了一次转义符，那么re.sub时，就不会把r"\n"当作一个整体改成换行符了，反而会把r"\\"当作一个整体，替换为字符\。这样r"\n"字符串就保留下来了！当然，其它转义字符，也统统保留下来了。这就是正确的解法了。

open 文件的 newline 参数

with open(filename, 'r', newline=None) as f:
  f.read()

这个主要是因为不同操作系统的换行符不同，所以有了这个参数。Windows 是 CRLF 即 \r\n，Unix 是 LF 即\n，旧版 Macintosh 是 CR 即\r。

通常情况下，我们不需要加这个参数，Python 会自动为我们做这些事情：

读取文件时，自动把文本中的各种换行符统一转换为"\n"。
写入文件时，根据当前的操作系统，自动把"\n"转换为对应的换行符，通过os.linesep可以查看当前操作系统换行符。

当然，你也可以主动设置 newline 参数:

读取文件时，如果 newline 是空字符串''，则Python不会做任何自动转换，读到什么就是什么。
读取文件时，如果 newline 是非空字符串，则Python会把换行符转化为这个非空字符串，例如你可以指定为'\r'或'\r\n'或其它。
写入文件时，如果 newline 是空字符串''，则Python不会做任何自动转换，现在换行符是什么，就写入什么。
写入文件时，如果 newline 是非空字符串，则Python会把\n转化为这个非空字符串，例如你可以指定为'\r'或'\r\n'或其它。

注意，newline 参数只对文本文件有效，如果是二进制读写，newline 是无用的。

其实，大部分时候我们无需关注这个 newline 参数。

以上就是Python RawString与open文件的newline换行符遇坑解决的详细内容，更多关于Python RawString open文件 newline换行符的资料请关注自由互联其它相关文章！

上一篇：Python Playwright的使用详解
下一篇：没有了