当前位置 : 主页 > 网页制作 > xml >

xml – 在1千兆字节的大型单行文本文件中使用sed在每个>之后引入换行符

来源:互联网 收集:自由互联 发布时间:2021-06-13
我有一个巨大的文本文件(大约1.5千兆字节),里面有xml数据.文件中的所有文本都在一行中,并且尝试在任何文本编辑器中打开它(即使是此线程中提到的文本: Text editor to open big (giant, hug
我有一个巨大的文本文件(大约1.5千兆字节),里面有xml数据.文件中的所有文本都在一行中,并且尝试在任何文本编辑器中打开它(即使是此线程中提到的文本: Text editor to open big (giant, huge, large) text files)要么失败,要么完全无法使用,因为在尝试滚动时文本编辑器会挂起.

我希望使用以下sed命令在文件中引入换行符

sed 's/>/>\n/g' data.xml > data_with_newlines.xml

可悲的是,这导致了sed给我一个分段错误.根据我的理解,sed逐行读取文件,在这种情况下,它会尝试在一行中读取整个1,5 gig文件,这肯定会解释段错误.但问题仍然存在.

如何在每次>之后引入换行符?在xml文件中?我是否必须通过逐个字符地阅读文件来编写一个小程序来为我做这个?

有些sed对此有限制. GNU sed没有限制,只要它可以“malloc()”更多(虚拟)内存,只要你喜欢就可以提供或构建行. (来自doc)

如果可能,我建议您更改创建该xml文件的方式. (为什么一开始就在一行?).否则,您可以逐个字符地阅读它.例如使用shell

while read -n 1 ch
do
  case "$ch" in
   ">" ) printf "%s\n" "$ch";;
     *) printf "%s" $ch;;
  esac
done <"file"

要么

while read -n 1000 str ; do
 echo "${str//>/>
}"
done < file
网友评论