我必须解析~2000 xml文档,从每个文档中提取某些节点,将它们添加到单个文档中,然后保存.我正在使用内部C节点,以便我可以使用XPath.问题是,当我遍历文档时,我无法从内存中删除内部C对象
这是我正在使用的代码.我错过了什么,所以我可以在每次迭代结束时清除内存?
xmlDoc <- xmlHashTree() rootNode <- newXMLNode("root") for (i in seq_along(all.docs)){ # Read in the doc, filter out nodes, remove temp doc temp.xml <- xmlParse(all.docs[i]) filteredNodes <- newXMLNode(all.docs[i], xpathApply(temp.xml,"//my.node[@my.attr='my.value'")) free(temp.xml) rm(temp.xml) # Add filtered nodes to root node and get rid of them. addChildren(rootNode, filteredNodes) removeNodes(filteredNodes, free = TRUE) rm(filteredNodes) } # Add root node to doc and save that new log. xmlDoc <- addChildren(root) saveXML(xmlDoc, "MergedDocs.xml")
谢谢您的帮助
所以我发现无法使用’XML’来做到这一点,没有内存泄漏和大量的处理时间.幸运的是,’xml2’现在可以处理创建文档和节点.为了完整起见,这里是使用’xml2’的解决方案.如果有人知道使用’XML’的方法,请执行chime.
xmlDoc <- xml_new_document() %>% xml_add_child("root") for (i in seq_along(all.docs)){ # Read in the log. rawXML <- read_xml(all.docs[i]) # Filter relevant nodes and cast them to a list of children. tempNodes <- xml_find_all(rawXML, "//my.node[@my.attr='my.value'") theChildren <- xml_children(tempNodes) # Get rid of the temp doc. rm(rawXML) # Add the filtered nodes to the log under a node named after the file name xmlDoc %>% xml_add_child(all.docs[i] %>% xml_add_child(theChildren[[1]]) %>% invisible() # Remove the temp objects rm(tempNodes); rm(theChildren) }