特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

xml – 从文档中提取唯一的HTML标记

来源：互联网收集：自由互联发布时间：2021-06-13

我在R中有一个 HTML文档,我想从该文档中提取一个唯一标记列表,并列出它们的出现频率. 我可以按如下方式遍历每个可能的标记,但是希望找到一个不需要预定义标记列表的解决方案：

我在R中有一个 HTML文档,我想从该文档中提取一个唯一标记列表,并列出它们的出现频率.

我可以按如下方式遍历每个可能的标记,但是希望找到一个不需要预定义标记列表的解决方案：

library('XML')
url <- 'https://stackoverflow.com/questions/11227809/why-is-processing-a-sorted-array-faster-than-an-unsorted-array'
doc <- htmlParse(url)
all_tags <- c('//p', '//a', '//b', '//u', '//i')
counts <- sapply(all_tags, function(x) length(xpathSApply(doc, x)))
free(doc)

经典的XML包版本可能如下所示：

tab <- table(xpathSApply(doc, "//*", xmlName))
tab[c('p', 'a', 'b', 'u', 'i')]

上一篇：如何在xml java中更新节点值
下一篇：如何将xpath的返回xml数组转换为Postgres中的int数组

xml – 从文档中提取唯一的HTML标记

相关文章