特色栏目： python 批处理 net编程 Javascript Php Asp Css Html5 Android seo centos

GoogleChrome书签导出并生成MHTML文件

来源：互联网收集：自由互联发布时间：2023-07-02

目的因为某些原因需要将存放在GoogleChrome内的书签导出到本地所幸GoogleChrome提供了导出书签的功能。分析首先在GoogleChrome浏览器当中目的因为某些原因需要将存放在 Google Chrome 内的书签

目的因为某些原因需要将存放在GoogleChrome内的书签导出到本地所幸GoogleChrome提供了导出书签的功能。分析首先在GoogleChrome浏览器当中

目的

因为某些原因需要将存放在 Google Chrome 内的书签导出到本地，所幸 Google Chrome 提供了导出书签的功能。

分析

首先在 Google Chrome 浏览器当中输入 chrome://bookmarks 来到书签管理页面，找到最右侧的三个点，选择导出书签，导出的文件是一个 HTML 文件，里面包含了所有书签的层级结构等信息。使用 Notepad++ 打开该文件之后可以看到里面的内容如下: 粗略一看貌似没什么问题，其实在里面的

与

都缺少了闭合标签，所以在解析的时候需要将其去除掉。去除掉之后的 HTML 文件结构大概像这样:

文件夹标题

子文件夹标题

子文件夹书签1子文件夹书签2书签1书签2

可以很明显看到这里是有一个层级关系的，所以我们可以通过递归来生成一个树形模型，生成之后，再遍历这个模型来根据这个树形结构来创建 MHTML 文件，并且进行归类。

实现

操作 HTML 文件在 .Net 下有一个很方便的第三方库，名字叫做 HtmlAgilityPack，通过这个库我们可以很方便地操作 HTML 文档，就跟 DOM 一样方便，而且它支持 XPath 选取。

项目地址:http://html-agility-pack.net/ GitHub 地址:https://github.com/zzzprojects/html-agility-pack Nuget 地址:https://www.nuget.org/packages/HtmlAgilityPack/ 通过 Nuget 安装该包到项目当中，引入 HtmlAgilityPack 命名空间，就可以开始编写代码了。

1.编写 HtmlResolver 解析器

建立一个 HtmlResolver 类，该类用于解析 Chrome 导出的书签:

public class HtmlResolver{private HtmlDocument _htmlDocument = new HtmlDocument();/// /// 初始化 HTML 解析器/// ///

Google Chrome 导出的书签 HTML 路径public HtmlResolver(string htmlPath){using (FileStream htmlFileStream = File.Open(htmlPath, FileMode.Open)){using (StreamReader htmlReader = new StreamReader(htmlFileStream)){// 移除干扰标签string htmlStr = htmlReader.ReadToEnd();htmlStr = htmlStr.Replace(@"

", string.Empty).Replace(@"

", string.Empty);// 加载 HTML_htmlDocument.LoadHtml(htmlStr);}}}}

在对象初始化的时候要求提供 Google Chrome 导出的书签 HTML 文件路径，并且读入 HTML 文件数据的时候移除掉之前所说的

与

标签，方便后面 HtmlAgilityPack 进行解析，移除之后，HtmlDocument 通过 HTML String 初始化。

2.创建书签模型

当我们递归完成之后需要将数据存储在书签模型当中，方便后面生成 MHTML 文件的时候使用。

/// /// 书签模型/// public class BookMarkModel{/// /// 初始化书签模型/// ///

书签名称///

书签路径///

绑定的 URL///

子节点集合public BookMarkModel(string name, string path, string url = null, List childNodes = null){Name = name;Url = url;ChildNodes = childNodes;Path = path;}/// /// 书签名称/// public string Name { get; set; }/// /// 绑定的 URL/// public string Url { get; set; }/// /// 书签路径/// public string Path { get; set; }/// /// 子节点集合，如果没有则为 NULL/// public List ChildNodes { get; set; }}

该模型是一个典型的树形结构，之后我们就开始递归生成书签模型了。

3.递归生成树形模型

递归算法自己一直不太会写，写好这一个递归方法基本都花费了半天的时间 :P，后面打算恶补数学和算法这块了。下面先上代码再解释原理:

/// /// 递归生成书签模型/// ///

父级节点///

父级节点 Pathprivate List RecursionGenerate(HtmlNode node, string parentPath){List bookMarkModels = new List();// 获取所有文件夹标题与其下属节点，以便递归查询其子节点var bookMarkFolderTitles = node.SelectNodes("h3")?.Cast().ToList();var bookMarkFolder = node.SelectNodes("dl")?.Cast().ToList();var htmlBookMarks = node.SelectNodes("a");// 如果文件夹不存在则直接将所有具体书签返回if (bookMarkFolderTitles == null || bookMarkFolder == null){return GenerateBookMarkModels(htmlBookMarks, parentPath);}// 递归构建书签模型for (int i = 0; i 首先说说 RecursionGenerate(HtmlNode node,string parentPath) 方法，这个方法接收一个节点参数，这个节点就是需要遍历的节点，而 parentPath 则是用于生成路径的，在每次构建书签模型的时候都会根据父级路径来生成新的路径。

如果要获取某个节点下面的子节点，肯定要拿到该节点下属的所有节点，可以参考上面的大概结构，一般一个书签文件夹下面都会有一个或多个子文件夹，也有可能会有部分书签与这些子文件夹同级。

所以，我们先提取出当前节点的文件夹名称，也就是

标签里面的内容，然后只要有一个

标签，那他肯定有一个对应的标签表示包裹着它的子节点内容。如果某个节点它的内部没有子文件夹的话，那直接抓取其内部的具体书签，并返回出来。

如果某个节点拥有子文件夹的话，遍历其内部，并且再次调用 RecursionGenerate 方法，将其内部节点添加到这个节点的 Childern 当中。

注意，这里在循环内部还再次进行了获取具体书签的操作，因为有的时候某个节点内部也是拥有具体书签项的，所以这里才会有 List.AddRange(IEnumerable list) 操作。具体书签生成:

/// /// 将 A 标签的集合转换为 BookMarkModel 集合/// ///
A 标签节点集合/// 转换完成的 Node 集合private List GenerateBookMarkModels(HtmlNodeCollection nodes, string parentPath){if (nodes == null) return null;List bookmarks = new List();foreach (var node in nodes){bookmarks.Add(new BookMarkModel(node.InnerText, $@"{parentPath}\{node.InnerText}.mhtml", node.Attributes["href"].Value));}return bookmarks;}
具体书签的生成就很简单了，直接构建即可，这里会在其末尾添加 .mhtml 后缀。

4.根据生成的书签模型来产生 MHTML 文件

这里可以参考以下实现：https://code.msdn.microsoft.com/windowsdesktop/Creating-a-MHTML-MIME-HTML-61cf5dd1

目前程序还没有实现这一个功能，因为使用 CDO 的方法不太方便，而且生成的 MHT 文件样式丢失严重，并不像 Google Chrome 保存的 mht 文件那样完整。

后续再来填坑。

结尾

项目地址：http://git.myzony.com/Zony/GoogleBookmarkExportTool

转载于:https://www.cnblogs.com/myzony/p/8494137.html

上一篇：《淮阴行五首》翻译原文赏析诗人唐刘禹锡
下一篇：没有了