Tesseract介绍MAC安装tesseract失败,443问题解决
Tesseract 是一个 OCR 库,目前由 Google(一家以 OCR 和机器学习技术闻名于世的公司)赞助。 Tesseract 是目前公认最优秀、最精确的开源 OCR 系统。
要做的是使用tesseract 提取图片中的信息。
brew安装brew install tesseract
安装失败
==> Downloading https://raw.githubusercontent.com/Homebrew/formula-patches/03cf8088210822aa2c1ab544ed58ea04c897d9c4/libtool/configure-big_sur.diff
curl: (7) Failed to connect to raw.githubusercontent.com port 443: Connection refused
Error: tesseract: Failed to download resource "flex--patch"
Download failed: https://raw.githubusercontent.com/Homebrew/formula-patches/03cf8088210822aa2c1ab544ed58ea04c897d9c4/libtool/configure-big_sur.diff
根据报错信息,我们可以看到以下问题:
- 下载失败 resource "flex--patch"
- 下载失败
https://raw.githubusercontent.com/Homebrew/xxxxxxx
- 连接失败
Failed to connect to raw.githubusercontent.com port 443: Connection refused
Failed to download resource "flex--patch"
那单独下载一遍是不是可以了?
执行brew install flex--patch
结果还是下载失败,flex--patch
不存在
从这里可以分析出来:
下载失败2后面还会出现下载失败的问题,还要单独下载,这样效率岂不是太低了,所以这不是原因
下载失败 raw.githubusercontent.com ,使用浏览器是可以直接打开链接的
https://raw.githubusercontent.com/Homebrew/formula-patches/03cf8088210822aa2c1ab544ed58ea04c897d9c4/libtool/configure-big_sur.diff
虽然打开之后的文本代码看不明白,但感觉也不是这个问题
连接失败浏览器中可以打开这个链接,说明这也不是原因
那么就剩这个连接失败的问题了,先用浏览器打开看下raw.githubusercontent.com port
重定向到github
了,证明是可以打开的,没毛病呀,为什么不能连接443呢
在网上搜索 >>>>> https://zhuanlan.zhihu.com/p/115450863
里面有详细的解决,不知道怎么就被墙了
重新设置出去的端口
# 7890 和 789 需要换成你自己的端口
export https_proxy=http://127.0.0.1:7890 http_proxy=http://127.0.0.1:7890 all_proxy=socks5://127.0.0.1:789
再次执行brew install tesseract
熟悉的感觉回来了
安装的过程比较耗时,内存基本跑满了,耐心等待
使用tesseract -v
验证, 安装成功
kkMacBook-Pro% tesseract -v
tesseract 5.1.0
leptonica-1.82.0
libgif 5.2.1 : libjpeg 9e : libpng 1.6.37 : libtiff 4.4.0 : zlib 1.2.11 : libwebp 1.2.2 : libopenjp2 2.5.0
Found AVX2
Found AVX
Found FMA
Found SSE4.1
Found libarchive 3.6.1 zlib/1.2.11 liblzma/5.2.5 bz2lib/1.0.6 liblz4/1.9.3 libzstd/1.5.2
Found libcurl/7.54.0 LibreSSL/2.0.20 zlib/1.2.11 nghttp2/1.24.0
提取图片问题
找到一个图片
cd
至图片目录执行tesseract test.png textoutput
,将识别的文本输出到textoutput
文件中
cat textoutput
, 是想要的内容
kkMacBook-Pro% tesseract test.png textoutput
kkMacBook-Pro% cat textoutput.txt
Failed to connect to raw.githubusercontent.com:443