發(fā)布于:2021-01-23 00:00:12
0
84
0
圖片是一種很好的交流方式,但通常情況下,圖片被用來在社交媒體和廣告中傳播文字。圖像中的文本也存在可訪問性問題。事實(shí)上,由于各種原因,能夠檢測圖像文件中的文本是很重要的。讓檢測圖像中的文本成為可能的驚人的開源工具是tesseract OCR!
我建議使用自制軟件安裝tesseract:
brew install tesseract
要運(yùn)行tesseract從圖像中讀取文本,可以在命令行中運(yùn)行以下命令:
tesseract ~/Downloads/MyImage.png ~/Downloads/MyImage.txt -l eng
上面的命令將檢測到的英文文本(-l eng)提取到一個(gè)文本文件(MyImage.txt)中。這個(gè)過程非???,并且支持幾十種語言。
讓我們來看看下面的例子:
檢測到以下文本:
International ‘Champions Cup ~- TOUR SQUAD #AFCTour2018 CECH MUSTAFI GUENDOUZI oziL LENO SOKRATIS NELSON IWOBI MARTINEZ MAVROPANOS SMITHROWE = NKETIAH BELLERIN OSEI-TUTU WILLOCK PEREZ KOLASINAC ELNENY RAMSEY LACAZETTE CHAMBERS MAITLAND-NILES MKHITARYAN AUBAMEYANG HOLDING
有許多不同編程語言的實(shí)用程序可以插入tesseract的功能,但了解底層工具是很重要的!tesseract是一個(gè)令人難以置信的工具,如果你需要一個(gè)開源工具來檢測圖像中的文本,你應(yīng)該利用它!
作者介紹