技術(shù)支持
來(lái)源:光虎
什么是OCR光學(xué)字符識(shí)別?
OCR (Optical Character Recognition,光學(xué)字符識(shí)別)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印的字符,通過檢測(cè)暗、亮的模式確定其形狀,然后用字符識(shí)別方法將形狀翻譯成計(jì)算機(jī)文字的過程。衡量一個(gè)OCR系統(tǒng)性能好壞的主要指標(biāo)有:拒識(shí)率、誤識(shí)率、識(shí)別速度、用戶界面的友好性,產(chǎn)品的穩(wěn)定性,易用性及可行性等。
在工業(yè)領(lǐng)域,光學(xué)字符識(shí)別 (OCR) 是一項(xiàng)機(jī)器視覺任務(wù),包括從圖像中提取文本信息。
OCR是高精度文本識(shí)別技術(shù),并且對(duì)中等顆粒圖形噪聲無(wú)懈可擊。它們還適用于識(shí)別使用點(diǎn)陣打印機(jī)制作的字符。該技術(shù)為部分遮擋或變形的字符提供了令人滿意的結(jié)果。
識(shí)別過程的效率主要取決于文本分割結(jié)果的質(zhì)量。大多數(shù)識(shí)別案例都可以使用提供的一組識(shí)別模型完成。在其他情況下,可以輕松準(zhǔn)備新的識(shí)別模型。
OCR光學(xué)字符識(shí)別技術(shù)步驟
為了實(shí)現(xiàn)最準(zhǔn)確的識(shí)別,有必要進(jìn)行仔細(xì)的文本提取和分段。從圖像獲取文本的總體過程包括以下步驟:
從圖像中讀取文本
|
獲取文本位置 從背景中提取文本 分段文本 使用準(zhǔn)備好的OCR模型 字符識(shí)別 |
|
|
獲取文本位置
文本的位置是固定的,它由稱為掩碼的框描述。例如,個(gè)人身份證是按照正式規(guī)范制作的。每個(gè)數(shù)據(jù)字段的位置是已知的。經(jīng)過良好校準(zhǔn)的視覺系統(tǒng)可以拍攝文本位置幾乎恒定的圖像。
文本位置不是固定的,但它與輸入圖像上的特征元素或特殊標(biāo)記(光學(xué)標(biāo)記)相關(guān)。要獲取文本的位置,必須找到光學(xué)標(biāo)記。這可以通過模板匹配、1D 邊緣檢測(cè)或其他技術(shù)完成。
未指定文本的位置,但可以通過圖像閾值輕松地從背景中分離字符。然后可以使用 Blob 分析技術(shù)找到正確的字符。
文本提取過程中的主要復(fù)雜情況可能是光線不均勻。某些技術(shù)(如光規(guī)范化或邊緣銳化)有助于查找字符。
文本區(qū)域分割是將區(qū)域拆分為行和單個(gè)字符的過程。只有當(dāng)每個(gè)區(qū)域包含一個(gè)字符時(shí),識(shí)別才可能實(shí)現(xiàn)。
當(dāng)文本文本行分開時(shí),每行必須拆分為單獨(dú)的字符。
接下來(lái),提取的字符將從圖形表示形式轉(zhuǎn)換為文本表示形式。
調(diào)用OCR模型庫(kù)
通過調(diào)用OCR模型庫(kù),使識(shí)別到的字符以文本形式與模型庫(kù)進(jìn)行比對(duì),匹配數(shù)據(jù)最相似的模板,得出準(zhǔn)確的字符信息。
通常來(lái)說(shuō)需要選擇適當(dāng)?shù)淖址?guī)范大小,來(lái)分類字符的大小。
【來(lái)源:光虎光學(xué)內(nèi)部培訓(xùn)資料】