<span id="mfhtw"></span>

    1. <dd id="mfhtw"></dd>
    2. <rp id="mfhtw"></rp>

      <th id="mfhtw"></th>

        <dd id="mfhtw"><center id="mfhtw"></center></dd>

      1. ?

        客戶服務中心

        您可以直接撥打我們的客戶服務熱線或者把您的意見發送至我們的郵箱

        010-82684401

        mingdedata@163.com

        北京市海淀區龍崗路51號6號院二屋227室

        當前位置:企業新聞
        帶你了解-國產操作系統下的OCR技術實現檔案數字化


        現如今,在眾多工具軟件、應用軟件、數據庫軟件以及各類接口類程序都在慢慢接入國產化的操作系統,助力國內的IT環境的搭建與運維,也有了可以在國產化操作系統平臺下使用的OCR文檔文字識別技術開發包了。

        目前國產化操作系統下的OCR技術可以OCR識別簡體中文、繁體中文以及中英文混排的文檔圖片,文件PDF,OFD格式都可以識別。

        OCR軟件只需提供與掃描儀的接口,利用掃描儀驅動軟件即可。OCR識別軟件是開發工具包,實際操作中有兩種方式:

        1.支持接口掛接,可一天24小時不間斷的進行OCR識別處理,輸入JPG、PDF文件,輸出TXT、雙層PDF或者OFD文檔結果格式的文件。

        2.使用數據加密線的授權方式,進行單機授權使用,麒麟或者UOS的電腦連接好掃描儀接收文檔的掃描件圖片就可以進行單機OCR授權使用。

        OCR開發包支持雙層PDF文件的OCR識別結果輸出;也支持識別導入的圖片PDF文件,所以功能很強大。也能夠導出國產化操作系統下的專用格式.ofd文件。

        隨著信創的大環境下,接下來會鋪開國產化的應用,檔案管理,檔案數字化,就是其中一塊必不可少的應用場景,同樣OCR也是檔案數字化不可缺少的工具模塊。

        拓展小知識

        OCR軟件主部分組成。圖像輸入、預處理:預處理:主要包括二值化,噪聲去除,傾斜較正等。

        圖像輸入:對于不同的圖像格式,有著不同的存儲格式,不同的壓縮方式,目前有OpenCV,CxImage等開源項目 。

        二值化:對彩色圖片進行處理使圖片只前景信息與背景信息,可以簡單的定義前景信息為黑色,背景信息為白色,這就是二值化圖了。

        噪聲去除:對于不同的文檔,根據噪聲的特征進行去噪。

        傾斜較正:對拍照出來的產生傾斜圖片,這就需要文字識別軟件進行較正。

        版面分析:將文檔圖片分段落,分行的過程就叫做版面分析。

        字符切割:由于拍照條件的限制,經常造成字符粘連,斷筆,因此極大限制了識別系統的性能,這就需要文字識別軟件有字符切割功能。

        字符識別:這一研究,已經是很早的事情了,比較早有模板匹配,后來以特征提取為主,由于文字的位移,筆畫的粗細,斷筆,粘連,旋轉等因素的影響,極大影響特征的提取的難度。

        版面恢復:人們希望識別后的文字,仍然像原文檔圖片那樣排列著,段落不變,位置不變,順序不變地輸出到word文檔、pdf文檔等,這一過程就叫做版面恢復。

        后處理、校對: 根據特定的語言上下文的關系,對識別結果進行較正,就是后處理。


        <span id="mfhtw"></span>

        1. <dd id="mfhtw"></dd>
        2. <rp id="mfhtw"></rp>

          <th id="mfhtw"></th>

            <dd id="mfhtw"><center id="mfhtw"></center></dd>

          1. jk女高中制服白丝裤袜自慰_图片区 偷拍区 小说区五月_女性裸体无遮挡无遮掩视频蜜芽_japanese成熟50一60