2007-05-13

學生生活的文字工作:OCR

最近有人問我 OCR 辨識出來的文件,如何不讓人發現「不是用 OCR」弄出來的?

離學生時代好像也有點遠了。記得從文件的格式中,的確有時可以「聞」出有沒有「OCR 味道」;從標點及錯字,可以猜打字的輸入法是什麼;如果沒限定格式的話,從標點、Word 檔的排版的方式也如筆跡一般,多少可以反映出一個人「寫字」的風格(慣用的字型樣式、段落格式等等)。

要「洗掉」不是屬於自己的痕跡,大概除了逐字檢視重編,大概沒有其他的辦法。只是覺得奇怪的是過了這麼多年,OCR軟體好像沒有什麼特別的進步,輸出的東西還是那個樣子,到底是怎麼回事呢?難道增加「去除多餘的空格」、「中文段落使用全形符號」這樣的功能,會比辨識圖形要困難嗎?

3 則留言:

米班 提到...

看你用的版本。如果是中文的,大概是清華。清華從2000左右沒有更新過「主程式」,只有介面小改過。似乎是公司賣給別家,把OCR研發部門給解散了

話說回來,連IBM via voice這麼好用的軟體都因為賣不好而研發停止,部門賣掉,何況大陸。

說到中文OCR,我從北京工學院的版本開始用到現在,還沒有一個真的「好用」的,像清華,也只是掃「大陸文」堪用而已

can 提到...

我以前用的是丹青 4.0,後來就沒再用了,剛剛 Google 找了一下,發現後面更新的版本只有 4.5 還有無法確認真假的 5.0,公司網站好像沒找到,不知道是不是掛了?

講起來電腦軟體的發展也很怪,說、寫、光學辨識這些輸入資料的方法上個世紀就有,到現在沒什麼大改進,倒是不斷投注大量的運算能力,讓畫面看起來更炫。(然後這真的很重要嗎?)希望實驗室裡的電腦科學家是忙著搞腦波輸入,以後用想的就變成文字/圖形/聲音,這樣應當是方便多了... XD

米班 提到...

沒記錯的話,丹青的「辨認核心」也是買清華的授權,蒙恬後來出的也是。
早期做scanner幾家公司,有一家大概作了自己的OCR核心,認大陸文是一團糟,好像是mustek的樣子。後來也改bundle丹青
辨認正確率低,因為電腦認「pattern」的方式,必須先把信號「類比」轉「數位」,然後再用比對的percentage決定辨認準確度。在這一點上,目前的軟體工程沒有解決方案。這是硬體工作原理的問題。
應該這麼說,人腦這部「硬體」的工作原理太複雜,我們沒有能力「模擬」,日本的類神經電腦至少發展將近20年,還沒搞出什麼真正的突破。倒是美國人走「演算法」的路,至少搞出像是RAR,JPG,MP3這些好用但不複雜的規格,但是這些是副產品,「電腦模擬人腦」這件事,其實沒多大進展。