資源簡(jiǎn)介
…首款篇章級(jí)中文手寫(xiě)字庫(kù)
…系統(tǒng)的樣本采樣機(jī)制
…真實(shí)環(huán)境下的手寫(xiě)
…廣泛的應(yīng)用支持
未來(lái)的脫機(jī)手寫(xiě)漢字識(shí)別的研究對(duì)象必會(huì)從孤立工筆手寫(xiě)漢字逐漸過(guò)渡到真實(shí)手寫(xiě)中文語(yǔ)句。脫機(jī)手寫(xiě)漢字識(shí)別領(lǐng)域亟需建立一個(gè)脫機(jī)手寫(xiě)中文文本庫(kù),用于支持面向真實(shí)手寫(xiě)環(huán)境的漢字識(shí)別研究。為此,我們提出了面向真實(shí)手寫(xiě)環(huán)境的基于無(wú)切分策略的脫機(jī)手寫(xiě)漢字識(shí)別。我們經(jīng)過(guò)三年的系統(tǒng)工作,建立了一個(gè)包含約20萬(wàn)字的HIT-MW中文手寫(xiě)文本庫(kù)(英文全稱為Harbin Institute of Technology-Multiple Writers Database,中文名稱為哈爾濱工業(yè)大學(xué)多人手寫(xiě)庫(kù),縮寫(xiě)為HIT-MW庫(kù)),用于研究上述問(wèn)題(具體情況見(jiàn)下文)。由于采取了系統(tǒng)的采樣方案,庫(kù)中包含了很多真實(shí)手寫(xiě)現(xiàn)象,不僅有歪斜的(skewed)文本行,還有交疊(overlapping)和粘連(touching)文本行;除了抄寫(xiě)錯(cuò)誤(miswriting),還有涂改文字(erasure)的存在。這樣,脫機(jī)手寫(xiě)漢字識(shí)別從理想化的“單字”識(shí)別進(jìn)入到面向真實(shí)手寫(xiě)環(huán)境的“文本”識(shí)別(或語(yǔ)句識(shí)別)的更高層次。
代碼片段和文件信息
評(píng)論
共有 條評(píng)論