首 頁 字庫芯片 揀貨標簽 市場案例 新聞媒體 關于高通 聯系我們
您當前位置:首頁 >> 產品與應用
后PC 時代漢字輸入技術的挑戰與突破(二)

后 PC 時代漢字輸入技術的挑戰與突破(二)

上海集通數碼科技有限公司 崔巍

3.1. 客觀指標——編碼效率[1]。

根據信息論在漢字編碼中的應用,決定漢字輸入編碼效率的三要素包括:碼表(字 符集)漢字總數、平均碼長(擊鍵次數)和鍵位數目,三者相互制約,任何一個要素的 指標降低都會導致綜合指標——漢字編碼效率(η)的降低,由此才能夠全面反映出漢 字輸入法的綜合客觀指標。

以上頻度概率取自現有最新的漢字頻度表——《現代漢語字頻統計表》[2]。 根據以上漢字信息量計算原理,不同字符集的信息量統計見下表:(表 3)

字符集 字數 平均漢字信息量 Ho 加權漢字信息量 H1 加權字詞信息量 H2
GB2312 6763 12.72 bit 9.68 bit 8.20
BIG5 13053 13.76 bit 9.81 bit 8.33
GB13000 20902 14.35 bit 9.97 bit 8.49
GB18030 27484 14.75 bit 10.10 bit 8.62
注:字詞信息量 H2 均按單字信息 H1 中減去 1.48bit 計[3]

由于漢字頻度的分布規律,字數越多冗余度越大,例如在 GB2312 字符集的 6763 漢字中,其中前 3755 漢字出現概率為 98.4%,而其余 3008 漢字僅占 1.6%[3],因此對 高頻字的有效處理將明顯降低按鍵次數,提高輸入效率。高頻字對降低按鍵次數的貢獻, 理論上,最多節省按鍵=1-(高頻加權信息量/等概率信息量)=1-(10.10bit/14.75bit) =31.5%。

進一步壓縮冗余度的可能性在于對詞組和句子的處理。各種漢字信息量按冗余度從 高到低順序排列如下:

等概率單字 → 高頻加權單字 → 詞組 → 句子

在漢字輸入方案的實踐中利用高頻字和詞組提高輸入效率已被普遍采用。

等概率單字的理論最少碼長為:Lmin0=Ho/Log2K

高頻加權單字的理論最少加權碼長為:Lmin1=H1/Log2K

[1] [2] [3] [4] 下一頁

 
關于我們
關于高通
人才招聘
新聞中心
我們的產品
 智能芯片  智能顯示模組
24款字庫芯片 智能零售貨架標簽ESL
高通矢量字庫芯片 家電賣場貨架標簽ESL
金融專用芯片 汽車4S店顯示
物聯網芯片 智能揀貨電子標簽
 智能教育
電子書包
智能化教學講臺
知識云
更多服務與支持
產品資訊
快速时时彩秘籍
Copyright©2009 - 2014 上海高通半導體有限公司 版權所有 滬ICP備12000193號