December 21, 2006

等待新漢碼-漢字的數位化與中華文化的衝擊

[阿江] 前輩日前在中研院 OpenFoundry 電子報發表了一系列名為「等待新漢碼-漢字的數位化與中華文化的衝擊」的文章,採用 Creative Commons「姓名標示 2.5 台灣」方式釋出,鞭辟入裡指出,在這電子數位時代,我們的語文系統潛在的危機與新願景,全文張貼如下:

[名家專欄] 等待新漢碼-漢字的數位化與中華文化的衝擊
陳昌江/文 2006/09 (感謝張正一等人協助校稿)

◎ 前言

一百多年來,中華民族在優勢的外來文明衝擊下,人民普遍喪失民族自信心,不僅使得中國傳統文化成了代罪羔羊,也使其更新的腳步停滯不前,無法受到應有的重視與發展。最無奈的是,許多中華文化的寶貴資產,就在這樣的時代大洪流中無聲無息流失!

今天,兩岸的大漢民族普遍都富足了,然而這種文化上的自卑,仍然存在著。所以當下重要工作就是促成中華文化的更新與再興。漢字是中華文化的根本材料,其影響無所不在,因此漢字的數位化工程,也就成了中華文化進化到數位時代的重要基礎工程。

漢字數位化工程中最基本的就是漢字表達的基礎結構。漢字數位架構的良窳,深深地影響到中文資料儲存成本、交換成本以及檢索效能等,也關係著中華文化的傳承與創新的能力。

◎ 漢字資訊的五大要素

自古漢字就由「形、音、義」三個要素所構成,在資訊時代則必需加上「碼」和「序」二個要素。

「碼」是電腦認定一個漢字的一個相對數字,通稱為「字碼」,所有的電腦的資料處理、資料交換都是針對「字碼」進行認定和處理。

「序」係人類認知的排列方式。由於有查找排序和比對等資料處理的需要,一個自然、共同認定的「字序」是一個文字系統重要而有價值的本質。以查字典為例,查英文字典是簡單方便且準確,但查漢字字典就很不確定,這種問題相信你一定能感受到,這是因為漢字還沒有確定字序的緣故。

◎ 當前的漢字資訊表達的情況

一、形
漢字字形的產生主要有點陣字和向量字兩種:

(一)點陣字形
點陣字對電腦來說其實是一種「字圖」,就是在有筆畫的地方描上細細的點。點陣字的好處就是處理簡單,缺點就是每一種尺寸都需要一套點陣資料,因為一個點陣字就是一張圖片,且資料量與字形的大小成等比級數上升,字形變大,資料量快速變大。這使得記憶體受限的小型數位裝置所能提供的字形就非常有限。

另一方面,要從這點陣資料圖中取得有關這個字形的特徵資訊不多,因此,除了進行高級的影像處理外,點陣資料的進階處理並不容易。

(二)向量字形
向量字則是只記錄各筆畫內容的位置、長度寬度等字形資料,而在最後展現時,才由電腦轉換成點陣圖來呈現。

向量字的發展主要為解決點陣字資料量龐大的問題。但向量字形在呈現成點陣時所需要的轉換非常複雜,目前在機能不夠強大的數位設備上仍不易實現。

二、音
由於漢字是一種形意文字,與音韻並無緊密的連結,加上古今漢語音韻之變遷,形和音的對映是多對多的(多字同音,一字多音),其中字音可以簡單地用建表的方式解決。但如果要處理破音和語境問題,就涉及自然語言處理的範疇,這方面學術單位已有相當多的有關研究。

三、義
形是義的視覺介面,音是義的聽覺介面,有形無音,稱為「符號」,有音無形,叫作「語言」,只有同時具備形、音兩要素,才構成文字。

四、碼
中文在資訊時代的第一個挑戰是「編碼」,也就是為每一個漢字編上一個數字碼。一個漢字被編上一個對應的字碼,就無法進行數位化處理,也等於「不存在」在數位世界中,甚至會造成世界上「沒有這件事」的假象。

碼可分為「內碼」和「輸入碼」兩種,內碼是中文字的數位代碼,是方便電腦處理的代碼,人無法記憶,因此才衍生了各種方便人記憶或辨識的輸入法來產生相應的內碼,輸入碼主要是針對輸入漢字的人機介面,也是人和機器溝通時的中介表達方式。

(一)內碼
內碼的主要考量是軟體的相容性、儲存的效率和程式處理的簡易性,因為在這數位世界中,漢字字碼是無所不在的,因此漢字的處理成本,這也就成了無所不在的成本負擔。

在早期電腦的文字模式 (text mode) 時代,為了遷就 ASCII 碼表,故有 Big5、GB、 JIS 等雙字元(一個字元就是一個 BYTE,一個 BYTE= 8位元,雙字元= 16 位元)的設計。然而,電腦進入圖形模式的現在,字形在螢幕上的顯示,已不再限定為固定寬度,加上當今電腦的容量與速度,因此對於實際儲存的字元數以及運算的複雜度已經不在,讓是中文內碼的設計上有了很大的自由度。

目前電腦平台上涵蓋面最廣、最成功的內碼 Unicode(統一碼),已經成為當今 Windows、Mac 及 Unix-like 等主流平台的內碼,因此 Unicode 事實上已取代 ASCII 、Big5、GBK 碼,成為各作業系統的預設編碼,並漸漸地成為國際間交換資料時主要的交換碼。

(二)輸入碼
輸入碼可分為「拆形」和「拼音」兩大類。「電腦中文化」的歷程就是利用英文電腦的鍵盤,編上部首和注音的映對鍵位。然而中文部首的數目遠遠超過了鍵盤的鍵數(「康熙字典」的基本部首有 224 個),因此就必須在有限的鍵盤上,用一個鍵對應多個部首的方式來輸入。

由於這些分解動作,都加入了人為指定與巧思,並非來自文字的本質,因此需要很多的學習和記憶,對漢字使用者無疑是建立了一個很大的門檻。現在社會上還有很多人「不會電腦」,其實大部分都是「不會輸入」的意思。這種現象不僅在大人的世界發生,在兒童方面,也因為這個緣故,在電腦的啟蒙時間也被延後了,這使得華文的小孩在電腦應用與普及上與英語世界相較,有輸在起跑點的無奈。

◎ 一字一碼的時代困境

我們必須深刻地覺悟到,承載中文資訊的中文碼,其設計對「數位中華」的影響是既深且遠的,不深入觀察分析,大家也習以為常,難以發現它無所不在的影響以及其嚴肅性。就以康熙字典為例,一萬多字的 BIG5 碼是做不出有四萬多字的康熙字典的。

為了讓你發現這些在我們數位生活中存在的諸多無奈事實,且讓我們來分析觀察英文字 (word) 的結構。

首先我們來看字序的問題。我們都知道,英文碼的基本定義是 0~127 的 ASCII 碼,其中有 "A~Z"、"a~z" 的 52 個「英文字母」 (character),其餘為字符碼及控制碼。由 ASCII 碼的英文字母所構成有意義語素是 word,我們就以「英文字」稱之。各位請注意到,英文字循著 ABC 的排序,就有了一個自然的、本質的排序。

在此基石之上,舉凡字典的安排、資料庫的製作、物料的列舉、二元搜尋 (binary search) 的方法、鍵盤的設計、作業系統表單的設計、快捷鍵 (HOT KEY) 的安排等,無不存在這 ASCII 編碼的基本設想,可是中文字卻沒有這個序,只要稍微有中文處理經驗的人,便可以知道,資料欄位沒有確定的排序,電話簿中的人名沒有確定的排序!

為了這樣的緣故,中文資料總是要另外自行設代碼或編號欄位等,以方便處理。相對於英文,中文的資料處理,便增加了一層無所不在的額外成本。

一、發現潛藏在當今「一字一碼」架構中的意義

現在,再讓我們來看看當今中文字一字一碼的問題。

為了讓讀者發現這些潛藏在文字架構中影響力,讓我們來考慮下面的文字假設情況:

如果,我們把 ASCII碼拿掉,改用一個英文字也像中文一樣一字一碼,那麼將會是個怎樣的景象?

我們先假設下列英文字都有了內碼:
          PERSONAL   內碼是 $FF3A 
          CENTRAL    內碼是 $BB01 
          PROCESSING 內碼是 $FF3B 
          UNIT       內碼是 $FF3C 
          MACHINE    內碼是 $CC01 
          COMPUTING  內碼是 $DD02  
    
那麼 COMPUTING MACHINE(內碼為 $DD02 $CC01)就沒有機會因為它的重要性日增而改稱 COMPUTER。請注意:因為沒有 "COMPUTER" 這個內碼,如果要,就要經過標準機構公佈新碼才會存在!

好!假設真有那麼一天,「標準機構」「收錄」了 COMPUTER 這個新字:
    COMPUTER 擴充新內碼是$AA01 
    
一樣的問題又來了,在有了 "COMPUTER" 這個新字碼之後,PERSONAL COMPUTER(內碼 $FF3A $AA01)仍不能馬上改稱 PC,因為還沒有定下 "PC" 這個字碼!

同樣地,中央處理單元 CENTRAL PROCESSOING UNIT(內碼$BB01 $FF3B $FF3C)更不會簡稱 CPU了,因為如果英文字也是像中文一字一碼的話,也就沒有機會新創 "CPU" 這個字了。

當然這是個假設性的探索,英文文字事實上可以自然地隨著時代的需要「進化」,這可是關乎到一個文化的根本活力。

然而,這卻也正是這些年來,一字一碼的中文所經歷的過程。

諸位一定可以體會到,所謂的一字一碼,就是拿處理「英文字」(word) 的方式來處理中文字,這是一個耗時費力而不切實際的過程!

然而,我們更需要嚴肅看待是這樣的困局所引發的嚴重後果:
    漢字停止演化!
只因為在一字一碼的架構中,要增加一個新字,是一個令人無法承受的夢魘!

讀者是否可以看出來,當一字定成一碼的時候,由於是人為指定,於是一個新字必須經過標準機構的公佈才有可能流通和使用,然而即便一個新字已經公佈了,無數已經在運行的系統又如何去更新呢?所以,這是成本非常高、過程複雜且時間漫長的過程!其真正的結果就是「停止造新字!」,這就是這幾十年漢字僵化的景況。

於是,當今的一字一碼架構也就成了漢文字生機的死胡同!很無奈地,這卻是當今漢字數位化所存在的事實困局!

二、沈重的一字一碼

雖然現在這種人為的一字一碼並不是完全地不可行,問題就在必須每隔一段時間以人工審議的方式追加新字碼,而在字碼尚未公佈前,中文數位資料的轉換、交換、搜尋比對都是不可能的,更別說是無法輸入和無法印出這樣的基本動作了。以佛教經典來舉例,佛教典籍有龐大數量古字未被編碼,早期佛教界做了許多典籍的輸入,雖然耗費龐大的人力物力來造字,至今卻仍是難以流通,但今天要全面的更新既有的系統又談何容易!

既使在新標準公佈之後,由於許多已存在多年的系統無法隨著更新,要能全面地交換、搜尋和比對,仍然是一條漫漫長路,更別提 UNICODE 到 2006 年已經公佈的七萬多個漢字,表面上好像是解決了缺字的問題,但卻也是一個龐大的系統負擔(2006 年 Windows XP 大部分的字型也只放了兩萬字)。因此,這些漢字只是「存在」但並非常用,這不僅是小型資訊設備無法承受記憶體的消耗(相較於英文文字系統是非常的龐大),就連我們在輸入時,也無法忍受輸入時每次從上百個字中挑選你要的字。

由於 BIG5、GBK、UNICODE 等幾個主要中文碼一樣都是這種一字一碼的架構,所以皆面臨相同的困境。

因此,我要說「人為指定的一字一碼是漢字數位化進程中的歷史錯誤!」。

三、中文在一字一碼的架構下固化了

我們中文漢字在每字指定一碼的架構下,「以筆書寫,自由創造」的漢字本來生命力不見了,因為這漢字在數位世界中「固化」了!

這樣的固化現象是無所不在的,其效應也是無聲無息地不易被察覺的。為了更具體的剖析說明這種失去活力的「固化」過程,這裡再舉幾個例子來加以說明。

百年來,對人類非常重要的日常用具──電燈,按倉頡以來中文形聲造字的法則,最終應是進化為「電登」這個「字」(注意「電」「登」兩個部首併寫成一個漢字,因為「現在電腦還沒這個字碼」,所以這裡無法顯示)(這個新字應是唸做「登」)。

想一想,當電燈剛出現時,中國仍處於油燈的時代,借用火旁油燈的「燈」再加上一個電字來修飾當時的燈字。另外,像網際網路(互聯網)更已經是這數位時代生活密不可分的一部分,按倉頡造字進化的原理,它的新字應該是「互罔」,這便是一個文字活力成長的機制。

近幾十年,我小時候的油燈現在已幾乎看不到了,「電燈」普及了,我們已經不需要再說「開電燈」「關電燈」來與油燈分別,而直接說「開燈」「關燈」,這是語言本身隨著生活時代不斷演進的例子。你只要仔細觀察,這種例子俯拾皆是。

其實,這個新時代新增的字很多,像 MODEM 這個英文字便是從 "MODulation and DEModulation" 複合而成,然而,由於目前中文碼是「一字一碼」,因此這個「調變解調機」(或用「數據機」簡化)就被「困住」了,只因為中文沒有字碼也「不容易」另定字碼!

這都是因為現在使用的是一字一碼的定碼機制,我們所能做的,就只是用現有的字碼來組新詞,無法造新字!儘管時代不斷地演化,重要用品和概念不斷地出現,我們卻無法進一步跟著簡化。

於是,英文字在進化,中文字卻僵在原處!

四、中文在一字一碼的架構下僵住了

在這個案例中,中文僵住了!OK,也許會有人說,「中文僵住了又怎樣?日子還不是一樣在過?」

當然,在 BIG5 時,用電腦、打手機簡訊也都可以啊!沒錯,但是,其結果就是下面的光景在不知不覺中大量普遍地在進行著:

以「中央處理器」和 "CPU" 為例,許多人在生活中、文章中會不知不覺地會直接用 "CPU" 而放棄寫冗長的「中央處理器」,真的,實在太累了,可是一用 CPU,就有許多小孩、老人和那些非資訊背景的人不知道意思了!(像 ADSL、MODEM 這種字也都是一樣的情形)。

而這樣的情況不只是發生在資訊界,也同樣發生在學術、工程、科學、醫療、農業、生物、經濟、管理…等等所有進化中的領域。這樣的情況越久,中文所不能表達(或因不實用而被棄置不用)的字詞就會累積得更多,長久下去,中文就這樣無聲無息漸漸地與時代脫節,也就慢慢失去一個語言的實用性與優越性!

各位要覺悟到,這種漢字的困局,是漢字的使用者必須自己關心解決的問題,外人不會替你解決,UNICODE 不斷地編碼,只是在解決跨國市場全球化的需求而已,至於這架構的好壞,對漢字文化的未來衝擊,外人怎麼可能替我們認真的面對!

五、字碼在無聲無息無所不再地影響我們!

字碼的影響力是無聲無息的,無所不在的,我們在不知不覺中,受到這種基本機制所制約而不自知。

為了讓各位更清楚地看見中文碼對中文活力的影響,讓我們再舉下面的這些例子來觀察思考:

CPU 是電腦的心臟,在這個數位時代是如此的重要,所以常常被使用到。前面提到,大家寧可寫 "CPU" 而不用「中央處理器」,因為寫起來太冗長了。然而,換個角度,也是因為我們無法用「電心」(注意,這是一個漢字,因為 BIG5、GB、UNICODE 裡還沒有「指定」這個字,因為沒有這個字碼,所以也無法用電腦顯示)這是個極簡潔而恰當的新字。同樣的,就像英文可以把 Personal Computer 簡化成 "PC",但中國人卻得永遠寫成「個人電腦」,難怪會有很多人直接寫 PC。另外像「光碟」這個數位時代的關鍵儲存裝置,因為沒有「光枼」這個字,所以只能用「光碟」,但「光枼」(這是一個字)就明顯比「光碟」兩個字來的有效率。(「電腦」的新「字」你一定馬上可以想得到如何寫了!停下來想一想,其實,字的演化是這麼自然而且簡單。)

再如英文 BIT 在電腦方面我們叫做「位元」或「比特」,BYTE 則譯做「位元組」或「字節」,但其實 BIT 的零一單位就是在易經八卦中的「爻」(音「姚」或唸成英譯的「必」也很好),而 8 個 BIT 叫「爻八」(一樣,要併寫成一個漢字,唸「拜」,再自然不過了),依此原則可以進一步造出 16BIT WORD,32 BIT WORD 的字,這樣的自然演化其實只是還給漢字本有的活力而已。

六、新中文碼的時代需求

我們需要一個能承載數位中文漢字的字碼架構。

前面的分析應該能讓你感受到,數位漢字碼若要能承載中華文化中的活力,就必須具有新字詞的演化架構,因為這個質素代表著數位漢字在中華文化中能繼續具有重組與創新能力,而這些本來就是傳統漢字既有的本質機能,並且也是一個文化要能繼續生存發展所需具備的。

這種獨特的構字能力,進一步來說,主要就是形聲造字法,這是漢字特質,也是漢字的活力和魅力所在。如果無法造新字,其結果就是迫使文辭變得冗長生硬,因而漸漸失去它的簡潔與優雅,減損了文字效率與實用價值,最後,終將面臨被更簡潔有效的文字系統所取代的命運。

漢字是把概念分類和發音濃縮到小小的方塊內,這種二維的表達,比一維的英文字串,承載了更豐富而精緻的資訊,實在是有效而理想的文字表達方式。我們只有找出漢字在數位世界中進化的活路,才能夠讓漢字繼續保持它的實用與優雅。

相較於英文,漢字的優點,其實俯拾皆是,這方面的探討很多,無庸贅述。在這裡僅舉一個簡單例來說:「鱐、鯦、鱞、魨、鰉、鱨、鱴、魦、鰇、鰗」,雖然你可能都沒見過,不過大概知道不是魚的名稱、就是跟魚有關係的事物,甚至已經可以想像,大概是屬哪一型的魚。有了魚的部首,「有邊讀邊,沒邊讀中間」,就算讀音不甚確定,也是八九不離十。反觀英文就沒這個好處,Tuna , crucian , salmon , bass, abalone , trout , scombroid,雖然都唸得出來,但沒有事先學過,根本看不出任何關連,恐怕只有魚類學者才能弄明白真正的義涵。

◎ 結語

自從英文電腦發展以來的這幾十年來,我們進行了一場「電腦中文化」的努力。然而,在電腦普遍使用的今天,事實上我們已經漸漸地從硬體與技術的限制中解放出來,整個資訊產業正從「硬體技術」主導的產業轉移到以「資料內容」為主導的產業。因此「電腦中文化」也進入了「中文電腦化」的新階段,我們要從中文的真正本質與需求來運用電腦,而不再遷就於電腦硬體與技術。

當今的字碼,不管是 BIG5、GBK、或 Unicode 都是人為指定的一字一碼架構,而使得數位化的漢字失去既有的生命力,不僅使得漢字變成一種僵化的文字,也使得漢字漸漸地降低了他的實用性。這樣的「歷史錯誤」是我們要嚴肅地重新審視的。

中文碼對一個數位中華文化的發展,其影響可說是既深且遠,並且是無所不在的。在這中華文化邁入數位新世紀當中,中文字碼的架構正從根從本地影響了我中華文化的未來,希望我們能及早發現這個議題的嚴肅意義,期能引發各界深思熟慮,尋求解決之道。

作者註:本篇文章希望讓大眾發現潛藏在我們生活中的字碼是如何地影響著我們中華文化的現在與未來。如果能獲得你的認同,歡迎轉載與拷貝,讓我們一起來等待新漢碼的未來。

關於作者: 陳昌江,網名阿江,部落格;畢業於台灣科技大學電機系,曾任易符智慧科技董事長(易符科技從事 CPU及嵌入系統的開發其中也包括中文字形及其相關的中文造字系統),現為「剎那搜尋工坊」籌備處負責人,主要從事中文資料庫之搜尋及中文缺字之處理。

本文章參考易符智慧科技所發表「中文資訊的表達與易符無限字庫」,針對當今中文數位化之困局加以剖析闡述,文中許多觀念源於中央研究院謝清俊教授之啟發及葉健欣先生之導入,特此銘謝。全文依據創用CC「姓名標示 2.5 台灣」授權條款出版,授權條款之詳細內容,請參考此處

PS: docs.google.com 有一份 [原稿]。
由 jserv 發表於 December 21, 2006 05:27 AM
迴響

值得繼續關注的話題
感謝

zjy 發表於 December 21, 2006 08:41 AM

从历史发展的轨迹来看,中文的常用字是越来越少而不是越来越多。如果造新字就等于“语言进化”的话,那这个“进化”也太低极了点。

luoyi 發表於 December 21, 2006 09:32 AM

在敝小站的這篇《今日連結 (2006-11-21)》裡,Brent、Markmcm、b6s、Jefferl 與 abcxyz1 等人,亦有些精彩的討論。

jeffhung 發表於 December 21, 2006 10:04 AM

Sorry, 原來不能用 ,補上連結,前一篇請砍。

在敝小站的這篇《今日連結 (2006-11-21)》裡[1],Brent、Markmcm、b6s、Jefferl 與 abcxyz1 等人,亦有些精彩的討論。

[1] http://www.jeffhung.net/blog/articles/jeffhung/679/

jeffhung 發表於 December 21, 2006 10:06 AM

令人耳目一新的好文章,作者提出的问题的确存在,也许以后会有国家机构来主持定期修订汉字库里的新字,然后各家操作系统自动下载升级,就如同今日的防病毒软件一样。:)

pure 發表於 December 21, 2006 10:34 AM

任何語言都必須有實詞開放性的機制,才能應付層出不窮的新名目;但還是得有不變的元素,才不會造成溝通、記載的困難。

以英語來說,26個字母是不變的,變的只是字母的排列組合。以近代漢語(尤其是受過中等教育的知識份子常用的漢語)來說,幾萬個漢字是幾乎不變的,變的只是漢字的排列組合。

文中以英語的 CPU、modem、PC 等例子,來辯論說中文應該也要有類似的「漢字活化」機制,但這是拿英語的「詞」層次和中文的「字」層次相比較,是不同位階的比較,並不是很恰當。況且中文也有和英語的頭字語 (acronym) 類似的機制:縮寫 (abbreviation),只是看這縮寫是否普及到約定俗成的地步;像「民進黨」、「台聯」都是大家有共識的縮寫,不見得會比 DPP、TSU 的寫法來得差。

william 發表於 December 21, 2006 10:58 AM

同意大部分观点, 不过新生字和词汇是否能够固化下来, 和是否提供了固化手段相对无关的.
所以 口的 能够生存,而光枼不能.

曾半仙 發表於 December 21, 2006 11:44 AM

這個問題其實我幼時曾經想過
可是"標準機構"首先就無法合常情理的存在
(我不是在討論政治因素 法國採取這樣的措施只造成法文的衰落而已)
而象形文字如果要離開一字一碼的困境
可能要進化出一種以"輸入法"為依歸的編碼方式
那象形指事會意 vs. 形聲轉注假借
兩種造字陣營
首先就很尷尬...........

沒關係
目前的字夠我用:p

agui 發表於 December 21, 2006 04:02 PM

>从历史发展的轨迹来看,中文的常用字是越来越少而不是越来越多。如果造新字就等于“语言进化”的话,那这个“进化”也太低极了点。

越來越少是真的
創造新字取代舊詞
感覺上沒有很低級啊?

aguai 發表於 December 21, 2006 04:50 PM

常用字越來越少?應該沒有喔,現代的常用字比中世紀、先秦時代可豐富很多的呢。此外還有常用字的變遷,現代的常用字不要說跟秦漢相比,跟唐朝就已經差很多了,總不會跟人講話在說:我「曰」XXXX、我言XXXX,再近一點,2006年的常用字,又跟1940年時的常用字又有相當的差距了,1920中國沒什麼電,不要說字,有電的詞都非常少,是罕用字。80多年後的現在呢?電還會是罕用字嗎?當然不是囉。誰能預測常用字自此以後永遠不會變遷呢?

魔法設計師 發表於 December 22, 2006 02:10 AM

好文! 希望这样关乎文化基础的问题能够引起更多的人的注意,应该还我汉字创造新字的能力,不能被固定的编码所束缚。

除了编码问题,我想还有一个输入问题。手写输入应该可以解决造字的问题,虽然写出来的字电脑未必识别,但是起码可以写不是吗?不过貌似现在很多人都习惯于拼音输入了

chenz 發表於 December 22, 2006 11:02 AM

這樣造字的話我看下場會跟越南的字喃一樣呢...
你造一個字我造一個字
你跟我都死了後就沒有人能解讀那些造字的意思了

roytam1 發表於 December 23, 2006 02:17 PM

我的看法:新生的字是越来越少。相反,很多字和词随着时间的推移,演变出许多新的含义。同时,新生的词语组合是越来越多。

segments 發表於 December 25, 2006 11:10 AM

是否有一種可能
以筆劃作為編碼的元素
就像小學老師教我們寫字一樣
一筆一筆的
如此一來
世界上只要是寫得出來的字
都可以用這樣的編碼互通.....

dahai 發表於 January 29, 2007 11:00 PM

不少人在研究這個,例如說大陸的五筆輸入法,其實也可以是一種編碼法,也就是hash,但還要考慮hash的碰撞問題。

魔法設計師 發表於 March 8, 2007 08:04 PM
發表迴響









記住我的資訊?