October 05, 2008

新酷音進度報告 6


《少年小樹之歌》一書中寫道:
    「當你發現美好的事物時,所要做的第一件事,就是把它分享給任何你遇見的人。這樣,美好的事物才能在這個世界自由地散播開來」
四年前與一群朋友合作,整合開發資源,重建 [新酷音輸入法計畫],如今已以自由軟體的形式,在世界上自由地散播開來,的確始料未及,謹此對所有參與開發、討論交流,與使用輸入法的先進朋友們,致以感激之意。

兩年沒有發佈正式的釋出版本後,日前終於釋出 libchewing 0.3.1 與 scim-chewing 0.3.2,同時我們也決定了未來的開發方向。關於新酷音主體的 libchewing,其開發模式將切割為兩個分支:
  • libchewing 0.3.x (發展代號: kanruru) : 延續既有的功能,以 unigram 作為 language model,強化漢語拼音、候選字詞處理、詞庫詞條與詞頻的維護、跨平台支援、特殊符號輸入與操作模式等等。在此分支中,也會檢視 API 與資料結構設計,已做了些許調整,API 與 ABI 也有 breakage,待穩定後,會成為 libchewing 0.4.x 穩定版本。"kanruru" 不僅是個可愛的 codename,也表示 Kanru Chen 目前正著手維護此分支
  • libchewing 0.5.x (發展代號: beeboo) : 以 uni/bi-gram 自然語言處理為核心的全新設計。透過語料庫處理,從而語料中統計並斷詞,在保存關鍵詞候選集並統計詞頻後,可一系列的篩選過濾,提昇 libchewing「猜字」的準確度。此設計中,注音與 (有調) 拼音是同一個層次,實做上會以廣泛使用的 [GLib] 來處理資料結構與演算法,並引入 [GNU dbm] 或 [Berkeley DB] 作為資料儲存與操作之用
在 [新酷音輸入法::開發者討論群組] 已多次討論及詞頻、詞性、HMM (Hidden Markov Model) 等議題,同時,[Sun PinYin] (可比擬為簡體版本的國音 / 自然輸入法,由 Sun 工程團隊維護,授權模式:CDDL / LGPL 2.1) 與 [Novel-PinYin] (以 HMM 為基礎的拼音自然語言輸入法,由 Novell 北京工程師維護,授權模式:GNU GPL) 的公開釋出,給予頗大的鼓舞,新酷音開發團隊的成員也逐漸與 Sun 及 Novell 工程團隊交流,這也是 libchewing 0.5.x 分支的技術基礎。

以發展里程碑來看 libchewing 0.5.x 分支,大致分為以下:
  • Milestone 0 - 分析 Sun PinYin 與 Novel-PinYin 設計,並嘗試處理注音和拼音對應議題
  • Milestone 1 - 以 tsi.src (新酷音原本的詞庫) 來協助產生有聲調的 bi-gram lexicon,以銜接 Sun PinYin 工具,同時,lexicon 及 n-gram 繁體中文化也要處理
  • Milestone 2 - 抽詞及斷詞工具 (semi-supervised or unsupervised) + API 整合 (來自 libchewing 0.3.x/0.4.x)
  • Milestone 3 - 更廣泛地 IM 整合與重用
在 wiki 頁面 [SunPinyinHackNote] 中,lexicall 已著手對 Sun PinYin 做了初步研究並紀錄細部的資訊,最近也會試著用更具體的方式整理。可想而知,這些發展對開發團隊來說,的確是不算單純的新挑戰,但,終究得透過更好的技術與開發模式,讓更多使用者受益,當然,我們永遠歡迎新血的投入,諸如 Programming / Debugging / Testing / Bug-reporting,抑或 Art Design -- Logo, Icon, Website, Documentation 皆需要熱心人士協助,謝謝!
由 jserv 發表於 October 5, 2008 03:06 AM
迴響

大大:
我在 ubuntu 8.04 裝上新版
但是終端機無法輸入中文
其它地方還ok

請問是我編譯的問題
還是code有bug

我是這樣編譯的:
http://www.ubuntu-tw.org/modules/newbb/viewtopic.php?post_id=57595#forumpost57595

謝謝

robert 發表於 October 13, 2008 05:13 PM
發表迴響









記住我的資訊?