COSCUP 2007 (前篇)
噢,該寫的還是要寫 XDrz
前一篇 ICOS 2007 第一天的心得寫完後,承諾要寫 Day 2 & Day 3 的。不過由於我在這兩天參加的議程都是 COSCUP 2007,所謂開源人年會,因此,這篇文章以 COSCUP 2007 為主軸。至於 ICOS 的,我就不寫了 XDD
其實有些議題我也不是很懂,有的是沒有很專心聽,有的… 是睡著了 Orz (真對不起那些長輩們)。因此,這篇文章我只記我印象深刻的。 另外,也因為過太久了(七天囧),有錯的地方請盡量指正 XDrz
嗯,我話比較多,所以,COSCUP 分兩篇寫,一天一篇。
在開始之前,先看這個網址:http://coscup.org/2007/in2/ (笑)。
—
第一個 Session 是關於文字資訊處理的。
想當然爾,身為台灣人,說的是漢系語言,寫的是漢字,當然會想要能在電腦上顯示、輸入甚至玩弄操作我們的語言啦。早上的整個 Session 都是在講這些。
首先是若干人士很關心的,閩南語拼音輸入。
先不論教育部版、民間版、甚至古時候的漢羅拼音哪個正確、正統,目前有些 hacker 在開發的 lib-Formosa ,正是輸入河洛語拼音的工具。另外,OpenVanilla 也支援台文輸入法。『為了輸入如台語羅馬字等中文以外的文字,必須竊取 OpenVanilla 的技術。』主講人 pcchen 陳柏中教授如此說道。(btw 我直到剛剛才知道 pcchen 是清大物理系的教授 Orz)
OpenVanilla 計畫的主導人、同時也是 lib-Formosa 專案的主導人之一燈哥劉燈前輩 (Lukhnos) 說道,『目前台語輸入的問題,類似當年中文輸入法起步時的問題。』
—
接著是 b6s 的『華語輸入法在各地的發展近況比較』,以簡明易懂的簡報介紹中文輸入法的發展概況。有趣的是:
『當初日本人搶先做出了輸入法。輸入法這個詞是從日本語的「入力」來的,原意是「插頭插入插座」這個動作,意指「不同的語文要用不同的方式(插頭)才能輸入(插座)」。譯作英文時不知怎麼地變成了 “input method”,再譯成中文就變成「輸入法」了,蠻怪的。』
一些有趣的歷史:
- FreePY 是目前找得到最早的 Windows 輸入法。
- 同時間有人把 FreePY port 到 YLam 輸入法。
- XCIN 歷史悠久,但後來原作者改去寫 GCIN 了。
- and others, 但我沒記,slices 在這裡。
—
接著是我最感興趣的部份:動態組字!!
可以看看維基百科的動態組字條目。主講人是「魔法設計師」張正一,簡報在這裡。他就是在做動態組字的。
『現在的漢字是用編碼儲存的,一個字一個編碼,但是漢字那麼多,光是日本的「今昔文字鏡」網站,就號稱收錄了古今漢字十萬字以上,光 Unicode 也不夠放。那我們回想古代,古代人是怎麼搞出那麼多漢字的?你知道的,六書造字法則。古代用六書造萬字,現代一字一編碼,所以把冷僻字丟掉?如此一來,古籍數位化也困難重重。』
『因此,我們正本追源。漢字,有字件,是字的各級零件。我們可以透過動態組字的方法,製造出千千萬萬的字,就算是古今中外沒有的字都可以做出來(好玩,
還有印在 T-shirt 上(笑)) 。這個規範在 Unicode 4.0 第 11 章的 IDC/IDS 技術文件。』
接著他秀了這張出自 Unicode 4.0 官方規格文件的有趣圖片 XDD
至於實作呢?
當然有實作: www.ksana.tw:8081 (註: 現在網站好像在重整中,所以看不到畫面…)。這個程式可以輸入字的任何一個零件(例如 「女」),就可以把每一個含有此部件的漢字統統找出來,而且速度非常快!(例如 女安妥怒…)
另外他還講到所謂中易八法,是把漢字看成一個一個筆劃組成的,並以 1 ~ 8 的編號來編列這些筆劃,輸入時只要按 1 到 8 的數字,便可視同人用手寫的筆順了。有點類似手機上的筆劃輸入法,但手機因為受限於鍵盤大小 (可能還有版權問題?),所以,有的手機只有五個筆畫,直豎撇點彎,例如我的 SonyEricsson K310i …
除此之外,還有動態組字程式的實作。該程式的官方網站在這裡,不過程式碼是放在 OpenFoundry 上的。
要怎麼玩呢?首先你要有 Java Runtime Environment;當然 Mac OS X 是已經內建了,至於 Windows 我就不知道了 XD 應該是去 Java.com 下載吧。以下寫的是我在 Mac OS X 10.4.10 (Tiger) 上實作的方法,當然你要先從安裝光碟裡把 Xcode 2.4.1 裝起來。
再來要想辦法弄到 Source Code,例如 SVN:
svn co http://svn.openfoundry.org/dnasmchchar/trunk/IDSdemo/ ./IDSdemo/
接著編譯:
cd IDSdemo
ant
就可以編成 jar 檔案了,那麼執行:
cd dist/
java -jar IDSDemo.jar
一開始會做字根索引,大概一分鐘,完成後就會看到程式畫面了。按功能表上的按鈕就能以直觀的方式組字,或是按功能表的『示範字』來看範例,所謂示範字大抵是出自這篇文章的圖片,還有招財進寶的神字喔。例如我玩出了這個字 (注意底下紅字是中易八法喔):
老實說,我覺得這有點類似現在的字根輸入法,如倉頡、大易、嘸蝦米,只不過拆的方式不一樣,但基本的概念相同,都是把字切成很多零件。但動態組字的力量就是,不拘限於現有的(常用)漢字,透過動態組字,可以創造出任何漢字,這對於古籍數位化非常重要。…
這讓我想起今年參加師大資工營時,有去中研院參觀數位典藏, 其中一項是古漢字典藏計劃,我想這動態組字應該多少對古漢字數位化有幫助,嗯…。
—
續來,是我一週前在 ICOS 2007 心得文留的拖稿梗,所謂 Eee PC 的究極應用。
主題是台灣剎那搜尋工坊自己研發的 KsanaCore 搜尋引擎,針對大海撈針式的典籍搜尋特別在行,主講人當然是 Ksana 計畫的主持人之一葉健欣。投影片在這裡。
在我寫這篇文章時,他們的 Ksana.tw 網站在重建中,所以目前應該是抓不到原始碼之類的;不過,在 ICOS 第一天,我和朋友就拿到了他們的產品之一:KsanaCore for Wikipedia。簡單來說,就是去維基百科下載官方每兩個月放出的 archive,並寫一支 XML Parser、儲存成易於 KsanaCore 搜尋的檔案格式,並做一支 HTTP Daemon,啟動後,便是一套離線版的 Wikipedia!而且檔案包括程式不是很大,一支隨身碟就可以裝得下了(都文字檔嘛)。
我和朋友在第一天時拿到這張光碟,並當場看到他們利用隨身碟當媒介 (Eee PC 沒有光碟機),在 Eee PC 及 OLPC 上分別啟動了離線版的 Wikipedia !
這有什麼用處?
Eee PC 強調 portability,在有 Wifi 的情況下可以上網,但在沒有 Wifi 的情況下,就只能依賴硬碟裡的資料了。這時候,要查什麼東西,除了內建的字典之外,如果再加上離線版的維基百科,根本就是無敵了。
這時候我如果說 Eee PC 是長得像電子辭典的強化版 PDA,應該不為過了;只差 Eee PC 沒有觸控螢幕 XD。
當然,除了中文版維基百科,還可以抓任何語言的維基百科封存檔。光碟裡也附了所有程式原始碼,以 GNU/GPL 授權,還教你怎麼自己做自己的離線版 Wikipedia…XD。
但目前官方網站掛了,說什麼都沒圖沒真相 orz…
by the way, Ksana 這個字是印度話『剎那』的意思。當初他們在做這個搜尋引擎,目的是為了搜尋佛經裡的一字一句,後來他們還引申出古騰堡計劃的搜尋引擎,現在這個 Wikipedia 搜尋引擎根本是大絕啊 XD
—
說到睡覺 ,我覺得這種情況應該會很囧…
下午的 Session ,是關於小型電腦 Eee PC 及 One Laptop per Child 的議題,全程以英文演講。聽不懂就算了,我坐在最前面一排,竟然還睡著了;更囧的是,第二段的講者 Mike Fletcher 在上台前就坐在我的旁邊,我竟然在他旁邊睡了一小時,他的 Presentation 我也睡著了啊,真是對不起 囧rz
我以後再也不敢坐那麼前面睡了(拖走)
接下來的 Cluster Computing ,還請到了 Google 的人來講。嗯… 這次學乖了,坐在後面;哪知道我坐到一個,左邊是 MacBook Pro + Leopard ,右邊是 iBook G4 的位置,我的 MacBook …哈哈 XDrz
呃,也是全程英文演講,也聽不懂,但這次坐在最後面竟然沒睡著 Orz
—
下午的第二個 Session 是 Web 式平台:
- 利用 Jifty Framework 設計網路商店平台 (類似 Ruby on Rails ,語言是 Perl。投影片在這裡。
- Ozearch 搜尋引擎 (類似 Google Search 的功能,搜尋演算法的實作,開放原始碼)。投影片在這裡。
- XPortal (公司行政作業電子化,based on PHP + MySQL,當然也有 OpenSource)。投影片在這裡。
不過這一段因為我的筆電沒電了,所以沒有做筆記 *囧*
—
最後一個 Session 當屬最歡樂的閃電秀啦!開放讓各路高手上台炫耀展示一下自己最近的作品,一個人五分鐘,時間到就拔 VGA 線,很刺激啊 XD。
其中魔法設計師的動態組字程式也是在這個 Session 演示的。還有 ZHPY 『周蟒』,用中文寫 (Python) 程式。
燈哥 Lukhnos 前輩還以很簡短的方式說明怎麼寫一個很簡單的 OpenVanilla 輸入法,講完之後馬上由下一個講者接手 (變成十分鐘是吧 XD),傳說中的,OpenVanilla on iPhone — iVanilla!!
『雖然 Apple 說,明年春天會放出 iPhone SDK ,但 hackers 就是想玩啊,手癢嘛,
誰先玩出來誰就威了,所以我們還是先玩了』Lukhnos 說。
當場本來要透過 MacBook 的 iSight + Photo Booth 在投影幕上顯示畫面,但顯然太難按,因此 Lukhnos 直接下場跑,給大家看怎麼在 iPhone 上面輸入中文 XDD,真相?在 11 月 8 日星期四的 CocoaHeads.tw,EvenWu 前輩拍了一張照片。不過,目前還在 pre-pre-alpha ,所有安裝都要手動操作…XD 。
—
後來 BOF 吃了 Pizza,跟資訊社的學長們去了火車站附近逛一下,還逛了傳說中的書街、傳說中的天瓏書局(原來店面這麼小… 但裡面關於電腦科學的原文書倒是一大堆)、傳說中的攝影街 XD。八點鐘才啟程回宿舍了。看到了傳說中的…
—
前篇到此為止,來寫後篇… 其實也睡不著了 XDrz
有錯歡迎指正 :)






[...] FAQ COSCUP 2007 (前篇) [...]
COSCUP 2007 (後篇) « YORKXIN×YORKXIN
2007 年 十一月 11 日 星期日 at 04:50:54
[...] 續集: COSCUP 2007 前篇、後篇。 [...]
ICOS 2007: Day 1 « YORKXIN×YORKXIN
2007 年 十一月 11 日 星期日 at 04:53:15
ksanacore 可以在這邊抓到 http://svn.ksana.tw/svn-repos/ksanacore/
gaod
2007 年 十一月 11 日 星期日 at 07:47:42
你好,今天在網路上逛逛coscup心得,沒想到你寫的這麼熱血XD
我來修正一些描述:
組字的基礎是該專有術語是「部件」,不是字件也不是字根(這跟輸入法的字根意義不同)。
在輸入法的延伸應用上,它可以應用在筆形輸入法上,這算一種拼形輸入法沒錯,但跟已往輸入法要特意學習的非直觀人為拆字(例如倉頡碼的「諒」是卜口卜口火,這是人為制定的)不同,筆畫輸入是字按部件序自然怎麼寫,我們就是照著打。當然越複雜的字筆畫越多,就越長(像你的八科:「⿱⿱⿰科科⿰科科⿱⿰科科⿰科科」=(72178332)^8 XD),所以個人在輸入法實作部份,加入了全文檢索的輸入方式,所以打部份的筆畫序,例如說152(口),可以找到:舌、澡、口、造、品…,這是動態組字的相關應用,但本身重點還是缺字的表示。除了過去的缺字,「未來的」缺字也要能表現。
魔法設計師
2007 年 十一月 16 日 星期五 at 14:11:01
噢,大大親自來了
我似乎有點把部件和字根搞混了 :p 的確部件是比字根更直覺的東西,也符合最原始的六書造字法則;我是用嘸蝦米的,所以會把這兩者搞混 XD”
謝謝您的補充 ^^
還有我剛剛想到可以畫一個字…ccc
Chitsaou Yorkxin
2007 年 十一月 17 日 星期六 at 15:55:04
囧面人
http://flickr.com/photos/chitsaou/2039930166/
Chitsaou Yorkxin
2007 年 十一月 17 日 星期六 at 16:00:02