網站介紹   網站導覽   語言學習區  語言教學資源區  語料庫資源  研究團隊  相關連結  意見回饋  成果發表  首頁  English

網站介紹

多年來中央研究院數位典藏計畫執行成果豐碩,在研究領域享有盛名。以語料庫為例,已建構「現代漢語平衡語料庫」、「上古漢語語料庫」、「近代漢語語料庫」、「中文句法結構樹語料庫」、「中英雙語詞網」以及與元智大學合作建置「搜文解字」、「文國尋寶記」、「唐詩三百首」、「宋詞三百首」、「荔鏡姻,河洛源:閩南語第一名著《荔鏡記》多媒體教學」等網站。惟其資源雖然數量可觀、涵蓋範圍廣,但長期以來,著眼於學術研究需求,對於一般華語文教師及學生而言,使用上較為困難。一般師生雖然知道語料庫中蘊含著許多寶藏,卻仍然望而卻步。所以,為了讓更多人能親炙中央研究院的各項計畫成果,我們整合了部份上述的語料庫及延伸資源,設計出適合教師與學生使用的「全球華語文數位教與學資源中心」(鄭錦全等2005)

網站 (網址:http://elearning.ling.sinica.edu.tw ) 於2005年3月完成第一版介面與架構的建置,陸續會視情況再進行適度的更新、改版或加入新的功能,以適應網路時代日新月異的使用者習慣與需求。首頁的底部會顯示目前版本及最近一次的更新時間。

本研究計畫有兩個目標。一是落實「針對一詞廣泛閱讀(一詞泛讀)」的理念,幫助學生快速習得詞語的用法,二是提供華文教師編寫教程所需要的語言信息理據。

 

「一詞泛讀」的理念

成人學外語,不像說母語的人那樣從小開始學語言,可以有十幾年的時間大量閱讀幾百本書來培養語言能力。多年來我們提出「針對一詞廣泛閱讀」的學習模式﹙Cheng 1998, 鄭錦全 1998a, 1998b, Cheng 2004, Cheng et. al 2004),語言學習者在這個模式中,可以利用電腦所收集的文本,針對一個詞語,閱讀該詞語出現的許多句子。閱讀了各種該詞語和其他詞語共同出現的情形,也就是語言環境,讀者就更能掌握該詞語的用法。人在成長的過程中,閱讀許多文字,在社會交際中又有許多語言互動,因此不自覺地學會詞語的用法,有了一詞泛讀的電腦輔助,更能加速詞語學習。對成人的外語學習來說,需要在兩三年內學好一種語言,並沒有十幾年的成長時期來閱讀許多文本,因此,一詞泛讀對外語學習者更有促進的作用。 一詞泛讀的理念源出語料庫。我們在中文和英文的學習上都提出具體的文本資料庫和適當的輔導,彙整中央研究院五百萬詞的平衡語料庫以及其他語料庫,作為語言學習與教學的資源(鄭錦全 2005)

本計畫利用中央研究院已有的「上古漢語語料庫」、「近代漢語語料庫」、「現代漢語平衡語料庫」等語料庫,並增加「國立編譯館國小國語課本」、「唐詩三百首語料」、「British National Corpus」等龐大語料,編出詞頻,重整句子的標記,計算出「現代漢語平衡語料庫」二十幾萬句子的閱讀難易度,設計出華語文教學介面,落實「一詞泛讀」的語文教學理念。

所使用的語料庫語料,在時代方面包含了上古、近代和現代漢語,在文體方面包含了文言文、白話文及韻文,在語言別方面包含了中文及英文,在教材選擇方面包含了現代使用的國小國語課本以及唐詩三百首等語文啟蒙書。中文語料的文本都經過詞語分析,詞語以空格分開,每個詞語都加上語法類別的標記。本計劃主要在建立華文教與學的資源中心,而中央研究院有英國國家語料庫的使用授權,因此,我們一詞泛讀的學習模式也提供給英文學習者,其實,不管是初學或是進階的人,都可以檢閱英文詞語的用法。

語料庫的內容如下:

一、 「現代漢語平衡語料庫」:各類題材現代漢語,500萬詞(20多萬句,約14萬筆詞條)。

二、 「上古漢語語料庫」:論語、孟子、大學、莊子、老子等古籍。

三、 「近代漢語語料庫」:紅樓夢、西遊記、水滸傳、儒林外史等章回小說。

四、 「國立編譯館國小國語課本語料庫」:5萬多詞。

五、 「唐詩三百首語料庫」:約7千筆詞條。

六、 「英國國家語料庫」“British National Corpus”:英文一億詞標記語料庫。

 

由簡入繁的閱讀選擇

學習者語文程度不同,在閱讀時有人需要從比較簡單的句子開始,因此文本的句子需要按照閱讀難易度排序。如果只是用一詞泛讀的資源來查閱某個詞語的用法,那麼該詞語所出現的句子就可以隨機提取。隨機提取用原來文本的次序,由簡入繁就需要計算句子的閱讀難易度。以現代漢語語料來考量,對句子閱讀難易度的計算,我們提出三個因素,一是句子的長短,就是句中詞語的多少,二是詞語在文本中出現頻率的高低,三是句子裡詞語的語意類別的多少。一般說來,短的句子比長的句子容易讀,這也是計算英文文章的可讀性的一個因素(McLaughlin 1969, Zakaluk and Samuels 1988)。如果遇到兩個句子的詞語數目相同,從詞頻來說,有些詞的出現頻率高,有些詞的詞頻低。詞頻高的詞通常是在一般生活中出現比較多的詞語,因而也比較容易閱讀,詞頻低的,讀者接觸比較少,因此閱讀難度較高。基於這樣的理念,我們對句子難易度的計算,考量點包括詞語的多少和詞語出現的頻率。最後,句子的意思要從語法結構來了解,但是我們希望不須要經過電腦自然語言理解的困難過程,就能探討出可以驗證的計量方法在電腦上自動分析出語意的難易度。中央研究院參照《同義詞詞林》﹙梅家駒等1984﹚的詞的語意分類。我們根據以下的理念計算語意上的可讀性:()詞語多意,閱讀時需要排除歧義,會增加難度;﹙二﹚詞語的語意類別多的句子,其語意內容比較複雜,閱讀的複雜程度比較高。以上三個難易度因素的排序是以句子的長短優先考慮,其次是詞頻,最後是語意類別。閱讀難易度的感知應該比我們提出的三個觀點更加複雜,例如上下文的語境、概念本身的難易、句子的結構等等。但是,我們提出的算法已經可以實際應用在網路教學上(鄭錦全 2005),如圖一。

圖一: 一詞泛讀由簡入繁檢索介面,以「看」為例

教學資源詞頻統計

教師在編寫華文教程時,所面對的問題包括詞語的數量、詞語及語法功能學習的先後等等,我們提供這方面的理據,讓教師擺脫各自猜測的局面。我們從各種語言資源編排現代文、近代漢語、上古漢語、詩詞韻文等的供詞頻信息。例如,「把」字句,教師可以根據「把」字句出現的頻率來決定安排「把」字教學的先後。詞頻查閱方式分成下列類別:查閱詞頻排序,查閱個別詞的頻率,查閱個別頻率的詞、查閱累計頻率,如圖二查閱現代漢語平衡語料庫(鄭錦全等 2005) 

圖二: 「現代漢語平衡語料庫」詞頻統計檢索頁面

 

詞頻統計查詢區分為現代漢語、近代漢語、上古漢語、唐詩三百首、宋詞三百首五個頁面,三種文體用詞不同,所用的詞彙資料庫各異,但是都有查閱詞頻排序、各別詞的頻率、個別頻率的詞語以及累積頻率這四種功能。從文本提出的詞彙資料庫的內容包括詞語編號、頻率高低序號、詞語、出現頻率、出現百分比及累積百分比,如下:

編號 序號

詞語

頻率 百分比 累積百分比
720 720 因素(Na) 820 0.017 55.325
721 721 歡迎(VJ) 819 0.017 55.342
722 721 正式(VH) 819 0.017 55.359
723 723 共(Da) 818 0.017 55.375
724 723 份(Nf) 818 0.017 55.392
725 725 去(T) 817 0.017 55.409
726 726 使用(Nv) 816 0.017 55.426
727 727 價格(Na) 815 0.017 55.442
728 728 方向(Na) 814 0.017 55.459
729 729 工業(Na) 811 0.017 55.476
730 730 說明(VE) 809 0.017 55.492

   

網站呈現

本網站最主要的功能分為兩個部分:「語言學習區」與「語言教學資源區」。「語言教學資源區」方便教師搜尋教學所需的素材,內容包括「現代漢語平衡語料庫」、「近代漢語標記語料庫」與「上古漢語語料庫」等詞頻統計,「語言學習區」提供學生線上中、英文「一詞泛讀」的學習工具。

 

網站基本架構

首頁為中文網頁,提供英文對照版本,網站中的任何一頁都提供中英文對照連結。網站的各種功能及連結如下圖,圖中橢圓框內的項目都可以在任何一個頁面中互相連結。

網站介紹

相關連結

研究團隊

語料庫資源

英文版首頁

中文一詞泛讀

可連至各頁面

平衡語料庫詞頻統

近代漢語詞頻統計

上古漢語詞頻統計

英文版各頁面

版權聲明

英文一詞泛讀

意見回饋

語言教學資源區

首頁

語言學習區

網站總覽

圖三:網站基本架構連結

以下是各主要頁面的內容:

  1. 網站介紹:網站宗旨、計畫內容與成果、網站建置歷史等。

  2. 網站總覽:呈現網站分層架構,並可點選進入網站各頁面。

  3. 語言學習區:「中文一詞泛讀」與「英文一詞泛讀」的簡介、使用說明及查詢介面。中文一詞泛讀區分「由簡到繁」及「隨機提取」兩種選擇。內容適合具備國小二年級以上華文程度的使用者,呈現結果除了包含字詞解釋、詞類標記及詞頻之外,還提供經常搭配出現的詞彙,並且讓學習者經由閱讀大量的句子,從中快速體會並自然而然地學習到詞的用法,進而提升讀寫能力。如同「中文一詞泛讀」,「英文一詞泛讀」提供大量的例句,讓使用者從閱讀當中熟悉詞語的用法,同時加強閱讀寫作及文法的能力。

  4. 語言教學資源區:提供現代漢語、上古漢語及近代漢語詞語資料庫詞頻統計查詢介面。

  5. 語料庫資源:整合中研院其他相關語料庫的連結。

  6. 研究團隊:提供計畫參與人員的資訊,包括計畫主持人、共同主持人及研究助理的基本介紹、個人網頁及聯絡方式。

  7. 相關連結:連結網路相關資源及簡單說明,例如教育部國語辭典、異體字字典、其他相關教學網站等等。

  8. 意見回饋:使用者可提出任何建議,以供研究小組改進之參考。

  9. 版權聲明:連結位於首頁下方,說明合理使用的範圍、引用註記規則及版權來源。(鄭錦全等 2005)  

成果發表

出版論文:

  1. 鄭錦全. 2005. “詞匯語義與句子閱讀難易度計量”. 第六屆漢語詞彙語意學研討會論文集 261-265.

  2. 羅鳳珠. 2005 “中研院全球華語文數位教與學資源中心(上)” 493期數位僑教專刊第三版.

  3. 羅鳳珠. 2005 “中研院全球華語文數位教與學資源中心(下)” 494期數位僑教專刊第三版.

  4. Cheng, Chin-Chuan. 2004. “Word-focused extensive reading with guidance”. Selected Papers from the Thirteenth International Symposium on English Teaching 24-32. Taipei: Crane Publishing Co.

  5. Cheng, Chin-chuan, Chu-ren Huang, Feng-ju Lo, Xiang-yu Chen, Joyce Ya-chi Han, and Yu-chun Huang. 2004. “Extensive reading with guidance”. Proceedings of the International Workshop on Language e-Learning 2004: An Interactive Workshop on Language e-Learning 25-34, Edited by Laurence Anthony, Shinichi Fujita and Yasunari Harada. Tokyo: Wasada University.

會議論文:

  1. 鄭錦全. 2005. “詞匯語義與句子閱讀難易度計量”. 第六屆漢語詞彙語意學研討會, 4月21日.

  2. 鄭錦全黃居仁 羅鳳珠 蔡美智 黃郁純 陳薌宇 呂奇蓉 韓雅琪 李嘉真. 2005. “殊讀同歸:全球華語文數位教與學資源中心”. 第四屆全球華文網路教育研討會. 6月4日.

  3. 鄭錦全. 2005. “在泛讀中精讀”. 二十一世紀華語機構營運策略與教學國際研討會. 6月11日. 主題演講.

  4. 鄭錦全. 2005. “中研院研究員語言數位典藏”. 崑山科技大學慶祝人文社會科學院成立暨學術研討會. 8月2日. 特邀演講.

  5. Cheng, Chin-Chuan, Chu-ren Huang, Xiang-yu Chen, Yu-chun Huang, Joyce Ya-Chi Han, and Feng-ju Lo, 2004. “Extensive Reading with Guidance”. The 19th Pacific Asia Conference on Language, Information and Computation--Interactive Workshop on Language e-Learning. Tokyo, December 10.

  6. Cheng, Chin-Chuan. 2005. “From Digital Archives to Digital Learning: Determining Sentence Readability”. Bi-Jiaoda Conference on Corpus Linguistics and English Testing. June 13. Shanghai.  

研習班授課:

  1. 羅鳳珠. 2005. “一、數位典藏教學資源:華語文教學網路資源;二、數位典藏教學應用:文字語言、文學的結合及語言學習的應用;三、多媒體在文學教學的設計與應用”.國科會數位典藏中學研習班(國文科),國科會主辦,高雄國立科學工藝博物館,6月25日.

  2. 羅鳳珠. 2005. “一、數位典藏教學資源:華語文教學網路資源;二、數位典藏教學應用:文字語言、文學的結合及語言學習的應用;三、多媒體在文學教學的設計與應用”.國科會數位典藏中學研習班(國文科),國科會主辦,國立歷史博物館,8月11日.

 

結論與建議

本計畫足以為華語文教學理論及方法建立新的指標。所建立的教學理論、豐富多元的語料與客觀的統計數據、一詞泛讀的學習功能,與傳統由教師自由心證所編製的教材相比較,無疑的是具有更客觀理據基礎的教學網站。本網站可作為設計「華語文能力測驗」的素材。所提供的句子繁簡排序功能,可以客觀的區分華語文的難易度;「詞頻統計」功能,可以客觀的統計出華語文使用頻率度,因此,可以更客觀的設計出不同等級的華語文能力測驗試題,提高華語文能力測驗的鑑別度。綜上可知,本計畫所建置的華語文教學資源中心,無論就所提供的教學與自學功能,或未來可以據以建立的華語文能力測驗,對漢語教學及漢語水平考試,都具有更前瞻的規劃與優勢。希望利用所建置的數位華語文教學環境,可以透過僑委會與教育部,向國際華語文教學市場推廣。

本計劃到目前為止集中在開發一詞泛讀和詞頻統計的功能,大致上已按計畫目標把上古漢語、近代漢語及現代漢語彙整成教學資源。因為離計畫結案日期還有數月,部分計畫中的工作尚未完成,例如詩詞韻文、上古漢語及近代漢語的一詞泛讀介面還有待建立。預期在結案兩個月之前完成所有功能建立,將善用計畫最後的時間實際請老師和華文學習者操作,來測試系統以及意見交流。

 

參考文獻

梅家駒等編. 1984.《同義詞詞林》. 上海:上海辭書出版社.

鄭錦全. 1998a. “一詞泛讀:英文詞語用法檢索軟體. 戴維揚編《超倍速英語學習年代》S1-11.台北:文鶴出版有限公司.

鄭錦全. 1998b. “針對一詞廣泛閱讀:電腦輔助的詞語學習. 《華文世界》 87:30-44.

鄭錦全. 2005. “詞匯語義與句子閱讀難易度計量”. 第六屆漢語詞彙語意學研討會論文集 261-265.

鄭錦全 黃居仁 羅鳳珠 蔡美智 黃郁純 陳薌宇 呂奇蓉 韓雅琪 李嘉真. 2005. “殊讀同歸:全球華語文數位教與學資源中心”. 第四屆全球華文網路教育研討會. 64.

Cheng, Chin-Chuan. 1998. “Learning words with many texts”. The Proceedings of the First International Conference on Multimedia Language Education 1-12. Taipei: Crane Publishing Co.

Cheng, Chin-Chuan. 2004. “Word-Focused Extensive Reading with Guidance”. Selected Papers from the Thirteenth International Symposium on English Teaching 24-32.  Taipei: Crane Publishing Co.

Cheng, Chin-chuan, Chu-ren Huang, Feng-ju Lo, Xiang-yu Chen, Joyce Ya-chi Han, and Yu-chun Huang. 2004. “Extensive reading with guidance”.  Proceedings of the International Workshop on Language e-Learning 2004: An Interactive Workshop on Language e-Learning 25-34, Edited by Laurence Anthony, Shinichi Fujita and Yasunari Harada. Tokyo: Wasada University

McLaughlin, G. 1969 . SMOG grading: A new readability formula. Journal of Reading 12.8: 639-646.

Zakaluk, Beverly L. and S. Jay Samuels. Eds. 1988. Readability: It's Past, Present, & Future. Newark, Delaware: International Reading Association.

   top