網站介紹   網站總覽   語言學習區   語言教學資源區   語料庫資源   研究團隊   相關連結  意見回饋  成果發表  首頁   English

中文一詞泛讀 使用說明

一詞泛讀的理念

成人學外語,不像從小開始學語言,可以有十五年的時間大量閱讀幾百本的書來培養語言能力。多年來我們提出“針對一詞廣泛閱讀”的學習模式﹙鄭錦全1998a, 1998b, 1998c; Cheng 2004, Cheng et. al 2004),語言學習者在這個模式中,可以利用電腦所收集的文本,針對一個詞語,閱讀該詞語出現的句子和段落。閱讀了各種該詞語和其他詞語共同出現的情形,也就是語言環境,讀者就更能掌握該詞語的用法。人在成長的過程中,閱讀許多文字,在社會交際中又有許多語言互動,因此不自覺地學會詞語的用法,有了一詞泛讀的電腦輔助,更能加速詞語學習。對成人的外語學習來說,需要在兩三年內學好一個語言,並沒有十幾年的成長時期來閱讀許多文本,因此,一詞泛讀對外語學習更有促進的作用。一詞泛讀的理念源出語料庫。我們在中文和英文的學習上都提出具體的文本資料庫和適當的輔導,彙整中央研究院五百萬詞的平衡語料庫以及其他語料庫。

        本計畫利用中央研究院已有的「上古漢語語料庫」「近代漢語語料庫」「現代漢語平衡語料庫」等語料庫,並增加「國立編譯館國小國語課本」 「唐詩三百首語料」、 British National Corpus」等龐大語料,編出詞頻與句型頻率從而提出句型難易度,設計出華與文教學介面,落實「一詞泛讀」的語文教學理念。

        所使用的語料庫語料,在時代方面包含了上古、近代、和現代漢語,在文體方面包含了文言文、白話文及韻文,在語言別方面包含了中文及英文,在教材選擇方面包和了現代使用的國小國語課本以及唐詩三百首等語文啟蒙書。語料庫的標記部分含有同義詞及句法結構、中英文對亦的標記,構成一個有完整詞彙語意、用法概念、又有文本可以作為擴充閱讀依據的華語文教學資源中心。

語料庫的數量如下:

一、    「平衡語料庫」: 700萬詞(約1,000萬字) (標記後收集14萬筆詞條)

二、    「上古漢語語料庫」: 506萬詞 (已標記詞彙庫: 49,355詞)

三、    「近代漢語語料庫」: 1,780萬詞 (已標記詞彙庫:2,234,268詞)

四、    「國立編譯館國小國語課本語料庫」:53,380

五、    「唐詩三百首語料庫」:7,129筆詞條

六、    「英國國家語料庫」“British National Corpus” 1,000,000,000

 

一詞泛讀之「由簡到繁」

從現代漢語語料出發,在句子閱讀難易度的計算,我們提出三個因素來考慮,一是句子的長短,二是句中所有詞語在文本中出現頻率的高低,三是詞語語意類別的多少(鄭錦全 2005)。一般說來,短的句子比長的句子容易讀,這也是在研究英文文章的可讀性所用的計算的一個因素(McLaughlin 1969, Zakaluk and Samuels 1988)。若遇到兩個詞語數目相同的句子,從詞頻來說,有些詞的出現頻率高,有些詞的詞頻低。詞頻高的詞通常是在一般生活中出現比較多的詞語,因而也比較容易閱讀,詞頻低的,讀者接觸比較少,因此閱讀難度較高。基於這樣的理念,我們對句子難易度的計算,考量點包括詞語的多少和詞語出現的頻率。最後,句子的意思要從語法結構來了解,但是我們希望不須要經過自然語言理解的困難過程,就能探討出可以驗證的計量方法,在電腦上自動分析出語意的難易度。中央研究院參照《同義詞詞林》﹙梅家駒等1984﹚的詞的語意分類。我們根據以下的理念計算語意上的可讀性:()詞語多意,閱讀時需要排除歧義,會增加難度;﹙二﹚詞語的語意類別多的句子,其語意內容比較複雜,閱讀的複雜程度比較高。這三個因素的排序是以句子的長短優先考慮,其次是詞頻,最後是語意類別。閱讀難易度的感知應該比我們提出的三個觀點更加複雜,例如上下文的語境、概念的難易、句子的結構等等。但是,我們提出的算法已經可以實際應用在網路教學上。

 

系統及檢索結果畫面呈現方式

檢索系統網頁分為三個區塊(如下圖),第一區為檢索詞輸入區;第二區顯示查詢詞的詞類、詞頻、解釋及搭配詞;第三區顯示包含查詢詞的所有例句以供閱讀。

第一區:檢索

第二區:字詞的詞類、詞頻、解釋及搭配詞

第三區:例句或近義詞

第一區:檢索

第二區:解釋、詞頻、詞類、搭配詞

第三區:例句

檢索方式

步驟 1中文一詞泛讀檢索系統位於「語言學習區」網頁中的「中文一詞泛讀」連結,開始查詢前,可先參考網頁上提供的使用說明熟悉操作步驟,使用上會更加得心應手。進入頁面後,可以直接輸入想要查詢的詞再按下「開始」按鈕,例:輸入【看】 

步驟1: 在空格內輸入查詢詞,然後按下「開始」鍵。

 

 按下「開始」鍵後,第二區畫面隨即會出現搜尋字詞的詞類、詞意、詞頻、共現詞與相關詞等資訊:

步驟2接著按下「閱讀--由簡入繁Read from simple to complex」或「閱讀--隨機提取Read randomly」按鈕,畫面會出現包含查詢詞的例句:

步驟2: 按下「閱讀由簡入繁 Read from simple to complex」會見到第三區出現的句子。

﹡說明:

「閱讀--由簡入繁Read from simple to complex」:例句的排列以難易度從低到高顯示。「閱讀--隨機提取Read randomly」:例句的排列由系統隨機提取,難易不一。

若按下「近義詞 Near Synonyms」,第三區會顯現查詢詞各解釋的所有近義詞,內容取自《同義詞詞林》。

以「看」字為例子,當「看」以「閱讀」解釋時,幾近同義的詞有讀、看書、翻閱、閱覽、涉獵、閱、開卷、披涉、披閱、披覽,其他藍色的字詞是上位詞,層級由低至高:

閱讀 看書 翻閱 閱覽 涉獵 開卷 披涉 披閱 披覽 / 閱讀 / 閱讀 查閱 朗讀 吟詠 背誦 / 教衛科研 / 活動

步驟3閱讀的句子每次三句,按瀏覽更多句子,按鍵消失即代表完成閱讀所有資料。

步驟3:若閱讀完所有句子,「繼續閱讀」按鍵將會消失。

 

﹡說明:

·   五百萬詞的平衡語料庫已經做了分詞與詞類標記的工作,因此顯示句子時,各詞語間以全型空格斷開,以幫助瞭解詞語,同時,檢索的詞彙在例句中以紅顏色顯示,更容易閱讀。

·   「英文一詞泛讀」的用法、介面與「中文一詞泛讀」相同,在此不另贅述。

 

查詢策略

·   輸入的詞可以是單字,例:【愛】;也可以是詞,例:【溺愛】。

·   若輸入【溺愛小孩】,系統會自動處理,提供建議的分詞,以【溺愛 小孩】為檢索詞。

·   若在輸入詞之間加入一個空格 (single space),系統會直接判別【溺愛】與【小孩】是分開的查詢詞,提供包含兩個詞的句子,無論【溺愛】與【小孩】兩詞分開或相鄰,例如:輸入【溺愛 小孩】,顯示的結果如下:

 

我們 過度 地 溺愛 小孩子 , 讓 小孩子 培養 一 個 以 自我 為 中心 的 人格 , 對於 自己 的 挫折 容忍力 也 沒有 幫助 。

·   若在輸入詞前加上星號(*),系統在解釋的部分仍會提供建議分詞,但在閱讀中只會提供出現完整詞彙的例句。例:若輸入       【*溺愛小孩】,結果只會顯示包含溺愛小孩四字緊鄰的句子,例如:

比如說 過度 地 溺愛 小孩子 , 溺愛 跟 容忍 是 不 是 一樣 的 。 

﹡說明:

·  近代漢語文體介於上古漢語和現代漢語之間,文中偶爾 會出現詩詞,但詩詞並不界定在在近代漢語的範圍內,故大部分詩詞並未收錄,因此若在「近代漢語語料庫一詞泛讀」裡搜尋詩詞內容將可能沒有結果。「近代漢語語料庫一詞泛讀」共包含七個文本,包括紅樓夢、西遊記、水滸傳、儒林外史、平妖傳、醒世姻緣,閱讀時可選擇搜尋所有文本,或者可限定特定文本閱讀。

·  「唐詩三百首」一詞泛讀和全首閱讀兩系統另可搜尋對仗詞 ,對仗詞從《唐詩三百首》內的律詩、《聲律啟蒙》、《訓蒙駢句》,及《笠翁對韻》四書中蒐集而成。例:輸入【戶】,可搜尋出在唐詩三百首當中與「戶」字對仗的字詞有:門、窗。

若想進一步瞭解各書內容可參考以下資料:

訓蒙駢句 http://poem.bise.idv.tw/big5/books/xunmeng/xunmeng.htm

線上群書 http://poem.bise.idv.tw/big5/books/books.htm

對聯網 http://web2.tcssh.tc.edu.tw/school/guowenke/books/dlwang/new_page_17.htm

     top