AI 也不會的沖繩語,該怎麼學?沒有老師、沒有教材,我從零自學一門「瀕危語言」

本文作者挑戰被聯合國列為瀕危語言的「沖繩語」,從 AI 頻頻出錯的困境中,親手建立資料庫「反向餵養」機器人,分享如何將工具轉為夥伴,在科技風暴中守護即將消失的文化聲音。
AI 也不會的沖繩語,該怎麼學?沒有老師、沒有教材,我從零自學一門「瀕危語言」

在課堂上分享自己用 AI 學習語言的心得及成果。

Photo Credit:塵寞賢 提供

當 AI 變得更加萬能,懂得駕馭 AI 而非被 AI 駕馭就更重要。最新「AI 時代,我這樣學__」徵稿活動,廣徵用 AI 學會一件事、突破一個關卡的真實經歷,以下這篇文章,作者的 AI 神用法是什麼?


撰文:塵寞賢 Dust Chan

本世紀初,科幻小說作家劉慈欣發表小說《詩雲》,裡面講述了這段故事:一個科技發達的神級文明,為了寫出比李白更好的詩,耗掉了整顆恆星的能量。折騰到最後才發現,哪怕他們掌握了宇宙級技術,依然無法超越人類對文學、藝術的審美。

在那個年代,許多人相信文藝、創意、語言之間,那些只可意會、不可言傳的細微之處,是人類永遠不會被科技攻破的最後堡壘。然而短短幾十年間,情況卻發生了翻天覆地的變化。

AI 迭代的速度快得驚人,從起初寫出來的內容文句不通、讀來令人發噱,到如今網路上已四處可見其創造出的文章、圖片、程式。乍看之下,甚至已經很難分辨,它與真人做的究竟有何差別。

當我們意識到原來 AI 如此強大,我們也不禁開始想──倘若連我們完全不擅長的事情,AI 都能做得更好,那我們還剩下什麼價值?我們又有什麼比 AI 更有優勢的地方?

沖繩語為何成 AI 的罩門?

帶著種種疑惑,那時的我終究打開了 AI 這一「潘朵拉魔盒」。

當時作為一名大學生的我跟很多人一樣,使用 AI 多是為了應付功課、整理筆記,有時因為自己喜歡聽日語歌,偶爾還會請 AI 幫忙解析歌詞,並一邊感慨 AI 確實神通廣大。

但在某一天,我偶然聽到了〈淚光閃閃〉這首歌,並發現它有一個沖繩語的版本,聽起來像日語,仔細一聽又完全聽不懂。那種既熟悉又陌生的感覺,讓我對這門語言產生了濃厚的興趣。出於習慣,我興沖沖地問 AI 關於沖繩語的問題,結果卻發現這位一向無所不能的夥伴,這回卻變得支支吾吾,給出的答案不是有錯,就是前後矛盾。

此時我才察覺,AI 也並非無所不能。當我深究下去,才發現問題比我想得更嚴重。

原來早於 2009 年,沖繩語(うちなーぐち,Uchinaaguchi)就被聯合國認定為瀕危語言,年輕一代幾乎不再使用,因此網路上能找到的資料非常有限。更糟糕的是,現存為數不多的資料,甚至充斥著大量混雜日語語法詞彙的「沖繩日語」(俗稱沖繩弁)。

這些「不正宗」的語料(編按:指用於人工智慧訓練的資料),被語言模型納入訓練資料後,進一步污染了 AI 的訓練來源。換句話說,在沖繩語這一領域中,AI 不但幫不了我,反而可能交給我錯誤的資訊。

AI 一直答錯後,我決定自己建立資料庫

事實上,英語、中文、日語等主流語言,因為相關資源豐富,大型語言模型(LLM)的資料基本上十分完備,然而因沖繩語屬於「低資源語言」,訓練語料極少,自然錯誤百出。而這些摻雜錯誤的內容,被使用者生成及使用後,又會回饋到 LLM 的學習模型中,形成一種惡性循環。

這樣的學習困境,讓我開始轉變想法:如果 AI 資料庫裡夾雜錯誤的沖繩語,那我能不能自己建立一個資料庫,再讓 AI 從中學習?這樣既能利用 AI 的優勢,也能讓自己在親手整理的過程中,更有效率地了解這門語言。

想通這一點後,我開始四處在網上蒐集沖繩語的詞典、少量教科書及學術論文等資料。這些資料通常較為零散,甚至連拼寫法也不統一:有些使用片假名,有些仿照日語,將漢字平假名混寫,有些則用羅馬字,因此同一個詞在不同來源裡常長得不一樣。

使用 Excel 整理語料。圖/塵寞賢 提供

我先將這些蒐集來的核心語料一筆一筆輸入 Excel,欄位包含沖繩語的寫法、發音(羅馬字)、對應的日語、英語、例句及來源等,並透過 CSV 檔將資料結構化,從而建立一個最基礎的「資料庫」。隨後我也用 AI 清理格式,並統一拼寫標準。

輸入資料的過程頗為耗時,雖然有時可以依靠 AI 幫忙整理及分門別類,但因為 AI 還不具備判斷資料正確性的能力,偶爾還是會出錯。我只能靠人工謹慎交叉比對,並在過程中,對這門語言有了初步的認識。

我如何一步步教 AI 學沖繩語

資料庫建立後,就可進入比對的階段。由於沖繩語和日語有「親緣」關係,語法結構上亦有不少相似之處,因此「跨語言轉移」(Cross-lingual Transfer),也就是把日語的文法知識遷移到沖繩語,理論上是可行的。

於是我設計了一個工作流程:我會先選取一些語法簡單的沖繩語例句,讓 AI 根據對應的日語翻譯,生成各種基礎的沖繩語句子。當不同句子逐步依照語料庫的內容進行替換,只要出現無法替換或沒有收錄的單字,我就會另作標記。

另一方面,因為沖繩語和日語一樣具有較複雜的動詞活用規則,例如:日語的「行く/行きます」,沖繩語對應的是「行ちゅん/行ちゃびーん」,而其否定形「行かない/行きません」,沖繩語對應的則是「行かん/行ちゃびらん」,我會先請 AI 梳理出這些規律,自動生成一張不同動詞的變化表,再讓其分析背後對應的邏輯,總結出沖繩語的活用類別和條件。

接著我會回頭對照現有的資料,逐一確認整理後的版本是否正確。每次發現錯誤,我都會將它記錄下來,並建立了一份「錯誤修正日誌」,其中包含錯誤內容、正確內容、判斷依據、錯誤類型等資訊。我將其更新到資料庫中,並在下一次請 AI 生成句子時,用更精確的指令約束它的範圍。

建立起動詞系統後,我用同樣的方法處理助詞、副詞和敬語(丁寧體)等不同範疇:先讓 AI 基於日語對照生成初稿,再人工驗證、修正。當然,情況有時比想像中複雜,例如沖繩語的助詞系統與日語雖有對應,但並非完全一對一。

此時我需要向 AI 補充更多資料並給出額外指令,如日語常見助詞及其用法,再請 AI 根據我的資料庫,列出沖繩語中對應的助詞。若出現一個日語助詞對應多個沖繩語助詞的狀況,就要分別說明它們的使用條件。

每完成一個類別,我就把驗證過的資料加入資料庫,逐步擴大其規模。這個過程重複幾週後,我發現一個明顯的變化──AI 的準確率開始提升。因為我不斷回饋修正後的資料,它等於在我的資料庫基礎上重新學習,而不是憑藉原本那個被錯誤語法污染的模型。換句話說,我幫 AI 建立了一個,屬於沖繩語的「乾淨」資料庫,而 AI 則反過來幫我擴充這個資料庫的規模。

資料庫夠大後,AI 才真正開始幫上忙

向 AI 學習一段時間後,我用沖繩語撰寫的自我介紹。圖/塵寞賢 提供

累積到約 1,000 個詞彙、釐清基礎文法後,AI 能做的事情完全不一樣了。它不再只是回答「這個詞是什麼意思」,而是可以根據資料庫自行組織句子,甚至主動進行文法修正、情境對話練習,及客製化的單字測驗。

我可以設定一個場景:「你是沖繩某咖啡店的一位店員,而我是觀光客,請用簡單的沖繩語跟我進行對話」,AI 會根據我的資料庫內容,生成符合我程度的對話,並在我用錯文法時,用正確的語法示範一次,就像擁有一個隨時有空的語言交流夥伴般。

更讓我感到驚豔的,是它錯誤分析的能力。有一次我想用沖繩語說「我在家裡睡覺」,根據日語的「家(で)寝ます」,我直覺翻譯成「やー(っし)にんじゃびーん」。

結果 AI 告訴我,這個翻譯有問題,並隨即解釋:日語的助詞「で」在沖繩語中對應兩個不同的助詞:「をぅてぃ」與「っし」,前者是「方位格」,用來指示事物所在的地點、處所或方位;後者則是「工具格」,表示達成目標使用的工具、手段或方法。因「在家裡睡覺」是靜態的位置,應該用方位格,而不是工具格,所以正確的翻譯是「やー[をぅてぃ]にんじゃびーん」。

這種文法差異,如果沒有 AI,我得翻遍詞典才可能自己領悟,甚至過幾天還會忘掉。但因為我事先把資料都餵給了 AI,它可以結合語言學的概念,把抽象的文法用具體的例子解釋給我聽。這對我的學習過程有很大幫助,因為我不再只是死背單字和句型,而是開始理解語言背後蘊含的邏輯。

學一門「不能賺錢」的語言,有什麼用?

沖繩語 8 級檢定證書。圖/塵寞賢 提供

靠著這套方法,我後來成功考到了「沖繩語檢定」(しまくとぅば検定)的 8 級證書。雖然這並非什麼超群絕倫的榮譽,但對我而言,這恰恰證明了即便沒有老師、沒有教材,甚至沒有母語環境,一個普通人仍可以用自己的方法,學會一門瀕危語言。

當然,這個方法並不是沒有局限。

首先,它高度依賴一門相似語言作為對照基礎。沖繩語剛好有日語這個親戚,讓跨語言轉移成為可能;如果換成一個完全孤立、沒有任何「親屬關係」的語言,這套做法的難度會大幅增加。

其次,語法的列舉永遠不可能達到盡善盡美,因為每一種語言都有自己獨特的表達方式。例如某些沖繩語的敬語用法及道地的俚語,就很難用日語的框架去對比。

此外,AI 給出的答案仍需要人工把關,而這項驗證能力,也須依賴自身扎實的基礎和多方比對的習慣。

曾經有人問我,花這麼多力氣學一門瀕危語言,能賺錢嗎?老實說不能。別說在學業或職場上派上用場,即便是到了沖繩本地,由於能講正宗沖繩語的年輕一代已寥寥無幾,恐怕也是英雄無用武之地。不過興趣這種東西,從來就不是用金錢來衡量的,又不是做買賣,何必事事計較盈虧?我反而覺得,對於那些對冷門語言有興趣,卻苦於找不到合適教科書的人來說,這套方法或許是種新的啟發。

AI 時代,人類無可取代的價值是?

回過頭看,最初讓我陷入焦慮的那個問題:「我有什麼可以勝過 AI?」,如今總算有了自己的答案。

AI 固然已在很多領域表現卓越,它可以記住整個網路上的資料,迅速解答使用者的各種疑難雜症,但它不會有意識去拯救一個即將消失的語言,也不會在大量雜訊中,主動辨別出哪些是正確的答案,哪些則是東拼西湊的冒牌貨。

相對地,從花上幾個月的時間,一筆一筆建立資料庫,到對照 AI 的輸出,找出並修正錯誤,最後將這些整理好的知識,運用到具體的語言學習中,甚至變成下一個人學習的起點。這整個過程中,AI 幫了很大忙,但最終那個拿定主意、負責任、把一件事情從無到有完成的人,終究是我們自己。

我花了好幾個月建立資料庫(圖僅為示意)。圖/mapo_japan@Shutterstock

哲學家班雅明(Walter Benjamin)筆下的「歷史天使」面朝過去,被風暴吹得身不由主地倒退著飛向未來,他睜大眼睛,看見的盡是一路累積的廢墟,而那場風暴,就是我們謂之「進步」的東西。

現代社會的進步達到了前所未有的速度,但這也意味著,其中被碾碎、被遺忘的東西就愈多,語言毫無疑問便是其中之一。來年我將前往香港修讀語言學碩士,希望結合我在 AI 與語言學習上的經驗,參與瀕危語言的記錄與保存。

隨著自然語言處理(NLP)發展愈來愈蓬勃,如果 AI 可以在過程中幫忙分析與整理,或許我們還能及時留住這些即將消失的聲音。

結語:讓 AI 成為有用的助手

如果你也曾在夜闌人靜時,發現 AI 比你強而陷入自我懷疑,我想告訴你──有這種焦慮很正常,但它不應該成為你停下腳步的理由。與其害怕被取代,不如去找一件只有「你」會在意的事情,然後將 AI 視為你的工具,而不是對手。

這趟語言學習之旅教會我的,不單是文法規則或幾百個單字,而是讓我意識到,當資源稀缺時,與其等待完美的成果出現,不如自己動手建立。從某種意義上來說,AI 或許正是那個可以陪我們從零開始、卻永遠不會喊累的夥伴,它固然不能幫我們一步登天,卻可為我們開拓一條更有效率的路徑。

哪怕我現在還是會犯語法錯誤,或寫出奇怪的句子,但我不再因為「沒有人可以問」或「沒有合適的教材」而卻步,因為我隨時可以坐下來,打開對話框,一如既往地打下一句:「うちなーぐち びんちょーしーぶさいびーん。ゆたさいびーがやー?」

(我想學沖繩語可以嗎?)而 AI 永遠會回答:「うー、ゆたさいびーんどー。あんしぇー はじみやびら!」(好,當然。我們開始吧!)

  • 換日線「AI 時代,我這樣學__」徵稿中,歡迎你 5 月 25 日前投稿,有機會獲得「天下數位全閱讀」免費試閱權益,以及 2026 教育特刊一本!

《關於作者》

塵寞賢 Dust Chan

圖/塵寞賢 提供

澳門人,來自微不足道的地方,寫著微不足道的文字,即將前往香港中文大學修讀語言學碩士。作為一名喜歡語言與文學的人,我相信文字表達不必喧譁,誠如塵土從不惹人注目,卻能落在萬物之上,留下無處不在的痕跡。曾在如「虛詞」、《校園》等不同平台或雜誌發表文章。

執行編輯:洪翊芳
核稿編輯:羅思涵

關聯閱讀

作品推薦

你可能有興趣的文章

#廣編企劃|新北街舞大賽的魔力,就是能讓所有人都被這股精神感染!

歡迎回來《換日線》!
您可以使用此天下雜誌群帳號,盡情享受天下雜誌的會員專屬服務,詳細內容請參考此連結