112年4月-專論》ChatGPT 的風暴來襲台灣無法迴避的大挑戰

手機版選單

搜尋

進階搜尋

熱門關鍵字

上方連結

下方連結

天氣資訊
- 114-07-06
- 星期日
- 上午 02:13
桃園市25 ~ 31 ℃ AQI：82 普通
快速連結
智能客服

1999

市政信箱

桃園市市民卡

免費市民公車

網路社群

APP
災害示警

:::

112年4月-專論》ChatGPT 的風暴來襲台灣無法迴避的大挑戰

發布單位：政風室
資料提供單位：水務局

2022年11月底，Open AI公佈 GPT 3.5 版供大眾使用，這是在新冠病毒疫情消退下，科技界的大事，其能針對使用者的提問，回答出準專業的長篇答案。到2023年3月14日，其更進一步推出 Chat GPT 4.0 版本，除答案的文本增長外，更增加製作影音檔以及撰寫程式語言之功能。這種 A l 科技的突破，被認為是會取代 GoogIe 搜尋引擎的數位大革命。微軟公司宣佈投入100億美元資金，想將其併入未來的數位平台中。Google也宣佈其介入競爭的大計劃，中國的百度也大力投資在此領域的研發，可以預期這會是末來十年全球最大的科技產業大戰，凡是掉了隊伍的國家，都會在全球競爭中喪失主導權。本文會先介紹一般人工智慧的背景，接著簡介 ChatGPT 的軟體結構，其次討論其日後面臨的困境，最後再來談談台灣在此全球競爭中，可以介入的契機與桃戰。

一、人工智慧的一般背景
在人工智慧發展的過程中，幾乎所有領域都需要大數據做為基礎，研究者必須投入大量的資源來標注部分的數據，即建立數據正確答案的集合。此標注的數據集合分成二類，第一類訓練數據就是讓 A l 軟體不斷學習的樣本，經由不斷的演練修正，再將訓練完的神經網路，去回答第二類已標注完的測試數據，再看其正確率有多高，一般而言只要正確率超過90 ％，就可應用到該領域大數據上去發揮。這種人工智慧的訓練，就被稱是在有監督下的學習。其相對應的就是無監督之下的學習，即不用大量標注的數據，直接到大數據中去自我訓練，但這種盲人騎瞎馬夜半臨深淵的情境，沒有什麼領域的成果可應用。

當要用人工智慧去學習認知人類的自然語言時，研究者一開始也是利用有監督標注的方式去辨別字、句、及文章。但人類的語言多元變化，且近幾千年累積的文獻龐大，而近代文明累積的知識更是前人的幾千倍，隨著科技的進步，在網路上的新聞及影音資訊、出版界圖書及研究期刊論文、及在專業資料庫上所累積之數據已成幾何級數般成長。所以要用標注的方式去處理自然語言，會成為巨大的負擔。因此近幾年來，研究者開始利用無監督下之自然語言A l學習，來突破此困境。

二、GPT軟體的基本內容
G P T就是「Generative Pre - trained Transformer 」三個英文字名稱的縮寫，中文可稱為「生成式預訓練轉換器」。當中預訓練是執行A l的第一步工作，首先將文字編碼後，再利用大量的文本來訓練對文句的認知，第二步即是利用轉換器的功能，在提供上下文條件下生成適當的中間文句，因為是在無督監之下自我學習，以統計的觀點來看，中間文句會有很多解，只看其在大量參考數據中出現的機率而定，如此反復練習就生成文句和文句間的關係，其內涵為文句組以複雜拓撲的形式相互串接。有此能力之後就可擴充到對一整篇文章的掌握，並能依需要整理長篇文章的摘要版本。研究人員就可依此摘要版本，來初探 GPT 對文章文義的掌握程度。最後再開放給外界的使用者免費詢問，因此詢問會提示相應的基本訊息，此基本訊息就會形成最初的文句，再利用轉換訓練中的資訊，反向由此最初（中間）文句生成上下文，再持續反復生成更長的上下文以成為正式的文章，但這種生成式文本，不具唯一性，會在使用者不斷提示下，生出不同的文本。在最新GPT 4.0 的版本中，其已能生成長達 2 萬 5 千字的文章。

在GPT的程式中，另包含微調模組，這些模組會因特定的需要加入GPT的訓練中。我們以中文的資料為例，其基本上也是循類似英文模式來生成中文的文本，只是其參考的中文資料比英文文本少很多。若用中文提問，原則上會先利用中文資料庫中知識來回答，若中文的資料庫中沒有此知識，則會從英文資料庫中尋找此知識，再翻譯成中文回答問題。GPT對其他語言的的訓練都是如此。至於兩種語言間的翻譯則會借助已有的翻譯文本來學習，亦可能採用語言翻譯的模組來微調。在GPT中，已共有 42 種非英語的語言被納入採用，當中中文、西班牙、德文、法文、日文等都是資料量用最多的語系。

三、從語言學角度探討GPT成功的原因
從大數據的角度來看，某一特殊領域的目標愈單純，如車牌辨識、人臉辨識、及各工程領域中單一目標的訓練，應用A l 都能得到很好的成果。但對於多目標之訓練，如自動駕駛則進展很緩慢。

而人類的自然語言，大都已有相關的語義、語法及特殊的發音規則，這些規則均是語言專家經歴幾百年研究累績的成果，若人類循此途徑學習一種外語，通常需費掉十幾年的功夫才能精通。但人類的母語學習完全不是此模式，而是在嬰兒2 ～3歲時，腦神經大量爆發的突觸數目所學習的自然語言，而到青春期這些突觸的數目就大量減少，只留下母語神經元突觸存在。所以人類的自然語言其先天上，就具有某些內在的規則存在，否則就沒有那麼多的語言學的研究成果。因此其所呈現的文本，雖然數量龐大，就A l 的學習而言，只要訓練的參數足夠多，就能像嬰兒學習母語一樣有效，這也就是 GPT 能夠成功根本原因。

四、GPT所面臨的挑戰
我們先來談 GPT 所面臨外在的挑戰，以美國而言，如Google公司已開發的 BERT 及Transfomer －XL，Facebook亦開發 RoBERTa 和 XLM －R等自然語言模型，且都有很成功的成果。另外中國的百度公司也投入大量資源在研發中國版的自然語言模型，甚至歐盟亦有很多國家投入大量資源在進行研發。某些歐洲國家甚至禁止使用GPT，當中多多少少有保護自己國家研發之味道，這表示未來的競爭會愈來愈激烈。

其次就是 GPT 所面臨的內在挑戰，其中最重的就是計算力無法提昇的困境，以 GPT 4.0 的版本而言，其訓練參數約有 7千億之數量，其利用一萬多片G P U之計算力約在100P左右（1000 G =1T，1000T =1P，1000P =1E，1000E =1Z，全球現只有美國擁有一台計算達1E的超級電腦），在此計算力下單訓練就要花上一年以上的時間。也因計算力不足，其服務系統無法引入日日更新資料之模式。目前其公開的資料宣稱 GPT4.0 版之答案，只到2021年9月以前之資料才有效，這對企業界及科技界想要使用其系統來服務，還有一大段路要走。此計算力的瓶頸，對其他公司及各大國而言，都是短期內無法解決的共同難題。

五、台灣的契機與挑戰
因為台灣的晶片、伺服器及交換器製造量都是全球第一，所以這一波自然語言A l競爭，必帶來大量的商機。但針對中文語境的A l挑戰，台灣已明顯輸給中國，甚至，GPT 4.0 目前的中文服務，已大大超越台灣所有團隊努力的成果，縱使日後勉強完成繁體字自然語言版本，也無法進入國際市場競爭，而讓中國百度的「文心一言」獨領風騷。這是因台灣市場不夠大，以及研究團隊分散所無法突破的基本困境。

如何突破此格局，產官學必須思考如何加入國際大廠的研發團隊，因為在中文世界，繁體及簡體只要一按翻譯就完成，但台灣的中文網路、書籍等文本，均不受政治干擾，此大數據資料會比中國簡體字系統來得公正且正確。另一方面台灣對中文的文言文及現代語言的認知能耐，並不輸給中國，此正是美國大廠所無法擁有的優勢，若我們集中在文言文及現代中文領域發揮，而讓國際大廠負責全球語系經營，如此開發出來的自然語言服務體系就可能遠勝中國。

更重要的是台灣成大團隊已研發出突破100 E等級之超級電腦的設計，而且台灣軟體人才的成本相對低廉，只要政府願意出面整合，來和國際大廠談判，因掌握計算力突破、中文語境的成熟度、以及低成本優勢。如此我們押注誰，誰就能最終勝出，這種國際合作大戰略才是台灣掌握中文話語權的最大契機。

資料來源:Newtalk新聞科技黃吉川

桃園市政府水務局

公務機密維護宣導

112年4月-專論》ChatGPT 的風暴來襲台灣無法迴避的大挑戰

桃園市政府水務局

公務機密維護宣導

112年4月-專論》ChatGPT 的風暴來襲 台灣無法迴避的大挑戰

112年4月-專論》ChatGPT 的風暴來襲台灣無法迴避的大挑戰