2023-03-07 11:42:53來源:中國金融雜志
(資料圖片)
作者|姚前「中國證監(jiān)會科技監(jiān)管局局長」
文章|本文將刊登于《中國金融》2023年第6期
ChatGPT是美國人工智能研究實驗室OpenAI于2022年11月30日推出的一種人工智能應用工具。它能夠通過學習人類的知識來進行交流,所以也被稱為“聊天機器人(行情300024,診股)”。ChatGPT甫一問世便在人工智能應用領域掀起了一陣新的浪潮并引起了全球轟動,僅僅兩個月內(nèi)其注冊用戶就突破1億。ChatGPT既好玩又實用,遠超之前的自然語言處理應用,許多人認為這是一個劃時代的產(chǎn)品,國際上主流商業(yè)公司、學術(shù)機構(gòu)乃至政府部門都開始高度重視和全面擁抱大語言模型(Large Language Models,LLM,下文簡稱大模型)應用。ChatGPT的主要魅力在于,它利用從互聯(lián)網(wǎng)獲取的海量訓練數(shù)據(jù)開展深度學習和強化學習,可以給用戶帶來全新的“人機對話”體驗。海量訓練數(shù)據(jù)可謂是維系ChatGPT進化的核心要素之一。有研究預測,按照目前的發(fā)展速度,到2026年ChatGPT類大模型的訓練將耗盡互聯(lián)網(wǎng)上的可用文本數(shù)據(jù),屆時將沒有新的訓練數(shù)據(jù)可供使用。因此,算力瓶頸之外,訓練數(shù)據(jù)將成為大模型產(chǎn)業(yè)化的最大掣肘之一。從更深層次考慮,大模型在訓練數(shù)據(jù)方面還存在各種治理問題,比如數(shù)據(jù)采集標注費時費力成本高、數(shù)據(jù)質(zhì)量較難保障、數(shù)據(jù)多樣化不足難以覆蓋長尾和邊緣案例、特定數(shù)據(jù)在獲取與使用分享等方面存在隱私保護、數(shù)據(jù)偏見等問題。由此可見,人工智能產(chǎn)業(yè)的高質(zhì)量發(fā)展離不開高質(zhì)量的訓練數(shù)據(jù),訓練數(shù)據(jù)的安全合規(guī)使用是大模型人工智能長期健康發(fā)展的基礎。本文將以ChatGPT為例,探討大模型訓練數(shù)據(jù)的來源以及未來使用合成數(shù)據(jù)(Synthetic Data)的發(fā)展趨勢,分析大模型訓練數(shù)據(jù)的合規(guī)風險以及監(jiān)管介入的必要性,最后提出利用數(shù)據(jù)托管機制探索有效的大模型訓練數(shù)據(jù)監(jiān)管體系。
ChatGPT訓練數(shù)據(jù)來源與處理流程
OpenAI雖沒有直接公開ChatGPT的相關(guān)訓練數(shù)據(jù)來源和細節(jié),但可以從近些年業(yè)界公布過的其他大模型(如DeepMind發(fā)布的2800億參數(shù)大模型Gopher)的訓練數(shù)據(jù)推測出ChatGPT的訓練數(shù)據(jù)來源。筆者整理了2018~2022年從GPT-1到Gopher的大模型的數(shù)據(jù)集(見表1)。
總的來看,大模型的訓練數(shù)據(jù)主要來自于維基百科(Wikipedia)、書籍(Books)、期刊(Journals)、Reddit社交新聞站點、Common Crawl和其他數(shù)據(jù)集。
數(shù)據(jù)的質(zhì)量對于大模型的訓練至關(guān)重要。在模型訓練之前,通常依賴專業(yè)數(shù)據(jù)團隊對數(shù)據(jù)集進行預處理。這些預處理操作通常包括:去重,即去除重復的文本數(shù)據(jù),一般以句子為單位;文本正則化或標準化,如全角字符轉(zhuǎn)半角字符,繁體中文轉(zhuǎn)簡體中文等;文本清洗,即剔除超文本標記語言(html)或者表情符號(emoji)等非文本內(nèi)容,并對標點符號進行過濾和統(tǒng)一;分詞,即將句子拆分成單個的詞;詞的清洗,如去除停用詞等;詞的正則化或標準化,如統(tǒng)一數(shù)字的寫法等。經(jīng)過以上預處理流程,通??梢缘玫劫|(zhì)量相對較高的文本數(shù)據(jù),防止數(shù)據(jù)中的噪聲對模型的訓練產(chǎn)生不良影響,有助于后續(xù)模型的高效訓練。
除了上述常規(guī)操作之外,在一些特定的處理任務中,數(shù)據(jù)團隊有可能還會根據(jù)不同目的對模型訓練數(shù)據(jù)進行過濾。比如,若要構(gòu)建一個金融領域的知識系統(tǒng),那么最好把大模型訓練數(shù)據(jù)中與金融領域相關(guān)的數(shù)據(jù)篩選出來,這樣可以提升模型生成的文本與金融領域的匹配程度,使模型的輸出看起來“更專業(yè)”。
合成數(shù)據(jù)將成為大模型訓練數(shù)據(jù)的新來源
當前,大模型的訓練嚴重依賴現(xiàn)有的互聯(lián)網(wǎng)公開文本數(shù)據(jù)。如果下一代 大模型的參數(shù)達到萬億級別以上的話,數(shù)據(jù)短缺的問題將成為訓練瓶頸。對此,合成數(shù)據(jù)將是一種有效的解決方案。
合成數(shù)據(jù)是計算機模擬技術(shù)或算法創(chuàng)建生成的自標注信息,能夠在數(shù)學上或統(tǒng)計學上反映原始數(shù)據(jù)的屬性,因此可以作為原始數(shù)據(jù)的替代品來訓練、測試、驗證大模型。合成數(shù)據(jù)可分為三類:表格數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù);圖像、視頻、語音等媒體數(shù)據(jù);文本數(shù)據(jù)。在大模型的訓練開發(fā)上,合成數(shù)據(jù)相比原始數(shù)據(jù),可以發(fā)揮同樣甚至更好的作用,實現(xiàn)更廉價、更高效的大模型訓練、測試和驗證數(shù)據(jù)供給。ChatGPT類面向終端用戶的應用只是大模型落地的開始,而產(chǎn)業(yè)互聯(lián)網(wǎng)領域的應用空間更為廣闊,合成數(shù)據(jù)可以解決ChatGPT類大模型的潛在數(shù)據(jù)瓶頸,推動科研和產(chǎn)業(yè)的進一步發(fā)展。
合成數(shù)據(jù)可以精確地復制原始數(shù)據(jù)集的統(tǒng)計特征,但又與原始數(shù)據(jù)不存在任何關(guān)聯(lián),所以實際應用過程中的效果強于傳統(tǒng)的脫敏數(shù)據(jù),便于在更大范圍內(nèi)分享和使用。合成數(shù)據(jù)創(chuàng)造的新樣本具有原始數(shù)據(jù)的性質(zhì),甚至可以通過深度學習算法合成原始數(shù)據(jù)中沒有的罕見樣本。合成數(shù)據(jù)的產(chǎn)業(yè)價值主要體現(xiàn)在以下幾個方面:實現(xiàn)數(shù)據(jù)增強和數(shù)據(jù)模擬,解決數(shù)據(jù)匱乏、數(shù)據(jù)質(zhì)量等問題;有效解決數(shù)據(jù)隱私保護和數(shù)據(jù)安全問題,這對于金融、醫(yī)療等領域尤為重要;確保數(shù)據(jù)多樣性,糾正歷史數(shù)據(jù)中的偏見,消除算法歧視;應對罕見案例,創(chuàng)建現(xiàn)實中難以采集的數(shù)據(jù)場景,確保大模型輸出結(jié)果的準確性。
全球IT研究與咨詢機構(gòu)Gartner預測,到2024年用于訓練大模型的數(shù)據(jù)中有60%將是合成數(shù)據(jù),到2030年大模型使用的絕大部分數(shù)據(jù)將由人工智能合成?!堵槭±砉た萍荚u論》(MIT Technology Review)將大模型合成數(shù)據(jù)列為2022年十大突破性技術(shù)之一,稱其有望解決人工智能領域的“數(shù)據(jù)鴻溝”問題。可以預見,合成數(shù)據(jù)作為數(shù)據(jù)要素市場的新增量,在具備產(chǎn)業(yè)價值的同時,也可以解決人工智能和數(shù)字經(jīng)濟的數(shù)據(jù)供給問題。
目前,合成數(shù)據(jù)應用正迅速向金融、醫(yī)療、零售、工業(yè)等諸多產(chǎn)業(yè)領域拓展。在金融行業(yè),金融機構(gòu)可以在不提供敏感的歷史交易信息前提下,通過合成數(shù)據(jù)集訓練量化交易模型提升獲利能力,也可以用來訓練客服機器人以改善服務體驗;在生物醫(yī)藥行業(yè),可以通過合成數(shù)據(jù)集,在不提供患者隱私信息的條件下訓練相關(guān)模型完成藥物研發(fā)工作;在自動駕駛領域,可以通過合成數(shù)據(jù)集模擬各種駕駛場景,在保障人員和設備安全的條件下提升自動駕駛能力。
大模型訓練數(shù)據(jù)的合規(guī)風險及監(jiān)管必要性
從目前的情況看,ChatGPT類大模型輸出側(cè)的結(jié)果數(shù)據(jù)在自然科學領域的應用相對可控,但在社會科學領域的應用尚存在諸多不確定性。尤其值得注意的是,大模型過度依賴訓練數(shù)據(jù),因此在數(shù)據(jù)輸入層面可能會存在惡意操縱的風險,包括有毒輸入、偏見、意識形態(tài)攻擊、輿論操控、虛假信息、隱私泄露等。例如,有研究者指出,如果向大模型GPT-2輸入“北京市朝陽區(qū)”, GPT-2會自動補充包含這些信息的特定人員的全名、電話號碼、電子郵件和實際地址等個人身份信息,因為這些信息已經(jīng)包含在GPT-2的訓練數(shù)據(jù)中。這無疑會對個人隱私保護產(chǎn)生不利影響。還有研究人員稱,ChatGPT經(jīng)常在答案中重復和放大性別歧視及種族偏見,這是因為它的訓練文本是從互聯(lián)網(wǎng)中截取出的,而這些文本往往包含種族主義和性別歧視的語言,基于這種文本的概率分布訓練出的大模型會被同樣的偏見所“感染”。此外,研究人員還發(fā)現(xiàn),這類大模型在訓練過程中還善于編造信息,包括杜撰歷史日期和科學規(guī)律,而且很容易掩人耳目。以上這些風險都會對大模型最終的輸出結(jié)果造成不良影響,有的甚至可能對社會經(jīng)濟造成巨大沖擊,因此需要監(jiān)管部門對大模型訓練數(shù)據(jù)的來源進行必要的管控,保證大模型的輸出結(jié)果符合公序良俗和法律法規(guī)要求,進而推動人工智能行業(yè)健康有序發(fā)展。
特別需要指出的是,大模型輸入側(cè)的訓練數(shù)據(jù)來源如果不是互聯(lián)網(wǎng)公開文本數(shù)據(jù),通常需要數(shù)據(jù)主體的授權(quán),否則會產(chǎn)生數(shù)據(jù)隱私保護和數(shù)據(jù)合規(guī)方面的問題。如前述所言,隨著可用于訓練的互聯(lián)網(wǎng)公開數(shù)據(jù)被逐步“耗盡”,發(fā)展大模型產(chǎn)業(yè)急需增加合成數(shù)據(jù)的產(chǎn)能,而合成數(shù)據(jù)和互聯(lián)網(wǎng)公開文本數(shù)據(jù)最大的區(qū)別是前者存在數(shù)據(jù)加工處理方。因此,對數(shù)據(jù)處理方的有效監(jiān)管和對合成數(shù)據(jù)的有效治理以及數(shù)據(jù)權(quán)益分配就成為發(fā)展大模型產(chǎn)業(yè)的重中之重。
利用數(shù)據(jù)托管機制構(gòu)建大模型訓練數(shù)據(jù)監(jiān)管體系
通常來說,數(shù)據(jù)活動相關(guān)方主要有六類——數(shù)據(jù)主體、數(shù)據(jù)處理者、數(shù)據(jù)使用者、監(jiān)管機構(gòu)、國家政府部門以及國際組織。數(shù)據(jù)主體產(chǎn)生原始數(shù)據(jù);數(shù)據(jù)處理者采集和控制原始數(shù)據(jù),并加工形成數(shù)據(jù)產(chǎn)品和服務;數(shù)據(jù)使用者從數(shù)據(jù)處理者獲取數(shù)據(jù)產(chǎn)品和服務,用于商業(yè)目的;監(jiān)管機構(gòu)按職責對行業(yè)進行監(jiān)管,比如反洗錢、反壟斷等;國家層面對數(shù)據(jù)進行立法,并對數(shù)據(jù)跨境流動等進行管控;國際組織推動全球范圍內(nèi)的數(shù)據(jù)標準和規(guī)范。這一生態(tài)存在的突出問題是,傳統(tǒng)的數(shù)據(jù)處理者過于強勢,它們會利用技術(shù)優(yōu)勢和場景優(yōu)勢壟斷數(shù)據(jù)輸入和輸出,無法保證數(shù)據(jù)權(quán)益分配過程中的公平性,對于監(jiān)管機構(gòu)來說也是一個黑盒子。
為了扭轉(zhuǎn)上述困局,可以在數(shù)據(jù)活動中引入數(shù)據(jù)托管機構(gòu),將數(shù)據(jù)的存儲、使用、管理職責相分離,由專業(yè)的數(shù)據(jù)托管機構(gòu)承擔數(shù)據(jù)存儲,監(jiān)督數(shù)據(jù)處理者的數(shù)據(jù)使用和服務,并收取和分配數(shù)據(jù)權(quán)益。數(shù)據(jù)權(quán)益主要分兩塊:一塊是分配給數(shù)據(jù)主體的原始數(shù)據(jù)權(quán)益;另一塊是分配給數(shù)據(jù)處理者的增值數(shù)據(jù)權(quán)益。數(shù)據(jù)托管還可以支持監(jiān)管機構(gòu)、國家有權(quán)部門開展數(shù)據(jù)流動監(jiān)管、執(zhí)法取證、數(shù)字稅征收等方面工作。
為促進大模型訓練數(shù)據(jù)的合規(guī)使用和高質(zhì)量輸出,需要加強對大模型訓練數(shù)據(jù)的源頭管控,特別是在國家層面對大模型訓練數(shù)據(jù)進行規(guī)范,而數(shù)據(jù)托管機制恰好可以成為大模型訓練數(shù)據(jù)監(jiān)管的有力抓手。
可以考慮對大模型訓練數(shù)據(jù)尤其是合成數(shù)據(jù)建立托管機制。監(jiān)管機構(gòu)則通過對訓練數(shù)據(jù)托管方的約束,進一步規(guī)范大模型訓練數(shù)據(jù)生產(chǎn)方和使用方的行為。數(shù)據(jù)托管方可按規(guī)定對大模型訓練數(shù)據(jù)來源、數(shù)據(jù)處理方的處理結(jié)果以及數(shù)據(jù)使用方的數(shù)據(jù)流向和訓練結(jié)果進行監(jiān)測,確保大模型訓練數(shù)據(jù)來源可靠,在數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量、數(shù)據(jù)安全、隱私保護等方面依法合規(guī),以保障大模型輸出結(jié)果的高質(zhì)量并符合監(jiān)管要求。
大模型產(chǎn)業(yè)發(fā)展與合規(guī)監(jiān)管思路
數(shù)字經(jīng)濟高質(zhì)量發(fā)展的關(guān)鍵是數(shù)據(jù),抓住高質(zhì)量數(shù)據(jù)這一“牛鼻子”,就能有效應對以數(shù)據(jù)為核心的科技創(chuàng)新和產(chǎn)業(yè)變革。當前AIGC(AI Generated Content,人工智能自動生成內(nèi)容)和ChatGPT充分展現(xiàn)了高質(zhì)量訓練數(shù)據(jù)在產(chǎn)業(yè)價值創(chuàng)造中疊加倍增作用,大模型訓練數(shù)據(jù)及其輸出結(jié)果將會是未來社會和生產(chǎn)中的一種重要的數(shù)據(jù)資產(chǎn),其有序流轉(zhuǎn)并合規(guī)使用也是發(fā)展數(shù)字經(jīng)濟的應有之義。通過合理的機制理順市場中各參與方的數(shù)據(jù)權(quán)益關(guān)系和分配格局,并加強訓練數(shù)據(jù)的依法合規(guī)監(jiān)管,是促進大模型人工智能產(chǎn)業(yè)健康發(fā)展的關(guān)鍵。為此,筆者擬提出以下政策建議。
一是重點發(fā)展基于AIGC技術(shù)的合成數(shù)據(jù)產(chǎn)業(yè)。以更高效率、更低成本、更高質(zhì)量為數(shù)據(jù)要素市場“增量擴容”,助力打造面向人工智能未來發(fā)展的數(shù)據(jù)優(yōu)勢。在強化數(shù)據(jù)要素優(yōu)質(zhì)供給方面,應統(tǒng)籌兼顧自立自強和對外開放。可考慮對Wikipedia、Reddit等特定數(shù)據(jù)源建立過濾后的境內(nèi)鏡像站點,供國內(nèi)數(shù)據(jù)處理者使用。
二是構(gòu)建大模型訓練數(shù)據(jù)的監(jiān)管體系。國家相關(guān)部門應對大模型訓練數(shù)據(jù)的處理和使用標準進行統(tǒng)一規(guī)范;建立數(shù)據(jù)托管機制,對數(shù)據(jù)托管方進行約束,要求數(shù)據(jù)托管方按照監(jiān)管機構(gòu)的規(guī)定對數(shù)據(jù)來源、處理結(jié)果以及使用去向等進行監(jiān)測,從而使得模型的輸入、輸出結(jié)果符合監(jiān)管要求。
三是探索基于可信機構(gòu)或基于可信技術(shù)的數(shù)據(jù)托管方式。數(shù)據(jù)托管機構(gòu)可以由相關(guān)機構(gòu)組建數(shù)據(jù)托管行業(yè)聯(lián)盟,以共建共享的方式建設;亦可利用區(qū)塊鏈技術(shù),基于聯(lián)盟鏈或有管理的公鏈,完善源端數(shù)據(jù)治理機制,實現(xiàn)數(shù)據(jù)的鏈上托管、確權(quán)、交易、流轉(zhuǎn)與權(quán)益分配。
標簽:
加強風控后,違規(guī)代還的現(xiàn)象將會大批消散?! 钢Ц栋倏啤棺⒁獾?,越來越多的銀行發(fā)布聲明將要加強對...
作者|姚前「中國證監(jiān)會科技監(jiān)管局局長」 文章|本文將刊登于《中國金融》2023年第6期 ChatGPT是...
2月17日,中國證監(jiān)會發(fā)布全面實行股票發(fā)行注冊制相關(guān)制度規(guī)則。證券交易所、全國股轉(zhuǎn)公司、中國結(jié)算、中...
“經(jīng)濟社會深層結(jié)構(gòu)性問題日漸凸顯帶來的就業(yè)壓力,難以隨著人口規(guī)模的下降而緩解。目前就業(yè)面臨‘四難...
拿到父親7年前留下的3000元存款,楊先生心里的石頭終于落了地。時隔這么久,他本以為這筆錢要“爛”在銀...