通用模型的倫理與治理：挑戰(zhàn)及對策

發(fā)布時間：2022-10-14 08:51:38 | 來源：中國網(wǎng)·中國發(fā)展門戶網(wǎng) | 作者：滕妍、王迎春、王國豫 | 責任編輯：楊霄霄

中國網(wǎng)/中國發(fā)展門戶網(wǎng)訊通用模型是近年來人工智能發(fā)展的重要方向之一。隨著模型研發(fā)應用的增多，模型的社會和倫理影響受到廣泛關(guān)注。文章從通用模型的特性出發(fā)、分析了模型在算法、數(shù)據(jù)和算力?3?個層面潛在的倫理挑戰(zhàn)，包括不確定性、真實性、可靠性，偏見、毒性、公平、隱私及環(huán)境問題。進一步從技術(shù)哲學的視角分析了數(shù)據(jù)驅(qū)動的模型在人與世界關(guān)系中的中介性作用及所產(chǎn)生的“鏡像”效應問題和透明性問題，提出了人與世界關(guān)系的新形態(tài)是以模型（數(shù)據(jù)）為中介的，即“人-模型（數(shù)據(jù)）-世界”關(guān)系。最后，從治理技術(shù)和治理機制兩方面反思了當前的應對措施及局限性。建議建立開放式、全流程、價值嵌入的倫理規(guī)約機制，保障通用模型在合規(guī)、合倫理的框架下發(fā)展。

人工智能步入“通用模型時代”

模型，是現(xiàn)實世界中事件、系統(tǒng)、行為或者自然現(xiàn)象的抽象數(shù)學表征。在人工智能領(lǐng)域，通用模型，又稱為預訓練模型、基礎(chǔ)模型或大模型，是指經(jīng)過大規(guī)模數(shù)據(jù)訓練，包含海量模型參數(shù)，并可適用于廣泛下游任務的模型。自?21?世紀早期深度學習技術(shù)興起，人工智能的研發(fā)模式主要是開發(fā)專用模型，即針對特定任務、場景，依賴大量人力的“作坊式”。然而，由于專用模型泛化能力差且嚴重依賴專用數(shù)據(jù)集，導致開發(fā)成本高。近幾年，人們開始聚焦通用模型，即通過預先訓練一個超大規(guī)模的模型，再用少量微調(diào)數(shù)據(jù)將模型遷移到具體場景中，一次性解決下游碎片化任務。

在目前的通用模型中，自然語言處理（NLP）和計算機視覺（CV）是發(fā)展最快的兩個領(lǐng)域。NLP指的是建立在計算機編程基礎(chǔ)上的人與計算機之間的自然語言通訊，即讓人工智能“說人話”，代表模型包括?Bert（Google）、GPT-2/3（OpenAI）、GLaM（Google）、“盤古”（華為）、“悟道”（智源、清華）等。CV?指的是利用傳感器、攝像頭、計算機等設備模仿生物視覺能力，即讓人工智能“看世界”，代表包括?Swin Transformer（Microsoft）、CLIP（OpenAI）、“書生”（上海人工智能實驗室）等。

從技術(shù)的角度來看，通用模型所基于的深度神經(jīng)網(wǎng)絡和自監(jiān)督學習并不新穎，其近年來的迅速發(fā)展主要歸功于不斷擴大的模型參數(shù)量、訓練數(shù)據(jù)及算力的發(fā)展。比如，OpenAI?在?2018?年發(fā)布的語言模型?GPT-1?的參數(shù)量為?1.1?億，而其在?2020?年發(fā)布的?GPT-3?模型的參數(shù)量已高達?1?750?億，而?Google?的?Switch Transformer?和北京智源研究院的“悟道”2.0?的參數(shù)已經(jīng)達到萬億級別。模型參數(shù)、訓練數(shù)據(jù)和算力的擴增激發(fā)了模型的潛能，提高了模型的泛化性和適用性，提升了開發(fā)效率。在通用性方面，據(jù)華為數(shù)據(jù)顯示，其“盤古”通用模型可以適配電力行業(yè)的?100?多種問題，迭代效率提升了?10?倍左右。在精度方面，Clark?等的實驗顯示，在沒有訓練的情況下，人類評價者已經(jīng)很難區(qū)分測試文本是?GPT-3?生成的還是人類創(chuàng)作的。在數(shù)據(jù)效率方面，上海人工智能實驗室的“書生”模型僅需?2?個訓練樣本，就能在花卉種類識別的任務上達到?99.7%?的精確度。

通用性能和模型質(zhì)量的提升降低了人工智能的研發(fā)和使用門檻，促進了人工智能的規(guī)模化落地，未來可能帶來從技術(shù)、規(guī)則、制度到產(chǎn)業(yè)的整個人工智能領(lǐng)域的范式轉(zhuǎn)變。據(jù)?GPT-3?官網(wǎng)顯示，截至?2022?年?2?月，已經(jīng)有超過?320?個?APP?采用了?GPT-3模型，其中包括人們熟知的?WhatsApp、Duolingo、Excel?等產(chǎn)品。人工智能已然步入“通用模型”時代。

通用模型的特性及倫理挑戰(zhàn)

通用模型的特性

核心特性

通用模型的核心特性可以歸納為涌現(xiàn)性（emergence）和同質(zhì)性（homogenization）。

涌現(xiàn)性。涌現(xiàn)是復雜系統(tǒng)的特征，通常指的是“在復雜系統(tǒng)的自組織過程中，出現(xiàn)新穎而連貫的結(jié)構(gòu)、模式和屬性”。涌現(xiàn)具有?2?個明顯特性：①單體之間相互作用產(chǎn)生的協(xié)同效應，這使群體作為一個整體可以產(chǎn)生個體簡單相加無法達到的效果。②在臨界狀態(tài)下質(zhì)的改變，這種質(zhì)變的例子包括自然界中的雪崩、冰化成水，又或者經(jīng)濟領(lǐng)域的股市價格波動等。在通用模型的語境下，涌現(xiàn)性指的是模型的功能不是具體建構(gòu)的，而是在模型的大規(guī)模訓練過程中自主涌現(xiàn)出來的。通用模型的功能涌現(xiàn)性根植于機器學習的特性。機器學習領(lǐng)域的先鋒——Samuel指出，機器學習算法的本質(zhì)是讓計算機自動學習訓練數(shù)據(jù)的內(nèi)在規(guī)律，并用這些規(guī)律對未知數(shù)據(jù)進行預測，這種基于訓練數(shù)據(jù)產(chǎn)生模型的算法具有涌現(xiàn)性的特征。通用模型在大規(guī)模算力和數(shù)據(jù)的加持下，不僅可以自動指定任務的執(zhí)行方式、提取數(shù)據(jù)的內(nèi)在特征，還可以涌現(xiàn)出一些預料之外的功能。Steinhardt將通用模型的涌現(xiàn)性進一步解釋為由于參數(shù)數(shù)量增加而引起的行為上的質(zhì)變，這種質(zhì)變可以引起系統(tǒng)的快速改變，在產(chǎn)生新功能的同時也可能產(chǎn)生新的風險。

同質(zhì)性。同質(zhì)性，與異質(zhì)性（heterogenization）相反，指的是構(gòu)成物體或人的單元在質(zhì)量、結(jié)構(gòu)、狀態(tài)等特征上的單一或相似性。在通用模型語境下，同質(zhì)性指的是模型構(gòu)建方法的相似性。主要表現(xiàn)在?2?個方面：①橫向的同質(zhì)化，指的是類似的網(wǎng)絡架構(gòu)（如 Transformer）已經(jīng)被廣泛用于諸多領(lǐng)域的模型開發(fā)中。如文本、圖片、視頻、蛋白質(zhì)結(jié)構(gòu)預測等，使得模型的能力可以惠及諸多領(lǐng)域。②縱向的同質(zhì)化，指的是類似或同一模型被廣泛用于解決下游任務。通用模型領(lǐng)域模型建構(gòu)的同質(zhì)化主要源于模型強泛化性所帶來的開發(fā)、優(yōu)化、應用等方面效率的提升。此外，通用模型作為一種中間模型，其問題也會被下游模型所繼承，帶來“一榮俱榮，一損俱損”的效果。

衍生特性

通用模型還有兩個衍生特性：大規(guī)模數(shù)據(jù)訓練和任務泛化。①大規(guī)模數(shù)據(jù)訓練不僅是模型功能涌現(xiàn)性的重要前提，也對提高模型整體適用性、準確度和效率發(fā)揮了積極作用。②通用模型任務泛化的特性，指的是模型可以作為具有“通才”能力的中間模型，被使用者遷移處理各種不同的、甚至未知的任務，而類似網(wǎng)絡架構(gòu)在多種模態(tài)模型（文字、圖片、視頻等）中的運用更是拓寬了模型的下游應用領(lǐng)域。在這個意義上，通用模型可以被看作是一種促能技術(shù)（enabling technology）。

通用模型的倫理挑戰(zhàn)

通用模型的上述特性推進了人工智能技術(shù)的發(fā)展和規(guī)模化落地，但也帶來一系列倫理挑戰(zhàn)，包括涌現(xiàn)性伴隨的功能不確定、魯棒性欠缺所導致的可靠性問題與認知風險；大規(guī)模數(shù)據(jù)訓練面臨的隱私安全、偏見、毒性、公平性問題；同質(zhì)性和任務泛化對上述問題在橫向和縱向上的放大和加深；使用海量算力對能源的消耗和環(huán)境的影響。總的來說，通用模型面臨的倫理挑戰(zhàn)主要表現(xiàn)在?3?個層面。

算法層面：不確定性與真實性、可靠性問題

從認識論角度看，通用模型的涌現(xiàn)性直接呈現(xiàn)出的是魯棒性欠缺，導致算法的不確定性和不可解釋性，其結(jié)果也影響到算法的真實性和可靠性，而同質(zhì)性則放大了這些問題在橫向和縱向上的影響。

Hendrycks?等將機器學習的魯棒性解釋為系統(tǒng)面對黑天鵝事件和對抗性威脅時表現(xiàn)出的能力。以交通燈為例，遵守信號燈行駛在絕大多數(shù)場景下是安全的，但是也有極少數(shù)特殊情況。比如，當十字路口橫向來車闖紅燈時，縱向行駛的車輛如若還按綠燈行駛就會造成車禍。考慮到通用模型的通用性質(zhì)，現(xiàn)階段大部分模型在制定安全性指標時會將一套復雜的人工智能安全性原則匯總到一個概括性的綜合指標中，而不對其進行更細粒度的區(qū)分；但在具體應用場景中，往往需要考慮更細粒度的安全問題，如信號燈故障及其他突發(fā)、極端情況。

不同于黑天鵝事件，對抗性威脅通常是針對算法或模型漏洞和弱點的故意性攻擊，操作方式通常是刻意在樣本中加入人類無法察覺的干擾。2015?年，谷歌的研究人員發(fā)現(xiàn)，對抗樣本可以輕易地欺騙GoogLeNet?模型。研究人員制作了兩張熊貓圖片，并在其中一幅的像素層面加入細微干擾作為對抗樣本，對人類肉眼來說，這兩張圖幾乎是一模一樣，而機器學習模型卻以高置信度將對抗樣本誤讀為長臂猿。類似的情況還有，OpenAI?的研究人員發(fā)現(xiàn)其實驗室最新的通用視覺模型可以輕易被欺騙。例如，如果在一顆青蘋果上貼上“ipod”標簽，那該模型有?99.7%?的概率將圖中物體識別成?ipod，而不是青蘋果。

產(chǎn)生對抗威脅的直接原因是模型與人類處理信息方式的不同，人類是基于各種可理解的特征來識別圖片中的內(nèi)容，如熊貓的黑眼圈、黑耳朵等。而模型的識別方法是基于對大規(guī)模數(shù)據(jù)樣本的擬合學習，得出一個可以將所有圖片與標簽相關(guān)聯(lián)的參數(shù)框架，然后再將這種關(guān)聯(lián)泛化到其他任務中。但是這種關(guān)聯(lián)本質(zhì)上源于模型的涌現(xiàn)性，具有不確定性，有時是不可靠的。而由于通用模型作為“中介”和“促能”技術(shù)的重要意義，在下游的應用中起到了“母體”的作用，模型的細小誤差可能對下游大規(guī)模應用帶來影響。

究其根本，產(chǎn)生對抗性威脅的深層原因是模型無法從事實上區(qū)分信息的真實性，從而產(chǎn)生虛假的、誤導性的或低質(zhì)量的結(jié)果。并且，深度神經(jīng)網(wǎng)絡架構(gòu)可能使每次推理結(jié)果都不同且可解釋性低，這不僅對了解模型能做什么、為什么這么做及如何做帶來困難，更是為模型的審核與合規(guī)帶來了一系列挑戰(zhàn)。“大數(shù)據(jù)+海量參數(shù)+大算力”提升了模型的總體表現(xiàn)，但是似乎并沒有讓模型做到像人一樣的理解。這在類似下棋等娛樂場景并不會對人類生活產(chǎn)生負面影響。但是，對于諸如醫(yī)療診斷、刑偵司法、自動駕駛等重要領(lǐng)域，模型功能的涌現(xiàn)性、應用的同質(zhì)化和可解釋問題可能帶來潛在風險。

數(shù)據(jù)層面：隱私安全、偏見、毒性與公平性問題

現(xiàn)階段，通用模型在數(shù)據(jù)層面的主要倫理風險分?2?類：①訓練樣本中含有的偏見和毒性（toxicity）問題；②數(shù)據(jù)所涉及的隱私安全問題。

通用模型訓練所用的數(shù)據(jù)量大且多為無標注數(shù)據(jù)，樣本中易存在偏見和毒性問題，可能對個體或群體帶來歧視和不公，且通用模型的同質(zhì)化特征可能會放大或深化這些問題。偏見可以理解為一種態(tài)度或行為上的傾向，在現(xiàn)實生活中常表現(xiàn)為對特定人群的區(qū)別對待，可能造成直接或間接的歧視和不公。美國國家標準與技術(shù)研究院將人工智能偏見分為?3?類：①系統(tǒng)偏見，指由歷史、社會造成的對某些群體的偏袒或貶低；②統(tǒng)計偏見，指由于樣本的代表性缺陷而導致的統(tǒng)計上的偏差；③人類偏見，指人類決策者思維的系統(tǒng)性錯誤，這種偏見通常是隱式的、與過往經(jīng)驗相聯(lián)系。毒性或有害言論與偏見類似，但特指粗魯、不尊重或不合理的言論，如侮辱、仇恨、臟話、人身攻擊、性騷擾等。從來源上說，偏見和有害語言都是復雜的歷史產(chǎn)物，在人類社會中難以徹底消除；但如不加以注意，人工智能就可能會拓寬、深化、合并甚至標準化這些問題，或者帶來新的問題。在通用模型的語境下，語料庫和模型輸出的毒性、偏見程度存在明顯相關(guān)性。當樣本中某些群體被缺乏、不實或過度代表時，模型結(jié)果就可能使部分人群——特別是邊緣群體遭受不公正的對待，繼承或加深社會刻板印象。例如，OpenAI?在用?ZS CLIP?模型鑒別?10?000?張?FairFace?數(shù)據(jù)庫的圖片時，結(jié)果顯示，通用模型對不同人群（如種族、性別、年齡等）的識別是不同的，如更容易將男性和?20?歲以下人群視為罪犯，更容易將女性識別為保姆。

隱私安全也是通用模型在數(shù)據(jù)層面的主要倫理挑戰(zhàn)之一，包括數(shù)據(jù)泄露、功能僭變（function creep）、偽造、詐騙等具體問題。隱私是數(shù)字化世界的主要倫理問題之一。通用模型研發(fā)和應用涉及的隱私風險主要來源于原始訓練數(shù)據(jù)中包含的個人信息和模型強大的推理能力。通用模型訓練多采用網(wǎng)絡公開數(shù)據(jù)（如網(wǎng)頁、論壇、論文、電子書等），其中可能包含姓名、家庭住址、電話號碼等個人信息，甚至包含生物識別、宗教、醫(yī)療、行蹤軌跡等敏感信息，這些信息的泄露不僅違法，且直接侵害到個人的尊嚴、人身和財產(chǎn)安全。通用模型的“一損俱損”效應也意味著，如果模型非法或不當使用了隱私數(shù)據(jù)，下游所有應用都會承擔這種隱私風險。惡意使用者還可能將泄露信息進一步用于偽造、身份冒用、詐騙等不法目的，造成功能僭變（即泄露或超出原目的使用）。如近幾年興起的深度偽造技術(shù)，據(jù)?Sensity?的調(diào)查顯示，在公開發(fā)布的深偽作品中，96%?都是虛假成人內(nèi)容，即將網(wǎng)絡圖片合成到情色視頻或圖片上，而受害者絕大多數(shù)都是女性。

算力層面：可持續(xù)發(fā)展與全球正義

在全球“雙碳”背景下，模型在算力層面所產(chǎn)生的能源和環(huán)境影響尤為值得重視。為應對氣候危機，2015?年，178?個締約方簽署了《巴黎協(xié)定》，將控制氣溫上升作為長期目標，我國也于?2020?年明確了“雙碳”目標。近年來，“軍備競賽式”的通用模型研發(fā)所造成的環(huán)境問題已經(jīng)備受矚目。Strubell?等梳理了幾種常用的深度學習語言模型在訓練環(huán)節(jié)的碳足跡和計算花費。結(jié)果顯示，訓練這些模型產(chǎn)生的二氧化碳當量（CO2e）從?0.012—284?噸不等。如在不做超參數(shù)調(diào)整的情況下，訓練一個基于?Bert?的模型所造成的碳排放大致相當于一次環(huán)美飛行所造成的排量；而訓練神經(jīng)架構(gòu)搜索模型所需的計算費用高達約?90?萬—300?萬美元不等。除了訓練環(huán)節(jié)，模型在應用過程中的環(huán)境問題也不容忽視。圖靈獎得主帕特森（David Patterson）等的研究顯示，多數(shù)公司在運行深度神經(jīng)網(wǎng)絡模型時所消耗的能源和算力要多于模型訓練階段。

算力背后的能源和環(huán)境問題已經(jīng)引發(fā)關(guān)于環(huán)境后果和全球正義的討論。一方面，涉及代內(nèi)正義，因為享受到通用模型便利的往往是發(fā)達國家和人群，而被氣候變暖影響最嚴重的國家往往是落后的發(fā)展中國家。另一方面，能源消耗和環(huán)境污染也關(guān)涉代際正義，即對未來子孫的影響。

通用模型的中介性

美國著名計算機科學家格雷（Jim Gray）指出，傳統(tǒng)上，科學研究的范式主要是實證的、理論的和計算式的，而隨著仿真計算和數(shù)據(jù)收集工具的發(fā)展，大量的數(shù)據(jù)被收集起來，這也促使新的科學范式——數(shù)據(jù)密集型科學的產(chǎn)生。

預訓練模型本質(zhì)上也是數(shù)據(jù)驅(qū)動的，數(shù)據(jù)是模型知識的資料來源，模型的能力來自對大量無標注訓練數(shù)據(jù)中抽象共現(xiàn)模式（co-occurrence patterns）的學習。舉例來說，如果“面包與果醬”在訓練數(shù)據(jù)中出現(xiàn)的概率很高，那么在運用該模型進行文本生成的時候，如果用戶輸入“面包與”，模型會在提示欄中顯示“果醬”等其他高頻共現(xiàn)詞。Bender?等將大語言模型的這種映射行為稱為“鸚鵡學舌”。這當中包含兩個問題：①通用模型的“鏡像”效應在透過數(shù)據(jù)表征世界的時候，也會將訓練數(shù)據(jù)中包含的社會問題不加分辨地體現(xiàn)出來。對于通用模型來說，這種能力的核心是在海量無標注數(shù)據(jù)中學習通用的特征表示，提取出有價值的模式和規(guī)律，而不對數(shù)據(jù)內(nèi)容加以鑒別，這就意味著，如果訓練數(shù)據(jù)中與某些詞匯（如“黑人”）相關(guān)聯(lián)的內(nèi)容多為負面的或刻板印象，則模型輸出的結(jié)果就可能直接體現(xiàn)這些問題，并可能作為數(shù)字記憶將這些內(nèi)容固化。②由于通用模型的映射行為反映的是訓練數(shù)據(jù)的內(nèi)在關(guān)聯(lián)，而不是全面豐富、動態(tài)復雜的生活世界，選擇哪些數(shù)據(jù)集、依據(jù)什么樣的標準，以及如何界定核心概念都會對結(jié)果產(chǎn)生影響，導致模型結(jié)果可能存在可靠性問題。以上兩個問題反映出數(shù)據(jù)驅(qū)動的模型可能存在的問題，即通用模型作為一種“鏡像”可能無法準確反映世界，還會影響人類對世界的認識。

通用模型的這種“鏡像”可以借用伊德（Don Ihde）的技術(shù)哲學來解釋。作為一種技術(shù)中介，通用模型可以調(diào)節(jié)人類認識和解釋世界的過程。伊德在探討技術(shù)在人與世界之間關(guān)系時提出技術(shù)與人的?4?種關(guān)系。在具身關(guān)系中，人類與技術(shù)作為一個整體去經(jīng)驗世界（如眼鏡），此時技術(shù)是人“身體的延伸”，即（人-技術(shù)）→世界，有助于放大某些感官意識。具身關(guān)系要求技術(shù)的知覺透明性，即人類越了解技術(shù)，人與技術(shù)融合所能產(chǎn)生的效用越大。在詮釋關(guān)系中，人類對世界的認識是經(jīng)過技術(shù)工具表征轉(zhuǎn)換的（如儀表盤），即人→（技術(shù)-世界），人們認識的世界是由技術(shù)詮釋的，技術(shù)是世界的表征。詮釋關(guān)系要求技術(shù)達到一定的發(fā)展程度，以精準反映世界。在它異關(guān)系中，強調(diào)技術(shù)的自主性，即當技術(shù)具有它者性（如人工智能）、成為認識的客體時，透過技術(shù)展現(xiàn)的世界就變成了一種技術(shù)的加工物，表述為人→技術(shù)-（-世界）。在背景關(guān)系中，技術(shù)作為一種技術(shù)背景，成為日常生活的一部分（如暖氣），而人往往是在技術(shù)失效時才能意識到它的存在，即人→（技術(shù)/世界）。

在通用模型的語境下，伊德的“人-技術(shù)-世界”被“人-模型（數(shù)據(jù)）-世界”所取代。一方面，通用模型在某種程度上可以理解為數(shù)據(jù)和部分世界的“鏡像”，擁有表征相關(guān)事物復雜邏輯關(guān)系的能力，人類透過模型來認識世界。然而，模型的“鏡像”效應也將映射出現(xiàn)實世界中偏見歧視等倫理問題，對公平、自由、人格尊嚴等倫理價值造成挑戰(zhàn)。另一方面，作為“身體的延伸”，人類又可能與模型融合在一起去經(jīng)驗世界，但是融合的實際效用取決于技術(shù)的透明性，在通用模型語境下主要表現(xiàn)為可解釋性問題，即是否可以從人類的角度理解從輸入到輸出背后的映射邏輯。這關(guān)乎人類是否可以信任模型，包括模型是否可靠，是否能夠符合具體的法律法規(guī)和倫理規(guī)范，是否可以用于科學研究等目的，以及是否可以部署到重要的生活領(lǐng)域，如幫助兒童學習知識，輔助法官判案等。傳統(tǒng)上，判定某個人或團體的言論是否可靠的基本前提是他們知道自己在說什么，即理解這些言論的意思和背后映射的價值規(guī)范、行為要求和社會影響。但是，深度神經(jīng)網(wǎng)絡的可解釋性和透明性較低，更多的是基于數(shù)據(jù)和參數(shù)的規(guī)模效應給出的粗略結(jié)果。在某種程度上是用相關(guān)性代替了因果性，伴隨而來的就是上述信任的問題。

綜上，通用模型在反映世界和讓人理解兩方面還存在一些問題，作為人與世界關(guān)系的技術(shù)中介，通用模型在幫助人類處理大規(guī)模下游任務的同時，也帶來了一系列的不確定性。通用模型的“鏡像”只是對訓練數(shù)據(jù)的鏡像，而不完全是現(xiàn)實世界的鏡像，且人類還無法完全理解、信任模型的預測邏輯，如若想讓模型的中介作用更加合理，人類必須在環(huán)路之中發(fā)揮更大的作用。

治理措施及局限性

通用模型的社會與倫理維度關(guān)乎模型未來的技術(shù)走向、規(guī)則制定、接受度等一系列問題，屬于通用模型發(fā)展的基礎(chǔ)問題。目前，很多企業(yè)及高校都已啟動針對通用模型社會和倫理影響的研究，并制定系列舉措對模型的研發(fā)和應用進行治理。

治理技術(shù)：上、下游倫理調(diào)節(jié)

當前，應對通用模型倫理挑戰(zhàn)的技術(shù)可以粗略劃分為上游手段和下游手段，主要是通過對上、下游訓練數(shù)據(jù)進行倫理調(diào)節(jié)以降低模型“鏡像”效應的潛在負面影響。

上游手段主要對應模型的預訓練階段。最典型的舉措就是對訓練數(shù)據(jù)集進行清洗。如，DeepMind?在改進?TransformerXL?模型的表現(xiàn)時，刪去了被?Perspective API?注釋為有毒的內(nèi)容。Perspective API?通過志愿者打分的方式來量化線上評論的分數(shù)——如果?10?個評分者中有?6?個將評論標記為有毒，就將該評論的毒性標記為?0.6，代表詞條文本有?60%?的可能性被認為是有害的，該評估模型目前已被廣泛用于處理通用模型的毒性問題。由于毒性言論和偏見可能對特定人群造成直接或間接的不公且可能降低模型精度，改善這些問題對提高模型公平性、可靠性等具有明顯益處。

下游手段主要指模型為適應具體任務而進行微調(diào)的階段。為改善模型在特定領(lǐng)域的表現(xiàn)，多數(shù)研究團隊傾向于下游處理，即在已經(jīng)完成預訓練的模型的基礎(chǔ)上用有指向性的小規(guī)模數(shù)據(jù)集進行微調(diào)。目前，OpenAI、Google?等都使用了下游微調(diào)的手段來改善模型在特定社會和倫理維度上的表現(xiàn)，以增加模型在價值規(guī)范方面的敏感度和“理解力”，提高通用模型作為人與世界中介的倫理合理性。

治理機制：宏觀與微觀層面并行

通用模型的治理機制主要包括宏觀和微觀兩個層面。

在宏觀層面，通用模型治理要符合當前人工智能治理的總體框架。政府、國際組織、企業(yè)等都針對人工智能的發(fā)展制定了系列治理機制。總的來說，這些機制包括倫理原則（如我國的《新一代人工智能治理原則——發(fā)展負責任的人工智能》）、政策戰(zhàn)略（如美國的《美國人工智能倡議》）、法律法規(guī)（如歐盟的《人工智能法（草案）》）、標準（IEEE?的?P7000系列）等。通用模型的治理隸屬于相關(guān)主體發(fā)布的人工智能治理框架，同時受到行業(yè)組織、技術(shù)團體、新聞媒體、公眾等多元主體的監(jiān)督。

在微觀層面，有必要針對通用模型的特性制定專門性治理機制。目前通用模型的專題治理以模型研發(fā)、應用的頭部機構(gòu)為主導，主要做法是針對模型的發(fā)布、應用制定一系列制度措施，包括：①分階段開放模型。OpenAI?分?4?個階段、由小至大開放了?GPT-2，以逐步了解模型特性，減少被濫用的可能性。②只針對特定對象開放，并與合作者簽訂法律協(xié)議以規(guī)定雙方的權(quán)利和義務。③制定模型應用的具體規(guī)則。OpenAI?在開放?GPT-3?早期模型時會審查所有使用案例，并及時中止可能產(chǎn)生危害的應用，降低潛在風險。

上述治理機制和技術(shù)都在一定程度上降低了通用模型潛在的社會和倫理風險，但是這些措施仍具有一定的局限性。①現(xiàn)階段針對通用模型的專題治理機制欠缺系統(tǒng)性，沒有與人工智能的總體治理框架緊密結(jié)合。如果審查下游應用案例的倫理權(quán)力被模型提供者壟斷，這種權(quán)力的集中不僅會降低倫理審查的效力，也提高了使用者的風險。②現(xiàn)階段的治理技術(shù)還是相對割裂和零散的，沒有將技術(shù)與倫理很好的融合。例如，作為應用最廣泛的去毒評估模型，Perspective API?的眾包評審機制更多是基于統(tǒng)計和描述的方法，缺乏規(guī)范性和理論性依據(jù)。一方面，有害文本的判斷與個人經(jīng)歷、文化背景、內(nèi)容場景等有很強的關(guān)聯(lián)性，對用戶?A?或某個地域的群體不具冒犯性的言論可能會冒犯到用戶?B?或另外一個地域的群體。因此，需要在評估之前充分考慮評審規(guī)則的合理性、評審員的多樣性等問題。另一方面，API?現(xiàn)有的打分方式無法區(qū)分有害文本的危害程度。現(xiàn)有的評分方式是基于文本被認為有害的可能性，即雖然一些行為比其他行為更讓人感到冒犯，但模型只能區(qū)分一個行為的冒犯性與否，而不能體現(xiàn)冒犯行為之間的質(zhì)量差異。有必要在系統(tǒng)理論規(guī)范的指導下，探索更合理的分級機制。

總的來說，現(xiàn)階段應對措施的局限性與缺乏系統(tǒng)性考慮和缺乏理論性、規(guī)范性指導密切關(guān)聯(lián)。通用模型作為訓練數(shù)據(jù)的“鏡像”，具有建模復雜問題和映射社會問題的能力，但卻存在對現(xiàn)實世界中事實與價值的粗糙處理，導致所謂的“長尾效應”，即從最普遍需求的角度來看，模型整體上表現(xiàn)優(yōu)異且符合各項指標，但是對于差異化、特殊性、個性化的需求而言，模型仍然存在風險。為了使通用模型輸出的結(jié)果更符合人類價值觀，在模型發(fā)展的早期就將倫理理論和規(guī)范介入是十分必要的。

展望：建立開放式、全流程、價值嵌入的倫理工具

現(xiàn)階段應對措施的局限性表明，下一階段的通用模型治理需要將以下?3?個因素納入考量。

要秉持開放式的態(tài)度，充分評估數(shù)據(jù)和模型的倫理影響和風險點。這樣做的前提是建立擁有交叉學科背景的倫理委員會、透明的評審規(guī)則、合理的倫理權(quán)力分配機制和第三方審查機制。在此基礎(chǔ)上，從多角度評估數(shù)據(jù)和模型的潛在影響，特別是數(shù)據(jù)的多樣性、文化背景和模型應用的時間和空間屬性，充分評估模型在特定場景下、對特定人群可能產(chǎn)生的影響，降低潛在的負面效應。

從全流程的視角出發(fā)，將倫理考量納入通用模型及其生態(tài)系統(tǒng)建設進程之中。一方面，要通過教育、培訓等手段加強科研人員和使用人員的倫理素養(yǎng)，讓相關(guān)人群切實體會到科技倫理的重要性，負責任地研發(fā)、使用通用模型。另一方面，需要研發(fā)更系統(tǒng)的解決方案和上下游技術(shù)手段，對訓練數(shù)據(jù)和模型表現(xiàn)進行倫理調(diào)節(jié)，改善模型在各個環(huán)節(jié)的道德敏感度。

要充分探索“價值敏感設計”“負責任創(chuàng)新”等倫理方法在通用模型語境下的可行性。不僅要將倫理規(guī)范嵌入到技術(shù)研發(fā)中去，更要考慮如何通過對模型的倫理規(guī)制與技術(shù)對人的規(guī)制的雙向互動，真正探索出合乎倫理的模型的研發(fā)之路，前瞻性地規(guī)避價值缺失、價值沖突、價值違背等價值問題，保證其在合規(guī)、合倫理的框架下促進人工智能的發(fā)展。

（作者：滕妍、王迎春，上海人工智能實驗室治理研究中心；王國豫復旦大學哲學學院、復旦大學生命醫(yī)學倫理研究中心；《中國科學院院刊》供稿）

911国产在线专区,国产精品亚洲片在线va,亚洲欧美国产天堂,按摩喷潮在线播放无码,国产口爆吞精视频网站,比较有韵味的熟妇无码

通用模型的倫理與治理：挑戰(zhàn)及對策

相關(guān)文章