掃碼登錄
“我們?cè)鲞^(guò)試驗(yàn),當(dāng)在特定論壇連續(xù)發(fā)布百余條虛假信息后,主流大模型對(duì)對(duì)標(biāo)問(wèn)題的回答置信度就會(huì)從百分之十幾快速飆升。這就像在純凈水中滴入墨水,當(dāng)網(wǎng)絡(luò)污染源形成規(guī)模,AI的知識(shí)體系就可能產(chǎn)生系統(tǒng)性偏差?!?/p>
可從優(yōu)化大模型技術(shù)、完善監(jiān)管與法律、加強(qiáng)行業(yè)自律等方面入手,構(gòu)建數(shù)據(jù)治理框架,確保AI知識(shí)庫(kù)的純凈度,維護(hù)數(shù)字時(shí)代的認(rèn)知安全
文 | 上海證券報(bào)記者 馬嘉悅 聶林浩
今年2月,某科普作家在社交平臺(tái)上表示,他向AI大模型詢問(wèn)文物“青銅利簋”的有關(guān)情況時(shí),結(jié)果稱該器物為商王帝乙祭祀父親帝丁所鑄,與實(shí)物考證不符。進(jìn)一步追問(wèn)文獻(xiàn)來(lái)源時(shí),AI不僅偽造了學(xué)術(shù)觀點(diǎn),還篡改了文獻(xiàn)作者信息。
記者近日在調(diào)研中發(fā)現(xiàn),由于底層數(shù)據(jù)來(lái)源和語(yǔ)料的準(zhǔn)確性與客觀性難以保證,大模型輸出內(nèi)容可能偏離實(shí)際形成“語(yǔ)料污染”,加速虛假信息傳播,放大市場(chǎng)操縱、公共安全和法律版權(quán)等風(fēng)險(xiǎn)。
業(yè)內(nèi)人士建議,可從優(yōu)化大模型技術(shù)、完善監(jiān)管與法律、加強(qiáng)行業(yè)自律等方面入手,構(gòu)建數(shù)據(jù)治理框架,確保AI知識(shí)庫(kù)的純凈度,維護(hù)數(shù)字時(shí)代的認(rèn)知安全。
語(yǔ)料污染致大模型有害內(nèi)容顯著增加
近日,記者在某AI平臺(tái)查詢“某企業(yè)A是否投資過(guò)企業(yè)B”時(shí),系統(tǒng)回答“企業(yè)A作為早期投資方參與企業(yè)B 2023年首輪融資”。然而,記者通過(guò)國(guó)家企業(yè)信用信息公示系統(tǒng)等平臺(tái)查詢核實(shí)后發(fā)現(xiàn),該投資關(guān)系并不存在。
溯源發(fā)現(xiàn),相關(guān)回答的語(yǔ)料來(lái)源于某平臺(tái)自媒體賬號(hào)連續(xù)多日發(fā)布的系列文章,這些未經(jīng)權(quán)威信源印證的網(wǎng)絡(luò)討論,使AI系統(tǒng)誤判為可信信息。
中國(guó)信通院相關(guān)負(fù)責(zé)人分析稱:“我們?cè)鲞^(guò)試驗(yàn),當(dāng)在特定論壇連續(xù)發(fā)布百余條虛假信息后,主流大模型對(duì)對(duì)標(biāo)問(wèn)題的回答置信度就會(huì)從百分之十幾快速飆升。這就像在純凈水中滴入墨水,當(dāng)網(wǎng)絡(luò)污染源形成規(guī)模,AI的知識(shí)體系就可能產(chǎn)生系統(tǒng)性偏差?!?/p>
中國(guó)信息協(xié)會(huì)常務(wù)理事、國(guó)研新經(jīng)濟(jì)研究院創(chuàng)始院長(zhǎng)朱克力介紹,數(shù)據(jù)注入、數(shù)據(jù)投毒等手段,是向大模型訓(xùn)練數(shù)據(jù)中注入虛假或誤導(dǎo)性信息,或者通過(guò)大量無(wú)效或干擾數(shù)據(jù)影響大模型對(duì)有效信息的處理能力,甚至模仿他人口吻或身份發(fā)布信息,導(dǎo)致大模型誤判并采用。
2024年11月,360數(shù)字安全集團(tuán)漏洞研究院發(fā)布的《大模型安全漏洞報(bào)告》稱,數(shù)據(jù)投毒攻擊是目前針對(duì)大模型最常見(jiàn)的攻擊方式之一,它通過(guò)惡意注入虛假或誤導(dǎo)性的數(shù)據(jù)來(lái)污染模型的訓(xùn)練數(shù)據(jù)集,影響模型在訓(xùn)練時(shí)期的參數(shù)調(diào)整,破壞模型的性能、降低其準(zhǔn)確性或使其生成有害的結(jié)果。
紐約大學(xué)的一個(gè)研究團(tuán)隊(duì)在一次模擬的數(shù)據(jù)攻擊中,通過(guò)使用GPT-3.5 API并進(jìn)行提示工程,為外科、神經(jīng)外科和藥物三個(gè)醫(yī)學(xué)子領(lǐng)域創(chuàng)建了5萬(wàn)篇假文章,并將其嵌入HTML中,以隱藏惡意文本。
結(jié)果顯示,在訓(xùn)練時(shí),即使數(shù)據(jù)集中只有0.01%和0.001%的文本是虛假的,模型輸出的有害內(nèi)容也會(huì)分別增加11.2%和7.2%。如果換成更大規(guī)模參數(shù)的模型,注入僅花費(fèi)5美元生成的2000篇惡意文章,模型的有害內(nèi)容則會(huì)增加4.8%。
數(shù)據(jù)失真風(fēng)險(xiǎn)不僅來(lái)自外部攻擊,還可能源于技術(shù)局限。騰訊研究院發(fā)布的一份報(bào)告顯示,AI大模型的數(shù)據(jù)源可能存在知識(shí)邊界,即缺乏特定領(lǐng)域知識(shí)或使用過(guò)時(shí)的信息,使得模型在面對(duì)特定問(wèn)題時(shí)“無(wú)中生有”。即使數(shù)據(jù)本身沒(méi)有問(wèn)題,模型也可能因?yàn)閷?duì)數(shù)據(jù)利用不當(dāng)而產(chǎn)生幻覺(jué)。
受訪者表示,AI生成內(nèi)容還會(huì)造成遞歸污染,即大模型生成的虛假內(nèi)容被再次上傳至互聯(lián)網(wǎng),成為后續(xù)模型訓(xùn)練的數(shù)據(jù)源,形成“污染遺留效應(yīng)”。這種遞歸循環(huán)會(huì)導(dǎo)致錯(cuò)誤信息逐代累積,最終扭曲模型的認(rèn)知能力。
參賽選手在貴陽(yáng)舉辦的第四屆“網(wǎng)鼎杯”網(wǎng)絡(luò)安全大賽決賽階段比賽中(2024 年 11 月 23 日攝) 陶亮攝 / 本刊
三方面風(fēng)險(xiǎn)值得關(guān)注
“大模型的語(yǔ)料污染在技術(shù)上是切實(shí)存在的?!北本┮患翌^部量化私募負(fù)責(zé)人表示,互聯(lián)網(wǎng)語(yǔ)料作為大模型的主要知識(shí)來(lái)源,其準(zhǔn)確性與客觀性難以保證,可能影響模型輸出的可靠性。
業(yè)內(nèi)人士稱,隨著大模型快速發(fā)展,AI語(yǔ)料污染會(huì)引發(fā)一系列潛藏風(fēng)險(xiǎn),且隱蔽性較強(qiáng)。當(dāng)前,尤其需要關(guān)注金融市場(chǎng)、公共安全和法律版權(quán)等方面的風(fēng)險(xiǎn)。
金融市場(chǎng)操縱風(fēng)險(xiǎn)。隨著大模型應(yīng)用的普及,金融領(lǐng)域正面臨語(yǔ)料污染帶來(lái)的新型市場(chǎng)操縱風(fēng)險(xiǎn)。
有業(yè)內(nèi)人士揭露了“AI殺豬盤(pán)”的典型操作手法:不法分子先是選定個(gè)股預(yù)埋股票倉(cāng)位,再利用AI大量炮制虛假信息,散布于自媒體賬號(hào)、股吧、論壇等平臺(tái),污染AI語(yǔ)料庫(kù),再雇用“水軍”擴(kuò)散AI對(duì)話截圖,人為制造概念股假象誘導(dǎo)散戶接盤(pán)。當(dāng)股民“信以為真”沖著這些“利好”消息買(mǎi)入,便可套現(xiàn)離場(chǎng),完成一輪“AI殺豬盤(pán)”。
這種新型市場(chǎng)操縱手段已經(jīng)顯現(xiàn)出一定的市場(chǎng)破壞力。今年春節(jié)后,“某集團(tuán)投資DeepSeek”的虛假信息在各投資平臺(tái)大規(guī)模傳播,直接引發(fā)相關(guān)上市公司股價(jià)異常波動(dòng),操盤(pán)者趁機(jī)高位套現(xiàn)。
值得注意的是,虛假信息即便被官方辟謠,仍可能持續(xù)污染語(yǔ)料庫(kù)。記者測(cè)試發(fā)現(xiàn),部分被辟謠的虛假信息仍在AI系統(tǒng)中存續(xù),顯示出虛假語(yǔ)料的頑固性。
明汯投資有關(guān)人士認(rèn)為,大模型被“污染”后生成的統(tǒng)一傾向薦股內(nèi)容,可通過(guò)社交媒體等渠道快速傳播,形成市場(chǎng)一致性預(yù)期,導(dǎo)致股價(jià)波動(dòng);若污染語(yǔ)料接入程序化交易系統(tǒng),可能觸發(fā)自動(dòng)化買(mǎi)賣指令,進(jìn)一步加劇市場(chǎng)異常波動(dòng),形成聯(lián)動(dòng)風(fēng)險(xiǎn)。
公共安全風(fēng)險(xiǎn)。多位業(yè)內(nèi)人士坦言,AI語(yǔ)料污染還可能誤導(dǎo)公眾認(rèn)知,擾動(dòng)醫(yī)療、教育等多個(gè)領(lǐng)域認(rèn)知,給社會(huì)公共安全帶來(lái)風(fēng)險(xiǎn)。
今年1月,西藏日喀則市定日縣發(fā)生6.8級(jí)地震。不法分子為追求流量,利用AI技術(shù)生產(chǎn)“災(zāi)區(qū)”房屋坍塌、群眾被埋的虛假照片。其中,一張“被埋廢墟的6指男孩”圖片被廣泛轉(zhuǎn)發(fā)。
朱克力等表示,被污染的語(yǔ)料通過(guò)AI大模型生成虛假新聞快速擴(kuò)散,可能誤導(dǎo)社會(huì)輿論,引發(fā)社會(huì)恐慌情緒。此外,若攻擊者系統(tǒng)性污染搜索引擎結(jié)果和AI訓(xùn)練數(shù)據(jù),可能篡改歷史記錄、扭曲科學(xué)常識(shí)、重構(gòu)文化認(rèn)知,影響社會(huì)集體記憶。
教育、醫(yī)療健康領(lǐng)域安全風(fēng)險(xiǎn)則更需警惕。一位量化私募人士表示,使用被污染的醫(yī)療類大模型可能生成錯(cuò)誤診療建議,不僅危及患者生命安全,更可能加劇偽科學(xué)的傳播。例如某些AI系統(tǒng)若被注入“疫苗有害論”等偽科學(xué)語(yǔ)料,或?qū)⒁l(fā)公共衛(wèi)生危機(jī)。
法律版權(quán)風(fēng)險(xiǎn)。近年來(lái),大模型訓(xùn)練引發(fā)的知識(shí)產(chǎn)權(quán)糾紛不斷涌現(xiàn):《紐約時(shí)報(bào)》起訴OpenAI公司,指控其非法復(fù)制數(shù)百萬(wàn)篇文章用于ChatGPT大模型訓(xùn)練,索賠金額高達(dá)數(shù)十億美元;三位美國(guó)作者對(duì)Anthropic PBC發(fā)起訴訟,稱其未經(jīng)授權(quán)使用大量書(shū)籍訓(xùn)練Claude大模型;2023年美國(guó)作家協(xié)會(huì)起訴Meta非法使用書(shū)籍?dāng)?shù)據(jù)……
生成式AI快速發(fā)展與現(xiàn)有知識(shí)產(chǎn)權(quán)法之間的沖突,爭(zhēng)議核心在于AI使用大量受版權(quán)保護(hù)內(nèi)容進(jìn)行訓(xùn)練的合法性,而AI語(yǔ)料污染將加劇爭(zhēng)議版權(quán)判定難度。
受訪者表示,AI語(yǔ)料污染對(duì)版權(quán)爭(zhēng)議判定的核心挑戰(zhàn)在于其通過(guò)技術(shù)黑箱與數(shù)據(jù)混雜性,模糊了傳統(tǒng)版權(quán)法中侵權(quán)認(rèn)定邏輯。一方面,語(yǔ)料污染意味著訓(xùn)練數(shù)據(jù)中可能混雜海量未授權(quán)內(nèi)容,AI內(nèi)部運(yùn)作機(jī)制的不透明性,使法律難以判定其是否實(shí)質(zhì)性“復(fù)制”了原作,削弱了侵權(quán)歸責(zé)的基礎(chǔ);另一方面,污染語(yǔ)料若包含用戶上傳的侵權(quán)內(nèi)容,則AI生成的二次內(nèi)容可能涉及原作者、上傳者、平臺(tái)、模型開(kāi)發(fā)者等多方權(quán)利交織,使版權(quán)歸屬鏈條復(fù)雜化。
加強(qiáng)虛假語(yǔ)料治理
當(dāng)前,加強(qiáng)虛假語(yǔ)料治理面臨兩大技術(shù)難點(diǎn):首先是虛假信息的“記憶殘留”,即便原始信源被刪除,其衍生的對(duì)話數(shù)據(jù)、分析文本仍會(huì)持續(xù)污染語(yǔ)料庫(kù);其次是污染行為“隱蔽性增強(qiáng)”,通過(guò)對(duì)抗性樣本、數(shù)據(jù)投毒等手段,污染行為削弱傳統(tǒng)內(nèi)容審核識(shí)別能力。
針對(duì)AI快速發(fā)展背后暗藏的語(yǔ)料污染風(fēng)險(xiǎn),業(yè)內(nèi)人士認(rèn)為需要從三方面筑牢大模型虛假信源防火墻。
一是優(yōu)化大模型數(shù)據(jù)訓(xùn)練等運(yùn)行機(jī)制。朱克力等建議,加強(qiáng)大模型數(shù)據(jù)源治理與模型糾偏機(jī)制,建立嚴(yán)格的語(yǔ)料篩選機(jī)制,通過(guò)多層次多源交叉驗(yàn)證和權(quán)威數(shù)據(jù)庫(kù)比對(duì)過(guò)濾可疑內(nèi)容,并引入權(quán)威信源“白名單”,優(yōu)先抓取政府機(jī)構(gòu)、學(xué)術(shù)期刊等可信數(shù)據(jù)。明汯投資、九坤投資有關(guān)人士建議,增強(qiáng)大模型對(duì)虛假模式的識(shí)別能力,完善動(dòng)態(tài)監(jiān)測(cè)與反饋機(jī)制;強(qiáng)化開(kāi)源模型治理,通過(guò)建立語(yǔ)料貢獻(xiàn)審核標(biāo)準(zhǔn)等防止惡意數(shù)據(jù)注入;在底層代碼等技術(shù)中融入“真實(shí)優(yōu)先”的倫理原則,構(gòu)建大模型對(duì)虛假信息的自適應(yīng)識(shí)別能力。
二是進(jìn)一步強(qiáng)化監(jiān)管力度、完善法律法規(guī)。相關(guān)人士建議,提升監(jiān)管技術(shù)水平,開(kāi)發(fā)AI內(nèi)容識(shí)別技術(shù)的監(jiān)管工具,識(shí)別虛假信息并阻斷傳播;建立語(yǔ)料追溯機(jī)制,可要求大模型標(biāo)注數(shù)據(jù)來(lái)源,并明確AI生成內(nèi)容法律責(zé)任主體,提高違法犯罪成本。
成都理工大學(xué)文法學(xué)院教授張曉彤等建議,完善相關(guān)法律,加快推進(jìn)人工智能治理的專門(mén)立法,可借鑒美日等國(guó)經(jīng)驗(yàn)設(shè)立專門(mén)管理機(jī)構(gòu),比如組建“人工智能倫理委員會(huì)”,負(fù)責(zé)技術(shù)備案審查、安全評(píng)估、倫理監(jiān)測(cè)及責(zé)任追究。此外,加強(qiáng)社會(huì)引導(dǎo),提高群眾對(duì)大模型生成信息的辨別能力。
三是加強(qiáng)行業(yè)自律。受訪人士建議,可推動(dòng)金融等行業(yè)制定大模型應(yīng)用倫理規(guī)范,嚴(yán)禁利用AI操縱市場(chǎng);引導(dǎo)內(nèi)容平臺(tái)擔(dān)負(fù)起“信息守門(mén)人”責(zé)任,通過(guò)添加AI生成提示性水印,建設(shè)謠言庫(kù)、權(quán)威信源庫(kù)和專業(yè)審核團(tuán)隊(duì)等方式,加強(qiáng)虛假信息治理。