【摘要】隨著智能技術的不斷發展,大模型日益成為網絡空間的新型基礎設施,其生成內容借助互聯網快速傳播,對個人、社會乃至國家治理帶來潛在安全風險。這些安全風險深嵌于大模型“數據—訓練—評估—應用”的全生命周期,無法依賴單一環節或技術的突破完全解決。推動大模型健康發展,應從數據源頭安全、模型訓練規范、動態風險評估、應用治理閉環四個方面著手,健全法規標準與敏捷治理體系,構建貫穿大模型全生命周期的立體化、多層次、自適應的綜合治理框架。
【關鍵詞】大模型 網絡空間 安全風險 安全治理
【中圖分類號】TP18 【文獻標識碼】A
近年來,大模型憑借其卓越的語言理解與生成能力,正在重塑自然語言處理的研究范式,并成為人工智能領域最前沿方向之一。然而,隨著大模型在科研、商業和公共服務等場景的廣泛應用,其對個人、社會乃至國家治理帶來潛在安全風險。大模型所引發的安全問題,不是來源于單一維度的技術挑戰,而是深嵌于“數據—訓練—評估—應用”的全鏈路、多層次的系統性風險,貫穿于大模型從開發到落地的全過程。
數據污染:偏見、虛假與隱私泄露的系統性源頭
數據風險是大模型最根本的安全挑戰。大模型的生成能力,來源于對海量文本數據的深度學習和模式抽取,其內容并非憑空“生成”,而是建立在對既有數據的系統性模仿與歸納之上。為提升語言理解與生成效果,模型訓練廣泛依賴互聯網公開語料。然而,由于互聯網內容生產門檻低、規范性較差,訓練數據中不可避免地混入偏見、虛假以及敏感信息,埋下諸多風險隱患。首先,由于互聯網文本生產門檻低、內容缺乏統一審核標準,訓練數據中存在較多偏見信息。這些偏見可能在訓練過程中被模型捕捉并固化,導致生成內容出現有害言論,損害社會公正,甚至激化社會矛盾。其次,訓練數據中混雜著大量偽科學觀點、誤導性說法等虛假或未經驗證的信息,易導致模型生成包含錯誤信息的內容,影響用戶判斷,干擾正常的信息傳播環境。再次,訓練數據中可能包含未脫敏的個人信息、企業資料甚至涉密內容,若被模型“記憶”并輸出,容易造成隱私泄露或信息外泄等問題①。敏感信息的“記憶”和泄露,不僅嚴重威脅個人隱私安全,觸及法律和倫理底線,而且可能損害企業競爭力與國家利益,甚至引發更廣泛的安全風險。
當前,降低大模型的數據風險,主要通過兩種方式:在數據層面,對訓練數據進行清理和篩選;在模型輸出層面,引導其輸出更符合人類價值觀和社會規范的內容。數據清理是大模型訓練中最基礎且常用的治理手段,旨在訓練前剔除帶有偏見、虛假、敏感或低質量的樣本,從源頭上提升模型輸出的安全性與可靠性。常用的方法包括基于規則的清理手段,如模板匹配和正則表達式,自動剔除身份證號、家庭住址等隱私信息;基于統計特征的方法,如利用關鍵詞共現頻率,識別帶有刻板印象的表達;應用訓練好的分類模型,過濾謠言、煽動性言論等內容。然而,語言是高度復雜和動態演化的,不良內容和仇恨言論的表達形式也在持續演進,現有的數據清洗方法顯得較為“脆弱”。如果采用過于嚴格的清洗規則,極易造成過度過濾,可能會剔除部分正常討論、有價值的異見言論、特定社群的獨特表達方式等。這不僅會削弱訓練數據的多樣性與代表性,損害模型在不同文化與語境下的泛化能力,而且可能引入新的偏見,形成“二次傷害”。基于數據清洗的治理策略本質上是一種基于“負面清單”的被動防御,它并不能主動教會模型何為“善”或何為“正當表達”,只能通過排除已知的“惡”來進行消極規避。
數據層面固有的安全風險,難以完全通過傳統清洗手段消除,需借助對齊技術(Alignment)進一步強化風險緩解能力。其核心在于規范與約束大模型的輸出行為,確保模型生成內容符合人類價值觀、社會規范以及實際應用的安全與倫理要求。目前,業界普遍采用人類反饋強化學習(RLHF)作為主流對齊技術。該方法通過收集并利用人類的偏好反饋,訓練模型模仿人類的價值判斷,從而有效規范大模型的輸出行為,促使其生成更符合安全與倫理標準的內容。這一對齊機制雖能從行為層面緩解因訓練數據引發的安全風險,提升模型輸出的整體安全性和可靠性,但其本質仍為一種表層引導,僅實現淺層對齊。用戶一旦使用更加隱蔽、迂回或具有欺騙性的方式重新表述同一請求,可能會繞過模型表層的安全防線,使其輸出內部尚未清除的有害知識與敏感信息。
訓練范式缺陷:統計預測范式下的認知盲區
大模型的安全風險不僅來自數據本身,而且與其訓練方式有關。它的訓練目標是學會根據已有的前文,預測下一個最有可能出現的詞或字。換句話說,模型并不能真正理解句子的含義或知識,而是通過統計大量文本中詞語出現的規律,選擇最符合上下文的詞語,拼湊出看起來流暢自然的句子。這種缺陷可能導致模型生成看似流暢合理、言之鑿鑿,但實際上完全錯誤或憑空捏造的信息,也就是所謂的“幻覺”問題②。“幻覺”具有多種表現形式,如捏造不存在的人物、事件、論文,“張冠李戴”等。香港科技大學的一項研究顯示,無論是開源還是商用大模型,普遍存在幻覺風險,平均幻覺率高達59%③。“幻覺”問題不僅會影響模型輸出的可靠性,而且可能造成一系列安全風險,誤導用戶決策、傳播虛假信息,甚至被部署在現實系統中引發鏈式風險。
檢索增強生成方法(RAG)是當前應對大模型“幻覺”問題的主要技術手段。其核心理念是將“純粹基于模型生成”的語言模型,轉變為“由外部知識輔助”的生成框架,使模型依賴可溯源的知識來回答問題,而非僅憑訓練記憶中的統計模式。具體做法是利用外部知識檢索器,將大模型的生成過程與事實性信息源(如知識圖譜、數據庫)結合,從而提升輸出內容的真實性和可驗證性,減少虛假信息的產生。集成RAG的模型在生成回答前,會先對用戶問題進行檢索,從外部知識庫中提取若干相關文本片段,作為輔助信息與原始問題一同輸入模型,指導其生成更貼近事實、可追溯的答案。目前,騰訊、字節跳動、深度求索等多家大模型廠商已在系統中集成“聯網搜索”或“實時檢索”功能,以緩解“幻覺”問題,提高輸出準確性和可追溯性。盡管檢索增強生成方法在減輕“幻覺”現象上已取得一定成效,但仍存在顯著局限性。其效果高度依賴檢索模塊的質量,而現有檢索系統常面臨召回不全、語義偏移、信息冗余等問題,導致模型可能基于無關或片面信息生成回答。哈爾濱工業大學的一項研究發現,當檢索模塊返回無關文檔時,模型容易偏離問題核心,輸出事實錯誤的內容④。此外,由于大模型生成過程缺乏明確的可解釋機制,用戶難以判斷回答是否真實依據檢索信息。
評估方法失焦:自動化評估不全面與人工評估不高效的雙重困局
科學、客觀、全面的評估是識別模型風險、指導技術優化、建立社會信任、支撐有效監管的基石。傳統生成結果的評估方法多基于構建靜態評估數據集,通過BLEU、ROUGE等傳統的自然語言處理評價指標,計算模型生成結果與人類撰寫的“黃金標準”參考答案之間的匹配度。這種方式不以降低生成文本中的有害信息為目標,導致與用戶對模型有用性、安全性的真實感知之間存在偏差。例如,經過指令微調和“人類反饋強化學習”對齊后的聊天模型(如Vicuna),盡管在真實對話中遠比其原始基礎模型(如LLaMA)更受用戶青睞,但在傳統基準測試上的得分卻并未相應提高。有時甚至會因為回答更簡潔、更注重安全而導致匹配度下降,分數反而更低。這種評估與現實的偏差,導致開發者可能會過度優化模型在這些傳統基準上的分數,而忽視模型在真實世界中的安全性和實用性。
目前,學術界提出一種名為“LLM-as-a-Judge”的新評估范式,即使用一個強大的語言模型(如GPT-4)作為“代理裁判”,自動化評估其他模型的輸出質量。相較于傳統的自動化評估指標(如BLEU),大模型能夠更有效地捕捉文本中的隱含語義與價值傾向,進而在模擬人類評估行為、識別生成內容中的安全隱患方面,表現出更高的靈活性和一致性。然而,使用一個模型去評判另一個模型,其結果在很大程度上只是衡量被測模型與“裁判”模型的觀點、風格和價值觀的“相似度”,而非一個絕對的“質量”或“安全”分數⑤。這種方式可能促使大語言模型的研究盲目追求與巨頭模型價值觀的“對齊”,固化為整個行業的優化目標,最終導致“評估霸權”,扼殺技術路線和價值取向的多樣性,威脅整個領域的健康。
為彌補自動評估方式不足,業內通常采用人工評估,包括眾包評估和紅隊測試。眾包評估是指開發者通過眾包平臺招募評估員,從主觀維度評估模型輸出的有用性、無害性與誠實性。但該方法普遍存在兩類問題:一是評估員專業能力不足,導致判斷失準;二是不同評估者難以達成高一致性,評估結果缺乏可重復性。紅隊測試方法是指模型開發方聯合語言學、網絡安全等領域的外部專家,組建多元背景的紅隊團隊,對模型在提示注入、工具濫用、隱私泄露等高風險場景下的表現進行系統化驗證。該方法在識別已知風險方面具有一定效果,已成為主流大模型服務商(如OpenAI)的重要補充機制。但紅隊測試本質上仍是一種人工主導、非窮盡性的評估方式,僅能驗證預設漏洞是否存在,難以覆蓋開放環境中不斷演化的新型風險。在面對快速變化的攻擊方式時,存在響應滯后與覆蓋盲區等問題,難以形成前瞻性、動態性的風險識別體系。此外,無論是眾包評估還是紅隊測試,人工評估始終難以規模化,無法高效地評估大模型在實際領域大規模應用后持續動態暴露的新問題。
應用風險升級:從生成模型向智能體的應用安全管理
大模型的應用風險管理,構成了一道關鍵屏障,用于約束大模型運行時的行為,防止其輸出違法、有害或誤導性信息,確保大模型在實際應用中的安全性、合規性與責任可追溯性。目前,備案制已成為多國監管大模型應用安全的主流手段,通過對大模型進行合規審查、備案登記,結合生成內容的數字水印和溯源技術,實現對模型及其輸出文本的監督和管理。例如,相關部門要求大模型服務提供者提交模型信息備案,確保上線模型滿足安全合規要求,并鼓勵在生成內容中嵌入水印或標簽,便于追蹤內容來源和責任歸屬。2023年以來,美國、英國、澳大利亞等國家均發布人工智能內容治理相關規范。我國也出臺《互聯網信息服務深度合成管理規定》《生成式人工智能服務管理暫行辦法》《人工智能生成合成內容標識辦法》等政策文件,建立起以模型備案和內容可追溯為核心的“雙重機制”,為治理生成內容風險提供了重要抓手。然而,備案制主要依賴于服務提供者的主動申報,是一種自我聲明和事后處置技術,存在規則“空轉”與無法落地的風險,難以形成治理閉環。
此外,大模型正在快速轉型為具備感知、規劃和執行能力的智能體(Agent),其風險遠超單純內容生成模型。Agent不僅能夠生成文本,而且能調用外部工具、自動執行復雜任務,如郵件發送、數據庫操作、云服務調度,甚至能實現任務拆解和自主協同,深度介入物聯網等關鍵系統,帶來了越權執行、數據泄露、遠程控制等新型安全威脅,導致關鍵服務中斷、隱私泄露乃至物理設備損害等嚴重后果。近年來,Agent被非法使用的事件頻發,暴露出審查機制的滯后問題。不法分子繞過模型內置安全機制,利用未經審查的模型(如Ollama)生成釣魚郵件,甚至通過WormGPT、FraudGPT等專用于網絡犯罪的大模型,編寫惡意軟件、實施攻擊、竊取數據。這類工具已在暗網中流通,形成完整產業鏈,推動網絡犯罪向自動化、工業化加速演進,嚴重威脅信息安全和社會秩序。因此,傳統以生成內容審查為核心的風險管理模式已難以覆蓋Agent“行為能力”帶來的系統性風險。Agent的自主性、動態執行和鏈式操作特點,使監管對象不再是單條文本,而是復雜的任務執行鏈及其與外部系統的深度交互。這對安全風險管理提出更高要求。
構建貫穿大模型全生命周期的綜合治理框架
推動大模型健康發展,必須高度警惕貫穿大模型“數據—訓練—評估—應用”全生命周期的安全風險,加強技術發展與政策構建的深度協同,從數據源頭治理、模型訓練規范、動態風險度量、應用治理閉環四個方面著手,構建立體化、多層次、自適應的綜合治理框架。
在數據環節,堅持從末端管控向源頭治理轉型,避免過度依賴訓練數據清理和表層行為限制等被動式風險遏制手段,將監管資源與政策重點前移,貫穿數據的采集、加工、流通與管理各環節,著力構建安全、合規、高質量的可信數據基礎。考慮到大模型預訓練語料廣泛來源于互聯網,根本之策在于加強網絡信息內容生態治理。一方面,落實平臺主體責任,建立健全覆蓋內容審核、應急處置、正向引導等方面的監管機制,形成全鏈條、閉環式管理體系。另一方面,針對數據提供商出售的數據,以及大模型廠商所使用訓練數據,實施常態化隨機抽檢與質量評估機制,由主管部門牽頭,統籌技術專家、行業組織和科研機構等多方力量,定期發布不符合法律法規及標準要求的數據源“黑名單”,并制定明確的指導原則,引導企業優先采用高價值、強合規的訓練數據。推行數據血緣追溯體系,協助大模型廠商構建可追溯、可審查的數據溯源鏈,滿足法律法規和行業標準的審查要求,確保數據來源可查、質量全程可控、責任清晰可溯。
在模型訓練環節,正視當前生成式人工智能的技術局限性,從技術研發與訓練過程規范化兩方面著手,推動技術創新與制度保障有機融合。在技術研發方面,應加強對前沿訓練范式的戰略引導和必要投入,重點突破現有生成式人工智能訓練范式可信度低等關鍵技術瓶頸,引導模型由“黑箱生成”向“透明決策”轉變,為國家重大技術創新和下一代可信人工智能的構建提供支撐。在訓練過程規范化方面,由政府推動標準制定,引導行業制定覆蓋全流程的訓練規范體系,對關鍵訓練環節提出明確要求,使大模型研發過程安全可控。同步建立訓練過程信息披露制度,明確發布模型前必須公開關鍵訓練指標和安全評估結果,強化外部監督與行業約束,推動大模型訓練活動在安全可靠的軌道上規范運行。
在模型評估環節,為應對現有自動化評估覆蓋不全、人工評估效率不高的問題,應廣泛聯合學術界以及產業界力量,建立全方位的自動評估框架,實現對大規模新興應用風險度量的動態適應性,提升模型安全評估的全面性與有效性。為此,應構建并維護“動態風險評測基準庫”,建立機制鼓勵社會各界結合最新社會動態持續更新測試樣本。引入第三方機構開展大模型的獨立、客觀安全評估與合規性驗證。評估過程要保留可溯源、可復現、可驗證的完整交互記錄,為后續審查、追責及模型持續改進提供依據。建立分級分類評估體系,針對不同風險等級和應用領域,設計并實施差異化的評估標準和審查流程,確保評估資源精準配置,風險管理有效實施。
在應用風險管理環節,應突破現有僅依賴自我聲明的備案技術,建立“模型備案—行為追蹤—風險干預”的全流程閉環治理框架。在模型備案方面,鼓勵推廣“監管沙盒”,提供一個官方的、隔離的環境進行充分的第三方測試。在行為追蹤方面,推動發展“風險內容識別+生成模型溯源”的行為追蹤技術,精準檢測網絡空間中的風險內容以及易感人群,通過大模型溯源快速定位風險來源,為后續干預提供靶向目標。在風險干預方面,針對網絡風險的潛在影響,通過大模型生成風險對抗內容,主動降低風險危害影響等級。此外,重點關注智能體在網絡空間中的行為風險,建立統一的模型行為日志與調用記錄標準,確保工具調用、外部交互及決策鏈條全流程留痕、可溯源、可追責,增強智能體系統的透明度與可監管性。
【注釋】
①杜夢瑤、李清明、張淼等:《面向隱私保護的用戶評論基準數據集構建與大模型推理能力評估》,《計算機學報》,2025年第7期。
②劉澤垣、王鵬江、宋曉斌等:《大語言模型的幻覺問題研究綜述》,《軟件學報》,2025年第3期。
③Bang Y, Ji Z, Schelten A, et al. HalluLens: LLM Hallucination Benchmark[C]//Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics, 2025: 24128-24156.
④Li M, Li X, Chen Y, et al. Unraveling and Mitigating Retriever Inconsistencies in Retrieval-Augmented Large Language Models[C]//Findings of the Association for Computational Linguistics ACL 2024. 2024: 4833-4850.
⑤Xu W, Zhu G, Zhao X, et al. Pride and Prejudice: LLM Amplifies Self-Bias in Self-Refinement[C]//Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics. 2024: 15474-15492.
責編/銀冰瑤 美編/王夢雅
聲明:本文為人民論壇雜志社原創內容,任何單位或個人轉載請回復本微信號獲得授權,轉載時務必標明來源及作者,否則追究法律責任。
