辰东,有声,重生之毒妃梅果小说

大模型的安全風(fēng)險及應(yīng)對建議

【時間】2024-08-22

【編輯】Admin001

【瀏覽量】

【等級保護QQ交流群】881590869

文 | 中國科學(xué)院信息工程研究所虎嵩林

習(xí)近平總書記指出：“要重視通用人工智能發(fā)展，營造創(chuàng)新生態(tài)，重視防范風(fēng)險”。近年來，以生成式預(yù)訓(xùn)練大模型（GPT）為代表的生成式人工智能大模型（簡稱“大模型”）迅猛發(fā)展，顯著提升了通用理解和生成能力，但也帶來了前所未有的安全風(fēng)險。本文在梳理當(dāng)前大模型的認(rèn)知應(yīng)用、信息應(yīng)用和物理應(yīng)用三類應(yīng)用模式的基礎(chǔ)上，分析其對國家安全的沖擊。因此，本文建議建立國家級大模型安全科技平臺，搶占人工智能安全科技制高點，突破大模型安全關(guān)鍵技術(shù)，培育人才隊伍，助力人工智能安全產(chǎn)業(yè)集群發(fā)展，為人工智能大模型的可持續(xù)健康發(fā)展保駕護航。

一、大模型應(yīng)用的深度和廣度不斷拓展

隨著大模型及其應(yīng)用的蓬勃發(fā)展，繼 OpenAI推出 ChatGPT 之后，國內(nèi)外科技公司如谷歌、Meta、百度、阿里巴巴、智譜和百川等也迅速跟進，相繼推出了各自的大模型，并積極投入到大模型賦能的新型應(yīng)用中。參照認(rèn)知域、信息域和物理域的劃分方法，當(dāng)前基于大模型的應(yīng)用主要可以分為三類。

一是認(rèn)知應(yīng)用，即基于大模型的信息內(nèi)容生成應(yīng)用，涵蓋文本、圖像、音頻、視頻生成以及跨模態(tài)生成，典型的代表如 ChatGPT、Sora、GPT-4o 等。據(jù)量子位智庫測算，2028 年起，我國人工智能生成內(nèi)容（AIGC）產(chǎn)業(yè)市場規(guī)模將持續(xù)保持高速增長，2030 年市場規(guī)模超萬億。人工智能生成內(nèi)容將成為認(rèn)知域的重要組成部分。同時，大模型認(rèn)知類應(yīng)用也將成為繼社交網(wǎng)絡(luò)和推薦平臺之后，人們獲取信息的新形態(tài)，這將深刻影響人類的思想和意識形態(tài)。

二是信息應(yīng)用，即基于大模型的信息系統(tǒng)指令控制應(yīng)用，以智能體為典型代表。大模型賦能的智能體能夠訪問網(wǎng)絡(luò)、調(diào)用應(yīng)用程序編程接口（API），使用各類信息系統(tǒng)工具，例如電力系統(tǒng)智能體能夠自主理解歷史數(shù)據(jù)、感知實時信息，從而實現(xiàn)電力調(diào)度策略的優(yōu)化等。大模型與信息系統(tǒng)的深度融合將對信息域的應(yīng)用形態(tài)演變產(chǎn)生深遠(yuǎn)影響。據(jù)國外調(diào)研機構(gòu) Markets and Markets預(yù)計，2023 年全球自主人工智能和自主智能體（Autonomous Agent）市場的收入規(guī)模超過 48 億美元，到 2028 年有望達到 285 億美元左右（約合2000 億元人民幣）。

三是物理應(yīng)用，即基于大模型的物理世界行為控制，包括對工業(yè)設(shè)備、無人機、機器人等的控制，典型代表如具身智能。人形機器人作為具身智能的一種形態(tài)，有望成為人工智能下一個重要落地應(yīng)用場景。根據(jù)IFR和中國電子學(xué)會數(shù)據(jù)，盡管人形機器人處于起步階段，但參照其他電子產(chǎn)品滲透率超過 20% 后將爆發(fā)式增長，預(yù)計到 2030 年，我國人形機器人市場規(guī)模有望達到約 8700 億元。此外，由人工智能賦能的各類自主武器系統(tǒng)也已經(jīng)投入實戰(zhàn)，有望引發(fā)繼火藥和核武器之后的“第三次軍事革命”。從認(rèn)知應(yīng)用到信息應(yīng)用、物理應(yīng)用，大模型應(yīng)用的深度和廣度不斷擴展，正在發(fā)展成為人類價值觀和知識的重要載體，以及認(rèn)知和決策的重要基礎(chǔ)設(shè)施。

二、大模型安全風(fēng)險引發(fā)全球關(guān)切

在賦能新質(zhì)生產(chǎn)力發(fā)展的同時，大模型的安全風(fēng)險也在全球范圍內(nèi)引發(fā)了高度關(guān)注。計算機領(lǐng)域的國際最高獎項——圖靈獎得主杰弗里·辛頓以及 OpenAI 公司 CEO 薩姆·奧爾特曼等領(lǐng)軍人物，都曾通過聲明或文章聯(lián)名發(fā)出警告，指出這些模型可能帶來的“毀滅性”風(fēng)險，并將其與流行病以及核戰(zhàn)爭相提并論。此外，《自然》（Nature）雜志預(yù)測 2024 年值得期待的重大科學(xué)事件：GPT5的發(fā)布和聯(lián)合國人工智能高級別咨詢機構(gòu)將于 2024 年年中發(fā)布人工智能治理報告，這也反映出全球?qū)y(tǒng)籌發(fā)展和安全的重大關(guān)切。我們認(rèn)為，大模型將在認(rèn)知、信息和物理三個領(lǐng)域?qū)φ?、?jīng)濟、軍事、文化等總體國家安全觀涉及的各個方面產(chǎn)生沖擊。

一是認(rèn)知域安全。數(shù)據(jù)污染、模型算法的局限性或者惡意攻擊等因素，都可能導(dǎo)致大模型歪曲正確的價值觀，生成和散播虛假有害信息，誤導(dǎo)人類決策，從而破壞政治、文化等領(lǐng)域的認(rèn)知安全根基，甚至成為破壞穩(wěn)定的社會操縱工具。

二是信息域安全。大模型正迅速成為智能化時代的基礎(chǔ)底座，其地位類似于數(shù)字化時代“數(shù)據(jù)庫”。如果安全漏洞被惡意利用，可能產(chǎn)生各類非法工具調(diào)用和操作，將嚴(yán)重威脅信息系統(tǒng)的安全與穩(wěn)定運行。此外，基于大模型的網(wǎng)絡(luò)攻防技術(shù)的發(fā)展也將加速大模型武器化的趨勢，顛覆現(xiàn)有的網(wǎng)絡(luò)和系統(tǒng)安全格局，對信息系統(tǒng)產(chǎn)生破壞性影響。

三是物理域安全。大模型已經(jīng)被廣泛應(yīng)用于無人機等領(lǐng)域的自動控制以及 FigureAI（與 OpenAI 合作開發(fā)自主通用人形機器人的公司）為代表的具身智能中，成為包括工控設(shè)備、武器裝備在內(nèi)的各類物理系統(tǒng)的“神經(jīng)中樞”。對大模型的惡意利用或安全攻擊，可能引發(fā)設(shè)備失控、物理系統(tǒng)損毀，甚至導(dǎo)致嚴(yán)重的戰(zhàn)爭災(zāi)難。

需要強調(diào)的是，大模型本身正在從人類可利用的工具客體向認(rèn)識和改造自然社會的主體轉(zhuǎn)變。由于其豐富的創(chuàng)造潛力，大模型已被廣泛應(yīng)用于數(shù)學(xué)定理證明、化學(xué)研究等科學(xué)探索中。在社會層面，《科學(xué)》（Science）雜志的政策論壇（Policy Forum）欄目中的一篇文章中提出，人工智能可以在無需人類指導(dǎo)的情況下獨立運營公司，成為具有權(quán)利和義務(wù)的法律主體，并呼吁為這一新的“物種”制定相應(yīng)的法律框架。隨著大模型在社會生產(chǎn)和生活各個領(lǐng)域的“主體化”，技術(shù)革新將不斷引發(fā)倫理和法律層面的深刻變革。更嚴(yán)重的是，一旦機器實現(xiàn)了通用人工智能，擺脫了人類的控制，在認(rèn)知域、信息域、物理域上自主部署，與各類武器系統(tǒng)連接，并“毫無人性”地指揮殺戮和破壞，這將給人類和地球帶來滅絕式的風(fēng)險。“站在十字路口的人類”將迎來人工智能的“奧本海默時刻”。

在大模型基礎(chǔ)設(shè)施屬性日益凸顯的智能時代，沒有大模型的安全，就無法保障大模型技術(shù)和產(chǎn)業(yè)的健康快速發(fā)展。確保基于大模型的數(shù)字和物理空間應(yīng)用安全，促使大模型遵循人類價值觀、服從人類意圖，并實現(xiàn)有用性（Helpful）、無害性（Harmless）和誠實性（Honest）3H 多目標(biāo)的平衡，已經(jīng)成為亟待解決的重大難題。

三、大模型安全科技發(fā)展仍處在起步階段

當(dāng)前，大模型安全已成為全球共識，并成為大國科技競爭的重要制高點。歐盟發(fā)布《人工智能法案》，提出全面的人工智能分級監(jiān)管機制，開啟了人工智能全球監(jiān)管時代。美國于 2023 年通過行政命令，要求評估人工智能的安全風(fēng)險。拜登政府已多次與人工智能領(lǐng)域的企業(yè)家和學(xué)者會面，并提出了《人工智能權(quán)利法案藍(lán)圖》。在英國召開的首屆人工智能安全全球峰會上，中國、美國、英國、德國等 28 國及歐盟共同簽署了《布萊切利宣言》，強調(diào)了理解和解決人工智能安全問題的緊迫性。我國于 2023 年 7 月發(fā)布《生成式人工智能服務(wù)管理暫行辦法》，提出促進創(chuàng)新和依法治理相結(jié)合的監(jiān)管原則，以支持生成式人工智能大模型的安全發(fā)展。同時，我國也積極在國際上發(fā)出人工智能治理的中國倡議，提出堅持“智能向善（AI for good）”的宗旨，以不斷提升人工智能技術(shù)的安全性、可靠性、可控性和公平性。

（一）大模型安全技術(shù)研究尚處于早期發(fā)展階段當(dāng)前，大模型安全研究尚處于早期發(fā)展階段，涵蓋了眾多的研究方向。這些研究領(lǐng)域包括但不限于生成內(nèi)容檢測、模型水印、紅隊測試、對齊、越獄攻擊、有害內(nèi)容識別、隱私保護以及安全理論探析等，且目前尚未形成一個得到廣泛認(rèn)可的分類體系。從網(wǎng)絡(luò)安全角度出發(fā)，我們可以將其簡單劃分為安全測評、安全攻擊、風(fēng)險識別和安全防護四個方面。
一是安全測評。主要目標(biāo)是測評大模型在預(yù)防不良輸出、確保數(shù)據(jù)隱私、消除偏見和保障公平性、防范對抗性攻擊等方面的能力。目前，安全測評基準(zhǔn)包括關(guān)注有毒和虛假信息的 HELM，聚焦攻擊冒犯、偏見歧視等七個安全維度的 SafetyBench，以及一些專注于某一特定安全維度的評測工作等。
二是安全攻擊。 主要分為“善意”的紅隊測試和惡意攻擊兩種形態(tài)。紅隊測試通過人工或自動化手段與待測大模型進行對抗性交互，以發(fā)現(xiàn)模型的安全風(fēng)險，主要用于主動測試模型風(fēng)險和發(fā)現(xiàn)潛在漏洞，常被應(yīng)用于風(fēng)險的主動測評和安全對齊。惡意攻擊主要包括越獄攻擊和提示注入攻擊。其中，越獄攻擊利用大模型漏洞，誤導(dǎo)模型輸出有害或不實內(nèi)容；提示注入攻擊則通過操縱模型輸入，劫持或誘導(dǎo)模型接受攻擊者控制的指令，從而產(chǎn)生欺騙性輸出或泄露信息。盡管提示注入也是越獄攻擊的一種手段，但相比而言，越獄攻擊主要是針對模型，而提示注入的攻擊目標(biāo)則主要是針對用戶或系統(tǒng)提示。
三是風(fēng)險識別。當(dāng)前，生成式內(nèi)容安全風(fēng)險識別的常見方法分為判別式和生成式兩種。判別式風(fēng)險識別主要基于預(yù)訓(xùn)練的小模型來識別生成式有害內(nèi)容，以 OpenAI 和 Google 的 Moderation 和 Perspective 為代表，這些工具廣泛用于識別有害內(nèi)容。生成式風(fēng)險識別則利用大模型自身的能力來判斷生成的有害內(nèi)容，以基于 GPT-4 的內(nèi)容審核為代表，旨在提高模型和用戶生成有害內(nèi)容的發(fā)現(xiàn)效率。風(fēng)險識別可以服務(wù)于數(shù)據(jù)準(zhǔn)備階段的有害信息過濾、推理階段的用戶問題和模型生成回復(fù)的有害性判別，并且也是安全測評和紅隊測試中自動化有害判別的主要依據(jù)。
四是安全防護。常見的方法包括關(guān)注模型內(nèi)生的安全對齊方法、關(guān)注特定知識安全的模型編輯方法、關(guān)注外部安全的護欄方法以及關(guān)注模型輸出安全的檢索增強方法等。安全對齊主要利用監(jiān)督微調(diào)和基于人類反饋的強化學(xué)習(xí)等方法引導(dǎo)模型對齊人類偏好，以消除模型本身的有害性和幻覺。典型的對齊方法還包括人工智能憲法、面向過程的細(xì)粒度對齊、直接偏好優(yōu)化、即插即用對齊、超級對齊和社會對齊等。關(guān)注特定知識安全的模型編輯方法旨在不重新訓(xùn)練模型的情況下，對模型的不安全知識進行更新和修正，主要包括神經(jīng)元編輯、模型層編輯和微調(diào)編輯等。關(guān)注外部安全的護欄方法則通過分類判別模型對大模型的輸入（用戶請求）和輸出進行不良和不實內(nèi)容的識別和過濾，以保護模型免受惡意用戶的提示攻擊，并矯正不良或不實內(nèi)容。關(guān)注模型輸出安全的檢索增強方法則通過檢索外部信息來修正大模型生成的內(nèi)容或約束大模型執(zhí)行的行為。
（二）大模型研究理論和方法等多個層面面臨突出挑戰(zhàn)經(jīng)過近兩年的快速發(fā)展，雖然學(xué)術(shù)界和工業(yè)界在大模型安全攻擊、風(fēng)險檢測、安全防護和風(fēng)險測評方向取得了一定成果，但仍面臨以下難題和挑戰(zhàn)。
一是對大模型安全缺陷的機理缺乏認(rèn)知。科學(xué)界目前對大模型“智能涌現(xiàn)”原理尚缺乏深入理解，也不是非常清楚提示學(xué)習(xí)、上下文學(xué)習(xí)、思維鏈等新學(xué)習(xí)范式的內(nèi)在機理，這嚴(yán)重制約了我們從理論上認(rèn)知安全缺陷的機理，并防御利用這些新型學(xué)習(xí)范式進行的各類攻擊。
二是大模型的安全性無理論保障。學(xué)界普遍認(rèn)為無法 100% 保證系統(tǒng)的安全，已有理論證明，對于任意安全對齊的模型，總存在一定長度的攻擊提示可以攻破其安全防護，因此“可安全性”的邊界不明確。
三是大模型當(dāng)前的安全技術(shù)存在局限性。例如，安全對齊的泛化能力遠(yuǎn)小于模型的泛化能力，造成泛化能力的失配；模型的預(yù)訓(xùn)練目標(biāo)與安全對齊目標(biāo)沖突也會帶來潛在安全風(fēng)險。主流的基于人類反饋的強化學(xué)習(xí)也存在錯誤目標(biāo)泛化和錯誤獎勵管理等突出問題?？傮w來看，大模型在內(nèi)在機理、安全理論和技術(shù)方法等方面仍存在諸多局限性。如何解決認(rèn)知域，尤其是信息域和物理域的大模型安全仍面臨重重挑戰(zhàn)。

四、統(tǒng)籌布局建立國家級大模型安全科技平臺

國務(wù)院《新一代人工智能發(fā)展規(guī)劃》明確提出，“在大力發(fā)展人工智能的同時，必須高度重視可能帶來的安全風(fēng)險挑戰(zhàn)，加強前瞻預(yù)防與約束引導(dǎo)，最大限度降低風(fēng)險，確保人工智能的安全、可靠、可控發(fā)展”。加強生成式人工智能安全技術(shù)研究，搶占科技制高點，為我國大模型安全健康發(fā)展保駕護航，是落實《規(guī)劃》精神的必要舉措，也是國家戰(zhàn)略所需和科技發(fā)展所向。

大模型安全不再像傳統(tǒng)安全那樣僅僅是計算機應(yīng)用的伴生物，而是需要優(yōu)先構(gòu)筑的基礎(chǔ)底座。由于大模型能力具有可解釋性差、隨機性強等典型特征，如果沒有這個安全底座，在認(rèn)知域，尤其是信息域和物理域中，將難以預(yù)判和干預(yù)各類風(fēng)險，這將嚴(yán)重制約乃至?xí)髿?yīng)用的推廣，大模型自身也將無法實現(xiàn)可持續(xù)的發(fā)展。

大模型安全研究必然需要大算力、各類用于安全的大數(shù)據(jù)、齊全的主流大模型以及大規(guī)模的認(rèn)知域、信息域和物理域基礎(chǔ)設(shè)施條件。我們將這些需求概括為“四大”：大算力、大數(shù)據(jù)、大模型和大設(shè)施。當(dāng)前，我國大模型企業(yè)面臨國內(nèi)外人工智能技術(shù)的激烈競爭和推廣應(yīng)用的巨大壓力，切近的發(fā)展目標(biāo)與需要大規(guī)模投入的安全目標(biāo)之間難以有效協(xié)調(diào)，企業(yè)間的市場競爭也使得安全能力的共創(chuàng)和共享難以實現(xiàn)。科教單位也無力獨立建設(shè)“四大”條件。因此，亟需國家層面介入，以統(tǒng)籌發(fā)展與安全，落實國務(wù)院發(fā)展規(guī)劃精神，部署前瞻性的第三方國立研究隊伍，匯聚國內(nèi)各方優(yōu)勢力量，測繪“安全風(fēng)險”，推動技術(shù)突破，以支撐“前瞻預(yù)防與約束引導(dǎo)”，并有效助力第三方大模型安全企業(yè)的成長。建議發(fā)揮新型舉國體制優(yōu)勢，統(tǒng)籌布局、加快推動生成式人工智能安全科技發(fā)展，建立國家級生成式人工智能安全平臺，推動形成發(fā)展與安全協(xié)同并進、相互促進的良好循環(huán)態(tài)勢。
一是盡快建設(shè)國家級開放式大模型安全科技平臺。搭建國家級的統(tǒng)一算力支撐平臺，提供統(tǒng)一數(shù)據(jù)服務(wù)，支持國產(chǎn)商用大模型和國內(nèi)外開源大模型的統(tǒng)一部署，建設(shè)統(tǒng)一的認(rèn)知、信息和物理安全所需的基礎(chǔ)設(shè)施。同時，建設(shè)開放的大模型安全“攻檢防”一體化平臺，不斷評測并集成各類先進的“攻檢防”算法、工具和數(shù)據(jù)，為科學(xué)現(xiàn)象觀察、分析研究和實驗提供基礎(chǔ)環(huán)境，為突破生成式人工智能內(nèi)生安全缺陷機理和新型安全理論等科學(xué)難題，取得重要技術(shù)突破和引領(lǐng)性原創(chuàng)發(fā)現(xiàn)創(chuàng)造條件，并為我國大模型安全漏洞挖掘防護、技術(shù)發(fā)展和產(chǎn)業(yè)孵化等提供堅實的平臺環(huán)境支持。
二是匯聚、選拔和培育大模型安全人才隊伍。匯聚優(yōu)質(zhì)產(chǎn)、學(xué)、研、用各界資源，通過舉辦國家級大模型安全大賽等形式，選拔在攻擊、風(fēng)險發(fā)現(xiàn)、安全防護等領(lǐng)域具有優(yōu)勢的隊伍，深度融合產(chǎn)、學(xué)、研、用的大模型安全和發(fā)展需求，培養(yǎng)更多具備前瞻性和實戰(zhàn)能力的生成式人工智能安全專家，為我國生成式人工智能安全領(lǐng)域的發(fā)展提供堅實的人才支撐。
三是助力人工智能安全產(chǎn)業(yè)的企業(yè)集群發(fā)展。基于大模型安全的關(guān)鍵核心技術(shù)突破，打通科技轉(zhuǎn)化價值鏈，助力“專精特新”硬科技企業(yè)的創(chuàng)業(yè)與發(fā)展，打造人工智能安全產(chǎn)業(yè)的企業(yè)集群，加強人工智能技術(shù)和應(yīng)用發(fā)展產(chǎn)業(yè)與安全產(chǎn)業(yè)的協(xié)同，營造安全的人工智能發(fā)展生態(tài)，助力我國人工智能技術(shù)及其賦能的“新質(zhì)生產(chǎn)力”安全、可持續(xù)發(fā)展。建議加快制訂統(tǒng)籌生成式人工智能發(fā)展與安全的具體舉措，采取多措并舉的策略，充分利用我國在人工智能科技發(fā)展的政策優(yōu)勢、當(dāng)前生成式人工智能研究和產(chǎn)業(yè)化基礎(chǔ)，以及巨大的市場空間和規(guī)?；瘧?yīng)用潛力，促進生成式人工智能安全科技與產(chǎn)業(yè)發(fā)展，為解決全球人工智能安全和治理貢獻中國智慧和中國力量。

（本文刊登于《中國信息安全》雜志2024年第6期）

亚洲成人av婷婷_国产农村艳妇AⅤ传媒_欧美性爱午夜福利网站_91黄色片在线观看_干进去了视频在线观看_亚洲成年影片免费_日韩无码av一区二区三区_妺妺窝人体色www在线_亚洲熟女小黄视频_国产美女免费永久视频

安全資訊

大模型的安全風(fēng)險及應(yīng)對建議

關(guān)于我們

解決方案

客戶案例

安全產(chǎn)品

咨詢在線客服