我國(guó)高質(zhì)量場(chǎng)景數(shù)據(jù)集的供給現(xiàn)狀與發(fā)展策略
文 | 浙江大學(xué)光華法學(xué)院教授、博導(dǎo),浙江大學(xué)國(guó)際戰(zhàn)略與法律研究院常務(wù)副院長(zhǎng),數(shù)字法治研究院首席專(zhuān)家 程樂(lè)
在新一輪數(shù)字化革命的推動(dòng)下,數(shù)據(jù)成為繼土地、勞動(dòng)力、資本、技術(shù)之后的第五大生產(chǎn)要素,并在不同社會(huì)領(lǐng)域配合其可復(fù)制性、可增強(qiáng)性、可訓(xùn)練性、可互操作性等獨(dú)有特征,實(shí)現(xiàn)跨行業(yè)價(jià)值釋放。然而,未經(jīng)篩選整合的海量數(shù)據(jù)依然存在數(shù)據(jù)噪聲、非對(duì)稱(chēng)性、低完整性等內(nèi)生問(wèn)題,難以通過(guò)可信利用轉(zhuǎn)化形成可持續(xù)的數(shù)據(jù)價(jià)值。面對(duì)迥然相異的產(chǎn)業(yè)技術(shù)需求,數(shù)據(jù)可以通過(guò)特定的格式和結(jié)構(gòu)加以集合進(jìn)而發(fā)揮實(shí)質(zhì)價(jià)值,這一概念亦被稱(chēng)作“數(shù)據(jù)集”。在新質(zhì)生產(chǎn)力驅(qū)動(dòng)的全新技術(shù)業(yè)態(tài)下,以人工智能為代表的尖端科技正在對(duì)特定垂直場(chǎng)域中的“場(chǎng)景數(shù)據(jù)集”展現(xiàn)更強(qiáng)的上下文依賴(lài)性,醫(yī)療、交通、教育、金融等場(chǎng)景化的專(zhuān)業(yè)性數(shù)據(jù)集需求高速提升,特定應(yīng)用場(chǎng)景的精細(xì)化對(duì)數(shù)據(jù)價(jià)值體系提出更高要求。此背景下,場(chǎng)景數(shù)據(jù)集的概念激活與高質(zhì)量發(fā)展正密切關(guān)聯(lián)我國(guó)數(shù)字產(chǎn)業(yè)經(jīng)濟(jì)的創(chuàng)新性配置、領(lǐng)域性轉(zhuǎn)型與技術(shù)性突破。為實(shí)現(xiàn)場(chǎng)景數(shù)據(jù)價(jià)值效用的乘數(shù)倍增與充分釋放,亟需打通我國(guó)關(guān)聯(lián)領(lǐng)域目前在數(shù)據(jù)供給、數(shù)據(jù)流通、數(shù)據(jù)評(píng)估、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)開(kāi)放、數(shù)據(jù)共享等層面的堵點(diǎn),以“場(chǎng)景化加工能力”與“多樣化共享體系”兩大要點(diǎn)共同構(gòu)建具有國(guó)際化樣板意義的高質(zhì)量場(chǎng)景數(shù)據(jù)集。
高質(zhì)量場(chǎng)景數(shù)據(jù)集的戰(zhàn)略定位與價(jià)值釋放
現(xiàn)代科技譜系中,數(shù)據(jù)集可能關(guān)聯(lián)區(qū)塊鏈、物聯(lián)網(wǎng)、人工智能、自動(dòng)化工程、高性能計(jì)算、地理信息系統(tǒng)等多端技術(shù),作為中樞性資源要素發(fā)揮復(fù)合效果。而在醫(yī)療、工業(yè)等具體領(lǐng)域的技術(shù)應(yīng)用中,數(shù)據(jù)集的價(jià)值轉(zhuǎn)化則清晰展現(xiàn)“應(yīng)用牽引”下的場(chǎng)景差異化需求。例如,工業(yè)場(chǎng)景需要傳感器數(shù)據(jù)等精度高、實(shí)時(shí)性強(qiáng)的數(shù)據(jù)集合,醫(yī)療場(chǎng)景的數(shù)據(jù)集建構(gòu)則更多關(guān)聯(lián)隱私保護(hù)、數(shù)據(jù)保真度等要求。此背景下,面向具體場(chǎng)景的高質(zhì)量數(shù)據(jù)集供給日趨關(guān)鍵,并對(duì)各國(guó)科技產(chǎn)業(yè)的戰(zhàn)略性部署展現(xiàn)出重要價(jià)值。例如,歐盟委員會(huì)于2022年發(fā)布《高價(jià)值數(shù)據(jù)集實(shí)施法案》,明確環(huán)境數(shù)據(jù)、地理空間數(shù)據(jù)與地球觀(guān)測(cè)數(shù)據(jù)等特定場(chǎng)景高價(jià)值數(shù)據(jù)集的供給標(biāo)準(zhǔn),進(jìn)一步完善面向工業(yè)、國(guó)防等重點(diǎn)場(chǎng)景的高質(zhì)量數(shù)據(jù)集供給。
在多類(lèi)應(yīng)用情境中,人工智能對(duì)于高質(zhì)量場(chǎng)景數(shù)據(jù)集的需求尤為突出。2024年《政府工作報(bào)告》首次將“人工智能+”上升至國(guó)家戰(zhàn)略層面,明確提出深化大數(shù)據(jù)、人工智能等研發(fā)應(yīng)用。近年來(lái),以DeepSeek、ChatGPT、Gemini、通義千問(wèn)、豆包為代表的大語(yǔ)言模型在各社會(huì)領(lǐng)域展現(xiàn)了卓越的應(yīng)用潛力與現(xiàn)實(shí)效果,此類(lèi)生成式人工智能所采用的預(yù)訓(xùn)練方法便是通過(guò)海量數(shù)據(jù)的累積效應(yīng)實(shí)現(xiàn)模型的智能涌現(xiàn)與能力遷移。但一方面,預(yù)訓(xùn)練模式對(duì)于模型專(zhuān)業(yè)領(lǐng)域的性能提升效果欠佳,未經(jīng)篩選的低質(zhì)量數(shù)據(jù)容易導(dǎo)致專(zhuān)業(yè)性問(wèn)題的“模型幻覺(jué)”(模型生成了不符合事實(shí)或毫無(wú)根據(jù)的信息);另一方面,預(yù)訓(xùn)練所需的可用數(shù)據(jù)資源即將被用盡。在雙重挑戰(zhàn)的協(xié)同作用下,針對(duì)特定場(chǎng)景的高質(zhì)量數(shù)據(jù)集成為人工智能模型訓(xùn)練的關(guān)鍵支撐,為現(xiàn)有數(shù)據(jù)局限下智能模型的訓(xùn)練路徑優(yōu)化提供轉(zhuǎn)向可能。
其一,特定領(lǐng)域的高質(zhì)量數(shù)據(jù)注入能夠推動(dòng)人工智能掌握對(duì)應(yīng)領(lǐng)域的關(guān)鍵特征與獨(dú)有規(guī)律,通過(guò)垂直場(chǎng)景的上下文關(guān)系增強(qiáng)模型訓(xùn)練的精準(zhǔn)性與針對(duì)性,實(shí)現(xiàn)高度專(zhuān)業(yè)化與個(gè)性化的人工智能解決方案與創(chuàng)新拓展。其二,高質(zhì)量場(chǎng)景數(shù)據(jù)集在模型微調(diào)與強(qiáng)化學(xué)習(xí)階段的嵌入亦可抑制數(shù)據(jù)偏差與特殊場(chǎng)景下模型的表現(xiàn)失衡,基于目標(biāo)行業(yè)的標(biāo)準(zhǔn)與規(guī)范提升模型的合規(guī)性、可信度與可解釋性。其三,OpenAI推出的一系列推理模型正在數(shù)學(xué)、物理、化學(xué)等強(qiáng)邏輯專(zhuān)業(yè)領(lǐng)域展現(xiàn)專(zhuān)家級(jí)別的優(yōu)異表現(xiàn),此類(lèi)后訓(xùn)練模型的調(diào)試與性能增強(qiáng)對(duì)于專(zhuān)業(yè)領(lǐng)域數(shù)據(jù)與反饋的需求更為迫切。2024年末,OpenAI宣布將開(kāi)展強(qiáng)化微調(diào)(Reinforcement Fine-Tuning)的模型定制計(jì)劃,通過(guò)特定領(lǐng)域小規(guī)模數(shù)據(jù)集的重點(diǎn)訓(xùn)練將通用模型轉(zhuǎn)化為專(zhuān)業(yè)模型,并展示了運(yùn)用此種方法推動(dòng)GPT o1 Mini模型高水平推理罕見(jiàn)疾病成因的實(shí)例。未來(lái),更多專(zhuān)業(yè)維度的高質(zhì)量場(chǎng)景數(shù)據(jù)集將助推人工智能于更寬廣的重點(diǎn)領(lǐng)域展現(xiàn)“專(zhuān)家級(jí)”能力,實(shí)現(xiàn)模型性能與社會(huì)效率的場(chǎng)景化躍升。
我國(guó)高質(zhì)量場(chǎng)景數(shù)據(jù)集的供給現(xiàn)狀與發(fā)展困境
規(guī)范層面,我國(guó)早在2020年已認(rèn)識(shí)到高質(zhì)量數(shù)據(jù)集供給對(duì)于經(jīng)濟(jì)社會(huì)發(fā)展的戰(zhàn)略?xún)r(jià)值,并發(fā)布《關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見(jiàn)》等系列政策。近年來(lái),我國(guó)相繼頒布《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見(jiàn)》(2022年)《網(wǎng)絡(luò)數(shù)據(jù)安全管理?xiàng)l例》(2024年)等政策法規(guī)。然而,相較歐盟在《公共部門(mén)信息復(fù)用指令》等開(kāi)放數(shù)據(jù)法規(guī)基礎(chǔ)上所明確的《關(guān)于開(kāi)放數(shù)據(jù)和公共部門(mén)信息再利用指令》等規(guī)范及其落地效果,我國(guó)數(shù)據(jù)集的場(chǎng)景優(yōu)勢(shì)與場(chǎng)景化激活能力仍顯不成熟,特別是在數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)、公共數(shù)據(jù)開(kāi)放制度、數(shù)據(jù)集共享生態(tài)等層面仍顯不足。
實(shí)踐層面,我國(guó)數(shù)據(jù)資源總量?jī)?yōu)勢(shì)明顯,多樣化數(shù)據(jù)資源豐富,為高質(zhì)量場(chǎng)景數(shù)據(jù)集的高速增長(zhǎng)提供現(xiàn)實(shí)基礎(chǔ)。據(jù)新華社消息,2024年,全國(guó)數(shù)據(jù)市場(chǎng)交易規(guī)模預(yù)計(jì)超1600億元,同比增長(zhǎng)30%以上,其中場(chǎng)內(nèi)市場(chǎng)數(shù)據(jù)交易(含備案交易)規(guī)模預(yù)計(jì)超300億元,同比實(shí)現(xiàn)翻番。根據(jù)全國(guó)數(shù)據(jù)資源調(diào)查工作組發(fā)布的《全國(guó)數(shù)據(jù)資源調(diào)查報(bào)告(2023年)》,2023年,全國(guó)數(shù)據(jù)生產(chǎn)總量達(dá)32.85ZB(澤字節(jié)),同比增長(zhǎng)22.44%。我國(guó)數(shù)據(jù)資源“產(chǎn)—存—算”的規(guī)模優(yōu)勢(shì)已基本形成。根據(jù)國(guó)際數(shù)據(jù)公司(IDC)的預(yù)測(cè),中國(guó)“數(shù)據(jù)圈”(每年被創(chuàng)建、采集或是復(fù)制的數(shù)據(jù)集合)在2025年增至48.6ZB(澤字節(jié)),占全球27.8%,成為最大“數(shù)據(jù)圈”。同時(shí),線(xiàn)上支付、電子商務(wù)、共享經(jīng)濟(jì)、電子政務(wù)、智慧醫(yī)療等多樣化數(shù)字服務(wù)與數(shù)據(jù)應(yīng)用場(chǎng)景在我國(guó)具有良好的社會(huì)接受度與廣闊的應(yīng)用前景。得益于多民族文化的包容特性與社會(huì)秩序的長(zhǎng)期穩(wěn)定,我國(guó)大多數(shù)民眾對(duì)跨場(chǎng)景數(shù)據(jù)應(yīng)用持開(kāi)放態(tài)度,數(shù)字化需求趨于多樣,這為數(shù)據(jù)賦能的技術(shù)突破與多領(lǐng)域數(shù)字創(chuàng)新的涌現(xiàn)提供了社會(huì)土壤。然而,我國(guó)高質(zhì)量數(shù)據(jù)集供給的場(chǎng)景完善度不足,海量數(shù)據(jù)與多樣化場(chǎng)景優(yōu)勢(shì)的潛能仍有待進(jìn)一步釋放。
其一,我國(guó)面向場(chǎng)景的有效數(shù)據(jù)供給有待強(qiáng)化,數(shù)據(jù)資源總量?jī)?yōu)勢(shì)的價(jià)值轉(zhuǎn)化尚待釋放。在“原始數(shù)據(jù)—場(chǎng)景數(shù)據(jù)—可用場(chǎng)景數(shù)據(jù)—高質(zhì)量場(chǎng)景數(shù)據(jù)集”的四階段數(shù)據(jù)轉(zhuǎn)化與價(jià)值遞進(jìn)中,作為中間產(chǎn)品的數(shù)據(jù)要素須經(jīng)清洗、標(biāo)注、分析等加工活動(dòng)以實(shí)現(xiàn)價(jià)值創(chuàng)造。此過(guò)程中,三方面因素使得我國(guó)在基于差異化場(chǎng)景需求實(shí)現(xiàn)數(shù)據(jù)價(jià)值的場(chǎng)景化增長(zhǎng)方面存在一定難度。一是數(shù)據(jù)加工過(guò)程中投入與回報(bào)不成比例所引發(fā)的動(dòng)力匱乏問(wèn)題。專(zhuān)業(yè)化數(shù)據(jù)的高質(zhì)量標(biāo)注需要龐大的資金投入且同時(shí)關(guān)聯(lián)安全責(zé)任風(fēng)險(xiǎn),這與數(shù)據(jù)應(yīng)用的收益回報(bào)比例之間存在錯(cuò)位。二是公共數(shù)據(jù)場(chǎng)景化加工的程度與緊迫性不足,難以發(fā)揮公共數(shù)據(jù)對(duì)于數(shù)據(jù)開(kāi)發(fā)利用的引領(lǐng)作用與催化作用。從現(xiàn)有國(guó)家政策來(lái)看,我國(guó)工業(yè)、醫(yī)療、交通、氣象等具體場(chǎng)景的數(shù)據(jù)供給能力尚未作為專(zhuān)門(mén)對(duì)象加以細(xì)化規(guī)定,領(lǐng)域差異化數(shù)據(jù)統(tǒng)歸于公共數(shù)據(jù)范疇的做法難以匹配垂直領(lǐng)域的細(xì)化要求。三是數(shù)據(jù)加工技術(shù)存在優(yōu)化空間,專(zhuān)業(yè)人才供給難以充分滿(mǎn)足需求,致使場(chǎng)景化加工效果欠佳。在數(shù)據(jù)標(biāo)注自動(dòng)化工程尚未成熟的階段,將雜亂無(wú)序的低價(jià)值數(shù)據(jù)在工業(yè)互聯(lián)網(wǎng)等特定場(chǎng)景加工為標(biāo)準(zhǔn)化、目錄化、高價(jià)值數(shù)據(jù)資源需要高級(jí)別的專(zhuān)業(yè)技術(shù)技能,人工智能訓(xùn)練與推理階段涉及多模態(tài)數(shù)據(jù)、高維度數(shù)據(jù)、跨領(lǐng)域數(shù)據(jù),對(duì)計(jì)算機(jī)科學(xué)專(zhuān)業(yè)技術(shù)需求更加嚴(yán)苛,這為我國(guó)數(shù)據(jù)加工的現(xiàn)代化場(chǎng)景轉(zhuǎn)向帶來(lái)一定挑戰(zhàn)。
其二,受限于較低級(jí)別的數(shù)據(jù)開(kāi)放度與流通度,我國(guó)高質(zhì)量場(chǎng)景數(shù)據(jù)集的源頭供給能力有待提升。首先,我國(guó)公共數(shù)據(jù)開(kāi)放程度有限,關(guān)鍵主題高價(jià)值數(shù)據(jù)集的動(dòng)態(tài)數(shù)據(jù)、應(yīng)用編程接口(API)與數(shù)據(jù)開(kāi)放許可證等標(biāo)準(zhǔn)尚不明晰,難以實(shí)現(xiàn)公共數(shù)據(jù)面向公眾和企業(yè)的有序開(kāi)放或強(qiáng)制開(kāi)放。其次,我國(guó)多領(lǐng)域數(shù)據(jù)源很大程度為大型數(shù)據(jù)平臺(tái)所壟斷,各行業(yè)數(shù)據(jù)普遍向平臺(tái)呈現(xiàn)聚攏態(tài)勢(shì),根據(jù)全國(guó)數(shù)據(jù)資源調(diào)查工作組發(fā)布的《全國(guó)數(shù)據(jù)資源調(diào)查報(bào)告(2023年)》,大型平臺(tái)企業(yè)平均數(shù)據(jù)交互量約為行業(yè)重點(diǎn)企業(yè)的200倍以上。但同時(shí),大型平臺(tái)企業(yè)常以保護(hù)個(gè)人信息、防范安全風(fēng)險(xiǎn)等理由拒絕共享,僅把數(shù)據(jù)用于自身場(chǎng)景構(gòu)建。因此,大量中小型企業(yè)雖有豐富的場(chǎng)景數(shù)據(jù)需求,卻常處于“無(wú)數(shù)據(jù)可用”的困境。最后,在數(shù)據(jù)共享受限的背景下,我國(guó)數(shù)據(jù)交易亦存在供需失衡。《全國(guó)數(shù)據(jù)資源調(diào)查報(bào)告(2023)》顯示,調(diào)研的27家交易所的數(shù)據(jù)產(chǎn)品中僅有17.9%實(shí)現(xiàn)交易。數(shù)據(jù)權(quán)屬界定、數(shù)據(jù)交易定價(jià)等固有難題引發(fā)的數(shù)據(jù)交易制度滯后問(wèn)題致使整體性數(shù)據(jù)產(chǎn)品成交率低迷,供需不匹配的現(xiàn)象廣泛存在,數(shù)據(jù)交易機(jī)構(gòu)供給水平難以滿(mǎn)足場(chǎng)景數(shù)據(jù)需求。
其三,細(xì)分應(yīng)用場(chǎng)景的技術(shù)標(biāo)準(zhǔn)仍有待完善,海量數(shù)據(jù)在垂直場(chǎng)景實(shí)現(xiàn)價(jià)值激活面臨挑戰(zhàn)。不同應(yīng)用場(chǎng)景下,數(shù)據(jù)的格式、版本等特征性技術(shù)需求對(duì)應(yīng)相異的數(shù)據(jù)標(biāo)準(zhǔn)與技術(shù)標(biāo)準(zhǔn)。例如,在柔性制造領(lǐng)域,數(shù)據(jù)需配合高頻采樣、實(shí)時(shí)監(jiān)測(cè)的產(chǎn)業(yè)需求,在生產(chǎn)節(jié)拍精準(zhǔn)同步等方面存在特定數(shù)據(jù)規(guī)范;在智能交通領(lǐng)域,位置、路況信息之外的視覺(jué)、雷達(dá)、激光測(cè)距等多樣化數(shù)據(jù)融合及相應(yīng)技術(shù)標(biāo)準(zhǔn)對(duì)高精度地圖的更新則至關(guān)重要。然而,我國(guó)當(dāng)前主要著眼數(shù)據(jù)供給數(shù)量的增加,尚未針對(duì)場(chǎng)景深入開(kāi)展數(shù)據(jù)集標(biāo)準(zhǔn)化技術(shù)工程。此背景下,數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)與架構(gòu)的不統(tǒng)一增加了場(chǎng)景數(shù)據(jù)集成的復(fù)雜性,不同數(shù)據(jù)間的場(chǎng)景融合與預(yù)期場(chǎng)景的具體需求所關(guān)聯(lián)的轉(zhuǎn)換、加工與適配工作消耗過(guò)量資源,亦可能基于標(biāo)準(zhǔn)引發(fā)的數(shù)據(jù)誤差降低場(chǎng)景數(shù)據(jù)供給的整體質(zhì)量。人工智能模型結(jié)構(gòu)高速迭代的產(chǎn)業(yè)背景下,多模態(tài)模型所需圖像、語(yǔ)音、文本、視頻等數(shù)據(jù)形式的融合需求日趨關(guān)鍵,推理模型對(duì)高邏輯領(lǐng)域復(fù)雜問(wèn)題的反饋數(shù)據(jù)需求也趨于迫切,多模態(tài)數(shù)據(jù)元模型擬定、元數(shù)據(jù)描述語(yǔ)言等新興技術(shù)標(biāo)準(zhǔn)問(wèn)題正快速更新,亟需有效回應(yīng)。未來(lái),細(xì)分場(chǎng)景下數(shù)據(jù)技術(shù)標(biāo)準(zhǔn)與架構(gòu)的滯后效應(yīng)可能進(jìn)一步影響場(chǎng)景數(shù)據(jù)集在現(xiàn)代化技術(shù)需求下的流通與復(fù)用,阻礙數(shù)據(jù)流通、數(shù)據(jù)交易與數(shù)據(jù)價(jià)值增值的充分實(shí)現(xiàn)。
其四,現(xiàn)有規(guī)范體系下數(shù)據(jù)開(kāi)放目錄、數(shù)據(jù)開(kāi)放主體、數(shù)據(jù)開(kāi)放責(zé)任等配套制度在落地實(shí)施時(shí)面臨一定阻礙,存在供給不積極、供需不匹配、共享不充分等問(wèn)題。在實(shí)踐中,真正實(shí)現(xiàn)開(kāi)放的公共數(shù)據(jù)主要是各部門(mén)的政務(wù)數(shù)據(jù),而此類(lèi)數(shù)據(jù)難以直接轉(zhuǎn)化為產(chǎn)業(yè)價(jià)值。而水電、通信、交通、醫(yī)療等重點(diǎn)場(chǎng)景數(shù)據(jù)則往往被拒絕開(kāi)放,或限縮開(kāi)放范圍。同時(shí),在《中華人民共和國(guó)網(wǎng)絡(luò)安全法》《中華人民共和國(guó)數(shù)據(jù)安全法》與《中華人民共和國(guó)個(gè)人信息保護(hù)法》這三大立法的實(shí)施進(jìn)程中,數(shù)據(jù)控制合法性判斷與數(shù)據(jù)流通利用的責(zé)任規(guī)則仍不明確,個(gè)人隱私與商業(yè)秘密難以在真正實(shí)現(xiàn)場(chǎng)景化數(shù)據(jù)開(kāi)放的情境中得到充分保護(hù)。此外,數(shù)據(jù)產(chǎn)權(quán)定義尚未統(tǒng)一,信息脫敏與數(shù)據(jù)加密等配套安全措施仍不完善,場(chǎng)景數(shù)據(jù)開(kāi)放時(shí)法律責(zé)任與權(quán)益保護(hù)也因而趨向復(fù)雜化和模糊化。綜合作用之下,即便我國(guó)近年已在相關(guān)法規(guī)中展現(xiàn)“推動(dòng)按用途加大供給使用范圍”等政策轉(zhuǎn)向,但重點(diǎn)場(chǎng)景的數(shù)據(jù)確權(quán)與開(kāi)放亦存在一定障礙,數(shù)據(jù)開(kāi)放與數(shù)據(jù)安全的平衡性問(wèn)題依然較難明確。
我國(guó)高質(zhì)量場(chǎng)景數(shù)據(jù)集的多方共享與突破路徑
其一,培育多方技術(shù),強(qiáng)化高價(jià)值數(shù)據(jù)的現(xiàn)代化場(chǎng)景加工能力。現(xiàn)代化技術(shù)驅(qū)動(dòng)的數(shù)字產(chǎn)業(yè)變革中,前沿科技對(duì)我國(guó)數(shù)據(jù)市場(chǎng)與場(chǎng)景化數(shù)據(jù)供給能力的重塑具有核心意義。首先,提升捕捉場(chǎng)景化需求的技術(shù)能力,積極運(yùn)用機(jī)器學(xué)習(xí)中的自然語(yǔ)言處理與物聯(lián)網(wǎng)技術(shù)中的邊緣計(jì)算等方法提升對(duì)場(chǎng)景需求的精準(zhǔn)分析與細(xì)化把控。同時(shí),對(duì)海量數(shù)據(jù)實(shí)現(xiàn)價(jià)值分層,結(jié)合深度學(xué)習(xí)構(gòu)建數(shù)據(jù)價(jià)值分層管理體系,完成從低質(zhì)量數(shù)據(jù)到高價(jià)值數(shù)據(jù)的高效篩選與價(jià)值萃取。其次,繼續(xù)完善數(shù)據(jù)基礎(chǔ)設(shè)施與自研工程,從底層基礎(chǔ)層面提升數(shù)據(jù)存儲(chǔ)與計(jì)算能力??衫眉舛舜竽P屯怀龅奈谋緮?shù)據(jù)集標(biāo)注能力與經(jīng)濟(jì)化效益,持續(xù)打造契合國(guó)產(chǎn)人工智能發(fā)展脈絡(luò)的中文場(chǎng)景訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)。同時(shí),配合數(shù)據(jù)質(zhì)量評(píng)估體系,對(duì)專(zhuān)業(yè)數(shù)據(jù)、平臺(tái)數(shù)據(jù)等內(nèi)容以特征導(dǎo)向展開(kāi)質(zhì)量評(píng)測(cè),避免數(shù)據(jù)偏差與“虛假多樣性”等數(shù)據(jù)風(fēng)險(xiǎn)。最后,人工智能等現(xiàn)代技術(shù)的積極運(yùn)用是提升數(shù)據(jù)場(chǎng)景化加工能力的核心關(guān)鍵。例如,在醫(yī)療、金融等不適合進(jìn)行數(shù)據(jù)自由流動(dòng)的敏感場(chǎng)景,可利用人工智能轉(zhuǎn)化為“偽數(shù)據(jù)”或匿名數(shù)據(jù)的形式,結(jié)合大模型生成合成數(shù)據(jù)或進(jìn)行數(shù)據(jù)增強(qiáng)。同時(shí),運(yùn)用隱私計(jì)算、聯(lián)邦學(xué)習(xí)與分布式訓(xùn)練等技術(shù)方法,在保障數(shù)據(jù)安全的基礎(chǔ)上提升數(shù)據(jù)的場(chǎng)景化加工與供給能力,在回應(yīng)場(chǎng)景化數(shù)據(jù)需求的同時(shí)平衡數(shù)據(jù)“可用與可控”之間的矛盾。此過(guò)程中,須將人工智能人才培育作為重點(diǎn)政策并細(xì)化培養(yǎng)方案,積極運(yùn)用專(zhuān)項(xiàng)基金等激勵(lì)措施,帶動(dòng)專(zhuān)業(yè)化人才發(fā)展以實(shí)現(xiàn)場(chǎng)景需求下數(shù)據(jù)集建設(shè)與供給能力的躍升。
其二,在場(chǎng)景面向下推進(jìn)公共數(shù)據(jù)、平臺(tái)數(shù)據(jù)的可信開(kāi)放與充分共享。一方面,我國(guó)阿里、騰訊、百度、字節(jié)跳動(dòng)等超大型平臺(tái)企業(yè)對(duì)海量互聯(lián)網(wǎng)數(shù)據(jù)形成支配,但受到個(gè)人信息保護(hù)與平臺(tái)成本的限制,簡(jiǎn)單要求共享數(shù)據(jù)的思路亦不可行。為實(shí)現(xiàn)少數(shù)平臺(tái)數(shù)據(jù)壟斷向全行業(yè)數(shù)據(jù)良性共享的過(guò)渡,首先,可借鑒歐盟與美國(guó)等西方數(shù)據(jù)治理相關(guān)立法中的“守門(mén)人”制度,將滿(mǎn)足特定條件的大型平臺(tái)企業(yè)規(guī)定為“守門(mén)人”并要求其承擔(dān)特定的法律義務(wù)。進(jìn)一步細(xì)化“守門(mén)人”制度的限制,明確“守門(mén)人”將非個(gè)人數(shù)據(jù)共享給第三方的要求及其具體規(guī)定。其次,亦可借鑒知識(shí)產(chǎn)權(quán)制度中的保護(hù)時(shí)間設(shè)計(jì),根據(jù)不同場(chǎng)景下的數(shù)據(jù)價(jià)值變化曲線(xiàn)要求,引導(dǎo)或鼓勵(lì)平臺(tái)在一段時(shí)間后共享具有公共屬性的數(shù)據(jù)以便其他主體進(jìn)行利用。最后,進(jìn)一步完善數(shù)據(jù)交易制度、數(shù)據(jù)產(chǎn)權(quán)制度與數(shù)據(jù)收益分配制度。協(xié)調(diào)場(chǎng)內(nèi)交易與場(chǎng)外交易等相異場(chǎng)景需求下的具體措施,逐步形成面向數(shù)據(jù)資源化、資產(chǎn)化、資本化等不同層面,兼顧薪資分配、效益分配和股權(quán)分配等多種分配形式的分配機(jī)制與交易生態(tài)。另一方面,推動(dòng)公共數(shù)據(jù)標(biāo)準(zhǔn)化、共享機(jī)制和安全保障體系建設(shè),兼顧政府、企業(yè)與個(gè)人等主體對(duì)公共數(shù)據(jù)開(kāi)放的需求與利益訴求,構(gòu)建公共數(shù)據(jù)開(kāi)放與共享的深度協(xié)同機(jī)制并提升跨部門(mén)協(xié)調(diào)能力與政策執(zhí)行力。
其三,聚焦重點(diǎn)場(chǎng)景,賦能多樣化場(chǎng)景,推進(jìn)政府主導(dǎo)與市場(chǎng)平衡下的前沿?cái)?shù)據(jù)利用。針對(duì)場(chǎng)景面向下公共數(shù)據(jù)與高價(jià)值數(shù)據(jù)的利用,政府不宜對(duì)市場(chǎng)“無(wú)形之手”的靈活調(diào)控效果進(jìn)行過(guò)度干預(yù),但也應(yīng)對(duì)數(shù)據(jù)開(kāi)放、流通與利用過(guò)程的合規(guī)性與安全性承擔(dān)主要監(jiān)管職責(zé)。可以采用“兩步走”的方式推動(dòng)從重點(diǎn)場(chǎng)景到多樣化場(chǎng)景中良性秩序的形成。第一步,現(xiàn)階段暫時(shí)摒棄“不加區(qū)分、一并推進(jìn)”的做法,明確數(shù)據(jù)集供給的劃定應(yīng)用場(chǎng)景。例如,《“數(shù)據(jù)要素×”三年行動(dòng)計(jì)劃(2024—2026年)》中明確指出,要“聚焦重點(diǎn)行業(yè)和領(lǐng)域,挖掘典型數(shù)據(jù)要素應(yīng)用場(chǎng)景”。通過(guò)借鑒域外取得良好效果的重點(diǎn)場(chǎng)景,可在地方層面進(jìn)一步將高質(zhì)量場(chǎng)景數(shù)據(jù)集建設(shè)明確在普惠金融、醫(yī)療保險(xiǎn)、物業(yè)服務(wù)等相對(duì)有限的細(xì)分板塊。在此基礎(chǔ)上,完善重點(diǎn)應(yīng)用場(chǎng)景下的數(shù)據(jù)開(kāi)放細(xì)則,爭(zhēng)取實(shí)現(xiàn)相應(yīng)領(lǐng)域數(shù)據(jù)的有需必應(yīng)。第二步,在著眼核心場(chǎng)景的同時(shí)持續(xù)推進(jìn)更大范圍場(chǎng)景的賦能效應(yīng)。一是建立開(kāi)放清單動(dòng)態(tài)調(diào)整機(jī)制,同步維持開(kāi)放數(shù)據(jù)的實(shí)時(shí)更新與日常性維護(hù)工作,確保實(shí)時(shí)分析能力的精準(zhǔn)高效與相應(yīng)救濟(jì)途徑的暢通;二是以市場(chǎng)為主體推動(dòng)多樣化場(chǎng)景數(shù)據(jù)的衍生發(fā)展,先通過(guò)提高相似場(chǎng)景中的數(shù)據(jù)泛化表現(xiàn)以提升場(chǎng)景數(shù)據(jù)集的通用性,避免智能模型等末端應(yīng)用過(guò)擬合于某些特定子場(chǎng)景;三是針對(duì)元宇宙、數(shù)字孿生、智能決策等數(shù)字時(shí)代的新型場(chǎng)景進(jìn)行數(shù)據(jù)需求的前瞻性剖析,并對(duì)智能監(jiān)控等數(shù)字城市治理場(chǎng)景中出現(xiàn)的前沿問(wèn)題作出精準(zhǔn)把握,提前布局以保障新興領(lǐng)域預(yù)見(jiàn)性政策的及時(shí)跟進(jìn)。
其四,優(yōu)化現(xiàn)有規(guī)范,明確數(shù)據(jù)架構(gòu)與技術(shù)配套的場(chǎng)景化標(biāo)準(zhǔn)。一方面,持續(xù)完善頂層制度設(shè)計(jì)以發(fā)揮其對(duì)場(chǎng)景數(shù)據(jù)流通的保障與激勵(lì)機(jī)能??蓞⒖济绹?guó)《信息自由法》《聯(lián)邦數(shù)據(jù)戰(zhàn)略》與歐盟《通用數(shù)據(jù)管理?xiàng)l例》《數(shù)據(jù)治理法案》等規(guī)范中關(guān)聯(lián)的可借鑒規(guī)則,建構(gòu)公共部門(mén)信息復(fù)用與數(shù)據(jù)開(kāi)放的場(chǎng)景化框架并推動(dòng)本土化創(chuàng)新,鼓勵(lì)行業(yè)導(dǎo)向的戰(zhàn)略性數(shù)據(jù)集建設(shè)與數(shù)據(jù)開(kāi)放生態(tài)。同時(shí),在跨境電商、跨國(guó)物流、國(guó)際金融等場(chǎng)景中,跟進(jìn)關(guān)注《中歐全面投資協(xié)定》(CAI)、《全面與進(jìn)步跨太平洋伙伴關(guān)系協(xié)定》(CPTPP)、《區(qū)域全面經(jīng)濟(jì)伙伴關(guān)系協(xié)定》(RCEP)等國(guó)際經(jīng)貿(mào)協(xié)議中的數(shù)據(jù)跨境流動(dòng)規(guī)則,通過(guò)跨境場(chǎng)景的數(shù)據(jù)協(xié)同構(gòu)建我國(guó)數(shù)據(jù)要素的獨(dú)特場(chǎng)景優(yōu)勢(shì),合理分配國(guó)家的“剩余控制權(quán)”,保留更多的行業(yè)自律與跨行業(yè)協(xié)同空間。另一方面,持續(xù)完善場(chǎng)景面向的數(shù)據(jù)架構(gòu)與技術(shù)標(biāo)準(zhǔn)。一是推動(dòng)差異場(chǎng)景下技術(shù)架構(gòu)的統(tǒng)一化進(jìn)程,促進(jìn)高質(zhì)量數(shù)據(jù)的跨場(chǎng)景互通,推動(dòng)全國(guó)數(shù)據(jù)要素市場(chǎng)一體化。同時(shí),亦不可忽視場(chǎng)景間的差異性,避免盲目追求共性而損害數(shù)據(jù)質(zhì)量,跟進(jìn)補(bǔ)充對(duì)標(biāo)特定場(chǎng)景的數(shù)據(jù)標(biāo)準(zhǔn),特別關(guān)注大模型背景下多模態(tài)數(shù)據(jù)的可識(shí)別性與技術(shù)架構(gòu)互通等問(wèn)題。二是在技術(shù)標(biāo)準(zhǔn)制定進(jìn)程中以前瞻視角關(guān)注人工智能等前沿技術(shù)的新型應(yīng)用場(chǎng)景與產(chǎn)業(yè)模態(tài)。例如,明確不同場(chǎng)景下人工智能合成數(shù)據(jù)的質(zhì)量標(biāo)準(zhǔn);細(xì)化無(wú)監(jiān)督機(jī)器學(xué)習(xí)中場(chǎng)景數(shù)據(jù)抓取的合規(guī)技術(shù)標(biāo)準(zhǔn);厘清大模型生成內(nèi)容領(lǐng)域數(shù)據(jù)集提供者、模型開(kāi)發(fā)者與服務(wù)使用者之間的數(shù)據(jù)義務(wù)等。三是以場(chǎng)景為牽引,建立強(qiáng)制性的“數(shù)據(jù)法規(guī)”與自愿性的“數(shù)據(jù)標(biāo)準(zhǔn)”相結(jié)合的新型標(biāo)準(zhǔn)化體制。特別是在醫(yī)療、科研等專(zhuān)業(yè)細(xì)分場(chǎng)景的數(shù)據(jù)標(biāo)準(zhǔn)中,運(yùn)用彈性較高的技術(shù)標(biāo)準(zhǔn)與倫理標(biāo)準(zhǔn)發(fā)揮“軟法先行”的正向效應(yīng),動(dòng)態(tài)探索各數(shù)據(jù)場(chǎng)景的適配規(guī)則。
【注:本文系國(guó)家社科基金年度項(xiàng)目“基于語(yǔ)料庫(kù)的網(wǎng)絡(luò)安全話(huà)語(yǔ)體系研究”(項(xiàng)目編號(hào):24BYY151)、國(guó)家社科基金重大項(xiàng)目“建立健全我國(guó)網(wǎng)絡(luò)綜合治理體系研究”(項(xiàng)目編號(hào):20ZDA062)、浙江省法學(xué)會(huì)重點(diǎn)課題“數(shù)字社會(huì)司法治理理論與規(guī)則研究”(項(xiàng)目編號(hào):2024NA19)階段性成果】
(來(lái)源:人民論壇網(wǎng))