三级网站视频在线观看,人人草在线观看,无间道2电影国语在线观看完整版,中午字幕在线,少妇久久久久久久久久,我想你电影在线观看完整版,安乐战场未删减电影完整版视频播放

<b id="xiduv"></b>

荊楚網(wǎng) > 最新播報

大模型如何更懂“中國話”

發(fā)布時間：2025年12月25日08:36 來源：人民日報

原標題：中文高質(zhì)量數(shù)據(jù)集加速建設(shè)

大模型如何更懂“中國話”（“十五五”文化熱詞·推進文化和科技融合）

“過馬路時，你要注意看車！”

“我計劃明天去車展看車?！?/p>

這兩句話里的“看車”是一個意思嗎？相信不少人要會心一笑，表面上看是同一個詞組，但其含義因語境不同發(fā)生了變化。

這就是中文里常見的“一詞多義”現(xiàn)象。人工智能大模型是一種與人類語言密切相關(guān)的技術(shù)，要讓大模型深刻理解這一現(xiàn)象，離不開中文數(shù)據(jù)的持續(xù)供給。

目前，國內(nèi)多數(shù)模型訓(xùn)練使用的數(shù)據(jù)，中文數(shù)據(jù)占比已經(jīng)超過60%，有的模型達到80%。大模型訓(xùn)練中，中文數(shù)據(jù)占比提升有何意義？中文高質(zhì)量數(shù)據(jù)為何持續(xù)增加？如何進一步增加中文數(shù)據(jù)的開發(fā)與供給？記者進行了采訪。

數(shù)據(jù)就像大模型的“知識教材”

不同語言的數(shù)據(jù)對大模型性能有怎樣的影響？“數(shù)據(jù)就像大模型的‘知識教材’，教材的語言屬性不同，會對模型的知識體系產(chǎn)生不同影響?！鼻迦A大學(xué)計算社會科學(xué)與國家治理實驗室執(zhí)行主任、教授孟慶國表示。

從知識來源看，過去我國大模型常面臨“數(shù)據(jù)依賴”風(fēng)險——英文數(shù)據(jù)在全球互聯(lián)網(wǎng)的占比較高，如前沿科技論文、行業(yè)標準、文化典籍等多以英文呈現(xiàn)，全球高質(zhì)量標注數(shù)據(jù)也多以英文為主。

“語言類大模型一般需要遵循一定的語言習(xí)慣?！惫I(yè)和信息化部信息通信經(jīng)濟專家委員會委員盤和林認為，中文數(shù)據(jù)占比提高，既方便了用戶理解其輸出結(jié)果，又可以保障和提升我國在大模型上的研發(fā)能力。

“若中文數(shù)據(jù)占比低，模型在關(guān)鍵技術(shù)迭代中易受‘?dāng)?shù)據(jù)授權(quán)限制’‘更新延遲’等影響。”孟慶國說，中文數(shù)據(jù)占比提高，助力我國在“數(shù)據(jù)安全”“技術(shù)自主”上邁出關(guān)鍵步伐，有利于我國掌握大模型發(fā)展主動權(quán)。

“中文數(shù)據(jù)中獨有的文化習(xí)慣、隱喻表達、政策術(shù)語等在英文數(shù)據(jù)中難以得到體現(xiàn)。模型長期學(xué)習(xí)英文數(shù)據(jù)，所形成的‘英文式認知邏輯’，在理解中文特有的思維方式時容易出現(xiàn)偏差?！笨拼笥嶏w消費者AI交互業(yè)務(wù)部總經(jīng)理趙艷軍介紹，中文數(shù)據(jù)比重的提升，增強了大模型對中華文化及中國場景的理解能力。比如中醫(yī)問診時，“上火”“濕氣”等概念需要中文語境才能準確推理。

從知識傳承看，中文數(shù)據(jù)承載著我國數(shù)千年的文化積累，中文數(shù)據(jù)占比提高，能讓大模型推動中華文化的數(shù)字化傳播。“中文數(shù)據(jù)占比高的模型能講解‘文言文虛詞用法’‘詩詞平仄規(guī)律’等。比如，在解釋‘之乎者也’時，結(jié)合《論語》《孟子》等中文典籍案例，讓傳統(tǒng)文化教育更生動?！泵蠎c國說。

中文高質(zhì)量數(shù)據(jù)供給能力不斷增強

中文普通數(shù)據(jù)和中文高質(zhì)量數(shù)據(jù)有何區(qū)別？普通數(shù)據(jù)多為未經(jīng)審核的網(wǎng)絡(luò)文本、非專業(yè)內(nèi)容，易出現(xiàn)事實錯誤或概念混淆。而高質(zhì)量數(shù)據(jù)需經(jīng)過“事實核查、專業(yè)審核”，語義準確且來源可追溯。

要理解中文高質(zhì)量數(shù)據(jù)的重要性，可從醫(yī)療診斷這一專業(yè)場景講起。今年8月，中文臨床醫(yī)學(xué)知識圖譜“磐醫(yī)知識圖譜”在浙江臺州發(fā)布?！爱?dāng)前，一些大模型學(xué)習(xí)的醫(yī)學(xué)知識，來源于互聯(lián)網(wǎng)公開數(shù)據(jù)，而這些公開數(shù)據(jù)，有的不嚴謹、有的存在矛盾、有的更新滯后，這些情況都會對大模型生成的結(jié)果產(chǎn)生負面影響。”浙江省全省醫(yī)療智能決策重點實驗室主任林輝表示，“磐醫(yī)知識圖譜”中的數(shù)據(jù)均由醫(yī)學(xué)專家審核，每個知識點都有明確來源，且動態(tài)更新醫(yī)學(xué)進展。

大模型性能的提升，體現(xiàn)了中文高質(zhì)量數(shù)據(jù)的價值。得益于一系列因素的合力助推，中文高質(zhì)量數(shù)據(jù)的供給能力不斷增強——

政策有支持。從《“數(shù)據(jù)要素×”三年行動計劃（2024—2026年）》提出“打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集”，到國家數(shù)據(jù)局布局建設(shè)數(shù)據(jù)標注基地，政策利好下，大量中文高質(zhì)量數(shù)據(jù)集加速建設(shè)。

技術(shù)有突破。中文數(shù)據(jù)因“歧義多、語境依賴強”，早期標注成本是英文數(shù)據(jù)的1.8—2.5倍，隨著技術(shù)不斷進步，開發(fā)難度也在降低。例如，國內(nèi)某“中文語義標注系統(tǒng)”已可自動區(qū)分“打毛衣”“打電話”中“打”的含義，讓標注效率提升了3倍，且成本有效降低。

行業(yè)有共識。國內(nèi)垂直場景對“中文適配”大模型的需求不斷升溫，推動中文數(shù)據(jù)從“輔助補充”變?yōu)椤昂诵馁Y源”，更多企業(yè)參與到中文數(shù)據(jù)的開發(fā)之中。如中國移動已建成覆蓋超30個行業(yè)、超3500TB（太字節(jié)）的通用高質(zhì)量數(shù)據(jù)集。

協(xié)同建標準，細分多場景

Token（通常所說的“詞元”）是處理文本的最小數(shù)據(jù)單元。數(shù)據(jù)顯示，2024年初，我國日均Token的消耗量為1000億，截至今年9月底，我國日均Token消耗量已突破40萬億。這些數(shù)字背后，是中文數(shù)據(jù)資源的快速積累和價值釋放。

如何進一步增強中文數(shù)據(jù)的開發(fā)和供給？專家學(xué)者帶來了思考和建議。

首先是建標準?，F(xiàn)有的中文數(shù)據(jù)中，重復(fù)的內(nèi)容多、質(zhì)量高的少，尤其是在醫(yī)療、工業(yè)等垂直領(lǐng)域，高質(zhì)量數(shù)據(jù)更是稀缺。比如醫(yī)療數(shù)據(jù)，有的醫(yī)院記錄病歷只寫“發(fā)燒”，有的會寫“發(fā)燒38.5攝氏度、伴咳嗽2天”，若無標準的“尺子”判斷數(shù)據(jù)質(zhì)量，進一步的開發(fā)難以推進。

“明確了不同領(lǐng)域的中文標注標準后，才更有利于建設(shè)和完善評價、激勵機制?！泵蠎c國認為，應(yīng)加快研究制定中文數(shù)據(jù)分級標準，從而釋放中文數(shù)據(jù)的供給活力。

其次是強技術(shù)。高質(zhì)量數(shù)據(jù)集的建設(shè)過程中仍不可避免會遇到大量數(shù)據(jù)孤島和合規(guī)難題，比如，不同機構(gòu)的數(shù)據(jù)因為隱私安全等合規(guī)要求，難以跨域流通，導(dǎo)致各機構(gòu)重復(fù)開展數(shù)據(jù)標注，既浪費資源，又無法形成規(guī)模效應(yīng)。

“可推廣應(yīng)用新一代標注技術(shù)，在原始數(shù)據(jù)不出域且保證隱私安全的條件下，完成跨機構(gòu)協(xié)同標注，從而整合多機構(gòu)力量，避免重復(fù)勞動。”趙艷軍說。

此外要補場景。我國產(chǎn)業(yè)體系完備，其廣度和深度決定了需要更多細分場景的中文數(shù)據(jù)?！氨热?，在元宇宙等新興場景中，中文數(shù)據(jù)使用量僅為英文的1/5；又如，中醫(yī)、非遺等傳統(tǒng)場景數(shù)字化程度低，大量寶貴信息尚未轉(zhuǎn)化為可用數(shù)據(jù)資源?！泵蠎c國表示，可推動政產(chǎn)學(xué)研用協(xié)同，專項采集各種垂直場景中文數(shù)據(jù)，激活產(chǎn)業(yè)應(yīng)用。

推進文化和科技融合

“十五五”規(guī)劃建議提出，“推進文化和科技融合”。探索文化和科技融合的有效機制，需要用互聯(lián)網(wǎng)思維和信息技術(shù)改進文化創(chuàng)作生產(chǎn)流程，推動文化建設(shè)數(shù)智化賦能、信息化轉(zhuǎn)型。

“文化IP+科技體驗”，重塑文旅產(chǎn)業(yè)生態(tài)。通過線上數(shù)字平臺與線下沉浸場景的結(jié)合，多地打造數(shù)字文旅空間、開發(fā)“旅游+智能體”新應(yīng)用等，實現(xiàn)文化和科技雙向賦能?！拔幕瘎?chuàng)作+人工智能”，拓展產(chǎn)業(yè)融合場景。當(dāng)前，以大模型為代表的AI技術(shù)，與影視、文博等領(lǐng)域深度融合，催生出AI短劇、博物館數(shù)字文創(chuàng)等新產(chǎn)品，不僅豐富了文化表達方式，也培育出更多文化消費新場景?！疤厣幕?數(shù)字技術(shù)”，助力鄉(xiāng)村全面振興。通過數(shù)字技術(shù)，將地標農(nóng)產(chǎn)品、鄉(xiāng)村非遺技藝融入微短劇等內(nèi)容創(chuàng)作，能夠進一步提升特色文化產(chǎn)品的創(chuàng)意能力和表現(xiàn)力，為鄉(xiāng)村全面振興注入新動能。

——北京大學(xué)文化產(chǎn)業(yè)研究院學(xué)術(shù)委員會主任陳少峰

【責(zé)任編輯:肖夢吟】

2026武漢馬拉松鳴槍開跑

2026武漢馬拉松鳴槍開跑

景觀“加油站”迎漢馬

景觀“加油站”迎漢馬

“楚超”賽程正式官宣

“楚超”賽程正式官宣

網(wǎng)絡(luò)問政

數(shù)字賦能，史店村繪出基層治理新圖景
一張 “連心網(wǎng)” 串起寺背村幸福路
“云上小哥驛站”激活老舊小區(qū)新動能
普法情景劇把反詐知識送到“指尖”
武昌南湖街道AI賦能激活社區(qū)治理新活力

Copyright ? 2001-2026 湖北荊楚網(wǎng)絡(luò)科技股份有限公司 All Rights Reserved

互聯(lián)網(wǎng)新聞信息許可證 4212025003 －增值電信業(yè)務(wù)經(jīng)營許可證鄂B2-20231273 －廣播電視節(jié)目制作經(jīng)營許可證（鄂）字第00011號
 信息網(wǎng)絡(luò)傳播視聽節(jié)目許可證 1706144 －互聯(lián)網(wǎng)出版許可證（鄂）字3號－營業(yè)執(zhí)照

鄂ICP備 13000573號-1 鄂公網(wǎng)安備 42010602000206號

版權(quán)為荊楚網(wǎng) m.rbing.net 所有未經(jīng)同意不得復(fù)制或鏡像