三级网站视频在线观看,人人草在线观看,无间道2电影国语在线观看完整版,中午字幕在线,少妇久久久久久久久久,我想你电影在线观看完整版,安乐战场未删减电影完整版视频播放

關注我們
荊楚網 > 最新播報

大模型如何更懂“中國話”

發(fā)布時間:2025年12月25日08:36 來源: 人民日報

原標題:中文高質量數據集加速建設

大模型如何更懂“中國話”(“十五五”文化熱詞·推進文化和科技融合)

“過馬路時,你要注意看車!”

“我計劃明天去車展看車?!?/p>

這兩句話里的“看車”是一個意思嗎?相信不少人要會心一笑,表面上看是同一個詞組,但其含義因語境不同發(fā)生了變化。

這就是中文里常見的“一詞多義”現象。人工智能大模型是一種與人類語言密切相關的技術,要讓大模型深刻理解這一現象,離不開中文數據的持續(xù)供給。

目前,國內多數模型訓練使用的數據,中文數據占比已經超過60%,有的模型達到80%。大模型訓練中,中文數據占比提升有何意義?中文高質量數據為何持續(xù)增加?如何進一步增加中文數據的開發(fā)與供給?記者進行了采訪。

數據就像大模型的“知識教材”

不同語言的數據對大模型性能有怎樣的影響?“數據就像大模型的‘知識教材’,教材的語言屬性不同,會對模型的知識體系產生不同影響?!鼻迦A大學計算社會科學與國家治理實驗室執(zhí)行主任、教授孟慶國表示。

從知識來源看,過去我國大模型常面臨“數據依賴”風險——英文數據在全球互聯網的占比較高,如前沿科技論文、行業(yè)標準、文化典籍等多以英文呈現,全球高質量標注數據也多以英文為主。

“語言類大模型一般需要遵循一定的語言習慣?!惫I(yè)和信息化部信息通信經濟專家委員會委員盤和林認為,中文數據占比提高,既方便了用戶理解其輸出結果,又可以保障和提升我國在大模型上的研發(fā)能力。

“若中文數據占比低,模型在關鍵技術迭代中易受‘數據授權限制’‘更新延遲’等影響?!泵蠎c國說,中文數據占比提高,助力我國在“數據安全”“技術自主”上邁出關鍵步伐,有利于我國掌握大模型發(fā)展主動權。

“中文數據中獨有的文化習慣、隱喻表達、政策術語等在英文數據中難以得到體現。模型長期學習英文數據,所形成的‘英文式認知邏輯’,在理解中文特有的思維方式時容易出現偏差。”科大訊飛消費者AI交互業(yè)務部總經理趙艷軍介紹,中文數據比重的提升,增強了大模型對中華文化及中國場景的理解能力。比如中醫(yī)問診時,“上火”“濕氣”等概念需要中文語境才能準確推理。

從知識傳承看,中文數據承載著我國數千年的文化積累,中文數據占比提高,能讓大模型推動中華文化的數字化傳播?!爸形臄祿急雀叩哪P湍苤v解‘文言文虛詞用法’‘詩詞平仄規(guī)律’等。比如,在解釋‘之乎者也’時,結合《論語》《孟子》等中文典籍案例,讓傳統(tǒng)文化教育更生動?!泵蠎c國說。

中文高質量數據供給能力不斷增強

中文普通數據和中文高質量數據有何區(qū)別?普通數據多為未經審核的網絡文本、非專業(yè)內容,易出現事實錯誤或概念混淆。而高質量數據需經過“事實核查、專業(yè)審核”,語義準確且來源可追溯。

要理解中文高質量數據的重要性,可從醫(yī)療診斷這一專業(yè)場景講起。今年8月,中文臨床醫(yī)學知識圖譜“磐醫(yī)知識圖譜”在浙江臺州發(fā)布。“當前,一些大模型學習的醫(yī)學知識,來源于互聯網公開數據,而這些公開數據,有的不嚴謹、有的存在矛盾、有的更新滯后,這些情況都會對大模型生成的結果產生負面影響?!闭憬∪♂t(yī)療智能決策重點實驗室主任林輝表示,“磐醫(yī)知識圖譜”中的數據均由醫(yī)學專家審核,每個知識點都有明確來源,且動態(tài)更新醫(yī)學進展。

大模型性能的提升,體現了中文高質量數據的價值。得益于一系列因素的合力助推,中文高質量數據的供給能力不斷增強——

政策有支持。從《“數據要素×”三年行動計劃(2024—2026年)》提出“打造高質量人工智能大模型訓練數據集”,到國家數據局布局建設數據標注基地,政策利好下,大量中文高質量數據集加速建設。

技術有突破。中文數據因“歧義多、語境依賴強”,早期標注成本是英文數據的1.8—2.5倍,隨著技術不斷進步,開發(fā)難度也在降低。例如,國內某“中文語義標注系統(tǒng)”已可自動區(qū)分“打毛衣”“打電話”中“打”的含義,讓標注效率提升了3倍,且成本有效降低。

行業(yè)有共識。國內垂直場景對“中文適配”大模型的需求不斷升溫,推動中文數據從“輔助補充”變?yōu)椤昂诵馁Y源”,更多企業(yè)參與到中文數據的開發(fā)之中。如中國移動已建成覆蓋超30個行業(yè)、超3500TB(太字節(jié))的通用高質量數據集。

協同建標準,細分多場景

Token(通常所說的“詞元”)是處理文本的最小數據單元。數據顯示,2024年初,我國日均Token的消耗量為1000億,截至今年9月底,我國日均Token消耗量已突破40萬億。這些數字背后,是中文數據資源的快速積累和價值釋放。

如何進一步增強中文數據的開發(fā)和供給?專家學者帶來了思考和建議。

首先是建標準?,F有的中文數據中,重復的內容多、質量高的少,尤其是在醫(yī)療、工業(yè)等垂直領域,高質量數據更是稀缺。比如醫(yī)療數據,有的醫(yī)院記錄病歷只寫“發(fā)燒”,有的會寫“發(fā)燒38.5攝氏度、伴咳嗽2天”,若無標準的“尺子”判斷數據質量,進一步的開發(fā)難以推進。

“明確了不同領域的中文標注標準后,才更有利于建設和完善評價、激勵機制?!泵蠎c國認為,應加快研究制定中文數據分級標準,從而釋放中文數據的供給活力。

其次是強技術。高質量數據集的建設過程中仍不可避免會遇到大量數據孤島和合規(guī)難題,比如,不同機構的數據因為隱私安全等合規(guī)要求,難以跨域流通,導致各機構重復開展數據標注,既浪費資源,又無法形成規(guī)模效應。

“可推廣應用新一代標注技術,在原始數據不出域且保證隱私安全的條件下,完成跨機構協同標注,從而整合多機構力量,避免重復勞動?!壁w艷軍說。

此外要補場景。我國產業(yè)體系完備,其廣度和深度決定了需要更多細分場景的中文數據。“比如,在元宇宙等新興場景中,中文數據使用量僅為英文的1/5;又如,中醫(yī)、非遺等傳統(tǒng)場景數字化程度低,大量寶貴信息尚未轉化為可用數據資源?!泵蠎c國表示,可推動政產學研用協同,專項采集各種垂直場景中文數據,激活產業(yè)應用。

推進文化和科技融合

“十五五”規(guī)劃建議提出,“推進文化和科技融合”。探索文化和科技融合的有效機制,需要用互聯網思維和信息技術改進文化創(chuàng)作生產流程,推動文化建設數智化賦能、信息化轉型。

“文化IP+科技體驗”,重塑文旅產業(yè)生態(tài)。通過線上數字平臺與線下沉浸場景的結合,多地打造數字文旅空間、開發(fā)“旅游+智能體”新應用等,實現文化和科技雙向賦能。“文化創(chuàng)作+人工智能”,拓展產業(yè)融合場景。當前,以大模型為代表的AI技術,與影視、文博等領域深度融合,催生出AI短劇、博物館數字文創(chuàng)等新產品,不僅豐富了文化表達方式,也培育出更多文化消費新場景。“特色文化+數字技術”,助力鄉(xiāng)村全面振興。通過數字技術,將地標農產品、鄉(xiāng)村非遺技藝融入微短劇等內容創(chuàng)作,能夠進一步提升特色文化產品的創(chuàng)意能力和表現力,為鄉(xiāng)村全面振興注入新動能。

——北京大學文化產業(yè)研究院學術委員會主任 陳少峰

【責任編輯:肖夢吟】