北京擬對 AI 訓(xùn)練所需的算力推行統(tǒng)籌供給,整合大模型中文語料庫
5 月 17 日消息,北京市于 5 月 12 日發(fā)布了關(guān)于對《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025 年)(征求意見稿)》(下稱《征求意見稿》)公開征集意見的公告,擬對 AI 訓(xùn)練所需的算力推行統(tǒng)籌供給。
《征求意見稿》提出,加強算力資源統(tǒng)籌供給能力,加強與頭部公有云廠商等市場主體合作,實施算力伙伴計劃,并確定首批伙伴計劃成員,明確供給技術(shù)標(biāo)準(zhǔn)、軟硬件服務(wù)要求、算力供給規(guī)模、優(yōu)惠策略等,向在京高校院所和中小企業(yè)公布一批優(yōu)質(zhì)算力供應(yīng)商。
《征求意見稿》稱,利用政府統(tǒng)一入口,降低公有云采購成本,普惠中小企業(yè),同時減少企業(yè)分別面對不同云廠商的溝通成本。針對彈性算力需求,建設(shè)統(tǒng)一的多云算力調(diào)度平臺,實現(xiàn)異構(gòu)算力環(huán)境統(tǒng)一管理、統(tǒng)一運營,方便企業(yè)在不同云環(huán)境上無縫、經(jīng)濟、高效地運行各類人工智能計算任務(wù)。建設(shè)北京與河北、天津、山西、內(nèi)蒙古等省(市)算力集群的直連基礎(chǔ)光傳輸網(wǎng)絡(luò),進一步提升平臺對四地算力資源感知能力,探索開展算力交易。
《征求意見稿》還表示,針對目前大模型訓(xùn)練高質(zhì)量中文語料占比過少,不利于中文語境表達及產(chǎn)業(yè)應(yīng)用的問題,整合現(xiàn)有開源中文預(yù)訓(xùn)練數(shù)據(jù)集和高質(zhì)量互聯(lián)網(wǎng)中文數(shù)據(jù)并進行合規(guī)清洗。同時持續(xù)擴展高質(zhì)量多模態(tài)數(shù)據(jù)來源,建設(shè)合規(guī)安全的中文、圖文對、音頻、視頻等大模型預(yù)訓(xùn)練語料庫,通過北京國際大數(shù)據(jù)交易所社會數(shù)據(jù)專區(qū)進行定向有條件開放。
IT之家附《北京市促進通用人工智能創(chuàng)新發(fā)展的若干措施(2023-2025 年)(征求意見稿)》完整文件:點此查看