圖為廣東省公共數(shù)據(jù)標(biāo)注基地(清遠(yuǎn))。 受訪者供圖
隨著人工智能迅猛發(fā)展,高質(zhì)量訓(xùn)練數(shù)據(jù)短缺逐漸成為制約行業(yè)進(jìn)步的一大瓶頸,而數(shù)據(jù)標(biāo)注產(chǎn)業(yè)可為人工智能創(chuàng)新發(fā)展提供強(qiáng)大動(dòng)力。國(guó)家發(fā)展改革委、國(guó)家數(shù)據(jù)局、財(cái)政部、人力資源和社會(huì)保障部四部門日前聯(lián)合印發(fā)的《關(guān)于促進(jìn)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展的實(shí)施意見(jiàn)》(以下簡(jiǎn)稱《實(shí)施意見(jiàn)》),提出到2027年的發(fā)展目標(biāo):數(shù)據(jù)標(biāo)注產(chǎn)業(yè)專業(yè)化、智能化及科技創(chuàng)新能力顯著提升,產(chǎn)業(yè)規(guī)模大幅躍升,年均復(fù)合增長(zhǎng)率超過(guò)20%。
我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)現(xiàn)狀如何?數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展還需要跨過(guò)哪些“門檻”?針對(duì)這些問(wèn)題,科技日?qǐng)?bào)記者進(jìn)行了采訪。
原始數(shù)據(jù)變?yōu)榭捎觅Y源
“通俗地說(shuō),訓(xùn)練人工智能大模型的過(guò)程就像老師教學(xué)生識(shí)字?!比A南理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院副院長(zhǎng)張通形象地解釋道,數(shù)據(jù)標(biāo)注就是給數(shù)據(jù)“貼標(biāo)簽”或者“做記號(hào)”,需要專業(yè)人員向大模型闡釋各個(gè)數(shù)據(jù)的標(biāo)簽及需執(zhí)行的相應(yīng)任務(wù)。他們“教導(dǎo)”大模型參與訓(xùn)練的數(shù)據(jù)是什么,給圖像、語(yǔ)音、文本等各種數(shù)據(jù)“貼標(biāo)簽”。高質(zhì)量的數(shù)據(jù)標(biāo)注,有助于機(jī)器精準(zhǔn)理解、快速學(xué)習(xí)、高效訓(xùn)練,顯著提升大模型的準(zhǔn)確性和泛化能力。
在訓(xùn)練ChatGPT時(shí),美國(guó)開(kāi)放人工智能研究中心(OpenAI)就投入了大量資源用于數(shù)據(jù)標(biāo)注。為確保標(biāo)注任務(wù)高質(zhì)量完成,使ChatGPT能更好地理解人類指令,保障大模型的準(zhǔn)確性與可靠性,OpenAI聘請(qǐng)了眾多“老師”。這些“老師”涵蓋一般數(shù)據(jù)標(biāo)注人員和專業(yè)人士,還包括博士級(jí)別的專家。
數(shù)據(jù)標(biāo)注是人工智能發(fā)展的核心基石之一。“數(shù)據(jù)標(biāo)注產(chǎn)業(yè)是對(duì)數(shù)據(jù)進(jìn)行篩選、清洗、分類、注釋、標(biāo)記和質(zhì)量檢驗(yàn)等加工處理的新興產(chǎn)業(yè),其核心任務(wù)是對(duì)原始數(shù)據(jù)進(jìn)行加工,使之成為可用于訓(xùn)練人工智能大模型的優(yōu)質(zhì)原料。”張通介紹,數(shù)據(jù)標(biāo)注作為訓(xùn)練大模型至關(guān)重要的一環(huán),直接影響機(jī)器學(xué)習(xí)模型的性能,對(duì)支撐人工智能能力水平提升有重要作用。
在張通看來(lái),未經(jīng)處理的原始數(shù)據(jù)只是潛在資源,而經(jīng)過(guò)標(biāo)注處理后沉淀的數(shù)據(jù),才能在市場(chǎng)上進(jìn)行有效交易和流通,從而充分釋放數(shù)據(jù)要素價(jià)值。培育壯大數(shù)據(jù)標(biāo)注產(chǎn)業(yè),對(duì)于提升數(shù)據(jù)供給質(zhì)量、推動(dòng)人工智能創(chuàng)新發(fā)展不可或缺。
業(yè)內(nèi)人士認(rèn)為,隨著人工智能技術(shù)不斷成熟、應(yīng)用領(lǐng)域持續(xù)拓展,數(shù)據(jù)標(biāo)注行業(yè)將迎來(lái)更廣闊市場(chǎng)空間,尤其是在低空經(jīng)濟(jì)、智慧城市、自動(dòng)駕駛、智慧醫(yī)療等新興科技領(lǐng)域展現(xiàn)出巨大潛力。
產(chǎn)業(yè)步入快速發(fā)展階段
全球數(shù)據(jù)標(biāo)注市場(chǎng)目前正處于迅速增長(zhǎng)期。近年來(lái),我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)已進(jìn)入快速發(fā)展階段,產(chǎn)業(yè)鏈條不斷完善,技術(shù)創(chuàng)新成果逐步實(shí)現(xiàn)市場(chǎng)化應(yīng)用。據(jù)測(cè)算,2023年我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)規(guī)模已達(dá)800億元左右。
四川成都、遼寧沈陽(yáng)、安徽合肥、湖南長(zhǎng)沙等7個(gè)承擔(dān)數(shù)據(jù)標(biāo)注基地建設(shè)任務(wù)的城市,在大模型標(biāo)注、自動(dòng)化標(biāo)注等領(lǐng)域取得重要突破。長(zhǎng)沙信息產(chǎn)業(yè)園作為長(zhǎng)沙首批數(shù)據(jù)標(biāo)注基地之一,已吸引智能網(wǎng)聯(lián)汽車、數(shù)據(jù)標(biāo)注、網(wǎng)絡(luò)安全等1萬(wàn)余家各類數(shù)字企業(yè)入駐,成功打造了人工智能創(chuàng)新中心算力服務(wù)平臺(tái)。
廣東積極推進(jìn)數(shù)據(jù)標(biāo)注訓(xùn)練試點(diǎn)和基地建設(shè),為大模型訓(xùn)練提供堅(jiān)實(shí)數(shù)據(jù)支撐。2023年9月,廣東省公共數(shù)據(jù)標(biāo)注訓(xùn)練試點(diǎn)正式啟動(dòng)。在廣東省公共數(shù)據(jù)標(biāo)注基地(清遠(yuǎn)),百度、燕湖科技、好思達(dá)等一批在自動(dòng)駕駛、政務(wù)公共標(biāo)注領(lǐng)域表現(xiàn)突出的企業(yè)已率先入駐。憑借龍頭企業(yè)的帶動(dòng)作用和數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)的集聚效應(yīng),清遠(yuǎn)的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)蓬勃發(fā)展。
“我們以數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)為核心,與數(shù)字經(jīng)濟(jì)產(chǎn)業(yè)龍頭企業(yè)緊密合作,致力于打造國(guó)家級(jí)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)集聚區(qū)和產(chǎn)教融合示范區(qū)?!睆V東省公共數(shù)據(jù)標(biāo)注基地(清遠(yuǎn))負(fù)責(zé)人李艷康介紹,落戶在此的百度智能云(清遠(yuǎn))人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地已累計(jì)引進(jìn)孵化數(shù)據(jù)標(biāo)注企業(yè)5家,培育專業(yè)數(shù)據(jù)標(biāo)注師超300人。未來(lái),基地將持續(xù)培育孵化更多優(yōu)秀數(shù)據(jù)標(biāo)注企業(yè),推動(dòng)清遠(yuǎn)數(shù)據(jù)服務(wù)產(chǎn)業(yè)不斷壯大發(fā)展。
復(fù)合型人才缺口仍然較大
《實(shí)施意見(jiàn)》的出臺(tái),將進(jìn)一步提升數(shù)據(jù)供給質(zhì)量,有效解決制約人工智能產(chǎn)業(yè)發(fā)展的高質(zhì)量數(shù)據(jù)短缺問(wèn)題。
值得注意的是,隨著人工智能應(yīng)用的不斷深化,對(duì)數(shù)據(jù)標(biāo)注的需求也愈發(fā)細(xì)分化和專業(yè)化。2024年7月,張通團(tuán)隊(duì)和廣州華銀康醫(yī)療集團(tuán)股份有限公司在人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(廣州)共建AI病理研究中心,著手研發(fā)人工智能病理大模型,讓人工智能模型能像專業(yè)醫(yī)生一樣看病問(wèn)診。在其中的數(shù)據(jù)預(yù)處理環(huán)節(jié),中心特別聘請(qǐng)了3位資深的主任級(jí)醫(yī)師進(jìn)行數(shù)據(jù)標(biāo)注。
“醫(yī)療、材料等專業(yè)領(lǐng)域,涉及到專業(yè)對(duì)象和術(shù)語(yǔ)結(jié)合的標(biāo)注過(guò)程,只有專業(yè)從業(yè)人員才能勝任標(biāo)注工作。而且,標(biāo)注任務(wù)極其耗時(shí)、耗力、耗資源。整個(gè)標(biāo)注工作并非一蹴而就,而是需要在實(shí)際應(yīng)用場(chǎng)景中優(yōu)化、持續(xù)迭代,促使模型智能化水平不斷升級(jí)?!睆埻ㄕf(shuō),當(dāng)前我國(guó)數(shù)據(jù)標(biāo)注行業(yè)人才缺口仍然較大,亟待培養(yǎng)復(fù)合型數(shù)據(jù)標(biāo)注人才,這是我國(guó)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展必須跨過(guò)的“門檻”。
《實(shí)施意見(jiàn)》對(duì)加強(qiáng)標(biāo)注人才隊(duì)伍建設(shè)作出部署。以人才項(xiàng)目計(jì)劃和科技項(xiàng)目等為抓手,培育和引進(jìn)高端專業(yè)人才;制(修)定人工智能訓(xùn)練、數(shù)據(jù)標(biāo)注相關(guān)職業(yè)國(guó)家職業(yè)標(biāo)準(zhǔn);支持?jǐn)?shù)據(jù)標(biāo)注領(lǐng)域職業(yè)資格與職業(yè)技能等級(jí)銜接互認(rèn)……一項(xiàng)項(xiàng)舉措,將為數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展提供支撐。
完善的產(chǎn)業(yè)生態(tài)建設(shè)對(duì)數(shù)據(jù)標(biāo)注行業(yè)發(fā)展同樣重要?!秾?shí)施意見(jiàn)》提出,暢通數(shù)據(jù)采集、標(biāo)注、人工智能應(yīng)用產(chǎn)業(yè)鏈,推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)上下游協(xié)同發(fā)展;支持?jǐn)?shù)據(jù)標(biāo)注龍頭企業(yè)和第三方機(jī)構(gòu)等建設(shè)數(shù)據(jù)標(biāo)注開(kāi)源平臺(tái),助力中小企業(yè)發(fā)展;培育一批人力資源、供需對(duì)接、國(guó)際合作、法律審計(jì)等服務(wù)數(shù)據(jù)標(biāo)注的第三方機(jī)構(gòu),完善數(shù)據(jù)標(biāo)注產(chǎn)業(yè)生態(tài)。
“未來(lái)數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展,也可考慮‘以人工智能促人工智能’的思路,即讓已經(jīng)完成學(xué)習(xí)的人工智能反哺數(shù)據(jù)標(biāo)注工作,提高效率。這是值得深入探討且極具價(jià)值的研究方向?!睆埻ㄕJ(rèn)為,數(shù)據(jù)標(biāo)注行業(yè)的發(fā)展有望加速推動(dòng)數(shù)字經(jīng)濟(jì)與實(shí)體經(jīng)濟(jì)深度融合,加快形成新質(zhì)生產(chǎn)力。(葉 青)
(責(zé)任編輯:蔡文斌)