當前位置:首頁(yè) » 專(zhuān)題報道 » 第八屆數字中國建設峰會(huì ) » 嘉賓觀(guān)點(diǎn)
新質(zhì)生產(chǎn)力下的大模型產(chǎn)業(yè)化
2025年06月06日 14:10 來(lái)源:數字中國 【打印】
非常高興能夠在這里分享商湯對科技在如此大模型數據化和資產(chǎn)化的情境下,如何有效利用我們的數據要素。
首先,在整個(gè)行業(yè)中,現在大模型的生成和制造遵循一個(gè)被認為是經(jīng)驗性公理的尺度定律。這個(gè)尺度定律表明,隨著(zhù)模型參數量、數據規模、訓練時(shí)間的增加,模型的性能得到顯著(zhù)提升。因此,性能的整體提升速度很快。這也解釋了為什么計算資源已經(jīng)成為這個(gè)時(shí)代的核心資源之一。
我們也看到,西方大量地投入計算資源作為核心基礎設施。但更重要的是如何更有效地利用好數據。很多人認為數據的好壞無(wú)法區分,實(shí)際上,并非如此盡管數據質(zhì)量都有所下降,但下降的速度和程度,例如指數β,其實(shí)是不同的。
所以,我們的尺度定律在某種程度上可以為不同的數據資產(chǎn)打分,能夠跨越5—7個(gè)數量級的尺度,保持對性能的預測,并在較小的尺度上驗證性能優(yōu)劣。因此,我們進(jìn)行了很多關(guān)于數據的實(shí)驗。在一些真實(shí)的場(chǎng)景和問(wèn)題下,我們發(fā)現當一個(gè)模型在同樣的數據集上,小在較的尺度上領(lǐng)先時(shí),在大較的尺度上也會(huì )領(lǐng)先。這不僅涉及推理計算、語(yǔ)言知識等問(wèn)題,而是基于數據本身的質(zhì)量,而不是僅憑經(jīng)驗的分數。
我們對三個(gè)不同數據集在兩個(gè)問(wèn)題下進(jìn)行了數據質(zhì)量的打分,可以看到,斜率越大,說(shuō)明性能提升越快。有了這個(gè)指數,才能真正對數據質(zhì)量進(jìn)行區分。也就是說(shuō),我們不需要極大的算力,可以用一些小模型配合更高質(zhì)量的數據,打造同樣的性能。例如Llama 80億參數的模型性能要比Llama2 700億參數的模型還要好,關(guān)鍵就在于數據質(zhì)量的差異。
我們在4月份發(fā)布的SenseChat日日新V5模型,是國內首個(gè)性能超過(guò)GPT4- Turbo的,模型其成功的原因在于我們對行業(yè)數據進(jìn)行了細分,并且在這些數據上下功夫了很大的。
我們理解,在中國開(kāi)發(fā)大模型的過(guò)程中,有一個(gè)很重要的行業(yè)優(yōu)勢在于如何利用好感知能力,對理解能力賦能。比如說(shuō)比如在通用生成方面,我們發(fā)現,在很多垂直領(lǐng)域中,數據的構造與我們對這些垂直領(lǐng)域能力的理解是相關(guān)的。
舉幾個(gè)例子,比如說(shuō)模態(tài)的理解。舉例來(lái)說(shuō),這是一張手表的圖片,如果無(wú)法識別出來(lái)它的時(shí)間,就無(wú)法生成對應的描述。我們還可以識別出這是什么品牌的表手,這是一張英文考卷,可以識別出上面英文題目的意思,并用中文進(jìn)行各種互動(dòng)。當然,很多情況下需要理解圖片背后的意思,比如,左邊是一只可愛(ài)的恐龍,右邊是一只真實(shí)的恐龍,上面寫(xiě)著(zhù)“我媽第一次叫我吃飯”“我媽第二次叫我吃飯”。讓AI來(lái)理解這張圖,就會(huì )知道一般媽媽第一次叫你吃飯脾氣比較好,第二次叫你吃飯時(shí)會(huì )表現出不耐煩,我想這種概念大家都能理解。
但是如果我們沒(méi)有在垂直方向上的理解,就很難真正意義上泛化這些問(wèn)題。因此,中國在數據利用方面的核心優(yōu)勢在于結合非常大的產(chǎn)業(yè)化數據理解。
再來(lái)看生成,文本講多了,用圖片舉例子。方面以為如果我們要生成一張具有國家地理風(fēng)格的圖片,不理解這種風(fēng)格就很難生成出高質(zhì)量的結果。左邊是我們生成的圖片,右邊是行業(yè)中最好的,包括OpenAI的成果。在橫向對比中,我們認為我們的模型目前在這一領(lǐng)域具有一定的領(lǐng)先性。
這是一個(gè)亞洲女孩的美術(shù)攝影,頭發(fā)略微凌亂,對細節的把握非常重要。在特定行業(yè)中,例如文字識別,如果你不認識這個(gè)文字,就很難生成正確的內容。我們的品牌掛到一棟樓上,只有,我們生成的圖片是正確的。再比如,如果我們能夠識別福建話(huà),我們當然可以生成福建話(huà),但如果不行的話(huà),生成過(guò)程就會(huì )變得非常困難。因此,行業(yè)場(chǎng)景的疊加是數據資產(chǎn)在大模型使用中最核心的產(chǎn)業(yè)化要素。
構造行業(yè)場(chǎng)景差異化數據時(shí),可以將大模型的數據分三層,與其能力有關(guān),第一層叫世界知識,這是一個(gè)單純的記憶層,知識背后核心還是推理。真正意義上形成高質(zhì)量數據的核心在于從一個(gè)知識點(diǎn)到另一個(gè)知識點(diǎn)背后的思維鏈。
舉例來(lái)說(shuō),平行公理是一個(gè)數學(xué)公理,三角形內角和是180度,這當中的證明就是推理,一個(gè)模型的思考能力來(lái)自其背后強大的推理能力。因此,對于一些行業(yè)來(lái)說(shuō),如何構造更好地推理數據是非常重要的。跟世界的交互執行能力,有了交互數據才能更加豐富模型的核心能力。所以,我認為可以通過(guò)行業(yè)構造一個(gè)三層數據能力模型。
垂直領(lǐng)域的數據差異化就是在這三層當中。比如,醫療方面就會(huì )明顯超GPT4越-,在一定垂直領(lǐng)域,你的數據比它更專(zhuān)業(yè),構造的思維鏈數據就會(huì )更加高端。 所以,我認為數據要素在整個(gè)環(huán)境當中,模型的生成本身就是一種數據要素的消耗。而模型服務(wù)則是數據要素再次資產(chǎn)化的過(guò)程,因此,這構成了一個(gè)完整的以數據為核心的生產(chǎn)資料,為生產(chǎn)力帶來(lái)突破的飛輪,我相信,這也是未來(lái)大模型時(shí)代具有巨大行業(yè)潛力的原因之一。
大家知道《時(shí)代周刊》通常用人是以物來(lái)做封面,少有用技術(shù)做封面。1997年,《時(shí)代周刊》用了克隆羊做封面。2015年,《時(shí)代周刊》用了虛擬現實(shí)做封面。2018年,用人工智能做封面。然而,這些技術(shù)的發(fā)展直到今天,仍未真正成為我們生活中不可或缺的基礎元素。這是為什么呢主要原因在于疊加的應用并沒(méi)有那么充分,并不是改變我們生活當中基礎要素的部分。
去年ChatGPT又被放到《時(shí)代周刊》上,我認為ChatGPT火不是因為GPT,而是因為GPT本身的Thansformer架構,這在2018年已經(jīng)成為行業(yè)共識,ChatGPT真正的疊加應用才是它的革命性時(shí)刻。在中國,最不缺的就是垂直化數據,也希望借此跟大家一起推動(dòng)這個(gè)時(shí)代應用型的變化。
謝謝大家!
?。ㄒ陨蟽热莞鶕钨e發(fā)言速記整理)