2月18日,根據(jù)《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》,國(guó)家互聯(lián)網(wǎng)信息辦公室公開發(fā)布第四批境內(nèi)深度合成服務(wù)算法備案信息,“智慧芽文本生成大模型算法”成功通過備案(備案編號(hào):網(wǎng)信算備320508893984201240017號(hào))。智慧芽成為業(yè)內(nèi)率先獲得國(guó)家網(wǎng)信辦大模型算法備案的企業(yè)。
基于高質(zhì)量的數(shù)據(jù)和領(lǐng)先的算法技術(shù)優(yōu)勢(shì),智慧芽已成功訓(xùn)練專注知識(shí)產(chǎn)權(quán)領(lǐng)域的“PatentGPT”和專注于醫(yī)藥領(lǐng)域的“PharmGPT”兩款垂直領(lǐng)域大模型,致力于為知識(shí)產(chǎn)權(quán)、研發(fā)創(chuàng)新、生物醫(yī)藥等應(yīng)用場(chǎng)景提供高效的信息檢索、分析和應(yīng)用體驗(yàn),顛覆傳統(tǒng)科創(chuàng)信息獲取和服務(wù)范式,顯著提升科技創(chuàng)新效能。
值得一提的是,PatentGPT達(dá)到了通過中國(guó)專利代理師資格考試的水平,PharmGPT達(dá)到了通過中國(guó)執(zhí)業(yè)藥師職業(yè)資格考試、美國(guó)注冊(cè)藥劑師考試(NAPLEX)的水平,部分能力超越GPT-4。
圖:智慧芽大模型考試成績(jī)
此外,在MMLU(Massive Multitask Language Understanding)、C-Eval,以及智慧芽面向業(yè)內(nèi)首次提出的專利大模型測(cè)試基準(zhǔn)(patent-bench)的測(cè)評(píng)結(jié)果顯示,智慧芽大模型在問答、總結(jié)、寫作、翻譯、分類等方面能力皆優(yōu)于商業(yè)通用大模型。
圖:智慧芽大模型能力測(cè)評(píng)
“海量垂域數(shù)據(jù)+AI算法積累”夯實(shí)大模型底座
智慧芽AI大模型的成功應(yīng)用,離不開底層海量?jī)?yōu)質(zhì)數(shù)據(jù)資源的積累,以及十余年AI算法技術(shù)研發(fā)的沉淀。
海量高質(zhì)量的垂直行業(yè)數(shù)據(jù)集:智慧芽PatentGPT和PharmGPT的成功建立在龐大的、高質(zhì)量的垂直行業(yè)數(shù)據(jù)集之上,其預(yù)訓(xùn)練數(shù)據(jù)達(dá)到了千億級(jí)token的規(guī)模。上述訓(xùn)練數(shù)據(jù)既包含了智慧芽十余年積累和深加工的全球170個(gè)受理局的超過1.8億專利、超過1.6億篇論文、超過2100萬則新聞、超過8.6億個(gè)生物序列、超過2.5億個(gè)化學(xué)結(jié)構(gòu)、超過4萬種靶點(diǎn)、超過8萬種新藥數(shù)據(jù)等。另外,在智慧芽垂直領(lǐng)域獨(dú)特的數(shù)據(jù)配方構(gòu)成上,還加入了7000余本專業(yè)書籍、豐富的行業(yè)常識(shí)等內(nèi)容。
圖:智慧芽大模型預(yù)訓(xùn)練數(shù)據(jù)示意圖
垂直領(lǐng)域AI算法積累與持續(xù)迭代:智慧芽在專利、生物醫(yī)藥等行業(yè)的AI算法領(lǐng)域有著豐厚的技術(shù)積累,在過去十余年間成功采用計(jì)算機(jī)視覺、機(jī)器學(xué)習(xí)、自然語言處理、神經(jīng)網(wǎng)絡(luò)、OCR識(shí)別、知識(shí)圖譜、大模型技術(shù)等處理和分析各類數(shù)據(jù),輔助用戶進(jìn)行創(chuàng)新決策。其中,智慧芽AI算法團(tuán)隊(duì)曾構(gòu)筑了數(shù)十種Bert模型以清洗、處理數(shù)據(jù),為自研大模型的訓(xùn)練奠定了堅(jiān)實(shí)基礎(chǔ)。
針對(duì)大模型訓(xùn)練,智慧芽圍繞數(shù)據(jù)、算法訓(xùn)練、測(cè)試、強(qiáng)化學(xué)習(xí)構(gòu)筑了四大平臺(tái)。值得一提的是,智慧芽采用了增強(qiáng)式預(yù)訓(xùn)練的策略,基于專利和醫(yī)藥領(lǐng)域超40位專家反饋及其2萬多條對(duì)比數(shù)據(jù)的強(qiáng)化學(xué)習(xí),配合RAG(Retrieval-Augmented Generation檢索增強(qiáng)生成)加強(qiáng)大模型理解能力,減少幻覺,對(duì)齊人類意圖,將大模型精度提升至80%。
圖:基于專家反饋的強(qiáng)化學(xué)習(xí)
目前,基于智慧芽大模型技術(shù)的多項(xiàng)AI功能已上線智慧芽各產(chǎn)品,受到了用戶的廣泛好評(píng)。在智慧芽研發(fā)情報(bào)庫(kù)Eureka中用戶通過AI技術(shù)問答可以實(shí)現(xiàn)自然對(duì)話的方式,輸入技術(shù)問題或關(guān)鍵詞后,即可獲得經(jīng)過整理匯總的相關(guān)技術(shù)方案。在智慧芽新藥情報(bào)庫(kù)Synapse中,用戶可通過醫(yī)藥情報(bào)助手一鍵生成詳盡的藥物調(diào)研報(bào)告,還可提煉總結(jié)核心信息,將所選英文內(nèi)容翻譯成中文,或解釋生物醫(yī)藥術(shù)語等。