8月27日,智慧芽宣布開放“生物醫藥大模型評測數據集”,旨在全面評估生物醫藥領域的大模型在藥物研發、臨床試驗等專業場景中的問答能力,為生物醫藥大模型的蓬勃發展提供強有力的技術支撐和保障,助推行業打破醫藥研發的“三十魔咒”。
智慧芽“生物醫藥大模型評測數據集”基于通用評估標準,并結合醫藥領域中生物醫藥研發、臨床試驗與循證醫學、藥政與準入、生物序列與化學結構等真實業務場景,以及綜合能力考試,構建了3500個高質量問答對,以準確評測大模型的問答能力。目前,該數據集中的核心問答對已正式向業界開放。(詳細介紹:
www.zhihuiya.com/AI/data-test)
智慧芽技術副總裁屠昶旸表示:“評測數據集是檢驗大模型應用能力的試金石。智慧芽構建評測數據集,不僅是為了給自研的垂直領域大模型提供科學、嚴謹的優化方向,確保其在專業領域中的卓越表現,更是希望通過向全行業開放這一評測基準,助力推動AI大模型在醫藥領域的深度應用,提升信息獲取分析效率,最終加速藥物研發進程。”
構建3500個問答對,緊貼生物醫藥專業場景
鑒于生物醫藥領域研發專業性強、數據量大、準確性要求高等特點,通用大模型難以完全滿足其應用需求,因此市場上涌現了眾多專注于生物醫藥領域的大模型。然而,現有的評測方法主要關注醫藥知識問答和對話生成任務的性能,忽視了關系提取、信息檢索等關鍵能力的評估。這不僅影響了開發人員對大模型性能的準確評估,也限制了大模型在藥物研發關鍵環節中的實際應用。
為應對這一行業挑戰,智慧芽構建了“生物醫藥大模型評測數據集”,致力于為生物醫藥領域大模型的研發和應用提供全新的標準化評測基準。它不僅考察大模型對生物醫藥知識的掌握程度,更注重其在實際業務場景中的應用能力,有效彌補了現有評測基準未能覆蓋醫藥研發實踐中真實業務挑戰的不足。智慧芽誠摯邀請各大模型開發團隊利用該評測數據集來全面評估模型能力。
圖:智慧芽生物醫藥大模型評測數據集題目示意
智慧芽邀請十余位從事生物醫藥產品測試檢驗的資深專家參與構建本評測數據集,從該領域的專利文獻、論文文獻、新聞資訊及領域專家的文章等內容中提取問答對或者自主構建相關的問題,以生成具有標準期望答案的問答對。隨后,多名生物醫藥領域專家進行交叉復審,最終形成了涵蓋藥物研發、臨床試驗等專業場景的3500條高質量問答對,全面考察大模型應對前沿知識和解決實際難題的能力。
圖:智慧芽大模型評測數據集構建方法
生物醫藥領域大模型的開發人員可借助該數據集,對其模型在專業場景中的問答能力進行綜合評估,了解其在不同任務中的表現,并以此為依據不斷改進模型,提升性能。經"智慧芽生物醫藥評測數據集"評估的大模型,有望顯著加速新藥研發和臨床試驗進程,提高生物醫藥研究的效率和準確性,進而降低研發成本,推動醫療健康行業的整體發展。
智慧芽生物醫藥大模型,專業能力超越通用大模型
根據“生物醫藥大模型評測數據集”評測結果顯示,“智慧芽生物醫藥大模型”達到了通過中國執業藥師職業資格考試、美國注冊藥劑師考試(NAPLEX)的水平,專業能力比肩人類專家,并在考試能力、機器翻譯、分類能力等多個維度上整體優于商業通用大模型。
圖:智慧芽生物醫藥大模型評測結果
“智慧芽生物醫藥大模型”基于融合命名實體識別(NER)、化學式圖像識別技術以及醫藥知識圖譜等尖端算法,構建了全面的數據處理框架,通過知識增強和行業邏輯的結合,有效解決了信息"幻覺"問題,確保了信息的準確性和合規性。此外,在訓練過程中,“智慧芽生物醫藥大模型”的預訓練數據中整合了1600萬+醫藥專利、1000萬+生命科學論文、100萬+行業新聞、20萬+臨床試驗數據、5萬+醫藥政策文件等數據,為其強大的專業能力奠定了數據基礎。
展望未來,智慧芽將開放更多大模型評測數據集,與業界共享研究成果,同時也誠邀各行業專家參與垂直領域大模型的開發應用,共同推動AI賦能科技創新的發展。