8月21日,AI驅(qū)動(dòng)的科技創(chuàng)新和知識(shí)產(chǎn)權(quán)信息服務(wù)商智慧芽發(fā)表最新研究成果《一項(xiàng)研究:AI工具的查新檢索基準(zhǔn)測(cè)試》。該研究針對(duì)真實(shí)專利工作場(chǎng)景下的查新檢索任務(wù)設(shè)計(jì)“PatentBench-查新檢索”評(píng)測(cè)基準(zhǔn),并對(duì)智慧芽“查新檢索AI Agent”、ChatGPT-o3(聯(lián)網(wǎng)搜索版)、DeepSeek-R1(聯(lián)網(wǎng)搜索版)三個(gè)AI工具開(kāi)展了查新檢索能力的基準(zhǔn)測(cè)試。
評(píng)測(cè)結(jié)果顯示,智慧芽"查新檢索AI Agent"在核心評(píng)估指標(biāo)上顯著優(yōu)于ChatGPT-o3、DeepSeek-R1(兩者皆為聯(lián)網(wǎng)搜索版)為代表的通用AI工具,X檢出率和X召回率分別達(dá)到76%和32%,是通用AI工具的2-3倍。
"過(guò)去一段時(shí)間里,智慧芽在專利和研發(fā)場(chǎng)景推出了幾十款A(yù)I Agents工具,但大家都會(huì)問(wèn):如何驗(yàn)證評(píng)估不同工具在專利查新檢索中的效率和能力?"智慧芽創(chuàng)始人兼CEO張濟(jì)徽表示,"今天公布的測(cè)試結(jié)果給出了關(guān)于AI工具專業(yè)能力的科學(xué)答案。我們期待讓大家更加客觀、直觀地看到專業(yè)AI工具如何幫助企業(yè)在知識(shí)產(chǎn)權(quán)工作中實(shí)現(xiàn)降本增效。"
專業(yè)評(píng)測(cè)驗(yàn)證AI工具處理專利任務(wù)的真實(shí)性能
查新檢索是指針對(duì)某項(xiàng)技術(shù)方案或?qū)@暾?qǐng),系統(tǒng)檢索全球現(xiàn)有技術(shù),以判斷其是否具備"新穎性"和"創(chuàng)造性"的專業(yè)檢索過(guò)程。由于專利工作橫跨法律、技術(shù)和商業(yè)三大交叉領(lǐng)域,具有極高的專業(yè)壁壘,通用的AI工具往往難以準(zhǔn)確勝任專利場(chǎng)景中的復(fù)雜任務(wù)。
此次評(píng)測(cè)基于跨受理局并行審查的國(guó)際同族專利構(gòu)建了高質(zhì)量評(píng)測(cè)數(shù)據(jù)集。通過(guò)自研的權(quán)利要求一致性比對(duì)模型進(jìn)行語(yǔ)義對(duì)齊與技術(shù)相似度評(píng)估,消除語(yǔ)言表述差異帶來(lái)的影響,確保測(cè)試的客觀性和準(zhǔn)確性。評(píng)測(cè)以各受理局審查員在判斷新穎性與創(chuàng)造性時(shí)實(shí)際引用的關(guān)鍵X、Y類對(duì)比文獻(xiàn)作為評(píng)測(cè)的"基準(zhǔn)答案",經(jīng)過(guò)去重與標(biāo)引規(guī)范化整合,形成一致且可復(fù)用的參考標(biāo)準(zhǔn)。本次評(píng)測(cè)精選了89個(gè)滿足嚴(yán)格要求的測(cè)試樣本,其中38.2%為中文文本,61.8%為英文文本,在IPC分類號(hào)上實(shí)現(xiàn)均勻分布,真實(shí)模擬現(xiàn)實(shí)中的查新檢索場(chǎng)景。

圖:89個(gè)測(cè)試樣本的專利文本語(yǔ)言、IPC分類號(hào)分布情況
在評(píng)估指標(biāo)方面,本次評(píng)測(cè)采用"X檢出率"和"X查全率"兩大核心指標(biāo)。“X檢出率”用以衡量AI工具能否檢索到X文獻(xiàn)的能力,其在專利審查階段尤為關(guān)鍵,審查員只需要找到少量X文獻(xiàn)即可快速判定某件專利申請(qǐng)是否缺乏“新創(chuàng)性”。在針對(duì)每個(gè)樣本的測(cè)試中,在TopK返回結(jié)果中,命中了“X文獻(xiàn)全集”中的任一X文獻(xiàn),則記為“1”,未命中記為“0”,命中了X文獻(xiàn)的測(cè)試樣本數(shù)量的比例即為“X檢出率”。

圖:“PatentBench-查新檢索”的“X檢出率”計(jì)算公式
“X查全率”旨在衡量AI工具能否檢索到盡可能多的X文獻(xiàn)的能力,其在研發(fā)立項(xiàng)階段和專利申請(qǐng)前階段至關(guān)重要,無(wú)論是企業(yè)研發(fā)人員、專利人員還是外部專利代理師,都需要盡可能全面地找到X文獻(xiàn),以指導(dǎo)技術(shù)方案的調(diào)整、權(quán)利要求書的撰寫,從而提高專利授權(quán)率。在整個(gè)測(cè)試數(shù)據(jù)集中,Top100返回結(jié)果中命中的X文獻(xiàn)數(shù)量占所有測(cè)試樣本中的X文獻(xiàn)總數(shù)量的比例,即為“X查全率”。

圖:“PatentBench-查新檢索”的“X查全率”計(jì)算公式
智慧芽查新檢索AI Agent評(píng)測(cè)表現(xiàn)領(lǐng)先通用大模型
研究顯示,智慧芽查新檢索AI Agent的“X檢出率”高達(dá)76%,是另外兩款通用AI工具的2倍以上,ChatGPT-o3(聯(lián)網(wǎng)搜索版)為32%、DeepSeek-R1(聯(lián)網(wǎng)搜索版)為9%。這意味著,所有89個(gè)測(cè)試樣本中,智慧芽在其中四分之三的測(cè)試樣本中都找到了至少1個(gè)X文獻(xiàn)。

圖:“X檢出率”評(píng)測(cè)結(jié)果
與此同時(shí),智慧芽查新檢索AI Agent的“X查全率”為32%,甚至達(dá)到了另外兩款通用AI工具的3倍以上,ChatGPT-o3(聯(lián)網(wǎng)搜索版)為11%,DeepSeek-R1(聯(lián)網(wǎng)搜索版)為3%。這表明,在Top100返回結(jié)果中,智慧芽的Agent已能發(fā)現(xiàn)32%的正確答案,若結(jié)合后續(xù)人類專家的篩選,X文獻(xiàn)檢索結(jié)果將更加完整。

圖:“X查全率”評(píng)測(cè)結(jié)果
綜上表明,智慧芽查新檢索AI Agent在查新檢索場(chǎng)景中的評(píng)測(cè)表現(xiàn),遠(yuǎn)遠(yuǎn)超越通用大模型。盡管通用大模型具備強(qiáng)大的泛化推理能力,但在專利查新檢索這類高度專業(yè)化任務(wù)中仍存在顯著局限。專業(yè)領(lǐng)域AI工具的針對(duì)性發(fā)展,在專利垂直場(chǎng)景中展現(xiàn)出不可替代的必要性與應(yīng)用價(jià)值。
專業(yè)工作交給專業(yè)AI
智慧芽查新檢索AI Agent之所以能夠達(dá)到上述基準(zhǔn)測(cè)試結(jié)果的高水平,源于其垂直領(lǐng)域模型微調(diào)和RAG技術(shù)。該Agent對(duì)基礎(chǔ)開(kāi)源大模型進(jìn)行了系統(tǒng)化的專利領(lǐng)域?qū)I(yè)知識(shí)微調(diào),確保模型能夠深度理解專利技術(shù)語(yǔ)言和檢索邏輯。在此基礎(chǔ)上,Agent采用檢索增強(qiáng)生成(RAG)技術(shù)執(zhí)行高質(zhì)量的檢索工作,將實(shí)時(shí)檢索能力與生成能力有機(jī)結(jié)合。通過(guò)這種技術(shù)組合,智慧芽Agent能夠準(zhǔn)確捕獲文本中的關(guān)鍵技術(shù)特征,實(shí)施精密的檢索策略,并提供低幻覺(jué)的可靠結(jié)果,從而在專業(yè)查新檢索任務(wù)中展現(xiàn)出顯著優(yōu)于通用大模型的性能優(yōu)勢(shì)。
基于上述優(yōu)勢(shì),對(duì)于在企業(yè)或?qū)@頇C(jī)構(gòu)從事專利申請(qǐng)相關(guān)工作的知識(shí)產(chǎn)權(quán)專業(yè)人士來(lái)說(shuō),智慧芽查新檢索AI Agent是一款能在保持準(zhǔn)確性的同時(shí)成倍提高新穎性檢索效率的工具。通過(guò)在幾分鐘內(nèi)完成傳統(tǒng)需要數(shù)小時(shí)的搜索、篩選和排序工作,專業(yè)人士可以將精力集中在更高價(jià)值的分析和決策上,實(shí)現(xiàn)從“3天重復(fù)性檢索工作”到“3小時(shí)高質(zhì)量分析工作”的效率躍升。
此外,對(duì)于正在進(jìn)行項(xiàng)目預(yù)研立項(xiàng)的企業(yè)研發(fā)團(tuán)隊(duì)而言,“查新檢索AI Agent”可能是一個(gè)革命性的解決方案,通過(guò)在早期階段進(jìn)行高效的查新檢索,從而顯著降低缺乏新穎性的風(fēng)險(xiǎn),并最大限度地減少研發(fā)資源的潛在浪費(fèi),為研發(fā)工作流帶來(lái)巨大的轉(zhuǎn)變。