8月21日，AI驅(qū)動(dòng)的科技創(chuàng)新和知識(shí)產(chǎn)權(quán)信息服務(wù)商智慧芽發(fā)表最新研究成果《一項(xiàng)研究：AI工具的查新檢索基準(zhǔn)測(cè)試》。該研究針對(duì)真實(shí)專利工作場(chǎng)景下的查新檢索任務(wù)設(shè)計(jì)“PatentBench-查新檢索”評(píng)測(cè)基準(zhǔn)，并對(duì)智慧芽“查新檢索AI Agent”、ChatGPT-o3（聯(lián)網(wǎng)搜索版）、DeepSeek-R1（聯(lián)網(wǎng)搜索版）三個(gè)AI工具開(kāi)展了查新檢索能力的基準(zhǔn)測(cè)試。

評(píng)測(cè)結(jié)果顯示，智慧芽"查新檢索AI Agent"在核心評(píng)估指標(biāo)上顯著優(yōu)于ChatGPT-o3、DeepSeek-R1（兩者皆為聯(lián)網(wǎng)搜索版）為代表的通用AI工具，X檢出率和X召回率分別達(dá)到76%和32%，是通用AI工具的2-3倍。

"過(guò)去一段時(shí)間里，智慧芽在專利和研發(fā)場(chǎng)景推出了幾十款A(yù)I Agents工具，但大家都會(huì)問(wèn)：如何驗(yàn)證評(píng)估不同工具在專利查新檢索中的效率和能力？"智慧芽創(chuàng)始人兼CEO張濟(jì)徽表示，"今天公布的測(cè)試結(jié)果給出了關(guān)于AI工具專業(yè)能力的科學(xué)答案。我們期待讓大家更加客觀、直觀地看到專業(yè)AI工具如何幫助企業(yè)在知識(shí)產(chǎn)權(quán)工作中實(shí)現(xiàn)降本增效。"

專業(yè)評(píng)測(cè)驗(yàn)證AI工具處理專利任務(wù)的真實(shí)性能

查新檢索是指針對(duì)某項(xiàng)技術(shù)方案或?qū)＠暾?qǐng)，系統(tǒng)檢索全球現(xiàn)有技術(shù)，以判斷其是否具備"新穎性"和"創(chuàng)造性"的專業(yè)檢索過(guò)程。由于專利工作橫跨法律、技術(shù)和商業(yè)三大交叉領(lǐng)域，具有極高的專業(yè)壁壘，通用的AI工具往往難以準(zhǔn)確勝任專利場(chǎng)景中的復(fù)雜任務(wù)。

此次評(píng)測(cè)基于跨受理局并行審查的國(guó)際同族專利構(gòu)建了高質(zhì)量評(píng)測(cè)數(shù)據(jù)集。通過(guò)自研的權(quán)利要求一致性比對(duì)模型進(jìn)行語(yǔ)義對(duì)齊與技術(shù)相似度評(píng)估，消除語(yǔ)言表述差異帶來(lái)的影響，確保測(cè)試的客觀性和準(zhǔn)確性。評(píng)測(cè)以各受理局審查員在判斷新穎性與創(chuàng)造性時(shí)實(shí)際引用的關(guān)鍵X、Y類對(duì)比文獻(xiàn)作為評(píng)測(cè)的"基準(zhǔn)答案"，經(jīng)過(guò)去重與標(biāo)引規(guī)范化整合，形成一致且可復(fù)用的參考標(biāo)準(zhǔn)。本次評(píng)測(cè)精選了89個(gè)滿足嚴(yán)格要求的測(cè)試樣本，其中38.2%為中文文本，61.8%為英文文本，在IPC分類號(hào)上實(shí)現(xiàn)均勻分布，真實(shí)模擬現(xiàn)實(shí)中的查新檢索場(chǎng)景。

圖：89個(gè)測(cè)試樣本的專利文本語(yǔ)言、IPC分類號(hào)分布情況

在評(píng)估指標(biāo)方面，本次評(píng)測(cè)采用"X檢出率"和"X查全率"兩大核心指標(biāo)。“X檢出率”用以衡量AI工具能否檢索到X文獻(xiàn)的能力，其在專利審查階段尤為關(guān)鍵，審查員只需要找到少量X文獻(xiàn)即可快速判定某件專利申請(qǐng)是否缺乏“新創(chuàng)性”。在針對(duì)每個(gè)樣本的測(cè)試中，在TopK返回結(jié)果中，命中了“X文獻(xiàn)全集”中的任一X文獻(xiàn)，則記為“1”，未命中記為“0”，命中了X文獻(xiàn)的測(cè)試樣本數(shù)量的比例即為“X檢出率”。

圖：“PatentBench-查新檢索”的“X檢出率”計(jì)算公式

“X查全率”旨在衡量AI工具能否檢索到盡可能多的X文獻(xiàn)的能力，其在研發(fā)立項(xiàng)階段和專利申請(qǐng)前階段至關(guān)重要，無(wú)論是企業(yè)研發(fā)人員、專利人員還是外部專利代理師，都需要盡可能全面地找到X文獻(xiàn)，以指導(dǎo)技術(shù)方案的調(diào)整、權(quán)利要求書的撰寫，從而提高專利授權(quán)率。在整個(gè)測(cè)試數(shù)據(jù)集中，Top100返回結(jié)果中命中的X文獻(xiàn)數(shù)量占所有測(cè)試樣本中的X文獻(xiàn)總數(shù)量的比例，即為“X查全率”。

圖：“PatentBench-查新檢索”的“X查全率”計(jì)算公式

智慧芽查新檢索AI Agent評(píng)測(cè)表現(xiàn)領(lǐng)先通用大模型

研究顯示，智慧芽查新檢索AI Agent的“X檢出率”高達(dá)76%，是另外兩款通用AI工具的2倍以上，ChatGPT-o3（聯(lián)網(wǎng)搜索版）為32%、DeepSeek-R1（聯(lián)網(wǎng)搜索版）為9%。這意味著，所有89個(gè)測(cè)試樣本中，智慧芽在其中四分之三的測(cè)試樣本中都找到了至少1個(gè)X文獻(xiàn)。

圖：“X檢出率”評(píng)測(cè)結(jié)果

與此同時(shí)，智慧芽查新檢索AI Agent的“X查全率”為32%，甚至達(dá)到了另外兩款通用AI工具的3倍以上，ChatGPT-o3（聯(lián)網(wǎng)搜索版）為11%，DeepSeek-R1（聯(lián)網(wǎng)搜索版）為3%。這表明，在Top100返回結(jié)果中，智慧芽的Agent已能發(fā)現(xiàn)32%的正確答案，若結(jié)合后續(xù)人類專家的篩選，X文獻(xiàn)檢索結(jié)果將更加完整。

圖：“X查全率”評(píng)測(cè)結(jié)果

綜上表明，智慧芽查新檢索AI Agent在查新檢索場(chǎng)景中的評(píng)測(cè)表現(xiàn)，遠(yuǎn)遠(yuǎn)超越通用大模型。盡管通用大模型具備強(qiáng)大的泛化推理能力，但在專利查新檢索這類高度專業(yè)化任務(wù)中仍存在顯著局限。專業(yè)領(lǐng)域AI工具的針對(duì)性發(fā)展，在專利垂直場(chǎng)景中展現(xiàn)出不可替代的必要性與應(yīng)用價(jià)值。

專業(yè)工作交給專業(yè)AI

智慧芽查新檢索AI Agent之所以能夠達(dá)到上述基準(zhǔn)測(cè)試結(jié)果的高水平，源于其垂直領(lǐng)域模型微調(diào)和RAG技術(shù)。該Agent對(duì)基礎(chǔ)開(kāi)源大模型進(jìn)行了系統(tǒng)化的專利領(lǐng)域?qū)I(yè)知識(shí)微調(diào)，確保模型能夠深度理解專利技術(shù)語(yǔ)言和檢索邏輯。在此基礎(chǔ)上，Agent采用檢索增強(qiáng)生成（RAG）技術(shù)執(zhí)行高質(zhì)量的檢索工作，將實(shí)時(shí)檢索能力與生成能力有機(jī)結(jié)合。通過(guò)這種技術(shù)組合，智慧芽Agent能夠準(zhǔn)確捕獲文本中的關(guān)鍵技術(shù)特征，實(shí)施精密的檢索策略，并提供低幻覺(jué)的可靠結(jié)果，從而在專業(yè)查新檢索任務(wù)中展現(xiàn)出顯著優(yōu)于通用大模型的性能優(yōu)勢(shì)。

基于上述優(yōu)勢(shì)，對(duì)于在企業(yè)或?qū)＠頇C(jī)構(gòu)從事專利申請(qǐng)相關(guān)工作的知識(shí)產(chǎn)權(quán)專業(yè)人士來(lái)說(shuō)，智慧芽查新檢索AI Agent是一款能在保持準(zhǔn)確性的同時(shí)成倍提高新穎性檢索效率的工具。通過(guò)在幾分鐘內(nèi)完成傳統(tǒng)需要數(shù)小時(shí)的搜索、篩選和排序工作，專業(yè)人士可以將精力集中在更高價(jià)值的分析和決策上，實(shí)現(xiàn)從“3天重復(fù)性檢索工作”到“3小時(shí)高質(zhì)量分析工作”的效率躍升。

此外，對(duì)于正在進(jìn)行項(xiàng)目預(yù)研立項(xiàng)的企業(yè)研發(fā)團(tuán)隊(duì)而言，“查新檢索AI Agent”可能是一個(gè)革命性的解決方案，通過(guò)在早期階段進(jìn)行高效的查新檢索，從而顯著降低缺乏新穎性的風(fēng)險(xiǎn)，并最大限度地減少研發(fā)資源的潛在浪費(fèi)，為研發(fā)工作流帶來(lái)巨大的轉(zhuǎn)變。

欧美一级毛片高清毛片_久久99精品久久久久久噜噜丰满_亚洲精品成人一区二区aⅴ_全部免费a级毛片

權(quán)威評(píng)測(cè)顯示：智慧芽AI Agent查新檢索能力遠(yuǎn)超通用大模型

專業(yè)評(píng)測(cè)驗(yàn)證AI工具處理專利任務(wù)的真實(shí)性能

智慧芽查新檢索AI Agent評(píng)測(cè)表現(xiàn)領(lǐng)先通用大模型

專業(yè)工作交給專業(yè)AI