病理圖像人工智能分析軟件臨床評價審評要點（2023年第23號）

發(fā)布日期：2023-07-10 閱讀量：次

附件：病理圖像人工智能分析軟件臨床評價審評要點（2023年第23號）.doc

病理圖像人工智能分析軟件臨床評價審評要點（2023年第23號）(圖1)

病理圖像人工智能分析軟件臨床評價審評要點

本審評要點旨在指導(dǎo)注冊申請人對病理圖像人工智能分析軟件臨床評價注冊申報資料的準(zhǔn)備及撰寫，同時也為技術(shù)審評部門提供參考。

本審評要點是對病理圖像人工智能分析軟件的一般要求，申請人應(yīng)依據(jù)產(chǎn)品的具體特性確定其中內(nèi)容是否適用。若不適用，需具體闡述理由并提供相應(yīng)的科學(xué)依據(jù)，同時依據(jù)產(chǎn)品的具體特性對注冊申報資料的內(nèi)容進(jìn)行充實和細(xì)化。

本審評要點是供注冊申請人和技術(shù)審評人員使用的指導(dǎo)性文件，但不包括審評審批所涉及的行政事項，亦不作為法規(guī)強(qiáng)制執(zhí)行，應(yīng)在遵循相關(guān)法規(guī)的前提下使用本審評要點。如果有能夠滿足相關(guān)法規(guī)要求的其他方法，也可以采用，但是需要提供詳細(xì)的研究資料和驗證資料。

本審評要點是在現(xiàn)行法規(guī)和標(biāo)準(zhǔn)體系以及當(dāng)前認(rèn)知水平下制定，隨著法規(guī)和標(biāo)準(zhǔn)的不斷完善，以及科學(xué)技術(shù)的不斷發(fā)展，相關(guān)內(nèi)容也將適時進(jìn)行調(diào)整。

一、適用范圍

病理圖像人工智能分析軟件是指基于數(shù)字病理圖像，采用深度學(xué)習(xí)等人工智能技術(shù)實現(xiàn)對病理圖像的分割、檢測等功能的醫(yī)療器械。數(shù)字病理圖像包括經(jīng)數(shù)據(jù)成像設(shè)備獲得的顯微鏡下細(xì)胞或組織圖像、全玻片數(shù)字掃描技術(shù)（Whole Slide Imaging, WSI）的病理圖像等。產(chǎn)品在醫(yī)療機(jī)構(gòu)和/或醫(yī)學(xué)實驗室使用，可輔助病理醫(yī)師為疾病的診斷、預(yù)后、治療等提供信息，不能作為臨床診斷決策的唯一依據(jù)。

本審評要點基于全玻片數(shù)字掃描技術(shù)( whole slide imaging，WSI)的病理圖像人工智能分析軟件產(chǎn)品臨床評價進(jìn)行闡述，用于經(jīng)數(shù)據(jù)成像設(shè)備獲得的顯微鏡下細(xì)胞或組織圖像分析的相關(guān)產(chǎn)品臨床評價可以適當(dāng)參考本審評要點。

二、臨床評價路徑

病理圖像人工智能分析軟件臨床評價應(yīng)符合《醫(yī)療器械臨床評價技術(shù)指導(dǎo)原則》要求。影響該軟件性能因素包括核心算法、算法訓(xùn)練等多個方面。針對兩個不同的分析軟件，即使采用的核心算法相同，但是，不同的分析軟件在算法訓(xùn)練過程中使用的訓(xùn)練集不同，不同訓(xùn)練集的標(biāo)注可能存在差異，因此，針對該類產(chǎn)品臨床性能的確認(rèn)應(yīng)采用臨床試驗的方式，不適合采用同品種比對的方式。

三、臨床試驗

在開展臨床試驗之前，病理圖像人工智能分析軟件產(chǎn)品應(yīng)完成產(chǎn)品開發(fā)，確保產(chǎn)品已經(jīng)定型?；谠擃惍a(chǎn)品的特點，產(chǎn)品在開發(fā)過程中需采用滿足要求的數(shù)據(jù)對算法進(jìn)行訓(xùn)練，在算法訓(xùn)練過程中，應(yīng)保證訓(xùn)練集數(shù)據(jù)標(biāo)注的質(zhì)量以及訓(xùn)練集具有足夠樣本量，確保經(jīng)過訓(xùn)練的軟件在臨床前研究中性能穩(wěn)定。在軟件開發(fā)過程中，有時存在算法調(diào)優(yōu)的情況。需要注意的是，用于開展臨床試驗的產(chǎn)品必須為完成算法訓(xùn)練及調(diào)優(yōu)的產(chǎn)品。產(chǎn)品臨床試驗啟動后不能對算法進(jìn)行訓(xùn)練或調(diào)優(yōu)。產(chǎn)品應(yīng)進(jìn)行充分的臨床前研究，以保證產(chǎn)品臨床試驗過程中，不會對受試者產(chǎn)生額外的傷害。

1.臨床試驗機(jī)構(gòu)

考慮到病理圖像判讀容易在機(jī)構(gòu)和閱片醫(yī)師間產(chǎn)生差異，產(chǎn)品臨床試驗建議采用多中心臨床進(jìn)行，臨床試驗機(jī)構(gòu)數(shù)量建議不少于3家。臨床試驗機(jī)構(gòu)應(yīng)獲得國家藥品監(jiān)督管理局備案認(rèn)可。臨床試驗機(jī)構(gòu)應(yīng)具有嚴(yán)格的質(zhì)量管理體系，執(zhí)行實驗室內(nèi)部日常質(zhì)量控制。

臨床試驗建議選擇具有相關(guān)學(xué)科優(yōu)勢的臨床試驗機(jī)構(gòu)。臨床試驗中應(yīng)根據(jù)試驗設(shè)計設(shè)定不同資歷的病理醫(yī)師參與試驗，病理醫(yī)師資歷劃分應(yīng)合理。

2.臨床試驗?zāi)康?

產(chǎn)品臨床試驗應(yīng)該能夠充確認(rèn)產(chǎn)品臨床性能，證明產(chǎn)品能夠?qū)崿F(xiàn)其宣稱的預(yù)期用途。病理圖像人工智能分析軟件的臨床應(yīng)用，應(yīng)對病理醫(yī)師的診療活動有所獲益，如：提高病理醫(yī)師診斷準(zhǔn)確性，提高病理醫(yī)師閱片重現(xiàn)性，縮短病理醫(yī)師閱片時間等。臨床試驗應(yīng)確認(rèn)主要評價指標(biāo)的優(yōu)效性。

3.臨床試驗設(shè)計

根據(jù)產(chǎn)品特點和產(chǎn)品性能評價需要，病理圖像人工智能分析軟件臨床試驗可能包括不同的臨床試驗?zāi)康?，有必要針對各個臨床試驗?zāi)康?，分別進(jìn)行科學(xué)的臨床試驗設(shè)計，包括選擇適當(dāng)?shù)呐R床試驗設(shè)計類型。本審評要點以提高病理醫(yī)師診斷準(zhǔn)確性或縮短閱片時間為例，進(jìn)行臨床試驗設(shè)計闡述。

此類產(chǎn)品臨床試驗一般需考慮開展對照研究，對照研究有多種設(shè)計方法，根據(jù)產(chǎn)品特征及臨床試驗實際，可選擇多閱片者多數(shù)據(jù)樣本（multiple reader multiple case，MRMC）、隨機(jī)交叉自身對照等試驗設(shè)計。如臨床試驗采用其他設(shè)計，在闡明設(shè)計科學(xué)合理的前提下，也可用于評價產(chǎn)品臨床性能。以下僅詳細(xì)闡述多閱片者多數(shù)據(jù)樣本（multiple reader multiple case，MRMC）、隨機(jī)交叉自身對照兩種設(shè)計。

3.1多閱片者多數(shù)據(jù)樣本（multiple reader multiple case，MRMC）設(shè)計

如采用此種設(shè)計，整個臨床試驗由協(xié)調(diào)研究者組織，各臨床試驗機(jī)構(gòu)閱片者整體進(jìn)行分組，各臨床試驗機(jī)構(gòu)入組的病例共同組成分析集。臨床試驗將參與的閱片者分為兩組。兩組病理醫(yī)師分別在軟件的輔助下及未使用軟件的情況下對入組的病理圖像（或病理切片）進(jìn)行判讀，判讀結(jié)果以臨床參考標(biāo)準(zhǔn)為準(zhǔn)，分別評價軟件輔助下及未使用軟件的情況下病理醫(yī)師診斷準(zhǔn)確性。

試驗過程分為兩個階段，第一組病理醫(yī)師第一階段在使用軟件輔助的條件下完成所有病理圖像（或病理切片）的判讀；經(jīng)一定的洗脫期后，第二階段在不使用軟件輔助的條件下完成所有病理圖像（或病理切片）的判讀。第二組醫(yī)師第一階段在不使用軟件輔助的條件下完成所有病理圖像（或病理切片）的判讀；經(jīng)一定的洗脫期后，第二階段在使用軟件輔助的條件下完成所有病理圖像（或病理切片）的判讀。該試驗中醫(yī)師使用軟件輔助的判讀結(jié)果作為試驗組，不使用軟件輔助判讀的結(jié)果作為對照組，比較試驗組與對照組同臨床參考標(biāo)準(zhǔn)對比病理圖像（或病理切片）判讀的準(zhǔn)確度。閱片過程中每名醫(yī)師需分別在使用軟件和不使用軟件的條件下都完成所有入組病理圖像（或病理切片）的閱片。

3.2隨機(jī)交叉自身對照設(shè)計

該設(shè)計應(yīng)在每家臨床試驗機(jī)構(gòu)單獨開展，臨床試驗協(xié)調(diào)研究者最終將各機(jī)構(gòu)數(shù)據(jù)匯總統(tǒng)計。每家臨床試驗機(jī)構(gòu)由資質(zhì)滿足要求的研究者參與。臨床試驗過程中研究者開展兩個階段工作，一是，研究者使用軟件對病理圖像（或病理切片）進(jìn)行判讀，二是，上述研究者未使用軟件分別對入組的病理圖像（或病理切片）進(jìn)行判讀。判讀結(jié)果以臨床參考標(biāo)準(zhǔn)為準(zhǔn)，分別評價軟件輔助下及未使用軟件的情況下病理醫(yī)師診斷準(zhǔn)確性。

試驗過程將入組的病理圖像（或病理切片）隨機(jī)平均分為兩組，臨床試驗分為兩個階段，第一階段病理醫(yī)師在使用軟件輔助的條件下完第一組病理圖像（或病理切片）的判讀，同時在不使用軟件輔助的條件下完成第二組病理圖像（或病理切片）的判讀；經(jīng)一定的洗脫期后，第二階段在不使用軟件輔助的條件下完成第一組病理圖像（或病理切片）的判讀，同時在使用軟件輔助的條件下完第二組病理圖像（或病理切片）的判讀。該試驗中醫(yī)師使用軟件輔助的判讀結(jié)果作為試驗組，不使用軟件輔助判讀的結(jié)果作為對照組，比較試驗組與對照組同臨床參考標(biāo)準(zhǔn)對比，病理圖像（或病理切片）判讀的準(zhǔn)確度。閱片過程中每名醫(yī)師需分別在使用軟件和不使用軟件的條件下都完成所有入組病例圖像的閱片。

4.臨床試驗參考標(biāo)準(zhǔn)

臨床參考標(biāo)準(zhǔn)是指現(xiàn)有條件下臨床上可獲得的能夠用來確定受試者目標(biāo)狀態(tài)的最佳方法，通常來自臨床和實驗室的醫(yī)學(xué)實踐，包括：現(xiàn)有條件下公認(rèn)的、可靠的、權(quán)威的疾病診斷標(biāo)準(zhǔn)（如組織病理學(xué)檢查、影像學(xué)檢查、病原體分離培養(yǎng)鑒定、長期隨訪所得的結(jié)論等），疾病診療指南中明確的疾病診斷方法，行業(yè)內(nèi)專家共識推薦的或臨床上公認(rèn)的、合理的參考方法等。臨床參考標(biāo)準(zhǔn)可能是一種方法，也可能是多種方法相結(jié)合。

如根據(jù)產(chǎn)品臨床試驗要求，臨床試驗過程中需要以病理閱片結(jié)果作為參考標(biāo)準(zhǔn)。一般而言，病理閱片的參考標(biāo)準(zhǔn)為多位具有資深經(jīng)驗的病理醫(yī)師組成的病理醫(yī)師專家組共同對病理切片進(jìn)行判讀的結(jié)果，專家組中病理醫(yī)師的數(shù)量一般不少于3人。參考標(biāo)準(zhǔn)應(yīng)明確病理結(jié)果判定的決策機(jī)制，特別是針對專家組中不同病理醫(yī)師判讀結(jié)果存在差異的情況下，應(yīng)明確后續(xù)的處理措施及最終結(jié)果確定的依據(jù)。

5.臨床試驗入組人群

病理圖像人工智能分析軟件臨床研究入組的受試者應(yīng)為產(chǎn)品預(yù)期適用人群。受試者應(yīng)具有代表性，如針對腫瘤輔助診斷的產(chǎn)品，入組的受試者應(yīng)包括各種組織類型、不同的腫瘤分級、分期以及相關(guān)良性疾病、其他易混淆、干擾病例等。

為了更加科學(xué)的評價產(chǎn)品性能，臨床試驗應(yīng)包含部分病理醫(yī)師難以診斷的病例及陽性閾值臨近范圍內(nèi)的病例。

根據(jù)產(chǎn)品評價要求，臨床試驗入組的病例應(yīng)與算法訓(xùn)練及調(diào)優(yōu)的病例不同。

6.臨床評價指標(biāo)

針對定性分析，臨床試驗評價指標(biāo)特別是主要評價指標(biāo)應(yīng)根據(jù)臨床試驗?zāi)康募霸O(shè)計確定。臨床試驗主要評價指標(biāo)為使用軟件的病理醫(yī)師與未使用軟件的病理醫(yī)師閱片與臨床參考標(biāo)準(zhǔn)對比的陽性一致率、陰性一致率；使用軟件的病理醫(yī)師與未使用軟件的病理醫(yī)師閱片效率；軟件獨立閱片與臨床參考標(biāo)準(zhǔn)的陽性一致率、陰性一致率等。

針對半定量/定量分析，臨床試驗應(yīng)設(shè)置合理的評價指標(biāo)如等級符合率、回歸分析的回歸系數(shù)、截距、相關(guān)系數(shù)和決定系數(shù)等。

臨床試驗應(yīng)考慮整體的優(yōu)效性評價，以定性分析為例，如：使用軟件的病理醫(yī)師與未使用軟件的病理醫(yī)師閱片同臨床參考標(biāo)準(zhǔn)對比的陽性一致率或陰性一致率的優(yōu)效性；或者確保使用軟件的病理醫(yī)師與未使用軟件的病理醫(yī)師閱片同臨床參考標(biāo)準(zhǔn)對比的陽性一致率和陰性一致率的優(yōu)效或非劣效前提下，閱片效率的優(yōu)效性。

7.樣本量估算

樣本量一般根據(jù)臨床試驗的主要評價指標(biāo)進(jìn)行估算。需在臨床試驗方案中說明樣本量估算的相關(guān)要素及其確定依據(jù)、樣本量的具體計算方法。

7.1確認(rèn)軟件提高閱片準(zhǔn)確性的樣本量估算

該類產(chǎn)品臨床試驗的主要評價指標(biāo)為使用軟件作為輔助的病理醫(yī)師與未使用軟件的病理醫(yī)師在閱片準(zhǔn)確性方面的差異。軟件輔助病理醫(yī)師閱片準(zhǔn)確性與病理醫(yī)師單獨閱片相比，準(zhǔn)確性具有顯著提升，軟件的臨床意義才能被確認(rèn)。因此，建議采用優(yōu)效性模型或優(yōu)效性模型與非劣效性模型結(jié)合進(jìn)行樣本量估算。

以定性產(chǎn)品為例，臨床試驗應(yīng)根據(jù)陽性一致率估算陽性病例數(shù)量，根據(jù)陰性一致率估算陰性病例數(shù)量。臨床試驗可針對陽性一致率、陰性一致率均采用優(yōu)效性模型進(jìn)行樣本量估算；也可選擇其中一個指標(biāo)采用優(yōu)效性模型進(jìn)行樣本量估算，另一個指標(biāo)采用非劣效性模型進(jìn)行樣本量估算。

7.2確認(rèn)軟件縮短閱片時間的樣本量估算

該類產(chǎn)品臨床試驗的主要評價指標(biāo)為使用軟件作為輔助的病理醫(yī)師與未使用軟件的病理醫(yī)師在閱片時間等方面的差異。軟件輔助病理醫(yī)師閱片時間與病理醫(yī)師單獨閱片相比，閱片效率具有顯著提升，同時，軟件輔助病理醫(yī)師閱片與病理醫(yī)師單獨閱片相比，閱片準(zhǔn)確性應(yīng)無顯著差異，軟件的臨床意義才能被確認(rèn)。因此，建議針對閱片時間的評價采用優(yōu)效性模型進(jìn)行樣本量估算，同時針對陽性一致率和陰性一致率采用非劣效性模型或優(yōu)效性模型進(jìn)行樣本量估算，臨床試驗樣本量應(yīng)能夠同時滿足上述要求。

臨床試驗樣本量估算還應(yīng)考慮主要評價指標(biāo)有臨床實際意義的界值、主要評價指標(biāo)的相關(guān)參數(shù)（如預(yù)期有效率、均值、標(biāo)準(zhǔn)差等）、Ⅰ類和Ⅱ類錯誤率以及預(yù)期的受試者脫落和方案違背的比例等。針對確認(rèn)軟件縮短閱片時間的樣本量估算，應(yīng)確?？傃芯康蘑蝾愬e誤概率β設(shè)定不大于0.2。

若采用MRMC的試驗設(shè)計，樣本量計算需首先明確具體的分析方法，如Obuchowski-Rockette Analysis（OR分析方法）、Dorfman-Berbaum-Metz-Hillis Analysis（DBMH分析法），并進(jìn)一步明確受試醫(yī)師數(shù)量，顯著性α、把握度1-β、預(yù)計效應(yīng)值，優(yōu)效/非劣效界值，其中預(yù)計效應(yīng)值可通過預(yù)試驗或調(diào)研并匯總分析目標(biāo)病例檢出的診斷學(xué)研究文獻(xiàn)獲得。

8.統(tǒng)計分析

臨床試驗應(yīng)采用合理的方式進(jìn)行統(tǒng)計分析。以定性產(chǎn)品為例，臨床試驗中針對軟件作為輔助的病理醫(yī)師、未使用軟件的病理醫(yī)師、分析軟件閱片的準(zhǔn)確性進(jìn)行統(tǒng)計分析，應(yīng)分別以臨床參考標(biāo)準(zhǔn)為對照，以2×2表的形式統(tǒng)計閱片結(jié)果的陽性一致率、陰性一致率及總一致率。同時針對二者的陽性一致率、陰性一致率及總一致率分別按照要求進(jìn)行假設(shè)檢驗或區(qū)間分析。

確認(rèn)軟件縮短閱片時間的臨床試驗還應(yīng)針對閱片效率進(jìn)行統(tǒng)計分析。

9.偏倚控制

為了控制臨床試驗的偏倚，研究過程中應(yīng)針對病例/切片應(yīng)進(jìn)行設(shè)盲，使研究者在試驗過程中不知曉受試者疾病診斷或其他相關(guān)檢測等信息，從而避免引入偏倚。

臨床試驗涉及同一個病理醫(yī)師兩次閱片的情況，病理醫(yī)師在進(jìn)行下一次閱片時應(yīng)保留一段時間的記憶清除期（脫敏期），此段時間一般不少于兩周。每次閱片時建議人為納入一定數(shù)量的不同的干擾病例。干擾病例應(yīng)同時具有陽性和陰性病例，將干擾病例混入分析組中，使研究者同時針對分析組中的病例及干擾病例進(jìn)行操作，但干擾病例結(jié)果不納入統(tǒng)計分析。

針對適用于顯微鏡下組織或細(xì)胞圖像的產(chǎn)品，臨床試驗過程中應(yīng)注意，臨床試驗開展過程應(yīng)與產(chǎn)品臨床應(yīng)用過程相符，即同一研究者參與顯微鏡下圖像的選擇與結(jié)果判讀全過程。

10.質(zhì)量控制

臨床試驗開始前，應(yīng)進(jìn)行相關(guān)培訓(xùn)，以確保研究者熟悉并掌握相關(guān)試驗方法，最大限度控制試驗誤差。整個試驗過程都應(yīng)處于有效的質(zhì)量控制下，最大限度保證試驗數(shù)據(jù)的準(zhǔn)確性及可重復(fù)性。

臨床試驗應(yīng)嚴(yán)格按照產(chǎn)品說明書進(jìn)行操作，應(yīng)根據(jù)相關(guān)要求進(jìn)行必要的HE染色，應(yīng)設(shè)置合理對照。

四、關(guān)于配套使用產(chǎn)品的要求

產(chǎn)品臨床試驗應(yīng)明確配合使用的檢測試劑及圖像采集設(shè)備。產(chǎn)品配合使用的檢測試劑及圖像采集設(shè)備應(yīng)固定，且與產(chǎn)品臨床前研究一致。

臨床試驗過程中軟件運行環(huán)境如：運行所需的硬件配置、軟件環(huán)境和網(wǎng)絡(luò)條件應(yīng)與產(chǎn)品臨床前研究一致。其中硬件配置包括處理器、存儲器和外設(shè)器件，軟件環(huán)境包括系統(tǒng)軟件、支持軟件和安全軟件，網(wǎng)絡(luò)條件包括網(wǎng)絡(luò)架構(gòu)（BS、CS）、網(wǎng)絡(luò)類型（廣域網(wǎng)、局域網(wǎng)、個域網(wǎng)）和帶寬。

五、產(chǎn)品適用范圍

病理圖像人工智能分析軟件僅在醫(yī)療機(jī)構(gòu)與配套的檢測檢測試劑、病理圖像掃描儀配合使用。適用于病理檢測過程中對病理圖像的輔助識別，輔助病理人員識別出目標(biāo)切片。本產(chǎn)品不單獨用于病理診斷，不單獨作為臨床診療決策依據(jù)，所有經(jīng)軟件判讀的樣本最終結(jié)果需要醫(yī)師確認(rèn)。該產(chǎn)品經(jīng)培訓(xùn)合格的醫(yī)師使用。圖像采集由指定型號的顯微鏡或圖像采集設(shè)備，并經(jīng)培訓(xùn)合格的人員對圖像質(zhì)量進(jìn)行認(rèn)可。

六、參考文獻(xiàn)

[1] 原國家食品藥品監(jiān)督管理局.醫(yī)療器械臨床試驗設(shè)計指導(dǎo)原則:食品藥品監(jiān)管總局通告2018年第6號[Z].(2018-01-04)[2021-05-01].https://www.cmde.org.cn/CL0058/6

882.html.

[2] Xiao-Hua Zhou，Nancy A.Obuchowski，Donna K.McClish. 診斷醫(yī)學(xué)中的統(tǒng)計學(xué)方法（第二版） [M].北京:高等教育出版社，2016。

[3] 李衛(wèi).醫(yī)療器械臨床試驗統(tǒng)計方法（第二版） [M].北京:科學(xué)出版社，2016。

站點聲明

本網(wǎng)站所提供的信息僅供參考之用,并不代表本網(wǎng)贊同其觀點，也不代表本網(wǎng)對其真實性負(fù)責(zé)。圖片版權(quán)歸原作者所有，如有侵權(quán)請聯(lián)系我們，我們立刻刪除。如有關(guān)于作品內(nèi)容、版權(quán)或其它問題請于作品發(fā)表后的30日內(nèi)與本站聯(lián)系,本網(wǎng)將迅速給您回應(yīng)并做相關(guān)處理。
鄭州思途醫(yī)療科技有限公司專注于醫(yī)療器械產(chǎn)品政策與法規(guī)規(guī)事務(wù)服務(wù)，提供產(chǎn)品注冊備案申報代理、臨床試驗、體系建立輔導(dǎo)、分類界定、申請創(chuàng)新辦理服務(wù)。