《影像超聲人工智能軟件(流程優(yōu)化類功能)技術(shù)審評要點》旨在指導注冊申請人對影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能注冊申報資料的準備及撰寫,同時也為技術(shù)審評部門審評注冊申報資料提供參考。是對影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能的一般要求,醫(yī)療器械注冊申請人應依據(jù)產(chǎn)品的具體特性確定其中內(nèi)容是否適用,若不適用,需具體闡述理由及相應的科學依據(jù),并依據(jù)產(chǎn)品的具體特性對注冊申報資料的內(nèi)容進行充實和細化。
影像超聲人工智能軟件(流程優(yōu)化類功能)技術(shù)審評要點
本審評要點旨在指導注冊申請人對影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能注冊申報資料的準備及撰寫,同時也為技術(shù)審評部門審評注冊申報資料提供參考。
本審評要點是對影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能的一般要求,醫(yī)療器械注冊申請人應依據(jù)產(chǎn)品的具體特性確定其中內(nèi)容是否適用,若不適用,需具體闡述理由及相應的科學依據(jù),并依據(jù)產(chǎn)品的具體特性對注冊申報資料的內(nèi)容進行充實和細化。本審評要點不包括臨床評價的要求。
一、適用范圍
本審評要點適用于影像超聲產(chǎn)品中流程優(yōu)化類人工智能軟件功能(以下簡稱“超聲流程優(yōu)化AI功能”)的注冊。上述功能應由有相應超聲診斷資質(zhì)和能力的醫(yī)生使用。上述功能通常集成于影像超聲設(shè)備中,其產(chǎn)品分類依從于影像超聲設(shè)備,按現(xiàn)行《醫(yī)療器械分類目錄》,該類產(chǎn)品分類編碼為06-07,管理類別為II類或III類;上述功能若集成于獨立軟件,分類編碼為21-02,基于《人工智能醫(yī)療器械分類界定指導原則》,作為流程優(yōu)化功能,管理類別為II類。
輔助診斷類超聲AI功能由于尚無產(chǎn)品批準,缺乏審評經(jīng)驗,暫不納入本審評要點,可參考適應的內(nèi)容。
二、產(chǎn)品簡介
超聲流程優(yōu)化AI功能主要實現(xiàn)定位標準切面、生理結(jié)構(gòu)識別與分割、自動測量、診斷流程自動化等功能,進而起到減少醫(yī)生重復勞動、提高效率的作用,目前多見于婦產(chǎn)科胎兒、心臟的超聲檢查和頻譜多普勒檢查,也見于實質(zhì)器官、肌骨、神經(jīng)的檢查,少見于彩色多普勒檢查。以上提到的結(jié)構(gòu)分割,僅限于分割正常組織結(jié)構(gòu)(包括先天畸形或后天發(fā)育失?;蚴軅麑е碌恼=M織結(jié)構(gòu)發(fā)生異于常人的變化,如先天性心臟?。?,不用于分割疑似病灶組織結(jié)構(gòu),如甲狀腺結(jié)節(jié)、乳腺結(jié)節(jié),否則屬于輔助診斷功能,不屬于流程優(yōu)化功能。對疑似病灶進行輔助識別和輔助診斷是超聲診斷中的常見任務(wù),該任務(wù)中病灶輔助識別不屬于本要點討論的流程優(yōu)化功能。
不同于放射科影像設(shè)備的固定位置、標準參數(shù)的采集方式,影像超聲需要超聲醫(yī)師自行尋找所需切面同時進行診斷,或為了觀察到特定結(jié)構(gòu)、病灶需要從多個角度不同切面進行觀察,超聲診斷標準化是一個重要問題。影像超聲的診斷流程經(jīng)常要求采集標準切面,在切面中找到指定生理結(jié)構(gòu)或標志點,進行測量,通過與標準圖譜或標準數(shù)據(jù)庫對比作出診斷。有些診療流程規(guī)定須觀察到的切面、結(jié)構(gòu)、標志點、特征多普勒頻譜以及相關(guān)測量非常多,如產(chǎn)科排畸檢查、超聲心動圖檢查,工作量大而重復,亟需自動化工具。相應的流程優(yōu)化功能不但可以減少醫(yī)生重復勞動提高效率,還有利于實現(xiàn)超聲診斷標準化提高診斷質(zhì)量。
不同于放射影像通常在醫(yī)生已經(jīng)對疾病有所懷疑時才進行檢查,超聲診斷的應用場景更廣,在體檢、定期檢查、診斷、手術(shù)中均有應用。診療流程越靠前的檢查,檢查量越大,部分檢查目的側(cè)重于確認正常,并同時發(fā)現(xiàn)異常或定期觀察進展。需求量越大、診斷流程越復雜的超聲檢查,流程優(yōu)化功能的價值就越大。部分超聲流程優(yōu)化AI功能的臨床風險相對較低,但其中的高風險因素必須予以重視。
三、參考文件
[1] 國家食品藥品監(jiān)督管理局.醫(yī)療器械說明書和標簽管理規(guī)定:國家食品藥品監(jiān)督管理總局令第6號[Z].
[2] 國家藥品監(jiān)督管理局.醫(yī)療器械安全和性能的基本原則:國家藥品監(jiān)督管理總局公告2020年第18號 [Z]
[3] 國家藥品監(jiān)督管理局.醫(yī)療器械通用名稱命名規(guī)則:國家藥品監(jiān)督管理總局令第19號[Z].
[4] 國家藥品監(jiān)督管理局.醫(yī)用軟件通用名稱命名指導原則: 國家藥品監(jiān)督管理總局通告2021年第48號[Z]
[5] 國家食品藥品監(jiān)督管理局.醫(yī)療器械分類目錄:國家食品藥品監(jiān)督管理總局公告2017年第104號[Z].
[6] 國家藥品監(jiān)督管理局. 人工智能醫(yī)用軟件產(chǎn)品分類界定指導原則: 國家藥監(jiān)局器審中心通告2021年第47號[Z]
[7] 國家藥品監(jiān)督管理局.醫(yī)療器械產(chǎn)品技術(shù)要求編寫指導原則:國家藥監(jiān)局通告2022年第8號[Z].
[8] 國家藥品監(jiān)督管理局醫(yī)療器械審評中心.醫(yī)療器械軟件注冊審查指導原則(2022年修訂版):國家藥監(jiān)局器審中心通告2022年第9號[Z].
[9] 國家藥品監(jiān)督管理局醫(yī)療器械審評中心.醫(yī)療器械網(wǎng)絡(luò)安全注冊審查指導原則(2022年修訂版):國家藥監(jiān)局器審中心通告2022年第7號[Z].
[10] 國家藥品監(jiān)督管理局醫(yī)療器械審評中心.人工智能醫(yī)療器械注冊審查指導原則:國家藥監(jiān)局器審中心通告2022年第8號[Z].
四、審評主要關(guān)注點
在參照的法規(guī)、規(guī)章、指導原則、標準的情況前提下,結(jié)合下列關(guān)注點開展技術(shù)審評。
(一)綜述資料
1.產(chǎn)品名稱
此類功能一般集成于影像超聲主機或超聲圖像處理軟件中,產(chǎn)品名稱依從于所集成產(chǎn)品。功能名稱可以包含英文,應保持同一功能的規(guī)范名稱在產(chǎn)品資料中保持一致。功能名稱相似的,應明確實質(zhì)差異,如同名的不同代際功能,可以通過名稱或版本號予以區(qū)別。
2.結(jié)構(gòu)組成
集成于影像超聲主機時,結(jié)構(gòu)功能無需體現(xiàn)。集成于處理超聲影像的獨立軟件時,結(jié)構(gòu)組成應體現(xiàn)出包括AI的功能模塊。
其他按照《人工智能醫(yī)療器械注冊審查指導原則》在算法研究報告中提供算法基本信息,結(jié)合本產(chǎn)品特點應注意和細化的要求詳見下文算法研究資料的算法基本信息。
(二)非臨床資料
1.產(chǎn)品技術(shù)要求及檢測報告
1.1規(guī)格信息
應給出軟件發(fā)布版本和版本命名規(guī)則。軟件版本命名規(guī)則原則上應涵蓋算法驅(qū)動型更新和數(shù)據(jù)驅(qū)動型更新,明確并區(qū)分重大軟件更新和輕微軟件更新,其中重大軟件更新列舉常見典型情況。AI功能若是軟件模塊,若有單獨的版本、版本命名規(guī)則均需說明。
明確AI功能可處理的超聲影像輸入,如超聲機型、探頭、成像參數(shù)、檢查方式、檢查部位、影像形式。超聲機型和探頭應明確制造商和型號,且應為國內(nèi)上市的產(chǎn)品。成像參數(shù)應考慮頻率、增益、深度、動態(tài)范圍、焦點、幀頻、諧波成像、多波束成像等,若是某探頭用于某部位的默認參數(shù),可以簡化描述。影像形式明確單幀或序列圖像,對全圖處理還是需要先分割出特定區(qū)域,是否包括種子點、采樣窗、患者病歷(如年齡、性別、地域、主訴、病史等)等其他信息。相應內(nèi)容應已通過算法影響因素分析論證。
若預期操作者包括超聲醫(yī)師之外的用戶,應在此處予以明確。
1.2性能指標
以AI功能為單位(而不是算法)描述臨床功能、使用限制、運行環(huán)境(若適用)、性能效率(若適用)。臨床功能應簡要描述輸入輸出,并在附錄中提供典型界面圖片,明確采用深度學習AI算法的部分;實現(xiàn)分類、分割功能和生成自然語言描述的枚舉可給出的所有情況;明確AI輸出的哪些內(nèi)容可由醫(yī)生修改。使用限制考慮從流行病學分布、預期應用場景、成像質(zhì)量不佳或范圍不夠、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等方面簡要描述。運行環(huán)境(含云計算)明確典型配置,包括硬件配置、外部軟件環(huán)境、網(wǎng)絡(luò)條件,僅運行在所申報超聲主機上的AI功能,運行環(huán)境可不適用。性能效率明確軟件在典型運行環(huán)境下完成典型核心功能的時間特性。
2.軟件研究
申請人應依據(jù)《醫(yī)療器械軟件技術(shù)審查指導原則(2022年修訂版)》、《醫(yī)療器械網(wǎng)絡(luò)安全技術(shù)審查指導原則(2022年修訂版)》、《移動醫(yī)療器械注冊技術(shù)審查指導原則》、《人工智能醫(yī)療器械注冊審查指導原則》等指導原則,提交相應注冊申報資料。
3.算法研究資料
應基于《人工智能醫(yī)療器械審查指導原則》第四章生存周期過程、第五章技術(shù)考量、第六章算法研究資料的所有相關(guān)要求提供算法研究報告或算法更新研究報告,認為不適用的應詳述理由。不同功能應分別提供算法研究報告,一個功能中包括多個相對獨立AI算法的建議分別提供算法研究報告,有工作流銜接關(guān)系的算法、功能應說明其關(guān)系,宜合并算法研究報告中相同相似內(nèi)容,但驗證與確認應分別進行。根據(jù)此類功能特點需要細化之處如下。以下要求主要針對基于深度學習等新一代人工智能算法的功能,采用傳統(tǒng)模式識別算法的可供參考。
3.1算法基本信息
AI功能及其核心的AI算法穿插于檢查流程中,在某些環(huán)節(jié)發(fā)揮作用。AI功能控制AI算法模塊(可能不只1個)的啟動、運行、停止、結(jié)果顯示,以及與其他功能模塊的配合。申請人應對功能和算法分別進行描述,由于超聲檢查流程的復雜性,應重視功能描述。
3.1.1功能描述
應從臨床角度在說明常規(guī)診斷流程的基礎(chǔ)上,明確常規(guī)流程的哪些環(huán)節(jié)被AI功能替代或是改變,從技術(shù)角度配合流程圖詳細說明功能如何控制各核心AI算法及相關(guān)模塊完成功能。簡述功能帶來的臨床價值,用于提高效率的功能,宜給出量化指標。
按照國家藥監(jiān)局發(fā)布的注冊申報資料要求提供產(chǎn)品的適用范圍、預期使用環(huán)境、適用人群、禁忌證,需與申報產(chǎn)品的性能、功能相符,并需與臨床評價資料結(jié)論一致。使用環(huán)境明確預期使用的醫(yī)療機構(gòu)類型、級別、科室及應用場景,如超聲室常規(guī)檢查、穿刺引導、麻醉引導、手術(shù)中等,適用人群應明確醫(yī)生的專業(yè)(超聲科、其他科室)、資質(zhì)、能力水平(年資、培訓),患者的年齡、性別、生理疾病狀態(tài)(懷孕的明確孕齡范圍)。
明確產(chǎn)品的設(shè)計依據(jù),給出切面、結(jié)構(gòu)、標志點、多普勒頻譜等特征識別功能和測量功能所依據(jù)的醫(yī)學圖譜、診療指南等的名稱和具體內(nèi)容,并說明其權(quán)威性以及在我國的接受情況和使用情況。
涉及定位標準切面的,應明確針對實時掃查、存儲的圖像序列還是后處理重建圖像,輸出是否可為重建切面(即掃查自然生成切面之外的切面)。處理實時超聲掃查的,明確掃查的幀率和圖像穩(wěn)定性要求,明確掃查過快圖像不穩(wěn)定時,功能如何處理和顯示。
涉及多普勒頻譜的,應明確取樣窗放置要求(如位置、角度)。
涉及識別生理結(jié)構(gòu)的,應明確可檢出結(jié)構(gòu)的最小、最大尺寸;是否需要先定位切面再識別結(jié)構(gòu),還是在掃查中直接識別結(jié)構(gòu);是否需要從不同角度切面觀察同一結(jié)構(gòu),關(guān)注點有何差異。
涉及測量的,應明確測量的規(guī)則,宜展示各參數(shù)測量的起止點或區(qū)域,并可由醫(yī)生調(diào)整。
明確算法輸出的展示形式。以圖像區(qū)域增強形式展示的,明確圖像增強的方式,給出典型影像表現(xiàn)圖像增強前后的圖片。以提示框、分割區(qū)域勾畫展示的,給出典型影像表現(xiàn)的圖片,明確框畫的規(guī)則,明確一幀中出現(xiàn)多個同樣結(jié)構(gòu)時分立或融合的規(guī)則。以成像區(qū)域外示意圖或體標展示的,明確是否有提示醫(yī)生注意或確認醫(yī)生已注意到的方式,如閃爍、抖動、發(fā)聲、點擊確認等,明確是否僅在當前幀檢出目標切面、結(jié)構(gòu)時顯示,還是出現(xiàn)后會延時顯示,是否會自動記錄檢出目標的幀等。若有AI算法輸出但并不進行展示的應進行說明,如作為默認項或作為中間結(jié)果參與后續(xù)處理再展示的。
涉及多個功能或算法串聯(lián)的,明確各功能或算法啟動、展示結(jié)果和退出的條件,例如滿足條件后自動啟動,或需點擊按鈕等啟動后續(xù)功能。明確AI分析功能的激活時段,如僅在所選幀激活,在采集一段圖像序列時激活,在患者一次檢查的全程激活。
圖像質(zhì)量問題,如由于機器故障、掃查參數(shù)設(shè)置不合適、耦合不佳等原因造成圖像模糊、過明過暗、結(jié)構(gòu)失真、偽影等,以及存在治療痕跡、測量/注釋標記等圖像問題,明確算法是否對存在上述情況的圖像進行AI計算并給出結(jié)果。是否有圖像質(zhì)控模塊,還是由醫(yī)生評價圖像質(zhì)量以決定是否啟動核心功能的AI算法。對于在圖像質(zhì)量不佳時仍運行AI算法的,宜有相關(guān)提示,并對結(jié)果可靠性可能降低給出提示。
明確在同一幀中切面或結(jié)構(gòu)無法完整顯示時如何處理,如不進行AI計算,或結(jié)合相鄰幀,或無需出現(xiàn)完整目標也可識別。由于聲窗和患者身材的限制,有時難以找到包括所有特征的完整切面,但由于超聲檢查的實時,小范圍移動探頭即可覆蓋整個關(guān)注區(qū)域,檢查到所有結(jié)構(gòu)。如果功能設(shè)計為必須先找到完整切面,再啟動找結(jié)構(gòu)的算法,上述情況會導致功能無法正常運行,但只要考慮前后幀這一問題即可解決。
3.1.2算法描述
按照《人工智能醫(yī)療器械注冊審查指導原則》明確每個核心AI算法的名稱、類型、結(jié)構(gòu)、輸入輸出、流程圖、算法框架、運行環(huán)境等基本信息以及算法選用依據(jù)。
算法的輸入應考慮但不限于機型、探頭、成像參數(shù)、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學分布、預期應用場景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等。對于不同功能/算法,可能無需考慮上述所有方面,但應給出合理分析。機型考慮波束形成器、發(fā)射/接收通道數(shù)、成像算法等。探頭考慮陣元數(shù)、頻率、孔徑、曲率半徑、寬度、成像范圍等。成像參數(shù)考慮頻率、增益、深度、動態(tài)范圍、焦點、幀頻、諧波成像、多波束成像等。檢查方式考慮體表、術(shù)中、腔內(nèi)、超聲內(nèi)窺鏡等。流行病學分布對不同功能可能差異很大,需要深入分析以保證算法設(shè)計滿足臨床實際,如某些生理結(jié)構(gòu)、癥狀診斷需考慮性別、年齡、地域、疾病進展期等差異。預期應用場景考慮預期使用的醫(yī)院級別、科室(如超聲科、急診科、麻醉科、手術(shù)室等),醫(yī)生的資質(zhì)、能力等。易混淆圖像,如與預期圖像相似或相關(guān)的圖像,如同一切面或器官上的易混淆圖像,其他器官與之類似的圖像。有影響的身體狀態(tài)或疾?。喝绠a(chǎn)科胎齡,肺氣腫對心臟檢查的影響。其他因素已在本文其他部分有所描述。
算法輸入應明確處理單幀還是序列圖像(關(guān)聯(lián)多幀共同輸出結(jié)果,不是雖輸入序列但僅處理單幀),對全圖處理還是需要先分割出特定區(qū)域,是否包括種子點、采樣窗、患者病歷(如年齡、性別、地域、主訴、病史等)等其他信息。
應結(jié)合功能的特點,對以上因素進行性能影響因素分析,對于處理相應輸入不能得出滿足預期性能要求或未經(jīng)驗證的因素應考慮作為使用限制。
3.2算法風險管理
明確產(chǎn)品的軟件安全性級別(輕微、中等、嚴重)并詳述判定理由,提供算法風險管理資料。軟件安全性級別可基于產(chǎn)品的預期用途、使用場景、核心功能進行綜合判定,其中預期用途主要考慮用途類型、重要程度、緊迫程度等因素,使用場景主要考慮使用場合、疾病特征、適用人群、目標用戶等因素。核心功能主要考慮功能類型、核心算法、輸入輸出、接口等因素。對于超聲流程優(yōu)化AI功能,還應考慮所優(yōu)化流程的復雜程度、使用廣泛程度,功能對現(xiàn)有流程的影響程度,算法的成熟度、性能、泛化能力,以及出現(xiàn)錯誤結(jié)果是否能夠被醫(yī)生識別糾正等。算法研究資料應與算法的軟件安全性級別相適應。
3.3算法需求規(guī)范
提供算法需求規(guī)范文檔,若無單獨文檔可提供軟件需求規(guī)范,并注明算法需求所在位置。
明確算法訓練數(shù)據(jù)集需求。樣本量需考慮樣本規(guī)模的充分性,明確樣本總量及其確定依據(jù)。樣本分布需考慮樣本的科學性和合理性,應考慮機型、探頭、成像參數(shù)、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學分布、預期應用場景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等。認為無需考慮的因素給出合理理由,應考慮但不計劃考慮的因素應作為使用限制。訓練數(shù)據(jù)宜納入一定比例的易混淆樣本和陰性樣本,明確是預期圖像掃查中臨近區(qū)域易出現(xiàn)的樣本,還是完全無關(guān)的樣本。
明確各算法性能設(shè)計目標。結(jié)合算法特點、核心功能選擇合理的評價指標,給出性能指標的限值要求及其設(shè)定依據(jù)。同一功能對于不同應用場景具有不同性能要求的,應分別規(guī)定。分類問題可考慮敏感性、特異性、陽性預測值、陰性預測值、準確率、一致率(如kappa)、F-measure、ROC-AUC等。多分類問題不能僅給出總體一致率,應對每一類給出敏感性、特異性等指標。多標簽問題,應明確標簽排序規(guī)則(如適用)。識別問題可考慮敏感性、特異性、ROC-AUC等,應明確識別正確的判定標準,如IoU、dice的閾值,并結(jié)合臨床給出其合理性。分割問題可考慮交并比IoU、dice系數(shù)等,并給出識別準確性方面的指標,參考分類問題。不同算法即使有關(guān)聯(lián)性,也應分別規(guī)定,重點關(guān)注最終輸出結(jié)果的性能。
3.4數(shù)據(jù)質(zhì)控
參考《人工智能醫(yī)療器械注冊審查指導原則》四(二)數(shù)據(jù)收集、六(一)4.數(shù)據(jù)質(zhì)控的要求提供相關(guān)資料。并注意:
3.4.1數(shù)據(jù)收集
明確采集數(shù)據(jù)樣本的機型、探頭、成像參數(shù)、采集時長(圖像序列適用),以及來源機構(gòu)、采集和被采集人員情況、采集時間,比較與算法訓練數(shù)據(jù)需求的差異。流程優(yōu)化功能的驗證需要盡可能模擬使用過程,可能需要采集比AI診斷圖像或序列更長的掃查序列,而不僅是訓練核心算法的單幀圖像。若存在這種情況,應在采集過程中予以說明。
3.4.2數(shù)據(jù)整理
明確經(jīng)數(shù)據(jù)清洗棄用數(shù)據(jù)的原因和數(shù)量。數(shù)據(jù)預處理環(huán)節(jié)應采用典型圖片/圖像序列和流程圖說明處理過程和每一步處理的結(jié)果。原始數(shù)據(jù)庫的預處理過程若與產(chǎn)品中算法運行的預處理過程存在差異,應比較說明。
3.4.3數(shù)據(jù)標注
應列表給出標注、審核、仲裁人員的基本信息,如科室/專業(yè)、職稱、工作年限、所在機構(gòu)、培訓考核情況、標注量,若有外國人員則需明確其資質(zhì)要求。
標注規(guī)則應明確所依據(jù)的醫(yī)學圖譜、診療指南等的名稱和具體內(nèi)容,并說明其權(quán)威性以及在我國的接受情況和使用情況。若有存在爭議的,或需要醫(yī)生基于經(jīng)驗判斷的,應分析其對標注一致性的影響。預期結(jié)構(gòu)不能完整顯示的,明確滿足什么條件時進行標注,如何標注。
宜采用流程圖介紹單張圖片/單段序列的標注、審核、仲裁過程。若標注較復雜宜采用典型圖片/序列加流程圖說明每一步的標注內(nèi)容以及特殊情況處理。圖像序列明確逐幀標注,還是自動標注方式,若采用自動標注應予以詳述。區(qū)域分割的標注,多人標注勢必不完全一致,應配合圖片說明如何融合多人的標注結(jié)果及其影響。簡述全部圖片標注的管理過程、時間周期,特別是標注周期內(nèi)的質(zhì)量評估。若用于不同功能做標注的數(shù)據(jù)集與數(shù)據(jù)量有所區(qū)別,應明確具體情況。
3.4.4數(shù)據(jù)集構(gòu)建
對于標注前的基礎(chǔ)數(shù)據(jù)庫,標注后劃分的訓練集、調(diào)優(yōu)集、測試集,應給出樣本量和分布情況及其確定依據(jù),以及集合劃分的方法、依據(jù)??紤]“患者-結(jié)構(gòu)-切面-圖像/圖像序列”層級(即某一人的某一結(jié)構(gòu),有不同切面的圖像或圖像序列),三個數(shù)據(jù)集原則上應在患者級兩兩無交,至少到結(jié)構(gòu)級兩兩無交。若降低無交集的范圍,應給出合理的理由。提供查重驗證結(jié)果,以證實訓練集、調(diào)優(yōu)集、測試集的樣本兩兩無交集。
樣本分布應考慮機型、探頭、成像參數(shù)、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學分布、預期應用場景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等因素。
可按照《人工智能醫(yī)療器械注冊審查指導原則》的要求進行數(shù)據(jù)擴增,重點說明擴增方法和實現(xiàn)方式,分析擴增樣本與真實樣本的相似性,分析對算法的影響。采用生成對抗網(wǎng)絡(luò)(GAN)數(shù)據(jù)擴增的,提供算法基本信息以及算法選用依據(jù)。
用于算法驗證需采集掃查過程序列圖像的,應參考以上要求另行說明序列圖像特點、樣本量、樣本分布。
3.5算法訓練
明確算法訓練所用的評估指標、訓練方式、訓練目標、調(diào)優(yōu)方式(若有),說明損失函數(shù)、主要超參數(shù)的確定思路,提供訓練數(shù)據(jù)量-評估指標曲線等證據(jù)以證實算法訓練的充分性和有效性。若使用遷移學習,應滿足AI導則的要求。
3.6算法驗證與確認
3.6.1算法性能評估
基于測試集提供設(shè)計需求要驗證的算法性能指標、重復性與再現(xiàn)性、魯棒性/健壯性等算法性能評估結(jié)果,以證明算法性能滿足設(shè)計目標。亦可基于第三方數(shù)據(jù)庫開展算法性能評估??蛇\行于不同的運行環(huán)境的功能,若運行環(huán)境不具有兼容性,應分別進行軟件驗證、性能評估和實時性驗證。
用于提高效率的功能應開展效率提高的定量驗證,建議采用多閱片者多病例(MRMC)研究的方式進行驗證。
對實時超聲圖像進行處理的,準確性可通過離線方式驗證,實時性須通過在線方式驗證,可提前通過離線驗證了解處理單一樣本的時間,再通過在線實時驗證確認軟件集成后可以達到預期效率并保證超聲采集和診斷流程的穩(wěn)定性可滿足正常使用。
分類問題和多標簽問題,若可識別的種類較多,應給出完整的混淆矩陣,對在表格對應的行列給出每類的敏感性、特異性、陽性預測值、陰性預測值、準確性、一致率,分析各類出現(xiàn)假陽性、假陰性的情況(如集中在某一特定類型則說明該類是目標類的易混淆類),制定相關(guān)注意事項。
若在訓練過程中使用數(shù)據(jù)擴增,應在調(diào)優(yōu)集上比較使用與不使用數(shù)據(jù)擴增對算法性能的影響。
算法輸出展示形式的臨床使用效果驗證。以圖像增強、提示框、分割區(qū)域勾畫形式展示的,應評價是否影響正常的超聲診斷,如圖像畫質(zhì)的改變,標記對超聲圖像的遮擋、干擾等。以圖像區(qū)域外給出示意圖或體標展示的,應評價是否可確保已引起醫(yī)生注意。
3.6.2算法性能影響因素評估
應進行算法性能影響因素分析以提升算法可解釋性,詳述影響算法性能的主要因素及其影響程度,基于分析結(jié)果明確產(chǎn)品使用限制和必要警示提示信息。
性能影響因素應考慮機型、探頭、成像參數(shù)、檢查方式、掃查角度/切面/深淺、成像質(zhì)量不佳或范圍不足、流行病學分布、預期應用場景、易混淆圖像、有影響的身體狀態(tài)或疾病、植入物、先天或后天身體結(jié)構(gòu)異常等。認為無需考慮的因素給出合理理由,應考慮但不計劃考慮的因素應作為使用限制。
對于某一影響因素,可建立多個包含單一因素的子集和一個包含所有子集的合集(必要時)分別進行性能測試,統(tǒng)計分析各集合性能差異,評價影響程度。對于預期對性能有顯著影響且存在相互關(guān)聯(lián)的不同影響因素,也可建立包含多因素的子集進行分析。各集合應保證具有足夠的樣本量,性能評估結(jié)果應給出中心值和95%置信區(qū)間。各子集宜以產(chǎn)品研發(fā)時標注數(shù)據(jù)庫中的測試集為主,當某一待評價因素的樣本量較少或沒有時,可補充其他數(shù)據(jù)集的樣本,如臨床試驗、真實世界數(shù)據(jù)、第三方測試等的樣本,但合并在一個子集的數(shù)據(jù)其標注規(guī)則應基本一致。簡述各子集的構(gòu)建情況,如數(shù)據(jù)來源、標注過程、標準規(guī)則、樣本分布等。
3.6.3算法性能綜合評價
結(jié)合算法訓練、算法性能評估、臨床評價等結(jié)果開展算法性能綜合評價,針對訓練樣本量和測試樣本量過少、測試結(jié)果明顯低于算法設(shè)計目標、算法性能變異度過大等情況,對產(chǎn)品的適用范圍、使用場景、核心功能進行必要限制。
4.用戶培訓
對于軟件安全性級別為嚴重級別、在基層醫(yī)療機構(gòu)使用的產(chǎn)品,原則上需單獨提供一份用戶培訓方案,包括用戶培訓的計劃、材料、方式、師資等。由于超聲流程優(yōu)化AI功能的使用者一般具備按照常規(guī)流程進行超聲診斷的能力,因此培訓重點宜放在AI功能與常規(guī)功能流程和操作的差異上,以及功能的使用限制和注意事項,如無法正常運行算法或算法性能下降的情形。
培訓考核應納入適當?shù)尼t(yī)生數(shù)量和測試樣本數(shù)量,被考核醫(yī)生應與功能的預期使用者在培訓前具有等同能力,以驗證培訓方案的可行性。
(三)說明書注意事項
根據(jù)算法性能綜合評價結(jié)果,對產(chǎn)品的適用范圍、使用場景、核心功能進行必要限制,并在說明書中明確產(chǎn)品使用限制和必要警示提示信息。必要時,可給出數(shù)據(jù)采集設(shè)備和數(shù)據(jù)采集過程相關(guān)要求,算法訓練驗證情況的總結(jié)。
標簽:影像超聲人工智能軟件注冊