國家局發(fā)布《醫(yī)療器械臨床試驗設計指導原則(2018年第6號)》,為申辦方、CRO機構及監(jiān)管機構開展醫(yī)療器械臨床試驗設計、執(zhí)行、質量管理、審評工作提供指導原則。具體公告內容見正文。
引言:國家局發(fā)布《醫(yī)療器械臨床試驗設計指導原則(2018年第6號)》,為申辦方、CRO機構及監(jiān)管機構開展醫(yī)療器械臨床試驗設計、執(zhí)行、質量管理、審評工作提供指導原則。具體公告內容如下:
醫(yī)療器械臨床試驗設計指導原則
醫(yī)療器械臨床試驗是指在具備相應條件的臨床試驗機構中,對擬申請注冊的醫(yī)療器械在正常使用條件下的安全有效性進行確認的過程。臨床試驗是以受試人群(樣本)為觀察對象,觀察試驗器械在正常使用條件下作用于人體的效應或對人體疾病、健康狀態(tài)的評價能力,以推斷試驗器械在預期使用人群(總體)中的效應。由于醫(yī)療器械的固有特征,其試驗設計有其自身特點。
本指導原則適用于產品組成、設計和性能已定型的醫(yī)療器械,包括治療類產品、診斷類產品,不包括體外診斷試劑。
本指導原則是供申請人和審查人員使用的技術指導文件,不涉及注冊審批等行政事項,亦不作為法規(guī)強制執(zhí)行,如有能夠滿足法規(guī)要求的其他方法,也可以采用,但應提供詳細的研究資料和驗證資料。應在遵循相關法規(guī)的前提下使用本指導原則。
一、醫(yī)療器械臨床試驗目的
臨床試驗需設定明確、具體的試驗目的。申請人可綜合分析試驗器械特征、非臨床研究情況、已在中國境內上市(下文簡稱已上市)同類產品的臨床數(shù)據等因素,設定臨床試驗目的。臨床試驗目的決定了臨床試驗各設計要素,包括主要評價指標、試驗設計類型、對照試驗的比較類型等,進而影響臨床試驗樣本量。不同情形下的臨床試驗目的舉例如下:
(一)當通過臨床試驗確認試驗器械在其預期用途下的安全有效性時,若更關注試驗器械的療效是否可滿足臨床使用的需要,其臨床試驗目的可設定為確認試驗器械的有效性是否優(yōu)于/等效于/非劣于已上市同類產品,同時確認試驗器械的安全性。此時,臨床試驗的主要評價指標為有效性指標。
(二)當通過臨床試驗確認試驗器械在其預期用途下的安全有效性時,若更關注試驗器械的安全性是否可滿足臨床使用的需要,其臨床試驗目的可設定為確認試驗器械的安全性是否優(yōu)于/等效于/非劣于已上市同類產品,同時確認試驗器械的有效性。此時,臨床試驗的主要評價指標為安全性指標,以乳房植入體為例,臨床試驗通常選擇并發(fā)癥發(fā)生率(如包膜攣縮率、植入體破裂率)作為主要評價指標。
(三)對于已上市產品增加適應癥的情形,臨床試驗目的可設定為確認試驗器械對新增適應癥的安全有效性。例如,止血類產品在已批準適用范圍(如普通外科、婦產科)的基礎上,增加眼科、神經外科、泌尿外科使用的適應癥。
(四)當已上市器械適用人群發(fā)生變化時,臨床試驗目的可設定為確認試驗器械對新增適用人群的安全有效性。例如膜式氧合器產品,在原批準適用范圍的基礎上新增體重≤10kg的適用人群;又如治療類呼吸機在已批準的適用于成人的基礎上新增適用于兒童的適用范圍。
(五)當已上市器械發(fā)生重大設計變更時,可根據變更涉及的范圍設定試驗目的。例如冠狀動脈藥物洗脫支架平臺花紋設計發(fā)生改變時,臨床試驗目的可設定為確認變化部分對于產品安全有效性的影響。
(六)當已上市器械的使用環(huán)境或使用方法發(fā)生重大改變時,試驗目的可設定為確認產品在特定使用環(huán)境和使用方法下的安全有效性。例如:已上市的植入式心臟起搏器通常不能兼容核磁共振檢查,如申請兼容核磁共振檢查,其臨床試驗目的可設置為對兼容核磁共振檢查相關的安全有效性進行確認。
二、臨床試驗設計的基本類型和特點
(一)平行對照設計
隨機、雙盲、平行對照的臨床試驗設計可使臨床試驗影響因素在試驗組和對照組間的分布趨于均衡,保證研究者、評價者和受試者均不知曉分組信息,避免了選擇偏倚和評價偏倚,被認為可提供高等級的科學證據,通常被優(yōu)先考慮。對于某些醫(yī)療器械,此種設計的可行性受到器械固有特征的挑戰(zhàn)。
隨機化是平行對照、配對設計、交叉設計等臨床試驗需要遵循的基本原則,指臨床試驗中每位受試者均有同等機會(如試驗組與對照組病例數(shù)為1:1)或其他約定的概率(如試驗組與對照組病例數(shù)為n:1)被分配到試驗組或對照組,不受研究者和/或受試者主觀意愿的影響。隨機化是為了保障試驗組和對照組受試者在各種已知和未知的可能影響試驗結果的基線變量上具有可比性。
非隨機設計可能造成各種影響因素在組間分布不均衡,降低試驗結果的可信度。一方面,協(xié)變量分析可能難以完全校正已知因素對結果的影響;另一方面,未知因素對試驗結果產生的影響亦難以評價,因此,通常不推薦非隨機設計。如果申請人有充分的理由認為必須采用非隨機設計,需要詳述必須采用該設計的理由和控制選擇偏倚的具體措施。
如果分組信息被知曉,研究者可能在器械使用過程中選擇性關注試驗組,評價者在進行療效與安全性評價時可能產生傾向性,受試者可能受到主觀因素的影響。盲法是控制臨床試驗中因“知曉分組信息”而產生偏倚的重要措施之一,目的是達到臨床試驗中的各方人員對分組信息的不可知。根據設盲程度的不同,盲法可分為完整設盲、不完整設盲和不設盲。在完整設盲的臨床試驗中,受試者、研究者和評價者對分組信息均處于盲態(tài)。
在很多情形下,基于器械及相應治療方式的固有特征,完整設盲是不可行的。當試驗器械與對照器械存在明顯不同時,難以對研究者設盲,例如膝關節(jié)假體,試驗產品和對照產品的外觀可能存在明顯不同,且植入物上有肉眼可見的制造商激光標記;又如血管內金屬支架,試驗產品和對照產品的具體結構、花紋不同。此時,建議盡量對受試者設盲,即受試者不知曉其被分入試驗組或對照組,并采用第三方盲法評價(如中心閱片室、中心實驗室、評價委員會等)和盲態(tài)數(shù)據審核。當試驗器械形態(tài)與對照器械存在明顯不同且主要評價指標來自影像學數(shù)據時,難以對研究者、評價者設盲,例如生物可吸收支架,當對照產品為金屬支架時,由于生物可吸收支架平臺發(fā)生降解,評估晚期管腔丟失指標(該指標以影像學方式評價)時難以對評價者設盲。此時,建議盡量對受試者設盲,并采用盲態(tài)數(shù)據審核。上述由于器械的固有特征而不對研究者設盲、不對研究者和評價者設盲的情形,均為不完整設盲的臨床試驗設計。
當試驗組治療方式(含器械)與對照組存在明顯差異時,難以對受試者、研究者、評價者設盲,只能采取不設盲的試驗設計,如介入治療和手術治療進行比較時、器械治療和藥物治療進行比較時。為最大程度地減少偏倚,可考慮采用以下方法:(1)在完成受試者篩選和入組前,受試者和研究者均不知曉分組信息(即分配隱藏);(2)在倫理許可的前提下,受試者在完成治療前,不知曉分組信息;(3)采用盲態(tài)數(shù)據審核。
申請人需要對采用不完整設盲或者不設盲試驗設計的理由進行論述,詳述控制偏倚的具體措施(如采用可客觀判定的指標以避免評價偏倚,采用標準操作規(guī)范以減小實施偏倚等)。
對照包括陽性對照和安慰對照(如假處理對照、假手術對照等)。陽性對照需采用在擬定的臨床試驗條件下療效肯定的已上市器械或公認的標準治療方法。
對于治療類產品,選擇陽性對照時,優(yōu)先采用療效和安全性已得到臨床公認的已上市同類產品。如因合理理由不能采用已上市同類產品,可選用盡可能相似的產品作為陽性對照,其次可考慮標準治療方法。例如,人工頸椎間盤假體開展臨床試驗時,如因合理理由不能采用已上市同類產品,可選擇臨床廣泛使用的、對相應適應癥的療效已得到證實并被公認的產品。又如,治療良性前列腺增生的設備在沒有同類產品上市的情形下,可采用良性前列腺增生癥的標準治療方法(經尿道前列腺電汽化術)作為對照。標準治療方法包括多種情形,例如,對于部分臨床上尚無有效治療方法的疾病,其標準治療方法可為對癥支持治療。在試驗器械尚無相同或相似的已上市產品或相應的標準治療方法時,若試驗器械的療效存在安慰效應,試驗設計需考慮安慰對照,此時,尚需綜合考慮倫理學因素。若已上市產品的療效尚未得到臨床公認,試驗設計可根據具體情形,考慮標準治療方法對照或安慰對照,申請人需充分論證對照的選取理由。例如用于緩解疼痛的物理治療類設備。
對于診斷器械,對照需采用診斷金標準方法或已上市同類產品。
(二)配對設計
對于治療類產品,常見的配對設計為同一受試對象的兩個對應部位同時接受試驗器械和對照治療,試驗器械和對照治療的分配需考慮隨機設計。配對設計主要適用于器械的局部效應評價,具有一定的局限性。例如,對于面部注射用交聯(lián)透明質酸鈉凝膠的臨床試驗,配對設計在保證受試者基線一致性上比平行對照設計具有優(yōu)勢,但試驗中一旦發(fā)生系統(tǒng)性不良反應則難以確認其與試驗器械或對照器械的相關性,且需要排除面部左右側局部反應的互相影響。因此,申請人考慮進行配對設計時,需根據產品特征,綜合考慮該設計類型的優(yōu)勢和局限性,恰當進行選擇,并論述其合理性。
對于診斷器械,若試驗目的是評價試驗器械的診斷準確性,常見的配對設計為同一受試者/受試樣品同時采用試驗器械和診斷金標準方法或已上市同類器械來進行診斷。
(三)交叉設計
在交叉設計的臨床試驗中,每位受試者按照隨機分配的排列順序,先后不同階段分別接受兩種或兩種以上的治療/診斷。此類設計要求前一階段的治療/診斷對后一階段的另一種治療/診斷不產生殘留效應,后一階段開始前,受試者一般需回復到基線狀態(tài),可考慮在兩個干預階段之間安排合理的洗脫期。
(四)單組設計
單組試驗的實質是將主要評價指標的試驗結果與已有臨床數(shù)據進行比較,以評價試驗器械的有效性/安全性。與平行對照試驗相比,單組試驗的固有偏倚是非同期對照偏倚,由于時間上的不同步,可能引起選擇偏倚、混雜偏倚、測量偏倚和評價偏倚等,應審慎選擇。在開展單組試驗時,需要對可能存在的偏倚進行全面分析和有效控制。
1.與目標值比較
與目標值比較的單組設計需事先指定主要評價指標有臨床意義的目標值,通過考察單組臨床試驗主要評價指標的結果是否在指定的目標值范圍內,從而評價試驗器械有效性/安全性。當試驗器械技術比較成熟且對其適用疾病有較為深刻的了解時,或者當設置對照在客觀上不可行時(例如試驗器械與現(xiàn)有治療方法的風險受益過于懸殊,設置對照在倫理上不可行;又如現(xiàn)有治療方法因客觀條件限制不具有可行性等),方可考慮采用單組目標值設計。考慮單組目標值設計時,還需關注試驗器械的適用人群、主要評價指標(如觀察方法、隨訪時間、判定標準等)是否可被充分定義且相對穩(wěn)定。為盡量彌補單組目標值設計的固有缺陷,需盡可能采用相對客觀、可重復性強的評價指標作為主要評價指標,如死亡、失敗等;不建議選擇容易受主觀因素影響、可重復性差的指標作為主要評價指標,如疼痛評分等。
目標值是專業(yè)領域內公認的某類醫(yī)療器械的有效性/安全性評價指標所應達到的最低標準,包括客觀性能標準(Objective performance criteria,OPC)和性能目標(Performance goal,PG)兩種。目標值通常為二分類(如有效/無效)指標,也可為定量指標,包括靶值和單側置信區(qū)間界限(通常為97.5%單側置信區(qū)間界限)。目標值的構建通常需要全面收集具有一定質量水平及相當數(shù)量病例的臨床研究數(shù)據,并進行科學分析(如Meta分析)。對臨床試驗結果進行統(tǒng)計分析時,需計算主要評價指標的點估計值和單側置信區(qū)間界限值,并將其與目標值進行比較。
由于沒有設置對照組,單組目標值設計的臨床試驗無法確證試驗器械的優(yōu)效、等效或非劣效,僅能確證試驗器械的有效性/安全性達到專業(yè)領域內公認的最低標準。
(1)與OPC比較
OPC是在既往臨床研究數(shù)據的基礎上分析得出,用于試驗器械主要評價指標的比較和評價,經確認的OPC目前尚不多見。OPC通常來源于權威醫(yī)學組織、相關標準化組織、醫(yī)療器械審評機構發(fā)布的文件。例如一次性使用膜式氧合器,其臨床試驗可采用單組目標值設計,當主要評價指標采用《一次性使用膜式氧合器注冊技術審查指導原則》中提及的復合指標“達標率”時,試驗產品達標率的目標值應至少為90%,預期達標率為95%。又如,根據《髖關節(jié)假體系統(tǒng)注冊技術審查指導原則》,對于常規(guī)設計的髖關節(jié)假體,當臨床試驗采用單組目標值設計,主要評價指標采用術后12個月Harris評分“優(yōu)良率”時,試驗產品“優(yōu)良率”的目標值應至少為85%,預期優(yōu)良率為95%。隨著器械技術和臨床技能的提高,OPC可能發(fā)生改變,需要對臨床數(shù)據重新進行分析以確認。
(2)與PG比較
當有合理理由不能開展對照試驗而必須考慮開展單組目標值設計時,若沒有公開發(fā)表的OPC,可考慮構建PG。例如脫細胞角膜植片,適用于藥物治療無效需要進行板層角膜移植的感染性角膜炎患者。由于開展臨床試驗時市場上無同類產品,且與異體角膜移植對比存在角膜來源困難的問題,故采用PG單組設計進行臨床試驗,PG來源于異體角膜移植既往臨床研究數(shù)據,由相關權威的專業(yè)醫(yī)學組織認可。與OPC相比,采用PG的單組設計的臨床證據水平更低。PG的實現(xiàn)/未實現(xiàn)不能立即得出試驗成功/失敗的結論,如果發(fā)現(xiàn)異常試驗數(shù)據時,需要對試驗結果進行進一步探討和論證。
2.與歷史研究對照
與歷史研究對照的臨床試驗證據強度弱,可能存在選擇偏倚、混雜偏倚等問題,應審慎選擇。當采用某一歷史研究作為對照時,需獲取試驗組和對照組每例受試者的基線數(shù)據,論證兩組受試者的可比性,可采用傾向性評分來評估兩組之間的可比性,以控制選擇偏倚。由于試驗組和對照組不是同期開展,需要關注兩組間干預方式和評價方式的一致性,以控制測量偏倚和評價偏倚。
三、受試對象
根據試驗器械預期使用的目標人群,確定研究的總體。綜合考慮對總體人群的代表性、臨床試驗的倫理學要求、受試者安全性等因素,制定受試者的選擇標準,即入選和排除標準。入選標準主要考慮受試對象對總體人群的代表性,如適應癥、疾病的分型、疾病的程度和階段、使用具體部位、受試者年齡范圍等因素。排除標準旨在盡可能規(guī)范受試者的同質性,將可能影響試驗結果的混雜因素(如影響療效評價的伴隨治療、伴隨疾病等)予以排除,以達到評估試驗器械效應的目的。
四、評價指標
評價指標反映器械作用于受試對象而產生的各種效應,根據試驗目的和器械的預期效應設定。在臨床試驗方案中應明確規(guī)定各評價指標的觀察目的、定義、觀察時間點、指標類型、測定方法、計算公式(如適用)、判定標準(適用于定性指標和等級指標)等,并明確規(guī)定主要評價指標和次要評價指標。指標類型通常包括定量指標(連續(xù)變量,如血糖值)、定性指標(如有效和無效)、等級指標(如優(yōu)、良、中、差)等。對于診斷器械,臨床試驗評價指標通常包括定性檢測的診斷準確性(靈敏度、特異性、預期值、似然比、ROC曲線下面積等)或檢測一致性(陽性/陰性一致性、總一致性、KAPA值等),以及定量檢測回歸分析的斜率、截距和相關系數(shù)等。
(一)主要評價指標和次要評價指標
主要評價指標是與試驗目的有本質聯(lián)系的、能確切反映器械療效或安全性的指標。主要評價指標應盡量選擇客觀性強、可量化、重復性高的指標,應是專業(yè)領域普遍認可的指標,通常來源于已發(fā)布的相關標準或技術指南、公開發(fā)表的權威論著或專家共識等。臨床試驗的樣本量基于主要評價指標的相應假設進行估算。臨床試驗的結論亦基于主要評價指標的統(tǒng)計分析結果做出。次要評價指標是與試驗目的相關的輔助性指標。在方案中需說明其在解釋結果時的作用及相對重要性。
一般情況下,主要評價指標僅為一個,用于評價產品的療效或安全性。當一個主要評價指標不足以反映試驗器械的療效或安全性時,可采用兩個或多個主要評價指標。以一次性使用腦積水分流器的臨床試驗為例,當參照《一次性使用腦積水分流器注冊技術審查指導原則》進行方案設計時,同時采用兩個主要評價指標,包括術后30天內顱內壓的達標率、首次植入分流器后1年時分流器存留率。對于第二個主要評價指標(1年存留率),試驗組與對照組間需進行組間比較,同時要求試驗組1年存留率不小于90%。因此,該臨床試驗的樣本量估算需同時考慮三重假設檢驗:(1)試驗組術后30天顱內壓達標率非劣效于對照組;(2)試驗組1年的存留率非劣效于對照組;(3)試驗器械1年的存留率達到目標值要求。上述三重假設檢驗都有統(tǒng)計學意義時,才可下推斷結論。由于此時沒有意圖或機會選擇最有利的某次假設檢驗結果,因此可設定每次檢驗的I類錯誤水平等于預先設定的α,無需進行多重性校正。對于同時采用多個主要評價指標的臨床試驗設計,當有可能選擇最有利的某次假設檢驗結果進行結論推斷時,樣本量估算需要考慮假設檢驗的多重性問題,以及對總Ⅰ類錯誤率的控制策略。
(二)復合指標
按預先確定的計算方法,將多個評價指標組合構成一個指標稱為復合指標。當單一觀察指標不足以作為主要評價指標時,可采用復合指標作為主要評價指標。以冠狀動脈藥物洗脫支架的臨床試驗為例,主要評價指標之一為靶病變失敗率。靶病變失敗定義為心臟死亡、靶血管心肌梗死以及靶病變血運重建三種臨床事件至少出現(xiàn)一種,即為復合指標。以血液透析濃縮物的臨床試驗為例,采用透析達標率作為主要評價指標,“達標”的定義為透析前后K+、Na+、Ca2+、Cl-、CO2CP(二氧化碳結合力)或HCO3-、pH值均達到預先設定的臨床指標數(shù)值。復合指標可將客觀測量指標和主觀評價指標進行結合,形成綜合評價指標。臨床上采用的量表(如生活質量量表、功能評分量表等)也為復合指標的一種形式。需在試驗方案中詳細說明復合指標中各組成指標的定義、測定方法、計算公式、判定標準、權重等。當采用量表作為復合指標時,盡可能采取專業(yè)領域普遍認可的量表。極少數(shù)需要采用自制量表的情形,申請人需提供自制量表效度、信度和反應度的研究資料,研究結果需證明自制量表的效度、信度和反應度可被接受。需考慮對復合指標中有臨床意義的單個指標進行單獨分析。
(三)替代指標
在直接評價臨床獲益不可行時,可采用替代指標進行間接觀察。是否可采用替代指標作為臨床試驗的主要評價指標取決于:①替代指標與臨床結果的生物學相關性;②替代指標對臨床結果判斷價值的流行病學證據;③從臨床試驗中獲得的有關試驗器械對替代指標的影響程度與試驗器械對臨床試驗結果的影響程度相一致的證據。
(四)主觀指標的第三方評價
部分評價指標由于沒有客觀評價方法而只能進行主觀評價,臨床試驗若必需選擇主觀評價指標作為主要評價指標,建議成立獨立的評價小組,由不參與臨床試驗的第三者/第三方進行指標評價,需在試驗方案中明確第三者/第三方評價的評價規(guī)范。
五、比較類型和檢驗假設
(一)比較類型
臨床試驗的比較類型包括優(yōu)效性檢驗、等效性檢驗、非劣效性檢驗。采用安慰對照的臨床試驗,需進行優(yōu)效性檢驗。采用療效/安全性公認的已上市器械或標準治療方法進行對照的臨床試驗,可根據試驗目的選擇優(yōu)效性檢驗、等效性檢驗或非劣效性檢驗。
優(yōu)效性檢驗的目的是確證試驗器械的療效/安全性優(yōu)于對照器械/標準治療方法/安慰對照,且其差異大于預先設定的優(yōu)效界值,即差異有臨床實際意義。由于試驗器械特征、對照和主要評價指標等因素的不同,部分優(yōu)效性檢驗沒有考慮優(yōu)效性界值,申請人需論述不考慮優(yōu)效性界值的理由。等效性檢驗的目的是確證試驗器械的療效/安全性與對照器械的差異不超過預先設定的等效區(qū)間,即差異在臨床可接受的范圍內。非劣效性檢驗的目的是確證試驗器械的療效/安全性如果低于對照器械,其差異小于預先設定的非劣效界值,即差異在臨床可接受范圍內。在優(yōu)效性檢驗中,如果試驗設計合理且執(zhí)行良好,試驗結果可直接確證試驗器械的療效/安全性。在等效性試驗和非劣效性試驗中,試驗器械的療效/安全性建立在對照器械預期療效/安全性的基礎上。
(二)界值
無論優(yōu)效性試驗、等效性試驗或非劣效性試驗,要從臨床意義上確認試驗器械的療效/安全性,均需要在試驗設計階段制定界值并在方案中闡明。優(yōu)效界值是指試驗器械與對照器械之間的差異具有臨床實際意義的最小值。等效或非劣效界值是指試驗器械與對照器械之間的差異不具有臨床實際意義的最大值。優(yōu)效界值、非劣效界值均為預先制定的一個數(shù)值,等效界值需要預先制定優(yōu)側、劣側兩個數(shù)值。
界值的制定主要考慮臨床實際意義,需要被臨床認可或接受。理論上,非劣效界值的確定可采用兩步法,一是通過Meta分析估計對照器械減去安慰效應后的絕對效應或對照器械的相對效應M1,二是結合臨床具體情況,在考慮保留對照器械效應的適當比例1-f后,確定非劣效界值M2(M2=f×M1)。f越小,試驗器械的效應越接近對照器械,一般情況下,f的取值在0~0.5之間。制定等效界值時,可用類似的方法確定下限和上限。
(三)檢驗假設
試驗方案需明確檢驗假設和假設檢驗方法,檢驗假設依據試驗目的確定,假設檢驗方法依據試驗設計類型和主要評價指標類型確定。附錄1提供了部分試驗設計和比較類型下的檢驗假設舉例,供參考。
六、樣本量估算
臨床試驗收集受試人群中的療效/安全性數(shù)據,用統(tǒng)計分析將基于主要評價指標的試驗結論推斷到與受試人群具有相同特征的目標人群。為實現(xiàn)樣本(受試人群)代替總體(目標人群)的目的,臨床試驗需要一定的受試者數(shù)量(樣本量)。樣本量大小與主要評價指標的變異度呈正相關,與主要評價指標的組間差異呈負相關。
樣本量一般以臨床試驗的主要評價指標進行估算。需在臨床試驗方案中說明樣本量估算的相關要素及其確定依據、樣本量的具體計算方法。附錄2提供了樣本量估算公式的樣例,供參考。確定樣本量的相關要素一般包括臨床試驗的設計類型和比較類型、主要評價指標的類型和定義、主要評價指標有臨床實際意義的界值、主要評價指標的相關參數(shù)(如預期有效率、均值、標準差等)、Ⅰ類和Ⅱ類錯誤率以及預期的受試者脫落和方案違背的比例等。主要評價指標的相關參數(shù)根據已有臨床數(shù)據和小樣本可行性試驗(如有)的結果來估算,需要在臨床試驗方案中明確這些估計值的確定依據。一般情況下,Ⅰ類錯誤概率α設定為雙側0.05或單側0.025,Ⅱ類錯誤概率β設定為不大于0.2,預期受試者脫落和方案違背的比例不大于0.2,申請人可根據產品特征和試驗設計的具體情形采用不同的取值,需充分論證其合理性。
七、臨床試驗設計需考慮的其他因素
由于器械的固有特征可能影響其臨床試驗設計,在進行醫(yī)療器械臨床試驗設計時,需對以下因素予以考慮:
(一)器械的工作原理
器械的工作原理和作用機理可能與產品性能/安全性評價方法、臨床試驗設計是否恰當相關。
(二)使用者技術水平和培訓
部分器械可能需要對使用者進行技能培訓后才能被安全有效地使用,例如手術復雜的植入器械。在臨床試驗設計時,需考慮使用器械所必需的技能,研究者技能應能反映產品上市后在預期用途下的器械使用者的技能范圍。
(三)學習曲線
部分器械使用方法新穎,存在一定的學習曲線。當臨床試驗過程中學習曲線明顯時,試驗方案中需考慮在學習曲線時間內收集的信息(例如明確定義哪些受試者是學習曲線時間段的一部分)以及在統(tǒng)計分析中報告這些結果。如果學習曲線陡峭,可能會影響產品說明書的相關內容和用戶培訓需求。
(四)人為因素
在器械設計開發(fā)過程中,對器械使用相關的人為因素的研究可能會指導器械的設計或使用說明書的制定,以使其更安全,更有效,或讓受試者或醫(yī)學專業(yè)人士更容易使用。
八、統(tǒng)計分析
(一)分析數(shù)據集的定義
意向性分析(Intention To Treat,簡稱ITT)原則是指主要分析應包括所有隨機化的受試者,基于所有隨機化受試者的分析集通常被稱為ITT分析集。理論上需要對所有隨機化受試者進行完整隨訪,但實際中很難實現(xiàn)。
臨床試驗常用的分析數(shù)據集包括全分析集(Full Analysis Set,FAS)、符合方案集(Per Protocol Set,PPS)和安全性數(shù)據集(Safety Set,SS)。需根據臨床試驗目的,遵循盡可能減少試驗偏倚和防止Ⅰ類錯誤增加的原則,在臨床試驗方案中對上述數(shù)據集進行明確定義,規(guī)定不同數(shù)據集在有效性評價和安全性評價中的地位。全分析集為盡可能接近于包括所有隨機化的受試者的分析集,通常應包括所有入組且使用過一次器械/接受過一次治療的受試者,只有在非常有限的情形下才可剔除受試者,包括違反了重要的入組標準、入組后無任何觀察數(shù)據的情形。符合方案集是全分析集的子集,包括已接受方案中規(guī)定的治療、可獲得主要評價指標的觀察數(shù)據、對試驗方案沒有重大違背的受試者。若從全分析集和符合方案集中剔除受試者,一是需符合方案中的定義,二是需充分闡明剔除理由,需在盲態(tài)審核時闡明剔除理由。安全性數(shù)據集通常應包括所有入組且使用過一次器械/接受過一次治療并進行過安全性評價的受試者。
需同時在全分析集、符合方案集中對試驗結果進行統(tǒng)計分析。當二者結論一致時,可以增強試驗結果的可信度。當二者結論不一致時,應對差異進行充分的討論和解釋。如果符合方案集中排除的受試者比例過大,或者因排除受試者導致試驗結論的根本性變化(由全分析集中的試驗失敗變?yōu)榉戏桨讣械脑囼灣晒Γ?,將影響臨床試驗的可信度。
全分析集和符合方案集在優(yōu)效性試驗和等效性或非劣效性試驗中所起作用不同。一般來說,在優(yōu)效性試驗中,應采用全分析集作為主要分析集,因為它包含了依從性差的受試者而可能低估了療效,基于全分析集的分析結果是保守的。符合方案集顯示試驗器械按規(guī)定方案使用的效果,與上市后的療效比較,可能高估療效。在等效性或非劣效性試驗中,用全分析集所分析的結果并不一定保守。
(二)缺失值和離群值
缺失值(臨床試驗觀察指標的數(shù)據缺失)是臨床試驗結果偏倚的潛在來源,在臨床試驗方案的制定和執(zhí)行過程中應采取充分的措施盡量減少數(shù)據缺失。對于缺失值的處理方法,特別是主要評價指標的缺失值,需根據具體情形,在方案中遵循保守原則規(guī)定恰當?shù)奶幚矸椒?,如末次觀察值結轉(Last Observation Carried Forward, LOCF)、基線觀察值結轉(Baseline Observation Carried Forward, BOCF)等。必要時,可考慮采用不同的缺失值處理方法進行敏感性分析。
不建議在統(tǒng)計分析中直接排除有缺失數(shù)據的受試者,因為該處理方式可能破壞入組的隨機性、破壞受試人群的代表性、降低研究的把握度、增加Ⅰ類錯誤率。
對于離群值的處理,需要同時從醫(yī)學和統(tǒng)計學兩方面考慮,尤其是醫(yī)學專業(yè)知識的判斷。離群值的處理應在盲態(tài)審核時進行,如果試驗方案中未預先規(guī)定處理方法,在實際資料分析時,需要進行敏感性分析,即比較包括和不包括離群值的兩種試驗結果,評估其對試驗結果的影響。
(三)統(tǒng)計分析方法
1.統(tǒng)計描述
人口學指標、基線數(shù)據一般需選擇合適的統(tǒng)計指標(如均數(shù)、標準差、中位數(shù)等)進行描述以比較組間的均衡性。
主要評價指標在進行統(tǒng)計推斷時,需同時進行統(tǒng)計描述。值得注意的是,組間差異無統(tǒng)計學意義不能得出兩組等效或非劣效的結論。
次要評價指標通常采用統(tǒng)計描述和差異檢驗進行統(tǒng)計分析。
2.假設檢驗和區(qū)間估計
在確定的檢驗水平(通常為雙側0.05)下,按照方案計算假設檢驗的檢驗統(tǒng)計量及其相應的P值,做出統(tǒng)計推斷,完成假設檢驗。對于非劣效性試驗,若P≤α,則無效假設被拒絕,可推斷試驗組非劣效于對照組。對于優(yōu)效性試驗,若P≤α,則無效假設被拒絕,可推斷試驗組臨床優(yōu)效于對照組。對于等效性試驗,若P1≤α和P2≤α同時成立,則兩個無效假設同時被拒絕,推斷試驗組與對照組等效。
亦可通過構建主要評價指標組間差異置信區(qū)間的方法達到假設檢驗的目的,將置信區(qū)間的上限和/或下限與事先制定的界值進行比較,以做出臨床試驗結論。按照方案中確定的方法計算主要評價指標組間差異的(1-α)置信區(qū)間,α通常選取雙側0.05。對于高優(yōu)指標的非劣效性試驗,若置信區(qū)間下限大于-?(非劣效界值),可做出臨床非劣效結論。對于優(yōu)效性試驗,若置信區(qū)間下限大于?(優(yōu)效界值),可做出臨床優(yōu)效結論。對于等效性試驗,若置信區(qū)間的下限和上限在(-?,?)(等效界值的劣側和優(yōu)側)范圍內,可做出臨床等效結論。
對試驗結果進行統(tǒng)計推斷時,建議同時采用假設檢驗和區(qū)間估計方法。
除試驗器械及相應治療方式外,主要評價指標常常受到受試者基線變量的影響,如疾病的分型和程度、主要評價指標的基線數(shù)據等。因此,在試驗方案中應識別可能對主要評價指標有重要影響的基線變量,在統(tǒng)計分析中將其作為協(xié)變量,采用恰當?shù)姆椒ǎㄈ鐓f(xié)方差分析方法等),對試驗結果進行校正,以修正試驗組和對照組間由于協(xié)變量不均衡而對試驗結果產生的影響。協(xié)變量的確定依據以及相應的校正方法的選擇理由應在臨床試驗方案中予以說明。對于沒有在臨床試驗方案中規(guī)定的協(xié)變量,通常不進行校正,或僅將校正后的結果作為參考。
在多個中心開展臨床試驗,可在較短時間內入選所需的病例數(shù),且樣本更具有代表性,結果更具有推廣性,但對試驗結果的影響因素更為復雜。
在多個中心開展臨床試驗,需要組織制定標準操作規(guī)程,組織對參與臨床試驗的所有研究者進行臨床試驗方案和試驗用醫(yī)療器械使用和維護的培訓,以確保在臨床試驗方案執(zhí)行、試驗器械使用方面的一致性。當主要評價指標易受主觀影響時,建議采取相關措施(如對研究者開展培訓后進行一致性評估,采用獨立評價中心,選擇背對背評價方式等)以保障評價標準的一致性。盡管采取了相關質量控制措施,在多中心臨床試驗中,仍可能出現(xiàn)因不同中心在受試者基線特征、臨床實踐(如手術技術、評價經驗)等方面存在差異,導致不同中心間的效應不盡相同。當中心與處理組間可能存在交互作用時,需在臨床試驗方案中預先規(guī)定中心效應的分析策略。當中心數(shù)量較多且各中心病例數(shù)較少時,一般無需考慮中心效應。
在多個中心開展臨床試驗,各中心試驗組和對照組病例數(shù)的比例需與總樣本的比例基本相同。當中心數(shù)量較少時,建議按中心進行分層設計,使各中心試驗組與對照組病例數(shù)的比例基本相同。
九、臨床試驗的偏倚和隨機誤差
臨床試驗設計需考慮偏倚和隨機誤差。偏倚是偏離真值的系統(tǒng)誤差的簡稱,在試驗設計、試驗實施和數(shù)據分析過程中均可引入偏倚,偏倚可導致錯誤的試驗結論。臨床試驗設計時應盡量避免或減少偏倚。
統(tǒng)計量的隨機誤差受臨床試驗樣本量的影響。一方面,較大的樣本量可提供更多的數(shù)據,使器械性能/安全性評價的隨機誤差更小。另一方面,更大的樣本量可能引入更大的偏倚,導致無臨床意義的差異變得具有統(tǒng)計學意義。試驗設計應該旨在使試驗結果同時具有臨床和統(tǒng)計學意義。
附錄1
檢驗假設舉例
本附錄中列舉的檢驗假設和檢驗統(tǒng)計量,為特定試驗類型、特定評價指標類型下的舉例,有其適用范圍和前提條件。
一、高優(yōu)指標的兩樣本t檢驗
表1以高優(yōu)指標的兩樣本t檢驗為例,列舉了優(yōu)效性試驗、等效性試驗、非劣效性試驗的檢驗假設和檢驗統(tǒng)計量的計算公式。H0和H1分別表示原假設和備擇檢驗;T和C分別表示試驗組和對照組主要評價指標的參數(shù)(如總體均數(shù)、總體率等);為兩組參數(shù)差值(T-C)的標準誤;?表示界值,優(yōu)效性界值用?表示,非劣效界值用-?表示,等效界值的優(yōu)側和劣側分別用?和-?表示;t/t1/t2為檢驗統(tǒng)計量。
表1 不同試驗類型的檢驗假設和檢驗統(tǒng)計量
(以高優(yōu)指標的兩樣本t檢驗為例)
試驗類型 | 原假設 | 備擇假設 | 檢驗統(tǒng)計量 |
非劣效性試驗 | | | |
優(yōu)效性試驗 | | | |
等效性試驗 | | | |
| | | |
二、單組目標值試驗的檢驗假設
π0為主要評價指標的目標值,π1為主要評價指標的總體率/均數(shù)。對于高優(yōu)指標,檢驗假設為H0:π1≤π0,H1:π1>π0。對于低優(yōu)指標,檢驗假設為H0:π1≥π0,H1:π1<π0。
附錄2
樣本量估算公式舉例
本附錄中列舉的樣本量估算公式,為樣本量估算公式舉例,有其適用范圍和前提條件。在實際的樣本量估算中,需根據具體試驗設計選擇適用公式,包括本附錄中未列舉的公式。
一、平行對照設計樣本量估算
以下公式中,nT、nC分別為試驗組和對照組的樣本量;Z1-α/2、Z1-β為標準正態(tài)分布的分數(shù)位,當α=0.05時,Z1-α/2=1.96,當β=0.2時,Z1-β=0.842;(Z1-α/2+Z1-β)2=7.85
(一)優(yōu)效性試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為事件發(fā)生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預期事件發(fā)生率;為兩組預期率差的絕對值, = ;Δ為優(yōu)效性界值,取正值。
當試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預期標準差;為預期的兩組均數(shù)之差的絕對值, = ;Δ為優(yōu)效性界值,取正值。
使用該公式計算樣本量為Z值計算的結果,小樣本時宜使用t值迭代,或總例數(shù)增加2—3例。
(二)等效性試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為事件發(fā)生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預期事件發(fā)生率;為兩組預期率差的絕對值, = ;?為等效界值(適用于劣側界值與優(yōu)側界值相等的情形),取正值。
當試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預期標準差;為預期的兩組均數(shù)之差的絕對值, = ;?為等效界值(適用于劣側界值與優(yōu)側界值相等的情形),取正值。
使用該公式計算樣本量為Z值計算的結果,小樣本時宜使用t值迭代,或總例數(shù)增加2—3例。
(三)非劣效試驗
當試驗組和對照組按照1:1隨機化分組,主要評價指標為預期事件發(fā)生率,其方差齊且不接近于0%或100%時,其樣本量估算公式為:
PT、PC分別為試驗組和對照組預期事件發(fā)生率;為兩組預期率差的絕對值, = ,?為非劣效界值,取負值。
當試驗組和對照組按照1:1隨機化分組,主要評價指標為定量指標且方差齊時,其樣本量估算公式為:
σ為對照組預期標準差;為預期的兩組均數(shù)之差的絕對值, = ;?為非劣效界值,取負值。
使用該公式計算樣本量為Z值計算的結果,小樣本時宜使用t值迭代,或總例數(shù)增加2—3例。
二、單組目標值試驗的樣本量估算
以下公式中,n為試驗組樣本量;Z1-α/2、Z1-β為標準正態(tài)分布的分數(shù)位,當α=0.05時,Z1-α/2=1.96,當β=0.2時,Z1-β=0.842。
當主要評價指標為事件發(fā)生率,統(tǒng)計發(fā)生率的研究周期相同,且發(fā)生率不接近于0%或100%時,其樣本量估算公式為:
PT為試驗組預期事件發(fā)生率,P0為目標值。
三、診斷試驗的樣本量估算
以抽樣調查設計的診斷試驗為例,其評價指標為靈敏度和特異度,用靈敏度計算陽性組的樣本量,用特異度計算陰性組的樣本量。
陽性組/陰性組樣本量的估算公式為:
公式中n為陽性組/陰性組樣本量,Z1-α/2為標準正態(tài)分布的分位數(shù),P為靈敏度或特異度的預期值,Δ為P的允許誤差大小,一般取P的95%置信區(qū)間寬度的一半,常用的取值為0.05—0.10。