訂閱
糾錯
加入自媒體

藥監(jiān)局發(fā)布醫(yī)療AI產品審批要點,人工智能企業(yè)是否準備就緒?

2019-07-02 09:23
動脈網
關注

在藥監(jiān)局進行“人工智能類醫(yī)療器械注冊申報公益培訓”半年之后,關于審批要求相關的官方詳細文件終于下達。半年前的會議上,藥監(jiān)局細致入微的分析了影響醫(yī)療人工智能器械審批的每一個過程,細化到對每個指標進行了詳盡的講解。

這一次,藥監(jiān)局正式向AI企業(yè)發(fā)布了審批相關文件《深度學習輔助決策醫(yī)療器械軟件審批要點》(以下簡稱《要點》),以文件的方式將審批相關的具體指標確立下來。

相比上一次會議,藥監(jiān)局沒有把過多的筆墨放在流程介紹上,整個文件直擊人工智能軟件的數據質量控制、算法泛化能力、臨床使用風險、臨床使用風險應當考慮數據質量控制、算法泛化能力的直接影響,以及算力所用計算資源(即運行環(huán)境)失效的間接影響六大要點。

具體而言,《要點》由適用范圍、審批關注要點、軟件更新、相關技術考量、注冊申報資料說明五個部分組成,每一部分均對其中涉及的指標進行了非常細致的介紹。

需要注意的是,該文件不僅包含了輔助診斷的考量,還明確了非輔助決策軟件、傳統(tǒng)人工智能軟件的要求以及第三方數據庫、移動與云計算等考量。

結合《要點》內容,動脈網采訪了數位從事醫(yī)療人工智能的相關人士,嘗試從政策之中挖掘2019年下半年“醫(yī)療+AI”的發(fā)展方向。

六大關鍵詞點名AI產品原則

從審批的流程與關注點看,以基于風險的全生命周期管理為軟件監(jiān)管根本的直到原則早已確定,而為實施此選擇所提及的適用范圍、風險考量、需求分析、軟件確認、臨床實驗等因素也已成定式,但其中的細節(jié)部分仍有所改良。

審評要點重點關注軟件的數據質量控制、算法泛化能力、臨床使用風險、臨床使用風險應當考慮數據質量控制、算法泛化能力的直接影響,以及算力所用計算資源(即運行環(huán)境)失效的間接影響。

具體而言,動脈網從《要點》之中提取了6個關鍵詞,這6個關鍵詞明確了人工智能企業(yè)在審批中所需注意的關鍵。

1、適用范圍

準則的適用范圍包括兩類軟件。

1. 深度學習輔助決策醫(yī)療器械軟件:即基于醫(yī)療器械數據(醫(yī)療器械所生成的醫(yī)學圖像、醫(yī)學數據,以下統(tǒng)稱數據),使用深度學習技術進行輔助決策的軟件。

2. 使用深度學習技術進行前處理(如成像質量改善、成像速度提升、圖像重建)、流程優(yōu)化(如一鍵操作)、常規(guī)后處理(如圖像分割、數據測量)等非輔助決策的軟件可參考使用本審評要點。

需要注意的是,這里不再把深度學習軟件化分為可分為AI獨立軟件(本身即為醫(yī)療器械的AI軟件)與AI軟件組件(醫(yī)療器械內含的AI軟件),而是以是否“輔助決策”對產品進行了劃分,強調了產品的“輔助”功能;同時,這也明確表示非輔助決策軟件也將以類似手段進入審批流程。

2、審批重點

審批提出了軟件的數據質量控制、算法泛化能力、臨床使用風險,臨床使用風險應當考慮數據質量控制、算法泛化能力的直接影響,以及算力所用計算資源(即運行環(huán)境)失效的間接影響六個方面。

而這六個方面正是人工智能企業(yè)所實際面臨的問題,數據質量關系著算法的成熟度;泛化能力則是指人工智能產品在不同人群中的普適能力;臨床試驗更是制約現階段AI產品發(fā)展的關鍵……每一個問題都卡住了一批AI企業(yè)。

那么,在要點中重申這些監(jiān)管要點之后,藥監(jiān)局會提出相應的解決方案對人工智能企業(yè)進行輔助嗎?一切仍有待時間給出答案?

3、數據收集與處理

在審批之中,數據收集應當考慮數據采集、數據預處理、數據標注、數據集構建等活動的質控要求,以保證數據質量和算法設計質量。

在實際審批之中,數據在審批過程中非常重要。據動脈網了解,多家人工智能企業(yè)在提交《創(chuàng)新醫(yī)療器械特別審批程序》時,被審批機構以“缺少訓練集、調優(yōu)集、測試集中主要數據來源機構”;“缺少主要采集數據的分布情況”;“缺少不同設備和來源機構的測試數據”;“缺少數據標注質量控制中人員資歷、數量的要求”;“缺少基于一定樣本量真實數據的用戶測試”等理由駁回。

對于上述問題,《要點》中認為,采集設備質控應當明確采集設備的兼容性要求和采集要求。兼容性要求應當基于數據生成方式(直接生成、間接生成)提供采集設備兼容性列表或技術要求,明確采集設備的制造商、型號規(guī)格、性能指標等要求,若對采集設備無具體要求應當提供相應支持資料。

采集要求應當明確采集設備的采集方式(如常規(guī)成像、增強成像)、采集協議(如MRI成像序列)、采集參數(如CT加載電壓、加載電流、加載時間、層厚)、采集精度(如分辨率、采樣率)等要求。

若使用現有歷史數據,應當明確采集設備要求、數據采集質量評估要求(如人員、方法、指標、通過準則)。同時,采集的數據應當進行數據脫敏以保護患者隱私。數據脫敏應當明確脫敏的類型(靜態(tài)、動態(tài))、規(guī)則、程度、方法。

數據預處理、數據標注、數據集構建三個方面文件亦給出了明確的要求,但要求相對簡單,企業(yè)只需按照要求的模式執(zhí)行即可,這里不作贅述。

4、算法設計

除了常規(guī)命名方面的要求外,《要點》提到了算法訓練與網絡安全防護問題。

其中,算法訓練需要基于訓練集、調優(yōu)集進行訓練和調優(yōu),應當明確評估指標、訓練方法、訓練目標、調優(yōu)方法、訓練數據量-評估指標曲線等要求。

評估指標建議根據臨床需求進行選擇,如敏感性、特異性等。訓練方法包括但不限于留出法和交叉驗證法。訓練目標應當滿足臨床要求,提供ROC曲線等證據予以證實。調優(yōu)方法應當明確算法優(yōu)化策略和實現方法。訓練數據量-評估指標曲線應當能夠證實算法訓練的充分性和有效性。

而在網絡安全防護方面,應當結合軟件的預期用途、使用場景和核心功能,基于保密性、完整性、可得性等網絡安全特性,確定軟件網絡安全能力建設要求,以應對網絡攻擊和數據竊取等網絡威脅。相關要求詳見網絡安全指導原則。

類軟件常見網絡威脅包括但不限于框架漏洞攻擊、數據污染,其中框架漏洞攻擊是指利用算法所用現成框架本身漏洞進行網絡攻擊,數據污染是指通過污染輸入數據進行網絡攻擊。

5、以臨床評價為主的軟件確認方式

軟件確認是本次《要點》中的重點,文件中明確表示,企業(yè)應根據軟件指導原則要求,提交基于臨床試驗的臨床評價資料,即提交申報產品的臨床試驗資料,或者與申報產品核心算法具有實質等同性的同品種產品或同類軟件功能的臨床試驗資料。

而對于臨床試驗,《要點》建議優(yōu)先選擇同品種產品或臨床參考標準(即臨床金標準)進行非劣效對照設計,若無同品種產品且難以獲取臨床參考標準(如違背倫理學要求)可選擇替代方法,如選擇用戶結合軟件聯合決策與用戶單獨決策進行優(yōu)效對照設計。

非劣效界值或優(yōu)效界值的確定應當有充分的臨床依據。此外考慮到用戶的差異性,可選擇多閱片者多病例(MRMC)試驗設計。

《要點》建議企業(yè)應結合適用人群、病變等層面選擇觀察指標,原則上選擇敏感性、特異性、ROC/AUC作為主要觀察指標,亦可在此基礎上根據軟件特點選擇敏感性/特異性衍生指標、ROC/AUC衍生指標、組內相關系數、Kappa系數、時間效率、數據有效使用率等指標作為觀察指標。

入排標準應當基于目標疾病流行病學特征,保證陽性樣本和陰性樣本選取的合理性和充分性。而在實際之中,大部分企業(yè)傾向于選擇敏感性、特異性、ROC/AUC作為主要觀察指標。

病理影像的識別需要用AUC作為觀察指標,圖片來源于論文《Pathologist-level Interpretable Whole-slide Cancer Diagnosis with Deep Learning》

對于臨床試驗的結果,《要點》建議由第三方獨立評價,且實施機構應當具備代表性和廣泛性,不同于訓練數據主要來源機構,地域分布盡可能廣泛,機構數量盡可能多,以確認算法泛化能力。

例如,預期以提高輔助診斷時間效率為首要目標的某軟件,無同品種產品且難以獲取臨床參考標準,其臨床試驗設計可選擇用戶結合軟件聯合決策與用戶單獨決策進行交叉對照設計,以敏感性、特異性、時間效率作為主要觀察指標,其中敏感性、特異性可為非劣性對照,時間效率指標應當為優(yōu)效對照。

事實上,國內已經有諸多企業(yè)嘗試以多中心試驗證實人工智能產品在真實世界的有效性。數坤科技在今天5月30日便發(fā)布了其AI與金標準對照多中心結果,值得其他企業(yè)借鑒。

最后,《要點》指出,臨床評價采用基于現有歷史數據的回顧性研究即可,沒有提到前瞻性研究,據相關人士透露,現有AI產品的臨床評價中,還未有案例通過前瞻性研究。

6、注冊申報資料說明

《要點》中提到,申報的軟件名稱需符合獨立軟件通用名稱命名規(guī)范要求,體現處理對象(如CT圖像、眼底照片)、目標疾病(含病變、疾病屬性)、臨床用途(如輔助篩查、輔助識別)等特征詞。

輔助決策獨立軟件適用范圍應當明確預期用途、使用場景和核心功能,包括但不限于處理對象、目標疾病、臨床用途、適用人群、目標用戶、使用場所、采集設備要求、臨床使用限制。

企業(yè)必須提供:一、軟件描述文檔核心算法部分應當結合本審評要點提供相應算法研究資料;二、包括數據來源合規(guī)性聲明;三、算法性能影響因素分析資料以及各類測試場景下算法性能評估結果比較分析資料。

這部分內容相對簡單,但據動脈網了解,仍有相關企業(yè)因為“產品與實際用途不符”等原因被審批方駁回。

除了上述6個關鍵點外,《要點》也提及了第三方數據庫、測評數據庫、云端部署等要點,但與過去政策無大致變化,對于說明書,按照《醫(yī)療器械說明書和標簽管理規(guī)定》準則執(zhí)行。

對于非輔助決策軟件、傳統(tǒng)人工智能軟件的要求以及第三方數據庫、移動與云計算!兑c》提出提出了“前處理軟件功能原則上應當開展算法性能評估、臨床評價;流程優(yōu)化軟件功能開展算法性能評估即可,無需開展臨床評價;常規(guī)后處理軟件功能原則上開展算法性能評估即可,全新功能應當開展臨床評價”的評價要求。

良藥還是安慰劑?相關人士見解不一

在政府發(fā)布文件之后,動脈網聯系了深睿醫(yī)療、數坤科技、圖瑪深維等人工智能企業(yè)。對于政策本身,大部分企業(yè)表示,相對于過去的政策,該政策與以往政策的差異性不大,更多的是在一些細節(jié)方面,《要點》提出了更為細致的規(guī)劃。事實上,企業(yè)大都按部就班地按照政策執(zhí)行著審批程序。

值得一提的是,有不愿意透露名字的企業(yè)表示他們也在嘗試以前瞻性實驗的方式進行臨床評價,以超過標準要求的方式獲得認可,但前景并不明朗。

部分企業(yè)正努力在審批之中尋求創(chuàng)新

對于政策本身,長期從事醫(yī)療政策分析的京夢咨詢創(chuàng)始人張京雷則提出了不同的看法。他認為:這一政策細致描述了人工智能審批過程中的細節(jié),起到了規(guī)范和明確的作用,但并不代表三類器械證將很快下達下來。反之,這可能暗示政府將對人工智能醫(yī)療產品加以更為嚴格的監(jiān)管。

但無論如何,人工智能作為“輔助”診斷的角色已經敲定,那么在這一定義下,相關企業(yè)究竟應該把腳步放在何方?我們拭目以待!

文 | 趙泓維

網站、公眾號等轉載請聯系授權

聲明: 本文系OFweek根據授權轉載自其它媒體或授權刊載,目的在于信息傳遞,并不代表本站贊同其觀點和對其真實性負責,如有新聞稿件和圖片作品的內容、版權以及其它問題的,請聯系我們。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號