ライブラリー 頭部CTスキャンにおける重要な所見の検出のためのディープラーニングアルゴリズム:レトロスペクティブスタディ。
Deep learning algorithms for detection of critical findings in head CT scans: a retrospective study
Lancet 2018 Dec 1 ;392 (10162):2388 -2396.
上記論文のアブストラクト日本語訳
※ヒポクラ×マイナビ 論文検索(Bibgraph)による機械翻訳です。
【背景】非造影頭部CTスキャンは、頭部外傷や脳卒中の症状を持つ患者の初期画像診断の現在の標準である。我々は,これらのスキャンから以下の重要な所見を自動検出するための一連の深層学習アルゴリズムの開発と検証を目的とした:頭蓋内出血とその種類(すなわち,胸膜内,脳室内,硬膜下,硬膜外,くも膜下),頭蓋底骨折,正中線移動,および腫瘤効果。
【方法】2011年1月1日から2017年6月1日の間に,インドの約20の施設から,頭部CTスキャン313件とその臨床報告書を含むデータセットをレトロスペクティブに収集した。このデータセットのランダムに選択された部分(Qure25kデータセット)を検証に使用し、残りはアルゴリズムを開発するために使用された。追加の検証用データセット(CQ500データセット)は、開発およびQure25kデータセットに使用した施設とは異なる施設から2つのバッチで収集した。術後スキャンと7歳未満の患者のスキャンは除外した。Qure25k と CQ500 のデータセットでは,それぞれオリジナルの臨床放射線報告書と 3 人の独立した放射線科医のコンセンサスをゴールドスタンダードとみなした.アルゴリズムの評価には,主に受信者動作特性曲線下面積(AUC)が用いられた。Qure25kデータセットにおいて,アルゴリズムは頭蓋内出血の検出で0-92(95%CI 0-91-0-93)のAUCを達成した(胸膜内は0-90 [0-89-0-91], 脳室内は0-96 [0-94-0-97], 硬膜下は0-92 [0-90-0-93], 硬膜外は0-93 [0-91-0-95] そして くも膜下は0-90 [0-89-0-92]).CQ500データセットでは,頭蓋内出血のAUCは0-94(0-92-0-97)であった(それぞれ,0-95 [0-93-0-98], 0-93 [0-87-1-00], 0-95 [0-91-0-99], 0-97 [0-91-1-00], 0-96 [0-92-0-99]).Qure25kデータセットにおけるAUCは、頭蓋底骨折が0-92(0-91-0-94)、正中線移動が0-93(0-91-0-94)、mass effectが0-86(0-85-0-87)、CQ500データセットにおけるAUCはそれぞれ0-96(0-92-1-00), 0-97 (0-94-1-00) および 0-92(0-89-0-95)であった。
【解釈】我々の結果は、深層学習アルゴリズムが緊急の注意を要する頭部CTスキャンの異常を正確に特定できることを示しており、これらのアルゴリズムを使用してトリアージプロセスを自動化する可能性を開いている。
【FUNDING】Qure .ai .
第一人者の医師による解説
頭部外傷や脳卒中の自動トリアージに道を開く研究成果
井上 優介 北里大学医学部放射線科学画像診断学主任教授
MMJ.June 2019;15(3)
人工知能(AI)が社会のさまざまな分野で注目を集めており、画像診断を含めた医療分野も例外でない。近年のAIブームを牽引しているのは深層学習であり、本研究では、頭部単純 CTから危機的所見を検出する深層学習アルゴリズムの開発と評価を後ろ向きに行っている。このアルゴリズムは頭蓋内出血、頭蓋冠骨折、中心構造偏位、占拠性効果 (mass effect)の有無を判定し、頭蓋内出血についてはそのタイプを脳実質内、脳室内、硬膜下、硬 膜外、くも膜下に分類するものである。インドの約 20施設から313,318件の頭部 CTとその画像診断報告書を収集し、この中から290,055件をア ルゴリズム開発に、21,095件を性能評価に使用した。さらに、別の6施設から集めた491検査で も性能評価を行った。検討の結果、いずれの判定項 目についても良好な診断能が示され、本アルゴリズムが頭部 CTにおける急性所見検出の補助技術として期待されると述べられている。
深層学習アルゴリズムの開発では質の高い大量の教師データの集積が鍵になる。本研究では多数の頭部 CTとその診断結果を教師データとしてアルゴリズムを開発し、有効性も多数例で示している。 CT画像は装置や使用施設によって異なり、さまざまな施設からデータを集めていることも本研究の長所である。
診断結果については、6施設の491検査では3人の放射線科医が合議で判定した結果を ゴールドスタンダードとしているが、その他の検査では日常臨床で作成された画像診断報告書を用い、報告書の記載から注目所見の有無を自動判定してスタンダードとしている。効率的なスタンダード決定によって大量のデータの使用を実現しており、 今後の深層学習アルゴリズム研究にも参考になると思われる。
しかし、忙しい臨床の中で1人が作成した報告書からスタンダードを決定することには、 見落としや過剰診断の可能性、主所見だけを記載して副所見が十分記載されない可能性による限界がある。また、画像診断報告書は臨床情報や過去の画像検査結果なども踏まえて作成されていることも考慮する必要がある。報告書は必ずしも画像情報 を忠実に反映したものではない。
AI技術を実用化するには、臨床状況の中での位置付けを具体化することが望まれる。この論文では、開発したアルゴリズムを頭部外傷や脳卒中患者の自動トリアージに使用して放射線科医の業務効率を改善することを提案しており、現実的で有益な役割と考えられる。一方、トリアージ結果が過剰に信頼されて誤診につながる危険性も指摘しており、 自動診断技術全般に適用される戒めとして尊重したい。