「人工知能」の記事一覧

人工知能と臨床医の比較 深層学習試験のデザイン、報告基準および主張の系統的レビュー
人工知能と臨床医の比較 深層学習試験のデザイン、報告基準および主張の系統的レビュー
Artificial intelligence versus clinicians: systematic review of design, reporting standards, and claims of deep learning studies BMJ. 2020 Mar 25;368:m689. doi: 10.1136/bmj.m689. 原文をBibgraph(ビブグラフ)で読む 上記論文の日本語要約 【目的】医用画像の深層学習アルゴリズムの精度を熟練の臨床医と比較した試験のデザイン、報告基準、リスクバイアスおよび主張を系統的に調べること。 【デザイン】系統的レビュー。 【データ入手元】2010年から2019年6月までのMedline、Embase、Cochrane Central Register of Controlled TrialsおよびWorld Health Organization試験レジストリ。 【選択試験の適格基準】医学画像の深層学習アルゴリズムの精度を1名以上の現役熟練臨床医と比較した無作為化試験登録および非無作為か試験。深層学習研究で、医用画像への関心が高まっている。畳み込みニューラルネットワーク(CNN)の際だった特徴は、未加工データで訓練するとパターン認識に必要な代表的な特徴を独自に生成することである。アルゴリズムは、人間が使用するよう指示した特徴よりもむしろ、分類に重要な画像の特徴を自動的に学習する。選択した試験は、医用画像を既存疾患または診断グループへの分類(疾患または非疾患など)の絶対リスク予測に用いることを目的としたものであった。例えば、気胸または非気胸などのラベルを付けた未加工の胸部レントゲン画像と、ピクセルパターンから気胸を示唆するCNN学習などである。 【レビューの方法】無作為化試験でCONSORT(臨床試験報告に関する統合基準)、非無作為化試験にTRIPOD(個別の予後や診断に関する多変量予測モデルの透明性ある報告)基準の遵守を評価した。無作為化試験でCochraneバイアスリスクツール、非無作為化試験にPROBAST(予測モデルのバイアスリスク評価ツール)を用いてバイアスリスクを評価した。 【結果】深層学習を検討した無作為化試験わずか10件を特定し、そのうち2件が出版されており(盲検化の欠如を除いたバイアスリスク:低度、報告基準の遵守:高度)、8件が進行中であった。特定した非無作為化試験81件のうちわずか9件が前向き試験で、6件が実臨床で検証を実施したものであった。比較対象の専門医数中央値はわずか4人(四分位範囲2-9人)であった。全データとコードへのアクセスが厳しく制限されていた(それぞれ95%、93%が閲覧不可能)。全体のバイアスリスクは、81件中58件が高度で、報告基準の遵守が準最適であった(TRIPODの29項目中12項目の遵守率50%未満)。81件中61件が、抄録に人工知能の性能が臨床医と同等以上であると記していた。詳細な前向き試験を要すると記載していたのは、81件中わずか31件(38%)であった。 【結論】医用画像を用いた前向きな深層学習を検討した研究や無作為化試験はほとんどない。ほとんどの非無作為化試験が前向きではなく、バイアスリスクが高く、既存の報告基準から逸脱している。ほとんどの試験でデータとコードが入手できず、人間の対照群も少数であることが多い。詳細な研究で、バイアスリスクを除外し、実臨床との関連例を高め、報告基準および透明性を改善し、ふさわしい表現の結論に加減する必要がある。 第一人者の医師による解説 適切な研究デザインによる医学的な検証には もう少し時間が必要 津本 周作 島根大学医学部医学科医療情報学講座教授 MMJ. December 2020;16(6):177 深層学習が画像認識のベンチマークで2012年、他の手法を遥かにしのぐ好成績を上げて以降、さまざまな領域で適用が進んでいる。医用画像診断は主たる領域の1つで、Googleなどから「医師が診断する1年前の画像で肺がんを検出」、「人工知能(AI)は皮膚がんの診断については専門医以上」という主張の根拠となる論文が出るようになった(1),(2)。しかし、実際の診断能力を専門家と比較した定量的な検証は十分なされているのだろうか? 本論文は、系統的レビューによりその評価を試みている。  本論文では、学術雑誌に掲載された英語論文で、画像診断への適用、臨床家の診断との比較がなされた236編を選択後、著者4人が最終的に91論文を選び、系統的レビューを行った結果、以下のことが明らかになった。  1. 無作為化試験は10件。小児白内障診断の研究(患者350人)では、AIと専門医の正答率はそれぞれ87%と99%、治療の推薦については71%と97%であった(非無作為化試験ではそれぞれ98%と93%、バイアスが顕著)。診断の速度はAIの方が早い(2.8分 対 8.5分)。大腸内視鏡による診断の研究(患者1,058人)では、AI実装、非実装のシステムを使った検出率が比較され、腺腫(29% 対 20%)、過形成ポリープの個数(114 対 52)と、AIによる支援が優れていた。  2. 非無作為化試験81件(放射線科36、眼科17、皮膚科9、消化器科5、病理5など)では、9件のみが前向きで、このうち実際の臨床現場で検証されていたのは6件。77件の論文要約で臨床家との比較が述べられ、AIの方が優れているという報告は23、同等/より良いは13、同等が25であった。追加の前向き研究の必要性を論じているのは9件のみ。  3. 論文内のデータおよびプログラムは公開されておらず、再現性が検証できない。  4. 検証する医師の数が少ない(中央値:4人)。  5. ほとんどの論文で、AIの性能が同等/より良いと書かれているが、研究デザイン、バイアスに関する議論が不十分。  深層学習が実領域で適用されはじめたのが2014年ごろであり、まだまだ歴史が浅い。既報の多くは工学的研究のスタイルで、研究デザイン的にも不十分な研究が多い。AIが医師を凌ぐというエビデンスは、今回の系統的レビューからは得られなかった。今後、適切な研究デザインのもとでの医学的な検証結果が報告されるまで、もう少し時間がかかるかもしれない。 1. Ardila D, et al. Nat Med. 2019;25(6):954-961. 2. Haenssle HA, et al. Ann Oncol. 2018;29(8):1836-1842.