【AI】医療とAI。ChatGPT-4の画像認識能力。

最終更新日: 2024/02/07 2:36pm

カテゴリー： AI, お知らせ, ソラコム, 先進技術, 画像認識, 監視カメラ

こんにちは。

小高です。

昨日、ChatGPT-4のAPIをテストしていたところ、偶然、夜の「クローズアップ現代（NHK）」で「医療とAI」について特集されていました。

番組は主に、AIが医療のどういう分野で使われるようになってきているのか、についてのルポでした。

おおまかに、

(1) 画像診断：レントゲン写真などの画像データからガンの疑いを瞬時に検出する。内視鏡画像からリアルタイムに腫瘍を検出する。

(2) 波形診断：心電図から心不全の予兆を察知する。

(3) 問診：患者が訴える症状から病名を特定する。

(4) 創薬：ゲノム解析やAIのアルゴリズムを使った新薬の発見

といったことが紹介されていたかと思います。

番組内では、専門家が「健康のための診断（健康診断、人間ドックなど）」にAIを使うのがいいとおっしゃっていました。

スタートレックで見るような、ベッドに寝たら断層写真がとられてAIで瞬時に診断（＆処方）する健診、はそう遠くない未来にできると思いました。（「技術的には」という意味で、社会的には問題視する向きもあるのでしょう）

さて、「AIのすごさ」を体感するにはChatGPTが最適です。

有料枠にはなりますが、ChatGPT-4という新しいモデルには「画像」を入力することができます。つまり、画像を入れて「これって何？」と聞くことができます。

下は、会社の入り口をモニターにしてるカメラから抜き出した画像です。

昨日、雪が降ったあとが少し残っていますね。緑の枠は、カメラが勝手に記録したものです（動くものを検知しましたという意味）。

この画像をChatGPT-4に入力して、「何が写っていますか？」と聞いてみます。（正確には、ChatGPTのAPIを使って、モデル=gpt-4-vision-previewに問い合わせました）

答えは以下でした。（回答には5秒程度かかりました）

“この写真には道路の光景が写っています。左側には緑色の枠内に人と犬が見えます。彼らは歩道を歩いているようです。道路の中央には車が停まっており、右側には自転車に乗っている人がいます。背景には建物がいくつか見え、少し雪が残っていることがわかります。晴れた日の昼間で、影がくっきりとしています。”

人と犬、車、自転車に乗っている人、雪、までわかってしまっています。

もう１つ。今度は違う日の画像です。

これについては、GPT4は以下のように回答しました。（回答には5秒程度かかりました）

“写っているのは、日本の住宅街の一角で、道を走る白い配送用トラックのようです。空は晴れており、日時のスタンプから、写真は2024年2月1日の正午頃に撮影されたことが分かります。この写真には物体認識のための四角い枠が描かれており、配送トラックを追跡・識別していることを示しています。周りにはアパートの建物、電柱、そして一本の歩行者用の道と交差する道路が見えます。”

驚きませんか？　奥に写っている横断歩道まで見ています。

それで問いかけ（プロンプト）を変えて、どれだけの物体を認識できるか聞いてみましょう。

画像は先ほどと同じ以下を使いました。

物体の識別能力（何が何個のレベルで）を調べるために、ChatGPT4への問いかけは以下のようにしました。

“画像に写っている物とその個数を箇条書きで回答してください。抽出する物は次の分類に当てはまるものだけとします。
また、信頼度が高い物だけを抽出することとします。
抽出する分類は、{0: 人, 1: 自転車, 2: 自動車, 3: オートバイ, 5: バス, 6: トラック, 7: 鳥, 8: 猫, 9: 犬}の10種類に限定します。
また、１つ以上抽出された物について信頼度と、その様子について箇条書き中に括弧付きで説明してください。”

これに対して、gpt4は以下のように回答しました。

” 画像に写っている物とその個数：
– 人: 1人 (歩道を歩いている人。犬を連れている。)
– 自動車: 1台 (画像の中心付近に停車している黒い車。)
– 犬: 1匹 (人が連れている小型犬。)

これらの抽出物についての信頼度は高いと見られます。各物体がはっきりと映っており、特定しやすい状態にあります。”

残念ながら「自転車に乗っている人」を見落としてしまいましたが、指定した通りのフォーマットで返してくれました。

先の回答では、自転車を識別できていたのに残念でした。ChatGPTの回答は、聞いたタイミングで変わりますので、こういうことはあり得ます。

さて。

すでに「人が見るよりChatGPTがみた方が間違いないのでは？」と思ってしまうレベルですね。ただ、間違えてしまこともあるから医療にはちょっと心配かな、というご意見もあると思います。

ChatGPTは「汎用（目的を１つに定めない）のAI」です。これに対して「特定の分野での能力に磨きをかけたAI」が存在します。たとえば、世界で初めて囲碁の世界チャンピオンに勝ったAlphaGo（アルファ碁。2015年）は碁盤に特化して訓練されたAIです。

「ガンを発見するAI」というのは、「ガンを発見するためだけに訓練されたAI」です。

そういったAIは、すでに人間の識別能力を超えてしまっています。

最初に書きました、

ベッドに寝たら断層写真がとられてAIで瞬時に診断（＆処方）、という装置

ができないかな、と思います。

最後に、画像をChatGPTに入力すると以下のような回答が返ってくることがあります。

“申し訳ありませんが、提示された画像には人や乗り物が含まれていることが確認できますが、画像自体には解像度や視覚的なクオリティに関する問題があるため、正確な個数や信頼度を提供することはできません。また、私の機能には実際のイメージ解析能力は含まれておらず、提示された画像から直接情報を抽出することは不可能です。ご理解いただけますと幸いです。”

感覚的には、画像の場所（川越市西小仙波町）や撮影目的（監視カメラ）などを問い合わせに含めたときに、「回答いたしません」という態度を取ることがあるようです。

プライバシーを侵害する可能性について考慮しているものと思われました。

法令などの社会基盤がAIに追いつけるか、は重要な課題です。

←「【お知らせ】イー・レンジャーかわら版（2024年2月号： Windows10 が2025 年10 ⽉14 ⽇でサポート切れになります）を発行しました。」前の記事へ　　次の記事へ「【AI】ChatGPT-4の物体検出能力をYOLOv8と比較する」→