page1, page2, page3, page4,


ここ20年のデータ処理を、曖昧・スパース・大規模データに使う方法 image00 / Jichi Med Univ(JAPAN)

how to use apps

今回使うデータ
病理レポート
内容:患者ID、氏名、病理番号、医局管理番号、病理レポート

マクロ写真
内容:写真、exifタグ(患者ID、病名)

病理スライド
内容:バーチャルスライド
image00 いろんな事がわかりそうなデータにみえるけど、実際、使えるのでしょうか?

よくある提案
「AIにかければ」「ディープラーニングにかければ」「chatGPTにかければ」
・マクロ写真から自働的に診断ができる
「クラウドにすれば」
・バーシャルスライドは遠隔診断ができる
image00 こういう夢は昔からずーっといわれてますが、実際の現場でつかわれていないのはなぜ?

現実に直面すること

医局のPCと、電子カルテ用端末は、物理的に隔離されている。
電子カルテ用端末は、リレーショナルデータベースで中央管理されている。
USBなどのデータのやりとも制限、FTP・クラウドファイルサービスも使えない。

image00 データの移行が著しく困難。

個人情報保護

誰も文面をしらない。
誰もガイドラインを読んでいない。
誰も裁判例をしらない。

よくわからないけど、「何かあったら困る」という日本的考え。
何に配慮したらいいのかわからない。
image00 計画について、司法の知識も必要。

データにおいて直面すること

文字コードの違い、例:shiftJIS,UTF-8,UTF-16,ascii
日本語と英語の違い、例:「¥」と「/」
Mac・Win端末での専用文字の違い 例:ざ瘡の「ざ」

文字のうち間違い 例:エリトマトーデス
半角全角の違い 例:SLEとSLE
小文字大文字の違い 例:SLEとsle

同音異義 例:膿疱、嚢胞、膿胞

一つの単語についても多くの表記ぶれがある。略語も多い。
文字・カテゴリについて一定の専門知識が必要だが、事務スタッフ・情報系スタッフはくわしくはない。
英語のソフト・論文・データが一切使えない。
日本は最近までネットでの文章収集は違法だった。

image00 文字や単語の同一についても困難しかない。
これだけでも専門書がたくさんある領域。


データにおいて直面すること

1.使えないマクロ撮影画像
皮膚の「異常な」画像は、普通のデジカメでは撮影できない。
通常のデジカメは極端な肌補正がはいっているため、「異常」は補正されてしまう。

皮膚の微妙な質感の違いは、信号強度でわずかな差にすぎない。

撮影が「正規化」「規格化」されていない。
例:健側と病側がそろっていない、サイズマーカーがない、照明が一定しない。
例:ピントがあってない、カメラやファイル形式が違う。レンズが違う。
例:撮影枚数や目的もそろっていない
(技師ではなく医師のほうが技術レベルは概して低い)

例:FFTによる皮膚体表像の解析。十分なスペクトラムが得られない。

2.使えないHE染色画像
普通のひとがみると、細胞の境界すらわからない。
色はほぼ2色で均一。サイズマーカーも入っていない。
実際に、細胞画像だけでは、異型性はほぼ判断できない。
組織の全体像、臨床背景、依頼文、すべてそろって一定のレポートが出るに過ぎない。
image00 人の目で使えないデータはパソコンでも使えない。
人の目でわかる判断以外はパソコンではできない。


データにおいて直面すること

健康な人は記録されていない
退院後はわからない
診断など「スパース(疎)」。

クリアしている国(台湾、ニュージーランドが有名)は、医療情報を国の資産としてる。
日本、イギリス、アメリカあたりは超後進国。
image00 データ空間が巨大なうえに、平均値がほぼゼロのため、統計処理しようがない。

では、何もできないのか?

20年前の統計学では何もできない。
t検定、仮説検証、ベイズ推定、のようなものでは何もわからない。
わかったとしても交絡因子やバイアスをみているものがほとんど。

一方で、20年の間にシンポしたものは?

おなじように、「スパース」な消費行動から、AMAZONはリコメンドエンジンを動かしている。
おなじように、「曖昧いい加減」なワードから、googleは検索を動かしている。
おなじように、「低品質画像」から、顔認証でセキュリティを行っている。

ほとんどが、シリコンバレーの技術(日本の大学は無力)
image00 統計の教科書にかかれていない、授業でならわなかったデータ処理なら、
曖昧でスパースでいい加減な処理も可能。


こういったことをふまえれば、

電子カルテは何に意味があるのか?
医療データは本当に何につかえるのか?
データはなんのためか?

が、(20年前ではなく)現在の基準でわかるのでは?