ここ20年のデータ処理を、曖昧・スパース・大規模データに使う方法
/ Jichi Med Univ(JAPAN)
how to use apps
今回使うデータ
病理レポート
内容:患者ID、氏名、病理番号、医局管理番号、病理レポート
マクロ写真
内容:写真、exifタグ(患者ID、病名)
病理スライド
内容:バーチャルスライド
いろんな事がわかりそうなデータにみえるけど、実際、使えるのでしょうか?
よくある提案
「AIにかければ」「ディープラーニングにかければ」「chatGPTにかければ」
・マクロ写真から自働的に診断ができる
「クラウドにすれば」
・バーシャルスライドは遠隔診断ができる
こういう夢は昔からずーっといわれてますが、実際の現場でつかわれていないのはなぜ?
現実に直面すること
医局のPCと、電子カルテ用端末は、物理的に隔離されている。
電子カルテ用端末は、リレーショナルデータベースで中央管理されている。
USBなどのデータのやりとも制限、FTP・クラウドファイルサービスも使えない。
データの移行が著しく困難。
個人情報保護
誰も文面をしらない。
誰もガイドラインを読んでいない。
誰も裁判例をしらない。
よくわからないけど、「何かあったら困る」という日本的考え。
何に配慮したらいいのかわからない。
計画について、司法の知識も必要。
データにおいて直面すること
文字コードの違い、例:shiftJIS,UTF-8,UTF-16,ascii
日本語と英語の違い、例:「¥」と「/」
Mac・Win端末での専用文字の違い 例:ざ瘡の「ざ」
文字のうち間違い 例:エリトマトーデス
半角全角の違い 例:SLEとSLE
小文字大文字の違い 例:SLEとsle
同音異義 例:膿疱、嚢胞、膿胞
一つの単語についても多くの表記ぶれがある。略語も多い。
文字・カテゴリについて一定の専門知識が必要だが、事務スタッフ・情報系スタッフはくわしくはない。
英語のソフト・論文・データが一切使えない。
日本は最近までネットでの文章収集は違法だった。
文字や単語の同一についても困難しかない。
これだけでも専門書がたくさんある領域。
データにおいて直面すること
1.使えないマクロ撮影画像
皮膚の「異常な」画像は、普通のデジカメでは撮影できない。
通常のデジカメは極端な肌補正がはいっているため、「異常」は補正されてしまう。
皮膚の微妙な質感の違いは、信号強度でわずかな差にすぎない。
撮影が「正規化」「規格化」されていない。
例:健側と病側がそろっていない、サイズマーカーがない、照明が一定しない。
例:ピントがあってない、カメラやファイル形式が違う。レンズが違う。
例:撮影枚数や目的もそろっていない
(技師ではなく医師のほうが技術レベルは概して低い)

例:FFTによる皮膚体表像の解析。十分なスペクトラムが得られない。
2.使えないHE染色画像
普通のひとがみると、細胞の境界すらわからない。
色はほぼ2色で均一。サイズマーカーも入っていない。
実際に、細胞画像だけでは、異型性はほぼ判断できない。
組織の全体像、臨床背景、依頼文、すべてそろって一定のレポートが出るに過ぎない。
人の目で使えないデータはパソコンでも使えない。
人の目でわかる判断以外はパソコンではできない。
データにおいて直面すること
健康な人は記録されていない
退院後はわからない
診断など「スパース(疎)」。
クリアしている国(台湾、ニュージーランドが有名)は、医療情報を国の資産としてる。
日本、イギリス、アメリカあたりは超後進国。
データ空間が巨大なうえに、平均値がほぼゼロのため、統計処理しようがない。
では、何もできないのか?
20年前の統計学では何もできない。
t検定、仮説検証、ベイズ推定、のようなものでは何もわからない。
わかったとしても交絡因子やバイアスをみているものがほとんど。
一方で、20年の間にシンポしたものは?
おなじように、「スパース」な消費行動から、AMAZONはリコメンドエンジンを動かしている。
おなじように、「曖昧いい加減」なワードから、googleは検索を動かしている。
おなじように、「低品質画像」から、顔認証でセキュリティを行っている。
ほとんどが、シリコンバレーの技術(日本の大学は無力)
統計の教科書にかかれていない、授業でならわなかったデータ処理なら、
曖昧でスパースでいい加減な処理も可能。
こういったことをふまえれば、
電子カルテは何に意味があるのか?
医療データは本当に何につかえるのか?
データはなんのためか?
が、(20年前ではなく)現在の基準でわかるのでは?