2017年7月3日月曜日

インターネットから集めた疾患情報による学習結果

方法:インターネットの検索エンジンを用い、子宮筋腫、卵巣腫瘍、子宮内膜症、子宮体がん、子宮頸がんの計5疾患の検索を行い、得られた結果から症状の記述のみ抽出してコーパスを作成した。
その際、例えば「子宮筋腫の症状は?」といった見出しを見つけ、手作業で該当箇所をコピー&ペーストした。明確な見出しがない場合は、「~~~といった症状がみられる」といった箇所を目視で確認して該当箇所をコピー&ペーストした。
記述の信頼性を確保するため、出典が医療機関かそうでないかで区分した。
なおこの作業は3名で基準を統一して行った(うち2名は医療情報技師または診療情報管理取得者)。
収集したコーパスから各疾患50件ずつ抽出して、KHcoderを用いてベイズ学習をした。その際、出典が医療機関とその他のいずれかに偏らないようにランダムに抽出した。なお,ベイズ学習では使用する特徴量(素性:feature)を名詞,・・・に絞ってある。また,形態素解析によって得られた疾患名そのものは除外してある。


結果:収集したデータの詳細を表1に示す。また,収集したデータから各疾患ごとにランダムに抽出したデータのプロフィールを表2に示す。

表1 収集コーパスデータ詳細(全件数)
表2 収集コーパスデータ詳細(ランダム抽出50件)
表3にベイズ学習の結果を下記に記す。なお,検証は10-分割交差検証法(10-fold Cross Validation)によって行った。

表3 ベイズ学習の結果



考察:ベイズ学習の結果、90%という高い正解率(accuracy)を得た。また,一致度の指標であるKappa統計量も0.875と極めて高い値を示した。一般に、Kappa統計量が0.8を超えた場合は完全に一致しているとみてよいので,今回収集したデータによるベイズ分類はほぼ完ぺきに疾患を判定しているように思われる。しかしながら,以前,抄録をコーパスにしてベイズ分類した際は高々0.7の正解率しか得られなかったことを考えると,データの質としては劣ると考えられるインターネットのデータで何故ここまで高い正解率が得られるのか詳細に検討する必要がある。
考えられる理由としては,コーパス中に疾患名そのものが含まれており,それが高い分類精度をもたらしている可能性である。しかし,これに関してはストップワードに疾患名を加えているのでその可能性を除外できる。しかしながら,何らかの原因で過学習されている可能性が考えられるので,疾患分類にどの語が大きな影響を与えているのかを詳細に調べる必要がある。
また,今回は収集したコーパスから各疾患ごとにランダムに50件ずつデータを抽出してベイズ学習を行ったが,今後は使用するコーパスの件数によって正解率がどのような影響を受けるかについて,学習曲線を描いて検討を行う。また,学習データの質による影響を見るために,分類精度の出典区分依存性を調べる必要もある。さらに,語の出現数や予測に使われないであろう語句のフィルタを行うことによってどの程度分類精度が改善するか見ていきたい。

0 件のコメント:

コメントを投稿