PHILOSOPHY

近年,電子カルテやインターネットに接続可能な健康器具により大量の医療データが利用可能になりつつあり,これらを活用することで,過去例を見ない大規模な統計的研究や,大規模データに基づいた医療支援システムを実現可能であるとして大きな期待がよせられています. しかし,現状では,電子化された言語データを処理する枠組みがないため,データは活用されるどころか,情報過多を起こし現場の医療者の負担をさらに増しているケースさえあります. 以上の背景のもと,本プロジェクトでは, カルテ文章について自動匿名化を行い,情報を抽出する技術を研究開発します. さらに,この技術を,ウェブ上のテキスト(ブログやソーシャルメディアなど)や患者が記述した闘病記など,電子カルテ以外のテキストにも応用します.

PUBLICATION

原著論文 国際会議 受賞
2014年度 5編 3編 4賞
2013年度 4編 11編 4賞
2012年度 3編 6編 6賞
2011年度 2編 2編 4賞
累計 25編 48編 29賞
* 詳細な業績は PIの業績 を参照のこと.

MISSION

本邦最高レベルのカルテ文章の言語解析を実現するシステムの構築

電子カルテの普及により,過去例を見ない大規模な統計的研究や医療支援システムが現実のものとなりつつあります. この電子カルテデータをさらに有効に利用するために, 自動匿名化,医療表現(日付表現,疾患表現,薬品表現)の抽出, 正規化など言語処理に対する多くの需要があります. 本プロジェクトでは,自動匿名化と医療表現抽出に関して, 固有表現抽出技術を応用したシステムを開発し, 国際コンペティション(NTCIR評価型ワークショップ)にて,好成績を残しました (医療表現抽出にて22システム中1位,自動匿名化にて全15システム中3位).

研究コミュニティの確立

米国を始めとした海外では1960年代から医療分野における言語処理研究が盛んに進められています. しかしながら,他の分野と比べて進展が遅いという問題点も指摘されています. その問題の原因として,Chapman等は次の2点を挙げています: (1)入手可能なデータ(コーパス)が不足している, (2)データ(コーパス)の仕様の方針が統一されていない. 以上の背景から,本研究グループは,有志の医師により模擬病歴報告を記述し, これを配布することで,基盤となるデータを利用可能にしています.

これまで,以下のようなイベント/ワークショップを開催/共催してきました.