以生醫命名實體為導向之次世代搜尋系統之開發與研究

ISLab bio photo By ISLab

近年來許多研究顯示,對於經常使用資訊檢索系統來獲取網際網路資源的使用者而言,跟特定命名實體(Named Entity,簡稱 NE)相關之資訊是其最常見的資訊需求。以生物醫學領域中最常被使用的 PubMed 文獻資料庫為例,除了與書目資訊相關的查詢,如作者名或文獻標題之外,PubMed 使用者最常使用的查詢皆會包含基因、蛋白質或疾病等三種 NE 類型。這類型查詢語句背後的實際資訊需求,除了希望取得符合查詢語句中之生醫 NEs 相關文獻外,甚至有可能是希望能進一步的擷取與查詢語句中之 NE 有某種關聯之 NEs 叢集。一個理想的生醫搜尋系統應該具有分析使用者資訊需求之能力,理解並預測此類以生醫 NE 為主之查詢語句背後的實際使用者意圖,進而能對搜尋結果進行適當的處理或建議,以降低資訊存取的障礙。

鑒於 2010 年國科會「生物資訊領域規劃書」一文中所提,在生醫文獻探勘子領域之生醫搜尋系統方面,目前國內外尚無成熟技術,本計劃擬以發展具備語意分析能力之多項資訊擷取技術為基礎,基於 PubMed 資料庫之巨量文獻資料,建構以 NE 為主之索引,並運用擴增瀏覽技術(Augmented Browsing)於 PubMed 資料庫中蒐集使用者的搜尋和瀏覽記錄,輔以建構之眾包(Crowdsourcing)平台讓既有 PubMed 之專業使用者能成為本計劃之眾包工作者,進而改善 NE 索引之精確度。本計畫研發基礎生醫文獻探勘技術,包含:NE 辨識與鏈結元件,並運用擴增瀏覽與雲端技術將開發之元件整合於 PubMed 資料庫之上,以利巨量 NE 索引。

科技部 [NSC 102-2218-E-038-001-]
Role: 主持人
Status: 已結案
NTD: 656000