“大數據”作為時下最火的詞匯,隨之而來的數據分析、數據挖掘等圍繞大數據的技術逐漸成為研究的焦點。早在2012年3月22日,奧巴馬就宣布美國政府五大部門投資2億美元啟動“大數據研究和發展計劃(Big Data Research and Development Initiative),欲大力推動大數據相關的收集、儲存、保留、管理、分析和共享海量數據技術研究,以提高美國的科研、教育與國家安全能力。
而大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有特定意義的數據進行專業化處理。從某種程度上說,大數據是數據分析的前沿技術,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。大數據技術是從各種各樣類型的數據中,快速獲得有價值信息的能力。對于大數據時代,目前通常認為有下述四大基本特征,稱為“四V”特征:第一,數據規模大(Volume),可稱海量;第二,數據類型多樣(Variety);第三,數據價值(Value)高;第四,要求處理速度(Velocity)快。這些特性使得大數據區別于傳統的數據概念。大數據的概念與“海量數據”不同,后者只強調數據的量,而大數據不僅用來描述大量的數據,還更進一步指出數據的復雜形式、數據的快速時間特性以及對數據的分析、處理等專業化處理,最終獲得有價值信息的能力。
一、檢驗醫學的大數據特征
檢驗科作為醫院里最重要的醫技部門之一,檢驗信息系統(Laboratory Information system, LIS)已經成為醫院管理信息系統中的重要組成部分。LIS中的檢驗數據主要包括申請信息(病人基本信息,申請項目信息)、報告信息(結果信息)、其他信息(質控信息等)。LIS的作用是將患者標本在實驗儀器檢驗后獲得的數據進行處理,生成一份檢驗報告,再通過院內網絡存儲在醫院數據庫中,使醫生能夠方便、及時地看到患者的檢驗結果。同時醫生要對檢驗結果進行全面的分析,作為下一步診療的依據。檢驗醫學數據有以下特點。
首先,檢驗醫學數據體量巨大,在病人住院過程中會產生大量的檢驗信息和其它與病人相關的數據,整個醫院的檢驗數據更是一個海量概念,一個擁有2000張病床的醫院,每年至少產生3000萬條檢驗項目。
其次,檢驗醫學數據類型繁多,由于醫學數據庫本身就較為龐大,再加上醫學信息的復雜性與多樣性等因素的影響,與日常數據的處理分析相比,醫學數據分析將會更為復雜,其分析難度之大是可想而知的。在檢驗醫學中,常規檢驗指標的數據一般為文本,較容易處理。但形態學檢驗,如微生物形態及骨髓細胞學的圖片數據、自身抗體等免疫熒光的圖像數據、寄生蟲檢驗中的視頻數據、血糖血脂等指標的動態監測數據等,出現越來越多的半結構化和非結構化數據信息。而流式細胞儀的數據顯示方式甚至包括單參數直方圖、二維點圖、二維等高圖、假三維圖和列表模式等多種格式的復合數據。
第三,檢驗醫學數據作為臨床醫生的重要的輔助手段,甚至骨髓細胞學、病理學及微生物學結果等具有診斷意義的結果,其價值之高不言而喻。
第四,檢驗醫學數據處理速度快,如全自動快速微生物質譜檢測系統(MS)等質譜技術,將標本板放入MS儀器,幾分鐘內即可顯示鑒定結果。而高分辨率和高靈敏度的質譜信號,又使得質譜圖的信息量巨大,數據流往往為高速實時數據流,而且往往需要快速、持續的實時處理。
目前檢驗信息系統尚未開發其所在輔助診斷方面所具有的重大作用。檢驗信息系統的巨大潛力尚未被開發,被匯總和統計的數據沒有得到進一步的挖掘和利用,隱藏在數據里面的有價值的信息沒有充分的發揮其功效,臨床診斷得不到有效信息的支持。尤其針對上述一些復雜的醫療數據,特別對于一些毫無數據特征,無規律科學的數據,傳統的數據統計分析方法已經不再適用,而數據挖掘技術是一種有效的分析方法,具有十分重要的作用?,F階段,在數據挖掘技術的廣泛應用之后,檢驗醫學領域的學者正對此進行深入的研究。
二、數據挖掘技術簡述
數據庫技術的發展解決了海量的醫學數據的存儲和數據檢索的效率問題,如何充分利用這些寶貴的醫學信息資源來為疾病的診斷和治療提供科學的決策,促進醫學研究,已成為人們關注的焦點。數據挖掘(Data Mining, DM) 是近幾年才發展起來的信息處理技術,它是從大量數據中提取出可信的、新穎的、有效的并最終能被人理解的模式的處理過程,涉及數據庫、人工智能、統計學、模式識別、可視化技術、并行計算等眾多領域知識。將數據挖掘技術應用到醫學信息數據庫中,可以發現其中的精細的醫學診斷規則和模式,在對疾病重新分類的基礎上,對具有相同病因、共同發病機制的患者亞群實現精準的診斷、評估、預測、治療和預防,輔助患者恢復健康,實現患者的價值最大化。這是精準醫學的精髓。
1. 數據挖掘的分析方法
數據挖掘根據不同的任務要求具有不同的分析方法,可以實現不同的功能要求。其中主要可以分為六大不同的分析方法,分別是:分類( Classification )、估值(Estimation )、預言(Prediction )、相關性分組或關聯規則(Affinity grouping or association rules )、聚集(Clustering )、描述和可視化(Description and Visualization),包括文本數據挖掘。WEB數據挖掘、圖形圖像數據挖掘、視頻和音頻數據挖掘。數據挖掘通過不同的分析方法可以實現強大的功能。
2. 數據挖掘的知識類型
數據挖掘是通過在大型的數據庫中根據自己的需要篩選有用的信息,其主要的目的就是發現知識,這種系統中的表現形式具有多樣化的特點,通過采用特定的挖掘方法進行分析,掌握數據挖掘系統的固有特征,明確其所能發現知識的種類。通過比較分析,數據挖掘系統的知識類型主要可以分為以下幾大類:廣義型知識(Generalization)、分類知識(Classification)、聚類知識(Clustering)、差異型知識(Discrimination)、關聯型知識(Association)、序貫模式(Sequential patterns)、情節知識(Episodes)、預測型知識((Prediction)、演化型知識((Evolution)、偏差知識(Deviation)。
3. 數據挖掘的任務及方法
根據挖掘任務可以分為:分類或預測模型發現、數據總結與聚類發現、關聯規則發現、序列模式發現、相似模式發現、混沌模式發現、依賴關系或依賴模型發現、異常和趨勢發現等。數據挖掘的方法根據任務的不同可以選擇合適的方法,目前數據挖掘的方法主要可以分為基于統計學的挖掘方法、基于神經網絡和機器學習的數據挖掘方法、數據庫方法等?;?/span>統計學的數據挖掘方法建立在統計學知識的基礎上,通過統計學的回歸分析和判據分析等多種專業知識完成數據挖掘的任務?;谏窠浘W絡和機器學習的數據挖掘方法是一種智能化的數據分析技術,通過自適應的數據分析技術,進行訓練和學習滿足多種數據挖掘任務的需要。神經網絡技術可以細致的劃分為前神經網絡和自組織神經網絡。
三、數據挖掘在檢驗醫學中的應用
隨著醫療檢驗手段的飛速發展,經過多年的醫療系統信息化建設,檢驗信息系統已經積累和沉淀了海量的病人檢驗數據,能否從這些海量數據中挖掘對醫生、病人和檢驗技師的有價值的參考信息,能否利用這些參考信息給未來病人提供有價值的參考呢?能否根據這些歷史數據,分析出某些疾病跟某些因素有關呢?譬如飲食結構、地區分布、男女特征和年齡段分析。筆者認為通過數據挖掘技術可以實現以上需求。
(1)疾病診斷:正確的診斷對于指導病人的用藥及康復顯然是重要的,在臨床中有些疾病錯綜復雜,數據挖掘的有關分類分析可以應用于疾病的診斷。粗糙集理論、人工神經網絡、模糊邏輯分析在疾病診斷方面是有效的?,F階段,在數據挖掘技術的廣泛應用之后,已有學者探索將LIS的數據應用于輔助診斷。耿中澤利用決策樹和模糊聚類分析兩種數據挖掘技術,嘗試實現檢驗醫學計算機輔助診斷,并由此得出應用的一般模式。
(2)疾病相關因素分析:在LIS數據庫中有大量的關于病人的檢驗結果和病人的個人信息,包括年齡、性別、診斷、職業、類別等,對數據庫中的信息進行關聯規則分析可以發現有意義的關系及模式,某種疾病的相關發病危險因素分析可以指導患者如何預防該疾病。王專等對心腦血管疾病生化檢驗進行數據挖掘,發現了有意義的關系及模式。鄭旅芳利用人工神經網絡(ArtificialNeuralNetwork,ANN)對胃腸腫瘤標志物進行數據挖掘,發現對多項檢驗項目分析具有更高的診斷效率,可以對診斷大腸癌進行指導。Ramezankhani.A等采用關聯規則挖掘技術確定2型糖尿病的發病率模式。
(3)在檢驗醫學圖像中的應用:檢驗醫學領域中越來越多的形態學檢驗,應用圖像作為疾病診斷的工具,如骨髓細胞學及微生物涂片的圖片數據、自身抗體等免疫熒光的圖像數據等,數據挖掘可以應用于圖像的分析。但目前未見在檢驗醫學中形態學檢驗上的應用報道。
(4)在DNA相關檢驗項目中的應用:如DNA序列分析可用非線性相關統計法—AMI(average mutual information)。另外對DNA序列間相似搜索與比較(對分別來自帶病和健康組織的基因序列,進行比較以識別兩類基因間的差異),可以認為是導至疾病的基因因素檢驗。王洪波等提出了基于流形學習的DNA序列數據挖掘方法,不但平均識別率高,而且計算時間相對較少。
(5)在醫學其他方面的應用:數據挖掘還可應用于寄生蟲檢驗中的視頻數據、血糖血脂等指標的動態監測數據等半結構化和非結構化數據信息分析。流式細胞儀的數據的單參數直方圖、二維點圖、二維等高圖、假三維圖和列表模式等數據也可用數據挖掘來分析。還有在醫學其他方面的應用:Shah.BR等認為數據挖掘已被應用于糖尿病臨床研究的許多方面,包括經典的流行病學、效能研究、人口健康與衛生服務研究等。Sung SF等等利用數據挖掘技術開發了一個腦卒中管理軟件,用于分析卒中預后的嚴重程度。
四、小結
盡管檢驗醫學的數據極為豐富,但運用數據挖掘技術分析和處理這些數據資源的研究,在我國尚處于起步階段。目前檢驗醫師工作難于開展的關鍵問題,是沒有對大量的檢驗數據進行規范化和系統化的挖掘與總結。人體成分錯綜復雜且瞬時變化,加上檢測誤差等等因素使得檢驗結果呈現出統計分布特點,因此檢驗結果對于疾病或健康狀態的表征不如影像檢查那樣直觀,如果不能正確分析則得不到病人或臨床滿意的認同。數據挖掘可以根據檢驗結果給醫生、病人、檢驗技師提供可疑病情診斷參考,也可以給醫療雜志、國民健康提供經過挖掘分析的生活指標指導。在互聯網、HIS和LIS基本普及的信息時代,將臨床信息、檢驗信息和患者信息聯系起來,對本身具有統計分布屬性的檢驗結果進行數據挖掘,提煉成為有臨床價值的重要信息,是檢驗醫學未來臨床應用的關鍵技術。
來源:檢驗醫學網 作者: 陸軍總醫院檢驗科 劉杰