- 相關推薦
談數據挖掘在中醫學術流派研究中的應用
摘要:在中醫學術流派研究中存在著大量的數據,利用數據挖掘技術可以獲得隱藏在這些數據中的有用信息。文章結合趙炳南學術流派研究的實例,簡要闡述了利用數據挖掘進行中醫學術流派研究的可行性和先進性,并提出了數據挖掘的實施步驟和具體的工具、算法。關鍵詞: 中醫學術流派 數據挖掘 銀屑病
自古以來,中醫學術流派林立,既互相爭鳴,又互相滲透、取長補短。它們的發展和研究促使中醫藥基礎理論逐漸得到了拓展和深化,促使中醫藥臨床實踐技術逐漸得到了進步和提升。可以說,中醫學術流派的發展和研究促進了中醫藥事業的發展[1]。
中醫學術流派研究的前提是要對其進行科學劃分并確定研究內容。隨著科學技術進步和中醫學術研究的日益廣泛深入,中醫學術流派的劃分方法不斷進步、完善。徐江雁等[2]提出的核心分類模式既涵納縱向的學術思想傳承,又兼容橫向的學術思想滲透,有一定的先進性,值得借鑒。我們在“中醫皮膚科趙炳南學術流派及其傳承研究”的課題中,從以下兩方面劃分學派和確定研究內容:其一,以創新的學術思想為核心:通過對中醫皮膚科趙炳南學術流派學術淵源、基礎理論、特色經驗、技術方法等的系統研究,確立中醫皮膚科趙炳南學術流派學術思想體系;其二,以開放的醫家群及其著述為核質:不論是趙炳南門戶師承所得,還是博采眾家之說,也不論是公開發表的論文、論著、會議交流的文字材料,科研成果、發明、專利,還是口述史料, 只要是中醫皮膚科趙炳南學術流派有關方面的內容,皆囊括在其核質之中。
針對上述研究內容,按照以往的研究方法,可以以人、以疾病、以方藥或以思維方法為線索進行文獻整理、分析和總結,或者以臨床流行病學的方法進行臨床觀察和總結[3~7]。這些方法在一定程度上能總結規律,指導臨床實踐,但存在以下不足之處:①對學術思想和診療經驗缺乏系統地有機關聯研究和比較研究;②難以反映疾病診療過程中中醫辨證的多維時空和非線性特征;③缺乏符合中醫特點的多因素信息處理技術,可能致使研究結果產生混亂和差錯;④難以真正反映中醫學術流派的內涵和精髓。鑒于以往研究存在的問題,我們引進了數據挖掘技術進行中醫學術流派研究。
1 數據挖掘及其在中醫藥領域的應用
1.1 數據挖掘概述數據挖掘(DM:DataMining)就是從大量的、不完全的、模糊的、隨機的數據中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識的過程[8]。它是一門交叉學科,匯聚了數據庫、人工智能、統計學、可視化,并行計算等不同學科和領域。其中的人工智能能模仿人類對非線性、不完全、不精確和不確定信息的智能處理,具有良好的容錯性、魯棒性和高精度等綜合技術優勢[9,10]。人工智能方法主要包括人工神經網絡、模糊系統、進化計算、粗糙集理論、支持向量機(SVM)等。針對不同的挖掘目標,往往要將幾種方法綜合起來應用,以發揮各自的技術優勢。此外,將人工智能和其他數據挖掘方法如聚類分析、決策樹、關聯規則等優化組合應用,更能發揮數據挖掘技術解決復雜問題的能力。
1.2 數據挖掘在中醫藥領域的應用數據挖掘技術能針對醫學數據多態性、不完整性、時間性和冗余性的特征實施合理的數據處理和知識提取[11]。它應用于中醫藥領域主要表現在以下幾方面[12~16]:
1.2.1 新藥開發研究以一種新的、建立在充分利用幾千年積累下來的豐富經驗及現代科學技術所提供的信息基礎上的模式進行研究。
1.2.2 復方配伍規律和方證相應研究數據挖掘技術可以在一定程度上發現和認識臨床病癥與復立組方關系、復方藥物的配伍關系、藥味之間的相互作用關系等。
1.2.3 中醫藥信息化研究對以古語言和純文本為主的中醫藥理論和實踐進行結構化解析是中醫藥信息化研究的重要內容,其中的某些內容可以通過對文本的數據挖掘來實現。
1.2.4 中醫藥專家系統研究對中醫藥專家“只可意會,不可言傳”的把握診治疾病規律的定性描述、模糊概念,采用數據挖掘技術進行多層面智能分析,在一定程度上可將它們以可理解的規則或模式表達出來,從而大大豐富專家系統的知識庫。
1.2.5 中醫藥文獻研究數據挖掘技術應用于文獻研究可以提高文獻研究的水平,提高文獻利用的效率,進而能提高中醫藥科研工作的效率。
2 數據挖掘在中醫學術流派研究中的應用
以“中醫皮膚科趙炳南學術流派及其傳承研究”中的銀屑病數據挖掘為例,簡要說明挖掘的步驟和挖掘的工具及算法。
2.1 實施數據挖掘的步驟
根據全球首個數據挖掘行業通用的模型標準(CRISP-DM),銀屑病數據挖掘過程可分成6個階段。
2.1.1 理解問題明確和細化研究目標。
2.1.2 理解數據熟悉所采集的有關銀屑病數據的類型和存在形式,在此基礎上初步進行數據質量鑒定,并建立數據庫。
2.1.3 準備數據有關銀屑病的數據中存在著大量不完整的、冗余的和不一致的數據。在進行數據挖掘時,首先要對其進行處理。處理過程包括數據抽取、清洗、轉換和加載。
2.1.4 建立模型針對研究目標,利用已知的數據和知識建立分析模型,并將該模型有效地應用到未知的數據或相似情況中測試并修正模型,如此反復進行以得到最優模型。
2.1.5 方案評估在模型最后付諸實施以前,徹底地對模型進行評估,再回顧構造該模型的步驟,以確定該模型真正能夠達到預定的挖掘目標。
2.1.6 方案實施基于以上5方面的工作,采用相應的數據挖掘工具和算法進行多次反復、多次調整、不斷修訂完善的數據挖掘。
2.2 數據挖掘的工具和算法
2.2.1 銀屑病中醫辨證規范研究在銀屑病數據庫中,存在著許多不確定、不完整、不精確的辨證相關信息,首先利用粗糙集對其進行約簡,剔除模糊和歧義信息,保留與挖掘有關的重要癥狀屬性。在此基礎上使用關聯規則方法挖掘證的分布,證的構成比,從而得到靜態關聯度。采用FP-growth或加權的Apriori算法找出頻繁項目集,確定關聯規則。在關聯分析的基礎上進行相似聚類,通過給定閾值,發現癥狀的構成以及癥狀的貢獻率,得到癥狀所屬證的聚類。通過遺傳算法搜索和K-means局部優化相結合,按照最近基因匹配的交叉算子,在交叉過程中不斷產生新個體,保證群體的多樣性,減少了K-means算法的早熟現象,解決全局最優的問題。K-means局部聚類可以發現特異癥狀,利用孤立點算法對其進行特殊處理。所有癥狀聚類后,會得到N個聚類。因為數據挖掘的結果不帶有主觀因素,所以這些聚類需要中醫皮科專家根據臨床實際重新命名。在證候分類的基礎上,利用時間序列模式挖掘方法,分析病程中各證基本演變趨勢。
2.2.2 銀屑病中西醫病、證、癥及客觀檢查指標的相關性研究在銀屑病數據庫中,進行西
【談數據挖掘在中醫學術流派研究中的應用】相關文章:
網絡經濟數據挖掘在工商管理中的應用論文07-29
談智能決策支持系統及其在林業中的應用研究08-21
談灌注樁在水利工程中的應用08-22
學術規范與學術批評-談中國問題與西方經驗06-13
談建構主義在大學英語精讀課中的應用08-25
旅游管理下數據挖掘運用論文11-18
談三維制作軟件在園林設計中的應用08-30
談中醫內科護理學05-30