1. 首頁
  2. 設計

基於網路資料抓取的醫院本科畢業管理系統的設計

基於網路資料抓取的醫院本科畢業管理系統的設計

摘要 隨著醫療技術的不斷髮展和更新,新的技術和成果不斷湧現,醫護工作者發表和參閱醫學論文已然成為展示科研成果和獲取最新技術的重要途徑。對於醫院,論文可以從一個側面反映出醫院的綜合實力,同時也是評價醫院科研能力和學術水平的重要指標。作為醫院科教管理部門,科教科在職工考核、職稱晉升等工作中都需要考察論文的發表情況,並且還需要時刻掌握全院發表論文的資料,並以此作出統計和分析,把結果作為證明醫院科研能力和發展現狀的依據。

關鍵詞 網路資料 系統

1 醫院學術論文管理情況現狀

隨著計算機的廣泛應用,絕大多數醫院管理論文的方法已經從手工登記轉變為使用計算機軟體管理,其中最為普及的是使用Excel軟體製作電子表格登記論文資料。這種方法可以較好地幫助工作人員解決查詢和資料統計的問題。但是,資料的收集需要做大量的前期工作,由論文作者上報至科教科,再由科教科工作人員進行手工錄入製成Excel表格,需要生成報表和統計資料的時候也必須手動操作。

大量繁瑣枯燥的手工錄入工作制成的Excel的本地檔案,卻並不能較好的實現資料共享。因此,隨著網路的普及,部分醫院建立了基於Web的論文管理系統。依靠B/S架構的Web論文管理系統,可以很好的解決資料共享的問題。相比於使用Excel檔案記錄論文資料,網路論文管理系統的優點在於只要有可用的網路,無論何時何地都可以透過手機或個人計算機進入系統,進行論文上報、登記、查詢操作,使論文管理工作不僅限於辦公室。並且依靠計算機技術也可以一定程度的簡化手工工作,以滑鼠點選、自動生成等方式最佳化錄入、統計分析的過程。

2 基於網路資料抓取的醫院論文管理系統

基於網路資料抓取的醫院論文管理系統保留了普通網路論文管理系統的優點,著力最佳化和完善最為繁瑣的資料錄入過程,從國內權威的論文資料庫中直接抓取需要的資料存入自己的資料庫。

據瞭解,國內絕大部分正規期刊上發表的文獻在見刊1-2個月後就會被知網、萬方、維普等專業的文獻資料庫收錄。普通使用者透過檢索,可以獲取到論文的題目、發表刊物、見刊時間、作者姓名、單位、關鍵詞、摘要等資料,足以滿足醫院論文管理系統的需求。只要實現並使用抓取功能獲得需要的資料,就能大大簡化手工錄入的工作,同時能有效的避免論文漏報、錯報。

2.1 系統的體系結構

目前基於網路的系統體系結構主要是C/S(客戶端/伺服器)架構與B/S(瀏覽器/伺服器)架構。C/S架構將大部分的運算放在客戶端處理,要求進入系統的計算機安裝相應的客戶端程式,對計算機作業系統等條件有特定的要求,限制了使用者群,具有較高的安全性,但是靈活性不強,不便於後期維護和系統升級。B/S架構基於HTTP和TCP/IP協議,運用伺服器完成大量的運算,將運算結果傳輸給瀏覽器顯示,使用者只需要使用瀏覽器就可以在個人計算機或智慧手機上進行操作,不受區域網、軟體和執行平臺的限制,可以實現跨平臺的使用,並且後期維護成本低,更新方便。

為了系統後期的`維護及功能完善,本系統採用B/S架構,也更能適應目前資訊系統的發展趨勢。

2.2 系統的功能模組

如圖1所示,本系統分為五個功能模組,分別為:部門管理模組、職工管理模組、論文抓取模組、論文錄入模組、查詢統計模組。

2.2.1 部門管理模組

部門管理模組的主要功能是透過新增、修改、刪除操作設定醫院部門資訊,構建一個完整的部門樹形結構,以便在查詢統計時可以實現按照部門查詢統計,有助於分析和比較各科室部門論文發表的情況。

2.2.2 職工管理模組

職工管理模組同樣透過資料庫的操作建立職工的花名冊,並且將每個職工按照實際情況分配到科室和部門,如此便建立了論文、作者、部門的關係。

2.2.3 論文資料抓取模組

論文資料抓取模組使用網路資料抓取的方法,透過請求URL、對返回資料進行分析、提取論文相關資料,將其存入論文資訊表,並與醫院職工進行關聯。

2.2.4 論文資料錄入模組

本模組的主要功能是手工維護論文資料,以對論文資料的新增、修改、刪除操作,提供是一個查缺補漏渠道,對資料抓取過程中出現的不完善資料進行人工修改。

2.2.5 統計查詢模組

模組提供作者姓名查詢、關鍵詞查詢、期刊查詢、發表時間查詢、科室查詢等豐富的查詢方法。統計各科室發表論文數量、各種期刊上發表論文的數量、關鍵詞相關論文數量、任意時間段發表論文數量等以供比較分析。

2.3 網路資料抓取模組設計

資料抓取功能是本系統的特色和亮點,其設計原理類似於簡化的網路爬蟲,抓取資料更具針對性,抓取範圍僅限於較權威的論文期刊資料庫。以下介紹設計思路。

2.3.1 抓取模組涉及的資料庫設計

為了能在網路上抓取資料,需要一個表存放URL資訊,其中包括的主要欄位有URL、URL的MD5編碼、訪問狀態、請求的頁面型別等。

另外需要一個存放論文資訊的表存放抓取到的資料,包含題目、刊名、發表時間、作者、關鍵詞、摘要等欄位。

2.3.2 抓取資料的主要步驟

首先程式從URL表中取出一條訪問狀態為未訪問的資料,請求此URL並接收返回資料,根據URL請求的頁面型別做提取論資料或者提取URL資料的操作。

對於返回的是論文頁面,需要提取論文詳細資訊,然後到論文資訊表中查詢,判斷是否為已經抓取過的論文資料,若已抓取,則標記請求的URL為已訪問,然後進行下一個URL的請求。否則將論文資料整理併入庫,將作者與職工關聯,之後請求下一個URL。

若非論文詳情頁面,則需分離提取頁面中的URL,將提取到的URL逐個進行MD5編碼後到URL表中查重,將非重資料標記為未訪問然後入庫。

3 實現本系統的意義

基於網路資料抓取的醫院論文管理系統可以有效地減少論文管理過程中的繁瑣工作,簡化管理流程,為管理人員減負。同時,得益於系統採用B/S架構,可以實現跨平臺、跨區域的管理。抓取來自論文資料庫的資料相對全面,以此資料做出的分析統計能夠更加有效的指導醫院科研的發展方向和重心。設計並實現本系統,有效地提高了科教管理工作效率。