網頁取用記錄的資料探勘與應用

Data Mining and Applications based on Web-Page Access Logs


目前全球資訊網的蓬勃發展,所引發的網路塞車現象,已成為急劇增加的網路使用人口,減低使用興趣與頻率的最主要因素;也是各大網站以豐富資訊吸引讀者的同時,亟待解決的優先課題。這種現象的成因可以從兩個觀點歸納之:

一、資訊提供者(Information Provider)

由於各行各業看好網際網路充滿無限商機,紛紛投入資金於全球資訊網的架設與維護,再加上多媒體資訊展示的盛行,導致龐大的資訊內容充斥在各大網站上。更甚者,因為目前各網站缺乏有系統的架設與維護,往往會造成網站管理員非常沉重的工作負荷,以及網路使用效率的普遍低落。

二、資訊使用者(Information User)

隨著網路使用人口的大幅增加,人類社會中行為模式的多樣性,也造就了一個充斥著各種行為習性的資訊社會。因為取用資訊的行為直接會影響到整體網路使用效率,目前在全球資訊網上欠缺夠深入的瀏覽行為分析,更遑論應用這類分析結果來改善網路使用效率,或提昇資訊使用的品質。

基於上述兩點觀察,我們在本計畫中將以國家高速電腦中心所蒐集的豐富資料為樣本,透過資料索引、與資料探勘的技術,解決資訊提供者與使用者雙方可能面臨的困難,進而減輕網路上嚴重塞車的現象。就資訊提供而言,我們將探討一般大型網站在管理上的問題,並規劃可以有效管理大型網站的輔助工具或整合系統;在資訊使用方面,我們將分析網頁瀏覽的行為模式,藉此更進一步研擬預取網頁的可行方案。