Abstract | Problem Definition | Data Set Description | Our Approach |
Simulation Results | Conclusions | Computer Programs | Division of labor |
References |
本文利用 Fuzzy C-means 與 Hard C-means 對兩組數據進行聚類分析 (Cluster Analysis),除利用 Compact 與 Separate 兩個指標來判斷此兩種方法何者較佳之外,且考慮執行的速度。
本文主要嘗試用 Fuzzy C-means 與 Hard C-means 來對一組人為控制與一組雙相自然對流流譜做 Cluster Analysis。經由兩組固定資料的數據組,我們可以重複進行 Fuzzy C-means 與 Hard C-means 的聚類分析,在比較兩者所得的平均結果,及所需時間,我們可以了解到此兩種方法的主要差異。
在比較 Fuzzy C-means 與 Hard C-means,我們運用了兩個指標:Compact 與 Separate。我們將此兩指標分別定義如下:
Compact: | 經聚類分析後的各群組對於其中心的緊密程度。 如果群組各點的分佈越分散,其值越大。 |
Separate: | 經聚類分析後的各群組間,彼此中心的分散程度。 如果各群組的中心點彼此距離越分散,則其值越大。 |
S : | Compact / Separate,數值越小,則視為 Cluster Analysis 效果越好。 |
由上表可知,如果 Cluster Analysis 的各群組對於其中心點越集中、各中心點越分散,則我們認為這樣的 C-means 運算是較好的方式。
藉由對稱的人為控制數據組,我們可以明顯的看出 FCM 與 HCM 的分類是否正確,進而對散亂的雙相流譜組進行 Cluster Analysis。
除利用 Compact 與 Separate 兩個指標外,我們另記錄對同一組數據,FCM 與 HCM 各別做 100 次 Cluster Analysis 運算,記錄其每次運算的次數,以辨別何者的分類速度較快。
|
|
本文主要探討的重點在於:
但是值得注意的是,計算次數的多寡並不能直接代表(正比於)執行所需時間。這是由於不同的運算模式,所需一個週期的計算時間並不相同,以本文討論的範圍,HCM 一週期所需的時間比 FCM 所需的時間來得少。因此如果 HCM 所需的計算次數較少,則可以肯定 HCM 所花的時間較少;但是 FCM 次數較少並不一定代表所需的時間較短。 |
經過 FCM (Fuzzy C-means) 與 HCM (Hard C-means) 的運算後,我們得到下列結果,並分類加以比較。
人為控制數據組
分類結果
HCM
FCM
分類中心點移動軌跡圖
HCM
FCM
分類中心點分佈 center.gif
HCM
FCM
每回運算所需次數
HCM
FCM
雙相流譜數據組
分類結果
HCM
FCM
分類中心點移動軌跡圖
HCM
FCM
分類中心點分佈
HCM
FCM
每回運算所需次數
HCM
FCM
Compact 與 Separate 指標結果
人為控制數據組 (進行 100 次判別)
Average epoch | elapsed time, sec | sec/ per epoch | compact index | separate index | validity function S | |
FCM | 59.72 | 956.48 | 0.160 | 0.100118 | 1.021757 | 0.097987 |
HCM | 8.80 | 114.41 | 0.130 | 0.149153 | 0.950883 | 0.156857 |
雙相流譜數據組 (進行 100 次判別)
Average epoch | elapsed time, sec | sec/per epoch | compact index | separate index | validity function S | |
FCM | 159.23 | 4221.08 | 0.265 | 0.004655 | 0.044222 | 0.105271 |
HCM | 22.33 | 465.82 | 0.209 | 0.007530 | 0.047873 | 0.157298 |
人為控制數據組
雙相流譜數據組
綜合比較