Final Report for CS5611 (Fuzzy Sets: Theory and Applications):

Fuzzy C-Means and Hard C-Means Clustering: A Comparative Study

高銘鴻 (g843134, 核研一)
何紹傑 (g853104, 核研一)
陳葦霖 (g853123, 核研一)


Table of Contents

Abstract Problem Definition Data Set Description Our Approach
Simulation Results Conclusions Computer Programs Division of labor
References


Abstract

本文利用 Fuzzy C-means 與 Hard C-means 對兩組數據進行聚類分析 (Cluster Analysis),除利用 Compact 與 Separate 兩個指標來判斷此兩種方法何者較佳之外,且考慮執行的速度。

Problem Definition

本文主要嘗試用 Fuzzy C-means 與 Hard C-means 來對一組人為控制與一組雙相自然對流流譜做 Cluster Analysis。經由兩組固定資料的數據組,我們可以重複進行 Fuzzy C-means 與 Hard C-means 的聚類分析,在比較兩者所得的平均結果,及所需時間,我們可以了解到此兩種方法的主要差異。

在比較 Fuzzy C-means 與 Hard C-means,我們運用了兩個指標:Compact 與 Separate。我們將此兩指標分別定義如下:

由上表可知,如果 Cluster Analysis 的各群組對於其中心點越集中、各中心點越分散,則我們認為這樣的 C-means 運算是較好的方式。

藉由對稱的人為控制數據組,我們可以明顯的看出 FCM 與 HCM 的分類是否正確,進而對散亂的雙相流譜組進行 Cluster Analysis。

除利用 Compact 與 Separate 兩個指標外,我們另記錄對同一組數據,FCM 與 HCM 各別做 100 次 Cluster Analysis 運算,記錄其每次運算的次數,以辨別何者的分類速度較快。

Data Set Description

  • 人為控制數據組:
    • 人為控制數據組是利用 Matlab 產生一群介於二維 0 至 1 的亂數後,再依序映射到另外三個象限中,產生一個對稱於原點的數據組。

  • 雙相流譜數據組:
    • 雙相自然對流流譜組是經由下列的程序取得所需資料:
    1. 藉由攝影機記錄下雙相流在沸騰通道中的流譜變化。
    2. 藉由影像捕捉卡將影像由錄影帶取回個人電腦。
    3. 分析此影像的灰階像素分布,再取其分布的平均值與標準差。
    4. 取得所須的影像後,將所有的平均值與標準差對映到 0 與 1 之間。

    Approach

    本文主要探討的重點在於:

    Simulation Results

    經過 FCM (Fuzzy C-means) 與 HCM (Hard C-means) 的運算後,我們得到下列結果,並分類加以比較。