BIRCH
外觀
BIRCH(英文全稱:balanced iterative reducing and clustering using hierarchies,中文:利用層次方法迵天規約佮聚類)是一个非監督式分層聚類算法,佇一九九六年因為 Tian Zhang 提出。算法的優勢在於會當利用有限的內存資源完成對大數據集的高質量的聚類。應該算法通過構建聚類的特徵樹仔(Clustering Feature Tree,簡稱 CF Tree), 佇紲落來聚類的過程當中,直接對聚類特徵進行聚類,毋知影原始的數據集進行聚類。所致佇多數的情形下只需要掃描一擺資料庫就咧欲做聚類,IO 成本和數據集 sài-sù 呈線性關係。
聚類特徵樹仔
算法利用構建聚類特徵樹進行計算,樹仔頂的節點叫做聚類特徵(CF)。 聚類特徵做一个三維向量 ( n , LS , SS ),n 表示子類中節點的數目,LS 表示 n 個點的線性佮,SS 表示 n 個點的平方佮。