第一章 绪论
1.1 引言
俗语说:物以类聚、人以群分。
分类学是人类认识世界、认识自然的基础学科。例如,在生物学中,为了研究生物的演变,需要对生物进行分类。生物学家根据各种生物的特征将它们归属与不同的界、门、纲、目、科、属、种之中。行政管理、经济地理中将城市划分为特大(100万人口以上)、大(50~100万人口)、中(20~50万人口)、小(20万人口以下)城市。在地质学中,为了研究矿物勘探,需要对矿石进行分类,根据各种矿石的化学物理性质和所含化学成分把他们归于不同的矿石类。但在这些古老的分类学中,人们主要依靠经验和专业知识。但近年来,随着科技的迅速发展,分类要求越来越高、越分越细,以致有时只凭经验和专业知识不能进行确切的分类。于是,统计这个有用的工具逐渐被引进到分类学中,形成了数值分类学。由于近代科学发展,电子计算机的普及,利用数学方法研究分类不仅非常必要而且完全可能,因此近些年来,聚类分析作为多元分析的一个重要分支,发展非常迅速。聚类分析将个或对象分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强。目的在于使类间对象的同质性最大化[1]。
聚类分析的应用范围很广泛[2]。在医学上,聚类分析用来判别疾病的种类、疾病的演化阶段(比如检查患有心脏病的患者,从中会发现各种特征的心脏病);在人口研究中,需要构造人口生育分类模式、人口死亡分类函数,以此来研究人口的生育和死亡规律。在市场调查方面,根据一些产品的价格与性能比,如故各种厂家的电脑极其型号、软硬件配置和价格等,可以发现哪些电脑属于物美价廉的类型,那些电脑属于性能差、价格昂贵的一类,以便于用户选择,也有利于群众监督和政府的宏观调控。在教学领域,通过对一些大学基本情况(如规模、教授、副教授和讲师的比例、学生成分、统考的平均成绩等项)的对比分析,可以把特征相近的学校分别归入一个类型,这样做,一方面可为今后学生家长或学生本人填报高考志愿提供素材,另一方面也便于国家职能机关对有关学校进行指导和调控[3]。
基于以前研究人员主观地给定权重进行加权距离进行聚类的前提下,给出计算权重的新方法,并通过实证进行聚类分析,得出相应的结论。具体用一经典实例Iris数据进行一般方法的聚类分析,得出其误判率,再用加权聚类分析得出误判率,进行比较,从来得出该方法有效。之后整理和采集(某货运代理公司近段时间国际包裹价格)的数据,通过对数据的统计整理分析,根据不同变量对总体不同的影响给出权重,运用快速聚类法对样本进行聚类分析,从来更好了解该公司区域分类,以及在同行中的市场竞争力。
1.2 基本原理
1.2.1 关于聚类分析
聚类分析的内容十分丰富[4],按其聚类的方法可分为以下几种:
(1)系统聚类法
(2)动态聚类法
(3)最优分割法
(4)模糊聚类法
(5)图论聚类法等等[5]
论文中主要用到的是快速聚类法。类的个数可以预先给定,或者在聚类过程中确定。这种聚类方法的思想是把每个样品聚集到其最近形心(均值)类中去。这个过程由下列三步所组成:
1.把样品粗略分成K个初始类。
2.进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准化数据计算欧式距离)。重新计算接受新样品的类和失去样品的类的形心(均值)。
3.重复第2步,直到各类无元素进出。
若不在一开始就粗略地把样品分到K个预先指定的类(第1步),那我们也可以指定K个最初形心(种子点),然后进行第2步。
样品的最终聚类在某种程度上以来于最初的划分,或种子点的选择。
为了检验聚类的稳定性,可用一个新的初始分类重新检验整个聚类算法。如最终分类与原来一样,则不必再行计算;否则,须另行考虑聚类算法[6]。