- 一级建造师考试
- 二级建造师考试
- 三支一扶
- 安全评价师考试
- 保险经纪资格考试
- 报关员资格考试
- 博士入学考试
- 成人高考
- 成人英语三级考试
- 程序员考试
- 出版专业资格考试
- 大学英语三级
- 大学英语四六级考试
- 单证员考试
- 导游证考试
- 电气工程师
- 电子商务设计师考试
- 房地产经纪人考试
- 房地产评估师考试
- 高级会计师资格考试
- 高考
- 高中会考
- 给排水工程师
- 公共英语等级考试
- 公务员考试
- 国际货运代理
- 国际内审师
- 国家司法考试
- 化工师
- 环境影响评价师
- 会计人员继续教育
- 会计职称考试
- 基金从业资格
- 计算机等级考试
- 计算机软件水平考试
- 监理工程师考试
- 教师招聘
- 教师资格
- 结构工程师考试
- 经济师考试
- 考研
- 空姐招聘
- 遴选
- 美术高考
- 普通话考试
- 期货从业资格
- 求职招聘
- 人力资源管理师
- 软件设计师考试
- 商务英语考试(BEC)
- 社会工作者职业水平考试
- 审计师考试
- 事业单位招聘
- 事业单位招聘
- 数据库系统工程师
- 特许公认会计师(ACCA)
- 同等学力
- 统计师考试
- 托福考试(T0EFL)
- 外贸跟单员考试
- 网络工程师考试
- 网络管理员考试
- 网络规划设计师考试
- 系统分析师考试
- 消防工程师
- 小升初
- 校园招聘
- 信息系统管理工程师考试
- 选调生考试
- 雅思考试
- 岩土工程师考试
- 医生招聘
- 艺术高考(艺考)
- 银行从业人员资格
- 银行招聘
- 英语翻译资格考试
- 营销师考试
- 造假工程师考试
- 证券从业资格考试
- 中考
- 注册安全工程师考试
- 注册测绘师考试
- 注册城市规划师考试
- 注册环保工程师考试
- 注册会计师考试
- 注册计量师考试
- 注册建筑师考试
- 注册税务师考试
- 注册资产评估师
- 专升本考试
- 专业英语四级八级考试
- 自考
- 安全员
- 跟单员
- 考试一本通
- 其它资料
近年来,有不少学者利用系统变量聚类方法对西医病种中中医症状的分布情况进行研
究。例如,麻氏等[1]通过对 739 例胆病病案进行分析,得到 9 个类,并把它们分别诠释
为肝胆湿热证、肝胆郁热证、肝胆蕴热证、肝胆气郁证、血瘀证、脾失健运证、阳虚寒湿
证、阴虚内热证和热毒亡阳证。笔者剖析系统变量聚类结果的统计学含义,并基于此讨论
把它们诠释为证候的合理性。我们的结论是,变量聚类的结果不能诠释为证候。
1 变量聚类结果的统计学含义
在麻氏等[2]分析的胆病数据中,症状变量全部是二值的。分析所得的变量类之一如下。
类 1:发热寒战、右上腹压痛拒按、黄疸、恶心呕吐、右上腹疼痛、大便秘结、小便
色黄、苔黄、苔腻、脉滑、脉弦、口苦。
本节以这个类为例,剖析系统变量聚类结果的含义。要准确把握这个类的含义,需要
考虑 3 个因素,即“变量”与“事件”这两个概念的区别、变量间相似系数的定义以及变量类间
相似系数的定义。下面逐一讨论这 3 个因素。
1.1 变量与事件
变量是刻画事物某方面特征的指标,它的每一个取值对应一个事件。先拿概率论中常
用的抛掷硬币试验为例来解释这两概念。抛掷硬币试验可以从多个方面来看:使用的硬币
是否质地均匀、抛掷方式如何、抛掷结果是什么等等。“抛掷结果”这个指标刻画试验一个
方面的特征,因此它是一个变量。这个变量有两个可能的取值,即“正面朝上”和“反面朝上”。
于是有两个事件,即“抛掷结果正面朝上”和“抛掷结果反面朝上”。
接下来看一个中医的例子。“有无口苦”是反映患者身体一个方面特征的指标,因此它
是一个变量,称为症状变量。它有两个可能的取值,即“有”和“无”。于是有两个症状事件,
即“(患者)有口苦”和“(患者)无口苦”。如果要考虑不同轻重程度,相应的变量是“口苦程度”。
一般情况下,程度变量有 4 个可能的取值,即“无”、“轻”、“中”和“重”。于是有 4 个症状事
件,即“无口苦”、“有轻度口苦”、“有中度口苦”和“有重度口苦”。为了统一二值和多值情况
下症状变量的称谓,可以用“口苦情况”来替代“有无口苦”和“口苦程度”。
“有口苦”这个词通常被简化为“口苦”。同时,“口苦情况”也被简化为“口苦”。这样,“口
苦”时而指“口苦情况”这个变量,时而又指“有口苦”这个事件。在下一节读者将会看到,这
种歧义性造成了对变量聚类结果之含义的误解。
顾名思义,变量聚类的对象是变量而不是事件,其结果是变量的类而不是事件的类。
所以,类 1 的成员是“口苦情况”等症状变量,而不是“有口苦”等症状事件。为了避免误解,
我们把类 1 的定义改写如下。
类 1:发热寒战情况、右上腹压痛拒按情况、黄疸情况、右上腹疼痛情况、恶心呕吐
情况、大便秘结情况、小便色黄情况、苔黄情况、苔腻情况、脉滑情况、脉弦情况、口苦
情况。
1.2 变量类相似系数
“口苦情况”等 12 个症状变量为什么会被聚成一类呢?它们被聚成一类这件事的含义是
什么?一个粗略的回答是,这意味着“口苦情况”等 12 个症状变量之间的相似度高。如果要
准确回答这个问题,则需要考虑如何基于变量之间的相似系数定义类之间的相似系数。
常用的方法有最大相似系数法、最小相似系数法和平均相似系数法。在计算两个类 A
和 B 间的相似系数时,考虑 A 中变量与 B 中变量间的相似系数。最大相似系数法取其最大
者,最小相似系数法取其最小者,而平均相似系数法取平均数[2]。
如果类 1 是用最大相似系数法获得的,那么对类中任意一个变量 V,类中有另外一个
变量 U 使得 V 和 U 间的相似系数不低于某个阈值。如果类 1 是用最小相似系数法获得的,
那么类中任意两个变量间的相似系数不低于某个阈值。如果类 1 是用平均相似系数法获得
的,那么类中变量间的相似系数的平均值不低于某个阈值[2]。
上面提到阈值是怎样决定的呢?在获得类 1 的过程中,需要合并多对变量类,而每对
类之间都有一个相似系数。这些相似系数的最小者就是上面说的阈值。一般说,最大相似
系数法的阈值最大,平均相似系数法的阈值次之,最小相似系数法的阈值最小。
1.3 变量相似系数
变量间相似系数的高低的直观含义是什么?这个问题的答案依赖所选用的相似系数是
什么。相似系数有各种各样的类型[2]。作为例子,这里只讨论 Jaccard 相似度和相关系数。
Jaccard 相似度只适用于二值变量。下面用一个例子来说明它的定义和直观含义。用
d 记脉弦和口苦同时出现的样本数,b 记脉弦出现而口苦不出现的样本数,c 记脉弦不出现
而口苦出现的样本数。“脉弦情况”和“口苦情况”这两个变量的 Jaccard 相似度定义为 d/
(b+c+d)。Jaccard 相似度的取值在 0~1 之间,可以视为是症状出现的“同步率”。它的值
越高,脉弦和口苦出现时的“同步率”就越高,即脉弦和口苦的出现更接近如下情况:要么
两者都不出现,要么两者都出现。
相关系数是统计学中用来度量数字变量间关联程度的一个指标。如果把症状的出现表
示为 1,不出现表示为 0,那么就可以定义“脉弦情况”和“口苦情况”间的相关系数。相关系
数的取值在 0~1 之间。当两个变量的可能取值相同时,它们之间的相关系数也可视为是
一种“同步率”。“脉弦情况”和“口苦情况”间的相关系数越高,脉弦和口苦同时出现或同时不
出现的次数也就越多,反之亦然。
1.4 类 1 的含义
在分析数据时,麻氏等[1]用的是 SAS 软件。由于他们未提及软件设置,所使用的变
量相似系数应该是 SAS 默认的 Jaccard 相似度,而所使用的变量类相似系数应该是 SAS
默认的平均相似系数。所以,类 1 是一个由口苦情况等 12 个症状变量组成的集合,其含
义是这 12 变量两两之间的 Jaccard 相似度平均不低于某个阈值,即口苦等 12 个症状两两
同步出现的频率平均不低于某个阈值。
2 证候的含义
证候是一个具争议性的概念。但是,在诠释变量聚类结果时人们所使用的证候其意义
基本是统一的、清楚的。例如,在把类 1 诠释为肝胆湿热证时,“肝胆湿热证”对应由口苦
等 12 个症状(事件)组成的症状群,其意义如下:①如果这些症状全部(或其大多数)在某患
者身上同时出现,那么该患者有肝胆湿热证;②如果这些症状中许多不在一患者身上出现,
那么该患者无肝胆湿热证。
3 变量聚类结果的诠释
现在我们以类 1 为例来讨论变量聚类的诠释问题。在文献[1]中,类 1 被诠释为肝胆湿
热证。这是由于类 1 被认为是由“有口苦”等 12 个症状事件组成的集合,进而其意义被理解
为口苦等 12 个症状同时出现。在把类 1 诠释为肝胆湿热之后,进一步得出结论:肝胆湿
热证是肝胆病中的中医证候之一。这就是说,肝胆湿热证存在于研究涉及的 739 个样本中,
即有一部分样本同时包含口苦等 12 个症状或其大多数。为方便讨论,我们将这一段文字
涉及的几件事按逻辑顺序整理如下:①把类 1 认为是由“有口苦”等 12 个症状事件组成的集
合;②把类 1 的意义理解为口苦等 12 个症状同时出现,从而把它诠释为肝胆湿热证。③
在②的基础上,得出肝胆病中有肝胆湿热证的结论,即有一部分样本同时包含“口苦”等 12
个症状或其大多数。
根据第 2 节的结论,类 1 是症状变量的集合而不是症状事件的集合。所以,上述第 1
步是不正确的。再根据第 2 节的结论,类 1 的意义不是口苦等 12 个症状同时出现。实际
上,句子“口苦等 12 个症状同时出现”本身是一个病句。显然,口苦等 12 症状不可能在每
一个样本中都同时出现。那么它们究竟在哪些样本中出现呢?句子没有指明,因此意义不
清。所以,第 2 步也是错误的。最后,第 3 步从“口苦等 12 个症状同时出现”这个含义不清
的命题推出“有一部分样本同时包含口苦等 12 个症状或其大多数”。这是不合逻辑的。
上述三步都有问题。那么有没有可能不通过它们,而直接从类 1 的含义出发得出“有一
部分样本同时包含口苦等 12 个症状或其大多数”这个结论呢?回答是否定。类 1 的含义只
是说口苦等 12 个症状两两以一定频率在样本中同时出现。这并不意味 12 个症状同时出现
在某些样本中。在逻辑上,从两两双边关系是无法推出多边关系的。打一个比方:青年 A
与一对好朋友 B 和 C 谈三角恋爱,A 和 B 常常一起出现,A 和 C 常常一起出现,B 和 C 常
常一起出现,但这些并不意味着他们三人会同时出现。
上面的讨论以文献[1]为例。但是,所指出的问题是其它用变量聚类研究证候分布工作
共有的。问题的根源在于研究目的与研究方法不匹配。这些工作是要通过分析一组关于西
医某病种的样本,揭示该病种中中医证候的分布规律,这其实是揭示该组样本中中医证候
的分布情况。简而言之,这就是要揭示样本某方面的特征和性质。变量聚类方法只考虑变
量间的关系,完全不分析样本的特征和性质。既然如此,它又怎么能揭示样本中中医证候
的分布规律呢?
4 结束语
变量聚类所得到的不是症状事件的类,而是症状变量的类,其含义不是一些症状同时
出现于一些患者,从而不能诠释为证候。变量聚类不分析样本的特征和性质,从而不可能
揭示证候在样本中的分布规律。
温馨提示:如果当前文档预览出现乱码或未能正常浏览,请先下载原文档进行浏览。
发表评论(共0条评论)
下载需知:
1 该文档不包含其他附件(如表格、图纸),本站只保证下载后内容跟在线阅读一样,不确保内容完整性,请务必认真阅读
2 除PDF格式下载后需转换成word才能编辑,其他下载后均可以随意编辑修改
3 有的标题标有”最新”、多篇,实质内容并不相符,下载内容以在线阅读为准,请认真阅读全文再下载
4 该文档为会员上传,版权归上传者负责解释,如若侵犯你的隐私或权利,请联系客服投诉
点击加载更多评论>>