• 小学
  • 初中
  • 高中
  • 小升初
  • 中考
  • 高考
  • 英语
  • 考研
  • 四六级
  • 单元
  • 节日
  • 母爱
  • 诚信
  • 父爱
  • 环保
  • 家庭
  • 感动
  • 成长
  • 感恩
  • 梦想
  • 爱国
  • 写景
  • 写人
  • 叙事
  • 状物
  • 议论
  • 说明
  • 抒情
  • 观后感
  • 诗歌
  • 读后感
  • 想象
  • 素材
  • 名言
  • 段落
  • 哲理
  • 诗词
  • 成语
  • 赏析
  • 基础
  • 演练
  • 教学
  • 当前位置: 天一资源网 > 数据 正文

    weka的vote分析报告 【原创】WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据)

    时间:2020-07-26 13:03:43 来源:天一资源网 本文已影响 天一资源网手机站

     【原创】WEW UCI乳腺癌数据数据挖掘实

     验报告(附代码数据)

     【原创】 定制撰写数据分析可视化项目案例调研报告

     有问题到淘宝找“大数据部落”就可以了

     WEKA对wisconsin-breast-cancer 数据挖掘分析报告一、数据集

     实验采用UCI数据集中的 Wisconsin医学院的 William 博士提供的乳腺癌的数据样本。所有数据来自真实临床案 例,每个案例有10个属性。其中前九个属性是检测指标, 每个属性值用1到10的整数表示,1表示检测指标最正常, 10表示最不正常。第十个属性是分类属性, 指示该肿瘤是否为恶性。数据集中的肿瘤性质是通过活检得出的结果。

     肿块厚度 Clump_Thickness integer [1,10] 细胞大小的均匀性 Cell_Size_Uniformity integer [1,10]细胞形状的均匀性 Cell_Shape_Uniformity integer[1,10] 边缘粘性 Marginal_Adhesion integer [1,10]单上皮细 胞的大小 Single_Epi_Cell_Size integer[1,10] 裸核 Bare_Nuclei integer [1,10] 乏味染色体 Bland_Chromatin integer [1,10] 正 常 核 Normal_Nucleoli integer [1,10] 有丝分裂 Mitosesinteger [1,10] 肿瘤性质 Class { benign, malignant} 该数据集共有669个实例。本次实验对以上数据集进行了分类、聚类、关联规则三

     部分操作,以熟悉 weka软件的操作使用,并尝试挖掘数据 中的实际价值。分类中,尝试用前九个属性值来预测肿瘤的 性质;聚类中,寻找各个簇病人的显著特征,可用来辅助制 定针对性治疗计划;关联规则的探索,寻找不同届性值之间 的相关性。二、分类

     数据预处理

     将wisconsin-breast-cancer 数据集分割为两个,分另U作为 trainset 和 testset 。

     实验过程

     用j48分类树对trainset 进行分类运算,结果如下:

     / 5

     【原创】 定制撰写数据分析可视化项目案例调研报告

     有问题到淘宝找“大数据部落”就可以了

     结果表明,模型分类的准确率达到了 96% Confusion

     Matrix表明有13例良性肿瘤被错位的归类为恶性;有 6例 恶性肿瘤被错误的归类为良性。 将以上模型应用于testset以检验预测准确率,运行结果如下:

     结果表明,预测准确率达到了 99% Confusion Matrix

     表示有2例良性肿瘤被错误的归类为恶性;而恶性肿瘤均被

     正确分类

     结果分析

     首先,通过检验,j48方法通过训练集生成的决策树对 肿瘤性质的预测准确率可以稳定在较高水平,因此可以将此 模型用于临床诊断。这对于因医疗条件不佳而不能进行/ 5

     【原创】 定制撰写数据分析可视化项目案例调研报告

     有问题到淘宝找“大数据部落”就可以了

     活检或病灶位置不易进行活检的病人来说具有较高的实用价值。

     其次,从分类树可以看出,肿瘤性质与“细胞大小均匀

     性” “裸核”属性的关联度较高;而“细胞形状均匀性” “边 缘粘性” “单上皮细胞大小” “乏味染色体” “有丝分裂”对肿瘤良、恶性的诊断几乎没有参考意义。这表明在日常诊 断中,若受医疗条件和治疗时机的制约,可以适当减少检测 指标,根据预测结果尽早采取治疗措施。最后,通过对 Confusion Matrix 的分析可知,该模型

     存在两类错误:将良性误诊为恶性、将恶性误诊为良性。这 两类错误都是应该极力避免的,第一类错误可能导致病人情 绪低落、不配合治疗,最终导致病情恶化;第二类错误可能 导致治疗方案的错误,过于激进的治疗可能适得其反。很难 评判这两类错误哪种更为严重,但模型的结果表明,犯第二

     类错误的概率较低,特别在测试集中,准确率达到了100%

     类错误的概率较低,特别在测试集中,准确率达到了

     100%

     三、聚类

     1.数据预处理

     于聚类中对于离散属性将显示其众数,不利于了解数值

     结构,所以将 Class属性类型Nominal转换为Numeric o用 0表示benign,即良性;1表示 malignant ,即恶性。这样 各个簇中的数值越接近 1,表明该簇中恶性肿瘤比例越高。 2.实验过程

     用 SimplekMeans 算法,设置参数 numClusters=5 ,seed=50进行聚类运算,得到结果如下:

     3.结果分析

     上述聚类结果共有五个簇,而且恰巧 Class属性的均值

     均为整数,这表明每一个簇中的各实例的肿瘤性质相同。

     / 5

    相关关键词: Excel2007表格如何使用表格样式汇总数据 excel多表格数据汇总 excel2007如何批量修改表格数据 excel2007怎样复制特定数据 excel公式数据复制
    相关热词搜索: 数据 乳腺癌 数据挖掘 实验 代码

    • 范文大全
    • 教案下载
    • 优秀作文
    • 励志
    • 课件
    • 散文
    • 名人名言