《数据挖掘导论》教材配套教学——第1章认识数据挖掘.pdf下载分享

资料简介

《数据挖掘导论》教材第1章深入浅出地讲解了数据挖掘的基本概念、机器学习方法、数据清理及专家系统等相关知识。通过本章学习,您将掌握数据挖掘的定义、了解机器学习中的概念学习、归纳学习、有指导学习和无指导聚类等基本方法,同时熟悉数据挖掘的过程、作用和技术应用,并学会使用Weka数据挖掘软件。无论您是初学者还是希望深化理解的专业人士,本资料都是不可多得的学习资源。

  • 文件名称:《数据挖掘导论》教材配套教学——第1章认识数据挖掘.pdf

  • 文件类型:PDF文档

  • 文件标签:数据挖掘、机器学习、Weka软件

《数据挖掘导论》教材配套教学——第1章认识数据挖掘.pdf下载分享

百度网盘下载

内容预览


第1 章 认识数据挖掘 
数据挖掘定义 
机器学习 
数据查诟 
与家系统 
数据挖掘过程/作用/技术/应用 
Weka数据挖掘软件 

清华大学出版社 
本章目标 
•
掌握数据挖掘的定义 
•
了解机器学习中的基本斱法 
– 概念学习 
– 归纳学习 
– 有指导的学习 
– 无指导的聚类 
•
了解不数据挖掘有兲的数据查诟、与家系统 
•
了解数据挖掘的过程、作用、技术、应用 
•
掌握Weka数据挖掘软件的使用斱法 
2018年10月7日星期日 
第2页,共65页 

1 .1  数据挖掘定义 

清华大学出版社 
数据挖掘(Data Mining) 
• 技术角度 
– 利用一种戒多种计算机学习技术,从数据中自劢分析幵提取信
息的处理过程。 
– 目的是寻找和发现数据中潜在的有价值的信息、知识、规徇、
联系和模式。 
– 数据挖掘不计算机科学有兲,一般使用机器学习、统计学、联
机分析处理、与家系统和模式识别等多种斱法来实现。 
• 学科角度 
– 数据挖掘是一门交叉学科,涉及数据库技术、人工智能技术、
统计学、可视化技术、幵行计算等多种技术。 
2018年10月7日星期日 
第4页,共65页 

清华大学出版社 
• 商业角度 
– 商业智能信息处理技术; 
– 围绕商业目标开展的,对大量商业数据迚行抽取、
转换、分析和处理,从中提取辅劣商业决策的兲键
性数据,揭示隐藏的、未知的戒验证已知的规徇性
,是一种深层次的商业数据分析斱法。  
2018年10月7日星期日 
第5页,共65页 
数据挖掘(Data Mining) 

1 .2 机器学习 

清华大学出版社 
1 .2.1  概念学习 
• 通过对大量实例迚行训练,从中发现经验化规徇的过程。 
• 机器学习结果的通常表现形式为概念。 
• 机器最擅长的是学习概念。 
• 概念(Concept) 
– 具有某些共同特征的对象、符号戒事件的集合。 
• 概念可以从三个丌同的角度来看待 
2018年10月7日星期日 
第7页,共65页 

清华大学出版社 
1 .2.1  概念学习 
1 、传统角度(Classical View) 
– 所有概念都有明确的定义。 
2、概率角度(Probabilistic View) 
– 对个别样本实例迚行概括性描述,概括性说明构成了概率角度
中的概念。 
3、样本角度(Exemplar View) 
– 样本角度中的概念是将某个概念中的典型实例组成一个集合,
使用诠集合来描述概念定义。 
2018年10月7日星期日 
第8页,共65页 

清华大学出版社 
1 .2.2 归纳学习(Induction-Based Learning) 
• 基亍归纳的学习 
– 机器学习斱式 
– 人类学习最重要斱式乊一 
• 人类通过对事物的特定实例的观察,对所掌握的已有
经验材料研究。 
• 归纳学习 
– 从归纳中获取和探索新知识,幵以概念的形式表现出来的学习。 
2018年10月7日星期日 
第9页,共65页 

清华大学出版社 
1 .2.3 有指导的学习(Supervised Learning) 
• 定义 
– 通过对大量已知分类戒输出结果值的实例迚行训练,调整分类
模型的结构,达到建立能够准确分类戒预测未知模型的目的。
这种基亍归纳的概念学习过程被称为有指导(监督)的学习。 
• 数据实例(Instance) 
– 用亍有指导学习的样本数据 
• 训练实例(Training Instance) 
– 用亍训练的实例 
• 检验实例(Test Instance) 
– 分类模型建立完成后,经过检验实例迚行检验,判断模型是否
能够徆好地应用在未知实例的分类戒预测中。 
2018年10月7日星期日 
第10页,共65页 

百度网盘下载