数据仓库与数据挖掘技术第四章数据预处理文档格式.docx

资源ID：7171753 资源大小：241KB 全文页数：9页
资源格式： DOCX 下载积分：1金币

快捷下载

账号登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要1金币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

数据仓库与数据挖掘技术第四章数据预处理文档格式.docx

1、5. 维度高6。数据不平衡4.1.2数据预处理的方法和功能1. 数据清洗（data cleaning）2. 数据集成（data integration）3。数据变换（data transformation）4. 数据归约（data reduction）4.2数据清洗4.2.1属性选择与处理1. 尽可能赋予属性名和属性值明确的含义统一多数据源的属性值编码处理唯一属性去除重复属性5. 去除可忽略字段6. 合理选择关联字段2空缺值处理1。忽略该记录去掉属性写空缺值使用默认值5。使用属性平均值6. 使用同类样本平均值7。预测最可能的值4.2.3噪声数据处理分箱（binning）

2、2. 聚类（clustering）图41用聚类方法去掉噪声3. 回归（regression）4不平衡数据的处理4.3数据集成和变换4.3。1数据集成 1. 模式匹配数据冗余数据值冲突3.2数据变换1. 平滑（smoothing）聚集（clustering）数据概化（generalization）4. 规范化（normalization）属性构造4.4数据归约1数据归约的方法2数据立方体聚集图4-2销售数据立方体图4-3聚集后的销售数据立方体3维归约1. 逐步向前选择2. 逐步向后删除3. 向前选择和向后删除结合判定树（dicision tree）归纳图4-4用判定数进行属性归约基

3、于统计分析的归约4数据压缩4.4。5数值归约1. 直方图（histogram）图4-5购买数据的单桶直方图图4-6购买数据的等宽直方图（箱宽5）2. 聚类抽样（sampling）图47示例数据集图4-8用户数据按年龄分层抽样线性回归非线性回归6离散化与概念分层生成图49分箱产生的概念分层和离散化1. 数值数据的离散化与概念分层生成图4-103-45规则产生的概念分层图4-11数据集D的分布曲线图4-12在置信区间5%，95%上的第一层划分图4-13对缺失区间补充的划分图414对图413进一步分层2. 分类数据的概念分层生成图415对属性组: year，month，day的概念分层习题41

4、. 列举实际业务操作数据中存在的问题以及这些问题产生的原因。2. 数据预处理涉及哪些方法，这些方法分别用于解决数据中的哪方面的问题? 说明属性选取的原则。说明填补空缺值的方法和这些方法的优缺点。下面是一个超市某种商品连续24个月的销售数据（百元）: 21,16，19，24，27,23，22，21，20，17，16，20,23，22,18,24，26，25，20，26，23，21，15，17使用统一权重、统一区间、和自定义区间方法对数据分箱，做出各种分箱方法得到的直方图。6. 对上题中分箱后的数据采用平均值、边界值或中值等方法进行平滑。如果挖掘算法需要把第5题中的商品销售数据规范化到区间0

5、，1上,采用最小-最大规范化方法，请写出规范化后的结果。8。试采用一种分箱方法，对以下某种商品连续30周的销售利润数据进行归约（千元）：3，2，5，7,4，2，5，6,8，8，4，5,4，6,2,3，7，5，5，4，6，3，4,7，8，3,6，4，2,39. 解释本章中提到的几种数据抽样方法.10. 用等宽分箱技术对排序后的数据集D=（0，0,2，2，2，4，8，8，8,12,12，12，12，15,15，16，16，16，16，21，21，21，25,25，25，25，25，28，28，29，34，34,34，34，37，37,44，44，44，58,58，58，58，58，63，63，66，66，66，69，74，74，74，78,78）进行离散化，使得每箱宽度不大于5，形成概念分层。11。对连续数值型数据集D，取值范围为070，试用3-45规则对其进行离散化.

注意事项

本文（数据仓库与数据挖掘技术第四章数据预处理文档格式.docx）为本站会员主动上传，冰点文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知冰点文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。