课程基本信息 课题 数据整理 教 科 书名:信息技术必修 1 数据与计算 书 出版社:人民教育出版社&中国地图出版社 出版日期:2019 年 6 月 教学目标 教学目标:掌握数据整理的基本方法,能够根据需求选择适当的工具整理数据。 教学重点:数据整理的目的和方法。 教学难点:数据整理的方法。 教学过程 教 时 学 间 环 节 1 主要师生活动 课 1、课堂引入 分 堂 钟 引 入 教师:通过之前课程的学习,我们了解到数据处理一般过程是数据采 集、数据整理、数据分析、数据呈现四个过程。那么为什么数据采集 到的数据要进行数据整理?让我们通过今天的学习找到答案。 2 0 新 2、数据整理的目的 分 课 钟 讲 授 教师:请同学们仔细观察这部分学生体质健康原始数据,观察下这份 数据是否存在问题。 教师:我们通过观察会发现这张表格中的数据存在重复、空缺、数据 单位不正确的问题。其实这也是很多采集来的数据普遍存在的问题。 教师:通常采集的原始数据都会或多或少存在缺失、错误、重复、非 标准化的问题。这样的数据我们形象地称之为脏数据。我们如果想从 数据中心提取出数据的价值,首先得确保数据是有效的数据。什么样 的数据是有效的?具有完整性、统一性、准确性的数据。那么存在问 题的数据我们就需要通过数据整理将至转变为清洁数据,也就是有效 数据。这也是我们数据整理的目的。 教师:怎样才可以将问题数据处理成清洁数据呢?我们要通过去重来 删除重复数据、通过补漏来补全缺失数据,通过勘误来纠正数据中的 错误和非标准化问题。 2、数据整理的方法 教师:我们了解了脏数据存在数据重复、缺失、错误和非标准化的问 题,那么就可以对应采取去重、补漏、勘误的方法来清洗数据。这也 数据整理的基本方法。 3、数据整理 教师:下面,我们通过课堂活动过来体验一下数据整理的过程。金山 银山不如绿水青山、我们国家这些年一直致力于环境治理、生态修复, 也落实了很多政策、关停了很多污染企业。随着环境的治理,你所在 的城市空气质量是否也随着治理改善了呢?我们要做出判断,需要数 据的支撑。这里,老师提供了一份全国三百多个城市地区的空气质量 采集数据。这张表中的 AQI 就是空气质量指数。通过这个指数,我们 可以直观判断空气质量。表中的数据是每小时采集一次的空气质量数 据。 3.1 活动 1:观察数据 教师:下面,请大家暂停视频,下载资源包中的 原始数据.csv 文件。 请观察表中的数据,这份采集数据是否存在问题?能否直接使用呢? 请大家仔细观察。 3.1.1 观察数据(重复) 教师:嗯,我猜想各位同学已经或多或少发现了一些问题。 观察仔细的同学可能已经发现了,数据中存在一些重复的数据,比如 23 点的数据存在两次。 3.1.2 观察数据(筛选) 教师:这份表格里,并且包含 367 个城市或地区 6 年的空气质量数据, 并且是每小时采集一次的数据,所以有四五万条数据,数据量很大。 我们只需要一个城市的数据,所以需要筛选出一个城市的数据,去掉 冗余的数据。 3.1.3 观察(非标准化) 教师:数据中第一列的日期格式不规范。不是常见的标准日期格式。 我们需要做数据标准化。 3.1.4 观察数据(缺失) 教师:眼尖的同学,可能还会发现这些数据中还存在空缺的情况,有 的是连续数据中缺了一个两个,有的是大段日期的数据不存在。为什 么?偶然性出现的缺失可能是采集设备存在故障或线路问题导致的。 前期大量数据缺失是由于前期未公布该城市的数据。所以采集到的数 据并不完整。 教师:我们一起回顾下这份原始的数据存在哪些问题: 1、数据中存在重复数据,需要去重。 2、数据量太多,我们只需要自己所在的城市的数据,所以需要筛选 3、第一列日期格式不对,需要标准化。 4、存在缺失数据。需要补缺。 下面我们一起通过数据整理来解决这四个问题。 3.2pandas 库介绍 教师:在完成数据整理之前,我们来介绍一下使用的工具。今天,我 们会用到一个叫做 PANDAS 的第三方库,这也是一个数据分析和整理 过程常用到的库。这个库包含了很多现成的读写多种文件格式的方法; pandas 能够高效操作大型的数据集。间接得说,它处理大量数据能 力又快又好。另外,pandas 库非常擅长处理的数据结构就是类似于 表格这样行列组成的数据,也是我们数据处理最常见的数据结构。 教师:pandas 库包含两个常用的主要数据结构。series 结构,这个 是一串数据组成的集合,可以简单理解为一个队列,一个一维的字典。 DataFrame 结构,这是一个表格型的数据结构,也就是由行和列组 成。 教师:今天我们主要用到了 DataFrame 结构,我们主要介绍下这个 结构。 DataFrame 结构由三部分组成,行索引号(类似于 excel 表格里的 行号),列索引号(类似于 excel 表格里的列标题),另外还有列数 据,也就是一列包含的数据集合。 这里需要强调下,DataFrame 的行索引号是从 0 开始,我们这张图 是 wps 表格显示的,行索引号是从 1 开始,这一点不一样哦。下面我 们就在数据整理过程中进一步了解 DataFrame 结构的具体用法。 3.3 活动 2——空气质量数据去重 教师:请大家打开资源包,下载课堂活动(去重).py 文件,和 原始 数据.csv 放在同一目录下。打开 课堂活动.(去重).py 文件 教师:我们的目标是删除重复数据,那么这个功能用代码怎么实现呢? 请大家打开刚才下载的程序文件。我们看到这里有三句代码,第一句, 是导入 pandas 库,并起一个别名叫做 pd 第二句是定义了一个变量, 也就是我们要处理的文件名称,这里就是同目录下的原始数据 .csv。 第三句是定义了一个变量 savename,也就是处理后数据另存的文件 名称。 我们可以看到注释里请大家补全代码实现对数据的去重操作。补全什 么代码呢?我们接着看。 教师:其实利用 pandas 实现去重,只需要三句代码即可实现。 下面就是三句代码。但是他们的顺序不对。我们一起来看看正确的顺 序是什么。 A 句,这一句中的 DATA 变量就是一个 DataFrame 表,使用 to_csv 方法,将数据表的数据保存到指定的文件里,第一个参数 savename 是保存的文件名称,第二个参数 index=False 说明,保存时不要保存 现有 DateFrame 表的索引。 B 句,这一句是调用 pandas 的读取 csv 的方法,也就是 read_csv 方法,第一个参数 file 指定的文件名称,参数 encoding 是指采用 utf-8 数据编码来读取,header=0 表示读取时将第 1 行的数据当做 列索引号。也就是作为表格的列标题。 C 句,这一句是使用 DateFrame 的 drop_duplicates 方法直接将表 格 中 的 重 复 数 据 删 除 , 然 后 再 保 存 到 data 变 量 里 。 这 里 的 keep=first 是指重复的数据中保留第一行,多余的重复数据删除。 这三句的代码作用,相信大家已经理解了。那么这三句的正确排序是 什么? 我想,大家都有了自己的答案。正确的答案是 BCA。你对了嘛? 教师:去重的过程就是读取文件、删除重复数据、另存为新文件三个 步骤。 下面,请大家参考老师提供的代码,将 课堂活动(去重).py 文件缺 失的代码补全,然后运行,看看去重后的效果吧! 学生:尝试参考任务单,实现删除重复删除数据的函数。 3.4 活动 3——空气质量数据筛选 教师:我们的需求是从几百个城市的数据中找到自己所在城市的数据, 所以我们需要筛选数据出来。例如,老师要筛选北京的数据。 教师:DataFrame 筛选数据有几种方式。如果筛选某列数据,可以 直接 df[列索引]筛选某列的数据,如图所示,如果想筛选北京这一列 的数据,df['北京']筛选红色区域所示的数据。 教师:如果想筛选多列,那么就用多列的索引号组成列表,然后作为 参数来筛选即可。例如筛选 date 和北京这两列数据。df[ ['date','北 京'] ]筛选两列数据。 教师:DataFrame 还有很多丰富的筛选数据的方法。感兴趣的同学 可参考资料包中的阅读材料了解。 1 分 钟 课 教师:下面,我们一起体验下数据筛选的过程。请大家打开资源包, 堂 下载 课堂活动(筛选).py 文件,和 STEP1_删除重复数据.csv 放在 小 同一目录下。现有的数据,我们需要筛选出自己所要城市的数据,比 结 如我需要筛选出前三列 date\hour\type 和北京,一共四列的数据。 1 分 教师:那么用 python 编程实现,是怎样实现筛选的呢?其实我们理 钟 顺思路,会发现,筛选的过程就是读取文件、筛选数据、将数据另存 课 文件三个步骤。 后 让我们打开 课堂活动 2(筛选).py ,一起看看。这里定义了三个变 作 量,file 是处理的文件,save 那么是处理后保存的文件,city 是要筛 业 选出的城市名称。 但是筛选数据的代码需要大家补全。 教师:补全的过程,依然是用 3 句代码来实现。 第一句,读取文件,这句和之前相同,不多加解释。 第二句,筛选数据,用到了刚才老师介绍的筛选多列的方法。我们用 列索引号组成的列表作为参数,筛选出这四列的数据。注意,city 变 量在代码中已定义了,就是北京。需要修改为自己所在城市的同学, 请在代码中自行修改。 第三句,将筛选的数据保存为新文件。也不多加解释了。 下面,请大家参考老师给出的三句代码,将 活动 2 的代码补全,然后 运行,看看筛选后的效果吧! 学生:补全代码,体验筛选数据的过程。 3.1.5 活动 4——空气质量数据标准化处理 教师:下面,我们一起完成数据标准化的体验。 请大家下载 课堂活动(标准化).py 这个文件。注意,要和 STEP2_ 筛选后数据.csv 放在同目录。因为我们需要调用上一步生成的结果文 件哦。 教师:数据中的第一列日期格式不符合日期标准,我们需要将其处理 为年-月-日的形式。 教师:那么怎样把一个字符串形式的日期转化为-间隔的标准格式呢? 我们一起分析一下,其实 20150521 这个日期可以分割为年 2015、 月 05、日 21 三部分,然后我们用-把他们拼接起来,那么就生成了 2015-05-21 这样的日期格式。 本质上,这就是一个将字符串分隔、拼接的过程。假如 20150521 放 在 一个 变量 datestr 中, 这个 字符 串 变 量的 前四 位 截 取出 来就 是 2015,中间 2 位截取出来就是 05,最后两位截取出来就是 21。最后

doc文档 2020—2021学年高中信息技术(人教中图2019)必修1 3.2.2数据整理(第二十三课时)-教学设计

教育频道 > 高中 > 信息技术 > 文档预览
18 页 0 下载 19 浏览 0 评论 0 收藏 3.0分
温馨提示:当前文档最多只能预览 5 页,若文档总页数超出了 5 页,请下载原文档以浏览全部内容。
本文档由 ぃ变身萌面人2023-03-03 16:00:00上传分享
给文档打分
您好可以输入 255 个字符
1+1=?( 答案:2 )
评论列表
  • 暂时还没有评论,期待您的金玉良言