跳到内容

课程教学大纲

课程:数学3280

部门:自然科学与数学
部门:数学
Title:数据挖掘

学期批准2020年春季
五年制复习学期: 2025年夏季
学期结束: 2025年秋季

目录描述学生将学习如何有效地在大型数据集中找到结构和模式. Topics will include acquiring data sets and cleaning messy and noisy raw data sets into 结构d and abstract forms; applying scalable and probabilistic algorithms to these well-结构d abstract data sets; and, 形式化建模并分析了这些方法固有的误差. 学生将考虑数据表示和准确性和可扩展性之间的权衡.

学期提供:秋天
信贷/时间要求: Credit: 3; 讲座: 3; Lab: 0

先决条件先决条件:数学3080和(数学2270或数学2250)每门课程C或更高.

的理由数据收集和数据分析无处不在,并迅速成为企业经济成功的先决条件. 本课程是任何数据科学家的必修课. 本课程将通过提供相关的数学课程来支持软件工程学士学位.


学生学习成果:
学生将了解Python(或类似软件)的基本数据结构。学生将通过作业进行评估, 小测验, 考试和/或课堂讨论-导师将提供反馈.

学生将了解如何形象化, 解释, 并使用Python(或类似软件)呈现数据。学生将通过作业进行评估, 小测验, 考试和/或课堂讨论, 项目指导员将提供反馈.

学生将了解如何使用网页抓取工具、api和其他方法来获取数据. 学生将通过作业进行评估, 类项目, 小测验, 考试和/或课堂讨论-导师将提供反馈.

学生将了解如何清洁, 结构, 并使用Python(或类似的软件)探索数据, 小测验, 考试和/或课堂讨论-导师将提供反馈.


内容:
This course will include a survey of data acquisition and cleaning tools; similarity search, 聚类, 回归/降维, 图表分析, 网页排名, and small space summaries; and, 最新的发展和这些主题在现代应用中的应用, 通常与大型互联网公司有关.

主要业绩指标:
学生的学习将通过以下方式进行评估:

家庭作业占20%到40%

测验0 - 20%

定期检查20%至30%

期末考试15%到20%

口头/书面/计算机项目10 - 30%

班级小组活动0 - 15%


代表性文本和/或用品:
天鹤座J. (当前版本). 从头开始的数据科学:Python的基本原理. 塞瓦斯托波尔(加利福尼亚州):OReilly Media.

本课程需要计算机和数据分析软件. 推荐使用Python,但类似的软件(如.g.(R、SAS、SPSS)可由讲师自行决定是否使用. 教师可能也会发现像谷歌的Open Refine这样的工具很有用.


教育学声明:
约翰·杜威说:“教育不应该围绕着获得一套预先确定的技能。, 而是实现一个人的全部潜力,并利用这些技能为更大的利益服务的能力.将这一理念运用到这门课的教学中, 老师将帮助学生在现代课程中学习理论和应用. 在课程结束时, 学生应该知道如何使用技术来应用特定的技能,并分析他们的工作结果.

教学手段:
讲座

印度河流域文明

混合动力

最大班级人数: 25
最佳班级规模: 20