首页大数据数据科学是一种卓越的极限运动

数据科学是一种卓越的极限运动

大数据 dawei 2021年5月7日

数据科学的三个层次

在讨论数据科学能力进程表之前，首先介绍数据科学的三个层次。本节将讨论笔者认为的数据科学能力的三个层次：1级(基础)、2级(中级)和3级(高级)。能力从1级增加到3级。这里将使用Python作为默认语言，即使其他编程语言(例如R，SAS和MATLAB)也可用于数据科学。

基础水平

在第一级，你应该学会使用通常以逗号分隔符(CSV)文件格式表示的数据集，应该具备掌握数据基础知识的能力，如数据可视化和线性回归。

1. 数据基础知识

能够操作、清理、结构化、缩放和设计数据。熟练使用pandas和NumPy库，具备以下能力：

知道如何导入和导出以CSV文件格式存储的数据
能够清理、整理和组织数据以进行进一步分析或建模
能够处理数据集中的缺失值
了解并能够应用数据插值技术，例如均值或中位数插值
能够处理类别数据
知道如何将数据集划分为训练和测试集
能够使用诸如归一化和标准化之类的缩放技术来缩放数据
能够通过降维技术(例如主成分分析(PC))来压缩数据

2. 数据可视化

能够理解好的数据可视化的基本组成部分。能够使用数据可视化工具，包括Python的matplotlib和seaborn包和R的ggplot2包。应该了解好的数据可视化的基本组成部分：

数据组件：决定如何可视化数据的重要的第一步是了解数据的类型，例如分类数据、离散数据、连续数据、时间序列数据等。
几何组件：决定哪种可视化适合你的数据，例如散点图、线图、条形图、直方图、Q-Q图、平滑密度图、箱形图、多变量图以及热图等。
映射组件：需要确定将什么变量用作x变量，将什么变量用作y变量。这一点很重要，尤其是当数据集是具有多个特征的多维数据集时。
比例组件：决定使用哪种比例，例如线性比例、对数比例等。
标签组件：包括轴标签、标题、图例、要使用的字体大小等内容。
道德构成要素：确保可视化过程是真实的。在清理、汇总、操作和生成数据可视化效果时注意操作，并确保不会使用可视化效果误导或操纵受众。

3. 监督学习(预测连续目标变量)

熟悉线性回归和其他高级回归方法。能够使用scikit-learn和caret等数据包进行线性回归模型构建。具有以下能力：

能够使用NumPy或Pylab执行简单的回归分析
能够使用scikit-learn执行多元回归分析
了解正则化的回归方法，例如Lasso回归、岭回归和弹性网络
了解其他非参数回归方法，例如K近邻回归(KNR)和支持向量回归(SVR)
了解评估回归模型的各种指标，例如MSE(均方误差)、MAE(平均绝对误差)和R2分数
能够比较不同的回归模型

中级水平

除了基础级别的技能和能力外，还应具备以下能力：

1. 监督学习(预测连续目标变量)

熟悉二值分类算法，例如：

感知机分类器
Logistic回归分类器
支持向量机(SVM)
能够使用核SVM解决非线性分类问题
决策树分类器
K最近分类器
朴素贝叶斯分类器
了解评估分类算法质量的几个指标，例如准确度、精确度、灵敏度，特异度、召回率、f-l得分、混淆矩阵以及ROC曲线。
能够使用scikit-learn建立模型

2. 模型评估和超参数调整

能够将管道(pipeline)中的变换操作和评估操作结合
能够使用k折交叉验证来评估模型性能
知道如何使用学习和验证曲线来调试分类算法
能够通过学习曲线诊断偏差和方差问题
能够解决验证曲线过拟合和欠拟合的问题
知道如何通过网格搜索微调机器学习模型
了解如何通过网格搜索调整超参数
能够读懂和解释混淆矩阵
能够绘制和解释工作特性(ROC)曲线

3. 结合不同模型进行集成学习

能够对不同的分类器使用集成方法
能够结合不同的算法进行分类
知道如何评估和调整集成分类器

一种三个卓越学的层次数据极限运动科学讨

dawei https://www.0553zz.cn/

【声明】：芜湖站长网内容转载自互联网，其相关言论仅代表作者个人观点绝非权威，不代表本站立场。如您发现内容存在版权问题，请提交相关链接至邮箱：bqsm@foxmail.com，我们将及时予以处理。