数据科学技术概述
未充分投资数据科学的组织将在竞争对手获得显著业务优势时被抛在后面。数据科学应用使用机器学习、其他形式的高级分析和大数据来开发深度洞察和新能力,包括预测建模、图像和物体识别、对话式AI系统等。数据科学领域包含几个关键组成部分:
- 用于准确提取可量化数据的统计和数学方法
- 便于处理大型数据集的技术和算法方法
- 从科学角度处理数据分析的高级分析技术和方法论
- 将大量数据处理成能够产生高质量洞察的格式的工程工具和方法
数据科学如何发现数据间的关系
在识别数据中的信息时,数据科学家必须辨别不同数据元素如何关联。这些数据点可能表示:
- 两个或多个变量之间的关系,最好通过绘制线条或多维平面来描述
- 具有某种亲和力的聚类组
- 不同类别
确定这些关系为原本随机的数据赋予了意义。数据科学家随后可以分析和可视化数据,为组织提供决策或规划策略所需的信息。
分类技术
数据科学家在解决分类问题时主要回答:这些数据属于哪个类别?
决策树:使用机器生成的参数和值树状结构将数据分类到定义好的类别中的分支逻辑结构。
朴素贝叶斯分类器:使用概率帮助将数据放入简单类别中。
支持向量机:绘制带有宽边距的线条或平面,将数据分离到不同类别中。
K近邻:使用简单的"懒惰决策"方法识别数据点应属的类别,基于数据集中其最近邻居的类别。
逻辑回归:将数据拟合到一条线上以区分两侧不同类别的分类技术。
神经网络:使用训练过的人工神经网络,特别是那些采用具有多个隐藏层的深度学习的神经网络。
回归技术
回归旨在找到数据的预测值,来自"回归均值"的统计概念。
线性回归:最广泛使用的数据科学方法之一,基于两个变量之间的相关性找到最适合分析数据的线条。
Lasso回归:通过使用最终模型中的数据子集来提高线性回归模型的预测准确性。
多元回归:涉及识别与多个数据维度对齐的线条或平面,可能包含多个变量。
聚类和关联分析技术
聚类方法
K均值聚类:确定数据集中特定数量的聚类并找到识别聚类位置的质心。
均值漂移聚类:另一种基于质心的聚类技术。
DBSCAN:通过分组数据点并将异常值标记为噪声来识别聚类密度的先进方法。
高斯混合模型:使用高斯分布将数据分组在一起而不是将数据视为单一点来找到聚类。
层次聚类:使用分层分支方法找到聚类。
关联分析
关联分析找到描述不同数据点之间共性的关联规则。它试图确定数据点何时会一起出现,而不是事后识别聚类。
数据科学应用示例
异常检测:识别预期或"正常"数据的模式,更容易找到不符合模式的数据点。
二元和多类分类:分类技术的主要应用是确定数据是否属于特定类别。
个性化:基于共享特征将个体分组到数据桶中,使组织能够根据个人的特定需求和偏好定制网站、营销优惠等。