如果采集越来空锁吴钩到白头越多的数据

来源:服务器技术网maugiaoan.com- 阅读:107079

摘要:服务器技术网nifengsoft如果采集越来空锁吴钩到白头越多的数据文/陈运文 达观数据CEO 什么是高斯混合模型(Gaussian Mixture Model) 高斯混合模型(Gaussian Mixture Model)通常简称GMM,是一种业界广泛使用的聚类算法,该方法使用了高斯分布作为参数模

如果采集越来空锁吴钩到白头越多的数据

什么是高斯混合模型(Gaussian Mixture Model)

高斯混合模型(Gaussian Mixture Model)通常简称GMM,艾希瓦亚雷,是一种业界广泛使用的聚类算法,西门吹雪纵横洪荒,赌侠三毛钱看,飞鸟和鱼张天其,该方法使用了高斯分布作为参数模型,并使用了期望最大(Expectation Maximization,简称EM)算法进行训练。

图2 对给定用户,赵秋瑞,身高分布的采样概率用红色柱状图表示,高斯模型在参数μ=180,σ=28时计算出的概率用绿色柱状图表示

K-means算法可以被视为高斯混合模型(GMM)的一种特殊形式。整体上看,高斯混合模型能提供更强的描述能力,因为聚类时数据点的从属关系不仅与近邻相关,还会依赖于类簇的形状。n维高斯分布的形状由每个类簇的协方差来决定。在协方差矩阵上添加特定的约束条件后,可能会通过GMM和k-means得到相同的结果。

注意,虽然现在模型更复杂了,但仍然可使用与之前相同的技术进行模型训练。在计算期望值时(很可能通过已被混合的数据生成),只需要一个更新参数的最大化期望策略。

公式中包含两个参数,参数μ 表示均值,参数 σ表示标准差,均值对应正态分布的中间位置,在本例中我们可以推测均值在180cm附近。标准差衡量了数据围绕均值分散的程度。

编者注:

上文选自由达观研究院编写而成的《达观数据技术实践特刊》,该书集合了当下最热门的人工智能领域自然语言处理、个性化推荐、垂直搜索引擎三大方向的技术实践总结,融合了达观技术团队在服务华为、中兴、招行、平安、京东云等不同行业上百家企业后的技术感悟,是国内第一本系统介绍NLP、深度学习等AI技术实践应用的电子刊,欢迎各位技术爱好者前往下载。

观察图2可以看出,刚才咱们猜测的均值参数180和标准差参数28拟合的效果很不错,虽然可能稍微偏小了一点点。当然我们可以不断调校参数来拟合得更好些,但是更准确的办法是通过算法来生成它们,这个过程就被称为模型训练(model training)。最常用的方法是期望最大(EM)算法,下文会进行详细讲解。

回到之前的例子来评估下参数和对应的实际数据。假设我们用柱状线来表示分布概率,吴迪昂,每个柱状线指相应身高值在334个人中的分布概率,用每个身高值对应的人数除以总数(334)就可以得到对应概率值,图2用左侧的红色线(Sample Probability)来表示。

图4展示了Iris数据集的4-D高斯聚类结果在二维空间上的映射图

上面的公式是概率密度函数,也就是在已知参数的情况下,输入变量指x,可以获得相对应的概率密度。还要注意一件事,就是在实际使用前,孽也缘也,概率分布要先进行归一化,也就是说曲线下面的面积之和需要为1,这样才能确保返回的概率密度在允许的取值范围内。

图2 对给定用户,身高分布的采样概率用红色柱状图表示,高斯模型在参数μ=180,σ=28时计算出的概率用绿色柱状图表示

如果我们设置参数μ =180,σ =28,夫妇乐园札记,使用累积密度函数来计算对应的概率值——右侧绿色线(Model Probability),可以肉眼观察到模型拟合的精度。

4 高斯混合模型的学习实例

前面的简单例子里使用了一维高斯模型:即只有一个特征(身高)。但高斯不仅局限于一维,很容易将均值扩展为向量,标准差扩展为协方差矩阵,用n-维高斯分布来描述多维特征。接下来的程序清单里展示了通过scikit-learn的高斯混合模型运行聚类并对结果进行可视化展示。

enter image description here

回到之前的例子,女性在身高分布上通常要比男性矮,画成图的话如图3。

-n_components ——用户混合的高斯分布的数量。之前的例子里是2个 -covariance_type ——约定协方差矩阵的属性,即高斯分布的形状。参考下面文档来具体了解: -n_iter —— EM的迭代运行次数 计算结果如下图(Iris数据集) -有关make_ellipses ——make_ellipses来源于plot_gmm_classifier方法,作者为scikit-learn的Ron Weiss和Gael Varoquaz。根据协方差矩阵绘制的二维图形,可以找出方差最大和其次大的坐标方向,以及相对应的量级。然后使用这些坐标轴将相应的高斯分布的椭圆图形绘制出来。这些轴方向和量级分别被称为特征向量(eigenvectors)和特征值(eigenvalues)。

1 什么是高斯分布?

高斯分布(Gaussian distribution)有时也被称为正态分布(normal distribution),是一种在自然界大量的存在的、最为常见的分布形式。在提供精确数学定义前,古时有哼哈二将,先用一个简单的例子来说明。

学过大学高数的同学应该还记得,正态分布的一个背景知识点是,夫妻性保健健德堂,95%的数据分布在均值周围2个标准差的范围内。本例中大约20到30左右是标准差参数的取值,因为大多数数据都分布在120cm到240cm之间。

文/陈运文 达观数据CEO

在初始化GMM算法时,传入了以下参数:

3 高斯混合模型(GMM)

高斯混合模型是对高斯模型进行简单的扩展,GMM使用多个高斯分布的组合来刻画数据分布。

图1 由334个人的身高数据构成的正态分布直方图

 极速赛车是不是官方的 山东11选5走势 淘彩票计划群 创元彩票计划群 荣鼎彩 广西快3开奖 极速赛车是哪个国家的 58彩票网计划群 520彩票计划群 金砖彩票计划群