登录 |  注册 |  繁體中文

人工智能&大数据
2020-05-17 10:52:33
两种不同的缩放方式,目的都是缩小范围。 归一化(Normalization):将一列数据变化到某个固定区间(范围)中,通常,这个区间是[0, 1],广义的讲,可以是各种区间,比如图像中可能会映射到[0,255],主要是为了数据处理方便提出来的 标准化(Standardization):就是将训练集中某一列数值特征(假设是第i列)的值缩放成均值为0,方差为1的状态。具体操作是将数据按比例缩放,使之落入一个小的特定区间。
2020-05-17 10:35:52
一、在现实生活中,一个目标变量(y)可以认为是由多个特征变量(x)影响和控制的,那么这些特征变量的量纲和数值的量级就会不一样,比如x1 = 10000,x2 = 1,x3 = 0.5 可以很明显的看出特征x1和x2、x3存在量纲的差距;x1对目标变量的影响程度将会比x2、x3对目标变量的影响程度要大(可以这样认为目标变量由x1掌控,x2,x3影响较小,一旦x1的值出现问题,将直接的影响到目标变量的预测,把目标变量的预测值由x1独揽大权,
2020-05-17 08:17:25
1.主要功能如下: 1.classification分类 2.Regression回归 3.Clustering聚类 4.Dimensionality reduction降维 5.Model selection模型选择 6.Preprocessing预处理 2.主要模块分类: 1.sklearn.base: Base classes and utility functio
2020-05-16 17:04:34
  sklearn是python的重要机器学习库,其中封装了大量的机器学习算法,如:分类、回归、降维以及聚类;还包含了监督学习、非监督学习、数据变换三大模块。sklearn拥有完善的文档,使得它具有了上手容易的优势;并它内置了大量的数据集,节省了获取和整理数据集的时间。因而,使其成为了广泛应用的重要的机器学习库。下面简单介绍一下sklearn下的常用方法。 1. 监督学习 sklearn.neighbors #近邻算法
2020-05-15 18:03:31
机器学习--- K均值(K-Means) 假定我们有如下8个点 A1(2, 10) A2(2, 5) A3(8, 4) A4(5, 8) A5(7, 5) A6(6, 4) A7(1, 2) A8(4, 9) 希望分成3个聚类 初始化选择 A1(2, 10), A4(5, 8) ,A7(1, 2)为聚类中心点,两点距离定义为ρ(a, b) = |x2 – x1| +
2020-05-15 14:56:10
支持向量机(support vector machines, SVM)     https://zhuanlan.zhihu.com/p/77750026
2020-05-15 09:51:00
利用梯度下降法求解梯度的过程:           一般情况下分为三步:           1-随机一个初始值,在多元线性回归中,我们随机一组w,带入到损失函数中,得到一个初始点.           2-让这个点按照负梯度的方向运动,就是
2020-05-13 14:21:08
TSS: Total Sum of Squares 总平方和(总离差平方和) ESS: Explained Sum of Squares 回归平方和(解释平方和) RSS: Residual Sum of Squares 残差平方和 TSS=RSS+ESS 其中,Yi代表观察值(实际值), ȳ代表平均值,ŷ代表预测值  残差在数理统计中是指实际观察
2020-05-10 10:11:05
一元线性回归 1. 预测房价 房价是一个很火的话题,现在我们拿到一组数据,是房子的大小(平方英尺)和房价(美元)之间的对应关系,如下(csv数据文件):   No,square_feet,price 1,150,6450 2,200,7400 3,250,8450 4,300,9460 5,350,11400 6,400,15470 7,600,1
2020-05-09 09:29:33
决策数(Decision Tree)在机器学习中也是比较常见的一种算法,属于监督学习中的一种。看字面意思应该也比较容易理解,相比其他算法比如支持向量机(SVM)或神经网络,似乎决策树感觉“亲切”许多。 优点:计算复杂度不高,输出结果易于理解,对中间值的缺失值不敏感,可以处理不相关特征数据。 缺点:可能会产生过度匹配的问题。 使用数据类型:数值型和标称型。
2020-05-08 20:53:41
1 概述 贝叶斯分类算法是一大类分类算法的总称。贝叶斯分类算法以样本可能属于某类的概率来作为分类依据。朴素贝叶斯(Naive Bayes)分类算法是贝叶斯分类算法中最简单的一种。 注:朴素的意思是条件概率独立性 2 算法思想 朴素贝叶斯的思想是这样的:如果一个事物在一些属性条件发生的情况下,事物属于A的概率>属于B的概率,则判定事物属于A。 通俗来说,你在街上看到一个黑人
2020-05-07 21:13:52
K最近邻(k-Nearest Neighbor,KNN)分类算法,通过测量不同特征值之间的距离进行分类,其指导思想是“近朱者赤,近墨者黑”,如果一个样本在特征空间中的k个最相似的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常为不大于20的整数。 KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。 如下图所示,要决定绿
2页/总7页  共74条记录  首页 上一页 下一页 尾页

回到顶部