algorithm

统计概念

均值 对于一组随机变量或者统计数据,其期望值我们由 E(X) 表示,即随机变量或统计数据的均值。 方差 协方差 标准差 中位数 众数 概念 一组数据中出现次数最多的数值,叫众数,有时众数在一组数中有好几个。 一般来说,一组数据中,出现次数最多的数就叫这组数据的众数。 例如:1,2,3,3,4的众数是3。 但是,如果有两个或两个以上个数出现次数都是最多的,那么这几个数都是这组数据的众数。 例如:1,2,2,3,

algorithm

经典问题

生产者消费者问题: 两军问题: 两军问题是计算机领域的一个思想实验,用来阐述在一个不可靠的通信链路上试图通过通信以达成一致是存在缺陷的和困难的 拜占庭将军问题 拜占庭罗马帝国在军事行动中,采取将军投票的策略来决定是进攻还是撤退,也就是说如果多数人决定进攻,就上去干。但是军队中如果有奸细(比如将军已经反水故意乱投票,或者传令官叛变擅自修改军令),那怎么保证最后投票的结果真正反映了忠诚的将军的意愿呢?拜占庭将军问题反映到信息交换领域中来,可以理解为在一个去中心的系统中,有一些节点是坏掉的,它们可能向外界广播错误的信息或者不广播信息,在这种情况下如何验证数据传输的准确性。 链接

AI

评价模型好坏的标准

混淆矩阵 是数据科学、数据分析和机器学习中总结分类模型预测结果的情形分析表,以矩阵形式将数据集中的记录按照真实的类别与分类模型作出的分类判断两个标准进行汇总。 精确率(Precision) TP/(TP+FP) 召回率(Recall) TP/(TP+FN) F1 是精确率和召回率的调和均值,即F1=2PR/(P+R),相当于精确率和召回率的综合评价指标。 准确率(accuracy) 正确分类的样本/总样本:(TP+TN)/(ALL) ROC曲线(Receiver operating characteristic curve)

AI

特征选择

概述 要使用特征选择技术的关键假设是:训练数据包含许多冗余或无关的特征,因而移除这些特征并不会导致丢失信息。冗余或无关特征是两个不同的概念。如果一个特征本身有用,但如果这个特征与另一个有用特征强相关,且那个特征也出现在数据中,那么这个特征可能就变得多余。 特征选择技术与特征提取有所不同。特征提取是从原有特征的功能中创造新的特征,而特征选择则只返回原有特征中的子集。 特征选择技术的常常用于许多特征但样本(即数据点)相对较少的领域。特征选择应用的典型用例包括:解析书面文本和微阵列数据,这些场景下特征成千上万,但样本只有几十到几百个。 数据和特征决定了机器学习的上限,而模型和算法是在逼近这个上限。简言之,好的数据和特征是所有模型和算法发挥到极致的前提。 为什么要特征选择? 不同的特征对模型的准确度的影响不同,有些特征与要解决的问题不相关,有些特征是冗余信息,这些特征都应该被移除掉。对于当前学习任务有用的属性称为相关特征(relevant feature),对于当前学习任务无用的属性称为无关特征(irrelevant