给你解释一下这些术语:云计算:就是个炒得很热的商业概念模式识别与学习,其实说白了就是将计算任务转移到服务器端,用户只需要个显示器就行了,不过服务器的计算资源可以转包。当然,要想大规模商业化,这里还有些问题,特别是隐私保护问题。大数据:说白了就是数据太多了。如今几兆的数据在20年前也是大数据。但如今所说的大数据特殊在哪呢?如今的问题是数据实在是太多了,这已经超过了传统计算机的处理能力(区别与量子计算机),所以对于大数据我们不得不用一些折衷的法(比如数据挖掘),就是说没必要所有数据都需要精确管理,实际上有效数据很有限,用数据挖掘的方法把这些有限的知识提取出来就行了。・此外,数据抽样,数据压缩也是解决大数据问题的一些策略。数据挖掘:从数据中提取潜在知识,这些知识可以描述或者预测数据的特性。有代表性的数据挖掘任务包括关联规则分析、数据分类、数据聚类等,这些你在任一本数据挖掘教材都可以了解。下面我说说和大数据的区别:数据挖掘只是大数据处理的一个方法。马云所说的大数据,或者如今商业领域所说的大数据,实际上指的就是数据挖掘,其实真正所谓大数据,或者science杂志中提到的大数据,或者奥巴马提出的大数据发展战略,我的理解是,这些都远远大于数据挖掘的范畴,当然数据挖掘是其中很重要的一个方法。真正目的是如何将大数据进行有效管理。机器学习:这个词很虚,泛指了一大类计算机算法。重点是学习这个词,如果想让计算机有效学习,目前绝大多数方法都采用了迭代的方法。所以在科研界,只要是采用了这种迭代并不断逼近的策略,一般都可以归到机器学习的范畴。此外,所谓学习,肯定要知道学什么,这就是所谓训练集,从训练集数据中计算机要学到其中的某个一般规律,然后用一些别的数据(即测试集)来看看学得好不好,之后才能用于实际应用。所以,选取合适的训练集也是个学问。模式识别:意思就是模式的识别。模式多种多样,可以是语言,可以是图像,可以是事物一些有意义的模块,这些都算。所以总体来说,模式识别这个词我是觉得有点虚,倒是具体的人脸图像识别、声音识别等,这些倒是挺实在的。也许是我不太了解吧。另外说说你的其他问题。传统分析方法不包括数据挖掘。对于数据分析这块我不是很了解,不过可以肯定的是,传统分析都有一定的分析方向,比如我就想知道这两个商品的关联情况,那我查查数据库就行了。数据挖掘虽说有些历史,不过也挺时髦的,它是自动将那些关联程度大的商品告诉你,这期间不需要用户指定数据分析的具体对象。如果想应对大数据时代,数据挖掘这门课是少不了的。此外对数据库,特别是并行数据库、数据库,最好了解点。至于机器学习和模式识别,这些总的来说和数据挖掘关系不太大,除了一些特殊的领域外。总之,概念挺热,但大数据还很不成熟,无论从研究上还是商业化上。我目前在作大数据背景下的算法研究,说实话,目前基本没有拓展性非常强的算法,所以未来大数据的发展方向,我也挺迷茫。ps:将数据挖掘应用于商业,最最重要的就是如何确定挖掘角度,这需要你对具体应用的领域知识非常了解,需要你有非常敏锐的眼光。至于数据挖掘的具体算法,这些就交给我们专门搞研究的吧!(对算法的理解也很重要,这可以把算法拓展到你的应用领域)
机器学习中容易出现的误区
在机器学习中很多人都可能有一定的误解,那就是认为复杂的事物容易出错,而简单的事物往往会得到极高的准确率,那么事实真的是这样的吗?在这篇文章中我们详细的给大家介绍一下这个问题,并给大家介绍一下特征的相关知识。
其实简单并不意味着准确。在机器学习中,这通常意味着,给定两个具有相同训练错误的分类器,两者中较简单的可能具有最低的测试错误。有关这一说法的证据在文献中经常出现,但事实上有很多反例,比如“天底下没有免费的午餐”定理也暗示它不可能是真的。
我们知道融合模型,融合模型有一个特点,那就是即使在训练误差已经达到零之后,通过添加分类器,增强融合模型的泛化误差仍然在不断提高。因此,与直觉相反,一个模型的参数数量与其过度拟合倾向之间没有必然的联系。其实,更复杂的观点是将复杂性等同于假设空间的大小,因为较小的空间允许假设由较短的符号表示。像上面有理论保证的那部分界限就可以被认为是在暗示更短的假设能更好地概括。这可以通过给空间中的假设分配更短的符号来进一步论证,这些空间我们是有先验偏好的。但是,把这看作准确性和简单性之间权衡的证据,就会是循环推理:我们做出假设,人们喜欢更简单的设计,如果它们是准确的,那就是因为我们的偏好是准确的,而不是因为在我们选择的表征方式上假设是简单的。由此我们可以发现,简单并不意味着准确。
而特征工程的重要性大家也是知道的,一般来说,特征选择也叫特征子集选择。是指从已有的 m 个特征中选择 n 个特征使得系统的特定指标最优化,是从原始特征中选择出一些最有效特征以降低数据集维度的过程,是提高算法性能的一个重要手段,也是模式识别中关键的数据预处理步骤。而特征提取是计算机视觉和图像处理中的一个概念。它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点,连续的曲线或者连续的区域。
关于机器学习中存在的误解我们就给大家讲到这里了。由此可见,机器学习是一个十分严谨的内容,容不得一点马虎,所以我们还是需要注意好数据的准确性。