找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索

[ Nosql与大数据 ] 【守望者 大数据】机器学习已成为大数据的基石

2014-10-12 23:15| 发布者: watchmen | 查看: 2863 | 收藏

摘要: 机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结 ...

机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

机器学习几乎无处不在,即便我们没有专程调用它们,它们也经常出现在大数据应用之中。我曾经在博客中描述了一些典型的大数据使用案例。换句话说,这些应用都能够在“极端情况下”提供最佳的结果。在结尾部分,我还提到了拍字节级数据容量、实时数据速度和/或多结构数据多样性的结合。
当时我还列出了一个应用列表,在收集过程中刻意避开了“机器学习分析”。主要原因是,尽管在这些使用案例中机器学习即便不是主要的,也是一个常用的工具,但是它们自身并不是一个使用案例。换句话说,它们不是一个凭借自身力量而形成的特殊应用域。出于同样的原因,我也没有像大数据使用案例那样列出模式设计、元数据管理或数据整合。但与机器学习一样,它们也都为实现大数据分析应用的价值做出了自己的贡献。
机器学习对大数据应用投资回报的贡献主要体现在两个方面:一是促进数据科学家们的多产性;二是发现一些被忽视的方案,有些方案甚至遭到了最好的数据科学家们的忽视。这些价值来自于机器学习的核心功能:即让分析算法无需人类干预和显式程序即可对最新数据进行学习。解决方案允许数据科学家们根据典型数据集创建一个模型,然后利用算法自动概括和学习这些范例和新的数据源。
许多情况下,机器学习是大数据创新的最佳投资回报。对机器学习的投资能够深化任何对企业定制的大数据案例。这是因为机器学习算法在容量、速度和类型(即大数据的3个V特性)中正变得日益高效。正如Mark van Rijmenam在近期有关机器学习的文章中所说的那样:“处理的数据越多,这种算法就越能体现出优势。”他认为,包括语音与面部识别、点击流处理、搜索引擎优化、推荐引擎在内,许多机器学习应用可能被描述为意会分析法(sense-making analytics)。
意会分析法需要对从数据流中推断出来的用户语义方式、内容和重要性进行持续监控。为了支持意会的自动化,机器学习算法必须要经常性地处理一些极为复杂的东西。这其中包括组成对象或环境中隐藏的语义分类,这需要通过多种不同的数据流实时收集整体含义。这些数据流必须包括不同的对象,例如数据、视频、图像、语音、表情、动作、地理信息和浏览器点击等元素。通过机器学习从这些数据流中自动提取出来的含义,可能会混合有认知、情感、感觉和意志特征。
为了在这些素材当中找到线索,“深入学习”(deep learning)成为了大数据科学家的机器学习指令系统中的一个重要工具。正如van Rijmenam所说的那样,利用神经网络开展的深入学习有助于从这些数据流中提取感知能力,因为这些数据流可能涉及组成对象之间语义关系的层次结构安排。“深入学习能够打破数据中具有不同特点的组成成分之间的隔阂,利用这些特点从中找出不同的特征组合,从而搞清楚它们看到了什么或者是正在做什么。”van Rijmenam说。
显然,对于创建能够感知和处理动态分布式方案的环境来说,机器学习一个基础性工具。人类对实时威胁和恐怖主义活动、自然灾难、飓风等其他威胁的侦测与应对能力,取决于对海量数据中的信息进行自动筛选、分类和关联。如果没有这种能力,那么人类就有被“淹死”在大数据海洋之中的危险。

会员评论  

已有0参与评论

推荐阅读

【守望者  j2se】ConcurrentHashMap原理分析
【守望者 j2se】ConcurrentHashMap原
集合是编程中最常用的数据结构。而谈到并发,几乎总是离不开集合这类高级数据
【守望者  j2se】双向链表模拟
【守望者 j2se】双向链表模拟
我们熟悉了java单向链表的模拟,现在我就必须开始双向链表的模拟的.1.基础结构
【守望者 高并发】现有高并发WEB服务器 lighttpd Apache Nginx比较
【守望者 高并发】现有高并发WEB服务器
lighttpd网络服务器基于的Lighttpd的网络服务器具有这样的特点:占用内存资源
【守望者 高并发】C10K/C500K与I/O框架
【守望者 高并发】C10K/C500K与I/O框架
C10K、C/500K问题C10K 的意思是10000并发请求,C500K意思是500 000并发请求,
【守望者  j2se】虚拟机各部分内存溢出情况
【守望者 j2se】虚拟机各部分内存溢出
通过简单的小例子程序,演示java虚拟机各部分内存溢出情况:(1).java堆溢出:
【守望者  JMM】理解volatile内存语义
【守望者 JMM】理解volatile内存语义
理解volatile变量对写多线程程序还是很有帮助的,这样就会避免一上来就是syn这
【守望者 高并发】使用CAS实现高效并发处理
【守望者 高并发】使用CAS实现高效并发
守望者:在并发处理应用中,一般使用锁的方式来解决竞争问题,但锁的效率比较
【守望者  j2se】吃透 java I/O 工作机制-1
【守望者 j2se】吃透 java I/O 工作机
I/O 问题可以说是当今互联网 Web 应用中所面临的主要问题之一,因为当前在这
【守望者 大数据】Mahout学习路线图
【守望者 大数据】Mahout学习路线图
Hadoop家族产品,常用的项目包括Hadoop, Hive, Pig, HBase, Sqoop, Mahout, Z
【守望者 j2se】ConcurrentMap之putIfAbsent(key,value)用法讨论
【守望者 j2se】ConcurrentMap之putIfA
先看一段代码:public class Locale { private final static MapString, Lo
【守望者  javascript】判断IE浏览器世界上最短的代码
【守望者 javascript】判断IE浏览器世
最短的IE判定var ie=!-分析以前最短的IE判定借助于IE不支持垂直制表符的特性
【守望者 大数据】机器学习已成为大数据的基石
【守望者 大数据】机器学习已成为大数
机器学习(Machine Learning, ML)是一门多领域交叉学科,涉及概率论、统计学、
【守望者  j2se】多线程与并发知识点总结
【守望者 j2se】多线程与并发知识点总
对于多线程和并发编程这个比较大的技术模块,我们会整理一些帖子方便知识点的
【守望者  j2se】二叉树模拟
【守望者 j2se】二叉树模拟
接着我们就要写一个比较复杂的数据结构的,但是这个数据结构是很重要的,假如
【守望者 SRS  】SRS 源代码分析笔记(0.9.194)-分析服务器对端口的监听 ...
【守望者 SRS 】SRS 源代码分析笔记(
第一部分 分析服务器对端口的监听 端口监听与初始化(一)全局变量_srs_confi

行业聚焦  面试交流  职位推荐  开发视频   技术交流  腾讯微博  新浪微博

友情链接:课课家教育  阿里云  鲜果  W3Cfuns前端网  中国企业家  环球企业家  投资界  传媒梦工场  MSN中文网  Android开发者社区  cnbeta  投资中国网  又拍云存储  美通说传播  IT茶馆  网商在线  商业评论网  TechOrange  IT时代周刊  3W创新传媒  开源中国社区  二维工坊  Iconfans  推酷  智能电视网  FreeBuf黑客与极客  财经网  DoNews  凤凰财经  新财富  eoe移动开发者社区  i黑马  网易科技  新浪科技  搜狐IT  创业家  创业邦  腾讯财经  福布斯中文网  天下网商  TechWeb  雷锋网  新浪创业  和讯科技  品途O2O  极客公园  艾瑞网  抽屉新热榜  卖家网  人民网通信频道  拉勾网  创新派  简单云主机  

手机版|黑名单|守望者在线 在线教育 linux 高级程序设计 C/C++ 大数据 ( 蜀ICP备14029946号

成都守望者科技有限公司 © 2013-2016 All Rights Reserved