又一个WordPress站点

审计学就业前景大数据热门技术:“机器学习”的学习方法-德塔大数据研究院

大数据热门技术:“机器学习”的学习方法-德塔大数据研究院


原标题:《学习“机器学习”》
作 者:师文轩
已授权转载
原本两周前就应该交付的文稿,拖到今天晚上才强迫自己完成季佳熙,我知道可怕的拖延症又在自己身上发作了。每当畏惧一件事情的时候,就会给自己找一堆看似合理的理由为“知而不行”进行开脱赵煜鑫。
查理·芒格是我非常喜欢和尊敬的人,他有一句名言“要得到你想要的某样东西,最可靠的办法是让你自己配得上它”。
其实我想谈一点学习“机器学习”的感受,隔行不隔理,今天的话题拿这句话作为引言,因为这是一个十分简单的道理,是黄金法则张希永。伟大的数学家和哲学家怀特海曾经说过一句很正确的话,他说只有当人类“发明了发明的方法”之后,人类社会才能快速地发展。同样的道理,我们只有学习了学习的方法之后才能进步。


最近人工智能(AI)的概念很火,连带着“.ai”域名也火了起来,很多科技公司在2016年都开始热衷于注册和启用.ai域名。但有意思的是奕歌王,“.ai” 后缀属于国别域名类型,管理者是安圭拉政府百世元婴,从2006年6月起任何人均可注册。这两年,安圭拉政府一定经历了当幸福来敲门时的那种甜蜜感。

当你开始脑补各种AI技术的时候,一定会突然发现更多的词汇开始不断涌入眼前:人工智能、数据挖掘、模式识别、机器学习、深度学习......
其实不必过于纠结这些词汇与概念的精准范畴和定义忽然之恋,因为这种纠结可能会让我们忽略了学习这些技术的初衷。简单来说:
人工智能 (AI)是机器智能的最终目标
数据挖掘是去发现知识
模式识别是让程序做些智能的事情
机器学习是让程序通过学习数据而变得更智能
深度学习是使用了特殊方法(如深度卷积多层神经网络)的机器学习模型
面对技术领域之外的人,我们经常说“人工智能”,面对技术领域之内的人,我们经常说“机器学习”头头是道造句。这里借用美女科学家Natalia博士的一张图来解释机器学习要做的事情。

(图片来源:http://nkonst.com/machine-learning-explained-simple-words/)
对了,Natalia 博士颜值可是相当的高,有图为证:

关于机器学习,Natalia 博士原文是这样描述的:“Machine learning” sounds mysterious for most people. Indeed, only a small fraction of professionals really know what it stands for. 翻译过来就是“机器学习对大多数人来说很神秘,只有少数专业人士才能够领会到它的精髓”。原因很简单,因为这个领域的技术性比较强,给技术领域之外的人(layman)进行解释是比较困难的。
秉着尽量简单一点的原则,可以将机器学习划分为几种重要的类型:有监督的学习(Supervised Learning )、无监督的学习(Unsupervised Learning )和强化学习(Reinforcement Learning)。
有监督(Supervised)意味着数据是带着标签来的,比如张三是好人、老李不厚道、小刘挺拘谨...... 对于有监督的学习算法而言,通过对有标签的数据进行学习,将来遇到新样本之后,我们就可以预测这个样本的标签了。一个直接的例子就是,有监督的学习算法通过学习大量已知的猫猫狗狗图片之后 ,夏铭浩将来遇到一张新的图片新堂爱,就能够自动的判断是猫还是狗了。
无监督(Unsupervised)意味着数据没有标签蜈蚣咒。原因吗?可能是我们确实不知道这些数据的标签,也可能是数据太多,我们懒得给它们打标签。那怎么办呢?可以让算法自动将这些数据分类,比如将一堆猫猫狗狗的图片自动分成喵星人和汪星人两类(根据它们的一些内在特征 ),虽然算法并不能给这样的类别起个好听的名字邓伟杰。这个处理过程在机器学习领域中通常被叫做聚类(clustering)。
强化学习(Reinforcement Learning)顾名思义,就是不断强化自己进行学习。用下棋做例子,通过学习大量的棋局嘉碧仪,机器虽然不知道每一步棋是好棋还是臭棋,但是它知道这盘棋的最终结果(输了或赢了)。机器的逻辑很简单,如果能最终下赢,之前的步骤就会被更看重一些(算法里的权重增大一些)海牛大大,反之就被看轻一些(算法里的权重减小一些)。——这就是强化!跟我们人类的认知过程是如此的相似。
然后,说说数据的事情。有更多的数据显然是好事,这就好比我们在社会上见识的多了,生活经验自然就更丰富一些。唯一需要注意的是,学习过程中遇到的数据必须和将来要解决的问题具有相似性或者相关性,否则就会遇到“你的数学是体育老师教的吧”的尴尬局面。
另外一个问题是,当你面对机器学习的时候余儒海微博,要能够清楚的描述你真正想要的东西。Natalia 博士是这样阐述的:To formulate the question you want to pose to an ML expert, you need to know what you want to get as a result. 用大话西游里的台词来解释胡颂文,就是“你想要啊?悟空,你要是想要的话你就说话嘛,你不说我怎么知道你想要呢, 虽然你很有诚意地看着我,可是你还是要跟我说你想要的”。
贫嘴归贫嘴,现在正式进入高能状态......

工欲善其事必先利其器,为了更好的学习“机器学习”技术,采用Google发布的TensorFlow开源库是不错的选择,让我们开始吧审计学就业前景。

推荐Google CodeLabs上的一篇最快(mnist)动手教程“Learn TensorFlow and deep learning王吱吱, without a Ph.D”,链接在这里:https://codelabs.developers.google.com/codelabs/cloud-tensorflow-mnist/

从这个教程的题目上能解读出好几层意思:
大部分深度学习(或机器学习)相关技术,是需要具备博士水平的;
即便不具备博士水平,也不应该是门外汉能容易掌握的;
TensorFlow和深度学习(或机器学习)技术是“与(and)”的关系,不了解机器学习技术本身,TensorFlow可能就借不上力了;
Google CodeLabs发布这个150分钟的学习教程的初衷是“ If you want to acquire deep-learning skills but lack the time, I feel your pain.”。翻译过来就是:如果你既想学习深度学习,又没有太多时间,我会懂你的痛——多么的在理儿啊!
这个教程有如下几个关键步骤(省略了程序代码):
(1)配置环境:Python + TensorFlow + Matplotlib
(2)定义问题:比如识别手写体数字

(3)建立神经网络:从单层到多层神经网络的构建

(4)建立卷积神经网络:层层卷积

(5)大功告成:回顾关键步骤

现在松一口气,看来学习从来都不是一件轻松的事情。
如果想要在某个领域做得很出色川娇群,那么必须对它有强烈的兴趣。虽然我们可以强迫自己把许多事情做得相当好,但我们无法将没有强烈兴趣的事情做得非常出色(这句话来自 查理·芒格 在南加州大学毕业典礼上的演讲)。
最后,仍旧拿我喜欢和尊敬的 查理·芒格 的话作为结束语:“获得智慧是一种道德责任,它不仅仅是为了让你们的生活变得更加美好”宇桐非图片。


师老师在长达14年王嘉鹏,专注大数据领域研究的过程中,拥有许多关于技术、应用、大数据发展形势的独特见解和感悟。
在后期的文章中,师老师将会用特有的幽默式语调,来讲述大数据技术相关知识。
如果您有任何大数据相关的问题,欢迎在下方留言!
【精彩推荐】
【文章】阿里18年,德塔一周岁
【文章】分分钟带你走进企业大数据市场
【直播回看】大数据课堂干货
【文章】德塔:大数据算法课堂开课啦!
【文章】实现高新区数字网格化项目落地
【文章】程序员是公司瑰宝,拿来“祭天”有些浪费
【文章】算法工程师日记:数据预处理
【文章】浅谈用户画像二三事
【文章】德塔精要:3分钟构建天猫双11大屏
【文章】如何打造数据分析师思维
【文章】大数据分析三问:数据哪来?怎么分析?如何展示?
【文章】数据分析师可以速成…吗?
【医疗大数据】四个阶段,用好医疗大数据
【大数据算法】大数据算法落地难,3招搞定文强口述自传!
【新闻】德塔精要2017年中会议:跨越鸿沟 燃爆产品
【大数据算法】舆情事件分析的维度设计
【德塔慧报】你不了解的航空大数据
【德塔慧报】有温度的大数据报告 | 附《2017年本科生就业趋势报告》
【德塔慧报】深度解读“校园网贷”的前世今生

作者:admin | 分类:全部文章 | 浏览:68 2019 01 28  
« 上一篇 下一篇 »