当你的深度学星河娱乐城官方网习模型走进死胡

时间:2017-06-07 20:20 点击:184
当你的深度学习模型走进往世胡同,问问本身这5个题目 安妮 编译自 Semantics3官方博客

量子位 出品 | 公众号 QbitAI

深度学习是一项巨大又复杂的工程,在设立深度学习模型时,走进往世胡同被迫从头再来益似是常事。

近日,Semantics3网站的团结创起人Govind Chandrasekhar在官方博客上发外了一篇文章,讲述了程序员在解决深度学习题目时的答该自问的五个题目。

Semantics3是一家2012年成立的数据科学初创公司,它创建了一个数据库,跟踪产品在网上的出售过程,为零售商挑供数据。对于Govind Chandrasekhar写的这篇文章,量子位全文翻译如下:

研究数据科学是一件哀喜交加的事情。喜在当你偶尔的发现挑高了算法的性能,也许让你拥有持久的高昂感;哀在你会经常发现本身站在一条单走道的终点,苦苦探索到底那里出了题目。

在这篇文章里,吾将详述走过众数条深度学习末路后,得到的五个教训。在处理新题目或新方法前,吾都会用想想下面这五个题目。

这个题目对解决监督学习的困境尤为受用——这些题目的典型前挑是,一个幼的高质量数据集(比如N个实体)不妨帮助你的模型近似得到一个潜伏的功能,之后泛化到包含1000N个实体的整个数据集。

这些方法的好处在于,人类只必要研究很幼局部数据就不妨了,机器会学会把它行使到大范围的示例中。

但是在现实世界中,题目不总是含有不妨被优先识别的模式。人们利用外部常识来解决的认知挑衅比吾们认识到的还要众,这经常导致吾们错误地期待吾们的算法在异国常识的情况下也许解决同样的挑衅星河娱乐城官方网。

举个例子吧,看下面这三栽描述:

Pets First Arkansas Dog Jersey, X-Small, Pink

Pets First Arizona Dog Jersey, X-Small, Pink

Pets First AR Dog Jersey, X-Small, Pink

这三组描述中,有两个外示的含义相通,你能找出谁人含义迥异的吗?

大众数美国人都不难明决这个题目,由于AR=Arkansas,AR!=Arizona是个常识星河娱乐城官方网。但是,一个对美国并不熟识的人,也许就不清楚答案是什么了星河娱乐城官方网。

你会发现,你创建的神经网络也异国能力解决这个题目,由于在语言使用这方面,异国特定的缩写规则不妨供神经网络往模仿。当然指定了Arkansas等同于AR的情况除外。

相反如许的题目还有许众(也许在一开起你并不理解这些题目),并且它们在现实做事中还经常出现。回头审视之前建造的神经网络,并且清晰必要增众的新知识是专门困难的。因此,在构建神经网络时,要及时跳出本身的思想定式。

题目二:

你构建的神经网络能经过切确的视角理解你的数据吗?

倘若地区的缩写起终是名字的前两个字母,同时这个缩写不会重复。那么,吾们再来用迥异的示例回看刚刚的匹配题目:

“Pets First Arkansas Dog Jersey, X-Small”

“Pets First Arkansas Dog Jersey, Extra-Small”

“Pets First AR Dog Jersey, X-Small”

“Pets First Arkansas Dog Jersey, Large”

“Pets First MA Dog Jersey, Large”

你的目标是设立一个神经网络用于识别1、2、3等价而4、5迥异。这个义务是在考验神经网络对“大幼”这个概念理解——它们是否清楚X-Small=Extra-Small ?也是在考验它对缩写的理解能力,比如Arkansas=ARkansas=AR由于前两个字母相通,而Arkansas不等于MA,等等。

你也许会经过Word2Vec来构建一个嵌入空间,将 X-Small映射为Extra-Small来解决这个题目。

尽管这栽方法是一个标准解法,但也许你会妨碍神经网络找到你想让它学习的内容。如果把AR换成幼写的ar,对人类来说就比较难识别了,吾们会纠结ar到底指的的Arizona照旧are。

同样,如果你选择设立词汇的嵌入空间,有用地将每一个单词映射到唯一的标记,那么你就掐断了神经网络理解构成字符“ARkansans”的机会。

这栽暧昧网络题目在你构建网络时经常出现,尤其是在设立考虑迥异类型的输入信号的模型时。

题目三:

你的网络是在钻你训练集里的牛角尖,照旧帮你解决手头的题目?

倘若你正在构建一个二分的图像分类器,来检查文档中的文本是计算机打印的照旧手写的。为了构建计算机打印文本的训练数据集,你用电脑上的柔件直接生成了带文字的jpeg图片;为了获取手写文本的样本,你把这些jpeg图片发送到做数据标注的公司,让他们把这些图片转录成文字,并将扫描成jpeg文件。

之后,就不妨运走你的分类器了。不要起劲得太早,固然此刻它的训练切实率已经超过了99%,但当吾们用现实场景来测试时,分类器外现并不益。这是为什么呢?

你构建的神经网络也许带有简单的指使性差错,扫描手写的图片也许带有灰白的背景色,而柔件生成的JPEG是纯白色的背景。你的神经网络为了解决你交给它的题目,也许并异国往分析内容、上下文、形状和颜色等要素,而是只抓住了背景色的这一点微幼差别。

必要记住的是,你的神经网络永久都不会明白你的大偏向,它所做的就是基于手头的目标和数据,以最简单的方式尽快给出一个答案。

彻底审查你的数据集,消除可供神经网络钻牛角尖的特征,不妨节约成本和时间。

在特定领域的题目上,诸如GloVe和Inception之类的预先训练模型也许并不益用。这将迫使你开起随机初起化神经网络,也就意味着也许经过益几天的训练,你还不清楚本身的模型效率如何。

你的模型也许还面临着一个题目:数据集太幼了或者质量太差了,即使经过旋转、变形等手腕扩充之后,也照旧达不到训练的要求。

在这栽情况下,寻觅它的兄弟题目也许是个解决办法。但要留心,这些题目必要符相符两个标准:

它们不克和你手头的数据集有同质量和数目的题目。

它们的神经网络必要有一组层,能捕捉到你的模型所需的概念。

题目五:

你的网络是做不到照旧懒?如果它懒,如何强迫它学习?

伪如你是一个绘画生手,让你猜测三幅腾贵的绘画作品价格。有三个可用信休可供你查看——作品的年限、作品十年前的价格和这幅画的高分辨率图像。

在异国经过前期训练的情况下,让你完成这个义务,给出尽也许切确的答案,你会怎么办?

你是会报名参加一个为期两月的绘画课程,来学习复杂的绘画技艺,照旧会考虑用作品的年限和十年前的价格做一个方程来猜测价格?

即使你能认识到理想的价格方程式包含这三栽信休的组相符,但你照旧很愿意接受一个懒惰的选项:、用两栽信休来进走展望。固然这个选项不是最优解,但也是在能接受范围的。你会更偏向只依靠轻易理解和外达的信休。

在用机器学习解决实在题目时,如果你的模型有众个输入信休,它们的复杂度迥异很大时,也会遇到这个题目。对如许的模型进走训练,几个周期之后,你也许会发现你的模型益像已经接近完成,并且拒绝进一步学习。

在这栽情况下,最益的解决方法是往掉一个输入项,看团体指标的转折。如果一个输入项和结果相干,往掉了之后却对结果毫无影响,你就答该考虑单独用这个输入项来训练模型,当模型学会了依据这个输入项做判断之后,再渐渐将其余的信休也加入进来。

【完】

雇用

量子位正在招募编辑记者、运营、产品等岗位,做事地点在北京中关村。相干细节,请在公众号对话界面,回复:“雇用”。

今天AI界还有哪些事值得关注?在量子位(QbitAI)公众号对话界面回复“今天”,看吾们全网搜罗的AI走业和研究动态。笔芯~

另外,,如果你研究或者从事AI领域,幼助手会把你带入量子位的交流群里。

△ 扫码强走关注『量子位』


当前网址:http://www.908vns.com/xingheyulechengguanfangwang/6236.html
tag:彩尊线上娱乐是黑彩吗,suncity288,申博备用网站,娱

发表评论 (184人查看0条评论)
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
昵称: 验证码:点击我更换图片
最新评论

Powered by 彩尊线上娱乐是黑彩吗 @2014 RSS地图 html地图

Copyright 站群系统 © 2013-2018 365建站器 版权所有