亚洲工业智能制造领域专业门户网站 - 亚洲自动化与机器人网

 
當前位置: 首頁 » 行業資訊 » 機器人»實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題
   

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

 46.1K
     [點擊復制]
放大字體  縮小字體 發布日期:2017-08-06   瀏覽次數:916
核心提示:  現實任務中,應當怎樣做和教科書講的結論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結論失足了?  假如愿望懂得機械進修,或許曾經決議投身機械進修,你會第一時光找到各類教材停止充電,同時在心中默許:書

  現實任務中,應當怎樣做和教科書講的結論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結論失足了?

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  假如愿望懂得機械進修,或許曾經決議投身機械進修,你會第一時光找到各類教材停止充電,同時在心中默許:書里講的是牛人年夜神的終生聰明,是準確無誤的行為指南,賣力進修就可以取得疾速晉升。但現實情形是,你極可能曾經在走彎路。

  科技成長很快,數據在指數級增加,情況也在指數級轉變,是以許多時刻教科書會跟不上時期的成長。有時,即使是寫教科書的人,也不見得都明確結論面前的“所以然”,是以有些結論就會落伍于時期。針對這個成績,第四范式開創人、首席履行官戴文淵近日就在公司外部分享上,向年夜家引見了機械進修教材中的七個經典成績。戴文淵是ACM世界冠軍(2005年),“遷徙進修”全球領武士物,在遷徙進修范疇單篇論文援用數至今仍排名世界第三。曾任百度鳳巢戰略的技巧擔任人、華為諾亞方舟試驗室主任迷信家。

  本文依據演講實錄整頓,略有刪減。

  有時我們會發明,在現實任務中,應當怎樣做和教科書講的結論相抵觸,這時候候要怎樣辦呢?豈非教科書中的結論失足了?現實上,有時確切如斯。所以明天我就想和年夜家分享一下機械進修教材中的一些經典成績,愿望對年夜家往后的任務和進修有所贊助。

  成績一:神經收集不宜跨越3層

  這是最著名毛病斷定,如今的教科書簡直曾經不再有如許的結論,但假如看15年、20年前的機械進修教科書,會有一個很風趣的結論:神經收集不克不及跨越三層。這和我們如今說的深度進修是抵觸的,深度進修如今年夜家比拼的不是神經收集能不克不及跨越三層,而是能不克不及做出一百層、一千層或許更多。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  那為何之前的教科書上會寫神經收集不克不及跨越三層,這就要從神經收集的汗青說起。五十年月有位迷信家叫Marvin Minksy,他是一名生物學家,數學又很好,所以他在研討神經元的時刻就在想能不克不及用數學模子去描繪生物的神經元,是以就設計了感知機。感知機就像一個神經細胞,它能像神經細胞一樣連起來,構成神經收集,就像年夜腦的神經收集。其其實60年月開端的時刻,是有很深的神經收集,但其時經由年夜量試驗發明,不跨越三層的神經收集后果不錯,因而年夜概到80年月時就得出結論:神經收集不宜跨越三層。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  那為何如今這條結論又被顛覆了呢?現實上這條結論是有條件前提的,即在數據量不年夜的情形下,神經收集不宜跨越三層。而從2005年開端,年夜家發明跟著數據增長,深度神經收集的表示優越,所以漸漸走向深度進修。其實這里真正準確的道理是Valiant引理,它可以懂得為“模子龐雜度(例如專家體系的規矩數目)要和數據量成反比”。數據量越年夜,模子就越龐雜。上個世紀由于數據量小,所以神經收集的層數不克不及太深,如今數據量年夜,所以神經收集的層數就要做深。這也說明了為何其時教科書會有如許的結論,而如今跟著深度進修的風行,年夜家曾經不再會以為這句話是對的。

  成績二:決議計劃樹不克不及跨越五層

  假如有同窗看教科書上引見決議計劃樹,會有一個說法就是決議計劃樹要減枝,決議計劃樹假如不減枝后果欠好。還有教科書會告知決議計劃樹不克不及跨越五層,跨越五層的決議計劃樹后果欠好。這個結論和神經收集結論一樣,神經收集不克不及跨越三層也是由于其時數據量不年夜,決議計劃樹不克不及跨越五層也是由于上個世紀數據量不敷年夜,二叉樹決議計劃樹假如深度是N的話,龐雜度年夜概是2的N次方,所以不跨越五層龐雜度也就是三十多。假如數據量到達一百萬的時刻,決議計劃樹能到達十幾二十層的范圍,假如數據量到了一百億的時刻決議計劃樹能夠要到三十幾層。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  如今,我們強調更深的決議計劃樹,這能夠和教科書講的相抵觸。抵觸的緣由是如今全部場景下數據質變年夜,所以要做更深的決議計劃樹。固然,我們也紛歧定在一切的場景里都有很年夜數據量,假如碰到了數據量小的場景,我們也要曉得決議計劃樹是要做淺的。最基本來講,就是看有若干數據,能寫出多龐雜的模子。

  成績三:特點選擇不克不及跨越一千個

  有些教科書會零丁開個章節來說特點選擇,告知我們在拿到數據后,要先刪除一些不主要的特點,乃至有的教科書注明,特點數不克不及跨越一千,不然模子后果欠好。但其實這個結論也是有條件前提的,假如數據量少,是不克不及夠充足支持許多特點,但假如數據量年夜,結論就會紛歧樣。這也就是為何我們做LogisticRegression會有幾十億個特點,而不是限制在幾百個特點。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  曩昔傳統數據剖析軟件,如SAS,之所以只要幾百個特點,是由于它出生于上世紀七十年月,它面對的成績是在詳細場景下沒有太多可用數據,能夠只要幾百上千個樣本。是以,在設計體系時,就只須要針對幾百個特點設計,不須要幾十億個特點,由于上千個樣本沒法支持幾十億特點。但如今,跟著數據量增長,特點量也須要增長。所以我以為,在年夜數據情況下,全部機械進修教科書里關于特點選擇的章節曾經落伍于時期,須要依據新的情勢從新撰寫;固然在小數據場景下,它依然具有價值。

  成績四:集成進修取得最勤學習后果

  第四個叫做集成進修,這個技巧在各類數據發掘競賽中特殊有效,好比近年KDD CUP的冠軍簡直都是采取集成進修。甚么是集成進修?它不是做一個模子,而是做許多(例如一千個)紛歧樣的模子,讓每一個模子投票,投票的成果就是終究的成果。假如不斟酌資本限制情形,這類形式是后果最好的。這也是為何KDDCUP選手們都選擇集成進修的方法,為了尋求最初后果,不在意投入若干,在這類前提下,集成進修就是最好的方法。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  但在實際中,企業做機械進修尋求的不是用無窮的資本做盡量好的后果,而是若何充足應用無限資本,取得最好后果。假定企業只要兩臺機械,若何用這兩臺機械取得最好的后果呢?假如采取集成進修,用兩臺機械跑五個模子,就要把兩臺機械分紅五份,每一個模子只能用0.4臺機械去跑,是以跑的數據量就無限。那假如換種方法,不消集成進修,就用一個模子去跑,就可以跑5倍的數據。平日5倍的數據量能比集成進修有更好的后果。在工業界比擬少會運用集成進修,重要是由于工業界絕年夜多半的場景都是資本受限,資本受限時最好的方法是想方法放出來更多的數據。集成進修由于跑更多的模子招致只能放更少的數據,平日這類后果都邑變差。

  成績五:正樣本和負樣本平衡采樣到1:1

  第五個叫做平衡采樣,絕年夜多半的教科書都邑講到。它是指假如我們練習一個模子,正樣本和負樣本很不屈均,好比在正樣本和負樣本1:100的情形下,就須要對正、負樣本做平衡采樣,把它釀成1:1的比例,如許才是最好的。但其實這個結論紛歧定對,由于統計進修里最基本的一條道理就是練習場景和測試場景的散布要一樣,所以這個結論只在一個場景下成立,那就是應用模子的場景中正、負樣本是1:1,那這個結論就是對的。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  準確的做法是,運用場景是1:100,那練習聚集最好也是1:100。平衡采樣紛歧建都是對的,多半情形下不采樣反而才是準確的。由于年夜多時刻,我們直接把練習聚集和測試聚集做隨機拆分,或許依照時光拆分,兩者的散布就是分歧的,誰人時刻不采樣是最好的。固然有時刻,我們也會發明做負樣本采樣會有更好的后果,好比范式在為某股分制銀行卡中間做生意業務反訛詐時,就做了負樣本采樣,那是由于當我們把一切樣本都放出來后,發明盤算資本不敷,所以只能做采樣。正樣本與負樣本年夜概是1:1000或許1:10000,假如對正樣本做采樣,喪失信息量會比擬年夜,所以我們選擇對負樣本采樣,好比做1:1000的采樣,再把負樣本以1000的加權加歸去。在資本受限時這么做,會盡量下降信息量的喪失。但假如僅僅是為了把它做平衡而做負樣本采樣,平日是紕謬的。和后面幾個成績分歧,負樣本采樣其實不是因情況轉變而結論變更,現實上就不該該做負樣本采樣。

  成績六:穿插驗證是最好的測試辦法

  下一個成績叫做穿插驗證,是指假定要將一份數據拆分紅練習集和測試集,這個時刻怎樣評價出它的誤差?穿插驗證是把聚集拆成五份,取四份做練習集、一份做測試集,而且每次選擇分歧的那一份做測試級,最初測出五個成果再做均勻,這被以為是最好的測試辦法。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  穿插驗證確切是一個還不錯的驗證的辦法,但在實際運用場景下,它常常不是最適合的一種方法。由于平日來講,我們用機械進修做的工作是猜測,絕年夜多半情形下我們是用如今或許曩昔的數據做一個模子來猜測將來。而拿曩昔的練習猜測將來的最好測試辦法不是穿插驗證,由于穿插驗證是依照生意業務或許按人拆分的。最適合的是辦法實際上是依照時光拆分,好比評價的時刻拔取一個時光點,用在這個時光點之前的數據做練習,猜測在這個時光點以后的,這是最接近真實運用場景的評價成果。

  穿插驗證能夠只實用于和時光屬性不相干的場景,好比人臉辨認,但我們面對更多的運用場景,不管是風險、營銷或許反訛詐,都是在用曩昔的數據練習后猜測將來,最適合如許場景的評價辦法不是穿插驗證,而是依照時光去拆分。

  成績七:過擬合必定欠好

  最初一個叫過擬合,這也是一個評論辯論特殊多的話題。之前,平日我們會說假如模子做的太龐雜了就會過擬合,如PPT左邊所示,而最好的方法應當是圖中中央的狀況——擬合的方才好,圖中右邊的模子underfitting,沒有練習完整。但如今來看,年夜多半的現實場景都是在拿曩昔猜測將來,過擬合紛歧定是欠好的,照樣要看詳細場景。假如這個場景是曩昔見過的情形比擬多,新的情形比擬少的時刻,過擬合反卻是好的。

實際工作總與理論相矛盾?詳解機器學習教科書七大經典問題

  打個比喻,假如期末測驗題就是日常平凡的功課,那我們把日常平凡的功課都背一遍就是最好的方法,而這就是過擬合。假如期末測驗不考日常平凡功課,滿是新題,那末這個時刻就不克不及只背日常平凡的功課,還要充足懂得這門課的常識,控制若何推懂得題的技能。所以過擬合利害與否,完整取決于場景。假如運用場景依附逝世記硬背就可以弄定,那過擬合反卻是好的。現實上在我們的設計外面,許多時刻我們會偏向于往過擬合靠一點,能夠做新題會差一點,然則關于逝世記硬背的送分題會做的異常好。在拿曩昔猜測將來的運用場景下,有的時刻過擬合紛歧定欠好,要依據現實情形來看。

  明天與年夜家分享了教科書中的幾個經典成績。其其實現實工業運用中,我們不會完整依照教科書中的方法去理論。我們也會設計很深的模子、很深的決議計劃樹、許多的特點、會過擬合一點,我們更強調按時光拆分,不強調平衡采樣。面臨教科書中的結論,我們須要學會的是依據現實場景做出響應靈巧斷定。

只要你關注機器人,你就無法錯過睿慕課

 
 
 
[ 行業資訊搜索 ]  [ 加入收藏 ]  [ 告訴好友 ]  [ 打印本文 ]  [ 關閉窗口 ]
 
 
 
主站蜘蛛池模板: 承插管件_不锈钢承插管件_锻钢高压管件-温州科正阀门管件有限公司 | 多物理场仿真软件_电磁仿真软件_EDA多物理场仿真软件 - 裕兴木兰 | 防弹玻璃厂家_防爆炸玻璃_电磁屏蔽玻璃-四川大硅特玻科技有限公司 | 交流伺服电机|直流伺服|伺服驱动器|伺服电机-深圳市华科星电气有限公司 | 深圳市人通智能科技有限公司| 光谱仪_积分球_分布光度计_灯具检测生产厂家_杭州松朗光电【官网】 | 福兰德PVC地板|PVC塑胶地板|PVC运动地板|PVC商用地板-中国弹性地板系统专业解决方案领先供应商! 福建成考网-福建成人高考网 | 选矿设备,选矿生产线,选矿工艺,选矿技术-昆明昆重矿山机械 | 进口试验机价格-进口生物材料试验机-西安卡夫曼测控技术有限公司 | 东莞动力锂电池保护板_BMS智能软件保护板_锂电池主动均衡保护板-东莞市倡芯电子科技有限公司 | 选宝石船-陆地水上开采「精选」色选机械设备-青州冠诚重工机械有限公司 | 杭州用友|用友软件|用友财务软件|用友ERP系统--杭州协友软件官网 | 上海恒驭仪器有限公司-实验室平板硫化机-小型平板硫化机-全自动平板硫化机 | 钢结构-钢结构厂房-钢结构工程[江苏海逵钢构厂] | 深圳富泰鑫五金_五金冲压件加工_五金配件加工_精密零件加工厂 | 智能监控-安防监控-监控系统安装-弱电工程公司_成都万全电子 | 便携式高压氧舱-微压氧舱-核生化洗消系统-公众洗消站-洗消帐篷-北京利盟救援 | 湖南印刷厂|长沙印刷公司|画册印刷|挂历印刷|台历印刷|杂志印刷-乐成印刷 | 首页-瓜尔胶系列-化工单体系列-油田压裂助剂-瓜尔胶厂家-山东广浦生物科技有限公司 | 雨燕360体育免费直播_雨燕360免费NBA直播_NBA篮球高清直播无插件-雨燕360体育直播 | 无锡装修装潢公司,口碑好的装饰装修公司-无锡索美装饰设计工程有限公司 | 广州展台特装搭建商|特装展位设计搭建|展会特装搭建|特装展台制作设计|展览特装公司 | 骨密度检测仪_骨密度分析仪_骨密度仪_动脉硬化检测仪专业生产厂家【品源医疗】 | 超声波焊接机_超音波熔接机_超声波塑焊机十大品牌_塑料超声波焊接设备厂家 | 众品地板网-地板品牌招商_地板装修设计_地板门户的首选网络媒体。 | 选宝石船-陆地水上开采「精选」色选机械设备-青州冠诚重工机械有限公司 | 济南轻型钢结构/济南铁艺护栏/济南铁艺大门-济南燕翔铁艺制品有限公司 | BOE画框屏-触摸一体机-触控查询一体机-触摸屏一体机价格-厂家直销-触发电子 | 四合院设计_四合院装修_四合院会所设计-四合院古建设计与建造中心1 | 精密五金加工厂-CNC数控车床加工_冲压件|蜗杆|螺杆加工「新锦泰」 | 一航网络-软件测评官网 | 武汉高温老化房,恒温恒湿试验箱,冷热冲击试验箱-武汉安德信检测设备有限公司 | 广州/东莞小字符喷码机-热转印打码机-喷码机厂家-广州瑞润科技 | 开锐教育-学历提升-职称评定-职业资格培训-积分入户 | 考试试题_试卷及答案_诗词单词成语 - 优易学| 台湾HIWIN上银直线模组|导轨滑块|TBI滚珠丝杆丝杠-深圳汉工 | 东莞精密模具加工,精密连接器模具零件,自動機零件,冶工具加工-益久精密 | 固诺家居-全屋定制十大品牌_整体衣柜木门橱柜招商加盟 | 合景一建-无尘车间设计施工_食品医药洁净车间工程装修总承包公司 | 超声波成孔成槽质量检测仪-压浆机-桥梁预应力智能张拉设备-上海硕冠检测设备有限公司 | 垃圾处理设备_餐厨垃圾处理设备_厨余垃圾处理设备_果蔬垃圾处理设备-深圳市三盛环保科技有限公司 |