中文字幕一区二区人妻电影,亚洲av无码一区二区乱子伦as ,亚洲精品无码永久在线观看,亚洲成aⅴ人片久青草影院按摩,亚洲黑人巨大videos

快速適應(yīng)測(cè)試時(shí)間分布變化

發(fā)布于:2020-12-19 18:38:42

0

119

0

機(jī)器學(xué)習(xí)模型 部署 測(cè)試

想象一下,您正在構(gòu)建用于手寫筆跡的下一代機(jī)器學(xué)習(xí)模型。根據(jù)產(chǎn)品的先前迭代,您已經(jīng)確定了此部署的主要挑戰(zhàn):部署后,新的最終用戶通常具有不同且看不見的筆跡樣式,從而導(dǎo)致發(fā)行轉(zhuǎn)移。解決此難題的一種方法是學(xué)習(xí)一種自適應(yīng)模型,該模型可以隨著時(shí)間的推移專門化并適應(yīng)每個(gè)用戶的筆跡樣式。該解決方案看似很有希望,但必須與對(duì)易用性的關(guān)注進(jìn)行權(quán)衡:要求用戶向模型提供反饋可能很麻煩并且阻礙了采用。而是可以學(xué)習(xí)一個(gè)無(wú)需標(biāo)簽即可適應(yīng)新用戶的模型嗎?

在許多情況下,包括此示例,答案是“是”??紤]下圖中放大顯示的歧義示例。此字符是帶循環(huán)的“ 2”還是雙層“ a”?對(duì)于關(guān)注訓(xùn)練數(shù)據(jù)偏差的非自適應(yīng)模型,合理的預(yù)測(cè)將為“ 2”。但是,即使沒有標(biāo)簽,我們也可以從用戶的其他示例中提取有用的信息:例如,一個(gè)自適應(yīng)模型可以觀察到該用戶寫了“ 2”且沒有循環(huán),并得出結(jié)論認(rèn)為該字符更有可能是“ a”。 ”。


處理因?qū)⒛P筒渴鸬叫掠脩舳a(chǎn)生的分布變化,是無(wú)標(biāo)簽適應(yīng)的重要激勵(lì)示例。但是,這遠(yuǎn)非唯一的例子。在瞬息萬(wàn)變的世界中,自動(dòng)駕駛汽車需要適應(yīng)新的天氣條件和位置,圖像分類器需要適應(yīng)具有不同內(nèi)在特性的新相機(jī),推薦系統(tǒng)則需要適應(yīng)用戶不斷變化的偏好。通過從測(cè)試示例的分布中推斷出信息,人類已經(jīng)證明了無(wú)需標(biāo)簽就能適應(yīng)的能力。我們是否可以開發(fā)允許機(jī)器學(xué)習(xí)模型執(zhí)行相同操作的方法?

這個(gè)問題已引起研究人員的越來越多的關(guān)注,最近的許多工作提出了無(wú)標(biāo)記的測(cè)試時(shí)間適應(yīng)方法。在這篇文章中,我將調(diào)查這些作品以及其他處理分配偏移的杰出框架。有了這個(gè)大背景下,我會(huì)再討論我們最近的工作(見文章在這里和代碼在這里),其中我們提出了一個(gè)問題,制定我們長(zhǎng)期適應(yīng)性風(fēng)險(xiǎn)最小化,或ARM。

進(jìn)入分配轉(zhuǎn)移

機(jī)器學(xué)習(xí)中的絕大多數(shù)工作都遵循經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)的規(guī)范框架。ERM方法假定沒有分布偏移,因此測(cè)試分布與訓(xùn)練分布完全匹配。該假設(shè)簡(jiǎn)化了強(qiáng)大的機(jī)器學(xué)習(xí)方法的開發(fā)和分析,但是,如上所述,在現(xiàn)實(shí)世界的應(yīng)用程序中通常會(huì)違反這一假設(shè)。為了超越ERM并學(xué)習(xí)面對(duì)分銷變化而泛化的模型,我們必須引入其他假設(shè)。但是,我們必須謹(jǐn)慎選擇這些假設(shè),以使它們?nèi)匀皇乾F(xiàn)實(shí)的并且廣泛適用。

我們?nèi)绾伪3脂F(xiàn)實(shí)性和適用性?答案之一是根據(jù)機(jī)器學(xué)習(xí)系統(tǒng)在現(xiàn)實(shí)世界中面臨的條件對(duì)假設(shè)進(jìn)行建模。例如,在ERM設(shè)置中,一次在每個(gè)測(cè)試點(diǎn)上評(píng)估模型,但在現(xiàn)實(shí)世界中,這些測(cè)試點(diǎn)通??梢皂樞蚧蚺渴褂谩@?,對(duì)于筆跡轉(zhuǎn)錄,我們可以想象從新用戶那里收集整個(gè)句子和段落。如果存在分布偏移,則即使沒有標(biāo)簽,也可以觀察多個(gè)測(cè)試點(diǎn)來推斷測(cè)試分布或以其他方式使模型適應(yīng)此新分布。

使用此假設(shè)的許多最新方法可以歸類為測(cè)試時(shí)間適應(yīng)性,包括批處理歸一化,標(biāo)簽偏移估計(jì),旋轉(zhuǎn)預(yù)測(cè),熵最小化等。通常,這些方法會(huì)產(chǎn)生強(qiáng)大的歸納偏置,從而可以進(jìn)行有用的調(diào)整。例如,旋轉(zhuǎn)預(yù)測(cè)與許多圖像分類任務(wù)完全吻合。但是這些方法通常要么建議啟發(fā)式訓(xùn)練程序,要么根本不考慮訓(xùn)練程序,而是依靠預(yù)先訓(xùn)練的模型。1個(gè) 這就引出了一個(gè)問題:可以通過改進(jìn)訓(xùn)練來進(jìn)一步提高測(cè)試時(shí)間的適應(yīng)性,從而使模型可以更好地利用適應(yīng)性程序嗎?

我們可以通過研究其他重要的框架來處理分配變動(dòng),尤其是這些框架所做的假設(shè),來深入了解這個(gè)問題。在實(shí)際應(yīng)用中,訓(xùn)練數(shù)據(jù)通常不僅僅由輸入標(biāo)簽對(duì)組成;而是由輸入標(biāo)簽對(duì)組成。相反,還有與每個(gè)示例關(guān)聯(lián)的其他元數(shù)據(jù),例如時(shí)間和位置,或手寫示例中的特定用戶。這些元數(shù)據(jù)可用于將訓(xùn)練數(shù)據(jù)分組,2在許多框架中,一個(gè)普遍的假設(shè)是測(cè)試時(shí)間分布的變化代表新的組分布或新的組。這個(gè)假設(shè)仍然允許各種各樣的實(shí)際分布變化,并推動(dòng)了許多實(shí)際方法的發(fā)展。

例如,領(lǐng)域適應(yīng)方法通常假定訪問兩個(gè)訓(xùn)練組:源數(shù)據(jù)和目標(biāo)數(shù)據(jù),后者是從測(cè)試分布中提取的。因此,這些方法例如通過重要性 加權(quán)或?qū)W習(xí)不變 表示來增強(qiáng)訓(xùn)練以集中于目標(biāo)分布。為方法 分布式地穩(wěn)健 優(yōu)化域名 推廣不要直接假設(shè)訪問測(cè)試分布中的數(shù)據(jù),而是使用從多個(gè)培訓(xùn)組中提取的數(shù)據(jù)來學(xué)習(xí)一個(gè)模型,該模型可以在測(cè)試時(shí)推廣到新的組(或新的組分布)。因此,這些先前的工作主要集中在訓(xùn)練過程上,并且通常在測(cè)試時(shí)不適應(yīng)(盡管名稱為“領(lǐng)域適應(yīng)”)。

結(jié)合訓(xùn)練和測(cè)試假設(shè)

先前的分配變動(dòng)框架假設(shè)采用培訓(xùn)小組或測(cè)試批次,但是我們不知道有任何使用這兩種假設(shè)的先前工作。在我們的工作中,我們證明正是這種結(jié)合使我們能夠通過模擬訓(xùn)練時(shí)的偏移和適應(yīng)過程來學(xué)習(xí)適應(yīng)測(cè)試時(shí)間分布的偏移。通過這種方式,我們的框架可以理解為元學(xué)習(xí)框架,并且我們將感興趣的讀者推薦給這篇博客,以獲取有關(guān)元學(xué)習(xí)的詳細(xì)概述。

自適應(yīng)風(fēng)險(xiǎn)最小化

我們的工作提出了自適應(yīng)風(fēng)險(xiǎn)最小化(ARM),這是一個(gè)問題設(shè)置和目標(biāo),在培訓(xùn)時(shí)同時(shí)使用兩組,在測(cè)試時(shí)進(jìn)行批量處理。通過元學(xué)習(xí)的角度,這種綜合為如何訓(xùn)練測(cè)試時(shí)間適應(yīng)性問題提供了一個(gè)通用的原則性答案。特別地,我們使用訓(xùn)練組啟用的模擬分布偏移對(duì)模型進(jìn)行元訓(xùn)練,以使其表現(xiàn)出強(qiáng)大的自適應(yīng)能力每個(gè)班次的表現(xiàn)。因此,該模型直接學(xué)習(xí)如何最好地利用適應(yīng)過程,然后在測(cè)試時(shí)以完全相同的方式執(zhí)行該過程。如果我們能夠確定可能發(fā)生哪些測(cè)試分布變化,例如查看新的最終用戶的數(shù)據(jù),那么我們可以更好地構(gòu)建模擬的訓(xùn)練變化,例如僅從一個(gè)特定的訓(xùn)練用戶那里采樣數(shù)據(jù)。


上圖顯示了用于優(yōu)化ARM目標(biāo)的培訓(xùn)過程。從訓(xùn)練數(shù)據(jù)中,我們對(duì)模擬不同群體分布變化的不同批次進(jìn)行采樣。這樣,適應(yīng)模型就有機(jī)會(huì)使用未標(biāo)記的示例來適應(yīng)模型參數(shù)。這允許我們通過直接在模型和適應(yīng)模型上執(zhí)行梯度更新來對(duì)模型進(jìn)行元訓(xùn)練,以適應(yīng)后的性能。


我們從上下文元學(xué)習(xí)(左)和基于梯度的元學(xué)習(xí)(右)中汲取靈感,以便為ARM設(shè)計(jì)方法。對(duì)于上下文元學(xué)習(xí),我們研究了屬于此類別的兩種不同方法。這些方法在我們的論文中有詳細(xì)描述。

與元學(xué)習(xí)的聯(lián)系是ARM框架的主要優(yōu)勢(shì)之一,因?yàn)樵谠O(shè)計(jì)解決ARM的方法時(shí)我們并非從頭開始。特別是在我們的工作中,我們從上下文元學(xué)習(xí)和基于梯度的元學(xué)習(xí)中汲取了靈感,以開發(fā)出三種解決ARM的方法,我們將其命名為ARM-CML,ARM-BN和ARM-LL。我們?cè)谶@里省略了這些方法的詳細(xì)信息,但是它們?cè)谏蠄D中進(jìn)行了說明,并在本文中進(jìn)行了全面描述。

我們構(gòu)建的方法的多樣性證明了ARM問題表述的多功能性和普遍性。但是我們實(shí)際上使用這些方法觀察到了經(jīng)驗(yàn)收益嗎?接下來我們調(diào)查這個(gè)問題。

實(shí)驗(yàn)

在我們的實(shí)驗(yàn)中,我們首先對(duì)四種顯示組分布偏移的不同圖像分類基準(zhǔn)進(jìn)行了與各種基準(zhǔn),先前方法和消融相比的ARM方法的全面研究。我們的文章提供了基準(zhǔn)和比較的完整詳細(xì)信息。


我們發(fā)現(xiàn),與以前的方法相比,ARM方法憑經(jīng)驗(yàn)得出的結(jié)果是,各組的最壞情況(WC)和平均(Avg)性能都更好,表明最終訓(xùn)練模型的魯棒性和性能都更好。

在我們的主要研究中,我們發(fā)現(xiàn),與許多先前的方法以及其他基準(zhǔn)和消減方法相比,ARM方法在最壞情況和各組的平均測(cè)試性能方面總體上表現(xiàn)更好。ARM-BN的最簡(jiǎn)單方法(只需幾行附加代碼即可實(shí)現(xiàn))通常效果最佳。這從經(jīng)驗(yàn)上顯示了元學(xué)習(xí)的好處,因?yàn)榭梢詫?duì)模型進(jìn)行元訓(xùn)練以充分利用自適應(yīng)程序。


我們還進(jìn)行了一些定性分析,其中我們調(diào)查了與開頭描述的激勵(lì)示例相似的測(cè)試情況,該用戶編寫了雙層a。我們憑經(jīng)驗(yàn)發(fā)現(xiàn),在給定足夠多的用戶手寫示例(包括其他“ a”和“ 2”)的情況下,使用ARM方法訓(xùn)練的模型實(shí)際上確實(shí)可以成功地適應(yīng)和預(yù)測(cè)“ a”。因此,這證實(shí)了我們最初的假設(shè):訓(xùn)練自適應(yīng)模型是應(yīng)對(duì)分布偏移的有效方法。

我們認(rèn)為,從一開始的激勵(lì)實(shí)例和本文的實(shí)證結(jié)果就令人信服地主張進(jìn)一步研究自適應(yīng)模型的通用技術(shù)。我們提出了對(duì)這些模型進(jìn)行元訓(xùn)練以更好地利用它們的適應(yīng)能力的通用方案,但是仍然存在許多懸而未決的問題,例如自己設(shè)計(jì)更好的適應(yīng)程序。這一廣泛的研究方向?qū)τ跈C(jī)器學(xué)習(xí)模型在復(fù)雜的實(shí)際環(huán)境中真正實(shí)現(xiàn)其潛力至關(guān)重要。