pos機(jī)基準(zhǔn)信息

 新聞資訊2  |   2023-07-12 09:44  |  投稿人:pos機(jī)之家

網(wǎng)上有很多關(guān)于pos機(jī)基準(zhǔn)信息,用于評(píng)估跨語(yǔ)言泛化的大規(guī)模多語(yǔ)言多任務(wù)基準(zhǔn)的知識(shí),也有很多人為大家解答關(guān)于pos機(jī)基準(zhǔn)信息的問(wèn)題,今天pos機(jī)之家(m.nxzs9ef.cn)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來(lái)看下吧!

本文目錄一覽:

1、pos機(jī)基準(zhǔn)信息

pos機(jī)基準(zhǔn)信息

自然語(yǔ)言處理 (NLP) 的主要挑戰(zhàn)之一是構(gòu)建不僅可以使用英語(yǔ)而且可以使用世界上所有約 6,900 種語(yǔ)言的系統(tǒng)。幸運(yùn)的是,雖然世界上大多數(shù)語(yǔ)言都是數(shù)據(jù)稀疏的,并且沒(méi)有足夠的可用數(shù)據(jù)來(lái)自行訓(xùn)練強(qiáng)大的模型,但許多語(yǔ)言確實(shí)共享大量的底層結(jié)構(gòu)。在詞匯層面上,語(yǔ)言往往有同源詞——例如,英語(yǔ)中的“ desk”和德語(yǔ)中的“ Tisch”都來(lái)自拉丁語(yǔ)“ discus”. 同樣,許多語(yǔ)言也以類似的方式標(biāo)記語(yǔ)義角色,例如在漢語(yǔ)和土耳其語(yǔ)中都使用后置詞來(lái)標(biāo)記時(shí)空關(guān)系。

在 NLP 中,有許多方法在訓(xùn)練中利用多種語(yǔ)言的共享結(jié)構(gòu)來(lái)克服數(shù)據(jù)稀疏問(wèn)題。從歷史上看,這些方法中的大多數(shù)都專注于以多種語(yǔ)言執(zhí)行特定任務(wù)。在過(guò)去的幾年里,在深度學(xué)習(xí)進(jìn)步的推動(dòng)下,嘗試學(xué)習(xí)通用多語(yǔ)言表示的方法數(shù)量有所增加(例如,mBERT、XLM、XLM-R),旨在捕獲跨語(yǔ)言共享的知識(shí),并且對(duì)許多任務(wù)有用。然而,在實(shí)踐中,對(duì)此類方法的評(píng)估主要集中在一小部分任務(wù)和語(yǔ)言相似的語(yǔ)言上。

為了鼓勵(lì)對(duì)多語(yǔ)言學(xué)習(xí)的更多研究,我們引入了“ XTREME:用于評(píng)估跨語(yǔ)言泛化的大規(guī)模多語(yǔ)言多任務(wù)基準(zhǔn)”,它涵蓋了 40 種不同類型的語(yǔ)言(跨越 12 個(gè)語(yǔ)系),并包括 9 個(gè)需要對(duì)不同語(yǔ)言進(jìn)行推理的任務(wù)。語(yǔ)法或語(yǔ)義級(jí)別。選擇 XTREME 中的語(yǔ)言是為了最大限度地提高語(yǔ)言多樣性、現(xiàn)有任務(wù)的覆蓋范圍以及訓(xùn)練數(shù)據(jù)的可用性。其中有許多未被充分研究的語(yǔ)言,例如達(dá)羅毗荼語(yǔ)泰米爾語(yǔ)(在印度南部、斯里蘭卡和新加坡使用)、泰盧固語(yǔ)和馬拉雅拉姆語(yǔ)(主要在印度南部使用)以及尼日爾-剛果語(yǔ)斯瓦希里語(yǔ)和約魯巴語(yǔ),在非洲使用。代碼和數(shù)據(jù),包括運(yùn)行各種基線的示例,可在此處獲得。

XTREME 任務(wù)和語(yǔ)言

XTREME 中包含的任務(wù)涵蓋了一系列范式,包括句子分類、結(jié)構(gòu)化預(yù)測(cè)、句子檢索和問(wèn)答。因此,為了使模型在 XTREME 基準(zhǔn)測(cè)試中取得成功,他們必須學(xué)習(xí)可推廣到許多標(biāo)準(zhǔn)跨語(yǔ)言遷移設(shè)置的表示。

每個(gè)任務(wù)都涵蓋 40 種語(yǔ)言的一個(gè)子集。為了獲得用于 XTREME 分析的低資源語(yǔ)言的額外數(shù)據(jù),自然語(yǔ)言推理 ( XNLI ) 和問(wèn)答 ( XQuAD ) 這兩個(gè)代表性任務(wù)的測(cè)試集被自動(dòng)從英語(yǔ)翻譯成其余語(yǔ)言。我們表明,使用這些任務(wù)的翻譯測(cè)試集的模型表現(xiàn)出的性能與使用人工標(biāo)記的測(cè)試集所達(dá)到的性能相當(dāng)。

零樣本評(píng)估

要使用 XTREME 評(píng)估性能,必須首先使用鼓勵(lì)跨語(yǔ)言學(xué)習(xí)的目標(biāo)在多語(yǔ)言文本上對(duì)模型進(jìn)行預(yù)訓(xùn)練。然后,他們對(duì)特定于任務(wù)的英語(yǔ)數(shù)據(jù)進(jìn)行微調(diào),因?yàn)橛⒄Z(yǔ)是最有可能獲得標(biāo)記數(shù)據(jù)的語(yǔ)言。然后,XTREME 評(píng)估這些模型的零樣本跨語(yǔ)言傳輸性能,即在沒(méi)有看到特定任務(wù)數(shù)據(jù)的其他語(yǔ)言上。從預(yù)訓(xùn)練到微調(diào)再到零鏡頭轉(zhuǎn)移的三步過(guò)程如下圖所示。

在實(shí)踐中,這種零樣本設(shè)置的好處之一是計(jì)算效率——預(yù)訓(xùn)練模型只需要針對(duì)每個(gè)任務(wù)的英語(yǔ)數(shù)據(jù)進(jìn)行微調(diào),然后就可以直接在其他語(yǔ)言上進(jìn)行評(píng)估。然而,對(duì)于其他語(yǔ)言中可用的標(biāo)記數(shù)據(jù)的任務(wù),我們也比較了對(duì)語(yǔ)言數(shù)據(jù)的微調(diào)。最后,我們通過(guò)獲得所有九個(gè) XTREME 任務(wù)的零樣本分?jǐn)?shù)來(lái)提供綜合分?jǐn)?shù)。

遷移學(xué)習(xí)的測(cè)試平臺(tái)

我們使用幾種最先進(jìn)的預(yù)訓(xùn)練多語(yǔ)言模型進(jìn)行實(shí)驗(yàn),包括:多語(yǔ)言 BERT,流行 BERT 模型的多語(yǔ)言擴(kuò)展;XLM和XLM-R,兩個(gè)更大版本的多語(yǔ)言 BERT,已經(jīng)在更多數(shù)據(jù)上進(jìn)行了訓(xùn)練;以及大規(guī)模多語(yǔ)言機(jī)器翻譯模型M4。這些模型的一個(gè)共同特點(diǎn)是它們已經(jīng)在來(lái)自多種語(yǔ)言的大量數(shù)據(jù)上進(jìn)行了預(yù)訓(xùn)練。對(duì)于我們的實(shí)驗(yàn),我們選擇了這些模型的變體,這些模型在大約 100 種語(yǔ)言上進(jìn)行了預(yù)訓(xùn)練,包括我們基準(zhǔn)測(cè)試的 40 種語(yǔ)言。

我們發(fā)現(xiàn),雖然模型在大多數(shù)現(xiàn)有英語(yǔ)任務(wù)上的表現(xiàn)接近人類,但許多其他語(yǔ)言的表現(xiàn)要低得多。在所有模型中,結(jié)構(gòu)化預(yù)測(cè)和問(wèn)答任務(wù)的英語(yǔ)性能與其余語(yǔ)言的性能之間的差距最大,而結(jié)構(gòu)化預(yù)測(cè)和句子檢索任務(wù)的跨語(yǔ)言結(jié)果分布最大。

為了說(shuō)明起見(jiàn),在下圖中,我們顯示了在所有語(yǔ)言系列中按任務(wù)和語(yǔ)言劃分的零樣本設(shè)置 XLM-R 中性能最佳的模型的性能??缛蝿?wù)的分?jǐn)?shù)不具有可比性,因此主要關(guān)注點(diǎn)應(yīng)該是跨任務(wù)的語(yǔ)言的相對(duì)排名。正如我們所看到的,許多高資源語(yǔ)言,尤其是印歐語(yǔ)系的語(yǔ)言,一直排名靠前。相比之下,該模型在漢藏語(yǔ)、日語(yǔ)、韓語(yǔ)和尼日爾-剛果語(yǔ)等其他語(yǔ)系的許多語(yǔ)言上的性能較低。

總的來(lái)說(shuō),我們做了一些有趣的觀察。

在零樣本設(shè)置中,M4 和 mBERT 在一些較簡(jiǎn)單的任務(wù)上與 XLM-R 競(jìng)爭(zhēng),而后者在特別具有挑戰(zhàn)性的問(wèn)答任務(wù)等方面的表現(xiàn)優(yōu)于它們。例如,在 XQuAD 上,XLM-R 得分為 76.6,而 mBERT 為 64.5,M4 為 64.6,在MLQA和TyDi QA上的分差相似。我們發(fā)現(xiàn)使用機(jī)器翻譯的基線(翻譯訓(xùn)練數(shù)據(jù)或測(cè)試數(shù)據(jù))非常有競(jìng)爭(zhēng)力。在 XNLI 任務(wù)中,mBERT 在零樣本傳輸設(shè)置中得分為 65.4,在使用翻譯訓(xùn)練數(shù)據(jù)時(shí)得分為 74.0。我們觀察到,少樣本設(shè)置(即,在可用時(shí)使用有限數(shù)量的語(yǔ)言標(biāo)記數(shù)據(jù))對(duì)于更簡(jiǎn)單的任務(wù)(例如 NER)尤其具有競(jìng)爭(zhēng)力,但對(duì)于更復(fù)雜的問(wèn)答任務(wù)則不太有用。這可以從 mBERT 的性能中看出,它在 NER 任務(wù)上在小樣本設(shè)置中從 62.2 提高到 88.3,提高了 42%,但對(duì)于問(wèn)答任務(wù)(TyDi QA),僅提高了 25%(59.7 到 74.5 )??傮w而言,在所有模型和設(shè)置中,英語(yǔ)和其他語(yǔ)言的表現(xiàn)之間仍然存在很大差距,這表明跨語(yǔ)言遷移的研究潛力很大??缯Z(yǔ)言遷移分析

與之前關(guān)于深度模型泛化能力的觀察結(jié)果類似,我們觀察到如果語(yǔ)言有更多的預(yù)訓(xùn)練數(shù)據(jù),例如 mBERT,與 XLM-R 相比,結(jié)果會(huì)有所改善,XLM-R 具有更多的預(yù)訓(xùn)練數(shù)據(jù). 然而,我們發(fā)現(xiàn)這種相關(guān)性不適用于結(jié)構(gòu)化預(yù)測(cè)任務(wù)、詞性標(biāo)注(POS) 和命名實(shí)體識(shí)別(NER),這表明當(dāng)前的深度預(yù)訓(xùn)練模型無(wú)法充分利用預(yù)訓(xùn)練模型。 - 訓(xùn)練數(shù)據(jù)轉(zhuǎn)移到這樣的句法任務(wù)。我們還發(fā)現(xiàn)模型難以轉(zhuǎn)移到非拉丁文字。這在 POS 任務(wù)中很明顯,mBERT 在西班牙語(yǔ)上實(shí)現(xiàn)了 86.9 的零樣本準(zhǔn)確率,而在日語(yǔ)上僅為 49.2。

對(duì)于自然語(yǔ)言推理任務(wù) XNLI,我們發(fā)現(xiàn)模型在大約 70% 的時(shí)間內(nèi)對(duì)英語(yǔ)的測(cè)試示例和另一種語(yǔ)言的同一示例做出相同的預(yù)測(cè)。半監(jiān)督方法可能有助于鼓勵(lì)改進(jìn)對(duì)示例的預(yù)測(cè)與其不同語(yǔ)言的翻譯之間的一致性。我們還發(fā)現(xiàn),模型難以預(yù)測(cè)在經(jīng)過(guò)微調(diào)的英語(yǔ)訓(xùn)練數(shù)據(jù)中沒(méi)有看到的 POS 標(biāo)簽序列,這突出表明這些模型難以從用于預(yù)訓(xùn)練的大量未標(biāo)記數(shù)據(jù)中學(xué)習(xí)其他語(yǔ)言的語(yǔ)法。 -訓(xùn)練。對(duì)于命名實(shí)體識(shí)別,模型最難預(yù)測(cè)遠(yuǎn)程語(yǔ)言的英語(yǔ)訓(xùn)練數(shù)據(jù)中未出現(xiàn)的實(shí)體——印度尼西亞語(yǔ)和斯瓦希里語(yǔ)的準(zhǔn)確率分別為 58.0 和 66.6,而葡萄牙語(yǔ)和法語(yǔ)的準(zhǔn)確率分別為 82.3 和 80.1。

在多語(yǔ)言遷移學(xué)習(xí)方面取得進(jìn)展

盡管世界上只有 15% 左右的人口會(huì)說(shuō)英語(yǔ),但英語(yǔ)一直是 NLP 最新進(jìn)展的焦點(diǎn)。我們相信,在深度上下文表示的基礎(chǔ)上,我們現(xiàn)在擁有在為世界其他語(yǔ)言提供服務(wù)的系統(tǒng)上取得實(shí)質(zhì)性進(jìn)展的工具。我們希望 XTREME 能夠促進(jìn)多語(yǔ)言遷移學(xué)習(xí)的研究,類似于GLUE和SuperGLUE等基準(zhǔn)如何刺激深度單語(yǔ)模型的發(fā)展,包括BERT、RoBERTa、XLNet、AlBERT等。

以上就是關(guān)于pos機(jī)基準(zhǔn)信息,用于評(píng)估跨語(yǔ)言泛化的大規(guī)模多語(yǔ)言多任務(wù)基準(zhǔn)的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)基準(zhǔn)信息的知識(shí),希望能夠幫助到大家!

轉(zhuǎn)發(fā)請(qǐng)帶上網(wǎng)址:http://m.nxzs9ef.cn/newsone/83502.html

你可能會(huì)喜歡:

版權(quán)聲明:本文內(nèi)容由互聯(lián)網(wǎng)用戶自發(fā)貢獻(xiàn),該文觀點(diǎn)僅代表作者本人。本站僅提供信息存儲(chǔ)空間服務(wù),不擁有所有權(quán),不承擔(dān)相關(guān)法律責(zé)任。如發(fā)現(xiàn)本站有涉嫌抄襲侵權(quán)/違法違規(guī)的內(nèi)容, 請(qǐng)發(fā)送郵件至 babsan@163.com 舉報(bào),一經(jīng)查實(shí),本站將立刻刪除。