網(wǎng)上有很多關(guān)于pos機(jī)如何介紹,自然語(yǔ)言處理宏觀介紹及應(yīng)用的知識(shí),也有很多人為大家解答關(guān)于pos機(jī)如何介紹的問(wèn)題,今天pos機(jī)之家(m.nxzs9ef.cn)為大家整理了關(guān)于這方面的知識(shí),讓我們一起來(lái)看下吧!
本文目錄一覽:
pos機(jī)如何介紹
飛馬網(wǎng)于2019年3月14日邀請(qǐng)到徐勝權(quán)為大家?guī)?lái)自然語(yǔ)言處理方面的相關(guān)內(nèi)容。
現(xiàn)整理如下:
首先我來(lái)做一下自我介紹??赡茉谶€海報(bào)上已經(jīng)看到了我叫徐勝權(quán),是目前是在杭州一家上市公司,主要負(fù)責(zé)自然語(yǔ)言處理和知識(shí)圖譜這一塊的開(kāi)發(fā)工作。首先這個(gè)是我們今天要講的主題,主題是什么?是自然語(yǔ)言處理的介紹及應(yīng)用,因?yàn)槲覀兘裉焱砩蠜](méi)有不會(huì)涉及到太太細(xì)節(jié)的技術(shù)內(nèi)容,主要是從宏觀層面上來(lái),了解一下自然語(yǔ)言處理這一門(mén)學(xué)科,然后從整體上來(lái)了解一下。
首先在講開(kāi)始之前安利一下nlp這一行業(yè)的薪資情況,目前我在這里是隨機(jī)搜的,杭州地區(qū)的,大家可以稍微看一下。然后來(lái)看一下自然語(yǔ)言處理這一行業(yè)的要求,我們可以看到它主要是包括一哪一些內(nèi)容?數(shù)學(xué)。數(shù)學(xué)相關(guān),然后有編程,然后有深度學(xué)習(xí)這一些框架,這一些要求,然后包括像語(yǔ)言學(xué)相關(guān)的知識(shí)。然后看到這張PPT的話是我們今天晚上主要所要講的三點(diǎn)內(nèi)容,第一就是自然語(yǔ)言處理簡(jiǎn)介。第二就是它所涉及的一些方法,一些技術(shù)涉及哪些技術(shù),然后分享一下在nlp方面的一些學(xué)習(xí)方法。然后第三點(diǎn)就是自然語(yǔ)言處理技術(shù)在我們身邊有哪些應(yīng)用?
現(xiàn)在我們來(lái)講第一點(diǎn)就是自然語(yǔ)言處理的簡(jiǎn)介。我們來(lái)看自然語(yǔ)言處理簡(jiǎn)介是我們?cè)趯W(xué)習(xí)一門(mén)新的知識(shí)的話,我們首先一般的流程是什么?一般是知道他是什么,然后是為什么,然后再怎么做是吧?我們首先看一下它是什么?自然語(yǔ)言處理就是指計(jì)算機(jī)對(duì)自然語(yǔ)言的形音義等信息進(jìn)行處理。對(duì),我們的輸入一般是字詞句或者篇章。但是我們?cè)趯?shí)際企業(yè)向應(yīng)用中,句子偏多,篇章級(jí)別的分析較少很少,一般都是短句左右。
所以從簡(jiǎn)單來(lái)講,就是實(shí)現(xiàn)人機(jī)間的信息交流,包括像人機(jī)對(duì)話,這是個(gè)很典型的一個(gè)案例。是吧?我們來(lái)看一下馮志偉。馮志偉這個(gè)人大家可以去百度一下,人,這個(gè)人可以說(shuō)是像中文自然語(yǔ)言處理的鼻祖,他可能是他研究最先開(kāi)始研究這一塊。它解釋為自然語(yǔ)言處理,就是利用計(jì)算機(jī)工具,對(duì)人類(lèi)特有的書(shū)面形式和口頭形式。這里為什么把它分為書(shū)面形式和口頭形式?因?yàn)槲覀冊(cè)谝话銏?chǎng)景下我們處理的數(shù)據(jù)都是比較書(shū)面化的。然后口頭形式是什么?我們?cè)诳陬^形式,就是我們?cè)趯?duì)話系統(tǒng)中有一個(gè)口語(yǔ)理解系統(tǒng),就是口語(yǔ)理解系統(tǒng),比如像我們?cè)趯?duì)話過(guò)程中有一些表達(dá)是非常口語(yǔ)化的,比如像什么吃飯先這一類(lèi)情況。
所以我們要對(duì)這一個(gè)坐在對(duì)話的時(shí)候做一個(gè)特殊的處理。我們?cè)賮?lái)看一下自然語(yǔ)言處理的一些再細(xì)分的話,其實(shí)我一般情況下把自然語(yǔ)言處理分為三部分,第一部分是nlp。對(duì)一些類(lèi)似文本數(shù)據(jù)的一個(gè)預(yù)祝里,包括像分詞,詞性標(biāo)注,這一類(lèi)這類(lèi)情況做一個(gè)預(yù)處理,然后在下一個(gè)層面,自然語(yǔ)言理解NLU對(duì)數(shù)文本數(shù)據(jù)進(jìn)行預(yù)處理之后,對(duì)我們的數(shù)據(jù)進(jìn)行一個(gè)理解的過(guò)程。然后再是自然語(yǔ)言生成,自然語(yǔ)言生成的話,像我們有哪些很一些典型的場(chǎng)景?
有比如像對(duì)話生成,像自動(dòng)生成詩(shī)歌,或者像現(xiàn)在有一個(gè)比較火的應(yīng)用,就是自動(dòng)生成文章。自然語(yǔ)言生成就是指自然語(yǔ)言文本來(lái)表達(dá)給定的來(lái)表達(dá)給定的意圖。自然語(yǔ)言的理解和分析,我們可以把它看作是一個(gè)層次化的過(guò)程,也就是說(shuō)把它分成五個(gè)層次,也就是更好,這樣能夠更好的體現(xiàn)語(yǔ)言語(yǔ)言本身的構(gòu)成。因?yàn)槲覀兿裰形暮陀⒄Z(yǔ)之類(lèi),其他的語(yǔ)言有可能會(huì)有一些不同。中文最大的差別就是中文和英語(yǔ)多一個(gè)分詞的一個(gè)過(guò)程。但是我們分詞有一個(gè)特點(diǎn),就是它會(huì)影響我們,如果分子的準(zhǔn)確率不高的話,它會(huì)影響到我們下一部分的下一部分的操作。
也這樣的話,也就是說(shuō)會(huì)存在一個(gè)plan模板?,F(xiàn)在有像一些任務(wù),包括像秘密幾識(shí)別,關(guān)系抽取這一類(lèi)任務(wù)的話,如果能夠部分詞的話就盡量不分子。所以我們當(dāng)做一些自然語(yǔ)言處理任務(wù)的時(shí)候,想到的第一第一個(gè)想法并不是上來(lái)就進(jìn)行分詞,我們我們把它分成五個(gè)層次,包括語(yǔ)音這一塊我們暫時(shí)不做研究。想可以大家可以自己想一下,包括像我們身邊用的最多的就是像小艾同學(xué)天貓精靈這一類(lèi),它首先是把我們的語(yǔ)音變換成變化成文本語(yǔ)音識(shí)別變化成文本之后再做,對(duì)文本進(jìn)行處理。
這些處理包括哪些?像詞法分析,然后進(jìn)行句法分析,還有在語(yǔ)義層面上的進(jìn)行一些分析,包括像語(yǔ)音層面,我們下面來(lái)做,對(duì)下面這幾個(gè)做一個(gè)講解。
這個(gè)是一個(gè)流程圖。語(yǔ)音分析,主要就是根據(jù)像因?yàn)橐?guī)則從語(yǔ)音中區(qū)分出一個(gè)個(gè)獨(dú)立的因素,再根據(jù)這些抽取出I對(duì)應(yīng)的詞數(shù)或者詞。最簡(jiǎn)單的就是把語(yǔ)音轉(zhuǎn)成文本,最直觀的理解就是然后詞法分析就是找出詞匯的各個(gè)磁術(shù),包括像語(yǔ)言學(xué)的,企業(yè)的信息,通俗的來(lái)講的話就是我們說(shuō)的分詞,包括以后要做的一些詞性標(biāo)注,詞性標(biāo)注,它的作用就是為了以后做句法分析來(lái)用,包括像標(biāo)注它的動(dòng)詞名詞,包括形容詞這一類(lèi)。
我們的詞法分析主要包括哪些內(nèi)容呢?有磁性分詞,詞性標(biāo)注,像還有新詞發(fā)現(xiàn),同義詞處理,還有漢字拼音互換等等,這些漢字和拼音之間的互換在我們的輸入法中是比較常見(jiàn)的111個(gè)場(chǎng)景。然后句法分析是一個(gè)目前是一個(gè)難點(diǎn),它難在哪里呢?主要是我們的句子會(huì)有很多奇異信息,還有還有包括一些像多音字之類(lèi)的。比如我舉一個(gè)例子,像之前網(wǎng)上比較火的一句話就是小龍女跟楊過(guò)說(shuō),比如像其他的小龍女對(duì)周伯通說(shuō),我也想過(guò)過(guò)過(guò)的生活。這個(gè)句子乍一聽(tīng),是不是很拗口?
但是我們?nèi)藶榈膩?lái)理解的話是沒(méi)有關(guān)系的。但是如果要讓技術(shù)會(huì)有很大的難度。比。因?yàn)樗@個(gè)詞過(guò)而過(guò)的生活,想過(guò)兒過(guò)的生活,她很難處理?,F(xiàn)在我們來(lái)看一下,什么是句法分析,句法分析,就是對(duì)句子和短語(yǔ)的結(jié)構(gòu)進(jìn)行分析,其主要的分析方式就是進(jìn)行構(gòu)建分析解析樹(shù),一個(gè)對(duì)句子進(jìn)行一個(gè)樹(shù)形解析,它的目的就是找出詞和短語(yǔ)等相互關(guān)系,以及各自在劇中的作用,以及在I各個(gè)詞匯之間的一個(gè)依存關(guān)系。句法分析,像我們?cè)趶母拍钌蟻?lái)說(shuō)的話,我們可以把它分為一個(gè)叫句法,結(jié)構(gòu)分析和依存關(guān)系分析這兩種。
I從完整性來(lái)完整性上來(lái)區(qū)分的話,句法結(jié)構(gòu)分析就是稱為完全句法分析它是什么意思?就是對(duì)我們輸入我們的一個(gè)跨越位。比如我們?cè)谇芭_(tái)輸入一個(gè)塊為一個(gè)輸入,I輸入一句話,我們對(duì)整句話來(lái)進(jìn)行分析。比如我們?cè)谖覀冇幸粋€(gè)對(duì)話系統(tǒng)的場(chǎng)景,用戶輸入一句話,我想打車(chē)去上海,當(dāng)然這是一個(gè)比較簡(jiǎn)單的句子,我們就對(duì)在輸入的一整個(gè)單詞序列來(lái)判斷其構(gòu)成是否合乎給定的語(yǔ)法結(jié)構(gòu),因?yàn)槲覀冊(cè)贂?huì)給定一個(gè)規(guī)則和一個(gè)詞典規(guī)則是什么?就是類(lèi)似類(lèi)似像名詞,動(dòng)詞名詞,它的一些成分,包括像明不定式,這是一個(gè)。
制定一個(gè)詞典,然后再根據(jù)詞典來(lái)判斷是否合乎句子的句法結(jié)構(gòu)。然后我們這個(gè)句法結(jié)構(gòu)通常一般是用樹(shù)狀數(shù)據(jù)結(jié)構(gòu)樹(shù)狀圖,也就是說(shuō)我剛才有所提到的叫做解析數(shù)據(jù)。法解析順的話,我們目前存在解析數(shù)的生成其實(shí)是不難的。解析書(shū)的生成是不難,但是它有一個(gè)最大的難點(diǎn)是什么?有一個(gè)比較復(fù)雜一點(diǎn)的句子,也就是說(shuō)其一起有歧義問(wèn)題的句子。歧義我們以后等一下再稍微提一下。它會(huì)生成很多個(gè)解析樹(shù),我們要從這很多個(gè)解析書(shū)里面去找出一個(gè)最優(yōu)的最優(yōu)的樹(shù)狀結(jié)構(gòu)出來(lái),提示作為我們的結(jié)果。
目前是最難的是這一點(diǎn),一個(gè)是歧義,歧義問(wèn)題。另外我覺(jué)得還有另外一些問(wèn)題,就是我們等會(huì)可能會(huì)提到知識(shí)圖譜的時(shí)候,等一下再講一下。然后我們?cè)貾PT里面沒(méi)有講的話,句法分析,我們來(lái)把它做一下分類(lèi),就是句法結(jié)構(gòu)分析和依從關(guān)系分析。嗯句法結(jié)構(gòu)分析就可以把它看成是一個(gè)句法的完整完整性分析,一層一層關(guān)系分析,可以把它當(dāng)做是一個(gè)淺層的技法分析,淺層的技法分析,我們等會(huì)再提嗯句法結(jié)構(gòu)分析,也就是這種完整的完整成分分析的話,它主要任務(wù)它是有三點(diǎn)。
當(dāng)然第一點(diǎn)是叫做判斷,我們輸入的字符串,也就是我們輸入的這個(gè)文本是何種語(yǔ)言。這個(gè)的話我們?cè)谝话闱闆r下這種需要處理的,因?yàn)槲覀冇械臅r(shí)候有一些在大部分場(chǎng)景,它默認(rèn)情況下都是中文,但是我們?cè)趯?duì)話系統(tǒng)的場(chǎng)景中,對(duì)這一個(gè)的話可能是但是這個(gè)判斷必不可少。因?yàn)槲覀冇械臅r(shí)候像對(duì)話口語(yǔ)會(huì)出現(xiàn)中文和英文夾雜著的這種情況,比如像說(shuō)OK之類(lèi),就還有一些表達(dá)的話,可能就是類(lèi)似像中文和英文都有。你答我電話就OK了,這種情況,我們可能要做一些特殊的處理。
還有一種場(chǎng)景,比如像早上打招呼,嗯甲看到乙說(shuō)你好,然后以回復(fù)說(shuō)hello這種情況也是一種場(chǎng)景。然后第二種,二第二個(gè)任務(wù)就是消除輸入句子中詞法和結(jié)構(gòu)等方面的歧義,簡(jiǎn)單來(lái)說(shuō)就是叫排氣工作。我們主要的奇異像有一些附著歧義,結(jié)構(gòu)歧義等等。比如像我們有一些場(chǎng)景叫做什么呢?是O的man,and woman,是吧?這種這種理解的話,很容易可以看作是像比如老人,老年人和老年的女人。如果她這種額可以指O的man和woman,然后也可以只是說(shuō)目前在我看來(lái)提議問(wèn)題是是一個(gè)最大也是最難處理的一個(gè)問(wèn)題。
如果把棋一牌其處理好了,自然語(yǔ)言處理這一塊的研究會(huì)是有一個(gè)質(zhì)的飛躍。然后第三個(gè)就是像分析,輸入的句子的內(nèi)部結(jié)構(gòu),比如像成分構(gòu)成上下文關(guān)系,這個(gè)東西我應(yīng)該等一下講一個(gè)我們這一個(gè)架構(gòu)圖,等一下講一下。就把分析。包括像我們句法分析的話,會(huì)有什么像形式化的語(yǔ)法,形式化語(yǔ)法之后,發(fā)展有概率上下文無(wú)關(guān)法,包括像喬姆斯基范式之類(lèi)這一塊,我忘了把我把下一張PPT發(fā)出來(lái)了,但是剛剛講到句法分析,還有一個(gè)淺層缺乏分析沒(méi)講到,就是依存關(guān)系分析,依存關(guān)系分析為什么叫依存關(guān)系?因?yàn)樗鋵?shí)我們可以把它稱為是叫做一個(gè)叫局部分析或者淺層分析。
它只淺層的句法分析,它是一個(gè)他主要的任務(wù)就是叫做識(shí)別,一個(gè)叫基本名詞短語(yǔ)叫做被cm P它是指什么叫基本名詞短語(yǔ),就是指一個(gè)較簡(jiǎn)單的非嵌套的名詞短語(yǔ),它不含有其它子短語(yǔ)的一個(gè)短語(yǔ)叫基本名詞短語(yǔ)。所以像我們有一個(gè)子任務(wù),叫做產(chǎn)品,創(chuàng)新識(shí)別就是叫愉快識(shí)別,它可以把它歸類(lèi)為向淺層句法分析這一塊,切我們的淺層句法,分析可以分為兩塊,一個(gè)就是愉快,就是我剛剛所提到的產(chǎn)品,創(chuàng)新識(shí)別,創(chuàng)新識(shí)別。我們有一個(gè)方法,就是基于序列標(biāo)注,序列標(biāo)注的思想,序列標(biāo)注,比如像我們的內(nèi)媒體識(shí)別,實(shí)體識(shí)別這一塊。
實(shí)體識(shí)別是等一下,PPT里面有一個(gè)有一塊內(nèi)容叫知識(shí)抽取,知識(shí)抽取里面就有一塊內(nèi)容是實(shí)體抽取,實(shí)體抽取的思想可以跟歸為一類(lèi),叫做序列標(biāo)注,它是一個(gè)它的訓(xùn)練數(shù)據(jù),是不用進(jìn)行分詞分詞處理的,只是用RB和A來(lái)區(qū)分。比如像我們實(shí)體識(shí)別里面要抽取出人名字,可以把標(biāo)項(xiàng)超抽取人機(jī)構(gòu)名時(shí)間等等我們這個(gè)時(shí)候的話,我們就可以構(gòu)建一個(gè)標(biāo)簽舉證。像BB-poss,愛(ài)崗破損,BR-ORGA崗org。這個(gè)標(biāo)簽矩陣是什么意思呢?
D就是指開(kāi)頭,I就是指除了開(kāi)頭以外,它的中間部分,中間和結(jié)尾部分都是用愛(ài)來(lái)來(lái)區(qū)分,然后非不是這一塊的話,我們就用O來(lái)區(qū)分,這樣的話就可以把它全部區(qū)分開(kāi)來(lái),反而從而進(jìn)行識(shí)別。然后我們不管是完全句法分析或者淺層句法分析,我們都是構(gòu)造一個(gè)一個(gè)解析書(shū)的過(guò)程,構(gòu)造解析書(shū)的方法其實(shí)是有三種,一種是自頂向下剖析法,還有一種叫自底向上的剖析法。然后另外一種方法就是比較復(fù)雜,可能是把前兩者結(jié)合起來(lái)叫左腳分析法。它是把自頂向上和自底向上的兩種方法進(jìn)行結(jié)合,來(lái)生成一個(gè)句法分析樹(shù)。
因?yàn)槟壳敖裉斓脑?,我們不?duì)這些技術(shù)細(xì)節(jié)來(lái)進(jìn)行深入的討論。因?yàn)榭赡軜?gòu)造句法非解析書(shū)的過(guò)程可能講兩個(gè)小時(shí)或者三個(gè)小時(shí)都可能都有可能。只是做一個(gè)大概的了解。不做愛(ài)細(xì)節(jié)方面的一些探討。然后到語(yǔ)義分析,我們?cè)谡Z(yǔ)意方面什么叫語(yǔ)義分析?就是找出像詞的一詞一結(jié)構(gòu)意義,以及結(jié)合意義,從而判斷他語(yǔ)言所表達(dá)的真正含義或者概念。我們有一個(gè)語(yǔ)義解析。再比如像對(duì)話里面有一個(gè)場(chǎng)景,就是像我們可能在漢語(yǔ)方面,同同一個(gè)詞在不同的場(chǎng)景,它表達(dá)的意思是不同的。
然而在同一個(gè)場(chǎng)景,它有多種的表達(dá)方式,對(duì)話里面一個(gè)如果一個(gè)用戶輸入,你今年幾歲了?或者這個(gè)時(shí)候他的問(wèn)題是你今年幾歲,你可以回答我今年20歲。然后如果他換一種問(wèn)法,你今年多大了?你的回答應(yīng)該是一樣的,照樣是我今年20歲。所以這種的話,他從你要從他的不同的表達(dá)當(dāng)中,導(dǎo)致他找出他真正所要表達(dá)的意義。然后還有一種可能相比較更困難一些的同樣一個(gè)詞,在不同場(chǎng)景,它所表達(dá)的意義,比如說(shuō)像有的時(shí)候,他有的時(shí)候可能表示疑問(wèn)了,類(lèi)似這種的話,這種在最這種處理就相當(dāng)困難。
我們等一下用語(yǔ)用的話就是是什么?就是它一個(gè)最深層次的影響。比如說(shuō)我們有的時(shí)候可能會(huì)出現(xiàn)這樣的情況,他會(huì)比如說(shuō)我們犯了錯(cuò)誤,領(lǐng)導(dǎo)他批評(píng)我,他但是他并不是直接的批評(píng)我,他只是他有可能會(huì)含沙射影的來(lái)講一下。這個(gè)時(shí)候就是我們要領(lǐng)會(huì)他深層次的意思,這種可以把它較為與用分析,然后大家大家可以看到這個(gè)圖,還看到我們?cè)谧匀徽Z(yǔ)言處理這一塊的一個(gè)由淺入深的四個(gè)層面,這個(gè)形式是指什么?就是形式化語(yǔ)言。形式化語(yǔ)言就是我們?cè)谝呀?jīng)特定編輯好的一種意義就比如像最簡(jiǎn)單的或者是一種什么情況呢?化學(xué)方程式。
它是一種形式化語(yǔ)言,它的表達(dá)是意義很簡(jiǎn)單的。然后就到語(yǔ)義這一塊,我們目前所研究到的,我們僅僅還停留在語(yǔ)義和推理這一塊。推理我們等會(huì)再講到。這次圖譜內(nèi)容的時(shí)候,有會(huì)稍微等一會(huì)稍微提一下,就是知識(shí)推理。這是推理是什么呢?很簡(jiǎn)單表示,比如我有一個(gè)推理是什么呢?比如叫一個(gè)推理的場(chǎng)景是什么?我想一下,比如我舉個(gè)例子,像王健林的兒子是王思聰,然后王健林的老婆是誰(shuí)?他老婆是誰(shuí),我并不知道,然后我們可以從這。但是我們可以從這一句里面分析到,王繼林的兒子是王思聰,他的老婆是誰(shuí),但是我們并沒(méi)有提到王思聰?shù)哪赣H是誰(shuí)。
這個(gè)時(shí)候我們就可以做一個(gè)推理性的工作。這是很簡(jiǎn)單的一個(gè)推理,就是我們可以推理出王思聰?shù)哪赣H是誰(shuí)?比如說(shuō)我假設(shè)是A這個(gè)就是王思,王健林的老婆是A黃私,王健林的兒子是王肅。應(yīng)該推理出王思聰?shù)哪赣H是A這是一種場(chǎng)景,還有一種就是這種是可以把它規(guī)則歸結(jié)為情感分類(lèi)細(xì)力度的情感分類(lèi)。以像我這里的這PPT里面這個(gè)例子叫什么?像五星級(jí)賓館連游泳池都沒(méi)有,這肯定是一個(gè)差評(píng)。一個(gè)負(fù)面情感。這個(gè)在情感分類(lèi)里面叫什么?一個(gè)叫情感分類(lèi),有一個(gè)顯示情感,還有一個(gè)是影視情感。
顯示情感就是我們?cè)赗語(yǔ)言的表達(dá)當(dāng)中,很直接很直觀的表達(dá)出來(lái)的。這個(gè)東西很好。蘋(píng)果很甜,我很喜歡苡。這個(gè)東西很臟,我很討厭。這直接就顯示一顯示的指出了我對(duì)這一個(gè)的喜好。正面。我們?nèi)绻裨谧鱿褚恍┹浨榉治?,或者像戲路的情感分析,它它的分?lèi)并不只分為正面和正類(lèi)和負(fù)累,因?yàn)樵谇楦蟹治鲞@一塊,歸根到底可以把它歸結(jié)為是一個(gè)文本分類(lèi)的過(guò)程。
文本分類(lèi)的話,我看到之前有一位老師是已經(jīng)有講過(guò),像情感分類(lèi),我們的意圖識(shí)別等等,這一塊歸根到底都可以把它歸結(jié)為一個(gè)分類(lèi)的文本分類(lèi)的工作。
影視情感分類(lèi)就是我上面舉的這個(gè)例子,他沒(méi)有很直接的表示出來(lái),我對(duì)這個(gè)東西的喜好,叫做影視分類(lèi),這是影視分類(lèi)比較困難的一個(gè)一塊。我還可以舉個(gè)例子,比如我的心情就像天氣一樣淅淅瀝瀝下著小雨。按道理來(lái)講,我能夠表示的是我心情比較不好。我心情很沮喪很差,這就是一個(gè)影視分類(lèi)的問(wèn)題。像然后這里是一個(gè)懸于用,其實(shí)與用我剛剛在推理到從推理到語(yǔ)用這一塊,其實(shí)可能是有一些可能差的不是特別多,可能有一些情況就在語(yǔ)音這一塊。
像金融海嘯來(lái)了,可能是可能會(huì)引發(fā)金融危機(jī)。這一類(lèi)。在語(yǔ)用這一塊,馬上九點(diǎn)了,我們稍微講快一點(diǎn),現(xiàn)在我們來(lái)看一下它的一些技術(shù),對(duì)一些技術(shù)性的總結(jié)和學(xué)習(xí)方法,自然語(yǔ)言處理這一塊怎么學(xué)?等一下我們現(xiàn)在第二個(gè)主題進(jìn)行進(jìn)行一下探討。大家可以看到這張圖,這張圖的話是從底從下往上看,從下往上看,這個(gè)叫資源第一層叫。這個(gè)應(yīng)該是看做是一個(gè)叫金字塔型結(jié)構(gòu),第一層是叫做資源建設(shè)資源介紹叫什么?語(yǔ)言學(xué)知識(shí)庫(kù)和語(yǔ)料庫(kù)的構(gòu)建。
語(yǔ)料庫(kù)這個(gè)東西,我自己把它歸結(jié)為類(lèi)似可以把它歸結(jié)為一個(gè)數(shù)據(jù)倉(cāng)庫(kù),有可能你有的時(shí)候可能不僅僅是有語(yǔ)料庫(kù),像語(yǔ)言學(xué)知識(shí)庫(kù)之類(lèi)的,可能還有會(huì)還有來(lái)自像關(guān)系型數(shù)據(jù)庫(kù)等等一些一些數(shù)據(jù)。這個(gè)東西我們?cè)跇?gòu)建構(gòu)建語(yǔ)料庫(kù)的時(shí)候,可能有的時(shí)候還會(huì)存在一些把像一些基礎(chǔ)研究,像詞法,包括像詞法句法語(yǔ)這些基礎(chǔ)性研究的結(jié)果,把它回流到資源建設(shè)這一塊,它的結(jié)果用來(lái)跑數(shù)據(jù)的結(jié)果用來(lái)構(gòu)建語(yǔ)料庫(kù)。很簡(jiǎn)單的,像像有的有一個(gè)案例就是什么呢?
我們有的時(shí)候會(huì)在構(gòu)建知識(shí)圖譜的知識(shí)圖譜的時(shí)候,我們要構(gòu)建一個(gè)自己的知識(shí)庫(kù)。但是往往我們會(huì)通過(guò)像詞法分析句法分析這一塊的基礎(chǔ)性研究,來(lái)進(jìn)行一個(gè)像包括命名體識(shí)別,就是知識(shí)抽取的內(nèi)容,這是抽取關(guān)系抽取,構(gòu)建三元組來(lái)構(gòu)建知識(shí)庫(kù)。其實(shí)這兩個(gè)是分不開(kāi)的。從基礎(chǔ)研究到構(gòu)建知識(shí)庫(kù)詞法分析,詞法分析句法語(yǔ)義。剛剛講到了,其實(shí)在基礎(chǔ)性研究上的話,這一塊我覺(jué)得嚴(yán)格意義上還要再加兩塊,內(nèi)容比較好。一塊一塊是語(yǔ)言模型,還有一塊就是知識(shí)圖譜。
現(xiàn)在有很多場(chǎng)景,也有很多公司的團(tuán)隊(duì),它是怎么弄呢?會(huì)構(gòu)建一個(gè)垂直領(lǐng)域,垂直領(lǐng)域就是特定領(lǐng)域,比如像司法領(lǐng)域,金融領(lǐng)域,醫(yī)療領(lǐng)域,教育行業(yè)等等,或者農(nóng)業(yè)這類(lèi)的。你根據(jù)特定行業(yè)來(lái)構(gòu)建一個(gè)自己的知識(shí)圖譜,這個(gè)知識(shí)圖譜是什么呢?這只圖我最大的一個(gè)特點(diǎn),他就是可以找關(guān)系,是吧?構(gòu)建出來(lái)一個(gè)知識(shí)圖譜,在基于知識(shí)圖譜做上層的一些研究,包括像精準(zhǔn)營(yíng)銷(xiāo)推薦系統(tǒng),然后還有像基于知識(shí)圖譜和像自然語(yǔ)言生成構(gòu)成的一個(gè)對(duì)話系統(tǒng),閑聊系統(tǒng),等等,就是這上面的機(jī)器人。
是吧?應(yīng)用技術(shù)研究這塊我們等一下會(huì)講到。應(yīng)用,包括像信息抽取信息抽取,可以歸結(jié)為知識(shí)抽取。等一下會(huì)講到。然后包括像機(jī)器翻譯,問(wèn)答系統(tǒng)等等。然后再上層的就是應(yīng)用了。我們可能做一些實(shí)際的應(yīng)用,包括像在教育行業(yè),醫(yī)療行業(yè)司法行業(yè)金融行業(yè)機(jī)器人行業(yè)。舉一些例子,像我們經(jīng)常百度的杜小法。是吧?這些都是基于這項(xiàng)底層應(yīng)用研究來(lái)做出來(lái)的一些成果?,F(xiàn)在我們來(lái)看一下,這些主要我們就是一些應(yīng)用技術(shù),應(yīng)用技術(shù)它到底在應(yīng)用到哪一些方面?
比如我們可以做一下分類(lèi),像機(jī)器翻譯,這些翻譯現(xiàn)在是一個(gè)非常熱門(mén)的一個(gè)方向,包括現(xiàn)在的翻譯,不知道大家有沒(méi)有這種感覺(jué),有的時(shí)候你可能會(huì)會(huì)用到谷歌翻譯或者百度翻譯的話,他比如說(shuō)你有的時(shí)候,或者你寫(xiě)論文的時(shí)候,你有一句話,你想翻譯成英語(yǔ),你不會(huì)翻譯,你用百度翻譯,他翻譯出來(lái)的英文,他現(xiàn)在翻譯出來(lái)的結(jié)果比前幾年要好很多。前幾年就是很傻瓜式的按字面意義把它翻譯出來(lái)。但是它有的時(shí)候效果好了很多,包括同時(shí)里頭包括像中英漢翻譯漢陰,可能有的時(shí)候你看,做閱讀理解的時(shí)候不懂,你會(huì)把一下一個(gè)句子用百度翻譯成中文,以前都是很傻瓜式的,就根據(jù)字面意義來(lái)翻譯,現(xiàn)在他會(huì)結(jié)合了很多東西。
百度翻譯團(tuán)隊(duì)是目前是第一個(gè)將神經(jīng)網(wǎng)絡(luò)應(yīng)用到機(jī)器翻譯這塊。有一篇論文不知道大家有沒(méi)有看過(guò),但那個(gè)論文的名字我有點(diǎn)不太記得了,他是第一個(gè)將神經(jīng)網(wǎng)絡(luò)應(yīng)用到機(jī)器翻譯這一塊的。然后第二點(diǎn),自動(dòng)文摘可以類(lèi)似維基樂(lè)機(jī)器理解這一塊,我們有一個(gè)比較長(zhǎng)的文檔,提煉出一個(gè)很簡(jiǎn)要的摘要,或者一個(gè)縮寫(xiě)。自動(dòng)文摘。可以隨便了解一下,我感覺(jué)自動(dòng)文摘的應(yīng)用應(yīng)該不是特別的廣泛。有的時(shí)候可能會(huì)有一些應(yīng)用,但是并不是特別廣泛。然后第三點(diǎn),第三點(diǎn)信息檢索。
大家不知道從在從事自然語(yǔ)言處理這一塊的話,可能會(huì)對(duì)信息檢索的理解要稍微深一些。但是其實(shí)信息檢索無(wú)時(shí)無(wú)時(shí)不在的。很簡(jiǎn)單的,我們?cè)谌绻覀冇惺裁磫?wèn)題,百度一下,谷歌一下,這就是一個(gè)信息檢索的過(guò)程。信息檢索的概念就是從利用計(jì)算機(jī)從海量文本中找到符合用戶需求的需要的相關(guān)文檔。是吧?我們?cè)诎俣纫幌?,其?shí)就是從百度互聯(lián)網(wǎng)中找到我們想想要的想要的內(nèi)容,他會(huì)做他對(duì)會(huì)對(duì)我們的一個(gè)搜索的結(jié)果進(jìn)行一個(gè)排序,是吧?然后我們自己再要一個(gè)篩選的過(guò)程。
但是如果我們?cè)谧约喉?xiàng)目中是一個(gè)特定領(lǐng)域的,包括像比如說(shuō)類(lèi)似司法行業(yè),我要檢索一條內(nèi)容,它可能它它是基于我們的知識(shí)庫(kù)來(lái)進(jìn)行檢索的,所以他就并不像我們的百度這種形式,五花八門(mén),各種廣告之類(lèi)的東西都有,我們這種的檢索就會(huì)變得比較比較直接,可能搜索的內(nèi)容會(huì)比較少。可能也有可能就是他會(huì)很很快的減少出我們想要的東西。信息檢索我們還有一點(diǎn)就是叫語(yǔ)義檢索與建設(shè),比如我有個(gè)場(chǎng)景就是我要查查詢,姚明是身高有多高,是吧?
它會(huì)返回查詢姚明的身高。這是一個(gè)比較簡(jiǎn)單的一個(gè)檢索的場(chǎng)景。但是我們?cè)趯?shí)現(xiàn)的話,我們G技術(shù)實(shí)現(xiàn)是把它轉(zhuǎn)換成一個(gè)邏輯形式的語(yǔ)言語(yǔ)音檢索,邏輯形式幾個(gè)方轉(zhuǎn)換成一個(gè)邏輯形式語(yǔ)言來(lái)進(jìn)行進(jìn)行一個(gè)跨越,我們可以把它類(lèi)似,把它比作就是你輸入的一個(gè)問(wèn)題,前臺(tái)一個(gè)跨越偉傳到后臺(tái)后臺(tái)進(jìn)行解析,解析,包括有一些可能一些分詞序列標(biāo)注,命題識(shí)別等等一些一系列操作。然后再根據(jù)我們的知識(shí)庫(kù),或者是基于ES等等。boss??梢缘摹?/p>
各種情況都會(huì)有。然后在知識(shí)庫(kù)中檢索出我們想要的答案,答案,然后做一個(gè)排序,排序之后然后再返回給前臺(tái)。展示。這就是一個(gè)減少的一個(gè)過(guò)程。然后我們還有一種稍微復(fù)雜一點(diǎn)的場(chǎng)景,就是較多跳查詢。多條查詢是。我之前查詢的是姚明的身高是多少?然后現(xiàn)在我不想這么纏了?,F(xiàn)在我想查姚明的老婆是干什么工作的。比如我叔叔姚明的老婆是干什么工作,這個(gè)時(shí)候我們要做,就相當(dāng)于這一步,我們的解析它會(huì)做兩種兩步處理。第一步你要先找到姚明,然后第一步你要先找到姚明的老婆,姚明了,你要定位到姚明的老婆是誰(shuí)?
然后你從定位好了之后,你再定位到他是做什么工作的?叫做多跳查詢。剝掉查詢相,我們?cè)谥R(shí)圖譜里面會(huì)有一些像類(lèi)似把它轉(zhuǎn)換成一種邏輯形式語(yǔ)言的一種說(shuō)課語(yǔ)言來(lái)進(jìn)行查詢,這是信息檢索的一個(gè)內(nèi)容。當(dāng)然信息檢索他是叫A這里。PPT有一個(gè)有錯(cuò)錯(cuò)誤是AA不是A1修改一下。這里可能是寫(xiě)的時(shí)候?qū)戝e(cuò)了。信息檢索。目前也比國(guó)內(nèi)比較好的團(tuán)隊(duì)是清華那邊劉志遠(yuǎn)那邊。劉志遠(yuǎn)老師實(shí)驗(yàn)室里面做信息檢索是做得很好的。然后下一步我們到文本分可能是大家接觸的最多的,可能可能自從接觸自然語(yǔ)言開(kāi)處理開(kāi)始,可能第一做的第一個(gè)實(shí)驗(yàn)就是進(jìn)行文本分類(lèi)工作,包括像新聞分類(lèi)等等,是吧?
主題分類(lèi)內(nèi)容根據(jù)標(biāo)簽,根據(jù)高標(biāo)簽我們文本分類(lèi),這是一個(gè)非常好的練手項(xiàng)目,知乎曾經(jīng)有一個(gè)知乎看山,他有一個(gè)比賽,叫做多標(biāo)簽文本分類(lèi),它那個(gè)數(shù)據(jù)數(shù)據(jù)很大,數(shù)據(jù)量很大。大家可以百度一下,叫知乎看三多標(biāo)簽,文本分類(lèi)分可以第一名團(tuán)隊(duì)把它的代碼和方案都已經(jīng)公布了,大家如果有興趣,練手研究一下,然后還有主題分類(lèi)等等。文本分類(lèi)它主要的方法像什么?像有text的cn阿特cn,還有把特色CNN結(jié)合起來(lái),都這樣的方法都會(huì)有,然后是有一個(gè)情感分類(lèi)。
3D版的classic,他情感分類(lèi)的。我剛剛也有講到,把它歸結(jié)為一個(gè)歸根到底是一個(gè)文本分類(lèi)的一個(gè)任務(wù)。因?yàn)槲覀兾覀兦楦蟹诸?lèi)可能就簡(jiǎn)單一點(diǎn)的話,可能分為正類(lèi)或者負(fù)累,然后細(xì)粒度更細(xì)的話,可能會(huì)分為5到6類(lèi),沮喪開(kāi)心等等。是吧?文本分類(lèi)的一個(gè)一個(gè)任務(wù)。文本分類(lèi)之后,有的時(shí)候可以更一層,更層次的有像什么?這是情感分類(lèi)的,可以把它支撐為項(xiàng)輿情分析。是吧?輿情分析系統(tǒng),下一步就是對(duì)話系統(tǒng)。對(duì)話系統(tǒng)呢怎么說(shuō)呢?
是可以說(shuō)是目前研究比較火的一個(gè)方向,應(yīng)用的最多的還是在特定領(lǐng)域的一些像客服工作咨詢工作,類(lèi)似一些問(wèn)答。單輪對(duì)話的問(wèn)答,多輪對(duì)話目前在企業(yè)中應(yīng)用的并不是很多,問(wèn)答,先看一下定義,就是想通過(guò)計(jì)算機(jī)用戶,簡(jiǎn)單的就是人機(jī)交互對(duì)用戶輸入的文本進(jìn)行理解,利用知識(shí)推理文本生成,之前有一些御廚里的工作項(xiàng),然后進(jìn)行知識(shí)推理文本生成,然后給出合理的回答。如果你有語(yǔ)音的話,會(huì)會(huì)把你的一個(gè)文本生成的文本再轉(zhuǎn)換成語(yǔ)音,是吧?
構(gòu)成一個(gè)對(duì)話系統(tǒng)。目前做一下分類(lèi),以單輪對(duì)話的還是為主的。因?yàn)槟愣噍唽?duì)話可能主要存在一個(gè),如果你用像基于神經(jīng)網(wǎng)絡(luò)的多輪對(duì)話生成,它存在一個(gè)問(wèn)題,就是一個(gè)不可控性因素。比如說(shuō)你給甲方做了一個(gè)系統(tǒng),你文本生成了,它生成的,你可能并不知道它會(huì)生成什么,是吧?如果生成了一些不可控性的因素,這東西你們沒(méi)辦法的,如果對(duì)他造成損失的話,這個(gè)所以現(xiàn)在應(yīng)用的最多的還是像基于知識(shí)庫(kù)的貨繼續(xù)檢索的。這類(lèi)對(duì)話系統(tǒng),是可能是90%都是這樣,因?yàn)殚e聊系統(tǒng)一來(lái)可能對(duì)一般性的工收益不大,因?yàn)楹芏喙舅鲞@種系統(tǒng),就是對(duì)他的業(yè)務(wù)進(jìn)行一個(gè)需要的一個(gè)幫助,或者是能夠商業(yè)性的。
因?yàn)槟阌械臅r(shí)候,如果你構(gòu)成一個(gè)閑聊,因?yàn)槟壳暗脑掗e聊系統(tǒng)可能也并不是特別的成熟。你包括像天貓精靈,像包括小艾同學(xué),對(duì)。他剛剛叫了一聲,他答應(yīng)了。他。我好像還不太知道它構(gòu)成的是什么呢?它也是一個(gè)單指令,僅僅有的時(shí)候我有實(shí)驗(yàn)的話,有它有可能僅僅在很簡(jiǎn)單的情景下會(huì)有多指令。絕大部分是單指令,就是單單輪對(duì)話,它并不具備多少什么呢?多輪對(duì)話的一些記憶性。I包括天貓精靈等等這些東西的話,你可以試驗(yàn)一下,也就是說(shuō)你上面說(shuō)了一句話,你下面再說(shuō),他就不記得你說(shuō)的這句話是什么?
這就是簡(jiǎn)單的一個(gè)單輪對(duì)話。下面是一個(gè)對(duì)話系統(tǒng)的稍微一個(gè)很簡(jiǎn)單的一個(gè)展示,目前我自己有做一個(gè)一個(gè)對(duì)話系統(tǒng),把把知識(shí)庫(kù)換掉的話,在垂直領(lǐng)域是效果是還可以,但是在開(kāi)放領(lǐng)域,閑聊領(lǐng)域其實(shí)效果并沒(méi)有達(dá)到我預(yù)想的那么好。你看這些這些很多東西,你有的時(shí)候你會(huì)發(fā)現(xiàn),他其實(shí)是基于基知識(shí)庫(kù)的,它并不是一個(gè)文本生成的。是吧?下面我們來(lái)看一下,下面我們來(lái)看一下知識(shí),抽取知識(shí)抽取可以怎么說(shuō)?它是歸結(jié)為知識(shí)圖譜的那一塊。說(shuō)了很多知識(shí)圖譜,然后我們現(xiàn)在來(lái)講一下什么是知識(shí)圖譜,這是圖譜的,它的前身是雨衣網(wǎng)。
大家可以可能會(huì)如果有興趣可以去百度一下。前身是語(yǔ)義網(wǎng),經(jīng)過(guò)一系列的發(fā)展,谷歌在2012年還是2013年把它應(yīng)用到搜索引擎上,然后對(duì)搜索這一塊有了極大的提升。后來(lái)在大概14年左右,國(guó)內(nèi)公司很多公司就在開(kāi)始構(gòu)建自己的知識(shí)圖,包括阿里京東百度都有自己比較稍微成熟一點(diǎn)的知識(shí)圖譜了。他知識(shí)圖譜它有個(gè)最主要的一個(gè)一個(gè)東西叫什么呢?它會(huì)它是一個(gè)類(lèi)似一個(gè)關(guān)系,它把一些關(guān)系全部都理順了,全部都他會(huì)有一個(gè)圖數(shù)據(jù)庫(kù)。他把把所有的關(guān)系全部都理通,全部以知識(shí)圖譜的形式存儲(chǔ),然后知識(shí)圖譜它包括有哪些?
像一個(gè)知識(shí)的一個(gè)獲取。這是獲取的話,有一個(gè)方式,什么是爬蟲(chóng),然后I基于自己的業(yè)務(wù)數(shù)據(jù),你要如果需要第三方數(shù)據(jù)的話,可能是要自己來(lái)寫(xiě)爬蟲(chóng),爬數(shù)據(jù),扒別人的數(shù)據(jù),然后爬到數(shù)據(jù)之后,有這是表示。這表示向知識(shí)建模等等。這是建模之后有知識(shí)抽取。抽血,然后你可能爬蟲(chóng)的話排的是多個(gè)數(shù)據(jù)源,你要做一個(gè)知識(shí)融合。這融合的話,你還有一些像實(shí)體,這里這是融合,這是推理向知識(shí)中包。這是存儲(chǔ)這些存儲(chǔ)的話,圖譜存儲(chǔ)。數(shù)據(jù)一個(gè)絕大,90%數(shù)據(jù)存在圖數(shù)據(jù)庫(kù)里面。
圖數(shù)據(jù)庫(kù)目前開(kāi)源的開(kāi)源有瓜地B像附件的話是吧?我們自己的知識(shí)圖譜的話是有做一個(gè)調(diào)研RNU for J的話,它有商業(yè)版和社區(qū)版兩種。一般的話,我們目前用的是社區(qū)版,根據(jù)調(diào)研,如果你是有在10億節(jié)點(diǎn),你的圖譜是在10億節(jié)點(diǎn)以內(nèi),11個(gè)節(jié)點(diǎn)。因?yàn)閳D譜的話,如果你有一個(gè)關(guān)系,比如你有一個(gè)像三元組我們構(gòu)成有一個(gè)三元組關(guān)系,類(lèi)似比如我舉個(gè)例子,奧巴馬,三元組它是一個(gè)教主,衛(wèi)兵一種形式存儲(chǔ)的。因?yàn)闉槭裁??你還可以最簡(jiǎn)單的一個(gè)理解為就是實(shí)體一關(guān)系實(shí)體二,實(shí)體二和這個(gè)關(guān)系是指實(shí)體一和412之間是怎么樣的一個(gè)關(guān)系?
我簡(jiǎn)單一個(gè)知識(shí)圖譜的一個(gè)簡(jiǎn)單的舉例,就可以分為像奧巴馬出生于華農(nóng)讀讀。這是最簡(jiǎn)單的一個(gè)三元組。三元組,里面有兩個(gè)節(jié)點(diǎn),實(shí)體一和10.2,這可以看作是兩個(gè)節(jié)點(diǎn)。也就是說(shuō)圖數(shù)據(jù)庫(kù)恩又不接,在10億節(jié)點(diǎn)以內(nèi)。商業(yè)版社區(qū)版是夠用的。這是講到稍微提一下知識(shí)圖譜的概念,因?yàn)檫@是圖譜的概念。這是圖譜,你不知道,可能大家以后如果有接觸的話,你會(huì)發(fā)現(xiàn)它會(huì)把我們自然原處理,自然語(yǔ)言理解,自然語(yǔ)言生成等等方面,包括像前端后端,爬蟲(chóng),數(shù)據(jù)庫(kù)等等等等內(nèi)容,他全部都融合在一起。
所以你想想要構(gòu)建一個(gè)好的知識(shí)圖譜是一個(gè)件比較困難的事情。它還有一點(diǎn)就是關(guān)系抽取,我們這里等會(huì)我們PPT里面有講到知識(shí)抽血看一下,它的概念就是將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化的數(shù)據(jù),因?yàn)槲覀兊臄?shù)據(jù)源一般的情況下,我們數(shù)據(jù)源是分三種,一個(gè)叫非結(jié)構(gòu)化數(shù)據(jù),還有一個(gè)叫半結(jié)構(gòu)化數(shù)據(jù)。然后第三種就是結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)很好理解,就是我們存在賣(mài)騷客奧奧瑞克這類(lèi)半結(jié)構(gòu)化數(shù)據(jù)是什么呢?也就是我們經(jīng)常遇到的像愛(ài)杰森,X ml等等,這類(lèi)數(shù)據(jù)可能可以叫為叫做半結(jié)構(gòu)化數(shù)據(jù)。
非結(jié)構(gòu)化數(shù)據(jù),就是我們這些處理的文本數(shù)據(jù)等等。因?yàn)槲覀兊暮诵闹R(shí)抽取的核心就是在非結(jié)構(gòu)化數(shù)據(jù)這一塊,轉(zhuǎn)換為結(jié)構(gòu)化抽取,一般它的任務(wù)子任務(wù)分為哪些呢?數(shù)據(jù)實(shí)體數(shù)據(jù)剛剛之前有提到。實(shí)體,你包括時(shí)間,地點(diǎn),人民機(jī)構(gòu)名金額等等,所以我們?cè)谧鰧?shí)體抽取的話,像之前說(shuō)到的用序列標(biāo)注的方法,構(gòu)建標(biāo)簽局,用的最多的方法,以前都是基本上是用BI LSTM加上條件隨機(jī)場(chǎng)來(lái)做。但是自從去年我自己有做實(shí)驗(yàn),去年自從谷歌出了很火的一個(gè)詞,向量模型BRT號(hào)稱有3億參數(shù),把它用到實(shí)體抽取這一塊,效果確實(shí)是有明顯的提升,提升比較大。
我之前用條件司機(jī)廠家雙向神經(jīng)神經(jīng)網(wǎng)絡(luò)來(lái)做的話是F1直將近是在89%,加入BABRT來(lái)優(yōu)化之后,可以達(dá)到96%-97%,效果已經(jīng)非常好。當(dāng)然這只是因?yàn)槲业挠?xùn)練數(shù)據(jù)的話是司法行業(yè)民事判判決書(shū)之類(lèi)這一行業(yè)。但是如果你在對(duì)開(kāi)放領(lǐng)域,所以你可能要在訓(xùn)練數(shù)據(jù)的話,要更多更多一些,可能效果會(huì)更好一點(diǎn)。然后第二個(gè)任務(wù)就是關(guān)系抽取,關(guān)系出去。是吧?剛剛之前有講過(guò)兩個(gè)實(shí)體之間的關(guān)系,比如像王思聰是王健林的兒子,我們抽取出來(lái)之后,會(huì)以一個(gè)三元組的形式來(lái)表示。
是吧?關(guān)系抽取比較困難的一點(diǎn)。我目前是最近是有在寫(xiě)一篇寫(xiě)一篇論文,就是關(guān)于關(guān)系索取的。我感覺(jué)關(guān)系出關(guān)系抽取目前最大的難度就是它不準(zhǔn)確。是吧?關(guān)系。你可能一句話里面有多關(guān)系,而且你關(guān)系的類(lèi)別很多,不僅僅是像父子同學(xué)這一類(lèi)的關(guān)系,是吧?你有的時(shí)候發(fā)生像借款關(guān)系,A與某某時(shí)候發(fā)生與B發(fā)生借款等等。然后下一步就是事件抽取,事件抽取也是一個(gè)核心事件,抽取的主要任務(wù)是學(xué)車(chē)。事件的觸發(fā)詞,事件類(lèi)型,論員以及論員角色,比如從一篇新聞報(bào)道中抽出某一某一恐怖事件的基本信息,像包括像時(shí)間,什么時(shí)候這個(gè)事件是什么時(shí)候發(fā)生的?
發(fā)生在哪里?失事的事件制造者,失事者是誰(shuí)?受試者是誰(shuí)?襲擊目標(biāo)傷亡人數(shù)等等是。大家可以發(fā)現(xiàn)看到有一個(gè)什么?就是時(shí)間和事件。當(dāng)然如果我們的一個(gè)抽取的一個(gè)文本里面,它有多個(gè)時(shí)間多個(gè)事件的話,還存在一個(gè)難點(diǎn),就是一個(gè)叫時(shí)間序列化的問(wèn)題,就是你必須要把這個(gè)時(shí)間跟這個(gè)事件一一對(duì)應(yīng)起來(lái),是吧?然后收取這個(gè)比較簡(jiǎn)單,我們標(biāo)包在標(biāo)簽矩陣?yán)锩姘阉由?。就OK了。其實(shí)這一塊用的不是很多,有的時(shí)候術(shù)語(yǔ)也有可能把它類(lèi)似。
他把它看成像人民或機(jī)構(gòu)名之類(lèi)的,是一個(gè)數(shù)術(shù)語(yǔ)。然后像除了上面這些還有應(yīng)用,還有一些像隱喻計(jì)算,自動(dòng)校對(duì)作文評(píng)分作文評(píng)分等一下,在應(yīng)用里面有講到語(yǔ)音識(shí)別等等。然后就講到學(xué)習(xí)方法。學(xué)習(xí)方法,其實(shí)其實(shí)不管我們學(xué)任何一門(mén)東西沒(méi)有捷徑了,大家可能有感覺(jué)像做算法,自然語(yǔ)言處理,等等語(yǔ)音圖像等等,這一塊,可能對(duì)數(shù)學(xué)的要求是相對(duì)較高一點(diǎn)。包括像數(shù)學(xué)分析高等數(shù)學(xué),高等代數(shù)概率論。數(shù)理統(tǒng)計(jì)等等隨機(jī)過(guò)程。像時(shí)間序列分析可能可能在做。MAP方面他對(duì)對(duì)隨機(jī)過(guò)程和時(shí)間序列分析這一塊的要求稍微高一些,因?yàn)槲覀儼阉?dāng)都是把文本當(dāng)成一個(gè)序列來(lái)看的話,所以有時(shí)間的話可以多看看數(shù)學(xué)基礎(chǔ)等等。
然后英語(yǔ)基礎(chǔ)為什么叫英語(yǔ)基礎(chǔ)呢?可能涉及到在學(xué)習(xí)過(guò)程中看看文獻(xiàn),看國(guó)外的博客等等。因?yàn)榭赡茉谶@方面的話,國(guó)內(nèi)的研究和國(guó)外確實(shí)是有一些差距的。可能我們需要看多看一些頂會(huì)的論文,包括像ACL等等,這些點(diǎn)會(huì)的論文它全部都是英文的,所以我們對(duì)英文的基礎(chǔ)也要也要提升上來(lái)。第三點(diǎn)就是讀論文,讀一些經(jīng)典性的論文。讀論文之后,把論文的模型理解之后,浮現(xiàn)出來(lái),所以我們有的時(shí)候盡量選哪些那些可以能。之前就有存在很多問(wèn)題是什么呢?
就是很多論文他不能復(fù)現(xiàn),你有的時(shí)候不能復(fù)現(xiàn)的話,你可能在工程上沒(méi)辦法使用。所以盡量挑選一些提供了代碼的,提供能夠做實(shí)驗(yàn)且能夠?qū)嶒?yàn)成功的,那我來(lái)來(lái)看。然后第四個(gè)就是知乎博客像get up等等,這方面也是很重要的一個(gè)學(xué)習(xí)資源。然后我們開(kāi)始進(jìn)入到我們的今天的第三部分,可能也是最后一部分,現(xiàn)在是9點(diǎn)半。PPT也只有幾張了?稍微然后在自然語(yǔ)言處理在我們身邊的一些應(yīng)用。第一個(gè)向我們的有智慧醫(yī)療,可能智慧醫(yī)療這里可能就是有一個(gè)知識(shí)圖譜的一個(gè)多模態(tài)。
多模態(tài)的一個(gè)知識(shí)圖譜。智慧醫(yī)療有的時(shí)候類(lèi)似像問(wèn)診,是吧?看看后面類(lèi)似這里就是一個(gè)對(duì)話系統(tǒng),你看它后面是一個(gè)單輪對(duì)話,是吧?有的時(shí)候像一個(gè)問(wèn)答,這一塊想要把問(wèn)診做好還是非常難的,因?yàn)楝F(xiàn)在有的時(shí)候應(yīng)用最多的可能在醫(yī)療上應(yīng)用比較多的,可能是在圖像方面,類(lèi)似像影像分析等等。但是目前僅限于一些咨詢咨詢和問(wèn)答工作,但是如果你要真正叫一個(gè)醫(yī)生來(lái)根據(jù)你根據(jù)你人工智能提供的方案來(lái)來(lái)問(wèn)診確診等等。我相信肯定沒(méi)有哪個(gè)醫(yī)生會(huì)會(huì)相信的。
是吧?因?yàn)獒t(yī)生他要對(duì)他的診斷負(fù)責(zé),所以你有的時(shí)候你可能人工智能做的太再好,你說(shuō)的再再準(zhǔn)確,你可能分析覺(jué)得覺(jué)得你的分析在準(zhǔn),醫(yī)生都不會(huì)相信你,他還是要自己根據(jù)自己的判斷來(lái)來(lái)確診。所以人工智能只能對(duì)象醫(yī)療行業(yè)做一個(gè)參考性的一個(gè)工作,輔助他服做一個(gè)輔助,并不能判斷它替代它來(lái)做一個(gè)醫(yī)療診斷的一個(gè)決策。這一個(gè)智慧司法就是我現(xiàn)在正在做的一個(gè)工作,類(lèi)似像法律咨詢,法條查詢,律師推薦案情分析等等,然后我現(xiàn)在在后面這邊也是一個(gè)基本性的一個(gè)問(wèn)答工作,我們目前是也有在自己構(gòu)建一個(gè)金融司法,我們主要是金融行業(yè)金融司法的一個(gè)我們?cè)谥R(shí)圖譜的層面上,其實(shí)還有更多更多一個(gè)內(nèi)容就是就是找不良資產(chǎn)找老賴,是吧?
可能我們從一些判決文書(shū)當(dāng)中,可能早會(huì)找到像一些不良資產(chǎn)內(nèi)容,類(lèi)似像比如某某某在何時(shí)欠了某某某的錢(qián),然后這個(gè)錢(qián)他不還。告上法庭,說(shuō)走司法這一條路,然后查封某某的資產(chǎn)等等,我們是有一個(gè)這樣的一個(gè)場(chǎng)景。比如說(shuō)我欠了誰(shuí)的錢(qián),然后在我在另外一處也有又有房產(chǎn),誰(shuí)又有誰(shuí)還有另外一些人來(lái)欠我的錢(qián),所以我們要找到這些這些類(lèi)似這些證據(jù)或者一些關(guān)系把它找出來(lái),然后是吧?這里下一下一步就是一個(gè)智能教育,這里就是類(lèi)似一個(gè)這個(gè)案例是一個(gè)評(píng)分,作文評(píng)分的一個(gè)工作。
這里就是對(duì)一個(gè)篇章級(jí)的一個(gè)分析。智能教育我們目前我覺(jué)得可能只能起一個(gè)參考性的作用,我們最后講一個(gè)案例,就是一個(gè)智能音箱,智能音箱,包括像天貓精靈等等是吧?然后有小艾同學(xué),像小孩小愛(ài)我,因?yàn)槲野烟熵埦`和小艾同學(xué)我都有。我來(lái)把它關(guān)掉,你好像沒(méi)有智能設(shè)備先去購(gòu)買(mǎi)一個(gè)班。因?yàn)槲乙驗(yàn)槲乙徽f(shuō)小孩同學(xué)他我這邊他就答應(yīng)了,所以我把它關(guān)掉。我對(duì)比了天貓精靈和小艾同學(xué),我個(gè)人已覺(jué)得小孩同學(xué)是更有趣一些,包括像這里有一些案例,包括像雷軍有多少錢(qián)等等。
大家如果有的話可以自己來(lái)嘗試一下。小艾同學(xué)我個(gè)人感覺(jué)是目前智能音箱里面做的比較好的一個(gè)一個(gè)產(chǎn)品,然后這是一個(gè)小艾同學(xué)。這里還有一個(gè)案例,我們沒(méi)有講到微軟的微軟小兵,大家有時(shí)間可以去體驗(yàn)一下,我覺(jué)得如果相比的話,我覺(jué)得微軟小冰是做的是最成功的一個(gè)對(duì)話系統(tǒng),大家可以自己去體驗(yàn)一下。然后然后今天的內(nèi)容現(xiàn)在是9:36,今天的內(nèi)容的話可能也分享就到此為止。到這里結(jié)束了。可能講的也并不是很好,因?yàn)榈谝淮斡玫秸Z(yǔ)音直播,可能剛開(kāi)始十幾分鐘沒(méi)有完全習(xí)慣,到后來(lái)的話是可能現(xiàn)在已經(jīng)用了好。
以上就是關(guān)于pos機(jī)如何介紹,自然語(yǔ)言處理宏觀介紹及應(yīng)用的知識(shí),后面我們會(huì)繼續(xù)為大家整理關(guān)于pos機(jī)如何介紹的知識(shí),希望能夠幫助到大家!









