漢語分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。 漢語自動分詞是目前中文信息處理領(lǐng)域公認(rèn)的一大難題,也是自然語言理解研究領(lǐng)域中較基本的一個環(huán)節(jié)。中文自動分詞就是將用自然語言書寫的文章、句段經(jīng)計算機(jī)處理后,以詞為單位逐詞輸出,為緊隨其后的加工處理提供先決條件,如圖1所示。可見,中文自動分詞是自然語言處理的**個步驟,其重要性勿庸置疑。 然而,漢語自動分詞存在很大的挑戰(zhàn)。命名實(shí)體識別、新詞處理和歧義消解是三個較根本又很棘手的問題。這里所謂的命名實(shí)體指的是人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識的實(shí)體。例如,“計算技術(shù)研究所”,“斯琴高娃”,“石家莊”,要是在訓(xùn)練集中沒有包含這些詞的先驗知識,那么將它們完整從句子中切分出來是很困難的。新詞發(fā)現(xiàn)也叫做未登錄詞。這些詞的出現(xiàn)是由于數(shù)據(jù)集范圍的局限性以及新詞的產(chǎn)生。它們包括了部分的命名實(shí)體、網(wǎng)絡(luò)用語等,如何對這些未能從數(shù)據(jù)集中獲得知識的詞切分,依舊值得認(rèn)真研究。常見的兩種漢語分詞的歧義有:1)交集型切分歧義。例如,給定一個輸入句子——“結(jié)合成分子”,由于其中的“結(jié)合”、“合成”、“成分”和“分子”都能構(gòu)成詞,因此對切分來說造成了一定的困難;2)組合型歧義。例如“門把手弄壞了”,由于字之間的不同組合,可能存在的分詞結(jié)果有:“門/把/手/弄壞了”和“門/把手/弄/壞/了”。盡管存在這么多的難以處理的問題,新的分詞方法還是在不斷被發(fā)掘。 而靈玖大數(shù)據(jù)漢語智能分詞系統(tǒng)是在多年研究基礎(chǔ)上,耗時一年研制出了基于條件隨機(jī)場(Conditional Random Field,簡稱CRF)模型,該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識別。分詞準(zhǔn)確率接近99%,具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢;特色功能包括:切分粒度可調(diào)整,融合20余部行業(yè)專有詞典,支持用戶自定義詞典等。 大數(shù)據(jù)漢語智能分詞系統(tǒng)充分解決了中文分詞里三個主要的問題: 1、詞性標(biāo)注能對漢語語言進(jìn)行詞性的自動標(biāo)注,它能夠真正理解中文,自動根據(jù)語言環(huán)境將詞語諸如“建設(shè)”標(biāo)注為“名詞”或“動詞”。 2、人名地名機(jī)構(gòu)名識別能夠自動挖掘出隱含在漢語中的人名、地名、機(jī)構(gòu)名,所提煉出的詞語不需要在詞典庫中事先存在,是對語言規(guī)律的深入理解和預(yù)測。 3. 新詞發(fā)現(xiàn):從文件集合中挖掘出內(nèi)涵的新詞語列表,可以用于用戶專業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,從而提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語言變化。
詞條
詞條說明
新世紀(jì)以來信息技術(shù)呈現(xiàn)出指數(shù)級的增長、爆發(fā)式的增長,數(shù)字化、網(wǎng)絡(luò)化、智能化加快普及應(yīng)用,特別是互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能技術(shù)與**制造技術(shù)深度融合所形成的新一代智能制造技術(shù),成為了新一輪工業(yè)革命的**競爭力、**驅(qū)動力。 大數(shù)據(jù)是現(xiàn)代人工智能發(fā)展的基礎(chǔ),依托于大數(shù)據(jù)的數(shù)據(jù)挖掘是人工智能的底層邏輯,而擁有數(shù)據(jù)挖掘技能數(shù)據(jù)科學(xué)家則是人工智能領(lǐng)域內(nèi)不可或缺的良好人才。 大數(shù)據(jù)的應(yīng)用十分廣泛,不僅能產(chǎn)生巨
2018NLPIR新動態(tài):推出大數(shù)據(jù)語義智能教學(xué)科研平臺
大數(shù)據(jù)、人工智能技術(shù)發(fā)展已上升為國家戰(zhàn)略,相關(guān)技術(shù)將成為推動行業(yè)增長的下一個引擎!國家文號召人工智能人才培養(yǎng)的重要意義與重大戰(zhàn)略,人工智能人才培養(yǎng)作為技術(shù)發(fā)展的基礎(chǔ)之一,如何在新的時代號召下尋求較大的發(fā)展與變革是當(dāng)務(wù)之急! NLPIR大數(shù)據(jù)語義智能教學(xué)科研平臺是大數(shù)據(jù)語義智能分析專業(yè)的教學(xué)科研綜合平臺。平臺以自然語言理解為**,結(jié)合北理工團(tuán)隊多年的科學(xué)研究與*教學(xué)經(jīng)驗,以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞?,致力?/p>
近年來,大數(shù)據(jù)已經(jīng)成為了信息技術(shù)較為關(guān)注的熱點(diǎn)之一,各行各業(yè)都在探討如何利用大數(shù)據(jù)創(chuàng)造商業(yè)**,一時間眾說紛紜,各種關(guān)于大數(shù)據(jù)的應(yīng)用方案接踵而來?;ヂ?lián)網(wǎng)上的網(wǎng)頁數(shù)量巨大,內(nèi)容樣式多種多樣,少量網(wǎng)頁還存在內(nèi)容作弊,用戶的需求表達(dá)方式也各有不同。因此難免會出現(xiàn)一些檢索結(jié)果不好,不能滿足用戶需求的情況. 為了解決客戶搜索中遇到的問題, 靈玖軟件經(jīng)過不懈的努力研發(fā)了JZSearch智能精準(zhǔn)搜索系統(tǒng),該系統(tǒng)
JZSearch大數(shù)據(jù)搜索引擎智能語義搜索平臺
大數(shù)據(jù)是一個包括一切的術(shù)語,指的是數(shù)據(jù)集很大很復(fù)雜,他們需要特別設(shè)計的硬件和軟件工具。數(shù)據(jù)集通常是 T 或者較大級別。這些數(shù)據(jù)集從各種各樣的來源創(chuàng)建,包括傳感器,收集氣象信息,公開可用的信息,如雜志、報紙、文章。還包括購買交易記錄、網(wǎng)絡(luò)日志、醫(yī)療記錄、軍事偵察、視頻和圖像檔案和大規(guī)模的電子商務(wù)等等。 JZSearch大數(shù)據(jù)搜索引擎是靈玖軟件聯(lián)合中科院與北理工的信息檢索*,針對大數(shù)據(jù)搜索業(yè)務(wù)需求
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機(jī): 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
NLPIR語義挖掘助各行業(yè)建數(shù)據(jù)內(nèi)容處理技術(shù)屏障
NLPIR大數(shù)據(jù)語義平臺為畢業(yè)論文增色
NLPIR漢語分詞為自然語言信息處理提供新方法
NLPIR大數(shù)據(jù)挖掘為中文信息處理提供解決方案
NLPIR大數(shù)據(jù)平臺實(shí)現(xiàn)中文自動語義挖掘
糾文網(wǎng)為畢業(yè)論文格式難題運(yùn)用人工智能技術(shù)解決
NLPIR語義平臺KGB知識圖譜搜索實(shí)現(xiàn)可視化挖掘
NLPIR大數(shù)據(jù)挖掘通過知識圖譜展現(xiàn)智能語義關(guān)系
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機(jī): 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com