文本挖掘：靈玖大數(shù)據(jù)漢語智能分詞技術(shù)

時間：2016-11-21

　　漢語分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎(chǔ)，搜索引擎只是中文分詞的一個應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等，都需要用到分詞。
　　漢語自動分詞是目前中文信息處理領(lǐng)域公認(rèn)的一大難題，也是自然語言理解研究領(lǐng)域中較基本的一個環(huán)節(jié)。中文自動分詞就是將用自然語言書寫的文章、句段經(jīng)計算機(jī)處理后，以詞為單位逐詞輸出，為緊隨其后的加工處理提供先決條件，如圖1所示。可見，中文自動分詞是自然語言處理的**個步驟，其重要性勿庸置疑。
　　然而，漢語自動分詞存在很大的挑戰(zhàn)。命名實(shí)體識別、新詞處理和歧義消解是三個較根本又很棘手的問題。這里所謂的命名實(shí)體指的是人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識的實(shí)體。例如，“計算技術(shù)研究所”，“斯琴高娃”，“石家莊”，要是在訓(xùn)練集中沒有包含這些詞的先驗知識，那么將它們完整從句子中切分出來是很困難的。新詞發(fā)現(xiàn)也叫做未登錄詞。這些詞的出現(xiàn)是由于數(shù)據(jù)集范圍的局限性以及新詞的產(chǎn)生。它們包括了部分的命名實(shí)體、網(wǎng)絡(luò)用語等，如何對這些未能從數(shù)據(jù)集中獲得知識的詞切分，依舊值得認(rèn)真研究。常見的兩種漢語分詞的歧義有：1)交集型切分歧義。例如，給定一個輸入句子——“結(jié)合成分子”，由于其中的“結(jié)合”、“合成”、“成分”和“分子”都能構(gòu)成詞，因此對切分來說造成了一定的困難;2)組合型歧義。例如“門把手弄壞了”，由于字之間的不同組合，可能存在的分詞結(jié)果有：“門/把/手/弄壞了”和“門/把手/弄/壞/了”。盡管存在這么多的難以處理的問題，新的分詞方法還是在不斷被發(fā)掘。
　　而靈玖大數(shù)據(jù)漢語智能分詞系統(tǒng)是在多年研究基礎(chǔ)上，耗時一年研制出了基于條件隨機(jī)場(Conditional Random Field,簡稱CRF)模型，該系統(tǒng)的功能有：中文分詞;詞性標(biāo)注;未登錄詞識別。分詞準(zhǔn)確率接近99%，具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢;特色功能包括：切分粒度可調(diào)整，融合20余部行業(yè)專有詞典，支持用戶自定義詞典等。
　　大數(shù)據(jù)漢語智能分詞系統(tǒng)充分解決了中文分詞里三個主要的問題：
　　1、詞性標(biāo)注能對漢語語言進(jìn)行詞性的自動標(biāo)注，它能夠真正理解中文，自動根據(jù)語言環(huán)境將詞語諸如“建設(shè)”標(biāo)注為“名詞”或“動詞”。
　　2、人名地名機(jī)構(gòu)名識別能夠自動挖掘出隱含在漢語中的人名、地名、機(jī)構(gòu)名，所提煉出的詞語不需要在詞典庫中事先存在，是對語言規(guī)律的深入理解和預(yù)測。
　　3. 新詞發(fā)現(xiàn)：從文件集合中挖掘出內(nèi)涵的新詞語列表，可以用于用戶專業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注，導(dǎo)入分詞詞典中，從而提高分詞系統(tǒng)的準(zhǔn)確度，并適應(yīng)新的語言變化。

詞條
詞條說明
NLPIR平臺打造語義智能教學(xué)科研新理念
新世紀(jì)以來信息技術(shù)呈現(xiàn)出指數(shù)級的增長、爆發(fā)式的增長，數(shù)字化、網(wǎng)絡(luò)化、智能化加快普及應(yīng)用，特別是互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能技術(shù)與**制造技術(shù)深度融合所形成的新一代智能制造技術(shù)，成為了新一輪工業(yè)革命的**競爭力、**驅(qū)動力。大數(shù)據(jù)是現(xiàn)代人工智能發(fā)展的基礎(chǔ)，依托于大數(shù)據(jù)的數(shù)據(jù)挖掘是人工智能的底層邏輯，而擁有數(shù)據(jù)挖掘技能數(shù)據(jù)科學(xué)家則是人工智能領(lǐng)域內(nèi)不可或缺的良好人才。大數(shù)據(jù)的應(yīng)用十分廣泛，不僅能產(chǎn)生巨
2018NLPIR新動態(tài)：推出大數(shù)據(jù)語義智能教學(xué)科研平臺
大數(shù)據(jù)、人工智能技術(shù)發(fā)展已上升為國家戰(zhàn)略，相關(guān)技術(shù)將成為推動行業(yè)增長的下一個引擎!國家文號召人工智能人才培養(yǎng)的重要意義與重大戰(zhàn)略，人工智能人才培養(yǎng)作為技術(shù)發(fā)展的基礎(chǔ)之一，如何在新的時代號召下尋求較大的發(fā)展與變革是當(dāng)務(wù)之急! NLPIR大數(shù)據(jù)語義智能教學(xué)科研平臺是大數(shù)據(jù)語義智能分析專業(yè)的教學(xué)科研綜合平臺。平臺以自然語言理解為**，結(jié)合北理工團(tuán)隊多年的科學(xué)研究與*教學(xué)經(jīng)驗，以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞?，致力?/p>
靈玖軟件JZSearch智能精準(zhǔn)搜索功能
近年來，大數(shù)據(jù)已經(jīng)成為了信息技術(shù)較為關(guān)注的熱點(diǎn)之一，各行各業(yè)都在探討如何利用大數(shù)據(jù)創(chuàng)造商業(yè)**，一時間眾說紛紜，各種關(guān)于大數(shù)據(jù)的應(yīng)用方案接踵而來?；ヂ?lián)網(wǎng)上的網(wǎng)頁數(shù)量巨大，內(nèi)容樣式多種多樣，少量網(wǎng)頁還存在內(nèi)容作弊，用戶的需求表達(dá)方式也各有不同。因此難免會出現(xiàn)一些檢索結(jié)果不好，不能滿足用戶需求的情況. 為了解決客戶搜索中遇到的問題, 靈玖軟件經(jīng)過不懈的努力研發(fā)了JZSearch智能精準(zhǔn)搜索系統(tǒng),該系統(tǒng)
JZSearch大數(shù)據(jù)搜索引擎智能語義搜索平臺
大數(shù)據(jù)是一個包括一切的術(shù)語,指的是數(shù)據(jù)集很大很復(fù)雜,他們需要特別設(shè)計的硬件和軟件工具。數(shù)據(jù)集通常是 T 或者較大級別。這些數(shù)據(jù)集從各種各樣的來源創(chuàng)建，包括傳感器,收集氣象信息,公開可用的信息,如雜志、報紙、文章。還包括購買交易記錄、網(wǎng)絡(luò)日志、醫(yī)療記錄、軍事偵察、視頻和圖像檔案和大規(guī)模的電子商務(wù)等等。 JZSearch大數(shù)據(jù)搜索引擎是靈玖軟件聯(lián)合中科院與北理工的信息檢索*，針對大數(shù)據(jù)搜索業(yè)務(wù)需求

標(biāo)簽：文本挖掘：靈玖大數(shù)據(jù)漢語智能分詞技術(shù)

聯(lián)系方式聯(lián)系我時，請告知來自八方資源網(wǎng)！

公司名：靈玖中科軟件（北京）有限公司

聯(lián)系人：張寶

電　話： 010-62648216

手　機(jī)： 13681251543

微　信： 13681251543

地　址：北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層

郵　編：

網(wǎng)　址： ljrj123.cn.b2b168.com

八方資源網(wǎng)提醒您：
1、本信息由八方資源網(wǎng)用戶發(fā)布，八方資源網(wǎng)不介入任何交易過程，請自行甄別其真實(shí)性及合法性；
2、跟進(jìn)信息之前，請仔細(xì)核驗對方資質(zhì)，所有預(yù)付定金或付款至個人賬戶的行為，均存在詐騙風(fēng)險，請?zhí)岣呔瑁?

聯(lián)系方式