文本挖掘:靈玖大數(shù)據(jù)漢語智能分詞技術(shù)

      漢語分詞(Chinese Word Segmentation) 指的是將一個漢字序列切分成一個一個單獨(dú)的詞。分詞就是將連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過程。中文分詞是其他中文信息處理的基礎(chǔ),搜索引擎只是中文分詞的一個應(yīng)用。其他的比如機(jī)器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等,都需要用到分詞。
      漢語自動分詞是目前中文信息處理領(lǐng)域公認(rèn)的一大難題,也是自然語言理解研究領(lǐng)域中較基本的一個環(huán)節(jié)。中文自動分詞就是將用自然語言書寫的文章、句段經(jīng)計算機(jī)處理后,以詞為單位逐詞輸出,為緊隨其后的加工處理提供先決條件,如圖1所示。可見,中文自動分詞是自然語言處理的**個步驟,其重要性勿庸置疑。
      然而,漢語自動分詞存在很大的挑戰(zhàn)。命名實(shí)體識別、新詞處理和歧義消解是三個較根本又很棘手的問題。這里所謂的命名實(shí)體指的是人名、機(jī)構(gòu)名、地名以及其他所有以名稱為標(biāo)識的實(shí)體。例如,“計算技術(shù)研究所”,“斯琴高娃”,“石家莊”,要是在訓(xùn)練集中沒有包含這些詞的先驗知識,那么將它們完整從句子中切分出來是很困難的。新詞發(fā)現(xiàn)也叫做未登錄詞。這些詞的出現(xiàn)是由于數(shù)據(jù)集范圍的局限性以及新詞的產(chǎn)生。它們包括了部分的命名實(shí)體、網(wǎng)絡(luò)用語等,如何對這些未能從數(shù)據(jù)集中獲得知識的詞切分,依舊值得認(rèn)真研究。常見的兩種漢語分詞的歧義有:1)交集型切分歧義。例如,給定一個輸入句子——“結(jié)合成分子”,由于其中的“結(jié)合”、“合成”、“成分”和“分子”都能構(gòu)成詞,因此對切分來說造成了一定的困難;2)組合型歧義。例如“門把手弄壞了”,由于字之間的不同組合,可能存在的分詞結(jié)果有:“門/把/手/弄壞了”和“門/把手/弄/壞/了”。盡管存在這么多的難以處理的問題,新的分詞方法還是在不斷被發(fā)掘。
      而靈玖大數(shù)據(jù)漢語智能分詞系統(tǒng)是在多年研究基礎(chǔ)上,耗時一年研制出了基于條件隨機(jī)場(Conditional Random Field,簡稱CRF)模型,該系統(tǒng)的功能有:中文分詞;詞性標(biāo)注;未登錄詞識別。分詞準(zhǔn)確率接近99%,具備準(zhǔn)確率高、速度快、可適應(yīng)性強(qiáng)等優(yōu)勢;特色功能包括:切分粒度可調(diào)整,融合20余部行業(yè)專有詞典,支持用戶自定義詞典等。
      大數(shù)據(jù)漢語智能分詞系統(tǒng)充分解決了中文分詞里三個主要的問題:
      1、詞性標(biāo)注能對漢語語言進(jìn)行詞性的自動標(biāo)注,它能夠真正理解中文,自動根據(jù)語言環(huán)境將詞語諸如“建設(shè)”標(biāo)注為“名詞”或“動詞”。
      2、人名地名機(jī)構(gòu)名識別能夠自動挖掘出隱含在漢語中的人名、地名、機(jī)構(gòu)名,所提煉出的詞語不需要在詞典庫中事先存在,是對語言規(guī)律的深入理解和預(yù)測。
      3. 新詞發(fā)現(xiàn):從文件集合中挖掘出內(nèi)涵的新詞語列表,可以用于用戶專業(yè)詞典的編撰;還可以進(jìn)一步編輯標(biāo)注,導(dǎo)入分詞詞典中,從而提高分詞系統(tǒng)的準(zhǔn)確度,并適應(yīng)新的語言變化。

    靈玖中科軟件(北京)有限公司專注于大數(shù)據(jù)開發(fā),大數(shù)據(jù)搜索與挖掘,大數(shù)據(jù)中文分詞等

  • 詞條

    詞條說明

  • NLPIR平臺打造語義智能教學(xué)科研新理念

    新世紀(jì)以來信息技術(shù)呈現(xiàn)出指數(shù)級的增長、爆發(fā)式的增長,數(shù)字化、網(wǎng)絡(luò)化、智能化加快普及應(yīng)用,特別是互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能技術(shù)與**制造技術(shù)深度融合所形成的新一代智能制造技術(shù),成為了新一輪工業(yè)革命的**競爭力、**驅(qū)動力。 大數(shù)據(jù)是現(xiàn)代人工智能發(fā)展的基礎(chǔ),依托于大數(shù)據(jù)的數(shù)據(jù)挖掘是人工智能的底層邏輯,而擁有數(shù)據(jù)挖掘技能數(shù)據(jù)科學(xué)家則是人工智能領(lǐng)域內(nèi)不可或缺的良好人才。 大數(shù)據(jù)的應(yīng)用十分廣泛,不僅能產(chǎn)生巨

  • 2018NLPIR新動態(tài):推出大數(shù)據(jù)語義智能教學(xué)科研平臺

    大數(shù)據(jù)、人工智能技術(shù)發(fā)展已上升為國家戰(zhàn)略,相關(guān)技術(shù)將成為推動行業(yè)增長的下一個引擎!國家文號召人工智能人才培養(yǎng)的重要意義與重大戰(zhàn)略,人工智能人才培養(yǎng)作為技術(shù)發(fā)展的基礎(chǔ)之一,如何在新的時代號召下尋求較大的發(fā)展與變革是當(dāng)務(wù)之急! NLPIR大數(shù)據(jù)語義智能教學(xué)科研平臺是大數(shù)據(jù)語義智能分析專業(yè)的教學(xué)科研綜合平臺。平臺以自然語言理解為**,結(jié)合北理工團(tuán)隊多年的科學(xué)研究與*教學(xué)經(jīng)驗,以科學(xué)嚴(yán)謹(jǐn)?shù)姆绞?,致力?/p>

  • 靈玖軟件JZSearch智能精準(zhǔn)搜索功能

    近年來,大數(shù)據(jù)已經(jīng)成為了信息技術(shù)較為關(guān)注的熱點(diǎn)之一,各行各業(yè)都在探討如何利用大數(shù)據(jù)創(chuàng)造商業(yè)**,一時間眾說紛紜,各種關(guān)于大數(shù)據(jù)的應(yīng)用方案接踵而來?;ヂ?lián)網(wǎng)上的網(wǎng)頁數(shù)量巨大,內(nèi)容樣式多種多樣,少量網(wǎng)頁還存在內(nèi)容作弊,用戶的需求表達(dá)方式也各有不同。因此難免會出現(xiàn)一些檢索結(jié)果不好,不能滿足用戶需求的情況. 為了解決客戶搜索中遇到的問題, 靈玖軟件經(jīng)過不懈的努力研發(fā)了JZSearch智能精準(zhǔn)搜索系統(tǒng),該系統(tǒng)

  • JZSearch大數(shù)據(jù)搜索引擎智能語義搜索平臺

    大數(shù)據(jù)是一個包括一切的術(shù)語,指的是數(shù)據(jù)集很大很復(fù)雜,他們需要特別設(shè)計的硬件和軟件工具。數(shù)據(jù)集通常是 T 或者較大級別。這些數(shù)據(jù)集從各種各樣的來源創(chuàng)建,包括傳感器,收集氣象信息,公開可用的信息,如雜志、報紙、文章。還包括購買交易記錄、網(wǎng)絡(luò)日志、醫(yī)療記錄、軍事偵察、視頻和圖像檔案和大規(guī)模的電子商務(wù)等等。 JZSearch大數(shù)據(jù)搜索引擎是靈玖軟件聯(lián)合中科院與北理工的信息檢索*,針對大數(shù)據(jù)搜索業(yè)務(wù)需求

聯(lián)系方式 聯(lián)系我時,請告知來自八方資源網(wǎng)!

公司名: 靈玖中科軟件(北京)有限公司

聯(lián)系人: 張寶

電 話: 010-62648216

手 機(jī): 13681251543

微 信: 13681251543

地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層

郵 編:

網(wǎng) 址: ljrj123.cn.b2b168.com

相關(guān)閱讀

臺州模具\(yùn)貓砂盆模具生產(chǎn)廠\寵物航空箱模具制造\開模+注塑 日照防爆擴(kuò)音對講市場報價 榆林挖口袋批發(fā)價格 徐州航空快運(yùn)有什么優(yōu)勢? 荊門回收無機(jī)硅酸富鋅底漆OJP 金華ISO認(rèn)怎么辦理 湖州ITSS認(rèn)怎么辦理 北京混凝土試塊機(jī)器人市場報價 平臺鋼格板批發(fā)廠家廠家 許昌滅蟑螂 江門娃娃機(jī)回收 廣州白蟻消殺 清遠(yuǎn)寫字樓租賃報價 迪慶口腔醫(yī)學(xué)中專學(xué)校 杭州墻板生產(chǎn)廠家 NLPIR智能挖掘系統(tǒng)基于自然語義深度挖掘 靈玖軟件:NLPIR文本智能挖掘提速2.0 NLPIR大數(shù)據(jù)平臺新功能力助中文語義深度挖掘 NLPIR語義分析平臺為中文分詞開創(chuàng)新途徑 NLPIR大數(shù)據(jù)從分詞到知識圖譜展現(xiàn)智能實(shí)現(xiàn) 靈玖軟件:NLPIR-Parser語義挖掘技術(shù)挖掘商業(yè)“石油” 靈玖軟件:NLPIR智能文本摘要技術(shù) NLPIR大數(shù)據(jù)智能系統(tǒng)實(shí)現(xiàn)知識圖譜實(shí)體語義展現(xiàn) NLPIR平臺打造語義智能教學(xué)科研新理念 NLPIR大數(shù)據(jù)處理技術(shù)實(shí)現(xiàn)多種類智能挖掘 NLPIR大數(shù)據(jù):九眼合同智能審核系統(tǒng)提升風(fēng)險規(guī)避能力 NLPIR/ICTCLA2018分詞用戶體驗日發(fā)布新語義技術(shù) 大數(shù)據(jù)時代 九眼智能為網(wǎng)絡(luò)信息加層保護(hù) NLPIR語義分析解決自然語言理解技術(shù)難題 NLPIR語義智能系統(tǒng)可以文本多語言處理
八方資源網(wǎng)提醒您:
1、本信息由八方資源網(wǎng)用戶發(fā)布,八方資源網(wǎng)不介入任何交易過程,請自行甄別其真實(shí)性及合法性;
2、跟進(jìn)信息之前,請仔細(xì)核驗對方資質(zhì),所有預(yù)付定金或付款至個人賬戶的行為,均存在詐騙風(fēng)險,請?zhí)岣呔瑁?
    聯(lián)系方式

公司名: 靈玖中科軟件(北京)有限公司

聯(lián)系人: 張寶

手 機(jī): 13681251543

電 話: 010-62648216

地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層

郵 編:

網(wǎng) 址: ljrj123.cn.b2b168.com

    相關(guān)企業(yè)
    商家產(chǎn)品系列
  • 產(chǎn)品推薦
  • 資訊推薦
關(guān)于八方 | 八方幣 | 招商合作 | 網(wǎng)站地圖 | 免費(fèi)注冊 | 一元廣告 | 友情鏈接 | 聯(lián)系我們 | 八方業(yè)務(wù)| 匯款方式 | 商務(wù)洽談室 | 投訴舉報
粵ICP備10089450號-8 - 經(jīng)營許可證編號:粵B2-20130562 軟件企業(yè)認(rèn)定:深R-2013-2017 軟件產(chǎn)品登記:深DGY-2013-3594
著作權(quán)登記:2013SR134025
Copyright ? 2004 - 2024 b2b168.com All Rights Reserved