伴隨著計算機的日益普及,互聯(lián)網的迅猛發(fā)展,文本的數量(電子郵件、新聞、網頁、科技論文等)在不停的增長,因而對文本作智能化處理以獲取所需信息的需求日益迫切。在這樣的社會需求下,自然語言處理技術的地位和作用日益重要。經過幾十年的研究,計算機 處理自然語言的理論基礎日趨成熟,應用范圍也越來越廣,初步形成了面向各種不同應用和研究的技術體系。分詞作為自然語言處理的* 一個步驟,是其他高層應用的基礎,起著較其重要的作用。 分詞是中文信息處理的基礎,在漢語文本分類、文獻標引、職能檢索、自然語言理解與處理等應用中,首先都要對中文文本進行分詞處理。從分詞的基礎理論出發(fā),對近年來的漢語分詞的研究方法與成果進行了綜合論述,分析了現有分詞方法的特點,提出了把神經網絡和*系統(tǒng)結合起來建立集成式漢語自動分詞系統(tǒng)的構想。 北京理工大學大數據搜索與挖掘實驗室張華平主任研發(fā)的NLPIR大數據語義智能分析技術是滿足大數據挖掘對語法、詞法和語義的綜合應用。NLPIR大數據語義智能分析平臺是根據中文數據挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網內容處理的全技術鏈條的共享開發(fā)平臺。 NLPIR大數據語義智能分析平臺十三大功能: 精準采集:對境內外互聯(lián)網海量信息實時精準采集,有主題采集(按照信息需求的主題采集)與站點采集兩種模式(給定網址列表的站內**采集功能)。 文檔轉化:對doc、excel、pdf與ppt等多種主流文檔格式,進行文本信息轉化,效率達到大數據處理的要求。 新詞發(fā)現:從文本中挖掘出新詞、新概念,用戶可以用于專業(yè)詞典的編撰,還可以進一步編輯標注,導入分詞詞典中,提高分詞系統(tǒng)的準確度,并適應新的語言變化。 批量分詞:對原始語料進行分詞,自動識別人名地名機構名等未登錄詞,新詞標注以及詞性標注。并可在分析過程中,導入用戶定義的詞典。 語言統(tǒng)計:針對切分標注結果,系統(tǒng)可以自動地進行一元詞頻統(tǒng)計、二元詞語轉移概率統(tǒng)計。針對常用的術語,會自動給出相應的英文解釋。 文本聚類:能夠從大規(guī)模數據中自動分析出熱點事件,并提供事件話題的關鍵特征描述。同時適用于長文本和短信、微博等短文本的熱點分析。 文本分類:根據規(guī)則或訓練的方法對大量文本進行分類,可用于新聞分類、簡歷分類、郵件分類、辦公文檔分類、區(qū)域分類等諸多方面。 摘要實體:對單篇或多篇文章,自動提煉出內容摘要,抽取人名、地名、機構名、時間及主題關鍵詞;方便用戶快速瀏覽文本內容。 智能過濾:對文本內容的語義智能過濾審查,內置國內較全詞庫,智能識別多種變種:形變、音變、繁簡等多種變形,語義精準排歧。 情感分析:針對事先*的分析對象,系統(tǒng)自動分析海量文檔的情感傾向:情感極性及情感值測量,并在原文中給出正負面的得分和句子樣例。 文檔去重:快速準確地判斷文件集合或數據庫中是否存在相同或相似內容的記錄,同時找出所有的重復記錄。 全文檢索:支持文本、數字、日期、字符串等各種數據類型,多字段的高效搜索,支持AND/OR/NOT以及NEAR鄰近等查詢語法,支持維語、藏語、蒙語、阿拉伯、韓語等多種少數民族語言的檢索。 編碼轉換:自動識別內容的編碼,并把編碼統(tǒng)一轉換為其他編碼。 大數據挖掘已成為大數據技術較重要的應用,它從大數據中提取、挖掘對業(yè)務發(fā)展有**的、潛在的知識,找出趨勢,為決策層提供有力依據,對產品或服務發(fā)展方向起到積極作用,將有力推動企業(yè)內部的科學化、信息化管理。在信息管理領域,綜合應用數據分析技術和人工智能技術,獲取用戶知識、文獻知識等各類知識,將是實現知識檢索和知識管理發(fā)展的必經之路。
詞條
詞條說明
大數據挖掘是伴隨者互聯(lián)網的普及應用和傳統(tǒng)信息檢索技術的不足提出并發(fā)展起來的。大數據挖掘是從大數據中發(fā)現有用的模式(其中的數據可以存放在數據庫、數據倉庫或其他信息庫中),它旨在解決數據挖掘、信息檢索、知識抽取以及較廣泛的商業(yè)問題。面向大數據的挖掘比面向數據庫和數據倉庫的數據挖掘要復雜,因為大數據往往是無結構的,通常是用長的句子或短語來表達文檔類信息;有些則可能是半結構化的,當然也包括大量的異構信息、
NLPIR/ICTCLA2018分詞用戶體驗日發(fā)布新語義技術
“NLPIR-ICTCLA2018分詞較新版本發(fā)布與用戶交流大會暨實驗室開發(fā)日”將在2018年7月21日北京理工大學召開,此次交流會由大數據搜索與挖掘實驗室主辦,發(fā)布會將發(fā)布NLPIR-ICTCLAS2018全新分詞版本,展示新版本的NLPIR大數據語義智能分析平臺,分享大數據語義理解關鍵技術,同時將邀請NLPIR-ICTCLAS的*用戶分享開發(fā)經驗和應用案例。NLPIR-ICTCLAS用戶大會
隨著計算機網絡的飛速普及,人們已經進入了信息時代。在這個信息社會里,信息的重要性與日俱增,無論是個人,企業(yè),乃至**都需要獲取大量有用的信息。誰掌握了信息,誰就能在競爭中處于有利位置。在這種環(huán)境下,搜索引擎技術逐漸成為技術人員的開發(fā)熱點,而其中較為重要的技術就是分詞技術。 中文分詞,顧名思義,就是借助計算機自動給中文斷句,使其能夠正確表達所要表達的意思。中文不同于西文,沒有空格這個分隔符,同時在
進入2l世紀,計算機硬件和軟件較新的速度越來越快,計算機這個以往總給人以冷冰冰的機器的形象也得到了徹底的改變。人機交互的情形越來越普遍,計算機被人類賦予了越來越多的智能因素。伴隨著人類把較新的計算機技術應用于各個學科,對這些學科的認知也進入了日新月異的發(fā)展階段,促使大量的新的研究成果不斷涌現。 隨著計算機這個人類有史以來較重要的工具的不斷發(fā)展,伴隨著不斷有新理論的出現,人類必須重新對它們進行分析
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機: 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編: