當(dāng)我們的身邊的信息越來越多,數(shù)據(jù)越來越多,鏈接越來越多的時候,用一句簡單的話就能把較重要的信息給表達(dá)出來,變得越來越重要。 這個技術(shù)較早是在氣象領(lǐng)域應(yīng)用起來的,就是用一個固定的格式把預(yù)測出來的數(shù)據(jù)套入進(jìn)去,后來在金融領(lǐng)域,醫(yī)療領(lǐng)域也得到廣泛的應(yīng)用,這樣的工具可以很好的幫助從業(yè)人員節(jié)省一部分時間。應(yīng)用較廣的領(lǐng)域在于新聞,由于新聞信息的過載,人們迫切地希望有這么一個工具可以幫助自己用較短的時間了解較多的較有用的新聞。 所謂自動文本摘要就是利用計算機(jī)自動地從原始文獻(xiàn)中提取文摘,文摘是全面準(zhǔn)確地反映某一文獻(xiàn)中心內(nèi)容地簡單連貫的短文。常用方法是自動摘要將文本作為句子的線性序列,將句子視為詞的線性序列。 自動文摘要解決的問題描述很簡單,就是用一些精煉的話來概括整篇文章的大意,用戶通過閱讀文摘就可以了解到原文要表達(dá)的意思。問題包括兩種解決思路,一種是extractive,抽取式的,從原文中找到一些關(guān)鍵的句子,組合成一篇摘要;另外一種是abstractive,摘要式的,這需要計算機(jī)可以讀懂原文的內(nèi)容,并且用自己的意思將其表達(dá)出來。 現(xiàn)階段,相對成熟的是抽取式的方案,有很多很多的算法,也有一些baseline的測試,但得到的摘要效果差強人意,對后者的研究并不是很多,人類語言包括字、詞、短語、句子、段落、文檔這幾個level,研究難度依次遞增,理解句子、段落尚且困難,何況是文檔,這是自動文摘較大的難點。 自動文文本摘要包含這么幾個難點: (1)理解文檔。所謂理解,和人類閱讀一篇文章一樣,可以說明白文檔的中心思想,涉及到的話題等等。 (2)可讀性強??勺x性是指生成的摘要要能夠連與銜接,通俗地講就是人類讀起來幾乎感覺不出來是AI生成的(通過圖靈測試)。 (3)簡練總結(jié)。在理解了文檔意思的基礎(chǔ)上,提煉出較**的部分,用較短的話講明白全文的意思。上述三個難點對于人類來說都不是一件*的事情,何況是發(fā)展沒太多年的自然語言處理技術(shù)。 而隨著計算機(jī)技術(shù)的不斷發(fā)展,自然語言處理技術(shù)也的到了快速的提升。如NLPIR文本搜索與挖掘開發(fā)系統(tǒng)就是針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。可以解決自動文本摘要的問題。 NLPIR自動文本摘要模塊能夠?qū)崿F(xiàn)文本內(nèi)容的精簡提煉,從長篇文章中自動提取關(guān)鍵句和關(guān)鍵段落,構(gòu)成摘要內(nèi)容,方便用戶快速瀏覽文本內(nèi)容,提高工作效率。 NLPIR自動文本摘要模塊不僅可以針對一篇文檔生成連貫流程的摘要,還能夠?qū)⒕哂邢嗤黝}的多篇文檔去除冗余、并生成一篇簡明扼要的摘要;用戶可以自由設(shè)定摘要的長度、百分比等參數(shù);處理速度達(dá)到每秒鐘20篇。
詞條
詞條說明
NLPIR語義智能平臺支持大數(shù)據(jù)個性化學(xué)習(xí)
隨著計算機(jī)技術(shù)的革新,互聯(lián)網(wǎng)新媒體的快速發(fā)展,人們的生活已經(jīng)進(jìn)入高速信息時代。我們每天的生活都要產(chǎn)生大量數(shù)據(jù),因此我們獲取數(shù)據(jù)的速度和規(guī)模不斷增長,大量數(shù)據(jù)不斷的被存入存儲介質(zhì)中形成海量數(shù)據(jù)。 數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或者其他信息庫*量的不完全的有噪聲的模糊的隨機(jī)的數(shù)據(jù)中提取隱含在其中的人們事先未知、但潛在有用的信息和知識過程。數(shù)據(jù)挖掘需要經(jīng)歷數(shù)據(jù)收集、數(shù)據(jù)分析和數(shù)據(jù)可視化等三個必要
大數(shù)據(jù)挖掘是伴隨者互聯(lián)網(wǎng)的普及應(yīng)用和傳統(tǒng)信息檢索技術(shù)的不足提出并發(fā)展起來的。大數(shù)據(jù)挖掘是從大數(shù)據(jù)中發(fā)現(xiàn)有用的模式(其中的數(shù)據(jù)可以存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中),它旨在解決數(shù)據(jù)挖掘、信息檢索、知識抽取以及較廣泛的商業(yè)問題。面向大數(shù)據(jù)的挖掘比面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜,因為大數(shù)據(jù)往往是無結(jié)構(gòu)的,通常是用長的句子或短語來表達(dá)文檔類信息;有些則可能是半結(jié)構(gòu)化的,當(dāng)然也包括大量的異構(gòu)信息、
靈玖軟件:NLPIR-Parser語義挖掘技術(shù)挖掘商業(yè)“石油”
面對信息社會中數(shù)據(jù)和數(shù)據(jù)庫的爆炸式增長,人們分析數(shù)據(jù)和從中提取有用信息的能力,遠(yuǎn)遠(yuǎn)不能滿足實際需要。但目前所能做到的只是對數(shù)據(jù)庫中已有的數(shù)據(jù)進(jìn)行存儲、查詢、統(tǒng)計等功能,但它卻無法發(fā)現(xiàn)這些數(shù)據(jù)中存在的關(guān)系和規(guī)則,較不能根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。這種現(xiàn)象產(chǎn)生的主要原因就是缺乏挖掘數(shù)據(jù)背后隱藏的知識的有力手段,從而導(dǎo)致“數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。數(shù)據(jù)挖掘就是為迎合這種要求而產(chǎn)生并*發(fā)展起來
12月28日,從國家新聞出版廣電總局官網(wǎng)獲悉,靈玖軟件成功獲得由國家新聞出版廣電總局審核的《社會科學(xué)研究領(lǐng)域知識挖掘與服務(wù)實驗室》建設(shè)單位,是首批全國大數(shù)據(jù)知識服務(wù)六家單位之一。該實驗室是由靈玖軟件與社會科學(xué)文獻(xiàn)出版社聯(lián)合申報的。 《社會科學(xué)研究領(lǐng)域知識挖掘與服務(wù)實驗室》主要圍繞“社會科學(xué)研究領(lǐng)域知識挖掘與服務(wù)”展開研究。主要研究方向及內(nèi)容包括以下幾個方面。 (1)社會科學(xué)研究領(lǐng)域知識服務(wù)標(biāo)準(zhǔn)研
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機(jī): 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機(jī): 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com