隨著互聯(lián)網(wǎng)技術的快速發(fā)展和普及,人們可以在網(wǎng)絡上獲得各種信息,怎樣防止青少年接觸到不健康內(nèi)容是一個嚴肅的社會問題。要防止不健康、無用內(nèi)容的蔓延,除了從法律角度采取措施外,從技術角度考慮的網(wǎng)絡過濾技術是一種有效的手段。 目前網(wǎng)絡的信息過濾技術主要有三種,它們是基于URL過濾方式、基于文本的過濾方式和基于圖像內(nèi)容的過濾方式。這幾種過濾技術各有優(yōu)劣,有的實現(xiàn)比較簡單,有的具有較廣泛的適應性,有的效率高實時性較強。單一采用某一技術的準確性不高,而考慮到圖片和圖片附近的文字一般具有相同的類別,它們有相互補充說明的特性,所以綜合考慮圖片和文本的分類特點是本文研究的過濾方式。 Nlpir Parser搜索挖掘平臺敏感掃描系統(tǒng)是靈玖軟件經(jīng)過長時間研發(fā),融合了自然語言理解、網(wǎng)絡搜索和文本挖掘的技術,可以導入大批量用戶業(yè)務敏感的關鍵詞列表,實現(xiàn)對內(nèi)存與文件的實時智能掃描,生成*的敏感關鍵詞、敏感類別與權重等信息。 針對Web上大量的網(wǎng)頁文本內(nèi)容,Nlpir Parser搜索挖掘平臺敏感掃描系統(tǒng)利用決策樹分流特性提出了敏感詞決策樹信息過濾算法。該算法基于敏感詞庫,通過構建敏感詞決策樹,以數(shù)據(jù)流形式處理網(wǎng)頁文本內(nèi)容,綜合考慮區(qū)域、詞頻、敏感詞級別三大要素,較終給出候選敏感詞權重,計算文本整體敏感度,實現(xiàn)敏感文本檢測。 Nlpir Parser搜索挖掘平臺敏感掃描系統(tǒng)具備四大特色: 1、基于PDAT**的多關鍵詞實時掃描算法 我們采用了 NLPIR/ictclas的PDAT**算法,可以針對百萬量級關鍵詞列表實現(xiàn)單機20MB/s的實時掃描速度; 2、關鍵詞的多模式智能匹配 用戶設定關鍵詞后,系統(tǒng)可以自動識別掃描不同編碼、繁簡體、全角半角、中間加各類干擾噪音等變體,及繁體形式。 3、內(nèi)置了豐富的敏感知識庫 目前已經(jīng)自動內(nèi)置了各種形式、**類型、3萬多關鍵詞的敏感關鍵詞詞典。這些詞典幾乎囊括了所有行業(yè)里面的敏感關鍵詞,從而為凈化互聯(lián)網(wǎng)空間提供知識儲備。 4、支持用戶增量添加百萬量級業(yè)務敏感詞庫 支持客戶自定義導入用戶詞典,自定義敏感類別與權重??梢灾С帜軌蛱峁┎?*業(yè)的敏感掃描結果。
詞條
詞條說明
大數(shù)據(jù)文本分析:靈玖自然語言中文語義分詞系統(tǒng)
自然語言通常是指一種自然地隨文化演化的語言。英語、漢語、日語為自然語言的例子,而世界語則為人造語言,即是一種為某些特定目的而創(chuàng)造的語言。 自然語言具備兩個屬性:語言屬性與自然屬性?!罢Z言”屬性表現(xiàn)為公認的某些約定俗成的內(nèi)在規(guī)律性;“自然”屬性是說并不存在某個人為制造的、嚴格的語法規(guī)則體系來約定人們的語言表達方式,這是和程序設計語言大相徑庭的。自然語言需要遵循一定的內(nèi)在規(guī)律,但較大程度上是“存在即
近日,經(jīng)過公司技術部門的不斷努力、銷售部門的積極協(xié)調(diào),航天咨詢《航天咨詢數(shù)據(jù)搜索與挖掘平臺》項目初驗*。公司為客戶建設了一套基于互聯(lián)網(wǎng)大數(shù)據(jù)的數(shù)據(jù)搜索與挖掘平臺,并滿足將分散在互聯(lián)網(wǎng)中的航天領域信息和數(shù)據(jù)搜集起來,再通過大數(shù)據(jù)搜索與挖掘的技術手段,及時準確的進行分析、處理和提取,最后利用針對專業(yè)領域的數(shù)據(jù)搜索引擎進行查詢,幫助用戶**時間獲得重要的信息數(shù)據(jù),從而解決客戶數(shù)據(jù)采集和挖掘的難題
大數(shù)據(jù)九眼智能技術網(wǎng)絡信息治理新方向
當下,**信息技術創(chuàng)新日新月異,以數(shù)字化、網(wǎng)絡化、智能化為特征的信息化浪潮蓬勃興起。沒有信息化就沒有現(xiàn)代化。截至2017年6月,我國網(wǎng)民規(guī)模已達到7.51億,伴隨著移動互聯(lián)網(wǎng)的普及程度不斷提高,上網(wǎng)人數(shù)和上網(wǎng)便捷程度不斷增加,我國互聯(lián)網(wǎng)上每日產(chǎn)生的違法有害信息數(shù)量隨之變得十分巨大,發(fā)現(xiàn)和處理這些違法有害信息的難度也隨之增加。如何控制網(wǎng)絡有害信息泛濫蔓延,實施精確打擊,規(guī)范凈化網(wǎng)絡空間,較大限度降
Internet是**信息共享的基礎設施,是一種開放和面向 所有用戶的技術。它一方面要保證信息方便、快捷的共享;另一方面要防止垃圾信息的傳播。網(wǎng)絡內(nèi)容分析是一種管理信 息傳播的重要手段。它是網(wǎng)絡信息安全**理論與關鍵技術 研究網(wǎng)絡內(nèi)容分析所涉及的新理論、新體系結構、新方法和新技術。 內(nèi)容過濾技術一般包括名單過濾技術、關鍵詞過濾技術、圖像過濾技術、模板過濾技術和智能過濾技術等。目前,內(nèi)容過濾技術還
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
電 話: 010-62648216
手 機: 13681251543
微 信: 13681251543
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com
公司名: 靈玖中科軟件(北京)有限公司
聯(lián)系人: 張寶
手 機: 13681251543
電 話: 010-62648216
地 址: 北京海淀北京市海淀區(qū)蘇州街49-3號盈智大廈5層
郵 編:
網(wǎng) 址: ljrj123.cn.b2b168.com