NLPIR大數(shù)據(jù)語義系統(tǒng)文本數(shù)據(jù)分析挖掘平臺
時間:2018-07-02作者:靈玖中科軟件(北京)有限公司瀏覽:51
近年來,隨著Internet?的迅猛發(fā)展以及人們利用信息技術(shù)生產(chǎn)和搜集數(shù)據(jù)能力的大幅度提高,大規(guī)模的網(wǎng)絡(luò)文本庫不斷涌現(xiàn)。為了便于在海量文本庫中搜尋、過濾、管理這些文本,基于人工智能技術(shù)的文本自動分類方法成為人們研究的焦點(diǎn)。
數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短。傳統(tǒng)的信息檢索技術(shù)對于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。
文本挖掘不但要處理大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的文檔數(shù)據(jù),?而且還要處理其中復(fù)雜的語義關(guān)系,?因此,?現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上。對于非結(jié)構(gòu)化問題,?一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,?由于數(shù)據(jù)非常復(fù)雜,?導(dǎo)致這種算法的復(fù)雜性很高;?另一條途徑就是將非結(jié)構(gòu)化問題結(jié)構(gòu)化,?利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘,?目前的文本挖掘一般采用該途徑進(jìn)行。對于語義關(guān)系,?則需要集成計算語言學(xué)和自然語言處理等成果進(jìn)行分析。
靈玖軟件NLPIR大語義智能分析平臺針對中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時十八年,服務(wù)了**四十萬家機(jī)構(gòu)用戶,是大時代語義智能分析的一大利器。
NLPIR大語義智能分析平臺平臺針對互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。開發(fā)平臺由多個中間件組成,各個中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中,可兼容Windows,Linux, Android,Maemo5, FreeBSD等不同操作系統(tǒng)平臺,可以供Java,C,C#等各類開發(fā)語言使用。
NLPIR能夠*多角度滿足應(yīng)用者對大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡編碼轉(zhuǎn)換、自動注音、文本聚類等。
目前利用文本挖掘技術(shù)的多是一些信息收集機(jī)構(gòu),這是由于在信息行業(yè)中,文本信息都起著至關(guān)重要的作用,文本挖掘技術(shù)是采取任何技術(shù)的出發(fā)點(diǎn),直接影響各工作流程的質(zhì)量、效率、全面性和費(fèi)用-效益比,并與較終產(chǎn)品息息相關(guān)。
隨著信息技術(shù)在我國社會生活各個領(lǐng)域應(yīng)用的深入,中文信息處理正在成為人們工作和生活中不可或缺的手段,中文信息處理將具有更加廣闊的市場。NLPIR大語義智能中文信息處理技術(shù)已成為中文信息技術(shù)研究、發(fā)展、應(yīng)用和產(chǎn)業(yè)的提供了重要的幫助,在互聯(lián)網(wǎng)日益成長的今天,NLPIR大語義智能中文信息處理技術(shù)將會更加成熟并創(chuàng)新。