資料介紹
XML 業(yè)已成為WEB 數(shù)據(jù)發(fā)布與交換的標準,包裝器技術(shù)為數(shù)據(jù)挖掘提供了重要實
現(xiàn)步驟,智能代理技術(shù)以其智能、代理特性在控制協(xié)調(diào)挖掘上起著重要作用。本文將這三項標準和技術(shù)進行有機結(jié)合,應用于WEB 數(shù)據(jù)挖掘上,借助J2EE 三層體系結(jié)構(gòu)思想,給出了智能WEB 信息提取實現(xiàn)方案,并簡要闡述了該系統(tǒng)處理用戶挖掘請求的流程,體現(xiàn)了該系統(tǒng)較強的智能理解和概括能力。
隨著Internet 技術(shù)的迅速發(fā)展,網(wǎng)上各種信息呈指數(shù)式增長,形成了這樣的難堪局面:
一方面,信息量大得驚人;另一方面,人們?yōu)檎业剿璧男畔⒌没ㄉ洗罅康臅r間和精力。由此看來,對于海量信息的挖掘提取工作具有重大的意義。
本文提出了一個能夠從超大數(shù)據(jù)密集型WEB站點自動提取數(shù)據(jù)的系統(tǒng)。流行電子商務、
金融、某些科學組織協(xié)會或者新聞娛樂等站點不僅信息量大,而且數(shù)據(jù)更新也特快,。這些站點大都由很多包含復雜超鏈接的HTML 頁面構(gòu)成,實現(xiàn)了完全左鍵操作、所點即所得(這也是當前“網(wǎng)絡桌面環(huán)境”的出發(fā)點),獲取信息相當簡易快捷。但由于WEB 頁面自身的表示邏輯和網(wǎng)頁之間復雜鏈接的緣故,使構(gòu)建基于以上信息源的大型應用程序或系統(tǒng)存在很大的技術(shù)難點,那么考慮換種頁面表示形式能否解決這個難題呢?
就此問題,最近人們提出了一些解決方案,主要從數(shù)據(jù)挖掘角度取得突破性的進展。
經(jīng)過長期細致的觀察,發(fā)現(xiàn)當前許多WEB 站點包含大量結(jié)構(gòu)非常相似的WEB 頁面,而且預測在將來一段時間內(nèi)上述站點還會保持這種結(jié)構(gòu)不變。針對這種事實,一些研究人員驗證了相關(guān)的技術(shù),并提出能夠從HTML 頁面提取數(shù)據(jù)的WEB 包裝器[1,2,3]以及包裝器庫[4],即輸入有公共模板的一組WEB 頁面后,可得到能從前述有公共模板的WEB 頁面集提取核心數(shù)據(jù)的包裝器。
以上研究成果給本文提供一個局部解決方案。文章將XML[5,6,8]、包裝器、智能代理
(Agent)[7]三項技術(shù)或標準有機結(jié)合,并應用于數(shù)據(jù)挖掘上,改進文[7]的多Agent 聯(lián)合協(xié)作理論,給出了智能提取數(shù)據(jù)實現(xiàn)方案。
現(xiàn)步驟,智能代理技術(shù)以其智能、代理特性在控制協(xié)調(diào)挖掘上起著重要作用。本文將這三項標準和技術(shù)進行有機結(jié)合,應用于WEB 數(shù)據(jù)挖掘上,借助J2EE 三層體系結(jié)構(gòu)思想,給出了智能WEB 信息提取實現(xiàn)方案,并簡要闡述了該系統(tǒng)處理用戶挖掘請求的流程,體現(xiàn)了該系統(tǒng)較強的智能理解和概括能力。
隨著Internet 技術(shù)的迅速發(fā)展,網(wǎng)上各種信息呈指數(shù)式增長,形成了這樣的難堪局面:
一方面,信息量大得驚人;另一方面,人們?yōu)檎业剿璧男畔⒌没ㄉ洗罅康臅r間和精力。由此看來,對于海量信息的挖掘提取工作具有重大的意義。
本文提出了一個能夠從超大數(shù)據(jù)密集型WEB站點自動提取數(shù)據(jù)的系統(tǒng)。流行電子商務、
金融、某些科學組織協(xié)會或者新聞娛樂等站點不僅信息量大,而且數(shù)據(jù)更新也特快,。這些站點大都由很多包含復雜超鏈接的HTML 頁面構(gòu)成,實現(xiàn)了完全左鍵操作、所點即所得(這也是當前“網(wǎng)絡桌面環(huán)境”的出發(fā)點),獲取信息相當簡易快捷。但由于WEB 頁面自身的表示邏輯和網(wǎng)頁之間復雜鏈接的緣故,使構(gòu)建基于以上信息源的大型應用程序或系統(tǒng)存在很大的技術(shù)難點,那么考慮換種頁面表示形式能否解決這個難題呢?
就此問題,最近人們提出了一些解決方案,主要從數(shù)據(jù)挖掘角度取得突破性的進展。
經(jīng)過長期細致的觀察,發(fā)現(xiàn)當前許多WEB 站點包含大量結(jié)構(gòu)非常相似的WEB 頁面,而且預測在將來一段時間內(nèi)上述站點還會保持這種結(jié)構(gòu)不變。針對這種事實,一些研究人員驗證了相關(guān)的技術(shù),并提出能夠從HTML 頁面提取數(shù)據(jù)的WEB 包裝器[1,2,3]以及包裝器庫[4],即輸入有公共模板的一組WEB 頁面后,可得到能從前述有公共模板的WEB 頁面集提取核心數(shù)據(jù)的包裝器。
以上研究成果給本文提供一個局部解決方案。文章將XML[5,6,8]、包裝器、智能代理
(Agent)[7]三項技術(shù)或標準有機結(jié)合,并應用于數(shù)據(jù)挖掘上,改進文[7]的多Agent 聯(lián)合協(xié)作理論,給出了智能提取數(shù)據(jù)實現(xiàn)方案。
下載該資料的人也在下載
下載該資料的人還在閱讀
更多 >
- 一種自適應網(wǎng)頁結(jié)構(gòu)化信息提取方法 2次下載
- 高壓電氣設備局部放電信息提取 1次下載
- 散亂點云數(shù)據(jù)特征信息提取算法 0次下載
- 基于同態(tài)系統(tǒng)的高分辨率遙感圖像河流信息提取 2次下載
- 基于單DOM的自適應WEB信息抽取方法 5次下載
- 面向Web服務的電力系統(tǒng)信息集成平臺框架的研究白雨 0次下載
- 脈沖多普勒雷達識別中的信號調(diào)制信息提取 13次下載
- 短時傅立葉變換在陣列聲波信息提取中的應用 9次下載
- GPS定位信息提取及應用 67次下載
- 基于VB6.0的點陣字模信息提取方法
- 異構(gòu)網(wǎng)絡下的Web監(jiān)控系統(tǒng)設計研究
- 基于Web平臺的智能信息管理系統(tǒng)設計
- 基于HTMLParser 信息提取的網(wǎng)絡爬蟲設計Design
- Web元數(shù)據(jù)信息提取技術(shù)的研究
- Web權(quán)威信息自動提取技術(shù)的研究及應用
- 基于顯式證據(jù)推理的few-shot關(guān)系抽取CoT 636次閱讀
- Web開播系統(tǒng)的技術(shù)演進 576次閱讀
- Web的應用基礎(chǔ) 645次閱讀
- 基于統(tǒng)一語義匹配的通用信息抽取框架USM 960次閱讀
- 互聯(lián)網(wǎng)web3.0如何理解 Web3.0在商業(yè)的五大優(yōu)勢 1915次閱讀
- 基于eBPF技術(shù)實現(xiàn)TLS加密的明文捕獲 2013次閱讀
- 基于完整文件系統(tǒng)提取和密鑰鏈解密 871次閱讀
- 基于SAA6752HS芯片和TMS32VC5502實現(xiàn)MPEG-2視頻編碼系統(tǒng)的設計 2439次閱讀
- 基于嵌入式操作系統(tǒng)與Internet網(wǎng)絡實現(xiàn)智能終端控制系統(tǒng)的設計 1045次閱讀
- 基于嵌入式系統(tǒng)的Web服務器建立設計 3223次閱讀
- 如何使用Python編寫能夠從原始文本提取信息的程序 1w次閱讀
- 人工智能使用的數(shù)據(jù)集多存在性別歧視和種族主義 5147次閱讀
- 攜程信息安全部在web攻擊識別方面的機器學習實踐之路 5540次閱讀
- 利用μC/OS-II的嵌入式激光測距系統(tǒng) 1993次閱讀
- 多普勒流量測量概述-信號解調(diào)方法等 4857次閱讀
下載排行
本周
- 1電子電路原理第七版PDF電子教材免費下載
- 0.00 MB | 1490次下載 | 免費
- 2單片機典型實例介紹
- 18.19 MB | 93次下載 | 1 積分
- 3S7-200PLC編程實例詳細資料
- 1.17 MB | 27次下載 | 1 積分
- 4筆記本電腦主板的元件識別和講解說明
- 4.28 MB | 18次下載 | 4 積分
- 5開關(guān)電源原理及各功能電路詳解
- 0.38 MB | 11次下載 | 免費
- 6100W短波放大電路圖
- 0.05 MB | 4次下載 | 3 積分
- 7基于AT89C2051/4051單片機編程器的實驗
- 0.11 MB | 4次下載 | 免費
- 8基于單片機的紅外風扇遙控
- 0.23 MB | 3次下載 | 免費
本月
- 1OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 2PADS 9.0 2009最新版 -下載
- 0.00 MB | 66304次下載 | 免費
- 3protel99下載protel99軟件下載(中文版)
- 0.00 MB | 51209次下載 | 免費
- 4LabView 8.0 專業(yè)版下載 (3CD完整版)
- 0.00 MB | 51043次下載 | 免費
- 5555集成電路應用800例(新編版)
- 0.00 MB | 33562次下載 | 免費
- 6接口電路圖大全
- 未知 | 30320次下載 | 免費
- 7Multisim 10下載Multisim 10 中文版
- 0.00 MB | 28588次下載 | 免費
- 8開關(guān)電源設計實例指南
- 未知 | 21539次下載 | 免費
總榜
- 1matlab軟件下載入口
- 未知 | 935053次下載 | 免費
- 2protel99se軟件下載(可英文版轉(zhuǎn)中文版)
- 78.1 MB | 537791次下載 | 免費
- 3MATLAB 7.1 下載 (含軟件介紹)
- 未知 | 420026次下載 | 免費
- 4OrCAD10.5下載OrCAD10.5中文版軟件
- 0.00 MB | 234313次下載 | 免費
- 5Altium DXP2002下載入口
- 未知 | 233046次下載 | 免費
- 6電路仿真軟件multisim 10.0免費下載
- 340992 | 191183次下載 | 免費
- 7十天學會AVR單片機與C語言視頻教程 下載
- 158M | 183277次下載 | 免費
- 8proe5.0野火版下載(中文版免費下載)
- 未知 | 138039次下載 | 免費
評論
查看更多