精品国产人成在线_亚洲高清无码在线观看_国产在线视频国产永久2021_国产AV综合第一页一个的一区免费影院黑人_最近中文字幕MV高清在线视频

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

數據采集技術常用的采集方法包括幾種

RG15206629988 ? 來源:行業學習與研究 ? 2023-02-24 11:41 ? 次閱讀

大數據的來源主要包括:商業數據、互聯網數據、物聯網數據。其中,商業數據來源于企業的內部系統(如企業ERP、POS 終端系統、網上支付系統等);互聯網數據包括:QQ、微信、微博、網站數據;物聯網數據來源于物聯網硬件設備(如射頻識別裝置、全球定位設備、傳感器設備、視頻監控設備等)。

大數據的數據類型可分為三種:結構化數據、半結構化數據、非結構化數據。其中,結構化數據是關系數據庫中的數據,可直接被使用和存儲;半結構化數據可通過一定規律存儲,如excel表格中的數據;非結構化數據是雜亂無章的,如郵件、網頁的文字和圖像,需要進行相應的處理才可被存儲。

數據采集技術是數據科學的重要組成部分,技術是大數據處理的關鍵技術之一。常用的采集方法包括兩種:ETL工具采集、網頁數據采集。

一、ETL工具采集

ETL工具采集是將業務系統的數據通過抽取、清洗轉換后加載至數據倉庫的過程,目的是將企業中的分散零亂、標準不統一的數據整合,為企業的決策提供分析依據。

ETL采集是商業智能項目的重要環節,目前,互聯網公司會采用該技術獲取相關數據。

二、網頁數據采集

網頁數據采集是在互聯網中采集數據。網頁數據具有多元異構交互性、社會性、突發性、高噪聲等特點,非結構化數據比例較高,且數據實時性較強。

目前,網頁數據主要通過爬蟲采集。爬蟲采集需編寫爬蟲程序或爬蟲腳本,爬蟲流程是訪問一個url(根據網絡資料理解:url的中文名稱是統一資源定位符,統一資源定位符是互聯網資源位置和訪問方法的一種簡潔的表示,俗稱網址),并通過模仿HTTP請求(根據網絡資料:HTTP請求是指從客戶端到服務器端的請求消息)獲取網頁。爬蟲過程類似于通過瀏覽器查看并獲取網頁的信息

因為Python運行效率較高,且具有較成熟的爬蟲框架和網頁解析庫文件,所以可快速處理網絡數據。后文通過Python介紹爬蟲(網絡爬蟲)。

網絡爬蟲(Web crawler) 是按照一定規則,自動抓取萬維網(英文名稱為World Wide Web,簡稱WWW)信息的程序或腳本,一般可分為數據采集,處理,儲存三部分。

其中,數據采集是通過模仿HTTP請求獲取網頁,數據處理是對網頁中非結構化的數據進行處理,數據存儲包括將新URL放置于URL隊列中和將爬取的數據存儲至數據存儲介質中。

3b88a4c2-b364-11ed-bfe3-dac502259ad0.png

圖片來源:學堂在線《大數據導論》

網絡爬蟲的系統結構如下:首先啟動爬蟲應用程序。一般,爬蟲應用程序具有初始化隊列,初始化隊列中具有種子URL。然后,下載種子URL所對應的網頁,網頁中可提取新的URL并加入URL隊列。再然后,將網頁進行簡單處理后存儲至數據庫中。以上爬蟲過程結束后,再從URL隊列中獲取新URL,并下載新URL所對應的網頁,重復爬蟲過程。

3bafbf30-b364-11ed-bfe3-dac502259ad0.png

圖片來源:學堂在線《大數據導論》






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 傳感器
    +關注

    關注

    2548

    文章

    50740

    瀏覽量

    752148
  • 數據采集
    +關注

    關注

    38

    文章

    5925

    瀏覽量

    113539
  • ERP
    ERP
    +關注

    關注

    0

    文章

    503

    瀏覽量

    34355
  • POS
    POS
    +關注

    關注

    3

    文章

    119

    瀏覽量

    28294

原文標題:大數據相關介紹(12)——數據采集(上)

文章出處:【微信號:行業學習與研究,微信公眾號:行業學習與研究】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于USB數據采集系統的研究與設計--ResearchandDesignofDataAequisitio

    生產場合中常用數據采集技術,并且對數據采集的各種要求也越來越高。傳統的通信方式由于傳輸速度慢、抗干擾能力弱、安裝麻煩等原因嚴重阻礙了數據采集
    發表于 06-10 00:57

    什么是數據采集

    特征值。準確的數據測量是數據采集的基礎。數據量測方法有接觸式和非接觸式,檢測元件多種多樣。不論哪種方法和元件,均以不影響被測對象狀態和測量環
    發表于 01-28 08:24

    SMT行業數據采集技術

    與設備控制系統的集成,二是實現生產數據的實時收集。這需要對數據采集采集方式、參數的確定、軟硬件實現、信號處理方法等問題開展技術研究。1.1
    發表于 10-20 20:17

    常見的幾種不同的高速數據采集存儲系統介紹

    商用級的采集存儲供應商,一般會基于不同應用場景提供了不同的數據采集存儲方案。下面列出了常見的幾種不同的存儲系統:
    發表于 07-04 06:08

    淺談幾種主流數控機床的數據采集技術分享

    馬上即將畢業了,就自己在學校做的項目中包含有幾種主流數控系統需要進行數據采集,總結一下之前的一些經驗和開發工作,也希望后面再做相關技術研究的時候少踩點坑,同時也算是一個階段的總結吧,畢竟馬上要從事一
    發表于 07-02 06:38

    基于PDA的核數據采集系統的研究

    在比較數據采集幾種方案的基礎上, 討論了基于掌上型電腦的核數據采集系統的硬件和軟件實現, 包括串口電平不匹配問題的解決和多線程技術的應用,
    發表于 06-27 16:09 ?20次下載
    基于PDA的核<b class='flag-5'>數據采集</b>系統的研究

    基于PDA的核數據采集系統的研究

    在比較數據采集幾種方案的基礎上本文討論了基于掌上型電腦的核數據采集系統的硬件和軟件實現包括串口電平不匹配問題的解決和多線程技術的應用并且指
    發表于 04-18 10:46 ?0次下載

    基于FPGA的AD73360數據采集方法

    基于FPGA的AD73360數據采集方法
    發表于 05-10 11:24 ?29次下載

    工業數據采集類型與數據采集方法

    數據采集的類型上看,不僅要涵蓋基礎的數據,還將逐步包括半結構化的用戶行為數據,網狀的社交關系數據,文本或音頻類型的用戶意見和反饋
    的頭像 發表于 06-27 15:39 ?1.8w次閱讀

    數據采集技巧和技術

    問題,以優化數據采集系統性能并防止設備損壞或可能的操作員傷害。本文旨在加深對正確輸入配置實踐的理解,并作為幾種日常數據采集應用的參考。
    的頭像 發表于 12-02 16:13 ?964次閱讀

    數據采集網關怎么采集數據

    數據采集網關怎么采集數據?(數據采集流程)
    發表于 01-12 09:35 ?882次閱讀

    如何采集工業設備數據?工業數據采集方法有哪些?

    如何采集工業設備數據?一般可以使用以下幾種方法:? 1、使用Modbus協議進行數據采集? 2、使用OPC UA協議進行數據采集? 3、使用
    發表于 02-15 14:44 ?1221次閱讀
    如何<b class='flag-5'>采集</b>工業設備<b class='flag-5'>數據</b>?工業<b class='flag-5'>數據采集</b>的<b class='flag-5'>方法</b>有哪些?

    數據采集方法有哪些

    數據采集方法有哪些 數據采集方法 數據采集方法主要包括
    發表于 04-13 14:01 ?1.1w次閱讀

    AI數據采集標注類型:揭秘數據采集與標注的關鍵環節

    類型,包括數據采集的方式、數據標注的流程和注意事項等方面。 一、數據采集的方式 數據采集是指從各種來源收集
    的頭像 發表于 05-16 18:04 ?4344次閱讀

    數據采集網關:工業數據采集上云

    實現數據的整合、轉換和分析。數據采集網關功能數據采集網關具備了強大的數據采集能力。它可以從各種數據源中
    的頭像 發表于 12-12 16:46 ?759次閱讀
    <b class='flag-5'>數據采集</b>網關:工業<b class='flag-5'>數據采集</b>上云