银河Galaxy集团中心主页 - 银河Galaxy集团线路检测

华体会体育常用的数据采集方法有哪些？

发布日期：2024-04-10 访问量：来源：华体会HTH官方网站

数据科学交流群，群号：189158789 ，欢迎各位对数据科学感兴趣的小伙伴的加入！

01 网络公开数据集
02 数据报采集
03 网络爬虫
04 日志收集
05 社会调查
06 业务数据集
07 埋点采集
08 传感器采集
09 数据交易平台
10 个人数据收集

数据集，又称为资料集、数据集合或资料集合，是一种由数据所组成的集合。

Data set（或dataset）是一个数据的集合，通常以表格形式出现。每一列代表一个特定变量。每一行都对应于某一成员的数据集的问题。它列出的价值观为每一个变量，如身高和体重的一个物体或价值的随机数。每个数值被称为数据资料。对应于行数，该数据集的数据可能包括一个或多个成员。

数据采集(DAQ)，是指从传感器和其它待测设备等模拟和数字被测单元中自动采集非电量或者电量信号,送到上位机中进行分析，处理。数据采集系统是结合基于计算机或者其他专用测试平台的测量软硬件产品来实现灵活的、用户自定义的测量系统。

在计算机广泛应用的今天，数据采集的重要是十分显著的。它是计算机与外部物理世界连接的桥梁。各种类型信号采集的难易程度差别很大。实际采集时，噪声也可能带来一些麻烦。数据采集时，有一些基本原理要注意，还有更多的实际的问题要解决。

根据网络以及个人所学，提供十种数据收集的方法，依次如下：

网络上有哪些公开数据源可以用来做数据分析？ - PurStar - 博客园
https://www.cnblogs.com/purstar/p/14172128.html

要了解数据报采集，首先要明白什么是数据报？关于数据报的定义如下：

通过上面的定义不难看出，数据报是计算机网络中的概念，由此我们可以通过一些抓包工具来获取到有关于数据报的数据，比如常见的Wireshark，一些简介如下：

除了Wireshark以外，类似工具还有fiddler、Charles、Firebug、httpwatch、SmartSniff、……等等，对网络原理或者网络安全等主题感兴趣的小伙伴可以试试这些工具！

关于网络爬虫的定义如下：

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

通过网络爬虫我们可以爬取各种各样存在于网络中的数据，并将爬取的数据按照一定的格式存储在指定的数据存储文件系统或者数据库中，以便于做下一步的数据整理或者数据分析。

网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：

通用网络爬虫（General Purpose Web Crawler）

聚焦网络爬虫（Focused Web Crawler）

增量式网络爬虫（Incremental Web Crawler）

深层网络爬虫（Deep Web Crawler）

实际当中的网络爬虫系统通常是几种爬虫技术相结合实现的。

通用网络爬虫又称全网爬虫（Scalable Web Crawler），爬行对象从一些种子 URL 扩充到整个 Web，主要为门户站点搜索引擎和大型 Web 服务提供商采集数据。由于商业原因，它们的技术细节很少公布出来。这类网络爬虫的爬行范围和数量巨大，对于爬行速度和存储空间要求较高，对于爬行页面的顺序要求相对较低，同时由于待刷新的页面太多，通常采用并行工作方式，但需要较长时间才能刷新一次页面。虽然存在一定缺陷，通用网络爬虫适用于为搜索引擎搜索广泛的主题，有较强的应用价值。

志收集也是一种较为常见的场景，收集的数据可以用监控硬件设备或者软件系统的运行状况，当发生问题时，这些数据可以提供给运维工程师一些警报和有助于故障修复的关键信息。

对于一些中大型企业，机房管理的设备比较多，可以采用相关的日志收集方案，以便于接下来的数据分析和问题解决。这里就不介绍更多的关于日志收集的概念了，向常见的几款日志收集工具，有Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog、syslog-ng。

这里仅仅介绍三款，做一个对比：

Flume是一种分布式、高可靠和高可用的服务，用于高效地收集、聚合和移动大量日志数据。它有一个简单而灵活的基于流数据流的体系结构。它具有可调的可靠机制、故障转移和恢复机制，具有强大的容错能力。它使用一个简单的可扩展数据模型，允许在线分析应用程序。

Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent，Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员，内部有三个组件：

source: 采集源，用于跟数据源对接，以获取数据

sink：传送数据的目的地，用于往下一级agent或者最终存储系统传递数据

channel：agent内部的数据传输通道，用于从source传输数据到sink

Logstash 是开源的服务器端数据处理管道，能够同时从多个来源采集数据，转换数据，然后将数据发送到存储库中。数据从源传输到存储库的过程中，Logstash 过滤器能够解析各个事件，识别已命名的字段以构建结构，并将它们转换成通用格式，以便更轻松、更快速地分析和实现商业价值。

logstash是基于pipeline方式进行数据处理的，pipeline可以理解为数据处理流程的抽象。在一条pipeline数据经过上游数据源汇总到消息队列中，然后由多个工作线程进行数据的转换处理，最后输出到下游组件。一个logstash中可以包含多个pipeline。

Logstash管道有两个必需的元素，输入和输出，以及一个可选元素过滤器：

Input：数据输入组件，用于对接各种数据源，接入数据，支持解码器，允许对数据进行编码解码操作；必选组件；

output：数据输出组件，用于对接下游组件，发送处理后的数据，支持解码器，允许对数据进行编码解码操作；必选组件；

filter：数据过滤组件，负责对输入数据进行加工处理；可选组件；Logstash安装部署

pipeline：一条数据处理流程的逻辑抽象，类似于一条管道，数据从一端流入，经过处理后，从另一端流出；一个pipeline包括输入、过滤、输出3个部分，其中输入和输出部分是必选组件，过滤是可选组件；

instance：一个Logstash实例，可以包含多条数据处理流程，即多个pipeline；

event：pipeline中的数据都是基于事件的，一个event可以看作是数据流中的一条数据或者一条消息；

Filebeat是一个日志文件托运工具，在服务器上安装客户端后，Filebeat会监控日志目录或者指定的日志文件，追踪读取这些文件（追踪文件的变化，不停的读），并且转发这些信息到ElasticSearch或者Logstarsh中存放。

当你开启Filebeat程序的时候，它会启动一个或多个探测器（prospectors）去检测你指定的日志目录或文件，对于探测器找出的每一个日志文件，Filebeat启动收割进程（harvester），每一个收割进程读取一个日志文件的新内容，并发送这些新的日志数据到处理程序（spooler），处理程序会集合这些事件，最后filebeat会发送集合的数据到你指定的地点。

Filebeat介绍
Filebeat由两个主要组成部分组成：prospector和 harvesters。这些组件一起工作来读取文件并将事件数据发送到指定的output。

Harvesters：负责读取单个文件的内容。harvesters逐行读取每个文件，并将内容发送到output中。每个文件都将启动一个harvesters。harvesters负责文件的打开和关闭，这意味着harvesters运行时，文件会保持打开状态。如果在收集过程中，即使删除了这个文件或者是对文件进行重命名，Filebeat依然会继续对这个文件进行读取，这时候将会一直占用着文件所对应的磁盘空间，直到Harvester关闭。默认情况下，Filebeat会一直保持文件的开启状态，直到超过配置的close_inactive参数，Filebeat才会把Harvester关闭。

Prospector：负责管理Harvsters，并且找到所有需要进行读取的数据源。如果input type配置的是log类型，Prospector将会去配置路径下查找所有能匹配上的文件，然后为每一个文件创建一个Harvster。每个Prospector都运行在自己的Go routine里。

Filebeat目前支持两种Prospector类型：log和stdin。每个Prospector类型可以在配置文件定义多个。log Prospector将会检查每一个文件是否需要启动Harvster，启动的Harvster是否还在运行，或者是该文件是否被忽略（可以通过配置 ignore_order，进行文件忽略）。如果是在Filebeat运行过程中新创建的文件，只要在Harvster关闭后，文件大小发生了变化，新文件才会被Prospector选择到。

Flume

Logstash

Filebeat

内存

大

小

cpu

大

小

背压敏感协议

否

是

插件

需要些API

多

功能

从多种输入端采集数据并输出到多种输出端

从多种输入端采集并实时解析和转换数据并输出到多种输出端

传输

轻重

相对较重

轻量级二进制文件

过滤能力

自带了分区和拦截器功能

强大的过滤能力

有过滤能力但是弱

进程

一台服务器可以有多个进程，挂掉之后需要手动拉起

一台服务器只允许一个logstash进程,挂掉之后需要手动拉起

十分稳定

原理

当source接收到Event时，它将其存储到一个或多个channel中。channel是一个被动存储，它将事件保持到被Flume消耗为止。接收器将事件从channel中移除，并将其放入外部存储库（如HDFS）或将其转发到流中下一个Flume代理的source。给代理内的source和sink与在通道中分段的事件异步运行。

Logstash使用管道的方式进行日志的搜集和输出,分为输入input --> 处理filter（不是必须的） --> 输出output,每个阶段都有不同的替代方式

开启进程后会启动一个或多个探测器（prospectors）去检测指定的日志目录或文件，对于探测器找出的每一个日志文件，filebeat启动收割进程（harvester），每一个收割进程读取一个日志文件的新内容，并发送这些新的日志数据到处理程序（spooler），处理程序会集合这些事件，最后filebeat会发送集合的数据到你指定的地点。

编写语言

Java

Jruby

go语言

集群

分布式

单节点

输出到多个接收方

支持

6.0之前支持

二次开发或者扩展开发

一般

难

易

Flume更注重于数据的传输，对于数据的预处理不如Logstash。在传输上Flume比Logstash更可靠一些，因为数据会持久化在channel中。数据只有存储在sink端中，才会从channel中删除，这个过程是通过事物来控制的，保证了数据的可靠。Logstash是ELK组件中的一个，一般都是同ELK其它组件一起使用，更注重于数据的预处理，Logstash有比Flume丰富的插件可选，所以在扩展功能上比Flume全面。但Logstash内部没有persist queue，所以在异常情况下会出现数据丢失的问题。Filebeat是一个轻量型日志采集工具，因为Filebeat是Elastic Stack的一部分，因此能够于ELK组件无缝协作。Filebeat占用的内存要比Logstash小很多。能比较稳健，很少出现宕机。

参考链接：

流式数据采集和计算（三）：Flume、Logstash、Filebeat调研报告_叶子叶来-CSDN博客_filebeat和flume
https://blog.csdn.net/yezonggang/article/details/95174354

我们先来看一下什么是社会调查？

也许这个定义不是很好理解，但是比如我们做的调查问卷其实就是属于社会调查方法的一种，由于是讨论数据采集，我们只着重去说一下数据社会调查的常见方法，一般有九种，详细内容如下：

参考链接如下：

调查研究常用九大方法
http://www.360doc.com/content/17/0728/20/1233981_674866379.shtml

调查者在实地通过观察获得直接的、生动的感认识和真实可靠的第一手资料。但因该法所观察到的往往是事物的表面现象或外部联系，带有一定的偶然，且受调查者主观因素影响较大，因此，不能进行大样本观察，需结合其他调查方法共同使用。通常适用于对那些不能够、不需要或不愿意进行语言交流的情况进行调查。

该法是比实地观察法更深一层次的调查方法，它能获得更多、更有价值的信息，适用于调查的问题比较深入，调查的对象差别较大，调查的样本较小，或者调查的场所不易接近等情况。包括个别访谈法、集体访谈法、电话访谈法等。但由于访谈标准不一，其结果难以进行定量研究，且访谈过程耗时长、成本较高、隐秘差、受周围环境影响大，故难以大规模进行。

这种方法是访谈调查法的扩展和延伸，因其简便易行故在调查研究工作中比较常用。通过邀请若干调查对象以座谈会形式来搜集资料、分析和研究社会问题。最突出的优点是工作效率高，可以较快地了解到比较详细、可靠的社会信息，节省人力和时间。但由于这种做法不能完全排除被调查者之间的社会心理因素影响，调查结论往往难以全面反映真实的客观情况。且受时间条件的限制，很难做深入细致地交谈，调查的结论和质量在很大程度上受调查者自身因素影响等。

即间接的书面访问，该法最大优点是能突破时空的限制，在广阔的范围内，对众多的调查对象同时进行调查，适用于对现时问题、较大样本、较短时期、相对简单的调查，被调查对象应有一定文字理解能力和表达能力。如对某地区农村党员教育培训情况调查、中小学教师队伍科研现状的调查等。由于问卷调查法只能获得书面的社会信息，而不能了解到生动、具体的社会情况，因此该法不能代替实地考察，特别是对那些新事物、新情况，新问题的研究，因配合其他调查方法共同完成。

这是一种预测方法，即以专家作为索取信息的对象，依靠其知识和经验，通过调查研究，对问题作出判断和评估。最大优点是简便直观，特别适用于缺少信息资料和历史数据，而又较多地受到社会的、政治的、人为的因素影响的信息分析与预测课题。广泛应用于对某一方案做出评价，或对若干个备选方案评价出相对名次，选出最优者；对达到某一目标的条件、途径、手段及它们的相对重要程度做出估计等。

指按照一定方式，从调查总体中抽取部分样本进行调查，并用所得结果说明总体情况。它最大的优点是节约人力、物力和财力，能在较短的时间内取得相对准确的调查结果，具有较强的时效。组织全面调查范围广、耗时长、难度大，常采用抽样调查的方法进行检查和验证。比如开展全省党风廉政建设社会民意调查、流动党员现状社会调查等。局限在于抽样数目不足时会影响调查结果的准确。

指在特定范围内选出具有代表的特定对象进行调查研究，借以认识同类事物的发展变化规律及本质的一种方法。在调查样本太大时，可以采用此种方法。但必须注意对象的选择，要准确地选择对总体情况比较了解、有代表的对象。如某地级市开展对区县市农村党员致富情况的调查，应选取经济发展较快、农村党员致富能力较强的县市作为典型调查对象。

通过分析固定统计报表的形式，把下边的情况反映上来的一种调查方法。由于统计报表的内容是比较固定的，因此适用于分析某项事物的发展轨迹和未来走势。如通过党员统计年报表，可以分析出某地全年党员的发展、转接、流动等情况，并能分析出比上年同期增减情况，还可对下一步趋势作出预测。运用统计调查法，特别应注意统计口径要统一，以统计部门的数字为准，报表分析和实际调查相结合，不能就报表进行单纯分析。如对某一个数据大幅度上升或下降的原因，报表中难以反映出来，只有通过实际调查才能形成完整概念。

通过对文献的搜集和摘取，以获得关于调查对象信息的方法。适用于研究调查对象在一段时期内的发展变化，研究角度往往是探寻一种趋势，或弄清一个演变过程。这种方法能突破时空的限制，进行大范围地调查，调查资料便于汇总整理和分析。同时，还具有资料可靠、用较小的人力物力收到较大效果等优点。但它往往是一种先行的调查方法，一般只能作为调查的先导，而不能作为调查结论的现实依据。

相信在很多公司都会有相应日常运营和业务部门，各种相关的数据都会记录在某些文件或者系统中，例如常见的Excel 文件，各种办公系统的数据库系统等等，一般公司DBA人员可能会给数据分析人员开放一定的查询权限，以供数据分析人员提取相应的业务数据集，也有可能在提取的时候会涉及到一些数据脱敏的问题。

什么是数据脱敏？

数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形，实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业敏感数据的情况下，在不违反系统规则条件下，对真实数据进行改造并提供测试使用，如身份证号、手机号、、客户号等个人信息都需要进行数据脱敏。

说白了数据脱敏的意义就在于保护客户的重要隐私信息，但在保护的同时，也不能够使得数据分析变得没有意义。

相对于这一块来说，重要的是要学习好数据库的相关语言SQL，只有对SQL掌握足够充分才能在提取和分析数据时，能够快速准确的完成相应的工作任务！

埋点分析，是应用系统分析的一种常用的数据采集方法。数据埋点分为初级、中级、高级三种方式。数据埋点是一种良好的私有化部署数据采集方式。

数据埋点分为初级、中级、高级三种方式，分别为：

传感器（英文名称：transducer/sensor）是一种检测装置，能感受到被测量的信息，并能将感受到的信息，按一定规律变换成为电信号或其他所需形式的信息输出，以满足信息的传输、处理、存储、显示、记录和控制等要求。

传感器的特点包括：微型化、数字化、智能化、多功能化、系统化、网络化。它是实现自动检测和自动控制的首要环节。传感器的存在和发展，让物体有了触觉、味觉和嗅觉等感官，让物体慢慢变得活了起来。通常根据其基本感知功能分为热敏元件、光敏元件、气敏元件、力敏元件、磁敏元件、湿敏元件、声敏元件、放射线敏感元件、色敏元件和味敏元件等十大类。

我们可以通过装有各种传感器的软硬件结合装置，可以轻松的获取真实物理世界中的各种相关数据。比如我们用的摄像头、录音设备、体温检测、气候检测……等等设备，一般这种设备会内置很多各种样式的传感器，其实对于数据分析人员来说，不用了解太多关于传感器的原理，更重要的是要理解数据的来源在哪里，以及传感器本身采集数据的一些特，比如说误差、灵敏度、使用环境等等这些影响数据采集效果的内容。所以这里就不过多的赘述了。

大家常说的数据交易平台，官方名字叫做大数据交易所，定义如下：

大数据交易所经营范围包括大数据资产交易、大数据金融衍生数据的设计及相关服务；大数据清洗及建模等技术开发；大数据相关的金融杠杆数据设计及服务；经大数据交易相关的监督管理机构及有关部门批准的其他业务。大数据交易所将为数据商开展数据期货、数据融资、数据抵押等业务，建立交易双方数据的信用评估体系，增加数据交易的流量，加快数据的流转速度。数据品种包括政府、医疗、金融、企业、电商、能源、交通、商品、消费、教育、社交、社会这十二类大数据。

全国首家大数据交易所——贵阳大数据交易所2015年4月15日正式挂牌，并完成了与深圳市腾讯计算机系统有限公司、广东省数字广东研究院，买方为京东云平台、中金数据系统有限公司的首批数据交易。首批数据交易的完成，标志着全国首个大数据交易所正式投入运营。同时，在交易所平台基础上，大数据领域的相关专家、学者、企业等多方共同组建大数据交易商（贵阳）联盟，首期对接的企业包括阿里巴巴、苏宁易购、国美在线等100多家企业。

当然到了现在，已经很多大数据交易所了，关于更多的关于数据交易平台有哪些可以参考这个链接：

国内有哪些好的“数据交易”平台，如像淘宝一样的平台？ - 知乎
https://www.zhihu.com/question/51283796

最后我们来谈谈个人数据，其实现在网上都讲这个数据化管理，其实更多是用于企业或者相关的组织中，但是我们仔细思考一下，如果自己对于自己的要求很严格的情况下，其实也可以对个人管理领域展开数据收集，然后是做个人数据的分析，最终指导自己人生的走走向。

举个例子，比如我们的个人财务状况，可以使用Excel进行基本的财务分析，然后根据我们自身的财务状况进行理财规划。

再比如，我们可以对于自己的时间进行统计，这就是著名的时间统计法，有兴趣的小伙伴可以了解一下，《奇特的一生》这本书，它讲的就是柳比歇夫的时间统计法。

还比如，我们可以对日常做的任务进行统计，从而得出各个时间点的办事效率，从而归纳出自己生物钟的规律，关于生物钟的内容，极力推荐《神奇的人体生物钟》和《时机管理》这类书籍，你可以用数据的统计分析结果来看看里面的内容讲的对不对。

……

生活的方方面太多了，我们都可以通过收集收集的方式进行自我记录，当我们想在某一方面获取达到企望的决策的时候，数据分析就成了一个有力抓手，比如我们要买房可以通过房价数据进行分析挑选到合适的房子，同样的例子还有基金，我们可以分别研究基金和基金经理数据的一些特征，从而筛选出合适的投资基金……

华体会最新地址

例子太多，这里就不赘述，当我们开始采取各种各样的方式收集自己的数据的时候，其实也是开始了一种新的人生模式，量化人生。相信这样的人生也会给你带来不一样的精彩，

以上就是常用的10种数据采集方式，本文就在这里结束了。

常用的数据采集方法有哪些？