InfraPub 为您找到相关结果 5

Scrapy 架构及数据流图简介

Scrapy 是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。本文着重介绍 Scrapy 架构及其组件之间的交互。 Scrapy 组件介绍 Scrapy Engine 引擎负责控制在系统中所有组件中流动,并在相应动作发生时触发事件。 详细内容查看下面的(Data Flow)部分。 调度器(Scheduler) 调度器从引擎接受request并将他们入队,以便之后引擎请求他们时提供给引擎。 下载器(Downloader) 下载器负责获取页面数据并提供给引擎,而后提供给spider。 Spiders Spider 是 Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的...阅读全文

博文 2017-07-23 22:56:26 debian.cn

Debian已着手部署补丁:修复WPA2安全漏洞

昨天最令人感到惊讶和担忧的就是,服役超过13年的WPA2加密协议已经被攻破,意味着在你家或办公室 Wi-Fi 物理覆盖范围内的攻击者,都可以向破解并发动入侵,监听你的网络活动、拦截不安全或未加密的。针对本次严重的安全漏洞,包含Debian Linux在内的诸多系统厂商已经着手部署安全补丁,以便于提供更安全的上网环境。 该补丁已经修复了Common Vulnerabilities and Exposures(CVE)的如下漏洞 CVE-2017-13077 CVE-2017-13078 CVE-2017-13079 CVE-2017-13080 CVE-2017-13081 CVE-2017-13082 CVE-2017-13086 CVE-2017-13087 CVE-2017...阅读全文

博文 2017-10-17 13:32:27 debian.cn

Golang 应用集成 Prometheus 统计数据支持

基本概念 Prometheus 所有采集的监控数据均以指标(metric)的形式保存在内置的时间序列数据库当中(TSDB):属于同一指标名称,同一标签集合的、有时间戳标记的。除了存储的时间序列,Prometheus 还可以根据查询请求产生临时的、衍生的时间序列作为返回结果。 样本在时间序列中的每一个点称为一个样本(sample),样本由以下三部分组成: 指标(metric):指标名称和描述当前样本特征的 labelsets; 时间戳(timestamp):一个精确到毫秒的时间戳; 样本值(value): 一个 folat64 的浮点型数据表示当前样本的值。 {

博文 2022-11-24 10:33:09 CSDN博客

Apache Flink 1.14 新特性预览 - OSCHINA

在引擎层面,API 层面和算子的执行层面上做到了真正的流与批用同一套机制运行。但是在任务具体的执行模式上会有 2 种不同的模式: 下图是不同的执行模式: 对于无限的,统一采用了流的执行模式。流的执行模式指的是所有计算节点是通过 Pipeline 模式去连接的,Pipeline 是指上游和下游计算任务是同时运行的,随着上游不断产出数据,下游同时在不断消费数据。这种全 Pipeline 的执行方式可以: 通过 eventTime 表示数据是什么时候产生的; 通过 watermark 得知在哪个时间点,数据已经到达了; 通过 state 来维护计算中间状态; 通过 Checkpoint 做容错的处理。 这两种各有优劣,可以根据作业的具体场景来进行选择。 对于有限的数据集有 2 种执行模式,我...阅读全文

博文 2021-09-05 07:26:58 中文开源技术交流社区

CCPA vs. GDPR:欧美这两部个人数据保护法有什么差异?

否落入加州CCPA管辖。 2.3 小结 相比而言,GDPR的管辖较广泛,管辖逻辑复杂,只要与欧盟、欧盟居民、向欧盟输出产品服务或监控欧盟个人等因素相关,即大概率落入GDPR管辖范围。 相反,CCPA管辖逻辑简明,聚焦于管辖“以营利目的处理个人信息的企业”,为被管辖实体设置了“年收入金额门槛”和“消费者、家庭和设备数量门槛”,注重对于风险影响程度和范围较大的实体进行管辖,执法的针对性就更强。 3. 数据跨境传输管控:GDPR环环相扣严格限制,CCPA无明确规定 3.1 GDPR对跨境传输的授权与限制——五道“关口” GDPR对数据跨境传输到欧盟境外的情况规定了较为严格的条件。从立法价值取向上,通过以下“五步走”的方式[11],GDPR就为出欧洲经济区(EEA)设置了层层关口,且GDPR给...阅读全文