Flink Remote Shuffle 开源:面向流批一体与云原生的 Shuffle 服务

Flink Remote Shuffle 开源:面向流批一体与云原生的 Shuffle 服务
Flink Remote Shuffle 是一种批场景下利用外部服务完成任务间数据交换的 Shuffle 实现,本文后续将详细介绍 Flink Remote Shuffle 研发的背景,以及 Flink Remote Shuffle 的设计与使用。

阅读全文>>

阅读全文...

Flink CDC 系列 - 实现 MySQL 数据实时写入 Apache Doris

Flink CDC 系列 - 实现 MySQL 数据实时写入 Apache Doris
本文通过实例来演示怎么通过 Flink CDC 结合 Doris 的 Flink Connector 实现从 Mysql 数据库中监听数据并实时入库到 Doris 数仓对应的表中。    

阅读全文>>

阅读全文...

云数据库MongoDB FAQ

云数据库MongoDB FAQ

MongoDB 功能定位是怎样的?

MongoDB 介于Memcached 和关系型数据库之间,扩展性和性能上, MongoDB 更接近于 Memcached,功能上,MongoDB 更接近于关系型数据库。

MongoDB 部署模型是怎样的?

在生产环境中,MongoDB 经常会部署成一个三节点的复制集,或者一个分片集群。

1. MongoDB 部署为一个复制集时,应用程序通过驱动,直接请求复制集中的主节点,完成读写操作。 另外两个从节点,会自动和主节点同步,保持数据的更新。

2. MongoDB 被部署为一个分片集群时,应用程序通过驱动,访问路由节点,也就是 Mongos 节点 Mongos 节点会根据读写操作中的片键值,把读写操作分发的特定的分片执行,然后把分片的执行结果合并,返回给应用程序。

MongoDB 复制集主节点遇到故障会如何处理?

在集群运行的过程中,万一主节点遇到故障,两个从节点会在几秒的时间内选举出新的主节点,继续支持应用的读写操作。

MongoDB 分片集群中集群数据是如何分布的?

元数据记录在 Config Server 中,这也是一个高可用的复制集。每个分片管理集群中整体数据的一部分,也是一个高可用复制集。此外,路由节点,也就是 Mongos 节点在生产环境通常部署多个。这样,整个分片集群没有任何单点故障。

MongoDB 和关系型数据的有哪些概念可以对应?

关系型数据通常有数据库和表的概念,对应在 MongoDB 里有数据库和集合关系;数据库有主表和子表,对应 MongoDB 通常使用内嵌的子文档或内嵌数组;关系型数据里有 Index 索引,MongoDB也有类似概念;关系数据库里一条数据称为一行,MongoDB 称为一个文档 Document;关系型数据库里面的列,对应到 MongoDB 成为一个字段 Field;关系数据库里面经常使用 Join 连接操作,对应 MongoDB 通常使用内嵌方式解决,如果使用 Linking 方式,对应使用$Lookup 操作符也可支持左外链接;关系型数据库里面还有视图,对应 MongoDB 也有只读视图和按需物化视图;关系型数据库里面会有 ACID 的多记录事务,对应的 MongoDB 里面会有 ACID 的多文档事务。

MongoDB 数据结构是怎样的?

MongoDB 采用 JSON 文档结构,支持如下数据格式: 字符串、数字、布尔、空值、数组、对象。

为什么 MongoDB 只有左连接?

反范式设计

读取效率低下

Join 这种操作上是违反MongoDB 设计的初衷的,这样操作经常要对两个表的不同数据进行连接操作,这些数据在物理存储的时候,通常不是在相邻的区域里面,读取的效率比较低

分布式环境

MongoDB 是一个分布式的环境,校验操作的左右两边如果都是一个分片的表,当进行 Join 操作的时候,左边有一个又有一条数据,它可能在分片一上要连接的一个数据可能在分片二上,下一条数据可能又是另外一种情况,这种情况下数据库很难保证整个操作的性能。

MongoDB 频繁的插入和删除会有什么问题?

MongoDB数据库在长期频繁地删除写入数据或批量删除了大量数据后,将产生很多物理空间碎片。这些碎片会占用磁盘空间,降低磁盘利用率。

MongoDB 磁盘碎片率如何计算?

# 一次性查看所有collection碎片率

function getCollectionDiskSpaceFragRatio(dbname, coll) {

  var res = db.getSiblingDB(dbname).runCommand({

      collStats: coll

  });

  var totalStorageUnusedSize = 0;

  var totalStorageSize = res['storageSize'] + res['totalIndexSize'];

  Object.keys(res.indexDetails).forEach(function(key) {

      var size = res['indexDetails'][key]['block-manager']['file bytes available for reuse'];

      print("index table " + key + " unused size: " + size);

      totalStorageUnusedSize += size;

  });

  var size = res['wiredTiger']['block-manager']['file bytes available for reuse'];

  print("collection table " + coll + " unused size: " + size);

  totalStorageUnusedSize += size;

  print("collection and index table total unused size: " + totalStorageUnusedSize);

  print("collection and index table total file size: " + totalStorageSize);

   print("Fragmentation ratio: " + ((totalStorageUnusedSize * 100.0) / totalStorageSize).toFixed(2) + "%");

}

use xxxdb

db.getCollectionNames().forEach((c) => {print("\n\n" + c); getCollectionDiskSpaceFragRatio(db.getName(), c);});

 

MongoDB 主备切换时机是什么时候?

1.  主节点不可用;

2.  新增节点(更高的 Priority);

3.  主动运维,rs.stepDown() or rs.reconfig()

MongoDB 主备切换流程是怎样的?

1.  副本集之间保持心跳(默认 2 秒探测一次);

2.  如果超出 ElectionTimeoutMillis(默认 10 秒)没有探测到主节点,Secondary 节点 会发起选举,发起前检查自身条件:Priority 是否大于0、当前状态是否够新;

3.  在真正选举前,会先进行一轮空投(Dry-Run),避免当前 Primary 无意义的降级( StepDown),因为 Primary 收到其他节点且 Term 更高的话则会降级;

4.  Dry-Run 成功后,会增加自身的 Term 发起真正的选举,如果收到多数派的选票则选举成功,把新的拓扑信息通过心跳广播到整个副本。

MongoDB 写入一个文档有哪些步骤?

1.  单行事务对表写一条记录

2.  MongoDB 会添加一个_ID 字段,会将索引项写到_ID 索引中;

3.  将索引项写到用户创建的索引当中。

4.  唯一索引检查 Key 是否重复,检查索引表里这个记录是否已经存在,如果存在的话则会报错;

5.  写入操作日志到复制表,将写操作同步到 Secondary 节点上。

选择 MongoDB 有哪些技术指标参考?

l  数据量。假设单表里面要保存的处理数据超过亿或者10亿的级别,而且使用挺频繁,这个时候就可以考虑使用 MongoDB

l  数据结构模型不确定,或者明确会多变

l  高并发读写,MongoDB 通过分片直接支持。

阅读全文...

云原生数据仓库AnalyticDB支撑双11,大幅提升分析实时性和用户体验

云原生数据仓库AnalyticDB支撑双11,大幅提升分析实时性和用户体验
简介: 2021年双十一刚刚落幕,已连续多年稳定支持双十一大促的云原生数据仓库AnalyticDB,今年双十一期间仍然一如既往的稳定。除了稳定顺滑的基本盘之外,AnalyticDB还有什么亮点呢?下面我们来一一揭秘。

阅读全文>>

阅读全文...

双11实时物流订单最佳实践

双11实时物流订单最佳实践
简介: 随着双11的开启,物流业也迎来了年度大考。2021年双11期间,递四方作为物流仓储服务方,布局仓库和分拣点超40+个,50w+平米作业场地,单日订单峰值达千万级别,海量购物订单由递四方配送到家,消费者由尾款人秒变收货人。

阅读全文>>

阅读全文...

基于云计算技术的数字孪生在船舶平台的应用

基于云计算技术的数字孪生在船舶平台的应用
简介: 数字孪生近些年热门起来,源自于数字化转型的需求及基础技术平台成熟的推动,尤其是得益于云计算平台的发展和成熟。 什么是数字孪生? 数字孪生和云计算的关系是? 它从而而来,又走向何方呢? 在船舶行业如何运用?

阅读全文>>

阅读全文...

包年购买K8S集群的省钱之道

包年购买K8S集群的省钱之道
简介: 利用5000块代金券包年购买K8S集群的过程分享,希望对大家有所帮助。

阅读全文>>

阅读全文...