python 消费 kafka 指定时间段消息

root • 2022年3月2日

一、项目背景
二、安装 confluent_kafka
三、示例代码

一、项目背景

监控 filebeat 收集上报到的数据条数，是否与原始日志一致。

实现：消费 kafka topic 5分钟前3分钟内的数据，并取样一分钟的数据用于比对源数据条数和 kafka 数据是否一致

本文示例运行环境：

操作系统：CentOS Linux release 7
Python 版本：Python 3.6.10
pip 版本：21.3
Kafka server 版本： 2.2.0

二、安装 confluent_kafka

建议先升级 pip 到最新版，否则可能需要安装 kafka 依赖库。

pip install -U pip
pip install 'confluent-kafka==1.7.0'

三、示例代码

#!/usr/bin/env python
import json
import time
from datetime import datetime, timedelta
from confluent_kafka import Consumer, TopicPartition, KafkaException


conf = {
    'bootstrap.servers': '192.168.1.150:9092,192.168.1.148:9092,192.168.1.149:9092',
    'group.id': 'mygroup1',
    'auto.offset.reset': 'earliest',
    'enable.auto.commit': False
}

now = datetime.now() 
start_time = (now - timedelta(minutes=6)).replace(second=0,microsecond=0)
sample_time = start_time + timedelta(minutes=1)
end_time = start_time + timedelta(minutes=3)


print('当前时间 %s 消费kafka时间段： %s - %s ，对比日志时间段： %s' 
          % (now.strftime('%Y-%m-%d %H:%M:%S'), 
            start_time.strftime('%Y-%m-%d %H:%M:%S'),
            end_time.strftime('%Y-%m-%d %H:%M:%S'), 
            sample_time.strftime('%Y-%m-%d %H:%M:%S')))

topic = 'my_topic'
consumer = Consumer(conf)


c = consumer

tmp = c.list_topics(topic=topic).topics[topic].partitions

start_topic_partitions_to_search = list(
    map(lambda p: TopicPartition(topic, p, int(start_time.timestamp()*1000)), range(len(tmp))))
start_offset = c.offsets_for_times(start_topic_partitions_to_search)

end_topic_partitions_to_search = list(
    map(lambda p: TopicPartition(topic, p, int(end_time.timestamp()*1000)), range(len(tmp))))
end_offset = c.offsets_for_times(end_topic_partitions_to_search)


def read_kafka():
    f = open('msg.txt', 'w')
    #
    for p in start_offset:
        c.assign([p])
        while True:
            msg = c.poll(1.0)
            if not msg:
                break
            if msg.error():
                raise KafkaException(msg.error())
            else:
                offset = msg.offset()
                if offset < end_offset[msg.partition()].offset:
                    f.write(msg.value().decode() + '\n')
                else:
                    c.unassign()
                    break

    c.close()
    f.close()

read_kafka()

《神魔之子》- 作者: 晨星

2025年2月12日

《神魔之子》作者: 晨星出版社: 重庆出版社出版年: 2006-1 页数: 288 页定价: 22.0 装帧: 平装 ISBN: 9787536675339 《神魔之子》下载相关链接：神魔之子 - 抖音百科神魔之子 - 豆瓣神魔之子 - 百度百科

virtualbox 调整磁盘大小

2024年12月19日

扩容 vdi 硬盘： VirtualBox 版本 7.0.8 Guest OS: Ubuntu 20.04.3 LTS 点击 "管理" > "工具" > "虚拟介质管理" 。磁盘分区扩容 sudo apt-get update sudo apt-get install -y cloud-guest-utils sudo LC_ALL=en_...

rsync 删除大量小文件

2014年9月9日

在使用 Linux 的时候，有时会遇到某个文件夹下有大量的小文件。如：/tmp 目录。当你使用 rm 命令来删除的时候。可能会很慢，有时会报错。例如： root@vz101:~# rm -rf * -bash: /bin/rm: Argument list too long 那么，你可以试试使用 rsync 来删除文件。原理就是，使用一个空目录同步到目标文件，在同步前删除。（也可以...