项目概述
本模块负责从多个数据源采集原始数据,进行初步清洗后写入数据仓库,供下游分析模块使用。
当前进度
| 模块 | 状态 | 预计完成 | 备注 |
|---|---|---|---|
| 数据接入层 | ✅ 已完成 | 2026-05-10 | 已接入 3 个数据源 |
| 清洗管道 | 🔄 进行中 | 2026-06-15 | 缺失值处理待优化 |
| 写入逻辑 | ⏳ 待开始 | 2026-07-01 | 依赖清洗管道完成 |
| 单元测试 | ⏳ 待开始 | 2026-07-10 | — |
技术方案
数据接入层
采用 Kafka 作为消息队列,消费端由三个独立 Worker 负责不同数据源的协议适配。
class DataConsumer:
def __init__(self, topic: str, schema: Schema):
self.consumer = KafkaConsumer(topic)
self.schema = schema
def run(self):
for msg in self.consumer:
record = self.schema.parse(msg.value)
self.pipeline.push(record)
当前瓶颈
清洗管道在处理时序数据中的连续缺失值时,插值策略还需与导师进一步确认。目前暂用线性插值作为占位方案。
下一步计划
- 完成清洗管道中的异常值检测逻辑
- 与导师讨论缺失值插值策略(需批注)
- 搭建写入层骨架代码
参考资料
- Kafka 官方文档
- 组内技术分享 PPT(见附件)
批注与讨论
导师可在此对文档进行批注;学生可查看所有批注内容。 评论需要 GitHub 账号登录。