项目概述

本模块负责从多个数据源采集原始数据,进行初步清洗后写入数据仓库,供下游分析模块使用。

当前进度

模块 状态 预计完成 备注
数据接入层 ✅ 已完成 2026-05-10 已接入 3 个数据源
清洗管道 🔄 进行中 2026-06-15 缺失值处理待优化
写入逻辑 ⏳ 待开始 2026-07-01 依赖清洗管道完成
单元测试 ⏳ 待开始 2026-07-10

技术方案

数据接入层

采用 Kafka 作为消息队列,消费端由三个独立 Worker 负责不同数据源的协议适配。

class DataConsumer:
    def __init__(self, topic: str, schema: Schema):
        self.consumer = KafkaConsumer(topic)
        self.schema = schema

    def run(self):
        for msg in self.consumer:
            record = self.schema.parse(msg.value)
            self.pipeline.push(record)

当前瓶颈

清洗管道在处理时序数据中的连续缺失值时,插值策略还需与导师进一步确认。目前暂用线性插值作为占位方案。

下一步计划

  1. 完成清洗管道中的异常值检测逻辑
  2. 与导师讨论缺失值插值策略(需批注
  3. 搭建写入层骨架代码

参考资料

批注与讨论

导师可在此对文档进行批注;学生可查看所有批注内容。 评论需要 GitHub 账号登录。