项目 A：数据采集模块 · 非常兔子的网站

项目概述

本模块负责从多个数据源采集原始数据，进行初步清洗后写入数据仓库，供下游分析模块使用。

当前进度

模块	状态	预计完成	备注
数据接入层	✅ 已完成	2026-05-10	已接入 3 个数据源
清洗管道	🔄 进行中	2026-06-15	缺失值处理待优化
写入逻辑	⏳ 待开始	2026-07-01	依赖清洗管道完成
单元测试	⏳ 待开始	2026-07-10	—

技术方案

数据接入层

采用 Kafka 作为消息队列，消费端由三个独立 Worker 负责不同数据源的协议适配。

class DataConsumer:
    def __init__(self, topic: str, schema: Schema):
        self.consumer = KafkaConsumer(topic)
        self.schema = schema

    def run(self):
        for msg in self.consumer:
            record = self.schema.parse(msg.value)
            self.pipeline.push(record)

当前瓶颈

清洗管道在处理时序数据中的连续缺失值时，插值策略还需与导师进一步确认。目前暂用线性插值作为占位方案。

下一步计划

完成清洗管道中的异常值检测逻辑
与导师讨论缺失值插值策略（需批注）
搭建写入层骨架代码

参考资料

Kafka 官方文档
组内技术分享 PPT（见附件）

批注与讨论

导师可在此对文档进行批注；学生可查看所有批注内容。评论需要 GitHub 账号登录。