基于学习行为数据的在线教育学生风险预警系统

用学生学期早期的学习行为，提前预测谁会挂科/退课的风险预警系统。基于英国开放大学 OULAD 真实数据多表关联，XGBoost 把 AUC 做到 0.908，再用 SHAP 讲清每个风险信号——配套带注释代码、技术文档、面试问答和整套现成配图。

任务类型机器学习
专业方向数据科学 · 人工智能 · 计算机 · 教育技术

项目亮点

样本：32,593 条学生-课程（28,785 名学生），50 维特征，风险占比 52.8%。
SHAP Top 信号：早期平均得分 > 早期作业提交次数 > 早期活跃天数。
早预警：所有行为特征仅取学期前 1/3；防泄漏：剔除退课日期 `date_unregistration`。
交付：28 页技术说明 PDF（9 章 + 两版简历 + 15 问答）、20 张数据图、3 张 AI 架构/概念图。

如果你想找一个能写进简历、面试时又能从头讲清楚的 AI 项目，这个「用学习行为数据，提前预警学生挂科退课」的题目会很合适——它有真实的大规模数据、有完整的机器学习流程，还有一个面试官特别爱聊的「可解释」收尾。

它的配套都给你备齐了，帮你真正搞懂它、在面试和答辩里讲明白：带中文注释、能读懂的代码，一份图文并茂的技术文档，一份把面试可能追问的点连参考答案都写好的问答文档，还有一整套可以直接拿去做 PPT 的配图。

flowchart LR A["OULAD 多表 (点击/作业/注册/人口)"] --> B["多表关联 学生-课程一条样本"] B --> C["早预警特征 (只取学期前 1/3 行为)"] C --> D["三类模型 LR / RF / XGBoost"] D --> E["风险打分 0~1 AUC 0.908"] E --> F["SHAP 解释 高危学生 + 干预"]

先说清楚，它到底在做什么

在线教育最头疼的事，是学生「悄无声息地掉队」——等期末成绩出来才发现挂科或退课，早就来不及补救了。如果能在学期刚过三分之一的时候，就根据一个学生的学习行为判断出「这人有风险」，老师就能提前介入、把人拉回来。这就是这个项目要解决的事。

数据用的是英国开放大学公开的 OULAD——近 2.9 万名学生、上千万条平台点击记录，分散在好几张表里：有人的基本信息、有选课注册、有每天点了多少次课件、有每次作业交了没、得了多少分。项目要做的第一步，就是把这些表用「学生 + 课程」这个钥匙关联起来，聚合成一条条能喂给模型的样本；然后把「最终挂科或退课」定义成有风险=1，「通过或优秀」定义成没风险=0，变成一个标准的二分类问题。

项目流程图 — 从多表原始数据到分级预警的全流程——面试讲项目，照着这条线三句话就能讲完整。

这个项目最巧的设计，是「只用早期行为」。 如果把整个学期的数据都拿来预测，那等于开卷考试——还没出成绩你就用了期末的行为，结论好看但没用。项目特意只截取学期前 1/3 的点击和作业行为来建特征，模拟「学期没结束就提前识别」的真实场景；同时把「退课日期」这种会直接泄露答案的字段剔掉。这套「早预警 + 防数据泄漏」的思路，正是它和普通建模作业拉开差距的地方。

早期得分与风险率关系 — 仅凭学期早期的作业平均分，风险率就呈漂亮的单调下降——最左边「作业没提交」那一组风险率近 99%。这张图一摆，就能讲清「为什么早期行为足以预警」。

搞懂它，你能在面试里讲清楚什么

这才是这个项目对你最大的价值。把下面几件事吃透，面试官顺着项目往下问，你都能从容接住。

为什么用 AUC 而不是准确率来评判。 这道题几乎一定会被问。风险和非风险的样本比例并不均衡，光看「准确率」很容易被多数类带偏——一个把所有人都判成「没风险」的废模型，准确率也可能不低。AUC 衡量的是模型「把高危学生排在前面」的排序能力，对这种不平衡、又重视召回的预警场景才公允。你能把这层道理讲明白，比只会报一个数字的人专业得多。

三类模型怎么比、为什么 XGBoost 赢。 项目老老实实对比了逻辑回归、随机森林、XGBoost 三条线，每个都给了 AUC / F1 / 准确率 / 召回的完整指标。你能讲清楚：线性模型当基线、树模型抓非线性、XGBoost 靠梯度提升 + 类别不平衡加权拿到最优 AUC 0.908——有基线、有对比、有结论，这就是面试官想看到的科研思维。

三类模型性能对比 — 面试常问「你比了哪些模型、谁更好」，照着这张对比图，AUC 一路从 0.893 抬到 0.908，讲起来有理有据。

怎么用 SHAP 把「模型凭什么这么判」讲明白。 预警系统最怕变成「黑箱」——老师凭什么相信一个分数？项目用 SHAP 把每个特征对风险的贡献量化出来：早期平均得分、早期作业提交次数、早期活跃天数是最强的三个风险信号。你不仅能说「模型准」，还能说「模型在看什么、看得对不对」，这正是当下面试最爱深挖的可解释性能力。

SHAP 蜂群图 — 蜂群图：每个点是一名学生，能看出特征值高低如何把风险推高或拉低

下面这组结果图也都给你做好了，可以直接放进答辩或面试 PPT：

更关键的是，每一张图是怎么跑出来的、该怎么解读，技术文档里都讲清楚了——所以你不是只会往 PPT 上贴图，而是能说明白每张图到底说明了什么。

面试官会问的，都帮你备好了

随便感受几个这个项目真实会被追问的问题：

你这套「早预警」是怎么防止用到未来信息、造成数据泄漏的？

类别不平衡的情况下，为什么用 AUC 而不是准确率？召回又该怎么权衡？

上千万行的行为表怎么关联、怎么聚合成一条样本而不撑爆内存？

看到这几个是不是会愣一下？正常。配套的面试问答文档把这个项目——从整体思路到每个流程细节，各种面试可能追问的点——连参考答案都给你写好了。

另外还有现成的简历描述，照着改就能写进简历；那一整套配图也能直接套进 PPT 模板，快速出一份面试 / 答辩 PPT。你要做的不是背，而是理解，再用自己的话讲一遍。

配套资料：搞懂一个项目需要的，这里全都有

先看那份技术文档——从研究背景、数据探索一直讲到模型评估与可解释性分析，图文并茂，帮你把原理从头吃透：

代码也给你了——关键部分都带着中文注释，帮你读懂「它到底是怎么实现的」，面试被追问细节时也答得上来：

技术文档、面试问答、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它，需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个有分量的项目，还是在准备面试，这个题目都接得住。它既有真实大规模数据上的工程处理（多表关联、千万行聚合、防泄漏），又有完整的建模对比和当下最吃香的可解释性分析。专业上，数据科学、人工智能、计算机、信息管理，以及教育技术、教育学、心理学方向都很合适——尤其是想做「教育数据挖掘」这类既有社会价值又有技术含量题目的同学。把它真正搞懂、能讲出来，就是一个能写进简历、撑得起面试的项目。

想把这样的项目做成你简历上的亮点？

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目，可写进简历、在面试里讲清楚。想做同类项目、或获取「基于学习行为数据的在线教育学生风险预警系统」的完整资料（代码 / 数据处理流程 / 论文文档 / 配图），请联系为你介绍本页面的老师咨询，按你的情况定一个合适的项目。