基于大语言模型的心脏病风险预测

把 UCI Cleveland 心脏病病历喂给大模型做风险判断:先把 13 项临床指标「文本序列化」成带医学知识的自然语言,再用 GPT-4o / Qwen-Max / DeepSeek-V3 × 三种 Prompt 策略做 3×3 对照,并与四个 ML 基线同台比较——一条完整的「大模型 vs 传统 ML」研究流水线。

  • 任务类型大模型应用
  • 专业方向计算机 · 人工智能 · 医学/生物医学 · 数据科学

数据与任务

样本量UCI Cleveland 心脏病 · 均衡抽样对照
核心方法文本序列化 + 3×3 Prompt对照 + ML基线
技术栈GPT-4o · Qwen-Max · DeepSeek-V3 · scikit-learn

如果你想找一个紧跟大模型热点、又能把"用 LLM 做预测"这件事讲明白的项目,这个「大模型心脏病风险预测」很合适。

它的题目自带话题度——直接拿大语言模型去读病历、判断冠心病风险,再和传统机器学习掰一掰手腕。配套也给你备齐了,帮你真正搞懂它、在面试和答辩里讲明白:带中文注释、能读懂的代码,一份从数据到 Prompt 设计再到对照分析的技术文档,里面连简历描述和会被追问的面试问题都连答案写好了,还有一整套能直接做 PPT 的配图。

flowchart LR A["病历数据<br/>(13 项临床指标)"] --> B["文本序列化<br/>结构化→自然语言"] B --> C["3 种 Prompt 策略<br/>零样本/思维链/少样本"] C --> D["3 个大模型<br/>GPT-4o/Qwen/DeepSeek"] A --> E["ML 基线<br/>LR/RF/XGB/LGBM"] D --> F["统一评估对照<br/>谁更准 · 谁更可解释"] E --> F

先说清楚,它到底在做什么

任务本身是个经典的二分类——根据年龄、血压、胆固醇、心电图、ST 段等 13 项临床指标,判断一个人有没有冠心病。但这个项目的有趣之处在于换了把"新锤子":不训练专门的模型,而是直接让大语言模型来做判断,再看它和传统机器学习比起来到底如何。

真正的难点是:大模型只会读文字,而病历是一堆数字和编码。所以项目的核心创新是"文本序列化"——把每一条结构化病历翻译成一段医生口吻的自然语言描述,并在翻译时嵌入临床知识(比如把"ST 段压低 2.3mm"翻译成"中度压低,提示心肌缺血,OR≈3.0")。这样大模型拿到的不是冷冰冰的数字,而是带着医学常识的病情陈述。

临床指标文本序列化流程
项目最核心的巧思:把 13 项结构化指标逐一翻译成带医学知识与 OR 值的自然语言。这张图把"结构化数据怎么喂给只懂文字的大模型"讲得很清楚。

搞懂它,你能在面试里讲清楚什么

把下面几件事吃透,面试官顺着大模型这条线问下来你都能接得住。

一条完整的大模型推理引擎是怎么搭起来的。 这是项目的工程地基。你要能讲清楚从"单条病历 → 文本序列化 → 拼装 System/User Prompt → 调 API(温度、重试、退避)→ 三层解析把回答抠成 JSON → 落成预测+置信度+推理依据"这整条链路——其中尤其是怎么稳健地从大模型的自由文本里解析出结构化结果(正则+代码块+兜底默认值的三层兜底),这是真正动手做 LLM 应用才会遇到的工程问题。

LLM 推理引擎六阶段架构
照着这张六阶段架构图,能把一条病历从输入到结构化预测、连解析失败怎么兜底都讲明白。

三种 Prompt 策略怎么设计、为什么逐级递进。 项目系统地对比了零样本、零样本+思维链(CoT)、少样本+思维链三种策略。你能借此讲清楚 Prompt 工程的门道:CoT 怎么用"六步临床推理"引导模型先分析再下结论、few-shot 怎么塞进正负参考病例让模型"照葫芦画瓢",以及随策略复杂度上升、提示词从约 400 字涨到约 900 字背后的取舍。

三种 Prompt 策略对比
照着这张图,能把零样本、思维链、少样本三种 Prompt 策略的设计差异讲清楚——这是 Prompt 工程最实打实的一课。

大模型 vs 传统 ML,这场对照能得出什么有分量的结论。 这是整个项目最出彩、也最能体现判断力的地方。项目把 3 大模型×3 策略和 4 个调好参的 ML 基线放在同一套均衡测试集上同台比较。你能借此讲清楚一个成熟的数据科学判断:在这种结构化表格任务上,经典机器学习依然又稳又准;而大模型真正的价值不在刷准确率,而在它能给出一段有临床依据的推理——下面这张"诊断归因关键词"图就是证据:大模型在判断时反复援引 ST 段、心绞痛、胆固醇、血管钙化这些真正的高危因素,把"为什么这么判"说得清清楚楚。能讲清"什么任务该用大模型、什么任务经典 ML 更合适",正是面试官想听的判断力。

大模型诊断归因关键词频次
从大模型每次判断的"推理依据"里统计出的高频临床关键词——它援引的正是 ST 段、心绞痛、胆固醇等真正的冠心病高危因素,说明它的判断有临床逻辑可循。

下面这组对照实验图也都给你做好了,可以直接放进答辩或面试 PPT

Prompt 策略对比
三策略×三模型指标对比
混淆矩阵
大模型最优组合混淆矩阵
归因关键词
大模型推理依据关键词

更关键的是,每张图怎么跑出来的、该怎么解读,技术文档里都讲清楚了——你能说明白每张图到底说明了什么,而不只是把图贴上去。

面试官会问的,都帮你备好了

随便感受几个这个项目真实会被追问的问题:

  • 病历是结构化的数字,你是怎么把它喂给只懂文字的大模型的?
  • 零样本、思维链、少样本三种 Prompt 有什么区别?few-shot 的示例你怎么选?
  • 大模型输出是自由文本,你怎么稳定地解析成"有没有病"的结构化结果?
  • 同一批数据,大模型和传统机器学习你觉得谁更合适?为什么?

看到会愣一下?正常。配套的项目讲解资料把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了,连大模型和 ML 那组对照该怎么讲都帮你梳理好了。另外还有现成的简历描述,照着改就能写进简历;那套配图也能直接套进 PPT 模板,快速出一份面试 / 答辩 PPT。

配套资料:搞懂一个项目需要的,这里全都有

先看那份技术文档——从数据探索、文本序列化、Prompt 策略设计,一直讲到大模型与 ML 的对照分析,图文并茂:

文档封面
封面 + 目录
方法页
文本序列化与 Prompt 设计
结果页
大模型 vs ML 对照分析

代码也给你了——关键部分都带着中文注释,帮你读懂"它到底是怎么实现的":左边是把临床指标翻译成自然语言的文本序列化,右边是三种 Prompt 策略的 System Prompt 构建:

文本序列化代码
临床指标 → 自然语言
Prompt 构建代码
三种 Prompt 策略构建

技术文档、项目讲解资料、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它,需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个紧跟大模型潮流的项目,还是在准备面试,这个题目都接得住。专业上,计算机、人工智能、数据科学、医学信息、生物医学工程方向都很合适——尤其是想往大模型应用、AI+医疗方向走的同学。把"怎么把结构化数据喂给大模型、怎么设计 Prompt、怎么把大模型和传统 ML 放在一起客观对照"这条完整链路真正搞懂、能讲出来,就是一个既追热点、又有方法论分量、撑得起面试的项目。

想把这样的项目做成你简历上的亮点?

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目,可写进简历、在面试里讲清楚。 想做同类项目、或获取「基于大语言模型的心脏病风险预测」的完整资料(代码 / 数据处理流程 / 论文文档 / 配图), 请联系为你介绍本页面的老师咨询,按你的情况定一个合适的项目。