基于机器学习与大模型的古诗词情感分类对比

同一批中文古诗词情感分类任务，用两条路线同台对照：一路是传统机器学习——中文 TF-IDF 特征工程 + LR/RF/SVM/XGBoost/LightGBM 分类器；一路是大语言模型——零样本/少样本/思维链多种 Prompt 直接判读。一条把中文 NLP 特征工程和大模型 Prompt 两套方法论放在一起对比的研究流水线。

任务类型自然语言处理
专业方向计算机 · 人工智能 · 数据科学 · 经管/社科

项目亮点

双路线对比：传统ML（5模型）vs LLM（3模型×4策略）= 17组实验
TF-IDF特征：283维，1-2gram，自动提取中文关键词
GridSearchCV调参：3折交叉验证，每个模型调1-2个核心参数
4种Prompt策略：Zero-shot / Few-shot-3 / Few-shot-5 / Chain-of-Thought

数据与任务

样本量	古诗词五类情感分类数据 · 均衡设计对照
核心方法	中文TF-IDF+5分类器 vs 多Prompt策略大模型对照
技术栈	scikit-learn · XGBoost · LightGBM · 大语言模型 Prompt

如果你想找一个既扎在中文 NLP、又能蹭上大模型热度，还带点人文味道的项目，这个「古诗词情感分类：机器学习 vs 大模型」很合适。

它做的是一件很好讲的事——给古诗词分情感流派（豪放、婉约、田园、边塞、咏史怀古），然后用两条完全不同的技术路线把同一件事各做一遍、放在一起比：一边是老老实实做中文特征工程、跑传统机器学习分类器；一边是直接把诗丢给大语言模型、靠 Prompt 让它判读。配套也给你备齐了，帮你真正搞懂它、在面试和答辩里讲明白：带中文注释、能读懂的代码，一份从数据探索到特征工程、再到两条路线对照分析的技术文档，里面连简历描述和会被追问的面试问题都连答案写好了，还有一整套能直接做 PPT 的配图。

flowchart LR A["古诗词文本 豪放/婉约/田园/边塞/咏史"] --> B["中文 TF-IDF 特征 只取汉字 token"] A --> C["大模型 Prompt 零样本/少样本/思维链"] B --> D["ML 分类器 LR/RF/SVM/XGB/LGBM"] C --> E["大模型判读 解析成类别标签"] D --> F["统一评估对照 谁更准 · 谁更省数据"] E --> F

先说清楚，它到底在做什么

任务本身是个中文文本分类——给一首古诗词，判断它属于哪一类情感流派。难点在于古诗词这种文本"少而精"：每首就几句，用词高度凝练、典故密集，可标注的样本天然稀缺。项目没有止步于"训一个分类器交差"，而是把它做成一个方法论对照实验：同一份数据、同一套评估口径，让传统机器学习和大语言模型各跑一遍，看在这种"小样本、强语义"的中文场景下，两条路线各自表现如何。

传统 ML 这条路，核心是中文特征工程：用 TF-IDF 把诗词转成向量（这里有个细节——中文没有空格分词，要专门用正则只挑出汉字 token），再喂给逻辑回归、随机森林、SVM、XGBoost、LightGBM 五个分类器，每个都用网格搜索调好参。
大模型这条路，不训练、不调参，靠 Prompt 设计：把分类规则、类别定义写进提示词，让大模型直接读诗下判断，再把它的自由文本输出稳定地解析回类别标签。

这两条路线的差别，正是项目想讲清楚的东西——下面这张双路线架构图把它摆得很直观。

ML 与 LLM 双路线对比架构 — 项目的骨架：左边是"特征工程 + 分类器"的传统 ML 路线，右边是"Prompt + 大模型"的直接判读路线，两条路最后汇到同一套评估口径上对照。

在动手建模之前，项目先把数据摸清楚了——五类情感各占多少、诗词长度怎么分布，这些都决定了后面该怎么切分数据、为什么这个任务对传统 ML 偏难：

搞懂它，你能在面试里讲清楚什么

把下面几件事吃透，面试官顺着中文 NLP 和大模型这两条线问下来你都能接得住。

中文文本怎么做特征工程，TF-IDF 在古诗词上要注意什么。 这是传统路线的灵魂。你要能讲清楚 TF-IDF 的直觉（一个词在某首诗里频繁、在全语料里又稀有，就有区分度），更要讲清楚中文的坑：英文靠空格天然分词，中文不行，所以这里用正则 [一-龥]+ 只保留汉字、按字/词构造 n-gram，再控制最小词频。把"为什么中文 NLP 的特征工程要单独处理"讲明白，就很出彩。

多种 Prompt 策略怎么设计、为什么这样递进。 大模型这条路里，项目系统对比了零样本、少样本（few-shot）、思维链（CoT）几种策略。你能借此讲清楚 Prompt 工程的门道：零样本只给规则，few-shot 塞进每类的参考例诗让模型照着类比，CoT 则引导模型先分析意象意境、再下判断。

多种 Prompt 策略示意 — 照着这张图，能把零样本、少样本、思维链几种 Prompt 策略的设计差异讲清楚——这是 Prompt 工程最实打实的一课。

两条路线放在一起，能得出什么有分量的结论。 这是项目最出彩的一环。同一份古诗词数据、同一套评估口径，传统 ML 五个调好参的分类器、大模型多种 Prompt 策略，全部同台比较。你能借此讲清楚一个成熟的判断：在古诗词这种"样本少、语义强"的中文场景下，两条路线各有所长——传统 ML 依赖足量标注和精心的特征工程，大模型则靠预训练里沉淀的语言常识，几乎不需要训练数据就能上手。能讲清"什么数据量、什么任务该选哪条路"，正是面试官想听的判断力。

下面这组对照实验图也都给你做好了，可以直接放进答辩或面试 PPT：

更关键的是，每张图怎么跑出来的、该怎么解读，技术文档里都讲清楚了——你能说明白每张图到底说明了什么，而不只是把图贴上去。

面试官会问的，都帮你备好了

随便感受几个这个项目真实会被追问的问题：

古诗词是中文短文本，你怎么做特征工程？TF-IDF 在中文上和英文有什么不一样？

零样本、少样本、思维链几种 Prompt 有什么区别？few-shot 的例诗你怎么选？

大模型输出是自由文本，你怎么稳定地把它解析成"豪放/婉约/田园/边塞/咏史"这几类标签？

同一份古诗词数据，传统机器学习和大模型你觉得各自强在哪、分别适合什么场景？

看到会愣一下？正常。配套的项目讲解资料把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了，连两条路线的对照该怎么讲都帮你梳理好了。另外还有现成的简历描述，照着改就能写进简历；那套配图也能直接套进 PPT 模板，快速出一份面试 / 答辩 PPT。

配套资料：搞懂一个项目需要的，这里全都有

先看那份技术文档——从研究背景、数据探索、中文特征工程、Prompt 策略设计，一直讲到两条路线的对照分析，图文并茂：

代码也给你了——关键部分都带着中文注释，帮你读懂"它到底是怎么实现的"：左边是中文 TF-IDF 特征提取，右边是多种 Prompt 策略的构建：

技术文档、项目讲解资料、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它，需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个紧跟大模型潮流又有人文味道的项目，还是在准备面试，这个题目都接得住。专业上，计算机、人工智能、数据科学方向很合适——经管、社科、汉语言文学背景的同学也能驾驭，正好把古典文学理论和现代 NLP 方法结合起来讲出彩。把"中文文本怎么做特征工程、Prompt 怎么设计、怎么把传统机器学习和大模型放在一起客观对照"这条完整链路真正搞懂、能讲出来，就是一个既追热点、又有方法论分量、撑得起面试的项目。

想把这样的项目做成你简历上的亮点？

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目，可写进简历、在面试里讲清楚。想做同类项目、或获取「基于机器学习与大模型的古诗词情感分类对比」的完整资料（代码 / 数据处理流程 / 论文文档 / 配图），请联系为你介绍本页面的老师咨询，按你的情况定一个合适的项目。