基于深度学习的印度古典舞分类

对 8 种印度古典舞做细粒度图像分类:迁移学习微调 VGG16 / ResNet18 / ResNet50 三基线,再用 SE / CBAM / ECA 三种注意力模块做消融,配 Grad-CAM 与 t-SNE 可解释性分析——一条完整的图像分类 + 注意力消融流水线,代码、文档、配图全配齐。

  • 任务类型计算机视觉
  • 专业方向计算机 · 人工智能 · 数据科学

数据与任务

样本量Kaggle · 8 类约 600 张
核心方法迁移学习 + 注意力消融
技术栈PyTorch · torchvision

如果你想找一个把计算机视觉图像分类做扎实、又能讲出技术深度的项目,这个「印度古典舞分类」很合适。

它是一个完整的细粒度图像分类案例,配套也给你备齐了,帮你真正搞懂它、在面试和答辩里讲明白:带中文注释、能读懂的代码,一份从背景一路讲到消融分析的技术文档,一份把面试问题连答案都写好的问答文档,还有一整套能直接做 PPT 的配图。

flowchart LR A["舞蹈图像<br/>(8 类古典舞)"] --> B["数据增强<br/>裁剪/翻转/旋转"] B --> C["迁移学习微调<br/>VGG16 / ResNet18 / ResNet50"] C --> D["注意力消融<br/>SE / CBAM / ECA"] D --> E["Grad-CAM + t-SNE<br/>可解释性分析"] E --> F["舞种判别 + 模型解读"]

先说清楚,它到底在做什么

印度有八大古典舞,彼此之间靠手势、体态、服饰这些细微视觉线索区分,属于典型的细粒度分类——类间差异小,而且公开数据集只有几百张图,样本不算多。难点就在这里:怎么在小样本上,让模型既学到有判别力的特征,又不至于过拟合。

这个项目从 Kaggle 的 8 类印度古典舞数据集出发,搭了一条完整的图像分类流水线:先用裁剪、翻转、旋转、色彩抖动做数据增强扩充样本,再用 ImageNet 预训练权重做迁移学习微调,系统对比 VGG16、ResNet18、ResNet50 三种骨干;之后把 SE、CBAM、ECA 三种注意力模块即插即用地插进 ResNet18 做消融,量化每种注意力的独立贡献;最后用 Grad-CAM 看模型到底在看哪里、用 t-SNE 看特征空间分得开不开。

8 类印度古典舞样本展示
八大古典舞的样本示例(部分)——手势、体态、服饰是区分舞种的关键视觉线索,也是模型要学的判别特征。

搞懂它,你能在面试里讲清楚什么

把下面几件事吃透,面试官顺着问下来你都能接得住。

迁移学习为什么是小样本场景的标配。 这是地基。你要能讲清楚:几百张图直接从头训一个 CNN 几乎必然过拟合,而 ImageNet 预训练权重已经学到了通用的边缘、纹理、形状特征,微调时只需让网络适应舞蹈这个新任务——配上数据增强进一步扩充样本,就能在小数据上稳稳拿到九成以上的准确率。

迁移学习微调策略
照着这张图,能把"预训练权重 → 冻结特征层 → 替换分类头 → 数据增强微调"的迁移学习链路讲明白。

三种注意力模块到底差在哪、为什么要做消融。 这是项目最有讲头的部分。SE 是通道注意力,CBAM 在通道之外再加空间注意力,ECA 用一维卷积做高效通道注意力、几乎零参数增长。项目把三者插在同一个 ResNet18 上、其他配置完全不变,单一变量地比出每种注意力的贡献——你能借此讲清楚"消融实验"这个方法论本身,以及为什么轻量级注意力在小数据上反而更划算。

SE / CBAM / ECA 注意力模块架构对比
照着这张图,能把 SE / CBAM / ECA 三种注意力的结构差异与插入位置讲明白。

Grad-CAM 和 t-SNE 怎么把黑盒讲成"看得懂的证据"。 Grad-CAM 把模型的注意力画成热力图,能看到它关注的是舞者的手势和体态、而不是背景——证明模型学对了地方;t-SNE 把高维特征压到二维,类与类分得开不开一目了然。你能借此讲清楚一个图像分类模型的可解释性该怎么呈现。

下面这组分析图也都给你做好了,可以直接放进答辩或面试 PPT

注意力消融对比
注意力模块消融对比
t-SNE 特征可视化
ResNet50 特征 t-SNE
各类别 F1 雷达图
各类别 F1 雷达图
Grad-CAM 热力图
Grad-CAM 热力图:模型的注意力集中在舞者的手势与体态区域,与人类专家判断舞种的视觉线索一致。

更关键的是,每张图怎么跑出来的、该怎么解读,技术文档里都讲清楚了——你能说明白每张图到底说明了什么。

面试官会问的,都帮你备好了

随便感受几个这个项目真实会被追问的问题:

  • 数据集只有几百张,你是怎么避免过拟合的?迁移学习和数据增强各起了什么作用?
  • SE、CBAM、ECA 三种注意力机制的原理和参数代价分别是什么?为什么要在同一骨干上做消融?
  • Grad-CAM 的热力图是怎么算出来的?它和 t-SNE 分别说明了模型的什么性质?

看到会愣一下?正常。配套的面试问答文档把这个项目——从整体思路到每个流程细节、各种可能被追问的点——连参考答案都给你写好了。另外还有现成的简历描述,照着改就能写进简历;那套配图也能直接套进 PPT 模板,快速出一份面试 / 答辩 PPT。

配套资料:搞懂一个项目需要的,这里全都有

先看那份技术文档——从背景、数据增强、迁移学习一路讲到注意力消融与 Grad-CAM / t-SNE 可解释性,图文并茂:

文档封面
封面 + 目录
方法页
骨干网络与注意力机制
结果页
消融实验结果分析

代码也给你了——关键部分都带着中文注释,帮你读懂"它到底是怎么实现的"

注意力模块代码
ECA 高效通道注意力实现
注意力插入代码
注意力模块即插即用插入残差层

技术文档、面试问答、源码注释、整套配图——搞懂一个项目、并在面试里讲清楚它,需要的全都备齐了。

适合谁

不管你是赶毕设、想给简历添个有分量的项目,还是在准备面试,这个题目都接得住。专业上,计算机、人工智能、软件工程、数据科学方向都很合适。图像分类是计算机视觉最经典的入门任务,而这个项目在它之上还叠了迁移学习、注意力消融、可解释性分析这些有技术含量的环节——把这条完整流水线真正搞懂、能讲出来,就是一个能写进简历、撑得起面试的项目。

想把这样的项目做成你简历上的亮点?

这是一套配齐了代码、文档、面试问答和配图的 AI+X 项目,可写进简历、在面试里讲清楚。 想做同类项目、或获取「基于深度学习的印度古典舞分类」的完整资料(代码 / 数据处理流程 / 论文文档 / 配图), 请联系为你介绍本页面的老师咨询,按你的情况定一个合适的项目。