精准识别中草药一直是中草药领域的一个挑战。尽管 CNN 和 ViT 等模型在植物识别中占主导地位,但它们在捕
捉细节和结构方面存在不足,CNN 难以建模长距离依赖关系,而 ViT 因全局注意力机制计算复杂度且需要大量数据训练
导致小规模数据分类受限。本文提出一种结合 Swin-Transformer 和 ViT-Transformer 的双分支融合模型,利用局部窗口注
意力和全局自注意力的互补特性,并采用冻结 ViT 浅层参数的优化策略,有效降低计算成本。该模型旨在解决细粒度植物
分类问题,为中草药识别提供高效模型。