首页出版说明中文期刊中文图书环宇英文官网付款页面

基于大语言模型的高考卷评测应用及其对教育公平的影响研究

王 一来, 朱 华中
浙江工业大学

摘要


随着人工智能技术的迅猛发展,大语言模型在教育领域的应用逐渐增多,尤其是在大语言模型自动化评测和教育公平方面的探索。本文利用 Open Compass 评估平台,评估了多个大语言模型在中国高考全卷中的具体表现,并深入分析了其对教育公平的影响。通过全面评估模型在不同题型中的表现,本文揭示了大语言模型在教育领域应用中面临的主要挑战。这些挑战不仅包括推理能力的提升、对领域知识的掌握不够全面以及训练数据集的优化空间,还涉及教育公平性的问题。随着模型能力的不断提升和优化,未来的研究将更加关注如何通过改进推理能力、丰富领域知识以及优化训练数据集来应对这些挑战。尤其是在高考这种全国性考试中,未来的模型可能会面临更多的公平性问题。因此,确保教育公平性将成为未来研究的重要方向,这需要我们不断探索和引入更加先进的技术提升大语言模型的综合能力,从而实现更公正的评估结果。

关键词


大语言模型;人工智能;高考卷评测;教育公平

全文:

PDF


参考


[1]郑世林,姚守宇,王春峰. ChatGPT新一代人工智能技术发展的经济和社会影响[J]. 产业经济评论,2023(3):5-21.

[2]Vaswani A,Shazeer N,Parmar N,et al. Attention is all you need[C]. Proceedings of the 31st International Conference on Neural Information Processing Systems. New York:Curran Associates Inc.,2017:6000-6010.

[3]Elman J L. Finding structure in time[J]. Cognitive Science,1990,14(2):179-211.

[4]Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.

[5]Cho K,Merrienboer B,Gulcehre C,et al.Learning phrase representations using RNN encoder-decoder for statistical machine translation[C].Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing.Doha:ACL,2014:1724-1734.

[6]Brown T B,Mann B,Ryder N,et al. Language models are few-shot learners[J]. Arxiv Preprint Arxiv:2005.14165,2020:1-75.

[7]王烽. 面向教育现代化的高考改革设计:不忘初心完善格局[J]. 中小学管理,2017(7):25-28.

[8]游洋. 几道高考客观题难题的解法[J]. 考试(高考数学版),2011(5):10-12.

[9]林文真. 新高考“信息性阅读”主观题教学方法研究[J]. 课堂内外(高中版),2023(7):4-6.

[10]Zhang X,Li C,Zong Y,et al.Evaluating the performance of large language models on GAOKAO benchmark[J].Arxiv Preprint Arxiv:2305.12474,2023:1-4.

[11]Team G,Anil R,Borgeaud S,et al. Gemini:A family of highly capable multimodal models[J]. Arxiv Preprint Arxiv:2312.11805,2023:1-62.

[12]Sun Y,Wang S,Li Y,et al. Ernie:Enhanced representation through knowledge integration[J]. Arxiv Preprint Arxiv:1904.09223,2019:1-8.

[13]Yang A,Xiao B,Wang B,et al. Baichuan 2:Open large-scale language models[J]. Arxiv Preprint Arxiv:2309.10305,2023:1-28.

[14]Team G L M,Zeng A,Xu B,et al. ChatGLM:A family of large language models from GLM-130B to GLM-4 all tools[J]. Arxiv Preprint Arxiv:2406.12793,2024:1-19.

[15]Touvron H,Lavril T,Izacard G,et al. LLaMA:Open and efficient foundation language models[J]. Arxiv Preprint Arxiv:2302.13971,2023:1-27.

[16]Chiang W L,Li Z,Lin Z,et al. Vicuna:An open-source chatbot impressing GPT-4 with 90%* ChatGPT quality[EB/OL]. https://lmsys.org/blog/2023-03-30-vicuna/,2023-03-30/2024-08-30.




DOI: http://dx.doi.org/10.12361/2661-3581-06-08-165276

Refbacks

  • 当前没有refback。