AI素养量表“体检报告”:衡量 AI 素养的工具远没有想象中成熟
作者:微信文章面对 AI 技术迅速渗透社会、深度伪造、就业结构重塑等挑战,公众需要具备理解、使用、批判性评估与伦理意识等AI素养。虽然很多学者和权威机构都发布了AI素养框架或量表,但捷克的研究人员Tomáš Lintner认为:
现有工具在统计结构上看似可靠,但由于缺乏系统的内容效度与跨文化检验,我们仍无法确信它们真正衡量了“AI 素养”这一目标。未来开发者必须把“测什么”与“谁来测”对应起来,否则再漂亮的因子模型也只是空中楼阁。
他的论文A systematic review of AI literacy scales(Nature子刊)首次把 16 种量表放到同一评价尺上,并针对不同受众给出排序式推荐,为后续实证研究和课程评估提供了直接可用的决策框架。
研究发现,16 种量表中仅 3 种为表现型(performance-based),其余 13 种为自评量表;受测群体覆盖一般公众、高等教育学生、中学学生与教师。
自评量表的准确度当然会有问题。有些人“越不懂越自信”,用自评问卷容易高估,而表现型量表用实际任务直接检验,防“高估”或“低估”。
此外AI 素养不仅要自己“觉得会”,而是需要“真的会”。
我自以为对AI的发展挺了解的,前几天OpenAI研究员姚顺雨在自己的网站发表了《AI下半场The Second Half》,无论是他对AI上半场的复盘,还是对下半场的预判,其深度和广度都远超我的认识。自己“觉得会”,不见得“真会”,甚至都不见得懂。
表现型量表最大的好处是“真实能力测评 + 客观可比性 + 防自我偏差”,适合关注“学生/公众实际会多少”的教育研究,而普通自评量表更适合“态度/自信/情感”类研究。
AI 素养本身是一个 多维度、复杂构念,涉及技术知识、伦理态度、社会意识等,不是单一知识测试。现有量表良莠不齐,需要一套标准化、跨领域认可的框架来“公平打分”。COSMIN 通过一套测量属性体系来评价量表质量,在医学、心理学等量表评估中已是“金标准”,具有高度权威性和适用性。以下是COSMIN关注的维度:
在这篇 AI 素养量表综述中,作者用 COSMIN 帮助我们判断:哪些表值得用,哪些还需要补充验证。
最终,作者根据 COSMIN 评估结果、目标群体、使用目的,把 16 个量表归类推荐,形成了 “4 类情境 + 场景优选量表”:
✅ 如果要 测“真实能力”,优先 表现型量表(AI Literacy Test, AI-CI)。
✅ 如果只想 测态度/自信心/主观评价,可用 自评量表(AILS, SNAIL 等)。
1️⃣ 一般公众首选:AILS (AI Literacy Scale)
形式:自评问卷
维度:技术理解、社会影响、伦理态度
页:
[1]