演讲实录丨陈天基于表现性评价的综合问题解决能力评估-白红宇

基于表现性评价的综合问题解决能力评估

陈天

北京师范大学未来教育高精尖中心学习科学实验室副主任

陈天：我首先介绍一下这个项目的一些相关的一些背景。这个项目其实是起源于北京市教委的需求也就是他的一个教育为，i轿与改革的一个需求，那么未来教育改革的一个重要的一个目标？它其实是为了它的一个评价方式的一个转变它是更加重视这个学生的一些核心素养，重视学生发现解决问题的这样的一个能力。也就是我们传统的这种考试，可能是基于单一一个学科，语文，数学生物，这样一个单一学科的一个标准化的，这样的一种考试，而未来我们可能会更加重视这个，学生的这种综合的，这种知识的这样的一种应用，我们在碰到问题的时候，我们去解决这个问题的时候，面对的不一定是一个单一的学科，可能是各种学科的一个综合运用，那所以我们在评价学生的时候，在未来评价学生的时候，也许会从这个单一学科的这种评价转变到这种综合的，这种问题的这种解决能力的这样的一个评价。所以我们作为一个研究机构我们在这方面做了一些预言就是一些前瞻性的这样的一些研究。这是这个项目的一个背景。

那么关于表现性评价表现评价，表现性它的定义是通过观察学生实际任务就是在做实际任务，这样的一个表现，来评价学生的这样的一个发展和评价学生的这样的一个成就，那表现型评价和传统的这样的一个评价，它的好处就是说，第一个他就是更加有助于学生能够明确他自己的一个学习目标，因为它是针对具体的事情。那么我们学习的理论有时候很抽象，学习了一个抽像的数学理论，可能学生不知道为什么要学。那通过您的表现评价他学生可以很明白我为什么要学这个东西？那么可以评价学生动手的操作的做的这样的一个能力，可以让学生重视这个知识的这种整合和综合的这样一个运用。

表现评价同时很关注，除了评价结果有很关注这个学生在完成任务当中它的一个过程，他的态度，和它的协同合作，和他的沟通，这样的一些非知识性的因素，也是我们表现性评价非常关注的一个问题，同时可以激发学生的这样的一个兴趣。厄那么当然表现评价目前的表现评价也存在一些问题，比方说表现评价需要水平很高的教师，能够实时的观测学生的在这个做实验过程当中一些表现。所以一个是老师对老师的水平要求比较高，另外一个也在客观性上，因为不同老师对同一拨学生做评价，或者说同一个老师对不同的学生的评价，那实际上很多时候是在给一些主观性的这样的一个评价，所以在客观性上存在的一些问题。另外就是因为表现型评价他的一个很重要的要求就是他有一定的这种持续性因为单一一次的评并不能说明你的这种，比方说你的态度或者你的一些东西。但是一个持续性的评价才能够比较说明问题，但是可持续性是表现性评价一个很重要的一个缺失。因为我，在目前的这种条件下不可能持续性的去观测学生的这样的一些表现的能力。所以这是我们表现成了目前表现比较碰到的一些问题。那我们尝试利用计算机来去解决表现性评价的这样的一些问题。那这个系统，其实是余教授讲到的智慧学办的它的一个组成部分，那智慧学办系统每年北京市，未来北京市所有的中小学生都会利用这个智慧学办系统来做一些这种测评。那么我们这个系统是在这会举办终端的一个环节，那主要是评测学生在高阶认知水平，问题解决能力，创新迁移能力，科学素养这方面的一些能力。并且能够给学生提供这样的一个能力的评估报告，和它的这样的一个能力提升的一个建议。

那我大致介绍一下我们的测试的一个思路，那就是说我们首先我们会提供具体的一些任务或者是一些问题。那这些问题或者任务它的特点？就是第一个它是比较真实的就是学生可以理解的真实是为了学生可以理解。另外一个就是它的解题策略是开放的它不一定是一个，答案也不一定是一条解决的路径。它有多种的解决路径，有多种的问题的辨识，所谓的辨识就是说我们学生的角色问题沟通可能我们可能给他一个一开始给他一个中等难度的问题，如果说它达到不是特别好的话，我们可能会降低这的一些难度，可能会多种这样的一些问题辨识，提供这个它是一个开放式的问题，所以我们会提供这个这学生解决问题他所需要的一些资料和一些工具。它在我们的这个系统当中来进行这种解题。这里举了一个例子，比方说我们这是一个具体的任务就是让学生去模拟一个血液检测中心的一个检测员。那么常规任务就是去检测各种各样的这种血型。通过这个，他通过我们的提供的这个工具然后，去观测这个血清，观测这个病人的血型来给病人来做这种验血，和输血的这样的一个操作。

但是我们有时候会把这个问题会加大一些难度如果第一个问题它完成的还不错的话，那么我们可能会加大一些难度。那有时候血型不足的情况怎么办就是说他比方说它是一个a型血，那么我们血库中a型血的血，实行不足，那有哪些东西是可以替代的？如果再大一点难度，假设我们要为动物检测血型我们知道人的血型是4种基本类型，那动物的人有多少种？可能是一个更加具有对学生来说更加具有挑战性的任务。那么它需要更加的去理解。去能够综合的运用我们当时是怎么发现人的血型的这样的一个背景。如果更具挑战性的任务，那么比方说？就是说我们血是很宝贵的，我每次做实验的时候不可能拿真的人血做实验。那我们有没有在你理解了这个血型和血清的基本变化以后那里能不能够？去用化学药品去替代这个学习来，去做实验。比方说什么样的化学药品能够去替代i型血，什么样的化学药品是b型血o型血，血清，用什么样的化学药品去替代，能够去模拟出来这种血型检测的这样的一个实验？这是一个具体的一个任务。

然后在做这个任务的过程当中我们因为学生他在血型的检测的时候，他只是生物当中的一小章，所以我们给它补充了很多相关的一些资料。在这些所有的这些资料当中有些资料是关键性的资料，也就是说对这个解决问题是有帮助的。但是有些资料其实是干扰性的资料。那其实我们在这个他在做任务的过程当中，计算机会自动的去跟踪他在，在解决问题当中它所用到的一些资料，比方说它在解决这个问题当中，它用多长时间去看到了关键性的资料，它有多大的比例，实际上是去搜索到了一些干扰性的资料。然后我们同时为会为他提供这样的实验的一个环境。就是比方说我们刚才说到的用化学药品去检车检测血型去模拟血型的检测的这个时候，他可能需要用到很多化学药品，那么提供这样实验的一些环境，看他能不能够去很好地自主地去设计这样的一个实验？然后从实验当中去总结一些规律。然后我们也会为他提供一些相关的一些帮助相关的一些帮助。同时为他提供一些相关的一些工具，比如计算器这样的一些工具。

那这个是具体的就是也是的，一个见面了在所有的这个，操作当中我们都为它提供这个类似于油漆这样的一个操作界面，然后我们会为他提供相关的资料图书馆我们会为他提供试验的一个环境，我们会给他提供完成这个任务所需要的一些帮助，同时我们在观察他的每一次点击每个动作。我们去分析他到底是怎么样去完成这个问题的这个过程当中他是怎么去完成的？所以整个评测方法它是一个结果评价和过程性评价相结合的这样的一个方法，就是说，当然我们很关注它是不是能够成功的去完成一些任务。另外我们也会去观察他完成任务这个任务当中的一些，一些过程。比如说我们要去评测他的这个知识牵移能力的时候，我们可以去设计几个比较类似的任务，然后去观测它，再完成下一个任务的时候时间会不会更短？他的解决的方式会不会形成了一个稳定的解决模式？我们甚至可能不会去单独再去看某一个问题的这样的一个他的一个操作过程。最后我们会得到一些测试的结论比方说我们可以去分析到它去解题的这样的一个路径，解题的路径是什么？大部分学生解题路径是什么？它的解题的路径是什么？然后他使用了哪些策略它策略的有效性如何？以及最后能够，在完成了很多这样的这种任务，以后我们会给他提供这样的一个相关的一个评测的一个报告。

那下面我可以大致的介绍一下我们的一个思路，就是我们的这个能力的模型对学生能力模型的这样的一个定义。当然我们也参考了很多国内外的一些专家的一些学术的一些成果，包括披萨对这个问题解决能力的一个定义然后我们认为一个学生在一个学生，他有一些内在的素质和一些外显的能力，内在素质包括他的知识，他的技能，他的思维方式和他的态度，这个是他内在的一些东西，他学到的一些东西。但是它能不能够在具体的情景当中综合运用出来这个是他的能力的一个展现，也就是说能力实际上是在具体问题当中展现出来的，这样的一种能力，在具体问题解决问题的过程当中，它展现出来的是问题，理解能力策略形成能力，执行操作能力，总结反思能力，这样的一个具体这样的一些具体的一些能力。那对每一种能力我们也做了进一步的这样的一个细化，进一步的细化，比方说知识，我们利用了这种3层三模型来对它进行一个评测，然后具体的一些技能我们也把它做了一些中小学生的一些所需要的技能。我们也把它做了一些分类，包括它的这种思维的这样的一个分类，然后包括他态度就完成任务过程当中他的态度的这样的一个分类，以及我们怎么样去做一些评测厄包括问题理解能力，策略性能力，执行操作那种能力这些能力我们也做了一些这种内核评测方式的一些设定。

那么在做这个系统的时候我们大概是设定了这样的一个，系统的一个框架首先我们有一套出题系统，我们希望这个题目的来源不是我们自己，而是更多的这样的一个学科的老师，然后，通过这种出题系统能够出来这样类似于游戏的这样的一个学生感兴趣的这样的一个能力评测的一个系统，然后在这个做能力评测的同时我们会实时的通过open ios这个，这种方式通过这种方式同实时的能够采集到他的这个行为，然后对这种行为进行聚类，进行这种意义的解释。然后同时能够对它的完成游戏的这个过程当中的进程做一定的这种控制和调试。最后能够给学生给学生给这个老师，甚至给更大范围内的教育管理机构学校，来提供这样的一个评测报告，这是一个核心的一个框架。

然后这个是我们具体的开发出来的平台的展示了在这个平台当中，我们会为学生提供各种各样的这样的一个任务的一个结合，然后学生不同年级，然后不同背景的学生可以在这个当中选择他合适的任务去完成。对学生来说，她看到的就是任务，他看到的是道具，他看到的是资料，完成任务所需要的资料，他看到的是他的，可视化的这样的一个成就。

那我们在设计问题的时候其实有一些基本原则，比如说第一个就是要运含一些知识，但是这个知识是符合这个中小学生的这个课标的因为符合课程标，比较有利于这个老师。采用能够在日常过程当中做一些采用，另外一个就是具有真实有意义的这种问题情境能够让学生沉浸下来然后问题的其实是落脚在这个具体的任务解决上，我们在设计任务的时候绝对不会去设那种很理论，得很知识性的这样的一些题目。都是一些具体的这样的一些任务的题目，同时的设定多种解题路径多种难度的层次，然后这种让学生产生在这个上面产生行为能够分析这种学生的行为的特征。然后我们还设计了很多的问题，比方说我们会设计一些热点问题，比方说像转基因的问题，像疫苗问题，酸雨的问题，地震的问题园林景观设计的问题，甚至我们文科也可以设计任务。比方说让学生去，评价这个诗词对联，比方说我们还可以采用很多从这个现实生活中来源得很多，这种热点问题也可以让学生进行分析。比方说像这个图片上显示的这个鬼压身的问题是不是真实的或者说怎么情况下会内在的一些心理的一些反应？做梦是怎么回事？然后包括我们看到了新闻上的一个纪录片，我们可以播放给学生。比方说一个，撞车一个事故的产生，然后通过新闻的这个，通过这个片子，让学生自动的去让学生去计算当时的一个车速因为当时没有这个新这个测速记录表，那么通过这个录像，让学生自己去评估这个车速，等等。我们会为学生玩设计很多既有趣又很有挑战性，又能够解决这个问题能力的这样的一些任务。

刚才说到了就是在所有的任务当中，我们提供这种实验室，提供实验室的目的其实是为了评价他，第一个它的实验设计的能力，第二个他的具体的这个实验仪器的使用的这种能力对结果分析和归纳的这样的一个能力。我们也为它提供这种网络的网络图书馆这个图书馆里面有，关键性的信息，有非关键性的信息，有干扰信息就可以交互的信息。然后最后是我介绍一下几个我们需要研究的这样的一些关键的技术。

第一个就是行为采集，就是说我们通过这个引擎通过这个平台，能够实时地采集学生的每一个动作每一个行为。然后在这个行为的采集的这个基础之上我们去定义好这个行为的一些有特征，行为的一些特征。然后通过这个机器学习的算法把这些特征进行聚类，建立这个学生这样的一个传模然后由老师来去解释，这样的学生的一个行为代表的背后的这样的一个教育意义，然后这个行为形成一个模式库和建议库。然后同时可以对，这个评测的进程的进行一个控制包括这个最后评估报告生成这个是我们需要研究关键的一些点。然后比方说在行为这个数据采集上，我们有一些基础的行为的一些采集，然后包括的每一个动作进入、浏览、播放、反馈，然后有一些这种行为的一些时常它持续了多长时间，每个动了它持续了多长时间？然后包括一些行为的一些结果它比方说它的操作是正确的是关键的，可以得分的等等这样行为的一些结果。然后采集我们是通过有个标准跟我们的下一代标的是scpi标准然后我们通过这个标准来采集学生的这样的一个行为。同时也利用这个标准，我们也可以采集普通的这种平台上的一个学习的一个行为。然后这个标准当中也定义了很多学生的这种标准的这样的一个，行为库，当然这些行为是可以还可以继续扩充的。

陈天：然后我们也会定义行为的一些特征，比方说它的次序的特征先做了什么后做了什么？这种特征我们是很关注的然后它的时间的特征，比方说它的整体的用时，然后他在某个环节的用时，他在，就是某个就是某个环节到下一个环节中间的这个间隔时间，然后他的这个用时的各各种环节的用时的比例，然后他的一些交互特征，比方说他使用了那些工具，他做了哪些实验，然后他参考了哪些资料然后各种资料的这样的一个时间比例问题完成的这个是否正确？等等，这些都是我们需这样的一些特征，我们会重点关注的这样的一些特征。比方说举个例子。这是另外一个关于露营的这样的一个任务那在这个任务当中它其实它是作为一个录音的组织者，他有很多的这样的一些买票然后包括安排这个，安排这个行程然后包括这个安排帐篷这个事安排帐篷的一个环节，在安排帐篷这个环节当中我们看到了这样的一个学生看到的这样的一个见面，然后一开始会，是提出来一个任务比方说一个安排帐篷的这样的一个规则是什么？然后我们会提取比方说学生在一看到任务说明到开始，正是做这个任务它的一个时间，他用了多长时间去看这个说明？然后从开始任务到？第一个动作，这样的一个时间，因为学生可能分得很多种，碰到这样的问题，可能很多学生冲动型的学生，他可能上去就开始做了，但是也有学生也有学生，他可能比较理性的学生，他可能会是，观察一段时间或者说，设计一段时间以后，然后再去做这种推动所以我们会观察从第一个从开始任务到第一个，解题的这样的一个，这个市场然后它会有一些相关的一些资料相关的资料和河任务时长。然后在结果这一块我们会看到这个任务，他很有可能不会一次性的就成功因为这个里面会有很多的小陷阱，他不会一次性的会成功。任务重新开始来几次，然后任务说明看了几次任务说明看了几次，其实体现的是它的短期记忆的能力。因为这个任务他有一个规则。怎么样安排有个规则他看了几次？他把人从外面拖到帐篷里和从里拖到帐篷外了。这种动作他做了几次？任务过程当中，它使用了图书馆没有？然后他的这个拖动次序其实体现了它的，一个策略形成的能力的这样的一个特征。

然后我们会对特征进行一个聚类，比方说其实我们也不太。我们也不太知道大部分学生，做第一个动作用了多长时间然后大部分学生要从做几次，大部分学生的次序是什么？所以我们会有一个这样的利用这个机器学习的这种算法来对这个学生来做一个聚类。那这种利用这种算法其实也避免了我们一我们原来传统上设定，比方说我们设定一个三分钟或者设定一个5分钟专家拍脑袋的这种方式，我们利用学生自己的数据，来建立这样的一个长模。最后对学生的这个数据做专家的这种解释，然后不同的数据它体现了，体现出来什么样的这样的一个能力，它体现出来比方说，问题表征能力是怎么样体现的？然后策略形成能力怎么样体现？的各种能力它是怎么样体现的？

然后在任务的进行过程当中我们同时可以，就是来自动的来进行进程的这样的一个控制。比方说当它遇到困难的时候，我们会给他一些提示，什么时候该给他提示？他做了哪些动作表示它遇到了一些困难，遇到了多大程度的困难？那这些东西我们其实是通过前面的这种集体学习，能够对学生的这样的一个操作有一定的认识以后，然后我们可以给他进行提示。然后可以给它自动的能够增减难度，然后能够给他自动的来推荐这样的一个学习路径。最后是给他一个评估报告。那这个评估报告是基于自动学习到的数据和我们老师解释的这样的一个数据，给它评估报告和给他建议，那么我们初期会针对门头沟、通州这样的一些区域做一些小范围的事业来，来建立一些这样的一些，基础的一些数据，然后完善我们的系统。然后后续我们每年会大概8到10万名的学生北京市的学生会来，继续进入到这个系统。然后来建立的更精准的这样的一个学生数据的这样的一个厂膜，然后提供，并且未来有可能会提供这种群体的这样的一个分析报告。好，这是我的介绍谢谢大家。

本文来源于"中国人工智能学会",原文发表时间" 2016-09-29"