引言
教师通过细心地检阅考卷,把各方面的取样错误的次数表列出来,他就能够确定哪些东西已经充分掌握,哪些东西还需要耗费更多的时间和努力。
他还能因此而评价自己的教学法,并加以改进,使其适合于他的班级的需要。教师分析了班内的个别考卷就能明确哪些东西能使萨立感到头痛,哪些东西使乔治感到困难。优秀的教师企图教好每一个学生,当他明确了每个学生的优点和弱点时,他就能应付裕如了。如果细心编成的测验项目是用来测量关于学科内容的掌握情况的,那么测验的结果就可完成反馈和矫正的目的了。
作为分级工具的测验,教师有一项任务就是按照字母数字顺序来评定班内学生等级。这是许多教师都感到最困难的任务。最好是应用教师编制的测验,根据成绩来评定学生的等级。教师为了评分有据,可以施行一系列测验,对学生进行可靠的分级。当测验用作评分的部分根据时,则这些测验的主要目的便在于评定学生的等级。一个测验如果是一个优良的分级工具,它就必须有足够的难度用以检验班内较优秀的学生,同时也必须有足够的容易度以测量最差学生所具有的知识量。编制课堂测验如果能小心慎重,结果就会成为教师最有用的工具,作为评分的部分根据。
作为引起动机之手段的测验
教师编制的测验长期未曾被用以引起学生学习的动机。这个方法可能被滥用了。如果测验一贯地用为引起动机的手段,则测验就会变成十分重要的东西,以致学习的目的就是为了把学得的知识仅仅用以应付测验的情境,结果就会妨害学习的持久性。
测验虽然确有引起动机的效用,但是假使它们的重要性被过分地强调了,则编制一个好测验就会得到巨大的报酬,而编不出这样的好测验就导致无穷的懊恼,这样,情绪干扰便过于严重,可能阻碍有效的学习和测验的完成。教师往往借助于“突然袭击”的考问来引起学生好好学习的动机。如果把这种考问的结果用来评分和定等级,那么这种等级的评定也许是以考问的前夜的突击而不是以学科的知识为依据的。
由于“突然”受考问的威胁而引起的焦虑也许会迫使学生采取一种对他来说并非最好,而对全面理解来说也毫无效果的学习方式。“突然袭击”的考问只能在教师几乎把引起学生学习动机的一切办法用尽之后,才或可一试。其它各种心理测量教育工作者关怀教育的正式成果的测量,也关怀对已知行为的各个方面的评价。利用智力、兴趣、特殊能力以及能力倾向的测验,可以使我们对学生有一种较深刻的了解。
理智活动的测量(智力测验)可以用来测量当前理智机能的水平。这种测量可以使我们获得所谓智商分数,而根据这种分数则可以使学生的学习水平适合于他的理解水平。智力测验几乎已经有了七十五年的历史,我们关于智力的概念在这些年间不断发生变化。
大量的研究工作曾经窥探了用以评价和分析理智能力那些工具的发展。为了使这些测量有充分的效用,就必须对所应用的测验的性质及受测验的学生的独特情况予以特殊的注意。个体的和团体的智力测量对拟定适当教学所必需的课业计划都是有价值的帮助。兴趣、特殊能力和能力倾向的测量都已有所发展,对拟定教育计划可能有巨大用处。
为了充分利用这些工具以求有利于学生的教育,就需要特殊的训练知识。有关教育目标的测量是了解这些目标的实现程度的先决条件。本文研究了正式教育成果的测量,也就是学业成绩测量。无论什么时候应用测量都得注意效度。效度就是一种测验工具能够测量其所要测量的东西的程度。这是一种优良测量工具的最重要的标准。
课堂的效度
教育测量所特别关心的东西是课堂的效度,即测验内容代表科学内容的程度。统计的效度可以用某些测验的结果和某种成绩的标准、专家评判的意见或已知效度的另一测验的相关来决定。
作为一种优良测验的第二种标准的信度是一种测验工具在测量其所测量的东西时前后一的程度。一种测验也许有高的信度而又有低的效度,但高度有效的测验也将会是高度可信的。取样的适度有助于保证高的信度。有好几种计算信度系数的方法。为了大多数的教育目的,较优良的方法是测验和再测验法或等式法。论文式考试比较易于编制,可以应用于各种情境。这种考试可以使学生组织他的思想,并运用自己的文字叙述他的思想。对论文式问题的答案有不必全对或全错的好处。
我们可以把答案正确性的所有不同的程度都加以考虑。论文式考试的主要缺点就是取样不充足和评分困难。论文式考试如果遵循少数的简单规则,就可以提高其评分的客观性。大班举行论文式考试所常有的低信度促使人们采用简短答案或客观的测验。这些测验容易评分,测验项目也可有广泛的取样。但客观测验难于编制。
可把测验评分所节约的时间用在编制测验上,而评分也不受评分者的成见或偏见的影响。教师如果注意到各种教育学和心理学课本中可能讲到的有关编制客观测验的建议,则编制起来就可能减少困难。本文已经提出并论述了一些有关编制若干客观项目的建议。为了弄清楚测验分数的意义,就需要分析测量的结果。
为了知道分数分配中的接近中间部分的情形,就必须求集中趋势的量数。百分位的分数表明一个特殊个体超越于一个指定团体中的个体之上的百分比。为了使数据的意义更加明瞭,还需要知道测验分数在中数或平均数两边的分配趋势。这些量数叫做离中量数。最通用的离中量数是四分位差(Q)和标准差(σ)。Q是离开中数两边的每一边的一段距离,中数两边各一个Q包括全部人数的百分之五十;σ是离开平均数两边的每一边距离,平均数两边各一个σ共包括全部人数的百分之六十八。对于两组分数之间的关系的程度,在统计学上已经有了计算方法。这就是相关法。
相关系数
相关系数在表明各种学科成绩之间的关系以及提供关于信度和效度的数字指标时都是很有价值的。对相关系数的解释必须慎重,以免在两种东西共同变化时(高度相关)时,假定这一种东西是另一种东西的原因。标准的成绩测验有许多种是通用的。标准测验的特点在于它有通用的常模。常模是关于某一特殊年级或某一特殊年龄的学生的成绩水平的字指标。常模代表测验编制时所依据的那一群人的实际成绩。人们有时把常模和标准混淆起来。标准不代表某一组人的成绩,而是代表某一组人所欲达到的成绩水平。常模是解释标准测验结果的根据。有关教和学的研究要依靠标准测量来评价效果。
行政人员必须审慎地利用成绩测验的结果来评价教师。成绩测验的结果受许多因素的影响,必须全面研究这些因素,以便区分出哪些因素对学校的学习情境兼有良好和恶劣的影响。如果对于测验的结果应用不当,则虽有最精心编成的测验,测验时也很恰当,但在教育上还是不会得到什么好处的。
测量的最显著的效用在于能确定学生在教育上的进步。测验的编制是一种艰巨的任务,在编制测验时必须参照其结果所要达到的目的。适当地应用测验和测验的结果是教学的一个重要方面。各班的成绩可以通过测验进行比较。可以把一个班的这一次成绩与其另一种场合下的成绩相比较,也可以把某个人的成绩与集体的成绩相比较。
一个班和集体的成绩也可以与校外的可资比较的集体的成绩相比较。最普通的校外比较是在编制正式的成绩测验时同所采用的标准化样本相比较。应当利用测量的结果来推动学生向学校的教育目标前进。智力对一般人来说,智力是根据一个人在社会中如何行动而显示出来的。人们对其周围的人所作的各种评价,就表明了是对后者的智力所作的判断。如果一个人在事业上有所成就,那么他的朋友和同事,就不仅在与事业有关的事件方面,而且几乎在社会上所发生的任何问题方面,都要来找他商量。他的意见被尊重,他被看作一个“精明的”事业家。
结语
一个人若是一个好工匠,他就被称为“灵巧的”人,他要是善于投资,他就被称为“机灵的”人,如果他能恰当地计划未来,他则被视为“有远见的”人,如果在一定程度上对某种行动的结果作出可靠的预言,他就被认为是“有眼光”的人。所有用来描写各种人的字眼,都包含着有关人的智力的意义。