从学生排名看什么?
1. 先区分下,“名次”和“排名”是两个概念。其中,“名次”是一个自然数(0,1,2...);而“排名”则是由小到大的一串数字的序列,可表示为{R1,R2,…,Rn}中, Ri是第i个排名。在讨论这个问题的时候,一定要明确是指“名次”还是“排名”。这两个概念很重要!因为它们的数值表现形式不一样,计算出来的结果差别非常大。比如一个班级有5个人,考试后排名的结果可能是2345名。在这种情况下,把第2名的成绩叫作第一名的成绩是没有意义的。同样地,如果5个人的成绩分别为95分、85分、75分、65分、55分,那么排名第3的同学其实是排在第4的名次上。
2. 要弄清楚这个问题,先要理解排名的原理——给定一个班级里所有同学的成绩作为输入,通过一定的算法算出一个排列好的顺序,这个顺序就是所谓的排名了。而所谓的学生成绩,其实指的就是每个学生的答案在答案总体中的排序。因此问题就转化为如何比较两个排序的好坏。这里就需要引入信息论的概念。
3. 在信息论里,有两个重要的概念——“熵”和“互信息”——用来度量信息的模糊程度。其中, 的信息熵反映的是给定一组数据的情况下,我们无法准确知道某一个特定的值的概率多少。而在统计学习中,我们往往希望学习到能够预测新数据的模型,这些模型对于数据的解释程度用模型的熵来衡量。所以可以构造一个衡量排名好坏的指标——数据集的熵。
4. 这个衡量排名的指标,需要考虑两个方面的情况: 第一方面是某个数据(即一个排名)含有的信息量的多少。 第二方面是这个排名与其他排相比好多少。 根据上述的两个指标,就可以通过计算得到一个评判的标准,据此对所有的排位进行排序就可以了。