用统计学方法检验算法对正确率的提升
前两天投出的一篇Paper有了回音,Reviewer给的意见里有一条是建议对正确率的提升效果进行统计分析。以前从没解决过类似问题,特此记录一下。
其实Reviewer有相关的疑问非常可以理解,我自己也经常对论文中的结果有质疑,单纯凭正确率是感觉有些武断,这次有这个机会学习一下怎么用统计学习的方法进行检验,感觉挺有意思,记录一下。
用Excel进行T检验
T检验是通过T分布检验两组样本的差异是否显著的方法,得出的结果主要看P值,当P值较小(常取0.05或0.01)时,认为差异是显著的,反之则认为不存在显著性差异。
我们的实验检验的目标是改进方法对准确率的提升,因此两组数据为相同输入情况下不同算法(原始算法和改进算法)的正确率。
用Excel进行T检验其实比较简单,P值的计算有以下两种方法:
- 利用函数工具
这个方法和我们平时计算平均值、加和等操作是一样的步骤,点取表格选择TTest函数,输入Array1,Array2,单尾还是双尾,再选择一个Type参数即可(1代表成对检验,2代表双样本等方差假设,3代表双样本异方差假设),计算得到的结果就是P值; - 利用统计工具
这个方法相比直接使用函数的方法更复杂一些,但会给出一个包含均值、方差、自由度等多个数据的更详细的分析结果。
首先,加载数据分析工具,点击“文件”->“Excel选项”->“加载项”选项卡,将“分析工具库”添加到活动应用程序加载项中。
然后返回表单,选择“数据”->最右侧的“数据分析”按钮->T检验即可。