通过mars产生中间数据量的数据集并测试nlvm-b4的实验效果

方差实验组

Posted by JoselynZhao on March 5, 2020

说明

  • nlvm-b4的实验结果表明,在Duke 数据集上的效果不明显,但在mars数据上效果较好。
  • duke 和mars的带标注样本数量差不多,但是未标注样本差别较大。
  • 现利用mars数据集,保持带标注数据部分不变,将未标注数据随机减少一半。
  • 本组实验结果保存在 vgssm/3 (mars)中。
  • 运行文件:vrm/nlvm-b4.py
  • 运行命令:
    python3.6 nlvm-b4.py --exp_name vgssm --exp_order 3 --percent_vari 0.8 --stop_vari_step 5  --dataset mars  --max_frames 100
    

实验设计

  • mars 数据集 类别数量为625, 未标注数据量为7673. 在本次实验中,我们首先为每个类别先提出1一个样本(保证每个累呗至少含有一个样本),然后再从7673个样本中随机参数4000个样本, 对两个集合求并集。

  • 为了保证和baseline对比的数据集一样,这里应将选择样本的index保存下来。

与baseline对比

  • baseline的实验结果保持在gradually_11step/3(mars)当中。
  • 运行实验的同时,保存选择出来的index 到mars4000.npy中,以便后续做对比训练。
  • 运行文件 master/main.py
  • 运行命令:
    python3.6 main.py --exp_name gradually_11step --exp_order 3 --dataset mars --max_frames 100 --EF 10
    

补充

  • 使用baseline生成的mars4000.npy再来跑一边。
  • 实验数据保持到 vgssm/4(mars)当中。
  • 运行文件:vrm/nlvm-b4.py
  • 运行命令:
    python3.6 nlvm-b4.py --exp_order 4 --percent_vari 0.8 --stop_vari_step 5  --exp_name vgssm --dataset mars   --max_frames 100
    

实验结果

对比 vgssm/4(mars) 和 gradually_11step/3(mars)

image

这个实验结果显然不理想,没办法成为 mar数据集和duke数据性能差异的解释.