记一次机器学习学术报告

在腾讯大厦听了周志华老师团队的报告,主要讲机器学习的下一步研究内容。其中有一些比较个人觉得挺有趣的名词。

  1. 机器学习的鲁棒性(robustness of machine learning):机器学习曾经只是为了辅助人类决策,而随着应用深入,人们对机器学习的要求越来越高,甚至要好于人类。在这个情况下,机器学习对算法的鲁棒性有了更高的要求。是一个值得深入的研究方向。这里还顺带批评了一下深度学习在处理问题上的一些非鲁棒性的问题。

  2. 多标记学习的细节(multi-label learning):人对事物的标签是含糊的,这体现在标记的多义性和非互斥性,如何对标记的关联性、错误性进行机器学习?传统的方法是 one-vs-rest 的方式进行二分类编码,训练N个分类器,而实际上这样做忽略了标签之间的关联性,还导致标记不平衡的问题。

  3. 标记分布学习应用(label distribution learning):这部分是我比较感兴趣的,感觉是一种贝叶斯的方法看待问题。生活中有很多事情都不是绝对的,他们可能或多或少属于某一个类别。与其学习标签,不如学习标记分布。

    另外举了3个和标记分布有关的应用:因为人们猎奇的心里特点,电影评分的非正态分布比平均分的预测更有参考价值——争议大的可能对票房更有帮助。利用心理学家对标记的先验分布在表情的情感分析得出表情隐含的意义。这让我想起以前做的几个分类应用,例如公交线路选乘、购物行为预测、点击预测等,负样本实际上都是模糊的。不买也可能是对方根本没看到而不是不感兴趣。

  4. 半监督学习和图学习(semi-supervise learning):如果判断事物的标记很困难的时候,如何进行监督学习?利用无标记样本是更廉价的方法,但是也会导致学习偏差的问题,加入了无标记的样本,可能还会导致分类正确性的降低。