作者 | 汪昊
审校 | 孙淑娟
21 世纪的第二个十年是科技公司风起云涌的十年。特别是以人工智能技术和互联网技术为代表的技术,改变了原有互联网公司产品为王的商业模式。越来越多的科技公司开始在技术领域发力,成为真正的高科技企业。典型的科技公司的代表,比如百度、京东、Meta 和亚马逊,都在科技领域进行了大笔的投入。而科技行业的蓬勃发展,也吸引了越来越多的从业者加入其中,不少人在短期内获得了丰厚的物质和精神回报,有些人甚至成为了时代的弄潮儿。
科技行业和科技院校如何评价人才?很重要的一个指标就是学术论文。现在是很多博士都有能力发表顶会顶刊的年代,已经开始不断有人认真反思学术论文的质量。是所有的顶会顶刊都有价值吗?是普通会议和期刊都是垃圾文章吗?在内卷严重,人人浮躁的年代,我们在为自己的前途奔波劳碌的同时,该如何沉淀自己的思维,成为精神领域的佼佼者,也成为了许多人思考的问题。
作者本人在国际学术会议和期刊发表了 30 篇论文,其中作为独立研究者发表了 26 篇论文,并在国际学术会议 IEEE SMI 2008 获得最佳论文奖(点云曲面重构技术),ICBDT 2020 获得最佳论文报告奖(基于公平性的推荐系统),ICISCAE 2021获得最佳论文报告奖(基于场景的推荐系统)。在本文中,作者将结合自己的学习和从业经历给科技行业的从业者分享如何在国际学术会议获奖的经验。
作者自身的学术会议获奖论文在选题上都进行了如下思考:
1. 研究的问题是否是业内长期没有解决的问题?
2. 研究的问题是否在理论上有重大突破?
3. 后人能否在我的研究基础上进行扩展工作?
如果 3 个问题的答案都是肯定的,那么你离国际学术会议获奖的最终目标就接近了一半的距离。而这 3 个问题,不仅仅是为了获奖,许多有价值、高质量的论文,也都是因为符合了这 3 个标准,而成为了业内众人皆知的明星学术成果。
现在许多学术会议论文,其实都是没有什么价值的。比如大量的工业界的深度学习和自然语言处理论文,说白了就是介绍了一下自己公司的算法产品。首先,这只是个应用问题,不属于长期没有解决的问题;其次仅仅提高点击率或者准确率几个千分点,也不算是理论上的重大突破;最后,许多工业界的论文最后都沦为了产品介绍说明书。
因为第一,作者公司内部算法产品迭代很快,短期内这篇论文的技术就被淘汰了;其次,除了极个别情况,大多数人也不会真的去在大量的工业界论文上做扩展工作。这些论文,哪怕是顶会顶刊,也只不过是垃圾论文罢了。如何选择合适的论文题目,平常需要阅读大量的论文,并且随时关注科技界有深度的新闻。另外,自己平常需要多动脑子进行有创造性的思维活动,提高自己看待问题的深度和敏锐度。
下面我来说一下论文的写作。虽然现在中国的人工智能论文,中文论文仍然是主导,但是中国在英文会议和刊物上发表的论文数量已经超越了美国。并且事实上,现在绝大多数计算机专业的论文,英文写作已经不是问题。往往容易被人忽略的一点,就是论文最后引用文章的数量,许多作者的引用文章的数量是不够的。而且在文章的相关文献部分,许多作者的写作也显得非常的不专业。要想改进这方面的问题,首先作者需要平时阅读大量的文献,其次随着作者的论文发表数量增加之后,自己引用的文献也会变成一个文献库,供后续写文章参考。
最后,作者需要说明的是想在国际会议有好的收获,论文报告人的英语口语非常重要。作者在 2021 - 2022 年参加了 10 余次的国际会议,发现许多科技行业从业者的英语口语水平都有待提高。作者本人是 2004 年全国大学生英语能力竞赛全国口语决赛铜牌,并且是 2003 年济南市理工科英语高考状元。在英语方面付出了数十年的努力,至今仍然大量阅读英语书籍和论文,在 2022 年以非职业身份参加 CATTI 杯全国翻译大赛职业组笔译,入围全国决赛。练习英语口语需要多看英语视频,包括英剧美剧,好莱坞大片,以及网上可以免费访问的英美大学的课程,不仅仅对自己英语听力能力的提高大有帮助,对英语口语的提高也非常有帮助。
我个人的 3 篇获奖论文,第 1 篇是我 2008 年在美国犹他大学的本科毕业论文,做的是点云曲面重构的方向。点云曲面重构主要是 Moving Least Sqaures、APSS 等算法。Moving Least Squares是最古老的点云曲面重构算法,但是因为参数选择问题,导致曲面重构算法精度不够,不能很好的应用于工业界,这是一个困扰了计算机图形学很多年的理论问题。我当时借鉴了非参数统计学的内容,解决了这个问题,并且算法在实验数据上表现优异。在这个问题的研究过程中,我的师兄和导师都给予了我许多帮助。
我第 2 次获奖的论文是推荐系统公平性的问题,这个问题我在 2013 年的时候就有过思考,2014 年推导了一批公式,诞生了 2018 年我在这个方向上的第一篇论文。随后在2020 年,我对推荐系统论文中的矩阵分解算法结合马太效应进行了显示建模,改变了以往一贯加正则化项设计公平性算法的思路,并且因为当时在推荐系统领域,基于公平性的算法还比较少,外加我口语比较好,获得了ICBDT 的最佳论文报告奖。
在 2021 年的时候,我在网上无意间发现了一个 2012 年开放的基于场景的推荐系统的开放数据集,于是诞生了设计基于场景的推荐系统算法的想法。其实基于场景的推荐系统是我 2011 年在某互联网公司的第一个研究项目,但是因为当时缺少真实数据,并且各方面条件也确实不成熟,所以项目失败了。在 10 年之后,我重新思考了这个问题,改变了矩阵分解算法的理论基础,重新设计了基于场景的推荐系统算法。因为这个领域发表的论文比较少,而且是困扰学术界和工业界许多年的问题,也因为我口语比较好,并且技术简单可扩展,获得了 2021 年国际学术会议 ICISCAE 的最佳论文报告奖。
在 2023 年的今天,科技行业仍然有非常多的值得研究的课题。比如高维空间机器学习/深度学习的理论基础、量子机器学习、自然语言大模型的简化、机器学习/深度学习的数学解释和重新建模、人工智能和其他数学领域的跨学科研究等等,都是有可能产生改变整个行业影响力的研究课题。有些课题虽然意义重大,但是被学术界和工业界忽视了许多年,而这正是我们的机遇。
随着科技行业和院校选拔人才的标准水涨船高,已经有越来越多的人开始重视学术论文,而随着时间的流逝,许多人也开始关注学术会议论文的质量,而不仅仅是会议/期刊级别或者引用率。现在的科技行业对于学术会议论文的态度,类似于流量电影时代制片方对于流量电影的态度,浮躁而又没有深度。
然而就跟流量电影时代的终结一样,不需要多长时间之后,科技行业就会回归科技的本质:创造有深度、能改变人类命运的技术和产品。我们希望那个时代早日到来,让我们都能享受到真正有价值的学术作品,而不是仅仅阅读和快消品类似的算法产品说明书。
作者简介
汪昊,前 Funplus 人工智能实验室负责人。在 ThoughtWorks、豆瓣、百度、新浪、网易等公司有超过 11 年的研发和管理经验。在推荐系统、聊天机器人、风控反欺诈领域有丰富的技术经验。在国际学术会议和期刊上发表论文 30 篇,获得最佳论文奖/最佳论文报告奖3次。2006 年 ACM 北美落基山区域赛金牌。2004 年全国大学生英语能力竞赛全国口语决赛铜牌。2003 年济南市理工科英语高考状元。本科和硕士毕业于美国犹他大学。对外经贸大学在职 MBA。