第四范式涂威威:AutoML 回顾与展望

  • 2019-07-02 10:07
  • 3T比特

AI 科技评论按,本文作者第四范式涂威威,该文首发于《中国计算机学会通讯》第15卷第3期, AI 科技评论获中国计算机学会授权转载。

自动机器学习的研究动机

机器学习在推荐系统、在线广告、金融市场分析、计算机视觉、语言学、生物信息学等诸多领域都取得了成功,在这些成功的应用范例中,也少不了人类专家的参与。Google、 Facebook、百度、阿里巴巴、腾讯等科技公司依靠其顶尖的机器学习专家团队来支撑机器学习在企业内部的各种应用,各类科研机构也在花费大量经费,维护着机器学习科学家团队。然而,对于很多传统企业、中小型企业和一般的科研机构,就很难组建出这样的机器学习专家团队,其原因是机器学习专家的缺口太大,人才短缺,人才抢夺激烈,专家团队的管理成本高昂和专家经验不可复制,等等。

为了机器学习能为更多的企业赋能,在更加广泛的场景得到应用,有没有低门槛甚至零门槛的机器学习方法,让更多的人可以在很少甚至几乎没有专业知识的情况下轻松使用,并减少机器学习应用落地对专家人才的依赖?自动机器学习(Automatic/Automated Machine Learning, AutoML)应运而生。其研究目的就是为了使机器学习过程自动化,减少、甚至完全规避人类专家在这个过程中的参与度。 

理论出发点

设计机器学习算法是一件困难重重的事情,能否找到一种通用的机器学习算法来解决所有的机器学习问题呢?这个问题在 20 多年前就被解答过,对于所有可能的问题,可以证明的是,如果所有问题同等重要,所有的算法,包括完全随机的算法,它们的期望性能是一样的,所有的算法没有优劣之分,这是著名的没有免费的午餐 (No Free Lunch, NFL)定理的一个不太严谨的直观阐述。

这个定理意味着寻求一种完全通用的机器学习算法是行不通的。于是,研究人员就开始针对不同的问题展开对应的机器学习研究,这导致了机器学习技术广泛应用不可复制的问题。在解决某个特例问题的机器学习算法和针对所有问题完全通用的机器学习算法之间,有一种可能性是存在可以解决某一类而不只是某一个特例的相对通用的机器学习算法。自动机器学习就是从这样的理论考虑出发,试图去寻找更加通用的机器学习算法。

目前自动机器学习研究的主要场景

静态闭环自动机器学习

静态闭环自动机器学习考虑的是静态机器学习问题,即给定固定的训练集,不利用外部知识,寻找在测试集上期望表现最好的机器学习模型。经典的机器学习流程包括数据预处理、特征处理和模型训练。自动机器学习在这三个流程中都有广泛的研究 :

(1) 数据预处理中,研究数据的自动清洗、样本的自动选择、数据的自动增强、数据类型的自动推断等,以达到理解原始数据和提升数据质量的目标。

(2) 对特征处理方法的研究主要包括自动特征生成和自动特征选择。自动特征生成的研究包括单特征变换、多特征组合、深度特征生成、特征学习等。自动特征选择一般会配合自动特征生成使用,先自动生成特征,再进行自动特征选择,对于复杂的特征处理,一般两者交替迭代进行。

(3) 模型训练的研究一般包括自动算法选择和自动算法配置。自动算法试图从广泛的机器学习算法中选择适合问题的某一个或者某几个算法,这些算法又有很多的超参数需要配置,自动算法配置则研究如何进行超参数选择配置,比如如何配置神经网络结构,实际应用中这两者也会配合使用。

外部知识辅助的静态自动机器学习

外部知识辅助的静态自动机器学习试图借鉴人类专家选择数据处理方法、特征处理方法、模型训练算法等的方式进行自动机器学习。人类专家会从以往处理过的机器学习问题中积累经验,并将此推广到之后的机器学习问题中。

动态环境的自动机器学习

动态环境下的自动机器学习研究试图解决的是数据不断积累、概念发生漂移时的问题。

核心技术

自动机器学习的研究核心是如何更好地对数据处理方法、特征处理方法、模型训练方法等基础部件进行选择、组合以及优化,以使学习到的模型的期望性能达到最优(见图 1)。

目前该项研究主要面临三个难点 :

(1) 超参配置与效果之间的函数无法显式表达,属于“黑盒”函数;

(2) 搜索空间巨大,可能的处理方法和组合是指数级,同时不同处理方法拥有各自的超参数,当特征维度超过 20 时,其多目特征组合可能的搜索空间都将远超围棋可能的状态空间 ;

(3) 函数值的每次计算大多涉及数据预处理、特征处理、模型训练的全流程,函数值的计算代价极其昂贵。为了解决这些问题,采用的核心技术是基础搜索方法、基于采样的方法和基于梯度的方法。

原标题:第四范式涂威威:AutoML 回顾与展望|方法|机器|算法|

头条推荐
图文推荐