借助机器学习对垃圾信息说“不”

2018-09-20 15:10
科技日报

　　七夕将至，你是否收到过电商店铺推送的打折促销短信？平时是否经常收到理财、贷款、购房等信息？如果你是苹果用户，那你是否有过半夜收到iMessage推送赌场、假货、股票以及色情信息的经历？

　　商家给安卓用户推送广告信息需要通过移动、联通等运营商，运营商会拦截掉一些非法信息，而针对苹果用户，商家甚至不法分子则可利用iMessage渠道通过互联网直接向用户推送垃圾信息，目前苹果公司尚未采取有效的筛选、拦截等手段。

　　近日，苹果官方终于发声，表示正在探索更先进的机器学习模型识别，过滤垃圾信息。机器学习模型如何过滤垃圾信息？又面临哪些技术难点呢？记者采访了相关专家。

　　作为人工智能的核心技术，机器学习是计算机模拟人类思考方式的一种学习行为，它让计算机变得“聪明伶俐”。“基于机器学习的垃圾信息过滤技术实际上是一个二元分类过程，机器学习模型需回答‘是’或‘不是’，以便将垃圾文本从大量信息中分离出来。”北京语言大学大数据与语言教育研究所所长荀恩东教授在接受科技日报记者采访时说，“首先应准备人工标注的数据，进而构建机器学习参数化模型，最后对其训练、测试，直至模型应用，解决实际问题。”

　　“目前市场上识别垃圾邮件、短信的机器学习模型绝大部分采用的是针对文本显式特征的分析和提取。”荀恩东解释，所谓“显式”特征，是指垃圾信息的关键词、表达形式、特殊符号、异体字、敏感词语表达方式等“外在”特征。将这些多元、离散的特征元素汇总，便可构成显式特征列表，进而构建模型对垃圾信息进行甄别。

　　“这种分类方式效率较高、成本较低、所依赖数据较少，但也存在适应性差，识别精度不高等不足之处。”荀恩东指出，如果垃圾信息发送方掌握了用户拦截系统的显式特征列表，便可对垃圾信息的敏感词汇作出相应调整，变换表达形式，从而有效规避拦截系统。因此分类器需要实时动态更新显式特征列表，即便如此，该列表元素数量也十分有限，导致分类器过滤效果不佳，精确度不高。

　　基于显式特征的分类方式“先天不足”，苹果公司有可能将目光投向隐式特征分类，即深度学习模型。荀恩东表示，深度学习模型可对海量数据的信息进行深度挖掘，从信息的语义和内容上对垃圾信息进行甄别。也就是说，同样一条推销短信，深度学习模型基于庞大的数据库，可分析出它的多种表达方式，从而做出更加准确的判断，仅靠改变文字形式无法逃脱深度学习模型的“火眼金睛”。深度学习模型省去了前期建立大量显示特征列表的工作，只需标注垃圾、非垃圾信息即可，不仅效率提高，识别精度也得到很大提升。

　　基于深度学习的垃圾信息过滤技术目前也面临诸多技术难点。复旦大学计算机科学技术学院张军平教授表示，虽然有大数据支撑，深度学习模型在很多方面还是无法像人一样有效分析和理解信息中的内容。例如，个别汉字的顺序颠倒不一定能影响阅读，然而深度学习模型并没有人脑这样“聪明”。另外，组合爆炸问题也是难点之一。垃圾信息涉及领域广泛，形式变化多端，大数据深度学习模型可能对已有的垃圾信息有效分类，但面对新出现的垃圾信息可能就会“蒙圈”。

　　“这需要借助类似长短时记忆网络或更新的一些技术，对深度学习模型进行定期更新。” 张军平认为，还可以考虑自然语言处理中的一些句与句的关系，进一步完善深度学习算法，从而改善其预测、分类能力。

　　（原标题：借助机器学习对垃圾信息说“不”|垃圾信息|机器学习）