功夫如何练就——深度学习
创作型机器人的核心技术是自然语言理解与生成,这主要由深度学习技术来实现
“你那边天气怎样——广州,今日:多云17℃~26℃;明日:多云18℃~27℃。深圳,今日:多云18℃~26℃;明日:多云19℃~27℃。”执行完春运任务后,“小南”又添了一项技能——播报天气。
不断成长的“小南”只是近年来创作型机器人迅速崛起的一个剪影。这些“大牛”们究竟是怎样炼成的?万小军告诉经济日报记者,无论是写诗机器人还是写稿机器人,其核心技术都是自然语言理解与生成,而自然语言的处理是目前人工智能领域难度最大的课题之一。
“写稿机器人实际上是一款利用编程语言实现的智能写稿软件。”万小军说,从现有写稿机器人来看,它们多数专注于财经、体育等领域,因为这两个领域具有一定规则和数据可循,实现起来相对容易。目前机器人写稿主要有两种方式:原创和二次创作。原创,即借助结构化的数据来生成稿件,比如利用数据库可以直接写成天气预报、财报和年报的稿件。二次创作,即对已有的相关报道进行拼凑,进而改写成为新的稿件。
不过,两者所依赖的技术并不完全一致。原创采用的是自然语言生成技术,是从结构化数据/意义表达生成自然语言语句。二次创作采用的是自动摘要技术,从已有的文字素材中进行摘要,从而生成一个新的稿件。例如,一个体育简讯的生成需要先从网上抓取关于体育赛事的一些基本数据,据此做一些数据分析,就可以生成一个比较简单的体育赛事报道,这就属于原创。
据业内人士吴俣的说法,所谓自动撰稿机器人,广义的说也可称为“文本生成”。它的写稿方式之一是抽句子——找一堆句子,拼成一篇文章。写稿机器人“张小明”就是利用这项技术实现基于体育直播文字的体育长文自动生成,从而走在技术前列。
写诗机器人,也不例外。“目前写诗机器人主要基于深度学习技术,对它来说,学习样本越大越有规律可循,学起来效果也更好。”在万小军看来,机器人写诗其实是个“编码与解码”过程,编码过程对用户输入信息进行语义编码,解码过程则逐词生成得到每行诗。研究人员先搜集成千上万首诗,利用诗的标题或关键词作为输入,训练深度学习模型生成相对应的诗句。充分学习训练后,机器人会摸索出一套作诗的规律,按照主题需要解码输出第一句诗,然后把这句诗与输入的关键词合并作为新的输入,就可解码得到第二句,如此循环便可得到一首完整的诗。
“人工智能特别擅长写这种有规律的、被条条框框约束的内容,在一些简单重复性的脑力劳动中,它具有一些先天优势。”万小军称。