今日头条算法架构师:人工智能的下一步是机器人写作和短视频制作

2016-12-06 03:43:49 来源:济宁新闻网

今日头条算法架构师:人工智能的下一步是机器人写作和短视频制作

今日头条算法架构师/曹欢欢

在今年奥运会期间,用户在今日头条看到的很多新闻,都是一个叫 Xiaomingbot 的人工智能机器人完成的。

虽然,人工智能在新闻报道领域进行创作不是什么新鲜事了。但是,区别于其他的人工智能写稿机器人只能撰写简单的资讯,Xiaomingbot 可以通过获取网上对相关赛事的文字和讨论,总结和生成一篇较长的赛事资讯,并且可以自己给稿件配图。

今日头条告诉钛媒体,Xiaomingbot 是头条实验室和北大计算机所合作完成的项目,也是国内第一个运用了自然语言处理、视觉图形处理和机器学习技术的写稿机器人。

整个奥运会期间,Xiaomingbot 写了四百多篇新闻稿,每条稿件的写作时间平均不到两秒钟。最后 AI 写作的稿子大概有一百多万的阅读量。有的稿子的阅读量甚至高过于记者人工写作的稿件。

实际上,人工智能引发的信息分发革命在全球早已展开。在国外,2013 年,Facebook 就已经不再严格按照时间做信息流排序;2016 年,Twitter 也采取了算法推荐排序。

在国内,主打千人千面算法个性化推荐的今日头条透露,截至到 10 月底,头条的累计激活用户数已经达到 6 亿,月活用户达 1.4 亿,日活用户超过了 6000 万,单用户日均使用时长超过 76 分钟。

最近,在今日头条与财新传媒联合主办的前沿科技重构商业格局论坛上,今日头条算法架构师曹欢欢从历史回顾、当下解读和未来构想三个维度,分享了人工智能在信息分发领域引发的巨大变革。

曹欢欢认为,互联网时代的信息分发形式经历了门户、社交媒体和网络、推荐引擎三大变革。在人工智能控制信息分发以前,行业的变革在本质上是相同的。今年下半年,有第三方监测媒体发布了数据,市场上将近一半以上的分发量都是由机器控制,机器人正在接管人类权利,控制内容分发。

这样的智能算法最重要的核心逻辑是什么?曹欢欢表示,基本的逻辑是需要一个打分器,意思就是,用户的兴趣标签;其次是维度的情景,主要包括环境特征,用户获取信息时所处的时间和地点;第三类维度是,打分器的输入,主要是指内容内容的本身。三种数据可以得出,用户喜欢一个内容的概率。

在最后,曹欢欢还预言了未来机器人在创作环节主要做的两件事:一个是机器人写稿;另一个是短视频的封面选择,还包括算法自动生成视频集锦。(本文首发钛媒体,记者/李程程)

以下是曹欢欢的在第七届财新峰会上的演讲内容,经钛媒体记者整理:

这两年大家都能感受到有一个概念很火,就是人工智能。人工智能它是一个很早提出来的概念,上个世纪五六十年代就有人提出来。为什么这两年很火?最近两年的话,深度学习的进展,使得人工智能技术在很多应用领域产生了突破。很多原来人们设想的会达成的愿景,现在正在变为现实。

我们先来回顾一下这个行业的历史。这个行业非常古老,人类自从有了文明社会就有了信息分发的需要,我们最早追溯到公元 2000 年以前,那时候文字都没有,信息分发主要靠嘴,口口相传。比如传唱诗史,一些吟游诗人到处去传唱。在公元前 1000 年我们产生了文字,这是信息分发的飞跃,我们可以把东西记录下来了,这样传播的过程中就能保证它的精确性。然后在古代公元 200 年我们出现了报纸,这是信息分发形式比较大的飞跃,因为报纸有周期性非常高频的。

在 20 世纪信息分发的行业,又经历很多的技术变革。我们产生非常多到现在还有巨大影响力的技术,比如说广播、电视、互联网。互联网其实是诞生在 20 世纪 70 年代,这些强大工具对信息分发行业产生了翻天覆地的改变。古代的时候信息分发是小圈子事,它是知识分子、精英群体的事,但是现在这些技术的出现,它把大众卷入了这个行业,让行业的影响力变得无以复加的大。

但是我们回顾信息分发行业光辉历史的时候发现,从某一个维度上这些所有的历史变革其实是同质的,它和近两年人工智能对行业改变来比,还没有人工智能,我们现在最近的这一波革命影响深刻。为什么这么说?我们看到过去信息分发形式的变革,无论是从声音、口口相传变到文字,再变到报纸有一些出版的东西,再变到有网络有网站,虽然媒介形式不断的演进变得更加的强大,信息分发权利一直没有转移,这个权利还是在人手里。往往是一些非常资深的从业者,他们能判断什么是好的内容,他们来控制内容的分发。但是在机器智能算法时代,机器慢慢辅助甚至开始担当主角。所以从这个角度来讲过去所有历史好像真不如最近这波历史对行业影响大。

甚至不止是分发,近两年有一些写作机器人,在创作方面智能算法、人工智能也在对信息分发行业创作环节进行一些影响。

我们先来简单看一个新闻报道,基于上半年数据预测,到下半年整个内容分发市场将近一半分发量都是由机器控制的。我们经常说量变引起质变,50% 是非常重要的分水岭,当一个事情超过 50% 的以后这个因素已经成为决定性的因素,机器正在接管人类的权利控制内容分发,这是很重要的事件,这是上半年传播非常广的报道。根据我们对数据观测这个数据已经成为现实,当时离这个预测实现也不远了。

这一波机器影响内容分发,现在大家都知道很多人都了解这个东西是一个趋势,这个市场竞争非常激烈,包括像腾讯、百度、阿里这些巨头纷纷投入这个行业,竞争非常激烈。

在互联网技术时代怎样产生了这样一个变革?我们首先回顾一下在互联网时代最主要的几种内容分发或者叫做信息分发的一种形式。最早的形式其实是以国外的雅虎,国内四大门户代表的门户网站,它的形式它有点像电子报纸,它指展现形式通过 pC 浏览网页。内容掌控还是传统编辑模式,互联网早期门户网站最有权势的人是主编,在现代无论像我们今日头条我们基于内容算法做分发,还是说很多传统的平台,现在也在做算法推荐的事情,这个分发权利转移了,转移到做算法这群人手里。

Web2.0 时代产生一个很大变革,社交媒体和社交网络的兴起,它们兴起有了去中心化的方式。在门户时代相当于主编就决定了你这个网站应该放什么内容,但是你这样子很难满足千人千面用户个性化的需求。社交网络崛起也有一些问题。这导致最近几年,智能算法大踏步进入这个行业并且改变这个行业。

为什么这个逻辑是这样的?为什么智能算法弥补之前形式的缺点。我们看一下门户的缺点和优点,门户优点很容易理解的,有很多资深人控制这个内容展示,它的质量相对有保障的。但是它的分发效率比较低,人的工作效率和机器比比较低的,你不可能要求一个东西出来之后,它很快完成判断和分发。

另外就是它的这种形式,它的版面有限的,每天最多放几百条更新内容,最多上千条,太多的话,很多很长文内容除非放在很深很深的页面层级里面,那样的话,用户很难看到的,你这个东西没有流量,你触达不到用户生产出来也是没有意义,性价比太低。

社交媒体和社交网络一定程度上弥补了门户在这方面的缺陷,它是可以做到内容的个性化分发,因为你在微博订阅了不同的大V,或者微博里你关注了不同的人,每个人圈子不一样,你看到内容也是千人千面的。

它有一个问题就是信噪比也是比较低。你关注一个大号未必这个大号每篇文章都很喜欢,你不关心他们晒娃去哪玩了,你可能关心他生活的某一面,这个问题朋友圈解决的不是很好。这时候轮到我们智能算法出场了,智能算法它既能解决个性化问题,它的分发效率又很高,机器它自己算得非常快的,然后可以解决信噪比比较低的问题,因为它可以利用一切你可以利用的信息,智能算法不排斥社交网络。我们一直探索更好的用户之间的社交关系,这个社交关系对于捕捉你兴趣爱好你的偏好非常有用的,它的特点在于一切能用的信息都拿来用,它是一个超级专家分析你的偏好,给你推荐你感兴趣的内容。

它的问题在哪?这个也不算是问题,算是壁垒。它的壁垒在于数据,你需要很多数据,你这个模型才能变得很聪明,这个决定了这个行业门槛比较高的。我们今日头条赶上了互联网的红利,迅速积累了很多的用户。很多传统媒体甚至都找过我,我们能不能也做一个类似的?我很不好意思说,抱歉,这个事真的不能复制,你现在要去做你数据劣势很明显,你很难短时间内有相同的效果。

我们刚才说了很多头条,中国有一句老话叫做一枝独秀不是春。除了头条以外这个行业其他的伙伴或者这些竞争对手怎么做的?他们也都在纷纷拥抱智能算法,拥抱人工智能。大家看到无论是百度还是 UC,只要跟信息分发沾边的工具它都会做算法推荐,这个东西已经成为行业的大势。

前面介绍了很多背景,接下来我们分享一点干货。首先,最重要的智能算法去做智能分发核心逻辑是什么?信息分发利用智能算法来做基本逻辑就是说需要一个打分器,输入用户的兴趣标签。你是对数码还是科技感兴趣,你是对某一款数码相机感兴趣,你喜欢奔驰的车还是宝马的车。

第二个维度,情景维度和环境特征。你是在你工作的地方,还是在家,是休息日还是工作日,是早晨还是晚上,还是说去了一个你从来没有去过的地方,你可能在出差还是旅游,这对于找到你当时兴趣都是有帮助的,这一类我们归为情景维度。

第三类维度,也是打分器的输入,最重要是内容维度。推荐给你内容候选,它讲得是什么,主题是什么?热度怎么样?哪些人群比较受欢迎,是财新网发的,还是 21 世纪经济报道发的,这些都是有用的。

这三种数据进去最后输出一个数,是你喜欢这个内容的概率。这个最简单的函数,这个函数的工程实现非常复杂。但是它的逻辑可以用很简单这样一个函数概括。有这样一个函数任何人来了我们知道他的情景信息,我们可以把几百万的内容库看一遍,哪些分比较高,分高的就给你,机器逻辑非常简单。

我们有这样一个打分器输入怎么来,人的内容怎么来?我们对一个内容很了解他讲得是什么,这个人经常看这类的东西这个标签就有,你老给他推荐他不看这个分就是负分,这是快速的工程实现,稳定性,数据积累的速度。

但是这个基石其实是内容标签。怎么来?我们分别讲一下怎么用人工算法帮助我们提取内容的标签。这块分成文本内容的分析和图片的分析,文本内容也是函数,你给它一串字符串,机器看来你就是一串字符串。之后第一个提取关键词,第二个把它分类。分类在大的内容推荐引擎里面,内容分类很复杂,可能有几百个,上千个,一层一层的。顶层可能科技、财经,在财经里面有股票、宏观经济,在股票里面有美股、港股。我们还要抽取实体,这个实体对推荐人很重要。

图片也是类似的原理,拿到图片我们也要分析,图片的标签和文本的标签我们一起使用做一个内容的推荐。包括视频标签也可以从一帧一帧图片中抽取一些有意的信息。我们做一些反作弊包括识别广告和色情内容,图片分析也非常重要。

我接下来介绍几个我们现在正在做、正在预言一些未来机器在创作环节可能做的事情。我们这边也写一个写稿机器人,里约奥运期间测试上线,奥运期间这个机器人自动发了 100 多个稿件,累计阅读超过 100 万,在很多稿件它的点击率比同样的话题的记者,人工记者写得点击率还要高。

另外一个可以做得就是视频的封面自动选择。今年算是短视频的爆发之年,短视频又是一个风口,我怎么选一个好的封面?实际上,平台效果封面起了很大作用,不同封面对点击率影响非常大。这块完全人去做可能凭经验,我们想能不能靠机器做这件事情?我们根据有经验人的行为,学习到这个模式,提供一些建议,给你一些候选。最终的决策权在作者自己手里,因为你对你自己的内容更了解,你不仅要考虑点击率,你可能要考虑你的调性,是不是符合你受众对你的期待。

另外,我们做的有趣的事就是算法自动生成视频集锦。这也是去应对现在短视频的浪潮,有很多长视频的内容没有足够人力把它剪辑出来,把它变成适合在短视频分发平台上传播的形式,机器有可能把这件事做得更好,可以规模化,更有效率的做这件事。

我分享就到这里,谢谢大家的时间。

济宁IT新闻