人文是什么意思知乎(人文价值是什么意思)墙裂推荐
在知乎人跟人的连接,人跟内容的连接,都已经达到了爆炸状态。我们引入了AI前沿算法技术,帮助知乎小管家团队维护社区氛围。
AI算法与人文价值
在4月27日GMIC“AI产业化领军者峰会”上,知乎合伙人、高级副总裁李大海进行了主题为“AI算法与人文价值”演讲截止到今年三月底,知乎已经有超过1.4亿的注册用户,全平台的日活跃用户超过3400万,用户累计提出了2300万个问题,并收获了接近1亿的回答。
超级知识社区的建立离不开AI,知乎也在利用AI让社区规范被更加智能高效地执行,让互联网讨论礼仪被更好地普及,这正是AI所能够给知乎带来的人文价值知乎合伙人、高级副总裁李大海演讲实录: 很荣幸能够代表知乎来参与在GMIC上的分享。
刚才圆桌论坛环节在专利战略上的讨论对我也很有启发我们正处在深度学习引发的AI热潮里,现在AI算法已经全面的被应用在了内容平台的各个环节,是不可缺少的一部分业界对于AI算法,对于平台的商业价值,还有业务价值都已经讲的很多了,今天我想借此机会跟大家讲讲AI的人文价值。
我先介绍一下知乎,知乎诞生源于一个非常简单的初心我们相信在信息爆炸的互联网海洋中,有价值的信息仍然是稀缺的,基于这样的理念我们想建立这样的平台:能够把用户脑子里彼此最重要的信息能够分享出来,能互相利用另外,这些信息还能够沉淀下来,当有其他用户有类似问题的时候,我们能够很方便的找到。
这样进而让说话用户都能够更好的去认识这个世界要让用户主动分享自己脑袋里的知识、经验、见解,我们认为一定要有开放、包容的讨论环境这件事情是很重要的,所以我们诞生第一天起我们就在用运营和产品手段去维护良好的讨论氛围。
我们也是第一个把友善作为要求写进社区规范的社区这个决策是非常重要的,因为在良好的社区讨论氛围下知乎已经成为中国互联网中最大的知识分享平台截止到今年三月底,知乎已经有超过1.4亿的注册用户,我们的全平台的日活跃用户超过 3400万,用户在知乎上累计提出了2300万个问题,并收获了接近1亿的回答。
在知乎人跟人的连接,人跟内容的连接,都已经达到了爆炸状态如果我们把知乎比作一个城市的话,这是一个超级城市,里面有上亿的居民跟游客这个城市的法律法规就是我们社区的规范在这样一个规模的城市里,我们维护法律法规还是人工方式运维的话一定是低效的,所以这时候我们引入了AI前沿算法技术,帮助知乎小管家团队维护社区氛围。
我们要解决的问题都是自然语言处理领域的问题,也就是NLP的问题其实AI在NLP领域是不如像图片等等这样一些领域的成果这么出色的,但是很幸运的是知乎积累了一个非常高质量的中文语料库我们拥有大量的优质提问跟回答的文本。
同时用户的行为本身在我们这儿也是非常重要的数据这个怎么理解呢?用户来知乎去生产和消费内容的时候,他们同时也在建设这个社区,他们的行为本身就是社区体系的一部分举个例子,用户对一个回答的赞同或者反对,他们对任何内容的举报,他们发起一个话题,或者对问题或者话题进行公共编辑,在某种程度上我们都可以把它认为是对相应文本语料进行标注。
有了这样标注数据以后,我们就能够去利用有监督的机器学习算法去得到一个更好的语义表示,从而能让我们对语言的理解能够达到一个更高的层次另外这还能形成一个正向的闭环因为我们良好的社区氛围,所以我们的用户在知乎的行为大部分都是高质量的。
有了这些高质量行为我们就会有高质量的标注数据,这就更有利于我们用AI算法维持或者提升我们的讨论氛围另一方面,经过七年多的运营,知乎团队已经培养了非常丰富的社区管理的经验我们已经认识到一个社区的规范不是制定出来的,它一定是平台和用户相互之间和摸索出来的。
我们在这个过程中理解了不同用户不同诉求,然后能让我们规范去匹配复杂多变的各种场景这样一些丰富的经验对于AI落地是非常有帮助的,因为它能够把氛围这个很虚无的大问题分解为很多小的目标,可以解决的问题,降低这个问题的难度。
给大家举一些有伤害社区氛围的例子第一种是答非所问所谓的答非所问就是没有答到点子里,离题万里的回答这些回答往往是没有什么价值的信息,有些甚至只有情绪读者看到这样不能获得有效的信息,是在浪费的他们的时间第二,不有效的评论。
大家看到这些有效评论后,自己换位思考一下,如果自己是一位作者花了半天辛辛苦苦写了一个回答,评论区都是这样的回答,你们是什么感受不是作者也没关系,作为读者看到每一个精彩的答案下面的讨论区域都是这种乌烟瘴气的氛围,其实也不是一个良好的体验。
还有一种是阴阳怪气,根据我们的经验,它对于创作者的创作热情,还有创作体验的伤害更大当然损害社区氛围的例子不仅仅是这些经过两年多的工作,我们建设了一个算法机器人,叫瓦力,目前瓦力已经在线上能够快速适时去响应去处理像答非所问和不友善的内容,像歧视,恶意贴标签,辱骂等等低质内容,全力帮助我们知乎小管家团队去减少低质内容和无关内容对用户的干扰。
目前瓦力的准确率在部分场景中最高能达到 99.13%我们在这个工作有两个方向,第一,在不同的领域再进一步提高它的准确率和召回,第二,不断提高瓦力机器人的适用范围瓦力机器人能力提升背后是离不开我们的用户的。
举个例子,我们最近上线内测了一个理由反对的功能,这个功能有五万名用户参加了内测所谓有理由反对就是用户点击反对的时候,同时选择一下反对的理由用户每次选择都是瓦力去学习的一些新的机会我们在内测期间通过用户选择和瓦力结合一共梳理了超过两万条答非所问的回答。
下面我从技术的角度简单去讲讲我们的瓦力机器人怎么做的以答非所问作为例子来简单的讲一讲我们最早解决这个问题的时候采用的是随机森林的模型什么是随机森林呢?简单的来讲,随机森林就是用随机的机制去产生很多分类树组成的森林。
它的分类树就是把这个样本放到每个树里去分类举个例子,就是知乎来讨论一个问题,比如知乎的宠物是狗还是狐这样就让每个树自己投票在完成这个模型以后,我们取得了还不错的一个效果,它的准确率能够达到97%,是一个非常高的准确率。
但是有两个问题,第一个,它的召回率不高,只有58%,不到60%这个召回率意味着什么呢,意味着我们会错过坏人,就把一些答非所问的回答放到线上去了这样的话这样的回答给用户带来不好的体验,所以召回率是我们很在意的东西。
另外,这个模型会用到用户的行为统计特征,也就是说,就是需要去看有多少用户对这个进行了点击回答或者点击举报的特征这个特征有什么问题,用了这个特征,如果对一个新的回答做分类判断是不是答非所问的时候必须放到线上观察一段时间,看看线上对它的点击量反对或者举报。
这就出问题了,因为它上线了如果真的是一个答非所问的话,看到这个回答的用户他的体验其实就已经受到了伤害,这个时间差是存在的我们就开发了一个模型,这个模型是基于孪生模型的思路,去提升网络结构的表达能力同时对特征进行选取的时候也做了很多仔细的考虑,去避免使用前面所说的用户行为的统计特征。
最后的结果我们在召回率上有了一个非常大的提升,从60%提升到80%同时任何一个回答只要发出来,很快就能够被分类当然它也有缺点,它的准确率下降了,但是在这个场景我们可以结合其他的业务策略来弥补这个差距所以最后我们就把新的模型上线了,去替代老的模型。
我们算法团队在这个月发表了三篇文章,在知乎专栏上比较详细的阐述了知乎在瓦力机器人的工作,其中包括了这部分的工作大家感兴趣的话可以上知乎专栏看一看我这里还想再跟大家同步一下,知乎在“阴阳怪气”这个领域的识别的一些实践。
这个工作还没有做完,但是我特别想跟大家同步,因为这是一个非常难的问题,也非常有意思阴阳怪气就是反讽我们处理的思路,首先还是要基于深层语义理解,也就是语义分析这个工作但是这个是不够的因为从我们的实践来看,往往一句话,同一句话如果是两个好朋友之间发生的话,它有可能是插科打诨,打情骂俏。
但是如果是两个陌生人之间一定是有敌意或者不友善的所以基于这样的思考我们会从两个方向去综合判断反讽这个问题之所以要跟大家分享,是因为它是情感分析领域的前沿问题,它很难因为反讽是一种完全正面的词语去表达负面的意思,是一个很高级的修辞手法,机器人很难明白的。
在训练中我们会把内容本身的特征尽可能的feed到模型中去,包括像文本特征,一些数值特征,还有像反讽词表,以及一些表现符特征等等但是不会把用户统计特征放进去,这个理由和前面是一样的我们使用的网络拓扑模型使用的CNN和LSTM的结合。
最关键的其实是最后一部分,我们在分类层是用大量一致的语料产生标准数据,这就是我前面讲的用户行为举个例子,简单的说,如果一个评论有很多好的用户,他们都进行了反对,可能我们认为这就是一个负向的如果另外一个评论有很多用户点了赞同,它可能就是正向的。
基于这个我们可以构建大量的标注数据这样一个方案我们现在还在开发过程中,有结果后我们会发布到知乎专栏上,大家也可以关注一下当然这个问题比较难,可能我们还要解决很多细节问题,时间可能会比较久但是没有关系,我们相信知乎通过这种庞大的高质量用户行为的学习和分析,一定在语义和用户关系这两个层面上一个更深的建模和理解。
从而有机会突破“识别反讽”这个一直困扰情感分析领域的前沿话题这将对中文互联网乃至世界互联网的讨论环境产生积极的促进作用以上是我关于AI算法和人文价值的一些分享一个开放包容包括氛围是很重要的,它是孕育文化上百花齐放状态的一个非常重要的土壤。
当然知乎作为一家技术公司我们不仅仅把AI用在了这个领域,事实上AI技术已经广泛应用在知乎的内容生产,流通,消费等等环节我们接下来的计划是用AI,人机结合去打造一个智能社区什么是我们所说的智能社区呢,我们坚信每个人脑子里的知识、经验、见解都是另外一群人非常感兴趣和想知道的。
所以知乎长久以来所做的一切都是为了建立这种前所未有的连接,满足彼此的需求这也是知乎的初心和长久的愿景我们相信在不远的未来每个知乎用户,上知乎后都能很快找到他感兴趣的人和内容他的问题能够快速的被推到能回答和有意愿回答的人那里。
他也能发现让自己拍案叫好的问题,然后分享出自己最在行的信息,获得让自己愉悦和满足的认可,并且遇到有共鸣的人去产生更深刻的交流、碰撞的化学反应我们将以前所未有的效率建立这样思维的连接,让每一个个体脑袋里的见解都能够被分享,被筛选,被转化成这个时代的知识。
知识的生产方式和迭代效率在这样的连接之下就会发生质的改变,这就是我们认为的智能社区在建设这样一个智能社区的过程中我们会遇到什么样的挑战呢?我们有很好的数据,我们的问题也都很明确,我们的挑战其实主要是在人上。
相比于我们要解决的问题来说,我们团队很不错,但是相比于这些问题我们的人还是比较少的,所以我们希望业界厉害的人加入我们,一起把知乎创建成为一个具有人文价值的一个智能社区谢谢大家
▽ 点击阅读原文访问大会官网
- 标签:
- 编辑:
- 相关文章
-
人文是什么意思知乎(人文价值是什么意思)墙裂推荐
在知乎人跟人的连接,人跟内容的连接,都已经达到了爆炸状态。我们引入了AI前沿算法技术,帮助知乎小管家团队维护社区氛围。…
-
人文是什么意思知乎(人文价值是什么意思)学会了吗
不久前,知乎宣布,截至2020年2月底,其付费用户数量比去年同期增长4倍。笔者尝试在百度搜索关键词“知乎、付费用户”,搜索结果中确有不…
- 人文是什么意思知乎(人文思想是什么意思)快来看
- 人文是什么意思知乎(人文思想是什么意思)没想到
- 人文是什么意思知乎(人文渊薮是什么意思)新鲜出炉
- 人文是什么意思知乎(人文渊薮是什么意思)难以置信
- 人文是什么意思知乎(人文签证是什么意思)满满干货