讨论：如何低成本的识别垃圾群聊文本

yoonching

近期在开发一款高校迎新场景的群管机器人解决方案。目前在群聊管控方面，通过Mirai实现了基于正则的垃圾文本撤回、二维码视频链接红包语音等内容的撤回。

在垃圾文本识别这块，我是基于往年的一些运营经验，把垃圾文本特征写成正则表达式，作为匹配规则。这个成本很低，然而受限于样本数量及正则的编写水平等原因，识别正确率差强人意。

因此，想与大家讨论，用什么样的技术路径，能够低成本、更智能的识别垃圾文本（涉广告、ZZ、恐暴、SQ等）呢。

yoonching

高校迎新场景，实名制入群是保证群聊质量的重要一环。实名制入群能大大降低垃圾广告的数量。在这个环节，我设计了2种验证方式。

1、建立一个加群正确答案表，这个表里的主要字段有群号、合法的答案，备注。例如群123456，答案是一位录取考生的考生号，备注是验证成功后，给他的名片。缺点是需要人工录入数据，时效性较低。

2、通过外部API，用于对接其他系统，例如迎新系统。这样直接同步其他系统的录取数据，时效性很高。实现上，将加群的答案get到接口上，接口来验证这个答案是否正确，如果正确把信息返回给机器人，机器人进一步验证这个答案有无被使用过、被使用过是否为本人使用（退群后重新加群）——算是考生号和QQ绑定。根据接口的返回设置名片，把这次加群记录存到加群日志表中。

yoonching

高校迎新场景，需要大量人力投入，机器人只是辅助志愿者及管理员工作。在答疑上，复用了基于正则的解析工具，为一些常见问题提供快捷的解答（例如学校地址、学校地图、招生计划、军训时间等）。机器人覆盖不到的地方，需要志愿者来回答。

QQ群最大支持3K人，一个高校的招生规模一般大于3K人，因此，招募志愿者数量是需要在解答质量时效和群人数之间找一个平衡。以期更多的新生能够得到解答。于此，做了个表统计群内每个人每天的发言数量，又写了个视图汇总每个月每个群每个人的发言统计。答疑志愿者是一项辛苦的工作，如果一些志愿者如果是来混的，对其他人也不公平，还不如劝退出群。

yoonching

碎碎念结束~请各位带佬给点识别垃圾群聊文本的建议。

希望排除一些云服务商现成的方案，成本有点承担不起。

我手头有的就是服务器和人...

Samarium150

做一个简单的自然语言学习模型来分类？不过可能数据量不太够

RainChan

这是一个很有价值的问题，我之前也考虑过实现这样一个功能，但是因为数据集不够只能实现高校常见垃圾信息的识别以及二维码图片的识别

ryoii

快来投入机器学习的伟大深渊

Nambers

我觉得训练NLP比较合适，或者在找现有的解决方案，我觉得各种云都有提供

RainChan

@nambers 确实有不少云平台都提供对于社区帖子的自动审核服务，但是这种服务运用于聊天完全不现实；可以针对使用情景收集数据集之后自行训练一个模型

Nambers

@rainchan 自己训练模型也比较麻烦，要搜集大量数据和手动标记，也可以提供关键词然后用模糊匹配

RainChan

@nambers 参考

https://github.com/kenvix/ComplexBot/blob/master/MiraiBot/backend/adfilter/data/data-pssisterad.txt

Nambers

@rainchan okok hhhh

yoonching

新收集到一个发广告的方式，通过转发消息链来发广告内容。
之前我会遍历MessageChain内元素，只判定plaintext的内容作为文本广告判定，今天开眼了。

现在如果是ForwardMessage，我会先遍历它的node，解析实际的message。

ShaoLongFei

用第三方吧，靠谱省心，自己弄太麻烦了

cssxsh

搞了个基于百度内容审核的自动禁言插件，简单暴力 Mirai-AntiPorn-Plugin