2022-09-11
 
用机器学习清理社交媒体
2022年09月11日  

成人或色情内容垃圾邮件是社交媒体上日益严重的问题。《国际商业智能和数据挖掘杂志》的最新研究讨论了如何快速检测和及时删除此类内容。

印度新德里Jamia Nagar的Jamia Millia Islamia(中央大学)的Deepali Dhaka、Surbhi Kakar和Monica Mehrotra解释了如果能够有效、快速地过滤淫秽垃圾邮件内容,如何改善一般用户体验和年轻人使用社交媒体的体验。机器学习工具通常是检测特定类型内容的前进方向,团队已经证明,XGboost这样的工具可以检测成人垃圾邮件内容,准确率超过90%。这是该团队测试和调整的六种分类算法中最有效的一种,用于检测Twitter上的色情垃圾邮件。

因此,每100个被标记为成人垃圾邮件的更新中,只有不到10个是误报。该团队的方法只需要分析少量特征、价值体系、词的熵、词汇多样性和词嵌入,就可以从最知名的社交媒体平台之一Twitter的一般更新流中提取成人垃圾邮件更新。

积极检测的本质是,一般来说,平台的日常用户在不同的上下文中讨论各种各样的话题,并以一种可以称为有机的方式进行写作和分享。相反,在这种情况下,垃圾邮件发送者和色情垃圾邮件发送者倾向于采用固定甚至完全自动化的方法进行更新,正如人们所预期的那样,主题的多样性有限,词典也非常有限。垃圾邮件的这些和其他特征使得算法能够识别它们。

免责声明: 本文仅代表作者本人观点,与中国机械网无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。
客服邮箱:service@cnso360.com | 客服QQ:23341571