Update README.md

This commit is contained in:
Jinnrry 2024-07-20 11:03:29 +08:00 committed by GitHub
parent e27497c3a1
commit c94597ec2e
No known key found for this signature in database
GPG Key ID: B5690EEEBB952194

View File

@ -1,6 +1,7 @@
# 插件介绍
使用机器学习的方式识别垃圾邮件。模型使用的是RETVec。模型参数约 200k在我1核1G的服务器上单次推理耗时约3秒Mac M1上可达到毫秒级耗时。
使用机器学习的方式识别垃圾邮件。模型使用的是RETVec。模型参数约 200k在我1核1G的服务器上单次推理耗时约3秒Mac M1上可达到毫秒级耗时。耗时上其实可以将模型进行裁剪转换为Tensorflow Lite模型转换后模型的资源消耗应该更小。但是Lite模型部署比较繁琐涉及大量C库的编译安装过程过于复杂。另外
我觉得,这个模型在我这垃圾服务器上面都能勉强使用,其他所有人的服务器上面应该都能顺利运行了,没必要继续裁剪模型了。
# Help
@ -68,6 +69,14 @@ trec06c数据集
loss: 0.0187 - acc: 0.9948 - val_loss: 0.0047 - val_acc: 0.9993
实际使用效果:
我最近一周的使用效果来看,实际使用效果远低于模型理论效果。猜测原因如下:
trec06c数据集已经公开十多年了目前应该市面上所有反垃圾系统都使用这个数据集训练过。这个训练集训练出来的特征可能具有普遍性而对于发垃圾邮件的人来说这十多年他们也大致摸透了哪些特征会被识别为垃圾邮件因此他们会针对性的避开很多关键字以免被封
解决方案只能是加入更多更优质的训练数据但是trec06c之后就没这样优质的训练数据了因此如果大家愿意欢迎贡献模型训练数据。另外针对模型本身也欢迎提出优化方案。
# 训练模型
`python train.py`