mirror of
https://github.com/Jinnrry/PMail.git
synced 2025-02-20 11:43:09 +08:00
Update README.md
This commit is contained in:
parent
e27497c3a1
commit
c94597ec2e
@ -1,6 +1,7 @@
|
||||
# 插件介绍
|
||||
|
||||
使用机器学习的方式识别垃圾邮件。模型使用的是RETVec。模型参数约 200k,在我1核1G的服务器上,单次推理耗时约3秒,Mac M1上可达到毫秒级耗时。
|
||||
使用机器学习的方式识别垃圾邮件。模型使用的是RETVec。模型参数约 200k,在我1核1G的服务器上,单次推理耗时约3秒,Mac M1上可达到毫秒级耗时。耗时上,其实可以将模型进行裁剪,转换为Tensorflow Lite模型,转换后模型的资源消耗应该更小。但是Lite模型部署比较繁琐,涉及大量C库的编译安装,过程过于复杂。另外
|
||||
我觉得,这个模型在我这垃圾服务器上面都能勉强使用,其他所有人的服务器上面应该都能顺利运行了,没必要继续裁剪模型了。
|
||||
|
||||
# Help
|
||||
|
||||
@ -68,6 +69,14 @@ trec06c数据集:
|
||||
|
||||
loss: 0.0187 - acc: 0.9948 - val_loss: 0.0047 - val_acc: 0.9993
|
||||
|
||||
实际使用效果:
|
||||
|
||||
我最近一周的使用效果来看,实际使用效果远低于模型理论效果。猜测原因如下:
|
||||
|
||||
trec06c数据集已经公开十多年了,目前应该市面上所有反垃圾系统都使用这个数据集训练过。这个训练集训练出来的特征可能具有普遍性,而对于发垃圾邮件的人来说,这十多年他们也大致摸透了哪些特征会被识别为垃圾邮件,因此他们会针对性的避开很多关键字以免被封
|
||||
|
||||
解决方案只能是加入更多更优质的训练数据,但是trec06c之后就没这样优质的训练数据了,因此如果大家愿意,欢迎贡献模型训练数据。另外,针对模型本身,也欢迎提出优化方案。
|
||||
|
||||
# 训练模型
|
||||
|
||||
`python train.py`
|
||||
|
Loading…
x
Reference in New Issue
Block a user