Update README.md

2025-02-20 11:43:09 +08:00 · 2024-07-20 11:03:29 +08:00 · 2024-07-20 11:03:29 +08:00 · c94597ec2e
commit c94597ec2e
parent e27497c3a1
1 changed files with 10 additions and 1 deletions
--- a/server/hooks/spam_block/README.md
+++ b/server/hooks/spam_block/README.md
@ -1,6 +1,7 @@
 # 插件介绍

-使用机器学习的方式识别垃圾邮件。模型使用的是RETVec。模型参数约 200k，在我1核1G的服务器上，单次推理耗时约3秒，Mac M1上可达到毫秒级耗时。
+使用机器学习的方式识别垃圾邮件。模型使用的是RETVec。模型参数约 200k，在我1核1G的服务器上，单次推理耗时约3秒，Mac M1上可达到毫秒级耗时。耗时上，其实可以将模型进行裁剪，转换为Tensorflow Lite模型，转换后模型的资源消耗应该更小。但是Lite模型部署比较繁琐，涉及大量C库的编译安装，过程过于复杂。另外
+我觉得，这个模型在我这垃圾服务器上面都能勉强使用，其他所有人的服务器上面应该都能顺利运行了，没必要继续裁剪模型了。

 # Help

@ -68,6 +69,14 @@ trec06c数据集：

 loss: 0.0187 - acc: 0.9948 - val_loss: 0.0047 - val_acc: 0.9993

+实际使用效果：
+
+我最近一周的使用效果来看，实际使用效果远低于模型理论效果。猜测原因如下：
+
+trec06c数据集已经公开十多年了，目前应该市面上所有反垃圾系统都使用这个数据集训练过。这个训练集训练出来的特征可能具有普遍性，而对于发垃圾邮件的人来说，这十多年他们也大致摸透了哪些特征会被识别为垃圾邮件，因此他们会针对性的避开很多关键字以免被封
+
+解决方案只能是加入更多更优质的训练数据，但是trec06c之后就没这样优质的训练数据了，因此如果大家愿意，欢迎贡献模型训练数据。另外，针对模型本身，也欢迎提出优化方案。
+
 # 训练模型

 `python train.py`