决策树给出了不可能的结果
我刚刚用决策树训练了一台机器,它的f值达到了997%。
听起来不错,直到你听到,天真贝叶斯只有66,4%
在那个数据集中,我发现使用深度学习的得分是98.2%
我在这个数据集中发现的最高可信分数是78.5%
设计是基于这个视频:
我所做的只是将交叉验证中的朴素贝叶斯算子替换为决策树算子。
即使使用10次交叉验证,我的得票率也不会超过70%。
高分数的直接原因是,由于某种原因,标签和id之间有很强的相关性,但是我不知道如何限制算法使用哪些列。
问题是,我哪里做错了?我该怎么做才对?
0
最佳答案
-
MartinLiebig 管理员,版主,员工,RapidMiner认证分析师,RapidMiner认证专家,大学教授职位:3287年RM数据科学家通常这只是因为两个类的两个集合被附加了。所以数据集的前一半为真,后一半为假?
否则:通常id与日期相关,日期与标签相关。
您要做的是使用Select Attributes并删除id,或者设置role并将id的角色设置为id。
最好的马丁
- RapidMin乐鱼体育官方apper数据科学服务主管
德国多特蒙德0
答案
德国多特蒙德
看看决策树。可能您在数据中留下了一个与标签密切相关的属性,但在将来的数据中不可用。
这棵树复杂吗?决策是否显而易见?
您可以在流程的各个部分设置断点(我会尝试使用决策树和性能),以查看不同的验证步骤。
问候,
Balazs
如果再次发生这种情况,请查看逐步执行的结果。如果您得到一个非常简单的树,或者在不同的执行中获得难以置信的性能结果,那么断点可以帮助您识别问题。
有时多个属性一起与结果相关,但不是单独的。决策树可能更善于捕捉这些情况。
问候,
Balazs
这是不正确的。特别是NB算法会很快被其他“噪声”属性混淆。但对于决策树来说,情况并非如此。
德国多特蒙德