公告:本站正式转型为非交互式静态网站!
转型:本站将通过笔记和博客的形式继续为大家服务,关于 Mathematica 问答服务请移步至QQ群:365716997
联系:如有问题请联系QQ群管理员,或发送邮件至:lixuan.xyz@qq.com。
感谢:最后非常感谢大家多年来的支持与帮助!
参考《互联网跟帖评论服务管理规定》《中华人民共和国网络安全法》《网络信息内容生态治理规定》《互联网用户账号信息管理规定》

—— 2022-11-27

欢迎来到 Mathematica 问答社区

提问时请贴上文本代码

语法高亮:在编辑器中点击

被禁止的话题:广告破解

请阅读:《提问的智慧》

备用域名:mma.ooo

支持LaTex数学公式
行内公式标识符:\$ 或“$\backslash ($”+“$\backslash )$”,
行间公式标识符:\$\$ 或 “$\backslash [$”+“$\backslash ]$”

社区建议QQ群:365716997

分类

0 投票
765 浏览

背景:

训练集train.txt(674M)预测集test.txt(168M),每个数据项(向量)均为稀疏的。

格式为:

train.txt:

label index1:value1 index3:value3 index4:value4 ...

test.txt:

id index1:value1 index2:value2 index3:value3 ...

所预测的结果:

id,label

本人代码:

SetDirectory["D:\\college\\Junior\\数据挖掘\\Homework\\Homework2"];
records = 
  ReadList["train.txt", Word, RecordLists -> True, 
   WordSeparators -> {" "}];
maxcol = 201;
trainSet = 
  SparseArray[#[[1]] -> #[[2]] & /@ 
       Map[Read[StringToStream[#], Number] &, 
        StringSplit[Drop[records[[#]], 1], ":"], {2}], maxcol, 0] -> 
     ToExpression@records[[#]][[1]] & /@ 
   Range[Length@records];
Clear[records];
c = Classify[trainSet, PerformanceGoal -> "Quality"]
Clear[trainSet];
records = 
  ReadList["test.txt", Word, RecordLists -> True, 
   WordSeparators -> {" "}];
testX = SparseArray[#[[1]] -> #[[2]] & /@ 
      Map[Read[StringToStream[#], Number] &, 
       StringSplit[Drop[records[[#]], 1], ":"], {2}], maxcol, 0] & /@ 
   Range[Length@records];
Clear[records];
testY = c[#, "Probabilities"][1] & /@ testX;
Clear[testX];
Clear[c];
Ans = Join[{{"id", "label"}}, 
   Transpose@{Range[0, Length[testY] - 1], testY}];
Clear[testY];
Export["prediction.txt", Ans, "csv"]

本人代码写的丑,机器配置16G内存,无限卡在测试集稀疏矩阵的生成上,求大佬分析一波。。

分类:文本处理 | 用户: zgengen (21 分)

登录 或者 注册 后回答这个问题。

...