公告:1)网站程序升级:Q2A升级到1.8.6,Wordpress升级到5.7.2
2)修复了头像加载慢与提交问题反应慢等问题
2021-06-16

欢迎来到 Mathematica 问答社区

提问时请贴上文本代码

语法高亮:在编辑器中点击

被禁止的话题:广告破解

请阅读:《提问的智慧》

备用域名:mma.ooo

支持LaTex数学公式
行内公式标识符:\$ 或“$\backslash ($”+“$\backslash )$”,
行间公式标识符:\$\$ 或 “$\backslash [$”+“$\backslash ]$”

社区建议QQ群:365716997

分类

0 投票
353 浏览

背景:

训练集train.txt(674M)预测集test.txt(168M),每个数据项(向量)均为稀疏的。

格式为:

train.txt:

label index1:value1 index3:value3 index4:value4 ...

test.txt:

id index1:value1 index2:value2 index3:value3 ...

所预测的结果:

id,label

本人代码:

SetDirectory["D:\\college\\Junior\\数据挖掘\\Homework\\Homework2"];
records = 
  ReadList["train.txt", Word, RecordLists -> True, 
   WordSeparators -> {" "}];
maxcol = 201;
trainSet = 
  SparseArray[#[[1]] -> #[[2]] & /@ 
       Map[Read[StringToStream[#], Number] &, 
        StringSplit[Drop[records[[#]], 1], ":"], {2}], maxcol, 0] -> 
     ToExpression@records[[#]][[1]] & /@ 
   Range[Length@records];
Clear[records];
c = Classify[trainSet, PerformanceGoal -> "Quality"]
Clear[trainSet];
records = 
  ReadList["test.txt", Word, RecordLists -> True, 
   WordSeparators -> {" "}];
testX = SparseArray[#[[1]] -> #[[2]] & /@ 
      Map[Read[StringToStream[#], Number] &, 
       StringSplit[Drop[records[[#]], 1], ":"], {2}], maxcol, 0] & /@ 
   Range[Length@records];
Clear[records];
testY = c[#, "Probabilities"][1] & /@ testX;
Clear[testX];
Clear[c];
Ans = Join[{{"id", "label"}}, 
   Transpose@{Range[0, Length[testY] - 1], testY}];
Clear[testY];
Export["prediction.txt", Ans, "csv"]

本人代码写的丑,机器配置16G内存,无限卡在测试集稀疏矩阵的生成上,求大佬分析一波。。

分类:文本处理 | 用户: zgengen (21 分)

登录 或者 注册 后回答这个问题。

...