`
thecloud
  • 浏览: 886002 次
文章分类
社区版块
存档分类
最新评论
文章列表
关于mahout中的random forests算法在前面已经分析过,这里简要说下其并行策略。 刚开始的时候,我以为这个算法好像没啥并行的地方,一开始就是对全部原始数据进行分析,也没有对原始数据进行分片。然后它的job任务也只有一个 ...
数据在 内存 中的 存储顺序 都是 从 低地址 向 高地址 存储的 (首地址 指 编号较少的 地址编号) 例 存储 4个char (a1, a2, a3, a4),则 第一个到 第四个 所占的 存储空间地址 依次为 0x101, 0x102, 0x103, 0x104 大端法 ,小端法 指 ...
主机环境:Ubuntu 13.04 Python版本:2.7.4 Pylucene版本:4.4.0-1 setuptools版本:1.1.6 JDK版本:1.6.0_26 原创作品,转载请标明http://blog.yanming8.cn/archives/103
AWK 是一种文本处理和模式匹配语言,所以它通常称为数据驱动的语言,程序语句描述需要进行匹配和处理的输入数据,而不是程序操作步骤的序列,在许多语言中都是这样的。AWK 程序在其输入数据中搜索包含模式的记录、对该记录执行指定的操作,直到程序到达输入的末尾。AWK 程序擅长于处理数据库和表型数据,如从多个数据集中提取一些列、建立报表或分析数据。事实上,AWK 适合于编写短小的、一次性程序,以执行一些灵活的文本处理,而使用其他的语言则可能成本较高。另外,作为一种功能强大的工具,AWK 常常在命令行中使用或与管道一起使用。 GAWK 的特性和优点 GAWK 具有下列独特的特性和优点:
sed编辑器–Stream editor(流编辑器),相对于交互式编辑器如vim无法进行人工交互,需要根据在编辑器处理数据之前事先提供的规则集编辑数据流。 sed编辑器可以根据输入命令行的命令或者存储在文本文件中的命令处理数据。每次从输入读取一行数据,将数据与编辑器提供的命令进行匹配,修改数据流中的数据,然后将心数据输入到stdout。处理完数据流中所有的数据行之后,流编辑器停止。 正是由于按顺序逐行应用命令,因而使得sed编辑器比交互式编辑器要快速。 Usage: sed [OPTION]… {script-only-if-no-other-script} [input-file]…
版本:easyhadoop 1.2.1,操作系统:Centos 6.4; 首先,我要说的是要用对版本,这点很重要。我使用ubuntu12.04 64bit 的虚拟机是不行的,安装直接报错。所以就下载了centos的iso,好像最新的比较好找,所以就下载了6.4的。下面就一步一 ...
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 Mahout系列之Decision Forest写了几篇,其中的一些过程并没有详细说明,这里就分析一下,作为Decision Forest算法系列的结束篇。 主要的问题包括:(1)在Build Forest中分析完了Step1Mapper后就没有向下分析了,而是直接进行TestForest的分析了,中间其实还是有很多操作的,比如:把Step1Mapper的Job的输出进行转换写入文件。(2)在BuildForest中没有分析当输入是Categorical的情况,这种情况下面执行的某些步骤是不一样的 ...
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 首先贴上调用TestForest的代码(win7下面myeclipse调用TestForest,这里要设置Configuration,所以不能直接TestForest.main()来调用): package mahout.fansy.partial.test; import org.apache.hadoop.conf.Configuration; import org.apache.mahout.classifier.df.mapreduce.TestForest; public cla ...
hadoop版本:1.0.4 今天在跑TestForest的时候,居然出现了这个问题: Exception in thread "main" java.lang.IllegalArgumentException: Expected authority at index 7: hdfs:// at java.net.URI.create(URI.java:859) at org.apache.hadoop.fs.FileSystem.getDefaultUri(FileSystem.java:131) at org.apache.hadoop.fs.FileSys ...
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 接上篇,先来说说上篇最后的bestIg和bestIndex的求法。在说这个前,要首先明确一个数组的熵的求法,按照mahout中的源码针对这样的一个数组a=[1,3,7,3,0,2]其熵为: 设sum=1+3+7+3+0+2 ...
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 接上篇,分析到OptIgSplitl类的computeSplit函数里面的numbericalSplit函数,看这个函数的输入参数data和attr,应该是针对data计算出一个和attr相关的值而已。往下看 double[] values = sortedValues(data, attr); ,这一句是干啥的? private static double[] sortedValues(Data data, int attr) { double[] values = data.va ...
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 今天到BuildForest的主要Mapper操作,前面也说到BuildForest主要的操作都在Mapper里面,而reducer是没有的。本篇介绍其Mapper,Step1Mapper。首先贴上其仿制代码,如下: package mahout.fansy.partial; import java.io.IOException; import java.util.List; import java.util.Random; import mahout.fansy.utils.read.R ...
此篇博客参考:SSH无密码登录-多节点自动化部署SHELL篇。 测试环境:ubuntu12.04.2 server 64bit 、expect version 5.45、GNU bash, version 4.2.24(1)-release (x86_64-pc-linux-gnu) 说明:hadoop自动化配置出来的结果是:整个集群一个namenode、一个secondary、一个JobTracker,且这三个进程在同一个机器上面,datanode和tasktracker在其他slaves机器上面(如果有需要可以修改相应的shell script即可) hadoop配置自动化怎么做?这个 ...
尼玛,好坑呀! 昨天遇到的问题原来是找错包了,那个Step1Mapper.class 同时在mahout-core-0.7.jar mahout-core-0.7-job.jar mahout-examples-0.7-job.jar 三个包中,但是用到的只是mahout-core-0.7.jar中的Step1Mapper.class,所以只用替换mahout-core-0.7.jar中相应的文件即可。出来的结果如下: 可以看到这里的partition已经变成了0了,这个值是在哪里设置的? Step1Mapper中log的设置如下: protected void setup(C ...
Mahout版本:0.7,hadoop版本:1.0.4,jdk:1.7.0_25 64bit。 BuildForest是在mahout-examples-0.7-job.jar包的org\apache\mahout\classifier\df\mapreduce 路径下。直接运行该类,可以看到该类的使用方式: Usage: [--data <path> --dataset <dataset> --selection ...
Global site tag (gtag.js) - Google Analytics