`
文章列表
最近在做一个程序的 时候遇到了这样的情况,在 主类中需要执行一些操作,同时主类会启动几个线程,在这些线程执行前和执行后都会一系列的操作。因此就用到了CountDownLatch类。CountDownLatch是一个同步辅助类,在完成一组正在其他线程中执行的操作之前,它允许一个或多个线程一直等待。   下边是一个例子: import mulithread.CountDownLatch; class Driver { public static void main(String []args) throws InterruptedException { CountDown ...
有这样一道笔试题目,请问str1,str2,str3,str4的执行效率如何排序的? String str1="1"+"2"+"3"+"4"+"5"+"6"+"7"+"8"+"9"+"10";     String str2="";  for(int i=1;i<=10;i++){   str2+=i;  }    StringBuffer str3 = new ...
基于用户投票的排名算法(一):Delicious和Hacker News   互联网的出现,意味着"信息大爆炸"。   用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。   各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依次排列,并且及时进行更新。排列的依据,可以基于信息本身的特征,也可以基于用户的投票,即让用户决定,什么样的信息可以排在第一位。   下面,我将整理和分析一些基于用户投票的排名算法,打算分成四个部分连载,今天是第一篇。   一、Delic ...
SSH原理与运用(一):远程登录 SSH是每一台Linux电脑的标准配置。 随着Linux设备从电脑逐渐扩展到手机、外设和家用电器,SSH的使用范围也越来越广。不仅程序员离不开它,很多普通用户也每天使用。 SSH具备多种功能,可 ...
最近做一个项目的时候,老是报com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException: Invalid byte 2 of 2-byte UTF-8 sequence.异常,经过仔细排查发现,是xml解析的时候出现了问题。 情况是这样:A用ansi编码xml文件,xml中不包含<?xml version="1.0" encoding="UTF-8"?>,缺省情况解析也是按照utf-8来解析。然后发送给B,而B在解析xml的时候,如果xml文件中没有中文就 ...
转自http://www.blogjava.net/zhenandaci/archive/2008/12/24/248014.html Java中的字符集编码入门(一)Unicode与UCS的历史恩怨 ASCII及相关标准地球人都知道ASCII就是美国标准信息交换码的缩写,也知道ASCII规定用7位二进制数字来表示英文字符,AS ...
最近更新了下IE8,用HTTPWATCH的时候居然不能用了,如图所示a:   这个问题在IE8以下的版本中不会出现,后来发现原来是IE8在对插件进行管理时,不会自动加载这个插件,需要自己去手动加载它,操作步骤为 点击 工具->管理加载项。如下图b所示:   点击启动之后,就可以正常使用了。
Hive的UDF,其实很类似Mysql之类的自定义函数 不过它需要用java来编写,而不是用传统的SQL来完成 实现一个UDF的步骤如下: 实现一个Java Class,继承自UDF 打成jar包,并加入到Hive的ClassPath中 生成自定义函数,执行select 删除刚才创建的临时函数 下面这个UDF,是我给hive的array增加的一个函数 用来判断array中是否包含某个值,hive的标准函数中并没有此功能函数 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 ...
  1决策树学习是以实例为基础的归纳学习。 决策树学习采用的是自顶向下的递归方法,决策树的每一层节点依照某一属性向下分子节点,待分类的实例在每一节点处与该节点相关的属性进行比较,根据不同的比较结果向响应的子节点扩展,这一过程在到达决策树的叶节点时结束,此时得到结论。 决策树学习最大的优点是它可以自学习。 2 决策树是描述分类的一种数据结构从上端的根节点开始,各种分类原则被引用进来,并以 这些分类原则见根节点的数据集划分为子集,这一划分过程直到某种约束条件满足而结束。 3 构造一棵决策树要解决的4个问题;  (1)收集待分类的数据,这些数据的所有属性应该是完全标注的。
The 20 Newsgroups数据集合收集了大约20,000 个新闻群组的文档,它们被划分成为大约20个新闻组。在机器学习领域,这个数据集合被广泛的应用与分类和聚类测试数据集。下面是介绍如何利用这个数据集合来进行分类。  (本文是对https://cwiki.apache.org/confluence/display/MAHOUT/Twenty+Newsgroups的翻译) 准备工作: (1)首先确保安装了hadoop和mahout,关于hadoop和mahout的安装与配置,可以参考hadoop.apache.org 和mahout.apache.org中的guide部分,可以让你快 ...

hbase的重建

本文主要讨论hbase中如何将集群环境转换为单机环境。如果你认为把不用的regionserver停止就可以的话,你就错了,这时整个hbase会不段的报错。下面就以不破坏正常的hdfs为前提,将原有hbase砍掉重新使用。   假设现在你的hadoop和hbase已经在运行中,并且hbase有多个regionserver: 1 停止hbase  stop-hbase.sh 使用jps命令查看,这时应该没有HMaster进程,而只有hadoop在运行就OK; 2 修改conf/hbase.site.xml <property>      <name>hbase ...
1.LOG4J的配置:采用log4j.properties文件 log4j.rootCategory=warn,A1log4j.appender.A1=org.apache.log4j.DailyRollingFileAppender #log4j.appender.A1=org.apache.log4j.RollingFileAppenderlog4j.appender.A1.File=  日志文件的路径 #log4j.appender.A1.MaxFileSize=1024KB#log4j.appender.A1.MaxBackupIndex=1log4j.appender.A1.la ...
在用httpclient做网页提取的过程中,通过抓包工具发现了 头部中会有 Accept-Encoding: gzip, deflate字段,本文不介绍该字段具体是干什么的,只是告诉你在请求的时候,如果头部有了该字段,则服务器会将内容reponse的内容进行压缩用gzip或者deflate算法,然后reponse给用户。目前我看到的仅仅有gzip算法被用到,然后返回给用户的数据也是压缩后的数据,这样往往可以减轻服务器的负担,同时也减少了网络传输。以下用浏览器在访问百度主页是抓包的例子: GET / HTTP/1.1Accept: image/gif, image/jpeg, image/pjp ...
引言团队中使用HBase的项目多了起来,对于业务人员而言,通常并不需要从头搭建、维护一套HBase的集群环境,对于其架构细节也不一定要深刻理解(交由HBase集群维护团队负责),迫切需要的是快速理解基本技术来解决业务问题。最近在XX项目轮岗过程中,尝试着从业务人员视角去看HBase,将一些过程记录下来,期望对快速了解HBase、掌握相关技术来开展工作的业务人员有点帮助。我觉得作为一个初次接触HBase的业务开发测试人员,他需要迫切掌握的至少包含以下几点: 深入理解HTable,掌握如何结合业务设计高性能的HTable 掌握与HBase的交互,反正是离不开数据的增删改查,通过HBase She ...
引言HBase提供了丰富的访问接口。• HBase Shell• Java clietn API• Jython、Groovy DSL、Scala• REST• Thrift(Ruby、Python、Perl、C++…)• MapReduce• Hive/Pig其中HBase Shell是常用的便捷方式,我们将结合本系列上一篇文章的理论分析来实践一把,依然采用blog表示例。 首先你需要一个HBase的环境,如果需要自己搭建可以参考http://hbase.apache.org/book/quickstart.html 和http://hbase.apache.org/book/notsoqu ...
Global site tag (gtag.js) - Google Analytics