hadoop学习笔记之-pig安装及操作实例

35 篇文章 1 订阅
订阅专栏

Pig概述:

 

Pig可以看做hadoop的客户端软件,可以连接到hadoop集群进行数据分析工作, 是一种探索大规模数据集的脚本语言。

 

pig是在HDFSMapReduce之上的数据流处理语言,它将数据流处理翻译成多个mapreduce函数,提供更高层次的抽象将程序员从具体的编程中解放出来,对于不熟悉java的用户,使用一种较为简便的类似于SQL的面向数据流的语言pig latin进行数据处理

 

Pig包括两部分:用于描述数据流的语言,称为Pig Latin;和用于运行Pig Latin程序的执行环境。

 

Pig Latin程序有一系列的operationtransformation组成,可以进行排序、过滤、求和、分组、关联等常用操作,还可以自定义函数,这是一种面向数据分析处理的轻量级脚本语言

。每个操作或变换对输入进行数据处理,然后产生输出结果。这些操作整体上描述了一个数据流。Pig内部,这些变换操作被转换成一系列的MapReduce作业。

 

pig可以看做是pig latinmap-reduce的映射器。

 

Pig不适合所有的数据处理任务,和MapReduce一样,它是为数据批处理而设计的。如果只想查询大数据集中的一小部分数据,pig的实现不会很好,因为它要扫描整个数据集或绝大部分。

 

pig安装:

1.       下载并解压

下载地址:http://mirror.bjtu.edu.cn/apache/pig/pig-0.9.2/

[grid@gc ~]$ tar xzvf pig-0.9.2.tar.gz

[grid@gc ~]$ pwd

/home/grid

[grid@gc ~]$ ls

abcd  Desktop  eclipse  hadoop  hadoop-0.20.2  hadoop-code  hbase-0.90.5  input  javaer.log  javaer.log~  pig-0.9.2  workspace

 

 

2.       pig本地模式配置环境

所有文件和执行过程都在本地,一般用于测试程序

--编辑环境变量

[grid@gc ~]$ vi .bash_profile

PATH=$PATH:$HOME/bin:/usr/java/jdk1.6.0_18/bin:/home/grid/pig-0.9.2/bin

JAVA_HOME=/usr #注意是java目录的上级目录

 

export PATH

export LANG=zh_CN

 

[grid@gc ~]$ source .bash_profile

 

--进入grunt shell

[grid@gc ~]$ pig -x local

2013-01-09 13:29:10,959 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/grid/pig_1357709350959.log

2013-01-09 13:29:13,080 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///

grunt>

 

 

3.       pig的map-reduce模式配置环境

实际工作的环境

--编辑环境变量

PATH=$PATH:$HOME/bin:/usr/java/jdk1.6.0_18/bin:/home/grid/pig-0.9.2/bin:/home/grid/hadoop-0.20.2/bin

export JAVA_HOME=/usr

 

export PIG_CLASSPATH=/home/grid/pig-0.9.2/conf

export PATH

export LANG=zh_CN

 

--进入grunt shell

[grid@gc ~]$ pig

2013-01-09 13:55:42,303 [main] INFO  org.apache.pig.Main - Logging error messages to: /home/grid/pig_1357710942292.log

2013-01-09 13:55:45,432 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: hdfs://gc:9000

2013-01-09 13:55:47,409 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: gc:9001

grunt>

 

注意:因为pig要对hdfs进行操作,在启动grunt shell时之前要必需确保hadoop已经启动。

 

 

4.       Pig的运行方法

Ø         pig脚本:将程序写入.pig文件中

Ø         Grunt:运行Pig命令的交互式shell环境

Ø         嵌入式方式

 

Grunt方法:

--自动补全机制

grunt> s --按tab键

set     split   store

grunt> l  --按tab键

 

load   long   ls

--Autocomplete文件

--Eclipse插件PigPen

 

5.       pig常用命令

grunt> ls

hdfs://gc:9000/user/grid/input/Test_1<r 3>      328

hdfs://gc:9000/user/grid/input/Test_2<r 3>      134

hdfs://gc:9000/user/grid/input/abcd<r 2>        11

grunt> copyToLocal Test_1 ttt

grunt> quit

[grid@gc ~]$ ll ttt

-rwxrwxrwx 1 grid hadoop 328 01-11 05:53 ttt

 

 

Pig操作实例:

--首先在hadoop中建立week8目录,并将access_log.txt文件传入hadoop

grunt> ls

hdfs://gc:9000/user/grid/.Trash <dir>

hdfs://gc:9000/user/grid/input  <dir>

hdfs://gc:9000/user/grid/out    <dir>

hdfs://gc:9000/user/grid/output <dir>

hdfs://gc:9000/user/grid/output2        <dir>

grunt> pwd

hdfs://gc:9000/user/grid

grunt> mkdir access

grunt> cd access

grunt> copyFromLocal /home/grid/access_log.txt access.log

grunt> ls

hdfs://gc:9000/user/grid/access/access.log<r 2> 7118627

 

--将log文件load进表a

grunt> a = load '/user/grid/access/access.log'

>> using PigStorage(' ')

>> as (ip,a1,a3,a4,a5,a6,a7,a8);

 

--对a进行过滤只保留ip字段

grunt> b = foreach a generate ip;

 

--按ipgroup by

grunt> c = group b by ip;

 

--按ipc进行统计

grunt> d = foreach c generate group,COUNT($1);

 

--显示结果:

grunt> dump d;

2013-01-12 12:07:51,482 [main] INFO  org.apache.pig.tools.pigstats.ScriptState - Pig features used in the script: GROUP_BY

2013-01-12 12:07:51,827 [main] INFO  org.apache.pig.newplan.logical.rules.ColumnPruneVisitor - Columns pruned for a: $1, $2, $3, $4, $5, $6, $7

2013-01-12 12:07:54,727 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MRCompiler - File concatenation threshold: 100 optimistic? false

2013-01-12 12:07:54,775 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.CombinerOptimizer - Choosing to move algebraic foreach to combiner

2013-01-12 12:07:55,003 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size before optimization: 1

2013-01-12 12:07:55,007 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MultiQueryOptimizer - MR plan size after optimization: 1

2013-01-12 12:07:56,316 [main] INFO  org.apache.pig.tools.pigstats.ScriptState - Pig script settings are added to the job

2013-01-12 12:07:56,683 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - mapred.job.reduce.markreset.buffer.percent is not set, set to default 0.3

2013-01-12 12:07:56,701 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - creating jar file Job9027177661900375605.jar

2013-01-12 12:08:12,923 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - jar file Job9027177661900375605.jar created

2013-01-12 12:08:13,040 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Setting up single store job

2013-01-12 12:08:13,359 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - BytesPerReducer=1000000000 maxReducers=999 totalInputFileSize=7118627

2013-01-12 12:08:13,360 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.JobControlCompiler - Neither PARALLEL nor default parallelism is set for this job. Setting number of reducers to 1

2013-01-12 12:08:13,616 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 1 map-reduce job(s) waiting for submission.

2013-01-12 12:08:14,164 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 0% complete

2013-01-12 12:08:19,125 [Thread-21] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1

2013-01-12 12:08:19,154 [Thread-21] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1

2013-01-12 12:08:19,231 [Thread-21] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths (combined) to process : 1

2013-01-12 12:08:30,207 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - HadoopJobId: job_201301091247_0001

2013-01-12 12:08:30,208 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - More information at: http://gc:50030/jobdetails.jsp?jobid=job_201301091247_0001

2013-01-12 12:10:28,459 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 6% complete

2013-01-12 12:10:34,050 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 29% complete

2013-01-12 12:10:38,567 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 50% complete

2013-01-12 12:11:28,357 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - 100% complete

2013-01-12 12:11:28,367 [main] INFO  org.apache.pig.tools.pigstats.SimplePigStats - Script Statistics:

 

HadoopVersion   PigVersion      UserId  StartedAt       FinishedAt      Features

0.20.2  0.9.2   grid    2013-01-12 12:07:56     2013-01-12 12:11:28     GROUP_BY

 

Success!

 

Job Stats (time in seconds):

JobId   Maps    Reduces MaxMapTime      MinMapTIme      AvgMapTime      MaxReduceTime   MinReduceTime   AvgReduceTime   Alias   Feature Outputs

job_201301091247_0001   1       1       58      58      58      25      25      25      a,b,c,d GROUP_BY,COMBINER       hdfs://gc:9000/tmp/temp-1148213696/tmp-241551689,

 

Input(s):

Successfully read 28134 records (7118627 bytes) from: "/user/grid/access/access.log"

 

Output(s):

Successfully stored 476 records (14039 bytes) in: "hdfs://gc:9000/tmp/temp-1148213696/tmp-241551689"

 

Counters:

Total records written : 476

Total bytes written : 14039

Spillable Memory Manager spill count : 0

Total bags proactively spilled: 0

Total records proactively spilled: 0

 

Job DAG:

job_201301091247_0001

 

 

2013-01-12 12:11:28,419 [main] INFO  org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Success!

2013-01-12 12:11:28,760 [main] INFO  org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1

2013-01-12 12:11:28,761 [main] INFO  org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1

(127.0.0.1,2)

(1.59.65.67,2)

(112.4.2.19,9)

(112.4.2.51,80)

(60.2.99.33,42)

(69.28.58.5,1)

(69.28.58.6,9)

(69.28.58.8,5)

(1.193.3.227,3)

(1.202.221.3,6)

(117.136.9.4,6)

(121.31.62.3,26)

(182.204.8.4,59)

(183.9.112.2,25)

(221.12.37.6,25)

(223.4.16.88,2)

(27.9.110.75,122)

(61.189.63.2,24)

(69.28.58.12,3)

(111.161.72.7,1)

(117.136.12.6,61)

(117.136.19.9,4)

(117.136.2.98,1)

(117.136.20.3,1)

(117.136.20.9,1)

(117.136.3.46,5)

(117.136.4.18,5)

(117.136.4.19,1)

(117.136.5.39,9)

(117.136.5.70,1)

(117.136.5.73,17)

(117.136.7.67,5)

(117.136.8.11,32)

(117.136.8.48,1)

(117.136.8.52,1)

(117.136.8.97,2)

(117.136.9.52,2)

(117.136.9.68,7)

(117.24.22.57,2)

(121.28.95.48,1597)

(122.96.75.15,6)

(124.42.114.9,1)

(125.46.45.78,236)

(125.88.73.21,1)

(182.48.112.2,870)

(183.12.74.40,31)

(207.46.13.95,2)

(210.51.195.5,77)

(218.1.115.55,1)

(218.5.72.173,3)

(27.188.55.59,96)

(27.9.230.128,25)

(59.41.62.100,339)

(61.213.92.56,2)

(61.55.185.38,25)

(61.55.185.61,25)

(61.55.186.17,14)

(61.55.186.20,14)

(61.55.186.22,14)

(65.52.108.66,2)

(71.45.41.139,45)

(72.14.202.80,4)

(72.14.202.81,2)

(72.14.202.82,4)

(72.14.202.83,3)

(72.14.202.84,2)

(72.14.202.85,5)

(72.14.202.86,2)

(72.14.202.87,3)

(72.14.202.89,2)

(72.14.202.90,1)

(72.14.202.91,5)

(72.14.202.92,3)

(72.14.202.93,2)

(72.14.202.94,2)

(72.14.202.95,5)

(74.125.16.80,1)

(89.126.54.40,305)

(99.76.10.239,60)

(1.192.138.149,31)

(110.16.198.88,27)

(110.17.170.72,1)

(111.161.72.31,25)

(112.101.64.91,3)

(112.224.3.119,58)

(112.242.79.68,24)

(112.64.190.54,25)

(112.97.192.54,1)

(112.97.24.116,7)

(112.97.24.178,15)

(112.97.24.243,18)

(114.80.93.215,1)

(114.81.255.37,5)

(116.116.8.161,46)

(116.228.79.74,1)

(116.30.81.181,111)

(116.48.155.51,3)

(116.7.101.166,97)

(117.136.1.247,1)

(117.136.10.44,5)

(117.136.10.51,6)

(117.136.10.53,1)

(117.136.12.91,1)

(117.136.14.41,1)

(117.136.14.45,1)

(117.136.14.78,13)

(117.136.15.59,1)

(117.136.15.96,25)

(117.136.19.11,1)

(117.136.2.131,7)

(117.136.2.142,1)

(117.136.2.230,1)

(117.136.2.237,37)

(117.136.20.10,1)

(117.136.20.78,55)

(117.136.20.86,17)

(117.136.22.31,3)

(117.136.23.47,7)

(117.136.24.85,32)

(117.136.24.98,1)

(117.136.25.43,9)

(117.136.26.16,1)

(117.136.30.47,9)

(117.136.30.66,1)

(117.136.30.79,8)

(117.136.31.34,1)

(117.136.31.57,5)

(117.136.31.94,4)

(117.136.32.23,30)

(117.136.33.82,1)

(117.136.33.83,4)

(117.136.33.84,1)

(117.136.33.85,1)

(117.136.33.86,1)

(117.136.33.87,1)

(117.136.35.46,1)

(117.136.36.15,1)

(117.136.36.63,1)

(117.136.5.208,5)

(117.136.5.221,9)

(117.136.6.232,8)

(117.136.8.186,24)

(117.136.9.198,9)

(117.136.9.222,1)

(117.26.107.22,4)

(119.164.105.9,53)

(120.197.26.43,9)

(120.68.17.229,26)

(120.84.24.200,773)

(121.14.162.28,125)

(121.14.77.216,1)

(121.14.95.213,11)

(121.41.128.23,27)

(122.118.190.5,1)

(122.241.54.67,1)

(122.89.138.26,54)

(123.125.71.15,1)

(123.125.71.96,1)

(124.115.0.111,7)

(124.115.0.169,13)

(124.72.71.149,1)

(124.74.27.218,84)

(125.77.31.163,25)

(125.89.75.100,5)

(14.217.19.126,80)

(157.55.17.200,3)

(180.95.186.78,26)

(183.13.196.98,11)

(183.60.140.16,1)

(183.60.193.30,2)

(202.194.31.45,1)

(210.72.33.200,3)

(211.137.59.23,4)

(211.137.59.33,43)

(211.139.92.11,40)

(211.140.5.100,34)

(211.140.5.103,43)

(211.140.5.114,9)

(211.140.5.116,6)

(211.140.5.122,1)

(211.140.7.199,4)

(211.140.7.200,4)

(211.141.86.10,9)

(218.1.102.166,27)

(218.16.245.42,24)

(218.19.42.168,181)

(218.20.24.203,4597)

(218.205.245.7,1)

(218.213.137.2,28)

(220.231.59.40,1)

(221.176.4.134,8)

(222.170.20.46,11)

(222.186.17.98,2)

(222.73.191.55,124)

(222.73.75.245,7)

(27.115.124.75,470)

(58.242.249.66,2)

(58.249.34.251,7)

(59.151.120.36,31)

(59.151.120.38,59)

(59.61.141.119,26)

(60.247.116.29,28)

(61.154.14.122,61)

(61.155.206.81,165)

(61.164.72.118,27)

(61.50.174.137,1)

(65.52.109.151,3)

(66.249.71.135,19)

(66.249.71.136,16)

(66.249.71.137,14)

(72.14.199.185,4)

(72.14.199.186,4)

(72.14.199.187,2)

(72.30.142.220,3)

(110.75.174.219,1)

(110.75.174.221,1)

(110.75.174.223,1)

(112.64.188.188,10)

(112.64.188.217,7)

(112.64.190.235,16)

(112.64.190.237,9)

(112.64.191.122,4)

(113.57.218.226,45)

(113.90.101.196,22)

(114.106.216.63,24)

(114.215.28.225,2)

(114.247.10.132,243)

(114.43.237.117,167)

(114.98.146.181,26)

(115.168.51.143,8)

(115.168.76.178,3)

(115.236.48.226,439)

(116.235.194.89,171)

(117.135.129.28,8)

(117.135.129.58,2)

(117.135.129.59,7)

(117.136.10.141,30)

(117.136.10.158,21)

(117.136.10.180,9)

(117.136.10.186,4)

(117.136.11.131,1)

(117.136.11.145,1)

(117.136.11.190,1)

(117.136.12.147,1)

(117.136.12.183,4)

(117.136.12.192,32)

(117.136.12.206,4)

(117.136.12.209,4)

(117.136.15.110,1)

(117.136.15.146,5)

(117.136.16.131,1)

(117.136.16.142,1)

(117.136.16.201,30)

(117.136.16.203,1)

(117.136.19.105,10)

(117.136.19.148,7)

(117.136.19.198,1)

(117.136.23.130,3)

(117.136.23.238,30)

(117.136.23.253,4)

(117.136.24.130,1)

(117.136.24.131,6)

(117.136.24.200,1)

(117.136.24.201,21)

(117.136.26.137,1)

(117.136.27.251,1)

(117.136.30.147,3)

(117.136.30.152,5)

(117.136.31.144,1647)

(117.136.31.147,65)

(117.136.31.149,1)

(117.136.31.150,1)

(117.136.31.152,6)

(117.136.31.158,7)

(117.136.31.177,1)

(117.136.33.188,1)

(117.136.33.206,5)

(117.136.37.132,1)

(118.192.33.111,4)

(119.146.220.12,1850)

(120.204.201.77,5)

(121.14.162.124,124)

(121.28.205.250,42)

(123.120.41.159,2)

(123.124.240.11,1)

(123.147.244.39,37)

(124.115.10.252,1)

(124.207.169.57,1)

(124.207.169.59,3)

(124.238.242.36,13)

(124.238.242.43,18)

(124.238.242.47,26)

(124.238.242.65,13)

(124.238.242.68,13)

(14.153.238.175,2)

(14.213.176.184,133)

(159.226.202.12,2)

(159.226.202.13,2)

(175.136.16.158,2)

(180.153.201.34,12)

(180.153.201.35,9)

(180.153.227.27,3)

(180.153.227.28,4)

(180.153.227.29,5)

(180.153.227.31,2)

(180.153.227.32,3)

(180.153.227.34,2)

(180.153.227.36,2)

(180.153.227.37,4)

(180.153.227.40,2)

(180.153.227.41,3)

(180.153.227.42,1)

(180.153.227.44,3)

(180.153.227.45,1)

(180.153.227.47,1)

(180.153.227.52,1)

(180.153.227.53,5)

(180.153.227.54,1)

(180.153.227.55,6)

HADOOP学习笔记----------------------(1)
WEL测试
09-09 1098
ubuntu虚拟机,带有gitlab和jenkins等测试环境:链接: http://pan.baidu.com/s/1jIhljyI 密码: z39m                Hadoop说明   Hadoop将帮助解决如下特殊问题: Ø  使用Hadoop分布式文件系统(HDFS)来存储海量数据集,通过MapReduce对这些数据集运行分布式计算。 Ø  熟悉Hadoop的数据
hadoop Pig 0.17.0 操作实例
科大人的博客
03-08 311
使用版本 MySQL 5.7.25 Pig 0.17.0 基础操作 新建两个文件存放数据,每个数据间用tab键作分隔符,在末行模式用set list可查看格式 vim tmp_file_1
PIGHadoop 2.7.4 + pig-0.17.0 安装
weixin_34357267的博客
11-15 117
首先: 参考http://blog.csdn.net/zhang123456456/article/details/77621487 搭建好hadoop集群。 然后,在master节点安装pig。 我们用MapReduce进行数据分析。当业务比较复杂的时候,使用MapReduce将会是一个很复杂的事情,比如你需要对数据进行很多预处理或转换,以便能够...
hadoop pig 安装
天高任鸟飞,海阔凭鱼跃
03-05 132
[size=large][b]pig安装方法:[/b][/size] 链接地址:[url]http://kevin12.iteye.com/blog/2026327[/url] 1.先从官网下载pig,我使用的版本是pig-0.11.1.tar.gz,放到linux的/usr/local目录下; 2.执行命令 tar -zxvf pig-0.11.1.tar.gz,然后运行命令 mv ...
Hadoop集群安装Pig
GYT0313
12-01 462
下载压缩包:http://pig.apache.org/releases.html 解压: tar -zxvf pig-0.17.0.tar.gz -C ~/ 配置: 在 ~/.bashrc 文件末尾添加,其中HADOOP_HOME为Hadoop安装路径,如HADOOP_HOME = /usr/local/hadoop: export PIG_HOME=/home/hadoop/pig-0.1...
pig0.16.0安装
gakki_smile的博客
08-16 413
1下载解压安装至特定目录 2配置全局环境变量 vi ~/.bash_profileexport PIG_HOME=/home/hadoop/chadoop/pig/pig-0.16.0 export PATH=$PATH:$PIG_HOME/bin export PIG_CLASSPATH=$HADOOP_HOME/etc/hadoopPig有两种执行模式,分别为: 1)本地模式(Local)
hadoop pigpig安装及使用
七夜之家
02-04 9092
1    运行环境说明 1.1     硬软件环境 l  主机操作系统:Windows 64 bit,双核4线程,主频2.2G,6G内存 l  虚拟软件:VMware® Workstation 9.0.0 build-812388 l  虚拟机操作系统:CentOS 64位,单核,1G内存 l  JDK:1.7.0_55 64 bit l  Hadoop:1.1.2 1.2
hadoop1.0\2.0学习笔记
04-17
学习笔记涵盖了Hadoop 1.0和2.0两个主要版本,旨在帮助读者全面理解Hadoop的核心概念、架构以及实际操作。 在Hadoop 1.0中,核心组件主要包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一种...
Hadoop学习笔记
03-02
在《Hadoop学习笔记_yedu.pdf》这本书中,读者可以深入了解到Hadoop安装配置、HDFS的基本操作、MapReduce编程模型、YARN资源管理器的原理以及Hadoop生态系统的其他组件应用。书中的实例和实践环节将帮助读者掌握...
Hadoop学习笔记Hadoop基础知识
weixin_44947339的博客
02-26 576
目录 一、Hadoop简介 二、Hadoop的特性 三、hadoop组成与体系结构 四、Hadoop安装方式 五、Hadoop集群中的节点类型 一、Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台,为用户提供了系统底层细节透明的分布式基础架构 Hadoop是基于Java语言开发的,具有很好的跨平台特性,并且可以部署在廉价的计算机集群中 Hadoop的核心是H...
CentOS7安装Pig(Hadoop2.6,Pig0.15)
a237428367的专栏
01-06 1951
1.首先你需要Hadoop集群,看这里: http://blog.csdn.net/a237428367/article/details/50462858 2.tar -zxvf pig-0.15.0.tar.gz 你懂的 3. vi ./.bash_profile 环境变量    如果是本地模式则只需 export PIG_HOME=/hadoop/pig-0.15.0    Map
pig的基本操作(对hadoop文件)
weixin_34334744的博客
10-26 398
为什么80%的码农都做不了架构师?>>> ...
hadoop的mapreduce的join操作原理
jimmee的专栏
01-23 546
  1. 概述 如果我们有如下的两个文件: person.txt(字段是id, name,addressId): 1       tom     100 2       jme     101 3       kite    102 4       jack    100 5       tim     101 address.txt(字段是id,name): 100 ...
Hadoop:pig 安装及入门示例
weixin_34355715的博客
05-31 127
pighadoop的一个子项目,用于简化MapReduce的开发工作,可以用更人性化的脚本方式分析数据。 一、安装 a) 下载 从官网http://pig.apache.org下载最新版本(目前是0.14.0版本),最新版本可以兼容hadop 0.x /1.x / 2.x版本,直接解压到某个目录即可。 注:下面是几个国内的镜像站点 http://mirrors.cnnic.cn/apa...
pig安装pig的数据模型和pig的常用命令
枣泥馅的博客
05-31 2239
1、解压pig安装到到安装位置tar -zxvf pig-***.jar -C 你的安装目录2、配置环境变量vim ~/.bash_profile3、运行pigpig的运行方式有俩种,这两种方式取决于他们处理文件在什么上面,如果处理的文件在本地linux目录中那么就是本地模式,如果处理的是hdfs上的文件那么就是集群模式。所以总结为俩种模式,本地模式和集群模式。本地模式的启动方式:处理的是本地Linux的文件,不是HDFS启动命令:pig -x local通过打印的日志Connecting to hado
Pig安装与配置
weixin_33725722的博客
06-17 178
----------------------------------一、前言二、环境三、配置1.本地模式2.MapReduce模式四、测试----------------------------------一、前言 Pig是一个用来处理大规模数据集的平台,和Google的Sawzall类似,由Yahoo!贡献给Apache。MapReduce的查询矿街虽然主要是Map和...
Pighadoop中的运用
最新发布
weixin_75113709的博客
05-19 273
这里因为我的hadoop版本是3.3.5不适配原本的:mr-jobhistory-daemon.sh start historyserver。可以看到JobHistoryServer说明启动成功。
Hadoop实战之路——第五章 Pig的使用
老象的专栏
06-15 1412
5.1 Apache Pig介绍
大数据平台运维之Pig
KamRoseLee的博客
05-11 2137
Pig 42.在master节点安装Pig Clients,打开Linux Shell以MapReduce模式启动它的Grunt,将启动命令和启动结果显示如下。简写:[root@master ~]# pigWARNING: Use "yarn jar" to launch YARNapplications.17/05/07 07:58:29 INFO pig.ExecTypeProvider: T...
Hadoop学习笔记:环境搭建和配置详解
"Hadoop学习笔记" Hadoop是一个基于Java的开源分布式计算框架,主要用于处理大数据。Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一个分布式文件系统,用于存储大规模数据,而...
写文章

热门文章

  • Hive日期格式转换用法 160351
  • R语言数据框行转列实例 49289
  • R中替换缺失值 42926
  • Ubuntu 14.04 为 root 帐号开启 SSH 登录 39638
  • 异常:Project configuration is not up-to-date with pom.xml解决方案 31385

分类专栏

  • Oracle 基础知识 51篇
  • Oracle 错误解决 45篇
  • Oracle 版本升级 3篇
  • Oracle 备份恢复 10篇
  • Oracle 高级查询 9篇
  • Oracle EM Control 5篇
  • Oracle RAC 11篇
  • Oralce DataGuard 20篇
  • Oracle GoldenGate 4篇
  • Oracle Flashback 3篇
  • Oracle Streams 3篇
  • Oracle Transport TBS 1篇
  • Oracle Recover 7篇
  • Oracle 优化 12篇
  • Oracle 工具 5篇
  • Ora-600 错误 2篇
  • Linux 系统 30篇
  • 常用脚本 20篇
  • 学习实例 2篇
  • MySQL 23篇
  • MySQL 基础知识 8篇
  • MySQL 安装升级 3篇
  • MySQL 系统优化
  • MySQL 备份恢复 2篇
  • MySQL 高可用 7篇
  • MySQL 故障处理 4篇
  • SqlServer 13篇
  • Sybase 10篇
  • NoSql 22篇
  • Hadoop 35篇
  • MongoDB 19篇
  • Hbase 3篇
  • Sqoop 6篇
  • Hive 18篇
  • Python 8篇
  • Java 6篇
  • Spark 2篇
  • R 语言 20篇
  • 机器学习 2篇
  • 资料链接 7篇
  • 生活杂谈 2篇
  • 其它 1篇
  • Oozie 1篇

最新评论

  • 动态 SQL、EXECUTE IMMEDIATE、using、into、returning

    工科小石头: 谢谢,学到了

  • 异常:Project configuration is not up-to-date with pom.xml解决方案

    走!看星星鸭: 有用,项目上的小红叉号不见了哈哈,感谢表情包

  • R语言数据框行转列实例

    不 知: 矩阵转置t()

  • readOGR加载shape文件时报错

    pt34520162201333: 想问一下解决了么

  • 异常:Project configuration is not up-to-date with pom.xml解决方案

    爱编程不秃头: 漂亮

大家在看

  • 如何使用Java设计一个AOF格式的Redis
  • 无线移动通信的关键技术:SOA,WebX.0,Widget/Mashup,P2P/P4P,SaaS/云计算等架构和MIP,SIP,RTSP (实时流协议)等,定义和特点 401
  • 基于卷积神经网络的花卉分类系统,resnet50,mobilenet模型【pytorch框架+python源码】 646
  • 二开苹果cms视频网站源码模板_可封装双端app 620
  • 近场聚焦阵列设计————相位补偿法代码

最新文章

  • CDH6.2环境中启用Kerberos
  • CM启动 Oozie 服务器 Web 控制台
  • 通过CDH5 Hadoop读取和写入OSS数据
2019年5篇
2018年11篇
2017年8篇
2016年37篇
2015年20篇
2014年64篇
2013年175篇
2012年65篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

玻璃钢生产厂家水景玻璃钢景观雕塑制作聚心玻璃钢雕塑营口玻璃钢花盆生产厂家平凉玻璃钢卡通雕塑报价镇江椭圆形玻璃钢花盆玻璃钢饺子雕塑厂家信阳公园景观玻璃钢仿铜雕塑厂家玻璃钢孔子雕塑选哪家湖北玻璃钢雕塑制作厂家华东耐用玻璃钢雕塑鹰潭玻璃钢雕塑优势云南玻璃钢仿铜雕塑定制河池玻璃钢雕塑小品芜湖景区玻璃钢雕塑价位淮南卡通人物雕塑玻璃钢玻璃钢雕塑行业排行安庆玻璃钢动物雕塑浙江玻璃钢雕塑定制厂家广州抽象玻璃钢雕塑销售厂家红河玻璃钢烤漆雕塑厂家珠海公园摆件玻璃钢卡通雕塑重庆高质量玻璃钢雕塑市场北京定制玻璃钢雕塑方法山东玻璃钢小羊动物雕塑艺术摆件玻璃钢雕塑 彩色河北白色玻璃钢花盆组合嘉禾玻璃钢造型雕塑玉溪景观玻璃钢雕塑定做商场美陈3d模型贵州玻璃钢雕塑图片香港通过《维护国家安全条例》两大学生合买彩票中奖一人不认账让美丽中国“从细节出发”19岁小伙救下5人后溺亡 多方发声单亲妈妈陷入热恋 14岁儿子报警汪小菲曝离婚始末遭遇山火的松茸之乡雅江山火三名扑火人员牺牲系谣言何赛飞追着代拍打萧美琴窜访捷克 外交部回应卫健委通报少年有偿捐血浆16次猝死手机成瘾是影响睡眠质量重要因素高校汽车撞人致3死16伤 司机系学生315晚会后胖东来又人满为患了小米汽车超级工厂正式揭幕中国拥有亿元资产的家庭达13.3万户周杰伦一审败诉网易男孩8年未见母亲被告知被遗忘许家印被限制高消费饲养员用铁锨驱打大熊猫被辞退男子被猫抓伤后确诊“猫抓病”特朗普无法缴纳4.54亿美元罚金倪萍分享减重40斤方法联合利华开始重组张家界的山上“长”满了韩国人?张立群任西安交通大学校长杨倩无缘巴黎奥运“重生之我在北大当嫡校长”黑马情侣提车了专访95后高颜值猪保姆考生莫言也上北大硕士复试名单了网友洛杉矶偶遇贾玲专家建议不必谈骨泥色变沉迷短剧的人就像掉进了杀猪盘奥巴马现身唐宁街 黑色着装引猜测七年后宇文玥被薅头发捞上岸事业单位女子向同事水杯投不明物质凯特王妃现身!外出购物视频曝光河南驻马店通报西平中学跳楼事件王树国卸任西安交大校长 师生送别恒大被罚41.75亿到底怎么缴男子被流浪猫绊倒 投喂者赔24万房客欠租失踪 房东直发愁西双版纳热带植物园回应蜉蝣大爆发钱人豪晒法院裁定实锤抄袭外国人感慨凌晨的中国很安全胖东来员工每周单休无小长假白宫:哈马斯三号人物被杀测试车高速逃费 小米:已补缴老人退休金被冒领16年 金额超20万

玻璃钢生产厂家 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化