2014年8月15日金曜日

Pentaho Data Integrationでメモリー割当を増やす

環境変数に設定しても良いですがスクリプト、Batchファイルを修正する方法です。 Unix/Linuxの場合
  • kitchen.sh, pan.sh
    JAVAMAXMEM="2048"
    
  • spoon.sh
    PENTAHO_DI_JAVA_OPTIONS="-Xmx2g -XX:MaxPermSize=256m"
    
  • carte.sh
    JAVAMEMOPTIONS="-Xmx2048m"
    
Windowsの場合
  • Carte.bat, Kitchen.bat, Pan.bat
    if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS=-Xmx2048m
    
  • Spoon.bat
    if "%PENTAHO_DI_JAVA_OPTIONS%"=="" set PENTAHO_DI_JAVA_OPTIONS="-Xmx2048m" "-XX:MaxPermSize=256m"
    

2014年8月12日火曜日

Pentaho Data Integration 動的な実行

http://type-exit.org/adventures-with-open-source-bi/2011/03/write-etl-that-writes-etl-creating-crosstabs-with-kettle/


2014年8月10日日曜日

PerlでCGI

Get,Post,Putで渡されたパラメータを取得するPerlによるCGI
設定ファイルはwww.jsonに記入しておく。
受け取るパラメータは27~28行目のように取得する。
Apacheからのデータは以下の環境変数を介して受け取る。
  • REQUEST_METHOD:GET,PUT,POST,DELETEが入る
  • QUERY_STRING:GETの場合のパラメータ
  • CONTENT_LENGTH:PUTの場合のパラメータの長さ
Shellと違ってヒアドキュメント内にコマンドを書く事は出来ない模様。

#! /usr/bin/perl
use strict;
use warnings;
use utf8;
use File::Basename qw/basename dirname/;

my $DIRNAME = dirname $0;
my $BASENAME = basename $0;
my $CONF_FILE= "$DIRNAME/cgi.json";
if ( ! -e $CONF_FILE ) {
  print "Content-type: text/html\n\n ${CONF_FILE} could not be read.\n$!$@";
  exit;
}

my $CONFIG = do $CONF_FILE
  or die "${CONF_FILE} is could not read.\n$!$@";

my $PARMS = $ENV{'QUERY_STRING'};
my $METHOD  = $ENV{'REQUEST_METHOD'};
if ( $METHOD eq "POST" || $METHOD eq "PUT" ) {
  read(STDIN, $PARMS, $ENV{'CONTENT_LENGTH'});
}
my ($USER, $DATE);
for my $PARM ( split(/&/, $PARMS) ) {
  my ($KEY,$VAL) = split(/=/,$PARM);
  $VAL =~ s/%([0-9a-fA-F][0-9a-fA-F])/chr(hex($1))/ego;
  if ($KEY eq "user") { $USER=$VAL; }
  if ($KEY eq "date") { $DATE=$VAL; }
}

print << "END";
Content-type: text/html

<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    <title>$CONFIG->{title}</title>
  </head>
  <body>
    <div>Input parameters:$PARMS</div>
    <div>User:$USER</div>
    <div>Date:$DATE</div>
  </body>
</html>
END

外部定義ファイルcgi.jsonには以下の様に設定。
{
    title => "CGI Perl Test page"
}

Bourne ShellでCGI

Get,Post,Putで渡されたパラメータを取得するBourne ShellによるCGI
設定ファイルはcgi.configに記入しておく。
受け取るパラメータは18~19行目のように取得する。
Apacheからのデータは以下の環境変数を介して受け取る。
  • REQUEST_METHOD:GET,PUT,POST,DELETEが入る
  • QUERY_STRING:GETの場合のパラメータ
  • CONTENT_LENGTH:PUTの場合のパラメータの長さ
31行目はヒアドキュメント内でのコマンド例として無駄にechoしています。

#! /bin/sh
BASE_DIR=`dirname $0`
BASE_DIR=`cd ${BASE_DIR} && pwd`                   # Change to full path
BASENAME=`basename $0 | sed -e "s/\.[^.]*$//"`     #Except extension
CONFIG="${BASE_DIR}/cgi.config"
if [ ! -f "${CONFIG}" ]; then
  echo "Content-type: text/html"
  echo ""
  echo "<html><body>${CONFIG} is not found.</body></html>"
  exit
fi
. "${CONFIG}"

PARMS=`echo ${QUERY_STRING} | tr \& "\n"`
if [ "${REQUEST_METHOD}" = "POST" -o "${REQUEST_METHOD}" = "PUT" ]; then
  PARMS=`dd bs=${CONTENT_LENGTH} | tr \& "\n"`
fi
USER=`echo "${PARMS}" | grep user | cut -d= -f 2 | nkf --url-input`
DATE=`echo "${PARMS}" | grep date | cut -d= -f 2 | nkf --url-input`

cat <<END
Content-type: text/html

<html>
  <head>
    <meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
    <title>${CONFIG_TITL}E</title>
  </head>
  <body>
    <div>Input parameters
    <div>`echo "${PARMS}"`</div>
    <div>User:${USER}</div>
    <div>Date:${DATE}</div>
  </body>
</html>
END
定義ファイルcgi.configには以下のように設定。
CONFIG_TITLE="CGI Sheel Test"

2014年8月7日木曜日

Shell Scriptのテンプレート

Bourne Shell Scriptのテンプレート
機能
  • スクリプトと同じパスにある設定ファイルを読み取る。
  • 設定ファイルは引数で上書き可能
  • 設定ファイル内に定義された動作可能なHostでのみ実行可能
  • 日付が変わったら前日のログファイルは日付きのファイルに退避
  • 同じユーザーが引数も含めて同じスクリプトの複数起動を防止
  • ログには日時を追加して記載
Mac OS 10.9.4, FreeBSD 9.1-RELEASE-p15, Ubuntu Server 14.04で動作確認しました。

#! /bin/sh

set -e                                             # Terminate at error
set -u                                             # Error if undefined variable

# System Variables
BASE_DIR=`dirname $0`
BASE_DIR=`cd ${BASE_DIR} && pwd`                   # Change to full path
BASENAME=`basename $0 | sed -e "s/\.[^.]*$//"`     #Except extension
HOST=`hostname | cut -d"." -f 1`
USER=`whoami`
TODAY=`date +%Y%m%d`

# echo with time stamp in front.
log() {
  NOW=`date +%Y\/%m/%d\ %H:%M:%S`
  echo "$*" | sed -e "s|^|[${NOW}] |"
}

log "Start!"

# User Variables
CONFIG="${BASE_DIR}/${BASENAME}_${HOST}_${USER}.config"
if [ $# -eq 1 ]; then
  CONFIG="$1"
fi
if [ ! -f "${CONFIG}" ]; then
  echo "${CONFIG} not found"
  echo ""
  exit 1
fi

. "${CONFIG}"

# Log file
LOGDATE="${TODAY}"
if [ -f "${LOG}" ]; then
  LOGDATE=`perl -MPOSIX -le 'print strftime "%Y%m%d", localtime((lstat)[9]) for @ARGV' $LOG`
  LOGDATE=`echo ${LOGDATE} | cut -d" " -f 1`
fi
if [ "${LOGDATE}" -lt "${TODAY}" ]; then
  echo "move log file from ${LOG} to ${LOG}.${LOGDATE}" | tee -a "${LOG}"
  mv "${LOG}" "${LOG}.${LOGDATE}"
fi
log "Config file:${CONFIG}" | tee -a "${LOG}"
NOW=`date +%Y\/%m/%d\ %H:%M:%S`
cat "${CONFIG}" | sed -e "s|^|[${NOW}] Config=|" | tee -a "${LOG}"

# Verify host
if [ `echo ${HOSTS} | grep ${HOST} | wc -l ` -eq 0 ]; then
  log "Not allowed on this host." | tee -a "${LOG}"
  exit 1
fi

# Prevent multiple instance
GREP_PS="$0 $*"
if [ $# -eq 0 ]; then
  GREP_PS="$0"
fi
PROCESSES=`ps -o pgid,pid,tty,time,command | grep "${GREP_PS}" | awk '$1==$2' | wc -l`
log "No. of proceeses ${PROCESSES}" | tee -a "${LOG}"
if [ ${PROCESSES} -gt 1 ]; then
  log "Already running this script" | tee -a "${LOG}"
  ps -o pgid,pid,tty,time,command | grep "${GREP_PS}" | awk '$1==$2' | tee -a "${LOG}"
  log "Abort!" | tee -a "${LOG}"
  log "" | tee -a "${LOG}"
  exit 1
fi

#do something

log "Complete!" | tee -a "${LOG}"
log "" | tee -a "${LOG}"





定義ファイル デフォルトはスクリプト名.config
#! /bin/sh

LOG_DIR=${BASE_DIR}
LOG=${LOG_DIR}/${BASENAME}.log
HOSTS="allow_host1 allow_host2"