Pentahoの基本的な使い方【ETL部分を解説】

こんにちは。完全自動化研究所の小佐井です。

僕はオープンソースのETLツール『Pentaho Data Integration』を長年利用していますし、自分の書籍「オープンソースで作る!RPAシステム開発入門」でも使っています。

Pentaho Data Integrationのことを本記事ではPentahoと呼びます。本来PDIと省略して呼ぶのが正しいでしょうけど、僕はPentahoと呼んでいるので、この呼び名で通します。

Pentaho自体はETLツールとBIツールを複合したツールですが、この記事ではETLツール部分だけの解説です。僕はETLツール部分だけを指して、「Pentaho」と呼んでいるので誤解しないでくださいね!>>Pentahoとは(HITACHIのページに飛びます)

さて、僕は長年、個人事業主としてお客様から仕事を受けているなかで、Pentaho以外にも有料のETLツールを使ってきました。それらのツールに比べても、Pentahoは非常に高性能なETLツールだと思います。無料なのに…。

自動化の協力な友人となるPentaho!この記事ではPentahoの基本的な使い方をご説明します。

それではどうぞ!

この記事を書いた人
この記事を書いた人
こさい
こさい

(株)完全自動化研究所代表のこさいです。

1) エンジニア歴25年超。RPA支援8年超
2) RPA関連の書籍を6冊出版。
3)ご質問・お仕事のご依頼はこちら

Pentahoを起動する

それでは、Pentahoの使い方を簡単に解説します。

ETLツールを無料で使おう!Pentahoのインストール方法で書いているようにPentahoをインストールが完了していることを前提としてます。

では、始めます。

Pentahoをインストールしたフォルダにある「Spoon.bat」をダブルクリックしてください。一瞬、真っ黒画面が立ち上がってから、このPDI画面が起動されます。起動するのに少し時間がかかると思います。

この画面のことをPDI画面と呼ぶことにします。

PDIの初期画面
PDIの初期画面

Spoon.batはこれから使うことになるので、ショートカットを作ってデスクトップやランチャーなどに置いておくといいですね。毎回、Spoon.batを探すのは手間ですから。

Pentahoが起動しない場合は、Pentahoが起動しない場合のデバッグ方法を記事にしているので、参照してくださいね。

ジョブを追加する

Pentahoが無事に起動したら、ジョブを追加しましょう。Pentahoは基本的に[ジョブ]→[データ変換]という階層になっています。

まず、PDI画面のファイルメニューの下にある[ファイルの追加]アイコンをクリックしてください。

ファイルの追加アイコン
ファイルの追加アイコン

下図のメニューが表示されますので、[ジョブ]をクリックしてください。

ファイルの追加アイコンメニュー
ファイルの追加アイコンメニュー

PDI画面の右側のパネルに「ジョブ1」というジョブが新規追加されました。

最初に開いていたパネルは[ようこそ]というパネルです。このパネルは閉じても構いません。この記事では閉じずに説明を続けます

ジョブ1が追加されたPDI画面
ジョブ1が追加されたPDI画面

アイコンをジョブパネルに配置する

左側の[デザインパネル]に様々な機能を持ったアイコンが格納されています。これらのアイコンをジョブパネルに配置して、アイコン同士をつなげていって、ETL処理を完成させるのが、Pentaho開発の基本です。

アイコンをジョブパネルに追加
アイコンをジョブパネルに追加

左側の[デザインパネル]には、次のような機能が格納されています。少し、見てましょう。

全般

スタート、ジョブ、データ変換など、変換機能ではないがETLを構成するために必要な機能が格納されています。

  • START
  • ジョブ
  • データ変換
  • 変数設定

など

メール

SMTPサーバーを指定してメール送信ができます。データ変換の結果を添付してメール送信したり、データ変換中のエラー発生時に担当者にエラーのメール通知したりするのに使用します。

POP3/IMAPを使用したメール受信も可能です。僕は使ったことはありませんが。

  • メール検証
  • メール
  • メール取得(POP3/IMAP)

ファイル管理

ファイル/フォルダーの作成や削除、名前の変更などの機能が格納されています。

  • フォルダー作成
  • ファイル作成
  • ファイル解凍
  • ファイル削除
  • ファイル移動

など

条件

「ファイルが存在するなら続きを実行する」「データベースの値を見て実行する処理を変える」といった条件を設定したい場合に利用します。

  • 待機
  • ファイル確認
  • テーブル確認
  • データベース接続確認

など

スクリプト

スクリプトやSQLを実行する機能が格納されています。

  • シェル
  • SQL
  • JAVAスクリプト

まとめ

Pentaho Data Integration(PDI)の使い方を簡単に解説しました。

PDI画面にジョブを作って、その中にアイコンをドラッグ&ドロップして、つなげていってETL処理を完成させる、ということです。

Pentahoは[ジョブ]→[データ変換]という階層になっています。ジョブから複数のデータ変換を呼び出してETL処理を作っていくことになります。

これ以上、細かい使い方を解説するよりは実際に使って学んでいくほうがいいかもしれません。なによりも実践が一番の勉強ですから。

僕の執筆した書籍「オープンソースで作る!RPAシステム開発入門」でもがっつり使っているので、実践的な使用法を身に付けたい場合は、書籍を参考にするといいかも、です。サンプルをダウンロードできるので、動かしながら理解できますよ。