2003年07月16日 水曜日

GNU R

まじめな統計計算を滅多にしないので、Excelで十分かと思っていたが、ずいぶん前から直らないバグが結構あり、場合によって_Fatal_なので、Excelでの統計計算にあきれていた。かといって、proprietaryな統計計算パッケージ(たとえばSとかS Plusとか)は非常に高価で入手不可能であるため、Excelを我慢してうまく使い続けてきたが、GNUのSとも言うべきRの日本語化が結構な勢いで進んできたので、これはしたりと思ったわけである。Rって何?と言う人もいると思うので、以下にR Projectのページに載っている説明文を載っけてみる。

Introduction to R

R is a language and environment for statistical computing and graphics. It is a GNU project which is similar to the S language and environment which was developed at Bell Laboratories (formerly AT&T;, now Lucent Technologies) by John Chambers and colleagues. R can be considered as a different implementation of S. There are some important differences, but much code written for S runs unaltered under R.

R provides a wide variety of statistical (linear and nonlinear modelling, classical statistical tests, time-series analysis, classification, clustering, …) and graphical techniques, and is highly extensible. The S language is often the vehicle of choice for research in statistical methodology, and R provides an Open Source route to participation in that activity.

One of R’s strengths is the ease with which well-designed publication-quality plots can be produced, including mathematical symbols and formulae where needed. Great care has been taken over the defaults for the minor design choices in graphics, but the user retains full control.

R is available as Free Software under the terms of the Free Software Foundation’s GNU General Public License in source code form. It compiles and runs out of the box on a wide variety of UNIX platforms and similar systems (including FreeBSD and Linux). It also compiles and runs on Windows 9x/NT/2000 and MacOS.

Rは統計計算とグラフィックスのための言語と環境である。Bell Laboratories(正しくは AT&T;、いまのLucent Technologies)のJohn Chambersとその同僚によって開発されたS言語と環境に似たGNU Projectのひとつである。RはSの異なった実装と考えられるが、多くのSで書かれたコードは、Rで変更せずに動作する。

Rは、幅広い統計手法(線形・非線形モデリング、古典的な統計検定、時系列解析、判別分析、クラスタリングなど)とグラフィックスを提供し、高度に拡張可能である。Sはよく統計的手法の研究のために使われ、Rはそうした活動に参加するためのオープンソースの手法を提供する。

Rの強みの一つは、必要に応じて数学記号や数式を含むよくデザインされた印刷品質のプロットを作成することが、簡単であること。多く配慮がグラフィックスにおける細かなデザインのためのデフォルト値に払われているが、ユーザーはすべて制御することも出来る。

RはFree Software FoundationのGNU General Public Licenseの条項の下でフリーソフトウェアとして利用可能であり、多くのUNIXプラットフォームと類似システム(FreeBSDやLinuxを含む)でコンパイル・実行できる。Windows9x/NT/2000やMacOSでもコンパイル・実行できる。
とまぁこういう感じ。(日本語訳は僕の訳なので適当なもんだが、意味は外してなかろう。) これだけでは心を動かされないが、R-(D)COM Interface (for Windows)を見ると、COMインターフェースがあるじゃないですかっ! ということは、VBAだけではなくて、WSH(Windows Scripting Host)からも呼び出せるので、VBScriptだけでなく、Excelのヘンなワークシート関数や統計系のアドインとお別れできそうです。かなり嬉しい話かも。と言うことで、早速インストール。選択範囲を行列にとって、Rに渡せるので幸せな環境ですね。
ただこういう環境を使いこなすには、真面目に統計を勉強しなさいと言うことなのだが、Rを使って勉強をすればいいわけだから、これはまた便利な物なのかも知れない。使いこなせるように頑張ろうと思う。
Excelの数々の困ったバグは以下のページを参照。ほとんどExcel5のころから直ってない。この辺がプロプライエタリなソフトのいただけない点であろうか… Excelのひどさは、「ひどい話です!」を参照すると痛いほど分かる。_Excelは表を作る怪しい計算をするソフトである_ことを忘れてはならない。印刷に適した表を作るんだったらWordの方が簡単だし、統計計算をするならRを使いましょうと言うことで。