Statistik-Software im Vergleich
BMDP, SAS, SPSS & Statgraphics

von Rudolf Wytek (Ausgabe 95/3, September 1995)

 

Statistik-Pakete zählen an der Uni Wien seit vielen Jahren zu den am häufigsten verwendeten Softwareprodukten. Die Zeiten, in denen die Bearbeitung selbst mittelgroßer Datensätze oder die Anwendung komplexer Methoden der Statistik die Benutzung einer Großrechenanlage erforderten, sind allerdings vorbei - heute können die meisten Datenanalysen bequem auf einem PC durchgeführt werden, sodaß sich seit einigen Jahren die PC-Versionen der großen Statistik-Pakete steigender Beliebtheit erfreuen. Probleme mit diesen PC-Versionen ergeben sich vor allem durch Mängel in der lokalen Infrastruktur (z.B. ungenügende PC-Ausstattung, Druckerprobleme, fehlende Handbücher) und können daher auch nur lokal behoben werden.

Die an der Uni Wien hauptsächlich eingesetzten Statistik-Pakete sind BMDP, SAS, SPSS und Statgraphics, die alle im Rahmen der Standardsoftware über das EDV-Zentrum bezogen werden können. Aus historischen Gründen ist das Programm SPSS an der Universität Wien überproportional stark in Verwendung, ähnlich wie viele der medizinischen Anwender auf SAS eingeschworen sind. Die Erfahrung lehrt jedoch, daß man mit jedem der vier Pakete gut arbeiten kann, wenn man sich etwa ein Monat lang intensiv damit beschäftigt. Wenn man eines der Programme gut kennt, ist der Umstieg auf ein anderes recht leicht; jedes Paket hat aber natürlich seine Vor- und Nachteile.

Die nachfolgenden Bemerkungen sollen einen Überblick über den gegenwärtigen Zustand bieten, um neuen Benutzern bereits zu Beginn eines wissenschaftlichen Projekts, an dessen Ende eine Datenanalyse stehen soll, eine informierte Wahl zu ermöglichen. Andererseits sollen Langzeit-Benutzer unserer Statistik-Software eventuell auf bislang nicht wahrgenommene Inhalte aufmerksam gemacht werden.

BMDP

 

Produkt

Verfügbarkeit

Anmerkung

BMDP/CMS Version 88

VM-Rechenanlage
(VM/XA)

---

BMDP/PC Statistics 7.01

PC (DOS)

9 Disketten, Campuslizenz

BMDP/Dynamic Statistics 7.0

PC (DOS)

8 Disketten, Campuslizenz

BMDP/New System 1.1

PC (Windows)

3 Disketten, Campuslizenz

BMDP Statistics 7.0

Workstation (IBM/AIX)

---

BMDP ist ein allgemeines Datenanalyse-System mit vielen Spezialprogrammen. Der Einsatz auf der VM-Rechenanlage hält sich in Grenzen, da die Syntax sehr an Fortran orientiert ist; die PC-Version von BMDP ist jedoch sehr angenehm zu verwenden. Offenbar beginnt man eben mit der Umstellung des Programms auf Windows, d.h. die Benutzeroberfläche ist unmittelbar verständlich und erinnert an jene von SPSS. Von der Windows-Oberfläche kann man direkt in BMDP/Classic (die DOS-Versionen von BMDP) einsteigen und an denselben Daten weiterarbeiten. Die finanziell sehr günstige Campuslizenz führt zu einer verstärkten Beachtung von BMDP, was bei der Vielzahl von sehr speziellen Programmen auch durchaus wünschenswert ist: Enthalten sind beispielsweise eigene Routinen zum ML-Imputieren von fehlenden Werten, Varianz-/Kovarianzanalyse für abhängige Messungen, Block-Clusteranalyse, Lineare und Quadratische Diskriminanzanalyse, Kanonische Korrelation, Multivariate Regression, Ridge- und Polynom-Regression, All Possible Subset Regression u.a.m. Etliche Programme werden in einem interaktiven Modus verwendet. Die Outputs sind vorbildlich gestaltet. Das Kapitel Datentransformationen ist zwar eine gelinde Störung der totalen Zufriedenheit; allerdings können Folgen von Fortran-Befehlen direkt im BMDP-Programm verwendet werden. Vielleicht auch dadurch hat BMDP das Image eines Pakets für den professionellen Anwender: Unleserliche Programme, aber sehr leistungsfähig. Es folgt ein Überblick über die in BMDP enthaltenen Statistik-Prozeduren (mit Ausnahme der Auswerte-Befehle im Data Manager):

 

Kurzbeschreibung

Anz. der
Prozed.

D-Serie

Deskriptive Verfahren

9

F-Serie

Frequency Tables

1

L-Serie

Life Tables und Survival Analysis

2

M-Serie

Multivariate Verfahren

11

R-Serie

Regressionsanalyse

10

S-Serie

Nichtparametrische Statistik

1

T-Serie

Time Series Analysis

2

V-Serie

Varianzanalyse

6

CA

Korrespondenzanalyse

---

LE

Maximum Likelihood Estimation

---

 

SAS

 

Produkt

Verfügbarkeit

Anmerkung

SAS 6.07

VM-Rechenanlage (VM/XA)

---

SAS 6.10

PC (Windows)

57 Disketten, Sammellizenz

SAS 6.10

PC (OS/2)

1 CD

SAS, der Leviathan der Statistik-Systeme, ist eine komplette Arbeits- und Programmierumgebung mit Prozeduren zur Datenverwaltung und Datenauswertung. SAS besteht aus einzeln zu kaufenden Modulen, die teilweise sehr spezielle Anwendungsgebiete abdecken (an der Uni Wien ist aus Kostengründen die PC-Version deutlich voller ausgestattet). Zu jeder dieser Komponenten gibt es zumindest ein Handbuch, in dem die Prozeduren genau beschrieben sind. Die Dokumentation von SAS ist sehr umfangreich und sehr gut, dennoch ist das Lösen eines praktischen Problems oft recht schwer, weil man die sicher irgendwo enthaltene Information in der Fülle der Manuals einfach nicht findet. Auch der nur bei SAS existierende Generalindex in Buchform hilft wenig, wenn man z.B. die Terminologie innerhalb der SAS-Welt noch nicht genügend kennt. Die Firma SAS hat eine eigene Niederlassung in Wien, der Vertrieb von Software und Dokumentationen funktioniert völlig reibungslos.

Zwei große Vorzüge von SAS sind die völlige Gleichheit der interaktiven Benutzeroberflächen (unabhängig von der verwendeten Hardware- oder Betriebssystem-Plattform) und die graphische Darstellung von Daten und Datenanalysen. Die Syntax der Befehle erinnert stark an PL/1 und ist infolgedessen ziemlich barock. Für den leichten Umgang mit Datentransformationen sind auch hier Programmierkenntnisse erforderlich. Allein die Beschreibung aller Schleifenbefehle oder aller mathematischen und statistischen Funktionen von SAS ist für Anfänger eine zu Erschöpfung führende Sache. Sehr wenige SAS-Anwender haben das gesamte System im Kopf - die meisten sind mit einem auf ihr spezielles Arbeitsgebiet zugeschnittenen Befehlsrepertoire zufrieden. Mein Rat: Unbedingt anschauen, trotz der anfänglichen Frustrationen. SAS/Insight ist für explorative Studien derzeit unschlagbar.

 

SAS-Modul

VM

Win

OS/2

Kurzbeschreibung

Anz. der
Prozed.

SAS/Base

x

x

x

Basis aller SAS-Anwendungen

35

SAS/Stat

x

x

x

Statistik-Prozeduren

38

SAS/Graph

x

x

x

Graphische Darstellungen

21

SAS/Graph Maps

x

x

x

Koordinaten-Files für Landkarten

---

SAS/Access

x

Interface zu SQL/DS

5

SAS/AF

x

x

Bildschirmprogrammierung

2

SAS/Assist

x

x

Point and Click

---

SAS/Calc

x

Spreadsheet-Anwendungen

---

SAS/Connect

x

x

x

Connect Remote SAS Sessions

5

SAS/ETS

x

x

x

Econometrics and Time Series

17

SAS/FSP

x

x

x

Data Management-Prozeduren

5

SAS/IML

x

x

Interactive Matrix Language

---

SAS/Insight

x

Interaktive Datenanalyse-Graphiken

---

SAS/QC

x

Quality Control-Prozeduren

8

SAS/OR

x

x

Operations Research-Verfahren

8

SAS/DB2

x

DB/2-Datenbankformat

---

SAS/PCFile

x

Verwendung fremder PC-Files

---

SAS/ODBC

x

Verwendung fremder Datenbank-Formate

---

 

 

SPSS

 

Produkt

Verfügbarkeit

Anmerkung

SPSS 4.0

VM-Rechenanlage
(VM/XA)

---

SPSS/PC+ 5.0.1

PC (DOS)

14 Disketten, Sammellizenz

SPSS/PC+ 6.0.1

PC (Windows)

13 Disketten, deutsch oder englisch

SPSS/PC+ 4.0

Macintosh (MacOS)

12 Disketten, Sammellizenz

SPSS ist in jeder Hinsicht eine akzeptable Umgebung für Datenanalysen und an der Uni Wien seit vielen Jahren das für diese Zwecke vorwiegend verwendete Programm. Wer die Eleganz des RECODE- und COUNT-Befehles einmal erkannt hat, wundert sich über die sonderbaren Lösungen in anderen Programmen. Die Transformation von Daten ist bei SPSS sehr gut gelöst, die Statistik-Methoden sind eher das klassische Mittelmaß - ausgenommen die Prozedur MULT RESPONSE, mit der in recht einfacher Art Mehrfachantworten in Fragebögen linear ausgezählt bzw. in Kreuztabellen verwendet werden können. Eine Fehlentwicklung ist die überragende Stellung der Prozedur MANOVA, welche für viele Spezialfälle, die auch als Manova-Modell formulierbar sind (Kanonische Korrelation, Anova von abhängigen Messungen, spezielle Regressionsmodelle), verwendet werden muß, ohne daß der Output auf den Spezialfall besonders eingeht.

Sehr störend bei SPSS ist die totale Auseinanderentwicklung der einzelnen Versionen. Der Support durch die Firma ist sehr schwach (seit Monaten warten wir auf die Version 6 für Mac und seit Wochen auf die Version 6.1 für Windows), auch die Versorgung mit Dokumentation ist eher schleppend, dazu noch der hohe Preis - dies alles muß wohl auf die Kunden auf Dauer Wirkung haben. Eher grotesk ist auch die Existenz von "esoterischen" Prozeduren in der Windows-Version - solche Prozeduren können nur über den Syntax-Schirm gestartet werden, weil sie in den Menüs gar nicht enthalten sind. Dies gilt für so "moderne" Prozeduren wie die Korrespondenzanalyse, aber auch für so alte Funktionen wie PLOT (Erzeugen von Scatterplots). Wie bei SAS beginnt auch hier das bekannte Unbundling-Spiel: Man erwirbt nicht ein Gesamtpaket, sondern spezielle Prozeduren müssen extra gekauft werden (Tables, Trends, Categories, MapInfo, CHAID). Alles in allem ist SPSS ein angenehmes Hilfsmittel, aber leider stimmt das Rundherum nicht mehr. Die DOS-Version enthält immer noch uralte SPSS-Teile mit vielen Beschränkungen, über die man heute eigentlich nur mehr lachen kann, und sollte daher schnell aussterben.

SPSS umfaßt sehr viele Prozeduren, die sich kaum in eine eindeutige Struktur gliedern lassen, sodaß hier auf eine tabellarische Darstellung verzichtet wird

Statgraphics

 

Produkt

Verfügbarkeit

Anmerkung

Statgraphics Plus 7.0

PC (DOS)

4 Disketten, Campuslizenz

Statgraphics Plus 7.0

PC (DOS, im Netzwerk)

5 Disketten, Campuslizenz

Statgraphics kann als einziges der vier vorgestellten Pakete nicht auf der VM-Rechenanlage verwendet werden. Es ist vielmehr eine sehr angenehme und übersichtliche PC-Anwendung: interaktiv, graphikorientiert, ohne Windows-Unterstützung, mehr für den Alltag der Angewandten Statistik. Das Programm wird über Menüs bzw. Pull Down-Menüs bedient. Die Hauptpunkte im Main Menu sind Data Management and System Utilities, Plotting and Descriptive Statistics, Anova and Regression Analysis, Time Series Procedures, Advanced Procedures sowie Mathematical and User Procedures. Der letzte Punkt ist besonders interessant: Man kann eigene Routinen zum Programm hinzufügen und oft verwendete Auswertungsschritte als Makro definieren. Statgraphics enthält etwa 250 verschiedene Prozeduren, wenn auch z.B. bei den multivariaten Verfahren manche methodische Variante fehlt. Auf eine voll integrierte Graphik wurde großer Wert gelegt. Statgraphics ist nach wenigen Stunden Einarbeitung voll verwendbar; die Dokumentation ist sehr gut, handlich und übersichtlich.