IT Solutions
> Zum Inhalt

Hardware

Die aktuelle Hardware wird ständig erweitert und den Bedürfnissen der laufenden Projekte angepasst. Während es das Ziel des Little Big Data - Clusters ist den Forschern und Lehrenden der TU Wien ein stabiles Arbeitsumfeld zu bieten, wurde der Development Cluster aufgebaut um die neuesten Erfordernisse and Hard- & Software Testen zu können und diese erst in die Produktivumgebung  zu implementieren, wenn gewährleistet werden kann, dass es zu keinen Beeinträchtigungen für die Nutzer kommt.

Das  Data Lab bietet Ihnen einen unkomplizierten Zugriff auf das Wissen und die Infrastruktur der TU Wien.

Auf der Cloudera Platform, welche auf Hadoop basiert, laufen auf dem Cluster Anwendungen wie Apache Spark, Hive, Cassandra, MongoDB und Kafka. Das Team um das Data Lab passt das Angebot aber flexibel an die Anforderungen der Nutzer an um diese best möglich in Ihren Projekten unterstützen zu können.

Little Big Data - Cluster

Für Lehre und Forschung mit 1 NameNode und 18 DataNodes mit jeweils:

  • 2x XeonE5-2650v4
  • 24 Cores
  • 251 GB Main Memory
  • 16 TB HDD
  • 10 GBit/s

Zusätzlich 300 TB NFS storage.

Development - System

Cluster zum Testen der aktuellsten Technologien mit 1 NameNode und 6 DataNodes mit:

  • 2x Xeon X5550@2.67GHz
  • 8 Cores
  • 24 GB Main Memory
  • 1 GBit/s
LDB Cluster
Development Cluster

Software

Name Beschreibung Kommentar
Centos 7 Betriebssystem OK
XCAT Deploymentumgebung OK
Cloudera Manager Big Data Deployment OK
Cloudera HDFS Hadoop distributed file system OK
Cloudera Accumulo Key/value store OK
Cloudera HBase Database on top of HDFS OK
Cloudera Hive Data warehouse using SQL OK
Cloudera Hue Hadoop user experience, web gui, SQL analytics workbench OK
Cloudera Impala SQL query engine, used by Hue OK
Oozie Oozie is a workflow scheduler system to manage Apache Hadoop jobs. Used by Hue OK
Cloudera Solr open source enterprise search platform, used by Hue, used by Key-Value Store Indexer OK
Cloudera Key-Value Store Indexer The Key-Value Store Indexer service uses the Lily HBase NRT Indexer to index the stream of records being added to HBase tables. Indexing allows you to query data stored in HBase with the Solr service. OK
Cloudera Spark (Spark 2) cluster-computing framework mit Scala 2.10 (2.11) OK
Cloudera YARN (MR2 Included) Yet Another Resource Negotiator (cluster management) OK
Cloudera ZooKeeper ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services OK
Java 1.8 Software Development Kit OK
Python 2.7, 3.* Software Development Kit OK
Scala Programmiersprache OK
Anaconda Python (Python) Programmiersprache mit Paketmanagement von Anaconda OK
Jupyter Notebook webinterface for interactive computing, benötigt Anaconda OK
JupyterLab JupyterLab is the next-generation web-based user interface for Project Jupyter OK
Cassandra benötigt Plattenplatz, ausgewählte Knoten TODO
Kafka open-source stream-processing software platform, Konfiguration für konkreten Einsatz erforderlich Rollout Phase
MongoDB NoSQL Datenbank, ausgewählte Knoten Rollout Phase