Erfahrung
- Erfahrung im Aufbau und der Verwaltung von Datenpipelines.
- erfahrung mit der Entwicklung und dem Betrieb von Datenpipelines in der Cloud (vorzugsweise Azure)
- Erfahrung mit verteilten Daten/Computing-Tools: Map/Reduce, Hadoop, Hive, Spark
- Fundierte Kenntnisse in der Architektur und in Datenpipelines in der Cloud unter Verwendung nativer Cloud-Technologien.
- Gute Erfahrung mit ETL- und ELT-Ingestion-Mustern
- Praktische Erfahrung in der Arbeit mit großen Datenmengen (im Petabyte-Bereich) mit verteilten Rechen-Frameworks.
- Gutes Verständnis der Container-Plattformen Kubernetes und Docker
- Ausgezeichnete Kenntnisse und Erfahrungen mit objektorientierter Programmierung
- Vertrautheit mit der Entwicklung von RESTful-API-Schnittstellen.
- Erfahrung mit Markup-Sprachen wie JSON und YAML
- Beherrschung von Design und Entwicklung relationaler Datenbanken
- Gute Kenntnisse von Data-Warehousing-Konzepten
- Arbeitserfahrung mit der agilen Scrum-Methodik
Technische Fertigkeiten
- Gute Kenntnisse in verteilten Cloud-Datenanalyseplattformen wie Databricks, HD insight, EMR-Cluster usw.
- Starke Programmierkenntnisse - Python/Java/R/Scala usw.
- Erfahrung mit Stream-Processing-Systemen: Kafka, Apache Storm, Spark-Streaming, Apache Flink, usw.
- Praktische Kenntnisse in Cloud-Data-Lake-Speichern wie Azure Data Lake Storage.
- Orchestrierung von Datenpipelines mit Azure Data Factory, Amazon Data Pipeline
- Gute Kenntnisse über Dateiformate wie ORC, Parquet, Delta, Avro usw.
- Gute Erfahrung im Umgang mit SQL- und No-SQL-Datenbanken wie MySQL, Elasticsearch, MongoDB, PostgreSQL und Cassandra, die große Datenmengen verarbeiten
- Starke Erfahrung mit Netzwerken und Sicherheitsmaßnahmen
- Beherrschung der CI/CD-Automatisierung und insbesondere der DevOps-Build- und Release-Pipelines
- Kenntnisse im Umgang mit Git, einschließlich Branching/Merging-Strategien, Pull Requests und grundlegende Befehlszeilenfunktionen
- Starke Erfahrung mit Netzwerken und Sicherheitsmaßnahmen
- Gute Datenmodellierungskenntnisse
Verantwortlichkeiten
- Cloud Analytics, Speicherung, Sicherheit, Ausfallsicherheit und Governance
- Aufbau und Pflege der Datenarchitektur für Data Engineering und Data Science Projekte
- Extrahieren, Transformieren und Laden von Daten aus Quellsystemen in Data Lake oder Datawarehouse unter Verwendung einer Kombination aus verschiedenen IaaS- oder SaaS-Komponenten
- Durchführen von Berechnungen auf großen Datenmengen mit Open-Source-Projekten wie Databricks/spark oder Hadoop
- Definition von Tabellenschemata und schnelle Anpassung an die Pipeline
- Arbeit mit großen Mengen unstrukturierter und strömender Datensätze
- Verantwortlich für die Verwaltung von NoSQL-Datenbanken in der Cloud (AWS, Azure usw.)
- Architekturlösungen für die Migration von Projekten von On-Premises in die Cloud
- Erforschen, untersuchen und implementieren Sie neuere Technologien, um die Sicherheitsfunktionen kontinuierlich weiterzuentwickeln
- Identifizieren wertvoller Datenquellen und Automatisieren von Erfassungsprozessen
- Implementierung angemessener Netzwerk- und Sicherheitsmaßnahmen für die Datenpipeline
- Implementierung einer Überwachungslösung für die Datenpipeline
- Unterstützung bei der Konzeption und Implementierung von Data-Engineering-Lösungen
- Führen einer ausgezeichneten Dokumentation für das Verständnis und den Zugriff auf die Datenspeicherung
- Unabhängig und im Team arbeiten, um den Kunden transformative Lösungen zu liefern
- Proaktiv zu sein und ständig auf die Skalierbarkeit, Leistung und Verfügbarkeit unserer Systeme zu achten
- Etablierung einer Datenschutz-/Sicherheitshierarchie und Regelung des Zugriffs
- Zusammenarbeit mit Technik- und Produktentwicklungsteams
- Systematischer Problemlösungsansatz mit ausgeprägten Kommunikationsfähigkeiten und einem Gefühl von Eigenverantwortung und Tatkraft
- Bachelor-Abschluss oder Master-Abschluss in Informatik oder einschlägigen Studiengängen
- Einschlägige Zertifizierung für Cloud Data Engineering