Cloudera workshop

Workshop: Introducing Cloudera Hybrid Data Platform

20 Octombrie 2023, Hotel Bristol, Sala Assembly

Evenimentul este organizat de Reliable Solutions Distributor în colaborare cu Cloudera și va fi o oportunitate valoroasă de a învăța despre tehnologii de ultimă oră și de a participa la o experiență practică fascinantă. Vă rugăm să vă rezervați locul pentru eveniment.

Formular de Înregistrare Workshop Cloudera

Formular de Înregistrare Workshop Cloudera

Prenume
Nume

Speaker: Tarzíciusz Pál Simon

Membru al echipei de Inginerie a Soluțiilor Cloudera și expert în subiectele de Inginerie a Datelor și Cloud Privat. Este axat pe soluțiile de Cloud Privat și ajută clienții să activeze sarcini analitice care rulează pe Kubernetes și să găsească modalitățile eficiente de a utiliza Cloud-ul Public împreună cu soluțiile on-premises. Este pasionat de conceptele de Open Data Lakehouse și Data Mesh, iar domeniul său de interes este analiza în flux: Flink, Kafka, alături de depozitarea tradițională a datelor (sau Data Lakehousing).

Echipament necesar în timpul workshop-ului

  1. Un notebook care poate accesa și descărca fișiere și coduri sursă dintr-un depozit Git public și le poate încărca la URL-uri specifice.
  2. Un browser web stabil și actualizat care poate accesa site-uri fără certificate în Cloud-ul Public (mediul de demonstrație nu va utiliza TLS).
  3. Lipsa restricțiilor privind sistemul de operare.
  4. Opțional, dar recomandat: un editor de cod instalat și Git instalat.

Abilități necesare ale participanților

  • Cunoștințe de bază în administrarea sistemului de operare.
  • Cunoștințe de bază în SQL .

Ce veți învăța?

  • Noțiuni de bază privind Schema registry
  • Crearea fluxurilor NiFi care preiau, îmbogățesc datele prin apelarea unui model ML implementat și încarcă datele într-o tabelă Kudu
  • Fundamentele Apache Kudu și beneficiile utilizării acestuia
  • Introducere în SQL Stream Builder, crearea sarcinilor, conexiunile la tabele virtuale, crearea funcțiilor JavaScript și apelul acestora în FlinkSQL
  • Introducere în HUE pentru a explora seturile de date mai ușor și mai rapid
  • Crearea vizualizărilor de date și a tablourilor de bord cu Cloudera DataViz

Demo Log Data de pe serverele NASA

Incidente de securitate pot apărea în orice moment. Atunci când se întâmplă, Log Data ale serverului dvs. pot fi cea mai bună linie de apărare. Vom duce analiza Log Data ale serverului la nivelul următor prin accelerarea și îmbunătățirea investigațiilor de securitate și furnizarea unei platforme cu costuri reduse pentru conformitate. Setul de date pe care îl vom folosi în această demonstrație este NASA-HTTP, care conține cereri HTTP către serverul WWW al NASA Kennedy Space Center din Florida.

Laborator Detectarea Fraudelor în Timp Real

În acest laborator practic, vom explora modul în care putem efectua analize în timp real folosind Apache NiFi și Apache Flink. Vom utiliza interfața grafică Cloudera SQL Stream Builder pentru a crea ușor sarcini de analiză în flux folosind doar limbajul SQL (nu este necesară programarea în Java/Scala). Informațiile produse de aceste sarcini de analiză în flux vor alimenta diferite sisteme și panouri de control.

Detectarea fraudelor este un excelent exemplu de caz de utilizare cu cerințe de timp strâns. Toți am trecut prin situații în care detaliile cardului nostru de credit sau ale unui cunoscut au fost compromise iar în rezultat au fost efectuate tranzacții ilegale. Pentru a minimiza daunele în această situație, compania emitentă a cardului trebuie să poată identifica posibile fraude imediat pentru a bloca cardul și a contacta utilizatorul pentru a verifica tranzacțiile și, posibil, pentru a emite un card nou în locul celui compromis.

Datele tranzacțiilor cu cardul provin de obicei din surse orientate pe evenimente, unde noile date apar în timp real odată cu efectuarea achizițiilor cu cardul în lumea reală. În plus față de datele în flux, avem și stocuri de date tradiționale (baze de date, depozite de chei, depozite de obiecte etc.) care conțin date care pot trebui utilizate pentru a îmbogăți datele în flux. În cazul nostru, datele în flux nu conțin detalii despre conturi și utilizatori, așa că trebuie să conectăm fluxurile cu datele de referință pentru a produce toate informațiile necesare pentru a verifica fiecare tranzacție potențial frauduloasă.

În funcție de utilizările ulterioare ale informațiilor produse, putem avea nevoie să stocăm datele în formate diferite: să producem lista tranzacțiilor potențial frauduloase pe un topic Kafka pentru ca sistemele de notificare să le acționeze fără întârziere, să salvăm statistici într-un tablou de bord relațional sau operațional pentru analize ulterioare sau pentru a alimenta panouri de control sau să persistăm fluxul de tranzacții brute într-un stocaj pe termen lung durabil pentru referință ulterioară și pentru analize suplimentare.

Descoperă soluțiile

Harness the Power of AND

All your data. One platform. Limitless possibilities.
We believe that data can make what is impossible today, possible tomorrow.

AND has the power to move you. And the hybrid data cloud will take you there. Any cloud, with any analytics, and any data across your entire business.

Modern Data Architecture | Data Fabric | Data Lake | Data Mesh

For years, companies have viewed data the wrong way. They see it as the byproduct of a business interaction and this data often ends up collecting dust in centralized silos governed by data teams who lack the expertize to understand its true value. Cloudera is ushering in a new era of data architecture by allowing experts to organize and manage their own data at the source. Data mesh brings all your domains together so each team can benefit from each other’s data. With so much data in so many formats, you need to ensure universal standards are applied companywide. That’s your data fabric. And your data lakehouse drives value and insights from your data. 

Universal Data Distribution

The speed at which you move data throughout your organization can be your next competitive advantage. Cloudera DataFlow greatly simplifies your data flow infrastructure facilitating complex data collection and movement through a unified process that seamlessly transfers data throughout your organization. Even as you scale. With Cloudera DataFlow for Public Cloud you can collect and move any data (structured, unstructured, and semi-structured) from any source to any destination with any frequency (real-time streaming, batch, and micro-batch).

Discover Cloudera Platform

Manage and secure the data lifecycle in any cloud and data center, watch this 8 part video tour to learn more about Cloudera Data Platform.