Abhay Dawar | Data Engineer

abhay@portfolio:$ ~ cd ~ ls ./expertise ls ./projects ls ./blogs ls ./contributions

Hi, I'm Abhay Dawar

Role:Data Engineer

Focus:Cloud Architecture

Tools:Spark, Airflow, SQL

Passion:Big Data & Pipelines

GitHub github.io/
LinkedIn iamabhaydawar
X @iamabhaydawar
Local Time --:--:--
Location Vancouver, Canada

abhay@portfolio:$ ~ cat /etc/motd

abhay@portfolio:~$

abhay@portfolio : ~ $ ls -la /usr/local/bin/navigation

cd ~ git remote curl -L linkedin wget -O x.com cat ./resume.pdf

Navigation loaded successfully

Ready for commands...

abhay@portfolio:$ ~ ./show_stack.sh --verbose

Expertise

> [Languages]

Python

SQL

Scala

Java

Bash

> [Big Data & Streaming]

Apache Spark

Apache Kafka

Hadoop Ecosystem

Apache Flink

Databricks

> [Databases & Warehouses]

PostgreSQL

MySQL

Snowflake

AWS Redshift

Google BigQuery

NoSQL (DynamoDB, Cassandra)

> [Cloud Platforms]

AWS

Azure

GCP

> [Tools & Orchestration]

Apache Airflow

Docker

Kubernetes

Terraform

Git / GitHub Actions

CI/CD

> [Data Visualization]

Tableau

Power BI

Looker

Matplotlib/Seaborn

abhay@portfolio:$ ~ ls -l /var/log/projects/

Projects

// Real-Time Analytics Platform

⟩

Developed a scalable streaming pipeline using Kafka, Spark Streaming, and Druid to ingest and analyze clickstream data, providing dashboards with sub-second latency.

Kafka Spark Streaming Druid Python AWS

// Cloud Data Warehouse Migration

⟩

Led the migration of an on-premise data warehouse to Snowflake, designing new schemas, optimizing ETL jobs (using Airflow & dbt), and reducing query times by 60%.

Snowflake Airflow dbt SQL Data Modeling

// Batch Processing Framework

⟩

Built a robust batch data processing framework on AWS using S3 Data Lake, PySpark on EMR, and Airflow for orchestration, handling terabytes of daily data.

PySpark AWS EMR S3 Airflow Scala

// Data Quality Monitoring System

⟩

Implemented an automated data quality monitoring system using Great Expectations integrated with Airflow DAGs to validate data pipelines and alert on anomalies.

Data Quality Great Expectations Python Airflow

abhay@portfolio:$ ~ find ./blogs -name "*.md" -type f

Blogs

// Optimizing Apache Spark Jobs: A Complete Guide

⟩

A comprehensive 5-part series covering advanced techniques for performance tuning Apache Spark applications, including partitioning strategies, memory management, and optimization best practices for production environments.

Apache Spark Performance Optimization Big Data

// Building Modern Data Lakes with Delta Lake

⟩

Deep dive into implementing ACID transactions, time travel, and schema evolution using Delta Lake on AWS. Includes practical examples and performance comparisons with traditional data lake architectures.

Delta Lake Data Lake AWS ACID

// Real-Time Streaming with Apache Kafka

⟩

Step-by-step guide to building scalable real-time data pipelines using Apache Kafka, including producer/consumer patterns, partitioning strategies, and monitoring best practices for high-throughput systems.

Apache Kafka Streaming Real-time Scalability

// Data Quality at Scale with Great Expectations

⟩

Implementing automated data quality monitoring using Great Expectations framework, including custom expectation development, integration with Airflow DAGs, and alerting strategies for data anomalies.

Data Quality Great Expectations Monitoring Airflow

// Cloud Data Warehouse Migration Strategies

⟩

Comprehensive guide to migrating from on-premise data warehouses to cloud solutions like Snowflake, including schema design, ETL optimization, cost analysis, and lessons learned from real-world migrations.

Migration Snowflake Cloud ETL

// Infrastructure as Code for Data Platforms

⟩

Best practices for managing data platform infrastructure using Terraform, including multi-environment deployments, security configurations, and automated provisioning of data processing clusters.

Terraform Infrastructure DevOps Automation

abhay@portfolio:$ ~ git log --author="Abhay"

Contributions

// Apache Airflow Provider Enhancement

⟩

Contributed code to enhance the AWS provider for Apache Airflow, adding new operators and improving existing sensor logic. Merged into main branch (v2.x).

Open Source Airflow Python AWS

// Blog Series: Optimizing Spark Jobs

⟩

Authored a 5-part blog series detailing techniques for performance tuning Apache Spark applications, covering partitioning, caching, and memory management.

Writing Spark Tuning

// Talk: Modern Data Lake Architectures

⟩

Presented at Local Data Meetup (2024). Discussed modern data lake design patterns, comparing Delta Lake, Iceberg, and Hudi, and their integration with cloud services.

Speaking Data Lake Architecture

// process complete - crafted by Abhay