#PySpark

Robert Watkinstwasink@aus.social
2026-02-10

How to run #PySpark on Windows.

1. Install it using `pip`
2. Make sure you're using Java 17 or Java 21. It won't work with Java 25.
3. Do _not_ fuck around with Hadoop Winutils, no matter how many articles or pieces of LLM "advice" you get about it.

twasink.net/2026/02/10/how-to-

Marcel-Jan KrijgsmanMarcelJan@mastodon.nl
2026-01-17

Now that I got a #datalakehouse in a #Europeancloud I want more: some actual data to query, #pyspark and notebooks and #datavisualisation. In this blogpost I get Project Jupyter Hub running, I get open data from the #EuropeanParliament and try to visualise that data in #PowerBI. Getting the connection working turned out to be an expensive affair.
marcel-jan.eu/datablog/2026/01

Python Job Supportpythonjobsupport
2026-01-11

ADF Interview Questions | Cloud Data Engineer  

Q2. What are the main components of Azure Data Factory? Learn about the main components of Azure Data Factory! This video ... source

quadexcel.com/wp/adf-interview

Python Job Supportpythonjobsupport
2025-12-29

Spark SQL for Data Engineering 1 : I am going to start spark sql sessions as series. 

Spark SQL Part 1 : I am going to start spark sql sessions as series. ' Databricks Notebooks code for ... source

quadexcel.com/wp/spark-sql-for

Python Job Supportpythonjobsupport
2025-12-10

ADF Interview Questions | Cloud Data Engineer  

Q13. How can you optimize the performance of an Azure Data Factory pipeline? Boost the performance of your Azure Data ... source

quadexcel.com/wp/adf-interview

Python Job Supportpythonjobsupport
2025-11-17

ADF Interview Questions | Cloud Data Engineer  

Q23. How did you handle a situation where a pipeline needed to run based on specific business events? Running pipelines ... source

quadexcel.com/wp/adf-interview

La Experimental Newslatterlaexperimental
2025-11-14

Ya esta disponible La Experimental #14

🌐 Tendencias
💻 Gestión de hooks
🧑🏻‍💻 Diseño con
🐍 sin GIL
💾 Guía de SQL
🤖 Agente local
🐧 Guía de seguridad
🌩️ Servicio de monitorización SelfHosted
💼 Informe laboral Tech en España de

Link: open.substack.com/pub/laexperi

Python Job Supportpythonjobsupport
2025-10-26

GCP Interview Questions | Cloud Data Engineer  

Q12. How to handle schema evolution and versioning in a data lake architecture on GCP? Learn how to manage schema ... source

quadexcel.com/wp/gcp-interview

Python Job Supportpythonjobsupport
2025-10-15

ADF Interview Questions | Cloud Data Engineer  

Q10. How do you implement parameterization in an Azure Data Factory pipeline? Learn how to implement parameterization in ... source

quadexcel.com/wp/adf-interview

2025-10-10

Продвинутый анализ на PySpark: учимся работать с рекуррентными соотношениями

Обработка и анализ временных последовательностей (временных рядов) достаточно часто встречающаяся задача. Обычно она решается с помощью идентичных подходов и методов. Однако когда анализ временного ряда предполагает выражение каждого последующего элемента через предыдущие, возникают проблемы с эффективностью реализации такого анализа. Это особенно актуально в контексте больших данных. В данной статье я продемонстрирую подход к анализу и вычислению рекуррентных соотношений. В качестве примера будет представлена реализация на базе Apache Spark и Python метода экспоненциальной скользящей средней с использованием DataFrame API. Мы рассмотрим метод агрегации данных, совместимый со Spark Connect, который был добавлен в версию 3.1 (для Scala - начиная с версии фреймворка 3.0), а именно – функцию aggregate.

habr.com/ru/companies/axenix/a

#apache_spark #pyspark #python #рекуррентные_соотношения #временные_ряды #анализ_данных #spark_connect

Python Job Supportpythonjobsupport
2025-10-01

Part 1 : Data Pre-processing Essentials || || Data Cleansing.

Learn PySpark data pre-processing with our tutorial! Learn the art of filtering and deduplication, essential techniques for cleaning ... source

quadexcel.com/wp/part-1-pyspar

Python Job Supportpythonjobsupport
2025-10-01

PySpark Data Bricks Syntax Cheat Sheet  

PySpark Syntax Cheat Sheet: I have covered the below operators/function from PySpark: 1. Drop table if already present 2. Create ... source

quadexcel.com/wp/pyspark-data-

Python Job Supportpythonjobsupport
2025-09-12

ADF Interview Questions | Cloud Data Engineer  

Q58. How can we implement parallel processing in Azure Data Factory Pipeline? ADF Parallel: ForEach & Copy Activity! ⚙️ Run ... source

quadexcel.com/wp/adf-interview

2025-08-17

#pylint won't tell you about compile time error , nor does black , if I am using #pyspark it won't tell me the api specs or foriegn libs my code depends on at some stage of using it , which might even be hadoop native libs .
I know its vague to ask but is there any tool that does somewhat better than this?
I heard something like python leveraging a bit on #typetheory

👨‍💻📝🐍 #python #pandas 🆚 #pyspark

Python Job Supportpythonjobsupport
2025-07-05

Top 15 Spark Interview Questions in less than 15 minutes Part-2  

To enhance your career as a Cloud Data Engineer, Check ... source

quadexcel.com/wp/top-15-spark-

2025-07-01

Что нового в Apache Spark 4.0

Apache Spark — это мощный фреймворк для распределённой обработки больших объёмов данных, позволяющий выполнять сложные вычисления на кластерах компьютеров с высокой производительностью и гибкостью. И вот 23 мая 2025 года компания Apache выпустила новую версию Spark 4. Стоит отметить, что Apache Spark — масштабный фреймворк с широким функционалом. В данной статье я сосредоточусь на нововведениях, которые в первую очередь затронут пользователей Spark SQL и PySpark.

habr.com/ru/companies/korus_co

#bigdata #sql #pyspark #spark #релиз

Python Job Supportpythonjobsupport
2025-06-26

Google’s Data Engineering workflow for YouTube Recommendation system!

Join this channel to get access to perks: – – – Book a ... source

quadexcel.com/wp/googles-data-

2025-06-02

Spark on Kubernetes: наш путь к автоматизации через кастомный оператор Airflow

Всем привет! Меня зовут Дмитрий Третьяков, я ML Engineer в компании «Лента». Мы регулярно запускаем PySpark-приложения в Kubernetes-кластере, используя Airflow. Этот процесс важен для нашей ежедневной работы с данными, но в какой-то момент мы столкнулись с тем, что стандартный подход через SparkKubernetesOperator стал сдерживать развитие: не хватало гибкости, возникали сложности в сопровождении и процесс настройки был излишне сложным для разработчиков.

habr.com/ru/companies/lentatec

#airflow #kubernetes #python3 #pyspark #dags #operator #spark #mlops #big_data #orchestrator

【AWS Glue】Glueジョブでdynamic_frameをソースに利用したらキャストエラーで困った話
dev.classmethod.jp/articles/aw

#dev_classmethod #AWS_Glue #Apache_Spark #PySpark #Apache_Iceberg

Client Info

Server: https://mastodon.social
Version: 2025.07
Repository: https://github.com/cyevgeniy/lmst