I like #duckDB in #rstats. I sent a query with a mistake in the table name and the console had a message that suggested the table I was looking for. Great for folks me who cannot remember names of tables in my own DB. 🙃
Recent @DSLC club meetings:
🦆 DuckDB in Action: DuckDB in the cloud with MotherDuck https://youtu.be/raU96oAaBhA #RStats #PyData #JuliaLang #duckdb
From the @DSLC :rstats:chives:
:rstats: Health Metrics & the Spread of Infectious Diseases: Intro to Machine Learning https://youtu.be/ujqDTeS0X5o #RStats
:rstats: Mastering Shiny: Cohort 4 Launch https://youtu.be/AJh03Py6Tmk #RStats
Support the Data Science Learning Community at https://patreon.com/DSLC
AliSQL: Alibaba's open-source MySQL with vector and DuckDB engines
Drop #767 (2026-02-04): If It Walks Like A…
Today's make-up Drop discusses two new #DuckDB community extensions: duckdb_mcp, which integrates SQL with Model Context Protocol servers for advanced data analysis, and dns, enabling versatile DNS lookups. Additionally, DuckDB has enhanced its logging capabilities to support detailed debugging across multiple log types, improving usability and troubleshooting efficiency.
http://dailydrop.hrbrmstr.dev/2026/02/04/drop-767-2026-02-04-if-it-walks-like-a/
Related to my prior toot about debugging issues in an airgapped network, there’s a fun genre of “mostly airgapped” (e.g. there’s no network connectivity, but DNS for external addresses still works) related failures.
Case in point, this “fun” process hang in #DuckDB when attaching an encrypted database on a container that has no internet access but does have external DNS access:
https://github.com/duckdb/duckdb/issues/20797
Probably my favorite troubleshooting experience in several years.
AliSQL: Alibaba's open-source MySQL with vector and DuckDB engines
I have a very large Postgres database (200MB compressed dump, >1.5TB fully materialized on disk) that I want to run large analytical queries on.
Should I
- Connect with DuckDB postgres scanner (https://duckdb.org/2022/09/30/postgres-scanner)?
- Dump everything to parquet?
It has views and materialized views that I think I do want.
Infinite Recursion Guards
#sql #duckdb #postgresql #sqlite #mysql #mariadb
https://modern-sql.com/caniuse/with_recursive_infinit_loop_guards
Sometimes, I like #constraints. Constraints on my DDL for example, not risking vibes with data…
Here's how to create a check constraint that ensures a date entry is always entered with the last day of the month in #DuckDB:
https://codeberg.org/michael-simons/sport/src/branch/main/schema/base_tables.sql#L71
@LinuxGuides Den Vortrag #ETL mit #Python insbesondere bezgl. #DuckDb würde ich mir gerne als Aufzeichnung ansehen, wo finde ich den Link dazu?
Die Links die ich auf @fosdem gefunden habe, scheinen alle Live Streams zu sein?
Why does creating an index on a table with 217 rows x 3 cols blow up the size of my #duckdb file from 80Mb (because there's more than this table in it) to 160Mb? And then to 242Mb if I add another index? 80Mb for an index of 217 rows where the indexed column is a 2-char code?
Quack-Cluster: A Serverless Distributed SQL Query Engine with DuckDB and Ray
The QGIS GeoParquet Downloader Plugin
In meinen heutigen #TechTipps möchte ich Euch gerne #duckdb
vorstellen.
DuckDB (https://duckdb.org) könnte Euch dann interessieren wenn ihr:
- in der IT (#Softwareentwicklung, Datenanalyse #Olap, Qualitätssicherung, Forschung, etc ) arbeitet
- privat an Datenanlyse jenseits von unübesichtlichen Tabellen (#Spreadsheets) interessiert seid
- Daten wie Kontoauszüge, Telefonbücher oder (elektronische) Kataloge durchforsten wollt
DuckDB kann als eigenständiges Kommandozeilen (#CLI) Programm ohne Abhängigkeiten bezogen und verwendet werden oder auch intergriert in andere #programmiersprachen (#python) oder #tools wie #jupyter integriert werden.
Die CLI-Version kann mit Parameter "-ui" verwendet werden und startet damit ein recht komfortables #webui im lokalen #browser.
Im ersten Schritt legt man nun ein "Notebook" an das zellenweise strukturiert ist.
Es können jederzeit neue Zellen an jeder Stelle im #workflow hinzugefügt, eingefügt oder gelöscht werden.
Unterteilt man nun seinen Anwendungsfall in kleine Schritte (Zellen) wird ein komplexes Thema schon viel einfacher.
Beispiel:
1. Zelle:
-- Datenbank im Speicher anlegen
ATTACH IF NOT EXISTS ':memory:' AS memory;
2.Zelle:
-- Tablle BLS 4.0 importieren
CREATE OR REPLACE TABLE BLS AS
SELECT * FROM
read_xlsx('/home/XXX/Downloads/BLS_4_0_2025_DE/BLS_4_0_Daten_2025_DE.xlsx',
sheet = 'BLS_4_0_Daten_2025_DE',
header = true, all_varchar = true);
3. Zelle
-- Zeige mir Lebensmittel mit Vitamin D
select Lebensmittelbezeichnung, "VITD Vitamin D [µg/100g]" as VD
from'BLS'
where
VD is not null and VD not ilike '0'
order by VD DESC;
Ergebnisse können als Tabelle oder CSV mit "Download" gespeichert werden.
😀
Recent @DSLC club meetings:
🦆 DuckDB in Action: Integrating with the Python ecosystem https://youtu.be/xToZ-gnGQ_k #RStats #PyData #JuliaLang #duckdb
From the @DSLC :rstats:chives:
:rstats: Mastering Shiny: Security https://youtu.be/YQoSns_4smc #rShiny #RStats #shiny
:rstats: R for Data Science: Iteration https://youtu.be/vPEgWgs0q7s #RStats
Support the Data Science Learning Community at https://patreon.com/DSLC
duckdb is such an insanely good bit of software.
parse jsonl from stdin into a table, run a postgres-ish json query on it, and copy the result to stdout, no problem.