Merge pull request #807 from desmondcheongzx/update-daft-results

rschu1ze · web-flow · commit 71a87e16d127 · 2026-03-31T10:54:56.000+02:00
Update Daft results for v0.7.4
diff --git a/daft-parquet-partitioned/benchmark.sh b/daft-parquet-partitioned/benchmark.sh
@@ -7,7 +7,7 @@ python3 -m venv myenv
 source myenv/bin/activate
 pip install pandas
 pip install packaging
-pip install daft==0.4.13
+pip install daft==0.7.4
 
 seq 0 99 | xargs -P100 -I{} bash -c 'wget --continue --progress=dot:giga https://datasets.clickhouse.com/hits_compatible/athena_partitioned/hits_{}.parquet'
 
diff --git a/daft-parquet-partitioned/queries.sql b/daft-parquet-partitioned/queries.sql
@@ -36,8 +36,8 @@ SELECT 1, URL, COUNT(*) AS c FROM hits GROUP BY 1, URL ORDER BY c DESC LIMIT 10;
 SELECT ClientIP, ClientIP - 1, ClientIP - 2, ClientIP - 3, COUNT(*) AS c FROM hits GROUP BY ClientIP, ClientIP - 1, ClientIP - 2, ClientIP - 3 ORDER BY c DESC LIMIT 10;
 SELECT URL, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND DontCountHits = 0 AND IsRefresh = 0 AND URL <> '' GROUP BY URL ORDER BY PageViews DESC LIMIT 10;
 SELECT Title, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND DontCountHits = 0 AND IsRefresh = 0 AND Title <> '' GROUP BY Title ORDER BY PageViews DESC LIMIT 10;
-SELECT URL, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND IsLink <> 0 AND IsDownload = 0 GROUP BY URL ORDER BY PageViews DESC LIMIT 1010;
-SELECT TraficSourceID, SearchEngineID, AdvEngineID, CASE WHEN (SearchEngineID = 0 AND AdvEngineID = 0) THEN Referer ELSE '' END AS Src, URL AS Dst, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 GROUP BY TraficSourceID, SearchEngineID, AdvEngineID, Src, Dst ORDER BY PageViews DESC LIMIT 1010;
-SELECT URLHash, EventDate, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND TraficSourceID IN (-1, 6) AND RefererHash = 3594120000172545465 GROUP BY URLHash, EventDate ORDER BY PageViews DESC LIMIT 110;
-SELECT WindowClientWidth, WindowClientHeight, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND DontCountHits = 0 AND URLHash = 2868770270353813622 GROUP BY WindowClientWidth, WindowClientHeight ORDER BY PageViews DESC LIMIT 10010;
-SELECT DATE_TRUNC('minute', EventTime) AS M, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-14' AND EventDate <= '2013-07-15' AND IsRefresh = 0 AND DontCountHits = 0 GROUP BY DATE_TRUNC('minute', EventTime) ORDER BY DATE_TRUNC('minute', EventTime) LIMIT 1010;
+SELECT URL, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND IsLink <> 0 AND IsDownload = 0 GROUP BY URL ORDER BY PageViews DESC LIMIT 10 OFFSET 1000;
+SELECT TraficSourceID, SearchEngineID, AdvEngineID, CASE WHEN (SearchEngineID = 0 AND AdvEngineID = 0) THEN Referer ELSE '' END AS Src, URL AS Dst, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 GROUP BY TraficSourceID, SearchEngineID, AdvEngineID, Src, Dst ORDER BY PageViews DESC LIMIT 10 OFFSET 1000;
+SELECT URLHash, EventDate, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND TraficSourceID IN (-1, 6) AND RefererHash = 3594120000172545465 GROUP BY URLHash, EventDate ORDER BY PageViews DESC LIMIT 10 OFFSET 100;
+SELECT WindowClientWidth, WindowClientHeight, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND DontCountHits = 0 AND URLHash = 2868770270353813622 GROUP BY WindowClientWidth, WindowClientHeight ORDER BY PageViews DESC LIMIT 10 OFFSET 10000;
+SELECT DATE_TRUNC('minute', EventTime) AS M, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-14' AND EventDate <= '2013-07-15' AND IsRefresh = 0 AND DontCountHits = 0 GROUP BY DATE_TRUNC('minute', EventTime) ORDER BY DATE_TRUNC('minute', EventTime) LIMIT 10 OFFSET 1000;
diff --git a/daft-parquet-partitioned/query.py b/daft-parquet-partitioned/query.py
@@ -5,8 +5,7 @@
 import sys
 import timeit
 import traceback
-import pandas as pd
-from daft import col, DataType, TimeUnit
+from daft import col, DataType
 
 hits = None
 current_dir = os.path.dirname(os.path.abspath(__file__))
@@ -20,115 +19,35 @@
 with open("queries.sql") as f:
     sql_list = [q.strip() for q in f.read().split(';') if q.strip()]
 
-def daft_offset(df, start ,end):
-    pandas_df = df.to_pandas()
-    sliced_df = pandas_df.iloc[start:end]
-    return sliced_df
-
-queries = []
-for idx, sql in enumerate(sql_list):
-    query_entry = {"sql": sql}
-
-    # Current limitations and workarounds for Daft execution:
-
-    # 1. Queries q18, q35, q42 require manual API workarounds:
-    #    - q18: The function `extract(minute FROM EventTime)` causes an error:
-    #      `expected input to minute to be temporal, got UInt32`.
-    #    - q35: Error is `duplicate field name ClientIP in the schema`.
-    #      Attempts to alias the column in SQL but still failed.
-    #    - q42: The function `DATE_TRUNC('minute', EventTime)` causes an error:
-    #      `Unsupported SQL: Function date_trunc not found`.
-    if idx in [18, 35, 42]:
-        if idx == 18:
-            query_entry["lambda"] = lambda: (
-                hits.with_column("m", col("EventTime").dt.minute())
-                    .groupby("UserID", "m", "SearchPhrase")
-                    .agg(daft.sql_expr("COUNT(1)").alias("COUNT(*)"))
-                    .sort("COUNT(*)", desc=True)
-                    .limit(10)
-                    .select("UserID", "m", "SearchPhrase", "COUNT(*)")
-            )
-        elif idx == 35:
-            query_entry["lambda"] = lambda: (
-                hits.groupby(
-                        "ClientIP",
-                        daft.sql_expr("ClientIP - 1").alias("ClientIP - 1"),
-                        daft.sql_expr("ClientIP - 2").alias("ClientIP - 2"),
-                        daft.sql_expr("ClientIP - 3").alias("ClientIP - 3"))
-                    .agg(daft.sql_expr("COUNT(1)").alias("c"))
-                    .sort("c", desc=True)
-                    .limit(10)
-                    .select("ClientIP", "ClientIP - 1", "ClientIP - 2", "ClientIP - 3", "c")
-            )
-        elif idx == 42:
-            query_entry["lambda"] = lambda: (
-                hits.with_column("M", col("EventTime").dt.truncate("1 minute"))
-                    .where("CounterID = 62 AND EventDate >= '2013-07-14' AND EventDate <= '2013-07-15' AND IsRefresh = 0 AND DontCountHits = 0")
-                    .groupby("M")
-                    .agg(daft.sql_expr("COUNT(1)").alias("PageViews"))
-                    .sort("M", desc=False)
-                    .limit(1010)
-                    .select("M", "PageViews")
-            )
-
-    # 2. OFFSET operator not supported in Daft:
-    #    For queries q38, q39, q40, q41, q42, after executing the query,
-    #    manually implement the `OFFSET` truncation logic via the API
-    if 38 <= idx <= 42:
-        if idx == 38:
-            query_entry["extra_api"] = lambda df: daft_offset(df, 1000, 1010)
-        elif idx == 39:
-            query_entry["extra_api"] = lambda df: daft_offset(df, 1000, 1010)
-        elif idx == 40:
-            query_entry["extra_api"] = lambda df: daft_offset(df, 100, 110)
-        elif idx == 41:
-            query_entry["extra_api"] = lambda df: daft_offset(df, 10000, 10010)
-        elif idx == 42:
-            query_entry["extra_api"] = lambda df: daft_offset(df, 1000, 1010)
-
-    queries.append(query_entry)
-
-def run_single_query(query, i):
+def run_single_query(sql, i):
     try:
         start = timeit.default_timer()
 
         global hits
         if hits is None:
             hits = daft.read_parquet(parquet_path)
-            hits = hits.with_column("EventTime", col("EventTime").cast(daft.DataType.timestamp("s")))
-            hits = hits.with_column("EventDate", col("EventDate").cast(daft.DataType.date()))
+            hits = hits.with_column("EventTime", col("EventTime").cast(DataType.timestamp("s")))
+            hits = hits.with_column("EventDate", col("EventDate").cast(DataType.date()))
             hits = hits.with_column("URL", col("URL").decode("utf-8"))
             hits = hits.with_column("Title", col("Title").decode("utf-8"))
             hits = hits.with_column("Referer", col("Referer").decode("utf-8"))
             hits = hits.with_column("MobilePhoneModel", col("MobilePhoneModel").decode("utf-8"))
             hits = hits.with_column("SearchPhrase", col("SearchPhrase").decode("utf-8"))
 
-        result = None
-
-        if "lambda" in query:
-            result = query["lambda"]()
-        else:
-            result = daft.sql(query["sql"])
-
+        result = daft.sql(sql)
         result.collect()
 
-        if "extra_api" in query:
-            result = query["extra_api"](result)
-
         run_time = round(timeit.default_timer() - start, 3)
-
         return run_time
     except Exception as e:
         print(f"Error executing query {query_idx}: {str(e)[:100]}", file=sys.stderr)
         traceback.print_exc()
         return None
 
 if __name__ == "__main__":
-    query = queries[query_idx]
-
+    sql = sql_list[query_idx]
     times = []
     for i in range(3):
-        elapsed = run_single_query(query, i)
+        elapsed = run_single_query(sql, i)
         times.append(f"{elapsed}" if elapsed else "")
-
     print(','.join(times))
diff --git a/daft-parquet-partitioned/results/c6a.4xlarge.json b/daft-parquet-partitioned/results/c6a.4xlarge.json
@@ -1,6 +1,6 @@
 {
     "system": "Daft (Parquet, partitioned)",
-    "date": "2025-08-31",
+    "date": "2026-03-30",
     "machine": "c6a.4xlarge",
     "cluster_size": 1,
     "proprietary": "no",
@@ -10,49 +10,49 @@
     "load_time": 0,
     "data_size": 14737666736,
     "result": [
-        [3.405, 0.26, 0.266],
-        [3.509, 0.261, 0.258],
-        [3.91, 0.395, 0.368],
-        [0.813, 0.149, 0.15],
-        [9.116, 8.631, 8.409],
-        [8.051, 6.974, 7.173],
-        [0.435, 0.1, 0.098],
-        [3.065, 0.263, 0.268],
-        [3.38, 3.057, 3.004],
-        [6.536, 2.51, 2.426],
-        [1.131, 0.822, 0.815],
-        [1.182, 0.845, 0.85],
-        [5.924, 2.349, 2.357],
-        [4.114, 2.992, 2.978],
-        [5.986, 2.412, 2.333],
-        [6.246, 2.762, 2.771],
-        [9.816, 5.644, 5.712],
-        [7.295, 3.218, 3.142],
-        [10.923, 9.643, 9.64],
-        [0.499, 0.141, 0.139],
-        [13.56, 2.807, 2.863],
-        [15.323, 3.116, 3.064],
-        [25.755, 7.577, 7.515],
-        [55.781, 14.548, 14.621],
-        [5.652, 3.587, 3.442],
-        [11.343, 11.418, 10.956],
-        [8.59, 6.296, 6.558],
-        [13.576, 4.546, 4.483],
-        [55.295, 55.039, 55],
-        [1.92, 1.82, 1.789],
-        [6.911, 1.77, 1.739],
-        [7.423, 2.245, 2.302],
-        [15.001, 12.929, 12.968],
-        [20.967, 13.349, 13.238],
-        [20.256, 13.594, 12.858],
-        [3.022, 2.836, 2.788],
-        [0.776, 0.32, 0.334],
-        [0.57, 0.166, 0.143],
-        [0.663, 0.168, 0.147],
-        [0.969, 0.432, 0.435],
-        [0.583, 0.101, 0.094],
-        [0.559, 0.098, 0.095],
-        [0.531, 0.086, 0.082]
-]
+        [1.634, 0.104, 0.101],
+        [0.619, 0.161, 0.161],
+        [0.621, 0.236, 0.235],
+        [0.882, 0.139, 0.138],
+        [1.11, 0.886, 0.894],
+        [1.688, 1.362, 1.354],
+        [0.399, 0.095, 0.091],
+        [0.413, 0.167, 0.165],
+        [2.823, 2.525, 2.648],
+        [2.197, 1.858, 1.862],
+        [1.016, 0.681, 0.657],
+        [1.055, 0.72, 0.718],
+        [1.952, 1.639, 1.65],
+        [5.331, 4.953, 5.027],
+        [2.081, 1.621, 1.617],
+        [2.579, 2.287, 2.311],
+        [5.151, 4.115, 4.164],
+        [3.715, 2.785, 2.748],
+        [10.092, 8.217, 8.349],
+        [0.46, 0.167, 0.172],
+        [9.93, 2.271, 2.168],
+        [11.648, 2.428, 2.362],
+        [22.37, 5.4, 5.456],
+        [55.694, 13.2, 13.413],
+        [2.968, 0.638, 0.619],
+        [1.005, 0.684, 0.707],
+        [2.982, 0.678, 0.655],
+        [9.942, 3.066, 3.155],
+        [15.06, 14.569, 14.573],
+        [1.383, 1.111, 1.117],
+        [3.304, 1.638, 1.632],
+        [7.52, 2.35, 2.338],
+        [16.281, 14.01, 14.168],
+        [15.405, 9.806, 9.841],
+        [14.696, 8.875, 8.978],
+        [2.799, 2.516, 2.552],
+        [0.491, 0.191, 0.169],
+        [0.398, 0.102, 0.097],
+        [0.422, 0.1, 0.097],
+        [0.639, 0.259, 0.221],
+        [0.334, 0.042, 0.04],
+        [0.32, 0.039, 0.04],
+        [0.317, 0.04, 0.038]
+    ]
 }
 
diff --git a/daft-parquet/queries.sql b/daft-parquet/queries.sql
@@ -36,8 +36,8 @@ SELECT 1, URL, COUNT(*) AS c FROM hits GROUP BY 1, URL ORDER BY c DESC LIMIT 10;
 SELECT ClientIP, ClientIP - 1, ClientIP - 2, ClientIP - 3, COUNT(*) AS c FROM hits GROUP BY ClientIP, ClientIP - 1, ClientIP - 2, ClientIP - 3 ORDER BY c DESC LIMIT 10;
 SELECT URL, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND DontCountHits = 0 AND IsRefresh = 0 AND URL <> '' GROUP BY URL ORDER BY PageViews DESC LIMIT 10;
 SELECT Title, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND DontCountHits = 0 AND IsRefresh = 0 AND Title <> '' GROUP BY Title ORDER BY PageViews DESC LIMIT 10;
-SELECT URL, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND IsLink <> 0 AND IsDownload = 0 GROUP BY URL ORDER BY PageViews DESC LIMIT 1010;
-SELECT TraficSourceID, SearchEngineID, AdvEngineID, CASE WHEN (SearchEngineID = 0 AND AdvEngineID = 0) THEN Referer ELSE '' END AS Src, URL AS Dst, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 GROUP BY TraficSourceID, SearchEngineID, AdvEngineID, Src, Dst ORDER BY PageViews DESC LIMIT 1010;
-SELECT URLHash, EventDate, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND TraficSourceID IN (-1, 6) AND RefererHash = 3594120000172545465 GROUP BY URLHash, EventDate ORDER BY PageViews DESC LIMIT 110;
-SELECT WindowClientWidth, WindowClientHeight, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND DontCountHits = 0 AND URLHash = 2868770270353813622 GROUP BY WindowClientWidth, WindowClientHeight ORDER BY PageViews DESC LIMIT 10010;
-SELECT DATE_TRUNC('minute', EventTime) AS M, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-14' AND EventDate <= '2013-07-15' AND IsRefresh = 0 AND DontCountHits = 0 GROUP BY DATE_TRUNC('minute', EventTime) ORDER BY DATE_TRUNC('minute', EventTime) LIMIT 1010;
+SELECT URL, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND IsLink <> 0 AND IsDownload = 0 GROUP BY URL ORDER BY PageViews DESC LIMIT 10 OFFSET 1000;
+SELECT TraficSourceID, SearchEngineID, AdvEngineID, CASE WHEN (SearchEngineID = 0 AND AdvEngineID = 0) THEN Referer ELSE '' END AS Src, URL AS Dst, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 GROUP BY TraficSourceID, SearchEngineID, AdvEngineID, Src, Dst ORDER BY PageViews DESC LIMIT 10 OFFSET 1000;
+SELECT URLHash, EventDate, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND TraficSourceID IN (-1, 6) AND RefererHash = 3594120000172545465 GROUP BY URLHash, EventDate ORDER BY PageViews DESC LIMIT 10 OFFSET 100;
+SELECT WindowClientWidth, WindowClientHeight, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-01' AND EventDate <= '2013-07-31' AND IsRefresh = 0 AND DontCountHits = 0 AND URLHash = 2868770270353813622 GROUP BY WindowClientWidth, WindowClientHeight ORDER BY PageViews DESC LIMIT 10 OFFSET 10000;
+SELECT DATE_TRUNC('minute', EventTime) AS M, COUNT(*) AS PageViews FROM hits WHERE CounterID = 62 AND EventDate >= '2013-07-14' AND EventDate <= '2013-07-15' AND IsRefresh = 0 AND DontCountHits = 0 GROUP BY DATE_TRUNC('minute', EventTime) ORDER BY DATE_TRUNC('minute', EventTime) LIMIT 10 OFFSET 1000;
diff --git a/daft-parquet/query.py b/daft-parquet/query.py
diff --git a/daft-parquet/results/c6a.4xlarge.json b/daft-parquet/results/c6a.4xlarge.json