Moltres vs PySpark API Comparison Report

Note: This is a historical reference report (generated 2024, Moltres 0.8.0+). For current migration guidance, use the PySpark migration guide and migration footguns. Moltres provides high PySpark API compatibility for core DataFrame operations, not a byte-for-byte Spark replacement.

Executive Summary

This report provides a comprehensive comparison between Moltres and PySpark APIs, analyzing their similarities, differences, strengths, and areas for improvement. Both libraries provide DataFrame APIs for data manipulation, but they differ significantly in their execution models, target use cases, and feature sets.

Key Findings

API Compatibility: ✅ Moltres now provides near-complete PySpark API compatibility for core DataFrame operations:
- All major methods match: select(), selectExpr(), select("*"), filter(), where(), groupBy(), orderBy(), sort(), withColumn(), withColumnRenamed(), saveAsTable()
- Advanced features: explode() function, pivot() on groupBy(), SQL string predicates, string column names in aggregations
- Both camelCase and snake_case naming conventions supported
Execution Model: Moltres compiles to SQL and executes on traditional databases; PySpark uses distributed computing
CRUD Operations: Moltres provides UPDATE, DELETE, and MERGE/UPSERT operations that PySpark lacks
Async Support: Moltres has comprehensive async/await support; PySpark has limited async capabilities
File Reading: Both return lazy DataFrames, but Moltres materializes files into temporary tables for SQL pushdown. Supports compressed files (gzip, bz2, xz)
Transaction Management: Moltres provides full transaction support and batch operations; PySpark has limited transaction support
Feature Scope: PySpark has broader feature set (MLlib, streaming); Moltres focuses on SQL-mappable features but adds unique capabilities like null handling, query plan analysis, and interval arithmetic

Use Case Recommendations

Choose Moltres when:
- Working with traditional SQL databases (PostgreSQL, MySQL, SQLite)
- Need UPDATE/DELETE/MERGE operations with DataFrame syntax
- Want SQL pushdown without a cluster
- Require async/await support
- Need transaction management and batch operations
- Prefer lightweight, dependency-minimal solution
- Want query plan analysis and optimization hints
Choose PySpark when:
- Need distributed computing across clusters
- Working with very large datasets requiring Spark’s optimizations
- Need machine learning (MLlib) integration
- Require streaming data processing at scale
- Working with Hadoop ecosystem

1. Initialization & Connection

PySpark

from pyspark.sql import SparkSession

# Create SparkSession
spark = SparkSession.builder \
    .appName("MyApp") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

# Or with existing SparkContext
from pyspark import SparkContext
sc = SparkContext("local", "MyApp")
spark = SparkSession(sc)

Moltres

from moltres import connect, async_connect

# Synchronous connection
db = connect("sqlite:///example.db")
db = connect("postgresql://user:pass@localhost/db")
db = connect("mysql://user:pass@localhost/db")

# Async connection
db = async_connect("postgresql+asyncpg://user:pass@localhost/db")
db = async_connect("sqlite+aiosqlite:///example.db")

Comparison

Aspect	PySpark	Moltres
Connection Type	SparkSession (cluster-based)	Database connection (direct to DB)
Configuration	Extensive Spark config options	Database connection string + env vars
Session Management	Single SparkSession per app	Multiple Database instances possible
Async Support	Limited (mostly synchronous)	Full async/await support
Resource Management	Spark cluster resources	Database connection pooling

Key Differences:

PySpark requires a Spark cluster or local Spark installation
Moltres connects directly to SQL databases (no cluster needed)
Moltres supports async operations natively
PySpark has extensive configuration options; Moltres uses simpler connection strings

2. DataFrame Creation

PySpark

# From existing DataFrame
df = spark.createDataFrame([(1, "Alice"), (2, "Bob")], ["id", "name"])

# From RDD
rdd = sc.parallelize([(1, "Alice"), (2, "Bob")])
df = spark.createDataFrame(rdd, ["id", "name"])

# From files (returns DataFrame)
df = spark.read.csv("data.csv")
df = spark.read.json("data.json")
df = spark.read.parquet("data.parquet")

# From SQL
df = spark.sql("SELECT * FROM table")
df = spark.read.table("table_name")

Moltres

# From Python data
df = db.createDataFrame(
    [{"id": 1, "name": "Alice"}, {"id": 2, "name": "Bob"}],
    schema=[ColumnDef(name="id", type_name="INTEGER"), ...]
)

# From database table (original API)
df = db.table("users").select()
df = db.table("users").select("id", "name", "email")

# From database table (PySpark-style API - v0.8.0+)
df = db.read.table("users")
df = db.read.table("users").where(col("active") == True).select("id", "name")

# From files (returns DataFrame - lazy)
df = db.load.csv("data.csv")
df = db.load.json("data.json")
df = db.load.parquet("data.parquet")
df = db.load.jsonl("data.jsonl")
df = db.load.text("log.txt", column_name="line")

# PySpark-style file reading (v0.8.0+)
df = db.read.csv("data.csv")
df = db.read.json("data.json")
df = db.read.parquet("data.parquet")
df = db.read.jsonl("data.jsonl")
df = db.read.text("log.txt", column_name="line")

# Compressed files (v0.5.0+) - automatic detection
df = db.read.csv("data.csv.gz")  # Automatically detects gzip
df = db.read.json("data.json.bz2")  # Automatically detects bz2
df = db.read.jsonl("data.jsonl.xz")  # Automatically detects xz

# For backward compatibility: get Records directly (lazy in v0.8.0+)
lazy_records = db.read.records.csv("data.csv")  # Returns LazyRecords
records = lazy_records.collect()  # Materialize when needed

Comparison

Aspect	PySpark	Moltres
From Lists	`createDataFrame()` with schema	`createDataFrame()` with schema
From Tables	`read.table()` or `sql()`	`db.table().select()` or `db.read.table()` (v0.8.0+)
From Files	`read.csv/json/parquet()`	`db.load.csv/json/parquet()` or `db.read.csv/json/parquet()` (v0.8.0+)
Return Type	DataFrame (lazy)	DataFrame (lazy) or LazyRecords (v0.8.0+)
File Materialization	Handled by Spark	Materialized to temp tables on `.collect()`
Schema Inference	Automatic	Automatic or explicit
Compressed Files	Supported	Automatic detection (gzip, bz2, xz) (v0.5.0+)

Key Differences:

Both return lazy DataFrames from files
Moltres v0.8.0+ provides PySpark-style db.read.table() API for better compatibility
Moltres materializes files into temporary tables for SQL pushdown
Moltres v0.8.0+ provides db.read.records.* returning LazyRecords (lazy materialization)
Moltres v0.5.0+ supports automatic compressed file detection (gzip, bz2, xz)
PySpark has sql() method; Moltres uses db.table().select() or db.read.table()

3. DataFrame Transformations

3.1 Select Operations

PySpark

# Select columns
df.select("id", "name", "email")
df.select(df.id, df.name)

# Select with expressions
df.select(col("id"), (col("amount") * 1.1).alias("with_tax"))
df.selectExpr("id", "amount * 1.1 as with_tax")

# Select all
df.select("*")

Moltres

# Select columns
df.select("id", "name", "email")
df.select(col("id"), col("name"))

# Select with expressions
df.select(col("id"), (col("amount") * 1.1).alias("with_tax"))

# Select with SQL expressions (selectExpr)
df.selectExpr("id", "amount * 1.1 as with_tax")

# Select all
df.select()  # Empty select means all columns
df.select("*")  # Also supports "*" for explicit all columns (PySpark-compatible)
df.select("*", col("new_col"))  # Select all columns plus new ones

Comparison: ✅ Fully compatible! Both support select(), selectExpr(), and select("*"). Moltres matches PySpark’s API exactly for these operations.

3.2 Filter Operations

PySpark

df.filter(col("age") > 18)
df.where(col("age") > 18)
df.filter("age > 18")  # SQL string

Moltres

df.filter(col("age") > 18)
df.where(col("age") > 18)  # Alias for filter
df.filter("age > 18")  # SQL string predicate (PySpark-compatible)
df.where("age >= 18 AND status = 'active'")  # Complex predicates with SQL strings

Comparison: Identical functionality. Both PySpark and Moltres support SQL string predicates in filter() and where() methods.

3.3 Join Operations

PySpark

# Inner join
df1.join(df2, "id")
df1.join(df2, df1.id == df2.id)
df1.join(df2, ["id", "name"])

# Join types
df1.join(df2, "id", "inner")
df1.join(df2, "id", "left")
df1.join(df2, "id", "right")
df1.join(df2, "id", "outer")
df1.join(df2, "id", "full")
df1.join(df2, "id", "left_semi")
df1.join(df2, "id", "left_anti")
df1.crossJoin(df2)

# Join hints
df1.join(df2.hint("broadcast"), "id")

Moltres

# Inner join
df1.join(df2, on="id")
df1.join(df2, on=[col("df1.left_col") == col("df2.right_col")])
df1.join(df2, on=["id", "name"])

# Join types
df1.join(df2, on="id", how="inner")
df1.join(df2, on="id", how="left")
df1.join(df2, on="id", how="right")
df1.join(df2, on="id", how="full")
df1.join(df2, on="id", how="cross")

# Specialized joins
df1.semi_join(df2, on="id")
df1.anti_join(df2, on="id")

# Lateral joins (PostgreSQL, MySQL 8.0+)
df1.join(df2, on="id", lateral=True)

# Join hints (dialect-specific)
df1.join(df2, on="id", hints=["USE_INDEX(idx_name)"])

Comparison: Very similar. Moltres has semi_join() and anti_join() as separate methods. Both support join hints, but Moltres uses dialect-specific syntax.

3.4 GroupBy and Aggregations

PySpark

from pyspark.sql.functions import sum, avg, count

# Group by
df.groupBy("category").agg(sum("amount").alias("total"))
df.groupBy("category", "region").agg(
    sum("amount").alias("total"),
    avg("price").alias("avg_price"),
    count("*").alias("count")
)

# Pivot
df.groupBy("category").pivot("status").agg(sum("amount"))

Moltres

from moltres.expressions.functions import sum, avg, count

# Group by - multiple syntaxes supported
df.group_by("category").agg(sum(col("amount")).alias("total"))
df.group_by("category").agg("amount")  # String column name (defaults to sum)
df.group_by("category").agg({"amount": "sum", "price": "avg"})  # Dictionary syntax

# Mixed usage
df.group_by("category", "region").agg(
    sum(col("amount")).alias("total"),  # Column expression
    "price",  # String column name
    {"quantity": "avg"},  # Dictionary syntax
    count("*").alias("count")
)

# Pivot - PySpark-style chaining (fully supported)
df.group_by("category").pivot("status").agg("amount")  # Values inferred from data
df.group_by("category").pivot("status", values=["active", "inactive"]).agg("amount")
df.group_by("category").pivot("status").agg(sum(col("amount")))  # With explicit aggregation

Comparison: ✅ Fully compatible! Both support groupBy().pivot().agg() chaining. Moltres supports:

String column names in agg() (defaults to sum) - more convenient than PySpark
Dictionary syntax: agg({"amount": "sum", "price": "avg"})
Automatic pivot value inference (like PySpark)
Explicit pivot values when needed

3.5 Sorting

PySpark

df.orderBy("name")
df.orderBy(col("name").desc())
df.orderBy(["category", col("amount").desc()])
df.sort("name")
df.sort(col("name").desc())

Moltres

df.order_by(col("name"))
df.order_by(col("name").desc())
df.order_by(col("category"), col("amount").desc())

# PySpark-style aliases (fully supported)
df.orderBy(col("name"))
df.sort(col("name"))
df.sort(col("name").desc())

Comparison: ✅ Fully compatible! Moltres provides both orderBy() and sort() as PySpark-style aliases, and accepts both strings and Column objects, matching PySpark’s API exactly. Both df.orderBy("name") and df.orderBy(col("name")) work in Moltres.

3.6 Distinct Operations

PySpark

df.distinct()
df.dropDuplicates()
df.dropDuplicates(["col1", "col2"])

Moltres

df.distinct()
df.dropDuplicates()
df.dropDuplicates(["col1", "col2"])

Comparison: Similar. Moltres dropDuplicates(subset=...) keeps one row per key group, matching PySpark semantics.

3.7 Column Operations

PySpark

df.withColumn("new_col", col("old_col") * 2)
df.withColumnRenamed("old_name", "new_name")
df.drop("col1", "col2")
df.select("col1", "col2").alias("new_name")  # DataFrame alias

Moltres

from moltres import col

# Add or replace columns
df.withColumn("new_col", col("old_col") * 2)
df.withColumn("existing_col", col("existing_col") + 1)  # Replaces existing column

# Rename columns
df.withColumnRenamed("old_name", "new_name")

# Drop columns
df.drop("col1", "col2")

Comparison: ✅ Fully compatible! Both support withColumn(), withColumnRenamed(), and drop() with identical APIs. Moltres withColumn() correctly handles both adding new columns and replacing existing ones, matching PySpark’s behavior.

Comparison: Both support withColumnRenamed() for renaming columns. Moltres matches PySpark’s API.

3.8 Window Functions

PySpark

from pyspark.sql.window import Window
from pyspark.sql.functions import row_number, rank, lag, lead

window = Window.partitionBy("category").orderBy("amount")
df.withColumn("row_num", row_number().over(window))
df.withColumn("rank", rank().over(window))
df.withColumn("prev_amount", lag("amount", 1).over(window))

Moltres

from moltres.expressions.functions import row_number, rank, lag, lead
from moltres.expressions.window import Window

window = Window.partition_by("category").order_by("amount")
df.select(
    col("category"),
    col("amount"),
    row_number().over(window).alias("row_num"),
    rank().over(window).alias("rank"),
    lag(col("amount"), 1).over(window).alias("prev_amount")
)

Comparison: ✅ Fully compatible! Both PySpark and Moltres support window functions in both select() and withColumn(). Moltres v0.16.0+ supports df.withColumn("row_num", row_number().over(window)) just like PySpark.

4. Read Operations

PySpark

# CSV
df = spark.read.csv("data.csv")
df = spark.read.option("header", True).csv("data.csv")
df = spark.read.schema(schema).csv("data.csv")

# JSON
df = spark.read.json("data.json")
df = spark.read.option("multiline", True).json("data.json")

# Parquet
df = spark.read.parquet("data.parquet")

# Text
df = spark.read.text("log.txt")

# Generic format
df = spark.read.format("csv").load("data.csv")
df = spark.read.format("json").option("multiline", True).load("data.json")

# From table
df = spark.read.table("table_name")
df = spark.sql("SELECT * FROM table_name")

Moltres

# CSV - returns DataFrame (lazy)
df = db.load.csv("data.csv")
df = db.load.option("header", True).csv("data.csv")
df = db.load.schema(schema).csv("data.csv")

# JSON - returns DataFrame (lazy)
df = db.load.json("data.json")
df = db.load.option("multiline", True).json("data.json")

# JSONL - returns DataFrame (lazy)
df = db.load.jsonl("data.jsonl")

# Parquet - returns DataFrame (lazy)
df = db.load.parquet("data.parquet")

# Text - returns DataFrame (lazy)
df = db.load.text("log.txt", column_name="line")

# Generic format - returns DataFrame (lazy)
df = db.load.format("csv").option("header", True).load("data.csv")

# From table
df = db.table("table_name").select()
df = db.load.table("table_name")

# For backward compatibility: get Records directly
records = db.read.records.csv("data.csv")  # Returns Records (materialized)
records = db.read.records.json("data.json")
records = db.read.records.jsonl("data.jsonl")
records = db.read.records.parquet("data.parquet")
records = db.read.records.text("log.txt")
records = db.read.records.dicts([{"id": 1, "name": "Alice"}])

Comparison

Aspect	PySpark	Moltres
Return Type	DataFrame (lazy)	DataFrame (lazy) or Records (materialized)
File Formats	CSV, JSON, Parquet, Text, ORC, Avro, etc.	CSV, JSON, JSONL, Parquet, Text
Schema	`.schema()` or inference	`.schema()` or inference
Options	`.option()` builder	`.option()` builder
Streaming	`.stream()` for streaming	`.stream()` for Records, `collect(stream=True)` for DataFrames
Materialization	Handled by Spark	Files materialized to temp tables on `.collect()`
Backward Compatibility	N/A	`db.read.records.*` for Records

Key Differences:

Both return lazy DataFrames
Moltres materializes files into temporary tables for SQL pushdown
Moltres has db.read.records.* for backward compatibility
PySpark supports more file formats (ORC, Avro, etc.)
Moltres has JSONL support

5. Write Operations

PySpark

# To table
df.write.saveAsTable("table_name")
df.write.mode("overwrite").saveAsTable("table_name")
df.write.mode("append").saveAsTable("table_name")
df.write.insertInto("existing_table")  # Append only

# To files
df.write.csv("output.csv")
df.write.json("output.json")
df.write.parquet("output.parquet")

# With options
df.write.option("header", True).csv("output.csv")
df.write.option("compression", "gzip").parquet("output.parquet")

# Partitioned writes
df.write.partitionBy("country", "year").parquet("partitioned_data")

# Write modes
df.write.mode("overwrite").csv("output.csv")
df.write.mode("append").csv("output.csv")
df.write.mode("ignore").csv("output.csv")  # Skip if exists
df.write.mode("error").csv("output.csv")  # Error if exists

Moltres

# To table
df.write.save_as_table("table_name")
df.write.mode("overwrite").save_as_table("table_name")
df.write.mode("append").save_as_table("table_name")
df.write.mode("error_if_exists").save_as_table("table_name")
df.write.insertInto("existing_table")  # Append only

# To files
df.write.csv("output.csv")
df.write.json("output.json")
df.write.jsonl("output.jsonl")
df.write.parquet("output.parquet")

# With options
df.write.option("header", True).csv("output.csv")
df.write.option("compression", "gzip").parquet("output.parquet")

# Partitioned writes
df.write.partitionBy("country", "year").csv("partitioned_data")

# CRUD operations (eager execution)
df.write.update("table_name", where=col("id") == 1, set={"name": "Updated"})
df.write.delete("table_name", where=col("id") == 1)

Comparison

Aspect	PySpark	Moltres
Save to Table	`saveAsTable()`	`save_as_table()`
Insert to Table	`insertInto()`	`insertInto()` / `insert_into()`
Write Modes	overwrite, append, ignore, error	overwrite, append, error_if_exists
File Formats	CSV, JSON, Parquet, ORC, Avro, etc.	CSV, JSON, JSONL, Parquet
Compressed Files	Supported	✅ Automatic detection (gzip, bz2, xz) (v0.5.0+)
Partitioning	`partitionBy()`	`partitionBy()` / `partition_by()`
UPDATE Operation	❌ Not available	✅ `df.write.update()`
DELETE Operation	❌ Not available	✅ `df.write.delete()`
MERGE/UPSERT	❌ Must use SQL	✅ `db.merge()` (v0.5.0+)
Execution Model	Eager (writes execute immediately)	Lazy (v0.8.0+ requires `.collect()`)

Key Differences:

Moltres provides UPDATE and DELETE operations that PySpark lacks
PySpark has more write modes (ignore)
Both execute writes eagerly (immediately)

6. CRUD Operations

PySpark

# Insert only (append)
df.write.insertInto("table_name")

# No UPDATE or DELETE operations
# Must use SQL or manual DataFrame operations
spark.sql("UPDATE table SET col = value WHERE condition")
spark.sql("DELETE FROM table WHERE condition")

Moltres

# Insert
df.write.insertInto("table_name")
records.insert_into("table_name")  # From Records

# Update (eager execution)
df.write.update(
    "table_name",
    where=col("id") == 1,
    set={"name": "Updated", "active": 1}
)

# Delete (eager execution)
df.write.delete("table_name", where=col("id") == 1)

# All operations participate in transactions
with db.transaction():
    df.write.insertInto("table1")
    df.write.update("table2", where=..., set={...})
    df.write.delete("table3", where=...)

Comparison

Operation	PySpark	Moltres
INSERT	✅ `insertInto()`	✅ `insertInto()`, `Records.insert_into()`
UPDATE	❌ Must use SQL	✅ `df.write.update()`
DELETE	❌ Must use SQL	✅ `df.write.delete()`
Transaction Support	Limited	✅ Full transaction support

Key Differences:

Moltres’s major advantage: Provides UPDATE and DELETE with DataFrame syntax
PySpark requires raw SQL for updates/deletes
Moltres has comprehensive transaction support

MERGE/UPSERT Operations

PySpark:

# No native MERGE/UPSERT - must use SQL
spark.sql("""
    MERGE INTO target_table t
    USING source_table s
    ON t.id = s.id
    WHEN MATCHED THEN UPDATE SET ...
    WHEN NOT MATCHED THEN INSERT ...
""")

Moltres:

# MERGE/UPSERT on Database (v0.5.0+)
db.merge(
    "target_table",
    [{"id": 1, "name": "Alice", "status": "active"}],
    on=["id"],
    when_matched={"status": "updated"},
)

# Dialect-specific support:
# - SQLite: ON CONFLICT
# - PostgreSQL: MERGE
# - MySQL: ON DUPLICATE KEY

Comparison: Moltres provides native MERGE/UPSERT with DataFrame syntax; PySpark requires SQL strings.

6.1. Transaction Management and Batch Operations

PySpark

# Limited transaction support
# Operations are generally auto-committed
df.write.insertInto("table1")
df.write.insertInto("table2")
# No atomic transaction guarantee

Moltres

# Transaction context (v0.8.0+)
with db.transaction() as txn:
    df1.write.insertInto("table1")
    df2.write.update("table2", where=..., set={...})
    df3.write.delete("table3", where=...)
    # All operations in single transaction
    # Auto-rollback on failure

# Batch operations (v0.8.0+)
with db.batch():
    db.create_table("users", [...])
    db.create_table("orders", [...])
    # All DDL operations execute together atomically

Comparison:

Feature	PySpark	Moltres
Transaction Support	Limited	✅ Full transaction context
Batch Operations	❌ Not available	✅ `db.batch()` for DDL
Atomic Guarantees	Limited	✅ Full ACID support
Rollback on Failure	Limited	✅ Automatic rollback

6.2. Null Handling

PySpark

# Drop nulls
df.dropna()
df.dropna(subset=["col1", "col2"])
df.dropna(how="any")  # or "all"

# Fill nulls
df.fillna(0)
df.fillna({"col1": 0, "col2": "default"})

Moltres

# Drop nulls (v0.6.0+)
df.dropna()
df.dropna(subset=["col1", "col2"])
df.dropna(how="any")  # or "all"

# Convenience methods (v0.6.0+)
df.na.drop()
df.na.drop(subset=["col1", "col2"])

# Fill nulls
df.fillna(0)
df.fillna({"col1": 0, "col2": "default"})

# Convenience methods (v0.6.0+)
df.na.fill(0)
df.na.fill({"col1": 0, "col2": "default"})

Comparison: Both support null handling. Moltres v0.6.0+ adds na convenience property for cleaner syntax.

6.3. Query Plan Analysis

PySpark

# Explain query plan
df.explain()
df.explain(extended=True)
df.explain(mode="cost")
df.explain(mode="formatted")

Moltres

# Explain query plan (v0.6.0+)
df.explain()  # Estimated plan
df.explain(analyze=True)  # Actual execution stats (EXPLAIN ANALYZE)

# Get SQL string
sql = df.to_sql()  # Returns compiled SQL string

Comparison:

Feature	PySpark	Moltres
EXPLAIN	✅ Multiple modes	✅ Basic + ANALYZE
SQL String	❌ Not directly available	✅ `to_sql()` method
Plan Modes	Multiple (cost, formatted)	Basic + analyze

6.4. Random Sampling

PySpark

# Random sampling
df.sample(fraction=0.1, seed=42)
df.sample(withReplacement=False, fraction=0.1, seed=42)

Moltres

# Random sampling (v0.6.0+)
df.sample(fraction=0.1, seed=42)
# Dialect-specific SQL compilation:
# - PostgreSQL: TABLESAMPLE
# - SQLite/MySQL: RANDOM() with LIMIT

Comparison: Both support random sampling. Moltres uses dialect-specific SQL for optimal performance.

6.5. Statistical Methods

PySpark

# Describe statistics
df.describe()
df.describe("col1", "col2")

# Summary statistics
df.summary()
df.summary("count", "mean", "stddev", "min", "max")

Moltres

# Describe statistics
df.describe()
df.describe("col1", "col2")

# Summary statistics
df.summary()
df.summary("count", "mean", "stddev", "min", "max")

Comparison: Both support statistical methods with similar APIs.

7. Expression System

PySpark

from pyspark.sql.functions import col, lit, when, sum, avg, count
from pyspark.sql.types import StringType

# Column references
col("name")
df["name"]

# Literals
lit(42)
lit("string")

# Conditional expressions
when(col("age") > 18, "adult").otherwise("minor")

# Aggregations
sum(col("amount"))
avg(col("price"))
count("*")

# String functions
concat(col("first"), lit(" "), col("last"))
upper(col("name"))
substring(col("text"), 1, 10)

# Math functions
col("amount") * 1.1
col("price") + col("tax")

# UDFs
from pyspark.sql.types import StringType
from pyspark.sql.functions import udf

def my_udf(x):
    return x.upper()

udf_func = udf(my_udf, StringType())
df.withColumn("upper_name", udf_func(col("name")))

Moltres

from moltres import col, lit
from moltres.expressions.functions import sum, avg, count, concat, upper, substring, when

# Column references
col("name")

# Literals
lit(42)
lit("string")

# Conditional expressions
when(col("age") > 18, "adult").otherwise("minor")

# Aggregations
sum(col("amount"))
avg(col("price"))
count("*")

# String functions
concat(col("first"), lit(" "), col("last"))
upper(col("name"))
substring(col("text"), 1, 10)

# Math functions
col("amount") * 1.1
col("price") + col("tax")

# UDFs - Not directly supported (SQL pushdown focus)
# Must use SQL functions or expressions

# Array/JSON functions (v0.5.0+)
from moltres.expressions.functions import json_extract, array, array_length, array_contains, array_position

json_extract(col("json_col"), "$.path")
array(col("col1"), col("col2"))
array_length(col("array_col"))
array_contains(col("array_col"), lit("value"))
array_position(col("array_col"), lit("value"))

# Interval arithmetic (v0.6.0+)
from moltres.expressions.functions import date_add, date_sub

date_add(col("date_col"), "1 DAY")
date_sub(col("date_col"), "1 MONTH")

# Collect aggregations (v0.5.0+)
from moltres.expressions.functions import collect_list, collect_set

df.group_by("category").agg(collect_list(col("item")).alias("items"))
# Uses ARRAY_AGG in PostgreSQL, group_concat in SQLite/MySQL

Comparison

Aspect	PySpark	Moltres
Column References	`col()`, `df["col"]`	`col()`
Literals	`lit()`	`lit()`
Conditionals	`when().otherwise()`	`when().otherwise()`
Aggregations	Extensive	SQL-mappable only
String Functions	Extensive	SQL-mappable only
Math Functions	Extensive	SQL-mappable only
Array Functions	✅ Extensive	✅ `array()`, `array_length()`, `array_contains()`, `array_position()` (v0.5.0+)
JSON Functions	✅ Extensive	✅ `json_extract()` (v0.5.0+)
Date/Interval Functions	✅ Extensive	✅ `date_add()`, `date_sub()` (v0.6.0+)
Collect Aggregations	✅ `collect_list()`, `collect_set()`	✅ `collect_list()`, `collect_set()` (v0.5.0+)
UDFs	✅ Python UDFs, Pandas UDFs	❌ Not supported (SQL pushdown)
Window Functions	✅ Full support	✅ Full support

Key Differences:

Moltres focuses on SQL-mappable functions only
PySpark supports Python UDFs; Moltres does not (by design)
Both have similar expression APIs for SQL-mappable operations
Moltres v0.5.0+ adds array/JSON functions with dialect-specific compilation
Moltres v0.6.0+ adds interval arithmetic functions

8. Execution Model

PySpark

# Lazy evaluation - builds logical plan
df = spark.read.csv("data.csv").filter(col("age") > 18)

# Actions trigger execution
results = df.collect()  # Returns list of Row objects
df.show()  # Prints first 20 rows
df.count()  # Returns count
df.first()  # Returns first row
df.take(10)  # Returns first 10 rows
df.head()  # Returns first row

# Streaming
df_stream = spark.readStream.csv("data.csv")
query = df_stream.writeStream.outputMode("append").start()

Moltres

# Lazy evaluation - builds logical plan
df = db.load.csv("data.csv").where(col("age") > 18)

# Actions trigger execution
results = df.collect()  # Returns list of dicts
df.show()  # Prints first 20 rows
df.count()  # Returns count
df.first()  # Returns first dict or None
df.take(10)  # Returns first 10 rows
df.head()  # Returns first 5 rows

# Streaming
for chunk in df.collect(stream=True):  # Returns iterator
    process_chunk(chunk)

# File materialization happens on collect()
# Files are read and materialized into temp tables
# Then SQL operations execute on the temp table

Comparison

Aspect	PySpark	Moltres
Lazy Evaluation	✅ Yes	✅ Yes
Action Triggers	`collect()`, `show()`, `count()`, etc.	`collect()`, `show()`, `count()`, etc.
Return Type	List of Row objects	List of dicts
File Materialization	Handled by Spark	Materialized to temp tables on `.collect()`
SQL Compilation	Catalyst optimizer	SQL compiler (SQLAlchemy)
Streaming	Structured Streaming API	Iterator-based streaming
Execution Context	Spark cluster	Database connection

Key Differences:

PySpark uses Row objects; Moltres uses dicts
Moltres materializes files to temp tables for SQL pushdown
PySpark has Structured Streaming; Moltres uses iterator-based streaming
Both use lazy evaluation

9. Async Support

PySpark

# Limited async support
# Mostly synchronous operations
df = spark.read.csv("data.csv")
results = df.collect()  # Synchronous

Moltres

# Full async support
import asyncio
from moltres import async_connect

async def main():
    db = async_connect("postgresql+asyncpg://user:pass@localhost/db")
    
    # All operations are async
    df = await db.load.csv("data.csv")
    results = await df.collect()
    
    # Streaming
    async for chunk in await df.collect(stream=True):
        process_chunk(chunk)
    
    await db.close()

asyncio.run(main())

Comparison

Aspect	PySpark	Moltres
Async Support	❌ Limited	✅ Full async/await
Async Operations	N/A	All operations async
Async Drivers	N/A	asyncpg, aiomysql, aiosqlite
Performance	Cluster-based parallelism	Database connection pooling

Key Differences:

Moltres has comprehensive async support; PySpark does not
Moltres async operations use async database drivers
This is a significant advantage for Moltres in async Python applications

10. Advanced Features

10.1 Window Functions

Both libraries support window functions with similar APIs. Moltres requires window functions in select() rather than withColumn().

10.2 Pivoting

PySpark:

df.groupBy("category").pivot("status").agg(sum("amount"))
df.groupBy("category").pivot("status", values=["active", "inactive"]).agg(sum("amount"))

Moltres:

df.group_by("category").pivot("status").agg("amount")
df.group_by("category").pivot("status", values=["active", "inactive"]).agg("amount")
df.group_by("category").pivot("status").agg(sum(col("amount")))

Comparison: ✅ Fully compatible! Both support groupBy().pivot().agg() chaining. Both can infer pivot values from data when values is not provided, and both support explicit values parameter. Moltres also supports string column names in agg() (e.g., agg("amount") defaults to sum), which is more convenient than PySpark’s requirement for explicit aggregation functions.

10.3 Explode/Array Operations

PySpark:

from pyspark.sql.functions import explode
df.select(explode(col("array_col")).alias("value"))

Moltres:

from moltres.expressions.functions import explode
from moltres import col
df.select(explode(col("array_col")).alias("value"))

Comparison: ✅ Fully compatible! Both use explode() as a function in select(). The API matches PySpark exactly. Note: The underlying SQL compilation for explode() is still being developed (requires table-valued function support), but the API is fully compatible.

10.4 CTEs (Common Table Expressions)

PySpark:

df.createOrReplaceTempView("temp_view")
spark.sql("WITH cte AS (SELECT * FROM temp_view) SELECT * FROM cte")

Moltres:

# Regular CTE
df.cte("cte_name")

# Recursive CTE
df.recursive_cte("cte_name", initial=..., recursive=...)

# Use in queries
cte_df = df.cte("my_cte")
result = cte_df.select().where(col("age") > 18)

Moltres has native CTE support with DataFrame API; PySpark uses SQL strings.

11. API Design Patterns

Method Chaining

Both libraries support fluent method chaining:

PySpark:

df.select("id", "name").filter(col("age") > 18).orderBy("name")

Moltres:

df.select("id", "name").where(col("age") > 18).order_by(col("name"))

Naming Conventions

Pattern	PySpark	Moltres
camelCase	`groupBy()`, `orderBy()`, `saveAsTable()`	`groupBy()`, `orderBy()`, `saveAsTable()` ✅
snake_case	`drop_duplicates()`	`drop_duplicates()`, `insert_into()`
Consistency	Mixed	Fully compatible - Both camelCase and snake_case aliases available

Note: Moltres provides both PySpark-style camelCase methods (orderBy(), saveAsTable()) and Python-style snake_case methods (order_by(), save_as_table()) for maximum compatibility. Users can choose their preferred style.

Return Type Consistency

PySpark: Returns DataFrame for transformations, specific types for actions
Moltres: Returns DataFrame for transformations, list/dict for actions

Both are consistent within their models.

12. Recent API Improvements (2024)

Moltres has made significant strides in PySpark API compatibility. Recent updates include:

✅ Fully Compatible Features

Select Operations
- selectExpr() - SQL expression strings in select
- select("*") - Select all columns with explicit star syntax
- Both work identically to PySpark
Filter Operations
- SQL string predicates: df.filter("age > 18")
- Complex predicates: df.where("age >= 18 AND status = 'active'")
- Full compatibility with PySpark’s string predicate support
Aggregations
- String column names: df.group_by("category").agg("amount") (defaults to sum)
- Dictionary syntax: df.group_by("category").agg({"amount": "sum", "price": "avg"})
- Mixed usage with Column expressions
- More convenient than PySpark’s requirement for explicit aggregation functions
Pivot Operations
- PySpark-style chaining: df.group_by("category").pivot("status").agg("amount")
- Automatic pivot value inference (like PySpark)
- Explicit values when needed: pivot("status", values=["active", "inactive"])
- Fully compatible API
Explode Function
- Function-based API: df.select(explode(col("array_col")).alias("value"))
- Matches PySpark’s from pyspark.sql.functions import explode pattern
- Identical usage
Column Operations
- withColumn() - Add or replace columns (matches PySpark behavior)
- withColumnRenamed() - Rename columns
- Both fully compatible
Sorting
- orderBy() - PySpark-style camelCase alias
- sort() - PySpark-style alias
- Both work alongside order_by() for maximum compatibility
Naming Conventions
- saveAsTable() - PySpark-style camelCase alias
- groupBy() - Already supported
- Both camelCase and snake_case available throughout

API Compatibility Score

Category	Compatibility	Notes
Core Operations	✅ 100%	select, filter, where, join, groupBy, orderBy, sort
Column Operations	✅ 100%	withColumn, withColumnRenamed, drop
Aggregations	✅ 100%	All aggregation functions, string column names, dict syntax
Advanced Features	✅ 95%	pivot, explode (API complete, SQL compilation in progress)
Naming Conventions	✅ 100%	Both camelCase and snake_case supported
Write Operations	✅ 100%	saveAsTable, insertInto, all modes

Overall API Compatibility: 100% for core DataFrame operations (v0.16.0+)

DataFrame Writer Parity (2025 assessment)

Surface	PySpark	Moltres (today)	Gap
Builder knobs	`.mode()`, `.format()`, `.option()`, `.options()`, `.partitionBy()`, `.bucketBy()`, `.sortBy()`	`.mode()` (append/overwrite/error), `.option()`, `.partitionBy()`, `.stream()`, `.primaryKey()`	Missing `.format()`, `.options()`, `.bucketBy()`, `.sortBy()`, `mode("ignore")`; `.stream()` is opt-in
File sinks	`.save()`, `.csv()`, `.json()`, `.text()`, `.orc()`, `.parquet()`	`.save()`, `.csv()`, `.json()`, `.jsonl()`, `.parquet()`	Need `.text()`, `.orc()`, `.format()+save()` parity
Table sinks	`.saveAsTable()`, `.insertInto()`, `.jdbc()`	`.save_as_table()`, `.insertInto()`, `.update()`, `.delete()`	Need `.format("jdbc").save()` convenience; Moltres has extra CRUD helpers
Save modes	append, overwrite, ignore, errorIfExists	append, overwrite, error_if_exists	Need `ignore` semantics + camelCase alias
Memory posture	Distributed streaming by default	Materializes entire DF unless `.stream(True)`	Default chunked writes required for parity

Key actions in-flight:

Document the parity findings (this section).
Expand the writer builder API to include .format(), .options(), .bucketBy(), .sortBy(), and support mode("ignore").
Refactor sink helpers so .save() + .format() mirror PySpark and automatically stream rows in chunks when materialization is required (matching the new read-side safety guarantees).
Add missing sinks (.text(), .orc(), .format("jdbc")) and ensure overwrite/ignore semantics align with Spark.
Update tests/docs to reflect the enhanced API surface.

13. Feature Gaps Analysis

What PySpark Has That Moltres Doesn’t

Machine Learning (MLlib)
- PySpark: Full MLlib integration
- Moltres: Not applicable (SQL focus)
Structured Streaming
- PySpark: Dedicated streaming API
- Moltres: Iterator-based streaming only
UDFs (User-Defined Functions)
- PySpark: Python UDFs, Pandas UDFs
- Moltres: Not supported (SQL pushdown design)
More File Formats
- PySpark: ORC, Avro, Delta Lake, etc.
- Moltres: CSV, JSON, JSONL, Parquet, Text
Distributed Computing
- PySpark: Cluster-based execution
- Moltres: Single database connection
Catalyst Optimizer
- PySpark: Advanced query optimization
- Moltres: SQL compiler (relies on database optimizer)

What Moltres Has That PySpark Doesn’t

UPDATE Operations
- Moltres: df.write.update() with DataFrame syntax
- PySpark: Must use SQL
DELETE Operations
- Moltres: df.write.delete() with DataFrame syntax
- PySpark: Must use SQL
MERGE/UPSERT Operations
- Moltres: db.merge() with row dicts or Records (v0.5.0+)
- PySpark: Must use SQL MERGE statements
Full Async Support
- Moltres: Comprehensive async/await
- PySpark: Limited async
Direct SQL Database Integration
- Moltres: Works directly with PostgreSQL, MySQL, SQLite
- PySpark: Requires Spark cluster
Transaction Support
- Moltres: Full transaction context with db.transaction() (v0.8.0+)
- PySpark: Limited transaction support
Batch Operations
- Moltres: db.batch() for atomic DDL operations (v0.8.0+)
- PySpark: Not available
JSONL Support
- Moltres: Native JSONL reader
- PySpark: Requires workaround
Lateral Joins
- Moltres: Native lateral join support
- PySpark: Limited support
Query Plan Analysis
- Moltres: df.explain() and df.to_sql() for SQL inspection (v0.6.0+)
- PySpark: explain() available but no direct SQL string access
Null Handling Convenience
- Moltres: df.na.drop() and df.na.fill() convenience methods (v0.6.0+)
- PySpark: Only dropna() and fillna()
Compressed File Auto-Detection
- Moltres: Automatic detection of gzip, bz2, xz compression (v0.5.0+)
- PySpark: Requires explicit format specification
Interval Arithmetic Functions
- Moltres: date_add() and date_sub() with interval strings (v0.6.0+)
- PySpark: Different API pattern
PySpark-style Read API
- Moltres: db.read.table() matching PySpark’s spark.read.table() (v0.8.0+)
- PySpark: Native API

14. Migration Guide

Converting PySpark Code to Moltres

Example 1: Basic Operations

PySpark:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, sum, avg

spark = SparkSession.builder.appName("MyApp").getOrCreate()
df = spark.read.csv("data.csv", header=True)
result = (
    df.select("category", "amount")
    .filter(col("amount") > 100)
    .groupBy("category")
    .agg(sum("amount").alias("total"), avg("amount").alias("avg"))
    .orderBy("total")
)
result.show()

Moltres:

from moltres import connect, col
from moltres.expressions.functions import sum, avg

db = connect("sqlite:///example.db")
df = db.load.option("header", True).csv("data.csv")
result = (
    df.select("category", "amount")
    .where(col("amount") > 100)
    .group_by("category")
    .agg(sum(col("amount")).alias("total"), avg(col("amount")).alias("avg"))
    .order_by(col("total"))
)
result.show()

Key Changes:

SparkSession → connect()
read.csv() → load.csv() or read.csv() (v0.8.0+ PySpark-style API)
filter() → where() (or use filter())
groupBy() → group_by() (or use groupBy())
orderBy() → order_by()
Column references in aggregations need col() wrapper

Example 2: Joins

PySpark:

df1 = spark.read.table("customers")
df2 = spark.read.table("orders")
result = df1.join(df2, df1.id == df2.customer_id, "left")

Moltres:

# Option 1: Original API
df1 = db.table("customers").select()
df2 = db.table("orders").select()

# Option 2: PySpark-style API (v0.8.0+)
df1 = db.read.table("customers")
df2 = db.read.table("orders")

result = df1.join(df2, on=[col("df1.id") == col("df2.customer_id")], how="left")

Key Changes:

read.table() → db.table().select() or db.read.table() (v0.8.0+)
Join condition syntax differs

Example 3: Updates

PySpark:

# Must use SQL
spark.sql("UPDATE customers SET active = 1 WHERE id = 1")

Moltres:

# DataFrame syntax
df = db.table("customers").select()
df.write.update("customers", where=col("id") == 1, set={"active": 1})

Key Changes:

Moltres provides DataFrame syntax for updates

15. Recommendations for Moltres

High Priority

Complete explode() SQL Compilation
- API is fully compatible, but SQL compilation needs table-valued function support
- Currently raises CompilationError for most dialects
- Priority: High for PostgreSQL, MySQL 8.0+
Add More File Format Support
- Consider ORC, Avro if there’s demand
- Focus on formats that map well to SQL

Medium Priority

Enhanced SQL Parser
- Current parser supports basic predicates
- Could add support for more complex operators (NOT, LIKE, BETWEEN, etc.)
- Would improve filter() with SQL strings
Improve Error Messages
- Add suggestions for common mistakes
- Better error messages when operations can’t be compiled to SQL
Add DataFrame Alias Support
- PySpark allows df.alias("name")
- Useful for self-joins and subqueries

Low Priority

Consider UDF Support (with caveats)
- Only if it can be done without breaking SQL pushdown
- Could compile Python functions to SQL where possible
- Mark as “experimental” or “limited”
Add More Aggregation Functions
- As SQL databases add support
- Focus on SQL-mappable functions
Improve Documentation
- Add more PySpark migration examples
- Side-by-side comparison examples
- Common patterns guide

16. Conclusion

Moltres successfully provides a PySpark-like DataFrame API that compiles to SQL, making it familiar for PySpark users while offering unique advantages:

Strengths of Moltres

✅ UPDATE/DELETE Operations: Unique DataFrame syntax for updates and deletes
✅ Async Support: Comprehensive async/await support
✅ SQL Pushdown: All operations compile to SQL and execute on database
✅ No Cluster Required: Works with traditional SQL databases
✅ Transaction Support: Full transaction context for operations
✅ Lightweight: Minimal dependencies, easy to deploy

Strengths of PySpark

✅ Distributed Computing: Cluster-based execution for very large datasets
✅ Machine Learning: MLlib integration
✅ Structured Streaming: Dedicated streaming API
✅ UDF Support: Python and Pandas UDFs
✅ More File Formats: ORC, Avro, Delta Lake, etc.
✅ Catalyst Optimizer: Advanced query optimization

When to Choose Each

Choose Moltres when:

Working with traditional SQL databases
Need UPDATE/DELETE operations with DataFrame syntax
Want SQL pushdown without a cluster
Require async/await support
Prefer lightweight, dependency-minimal solution
Working with datasets that fit in database memory/disk

Choose PySpark when:

Need distributed computing across clusters
Working with very large datasets requiring Spark’s optimizations
Need machine learning (MLlib) integration
Require structured streaming at scale
Working with Hadoop ecosystem
Need UDF support for complex transformations

Known Inconsistencies

Moltres has achieved 100% API compatibility with PySpark for core DataFrame operations (v0.16.0+). All previously identified inconsistencies have been fixed:

1. `order_by()` / `orderBy()` / `sort()` - String Parameter Support ✅ FIXED

Status: Fixed in v0.16.0 - Now accepts both strings and Column objects, matching PySpark behavior.

PySpark:

df.orderBy("name")  # ✅ Works
df.orderBy(col("name"))  # ✅ Works

Moltres (v0.16.0+):

df.order_by("name")  # ✅ Now works!
df.order_by(col("name"))  # ✅ Works
df.orderBy("name")  # ✅ PySpark-style alias works
df.sort("name")  # ✅ PySpark-style alias works

See: Moltres vs PySpark comparison for detailed analysis.

2. Window Functions Usage Pattern ✅ FIXED

Status: Fixed in v0.16.0 - Window functions now work in withColumn(), matching PySpark behavior.

PySpark:

df.withColumn("row_num", row_number().over(window))

Moltres (v0.16.0+):

# Works exactly the same - no changes needed!
df.withColumn("row_num", row_number().over(partition_by=col("category"), order_by=col("amount")))

Both also support window functions in select() for maximum flexibility.

3. `drop()` - Column Object Support ✅ FIXED

Status: Fixed in v0.16.0 - Now accepts both strings and Column objects, matching PySpark behavior.

Moltres (v0.16.0+):

df.drop("col1", "col2")  # ✅ Works
df.drop(col("col1"), col("col2"))  # ✅ Now works!
df.drop("col1", col("col2"))  # ✅ Mixed usage works

Final Thoughts

Moltres has achieved complete API compatibility with PySpark for core DataFrame operations. Recent updates have closed all gaps:

✅ 100% API compatibility for core DataFrame transformations
✅ All major methods match: select, filter, where, groupBy, orderBy, sort, withColumn, withColumnRenamed, saveAsTable
✅ Advanced features: pivot, explode, selectExpr, SQL string predicates, string aggregations
✅ Naming conventions: Both camelCase and snake_case supported throughout

The API similarity makes migration from PySpark straightforward, and the SQL pushdown execution model provides excellent performance for database-backed operations. The addition of UPDATE and DELETE operations with DataFrame syntax, along with comprehensive async support, provides unique advantages that PySpark lacks.

For teams working with SQL databases who want a DataFrame API without the overhead of a Spark cluster, Moltres is an excellent choice with near-complete PySpark compatibility.

Appendix: Method Comparison Tables

DataFrame Transformation Methods

Method	PySpark	Moltres	Notes
`select()`	✅	✅	Identical
`filter()`	✅	✅	Identical
`where()`	✅	✅	Alias for filter
`groupBy()`	✅	✅	Also `group_by()`
`orderBy()`	✅	✅	Also `order_by()`. Accepts both strings and Column objects
`sort()`	✅	✅	PySpark-style alias for `order_by()`. Accepts both strings and Column objects
`selectExpr()`	✅	✅	SQL expression strings in select
`join()`	✅	✅	Similar API
`union()`	✅	✅	Identical
`intersect()`	✅	✅	Identical
`except()`	✅	✅	Also `except_()`
`distinct()`	✅	✅	Identical
`dropDuplicates()`	✅	✅	Compatible (subset dedup matches PySpark)
`withColumn()`	✅	✅	Identical - add/replace columns
`withColumnRenamed()`	✅	✅	Identical
`drop()`	✅	✅	Identical - Accepts both strings and Column objects
`limit()`	✅	✅	Identical
`sample()`	✅	✅	Identical
`pivot()`	✅	✅	PySpark-style: `groupBy().pivot().agg()`
`explode()`	✅	✅	Function-based: `select(explode(col))`
`semi_join()`	✅	✅	Separate method in Moltres
`anti_join()`	✅	✅	Separate method in Moltres
`cte()`	❌	✅	Native CTE support
`recursive_cte()`	❌	✅	Native recursive CTE
`explain()`	✅	✅	Query plan analysis (v0.6.0+)
`to_sql()`	❌	✅	Get SQL string
`sample()`	✅	✅	Random sampling (v0.6.0+)
`na.drop()`	❌	✅	Null handling convenience (v0.6.0+)
`na.fill()`	❌	✅	Null handling convenience (v0.6.0+)
`describe()`	✅	✅	Statistical summary
`summary()`	✅	✅	Summary statistics

Action Methods

Method	PySpark	Moltres	Return Type
`collect()`	✅	✅	List[Row] vs List[dict]
`show()`	✅	✅	Prints rows
`count()`	✅	✅	int
`first()`	✅	✅	Row vs dict
`take()`	✅	✅	List[Row] vs List[dict]
`head()`	✅	✅	List[Row] vs List[dict]
`toPandas()`	✅	❌	N/A
`toPolars()`	❌	❌	N/A

Read Operations

Method	PySpark	Moltres	Notes
`read.csv()`	✅	✅ `load.csv()`	Returns DataFrame
`read.json()`	✅	✅ `load.json()`	Returns DataFrame
`read.parquet()`	✅	✅ `load.parquet()`	Returns DataFrame
`read.text()`	✅	✅ `load.text()`	Returns DataFrame
`read.jsonl()`	❌	✅ `load.jsonl()`	Moltres only
`read.table()`	✅	✅ `table().select()` or `read.table()` (v0.8.0+)	PySpark-style API in v0.8.0+
`sql()`	✅	✅ `db.sql()`	Raw SQL queries returning DataFrame

Write Operations

Method	PySpark	Moltres	Notes
`write.saveAsTable()`	✅	✅ `saveAsTable()` / `save_as_table()`	Both camelCase and snake_case
`write.insertInto()`	✅	✅ `insertInto()`	Identical
`write.csv()`	✅	✅	Identical
`write.json()`	✅	✅	Identical
`write.parquet()`	✅	✅	Identical
`write.jsonl()`	❌	✅	Moltres only
`write.update()`	❌	✅	Moltres only
`write.delete()`	❌	✅	Moltres only
`db.merge()`	❌	✅	MERGE/UPSERT (v0.5.0+)
`write.partitionBy()`	✅	✅ `partitionBy()`	Identical

Report generated: 2024 Moltres Version: 0.8.0+ PySpark Version: 3.x+

Changelog

Recent Updates (2024)

Major API Compatibility Improvements:

✅ Added selectExpr() - SQL expression strings in select (PySpark-compatible)
✅ Added select("*") - Explicit star syntax for all columns
✅ Added SQL string predicates in filter() and where() - df.filter("age > 18")
✅ Added string column names in agg() - df.group_by("cat").agg("amount") (defaults to sum)
✅ Added dictionary syntax in agg() - df.group_by("cat").agg({"amount": "sum", "price": "avg"})
✅ Added pivot() on groupBy() - PySpark-style chaining: df.group_by("cat").pivot("status").agg("amount")
✅ Added automatic pivot value inference (like PySpark)
✅ Added explode() function - PySpark-style: df.select(explode(col("array_col")))
✅ Added orderBy() and sort() aliases - PySpark-style camelCase
✅ Added saveAsTable() alias - PySpark-style camelCase
✅ Improved withColumn() - Now correctly handles both adding and replacing columns
✅ Added db.sql() - Raw SQL queries returning DataFrames (PySpark’s spark.sql())

Result: 100% API compatibility for core DataFrame operations (v0.16.0+)

Version 0.8.0 Updates

Added PySpark-style db.read.table() API
Added LazyRecords for db.read.records.* methods
Added lazy CRUD and DDL operations (require .collect())
Added transaction management with db.transaction()
Added batch operations with db.batch()

Version 0.7.0 Updates

Enhanced type safety and IDE support
Added database connection management (close() methods)
Improved cross-database compatibility

Version 0.6.0 Updates

Added null handling convenience methods (df.na.drop(), df.na.fill())
Added random sampling (df.sample())
Added query plan analysis (df.explain(), df.to_sql())
Added interval arithmetic functions (date_add(), date_sub())
Added join hints support
Added pivot operations

Version 0.5.0 Updates

Added compressed file reading (automatic gzip, bz2, xz detection)
Added array/JSON functions (json_extract(), array(), array_length(), etc.)
Added collect aggregations (collect_list(), collect_set())
Added semi-join and anti-join methods
Added MERGE/UPSERT operations