chore: bootstrap assistant platform baseline

2026-02-14 21:10:26 +01:00 · 2026-02-14 21:10:26 +01:00 · 912f8ebc56
commit 912f8ebc56
38 changed files with 6302 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@ -0,0 +1,28 @@
 # Python
 __pycache__/
 *.py[cod]
 *.so
 .venv/
 venv/
 # Env/secrets
 .env
 .env.*
 *.key
 *.pem
 # Local/runtime
 logs/
 *.log
 runs.db
 # OS/editor
 .DS_Store
 .vscode/
 .idea/
 # Build/temp
 build/
 dist/
 .tmp/
 tmp/
--- a/MESSAGES_RELEASE_FLOW.md
+++ b/MESSAGES_RELEASE_FLOW.md
@ -0,0 +1,27 @@
 # Messages Release Flow
 This flow creates a Nessie tag for `lake.db1.messages`, generates a manifest JSON, and appends a row to `lake.db1.releases_v2`.
 ## Run on lakehouse-core
 ```bash
 ssh niklas@lakehouse-core.rakeroots.lan 'cd /tmp/jecio && ./create-messages-release-via-spark-container.sh'
 ```
 ## Custom release name
 ```bash
 ssh niklas@lakehouse-core.rakeroots.lan 'cd /tmp/jecio && ./create-messages-release-via-spark-container.sh rel_2026-02-14_messages-v1'
 ```
 ## Outputs
 - Manifest file written to `./manifests/<release_name>.json`
 - Nessie tag `<release_name>` created at current `main` hash (or reused if already present)
 - Registry row appended to `lake.db1.releases_v2`
 ## Verify
 ```bash
 ssh niklas@lakehouse-core.rakeroots.lan "docker exec spark /opt/spark/bin/spark-sql --properties-file /opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf --packages 'org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5' -e \"SELECT release_name, table_identifier, snapshot_id, created_at_utc FROM lake.db1.releases_v2 WHERE table_identifier='lake.db1.messages' ORDER BY created_at_utc DESC LIMIT 10\""
 ```
--- a/MESSAGES_SCHEMA.md
+++ b/MESSAGES_SCHEMA.md
@ -0,0 +1,23 @@
 # Messages Schema
 Creates Iceberg table `lake.db1.messages` with ingest fields:
 - `thread_id` STRING
 - `message_id` STRING
 - `sender` STRING
 - `channel` STRING
 - `sent_at` TIMESTAMP
 - `body` STRING
 - `metadata_json` STRING
 ## Run on lakehouse-core
 ```bash
 ssh niklas@lakehouse-core.rakeroots.lan 'cd /tmp/jecio && ./create-messages-table-via-spark-container.sh'
 ```
 ## Verify
 ```bash
 ssh niklas@lakehouse-core.rakeroots.lan "docker exec spark /opt/spark/bin/spark-sql --properties-file /opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf --packages 'org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5' -e 'DESCRIBE TABLE lake.db1.messages'"
 ```
--- a/PROJECTOR_USAGE.md
+++ b/PROJECTOR_USAGE.md
@ -0,0 +1,142 @@
 # Release Projector
 `release_projector.py` rebuilds serving projections (JanusGraph + Elasticsearch) from a lakehouse release manifest.
 ## What it does
 1. Loads a release manifest JSON (or a `releases_v2` row containing `manifest_json`).
 2. Resolves Nessie tag/ref from the manifest (or `--nessie-ref`).
 3. Reads the concept Iceberg table from that ref through Spark + Iceberg + Nessie.
 4. Upserts each concept into JanusGraph and Elasticsearch.
 `release_projector.py` now accepts both concept-shaped rows and document-shaped rows.
 For docs tables, it auto-detects typical columns:
 - name: `canonical_name|title|name|subject`
 - id: `concept_id|doc_id|document_id|id|uuid`
 - summary text: `summary|description|abstract|content|text|body`
 ## Prerequisites
 - Python deps: `python-dotenv`, `httpx`, `gremlinpython`, `pyspark`
 - Spark/Iceberg/Nessie jars (default package coordinates are baked into script)
 - Network access to:
  - Nessie API (example: `http://lakehouse-core:19120/api/v2`)
  - MinIO S3 endpoint (example: `http://lakehouse-core:9000`)
  - JanusGraph Gremlin endpoint
  - Elasticsearch endpoint
 ## Recommended isolated env
 Do not install projector dependencies into system Python.
 ## Preferred: existing spark container on lakehouse-core
 This reuses your existing `spark` container and Spark properties file.
 Standard command (frozen):
 ```bash
 ./run-projector-standard.sh
 ```
 Run by release name (no manifest path):
 ```bash
 ./run-projector-standard.sh --release-name rel_2026-02-14_docs-v1
 ```
 Standard dry-run:
 ```bash
 ./run-projector-standard.sh --dry-run
 ```
 Copy files to host:
 ```bash
 rsync -av --delete /home/niklas/projects/jecio/ lakehouse-core.rakeroots.lan:/tmp/jecio/
 ```
 Run dry-run projection inside `spark` container:
 ```bash
 ssh lakehouse-core.rakeroots.lan 'cd /tmp/jecio && ./run-projector-via-spark-container.sh ./manifests/rel_2026-02-14_docs-v1.json lake.db1.docs --dry-run es'
 ```
 Run publish projection (writes Janus/ES):
 ```bash
 ssh lakehouse-core.rakeroots.lan 'cd /tmp/jecio && ./run-projector-standard.sh'
 ```
 `run-projector-via-spark-container.sh` uses:
 - container: `spark` (override with `SPARK_CONTAINER_NAME`)
 - properties file: `/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf` (override with `SPARK_PROPS`)
 - Spark packages: Iceberg + Nessie extensions (override with `SPARK_PACKAGES`)
 - arg4 `targets`: `es|gremlin|both` (default `both`)
 - arg5 `release_name`: optional; if set, loads manifest from `releases_v2`
 Direct projector usage:
 ```bash
 python3 release_projector.py --release-name rel_2026-02-14_docs-v1 --concept-table lake.db1.docs --targets es --dry-run
 python3 release_projector.py --release-name rel_2026-02-14_docs-v1 --concept-table lake.db1.docs --targets both
 python3 release_projector.py --manifest-file manifests/rel_2026-02-14_docs-v1.json --concept-table lake.db1.docs --targets es --dry-run
 python3 release_projector.py --manifest-file manifests/rel_2026-02-14_docs-v1.json --concept-table lake.db1.docs --targets both
 ```
 Local setup (fallback):
 ```bash
 ./setup_local_env.sh .venv-projector
 source .venv-projector/bin/activate
 ```
 Remote setup (fallback, venv on `lakehouse-core`):
 ```bash
 scp release_projector.py requirements-projector.txt manifests/rel_2026-02-14_docs-v1.json lakehouse-core.rakeroots.lan:/tmp/
 ssh lakehouse-core.rakeroots.lan 'python3 -m venv /tmp/jecio-projector-venv && /tmp/jecio-projector-venv/bin/pip install --upgrade pip && /tmp/jecio-projector-venv/bin/pip install -r /tmp/requirements-projector.txt'
 ```
 ## Required env vars (example)
 ```bash
 export NESSIE_URI=http://lakehouse-core:19120/api/v2
 export NESSIE_WAREHOUSE=s3a://lakehouse/warehouse
 export S3_ENDPOINT=http://lakehouse-core:9000
 export AWS_ACCESS_KEY_ID=minioadmin
 export AWS_SECRET_ACCESS_KEY=minioadmin
 export GREMLIN_URL=ws://janus.rakeroots.lan:8182/gremlin
 export ES_URL=http://janus.rakeroots.lan:9200
 export ES_INDEX=concepts
 ```
 ## Run
 ```bash
 /tmp/jecio-projector-venv/bin/python /tmp/release_projector.py \
  --manifest-file /tmp/rel_2026-02-14_docs-v1.json \
  --concept-table lake.db1.docs \
  --dry-run
 ```
 Or local:
 ```bash
 python3 release_projector.py \
  --manifest-file /path/to/release.json \
  --concept-table lake.db1.concepts
 ```
 If the manifest has a Nessie tag in fields like `nessie.tag`, you can omit `--nessie-ref`.
 Dry run:
 ```bash
 python3 release_projector.py \
  --manifest-file /path/to/release.json \
  --concept-table lake.db1.concepts \
  --dry-run
 ```
--- a/app.py
+++ b/app.py
--- a/connectivity_check.py
+++ b/connectivity_check.py
@ -0,0 +1,126 @@
 import os
 import sys
 import json
 import requests
 from dotenv import load_dotenv
 # Optional: only needed for Gremlin websocket test
 try:
    import websocket
    HAS_WEBSOCKET = True
 except ImportError:
    HAS_WEBSOCKET = False
 def ok(msg):
    print(f"[ OK ] {msg}")
 def fail(msg):
    print(f"[FAIL] {msg}")
 def load_env():
    load_dotenv()
    ok("Loaded .env file")
 def test_http(name, url, path="", method="GET", json_body=None):
    full_url = url.rstrip("/") + path
    try:
        resp = requests.request(
            method,
            full_url,
            json=json_body,
            timeout=5,
        )
        if resp.status_code < 400:
            ok(f"{name} reachable ({resp.status_code}) → {full_url}")
            return True
        else:
            fail(f"{name} error ({resp.status_code}) → {full_url}")
    except Exception as e:
        fail(f"{name} unreachable → {full_url} ({e})")
    return False
 def test_gremlin_ws(url):
    if not HAS_WEBSOCKET:
        fail("Gremlin test skipped (websocket-client not installed)")
        return False
    try:
        ws = websocket.create_connection(url, timeout=5)
        ws.close()
        ok(f"Gremlin websocket reachable → {url}")
        return True
    except Exception as e:
        fail(f"Gremlin websocket unreachable → {url} ({e})")
        return False
 def main():
    load_env()
    GREMLIN_URL = os.getenv("GREMLIN_URL", "ws://localhost:8182/gremlin")
    ES_URL = os.getenv("ES_URL", "http://localhost:9200")
    ES_INDEX = os.getenv("ES_INDEX", "concepts")
    IPFS_API = os.getenv("IPFS_API", "http://localhost:5001")
    OLLAMA_URL = os.getenv("OLLAMA_URL", "http://localhost:11434")
    OLLAMA_MODEL = os.getenv("OLLAMA_MODEL", "llama3.1:8b")
    OLLAMA_EMBED_MODEL = os.getenv("OLLAMA_EMBED_MODEL", "nomic-embed-text")
    print("\n=== Connectivity checks ===\n")
    # Gremlin
    test_gremlin_ws(GREMLIN_URL)
    # Elasticsearch root
    test_http("Elasticsearch", ES_URL)
    # Elasticsearch index existence
    test_http(
        "Elasticsearch index",
        ES_URL,
        path=f"/{ES_INDEX}",
        method="HEAD",
    )
    # IPFS (Kubo)
    test_http(
        "IPFS API",
        IPFS_API,
        path="/api/v0/version",
        method="POST",
    )
    # Ollama base
    test_http(
        "Ollama",
        OLLAMA_URL,
        path="/api/tags",
    )
    # Ollama model availability (best-effort)
    try:
        resp = requests.get(f"{OLLAMA_URL}/api/tags", timeout=5)
        models = [m["name"] for m in resp.json().get("models", [])]
        if OLLAMA_MODEL in models:
            ok(f"Ollama model available → {OLLAMA_MODEL}")
        else:
            fail(f"Ollama model NOT found → {OLLAMA_MODEL}")
        if OLLAMA_EMBED_MODEL in models:
            ok(f"Ollama embed model available → {OLLAMA_EMBED_MODEL}")
        else:
            fail(f"Ollama embed model NOT found → {OLLAMA_EMBED_MODEL}")
    except Exception as e:
        fail(f"Ollama model check failed ({e})")
    print("\n=== Done ===\n")
 if __name__ == "__main__":
    main()
--- a/create-messages-release-via-spark-container.sh
+++ b/create-messages-release-via-spark-container.sh
@ -0,0 +1,47 @@
 #!/usr/bin/env bash
 set -euo pipefail
 RELEASE_NAME="${1:-rel_$(date -u +%Y-%m-%d)_messages-v1}"
 TABLE="${MESSAGES_TABLE:-lake.db1.messages}"
 MANIFEST_LOCAL="${2:-./manifests/${RELEASE_NAME}.json}"
 DESCRIPTION="${RELEASE_DESCRIPTION:-Messages release for ${TABLE}}"
 CREATED_BY="${RELEASE_CREATED_BY:-${USER:-unknown}}"
 NESSIE_URI="${NESSIE_URI:-http://nessie:19120/api/v2}"
 RELEASES_TABLE="${RELEASES_TABLE:-lake.db1.releases_v2}"
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./create_release_manifest.py}"
 SCRIPT_REMOTE="/tmp/create_release_manifest.py"
 MANIFEST_REMOTE="/tmp/${RELEASE_NAME}.json"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "create_release_manifest.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 mkdir -p "$(dirname "$MANIFEST_LOCAL")"
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "$SCRIPT_REMOTE" \
      --release-name "$RELEASE_NAME" \
      --table "$TABLE" \
      --nessie-uri "$NESSIE_URI" \
      --manifest-out "$MANIFEST_REMOTE" \
      --description "$DESCRIPTION" \
      --created-by "$CREATED_BY" \
      --releases-table "$RELEASES_TABLE"
 docker cp "$CONTAINER_NAME":"$MANIFEST_REMOTE" "$MANIFEST_LOCAL"
 echo "[DONE] Saved manifest: $MANIFEST_LOCAL"
--- a/create-messages-table-via-spark-container.sh
+++ b/create-messages-table-via-spark-container.sh
@ -0,0 +1,35 @@
 #!/usr/bin/env bash
 set -euo pipefail
 # Creates Iceberg table for assistant message ingest.
 # Default table: lake.db1.messages
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 MESSAGES_TABLE="${MESSAGES_TABLE:-lake.db1.messages}"
 SQL="
 CREATE NAMESPACE IF NOT EXISTS lake.db1;
 CREATE TABLE IF NOT EXISTS ${MESSAGES_TABLE} (
  thread_id STRING,
  message_id STRING,
  sender STRING,
  channel STRING,
  sent_at TIMESTAMP,
  body STRING,
  metadata_json STRING
 )
 USING iceberg
 PARTITIONED BY (days(sent_at));
 "
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-sql \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    -e "$SQL"
--- a/create_release_manifest.py
+++ b/create_release_manifest.py
@ -0,0 +1,279 @@
 import argparse
 import hashlib
 import json
 import os
 import urllib.error
 import urllib.parse
 import urllib.request
 from datetime import datetime, timezone
 from pyspark.sql import SparkSession
 from pyspark.sql import types as T
 def now_iso() -> str:
    return datetime.now(timezone.utc).replace(microsecond=0).isoformat().replace('+00:00', 'Z')
 def http_json(method: str, url: str, payload: dict | None = None) -> dict:
    data = json.dumps(payload).encode("utf-8") if payload is not None else None
    req = urllib.request.Request(url, data=data, method=method)
    req.add_header("Content-Type", "application/json")
    with urllib.request.urlopen(req, timeout=30) as resp:
        body = resp.read().decode("utf-8")
        return json.loads(body) if body else {}
 def get_ref(nessie_uri: str, ref_name: str) -> dict | None:
    try:
        return http_json("GET", f"{nessie_uri.rstrip('/')}/trees/{urllib.parse.quote(ref_name, safe='')}")
    except urllib.error.HTTPError as e:
        if e.code == 404:
            return None
        raise
 def extract_ref_hash(ref_obj: dict) -> str:
    # Nessie responses can vary by endpoint/version:
    # - {"type":"BRANCH","name":"main","hash":"..."}
    # - {"reference":{"type":"BRANCH","name":"main","hash":"..."}}
    if isinstance(ref_obj.get("hash"), str) and ref_obj["hash"]:
        return ref_obj["hash"]
    reference = ref_obj.get("reference")
    if isinstance(reference, dict) and isinstance(reference.get("hash"), str) and reference["hash"]:
        return reference["hash"]
    raise KeyError("hash")
 def ensure_tag(nessie_uri: str, tag_name: str) -> dict:
    existing = get_ref(nessie_uri, tag_name)
    if existing is not None:
        return existing
    main_ref = http_json("GET", f"{nessie_uri.rstrip('/')}/trees/main")
    payload = {
        "type": "BRANCH",
        "name": "main",
        "hash": extract_ref_hash(main_ref),
    }
    query = urllib.parse.urlencode({"name": tag_name, "type": "TAG"})
    http_json("POST", f"{nessie_uri.rstrip('/')}/trees?{query}", payload)
    created = get_ref(nessie_uri, tag_name)
    if created is None:
        raise RuntimeError(f"Tag creation appeared to succeed but tag '{tag_name}' is not retrievable")
    return created
 def create_registry_table_if_missing(spark: SparkSession, releases_table: str) -> None:
    spark.sql(
        f"""
        CREATE TABLE IF NOT EXISTS {releases_table} (
          release_name STRING,
          ref_type STRING,
          ref_name STRING,
          ref_hash STRING,
          created_at_utc STRING,
          ingested_at_utc STRING,
          table_identifier STRING,
          snapshot_id BIGINT,
          metadata_location STRING,
          manifest_sha256 STRING,
          manifest_json STRING
        ) USING iceberg
        """
    )
 def _to_utc_datetime(value: str):
    # Accept ISO strings with 'Z' suffix.
    return datetime.fromisoformat(value.replace("Z", "+00:00")).astimezone(timezone.utc)
 def _convert_value_for_type(field: T.StructField, value):
    if value is None:
        return None
    dt = field.dataType
    if isinstance(dt, T.StringType):
        return str(value)
    if isinstance(dt, T.LongType):
        return int(value)
    if isinstance(dt, T.IntegerType):
        return int(value)
    if isinstance(dt, T.ShortType):
        return int(value)
    if isinstance(dt, T.ByteType):
        return int(value)
    if isinstance(dt, T.BooleanType):
        return bool(value)
    if isinstance(dt, T.FloatType):
        return float(value)
    if isinstance(dt, T.DoubleType):
        return float(value)
    if isinstance(dt, T.TimestampType):
        if isinstance(value, datetime):
            return value
        return _to_utc_datetime(str(value))
    if isinstance(dt, T.DateType):
        if isinstance(value, datetime):
            return value.date()
        return _to_utc_datetime(str(value)).date()
    # Leave unsupported/complex types as-is; Spark can still validate and fail clearly.
    return value
 def append_registry_row(
    spark: SparkSession,
    releases_table: str,
    release_name: str,
    ref_type: str,
    ref_name: str,
    ref_hash: str,
    created_at_utc: str,
    ingested_at_utc: str,
    table_identifier: str,
    snapshot_id: int,
    metadata_location: str,
    manifest_sha256: str,
    manifest_json: str,
    created_by: str,
    description: str,
 ) -> None:
    target_schema = spark.table(releases_table).schema
    base_values = {
        "release_name": release_name,
        "ref_type": ref_type,
        "ref_name": ref_name,
        "ref_hash": ref_hash,
        "created_at_utc": created_at_utc,
        "ingested_at_utc": ingested_at_utc,
        "table_identifier": table_identifier,
        "snapshot_id": int(snapshot_id),
        "metadata_location": metadata_location,
        "manifest_sha256": manifest_sha256,
        "manifest_json": manifest_json,
        "created_by": created_by,
        "description": description,
        "release_description": description,
    }
    row_values = []
    missing_required = []
    for field in target_schema.fields:
        name = field.name
        if name in base_values:
            value = _convert_value_for_type(field, base_values[name])
            row_values.append(value)
            continue
        if field.nullable:
            row_values.append(None)
            continue
        missing_required.append(name)
    if missing_required:
        raise RuntimeError(
            "Cannot append to registry table "
            f"{releases_table}. Missing required columns with no known mapping: {', '.join(missing_required)}"
        )
    df = spark.createDataFrame([tuple(row_values)], schema=target_schema)
    df.writeTo(releases_table).append()
 def main() -> None:
    p = argparse.ArgumentParser(description="Create a release tag + manifest + registry row for a table.")
    p.add_argument("--release-name", required=True)
    p.add_argument("--table", default="lake.db1.messages")
    p.add_argument("--nessie-uri", default=os.getenv("NESSIE_URI", "http://nessie:19120/api/v2"))
    p.add_argument("--manifest-out", required=True)
    p.add_argument("--description", default="Messages release")
    p.add_argument("--created-by", default=os.getenv("USER", "unknown"))
    p.add_argument("--releases-table", default=os.getenv("RELEASES_TABLE", "lake.db1.releases_v2"))
    p.add_argument("--skip-registry", action="store_true")
    args = p.parse_args()
    created_at = now_iso()
    tag_ref = ensure_tag(args.nessie_uri, args.release_name)
    ref_hash = extract_ref_hash(tag_ref)
    spark = SparkSession.builder.appName("create-release-manifest").getOrCreate()
    snap_row = spark.sql(
        f"SELECT snapshot_id FROM {args.table}.snapshots ORDER BY committed_at DESC LIMIT 1"
    ).collect()
    if not snap_row:
        raise RuntimeError(f"No snapshots found for table {args.table}")
    snapshot_id = int(snap_row[0]["snapshot_id"])
    meta_row = spark.sql(
        f"SELECT file AS metadata_location FROM {args.table}.metadata_log_entries ORDER BY timestamp DESC LIMIT 1"
    ).collect()
    if not meta_row:
        raise RuntimeError(f"No metadata log entries found for table {args.table}")
    metadata_location = str(meta_row[0]["metadata_location"])
    manifest = {
        "schema_version": "lakehouse-release-manifest/v1",
        "release": {
            "name": args.release_name,
            "created_at_utc": created_at,
            "created_by": args.created_by,
            "description": args.description,
        },
        "nessie": {
            "uri": args.nessie_uri,
            "ref": {
                "type": "tag",
                "name": args.release_name,
                "hash": ref_hash,
            },
        },
        "tables": [
            {
                "identifier": args.table,
                "format": "iceberg",
                "current_snapshot_id": snapshot_id,
                "metadata_location": metadata_location,
            }
        ],
    }
    manifest_json = json.dumps(manifest, ensure_ascii=False, indent=2)
    manifest_sha256 = hashlib.sha256(manifest_json.encode("utf-8")).hexdigest()
    os.makedirs(os.path.dirname(args.manifest_out) or ".", exist_ok=True)
    with open(args.manifest_out, "w", encoding="utf-8") as f:
        f.write(manifest_json)
    if not args.skip_registry:
        create_registry_table_if_missing(spark, args.releases_table)
        append_registry_row(
            spark=spark,
            releases_table=args.releases_table,
            release_name=args.release_name,
            ref_type="tag",
            ref_name=args.release_name,
            ref_hash=ref_hash,
            created_at_utc=created_at,
            ingested_at_utc=now_iso(),
            table_identifier=args.table,
            snapshot_id=snapshot_id,
            metadata_location=metadata_location,
            manifest_sha256=manifest_sha256,
            manifest_json=manifest_json,
            created_by=args.created_by,
            description=args.description,
        )
    print(f"[INFO] release_name={args.release_name}")
    print(f"[INFO] table={args.table}")
    print(f"[INFO] ref_hash={ref_hash}")
    print(f"[INFO] snapshot_id={snapshot_id}")
    print(f"[INFO] manifest_out={args.manifest_out}")
    if args.skip_registry:
        print("[INFO] registry=skipped")
    else:
        print(f"[INFO] registry_table={args.releases_table}")
 if __name__ == "__main__":
    main()
--- a/docker/projector/Dockerfile
+++ b/docker/projector/Dockerfile
@ -0,0 +1,21 @@
 FROM python:3.11-slim
 ENV DEBIAN_FRONTEND=noninteractive \
    PYTHONDONTWRITEBYTECODE=1 \
    PYTHONUNBUFFERED=1 \
    PIP_NO_CACHE_DIR=1 \
    SPARK_LOCAL_HOSTNAME=localhost \
    SPARK_LOCAL_IP=127.0.0.1
 RUN apt-get update \
    && apt-get install -y --no-install-recommends default-jre-headless ca-certificates \
    && rm -rf /var/lib/apt/lists/*
 WORKDIR /app
 COPY requirements-projector.txt /app/requirements-projector.txt
 RUN pip install --upgrade pip && pip install -r /app/requirements-projector.txt
 COPY release_projector.py /app/release_projector.py
 ENTRYPOINT ["python", "/app/release_projector.py"]
--- a/docker/projector/README.md
+++ b/docker/projector/README.md
@ -0,0 +1,41 @@
 # Projector Container
 Build on `lakehouse-core`:
 ```bash
 docker build -t jecio/release-projector:0.1 -f docker/projector/Dockerfile /tmp/jecio
 ```
 Dry-run:
 ```bash
 docker run --rm --network host \
  -e NESSIE_URI=http://lakehouse-core:19120/api/v2 \
  -e NESSIE_WAREHOUSE=s3a://lakehouse/warehouse \
  -e S3_ENDPOINT=http://lakehouse-core:9000 \
  -e AWS_ACCESS_KEY_ID=minioadmin \
  -e AWS_SECRET_ACCESS_KEY=minioadmin \
  -v /tmp:/work \
  jecio/release-projector:0.1 \
  --manifest-file /work/rel_2026-02-14_docs-v1.json \
  --concept-table lake.db1.docs \
  --dry-run
 ```
 Publish projection:
 ```bash
 docker run --rm --network host \
  -e NESSIE_URI=http://lakehouse-core:19120/api/v2 \
  -e NESSIE_WAREHOUSE=s3a://lakehouse/warehouse \
  -e S3_ENDPOINT=http://lakehouse-core:9000 \
  -e AWS_ACCESS_KEY_ID=minioadmin \
  -e AWS_SECRET_ACCESS_KEY=minioadmin \
  -e GREMLIN_URL=ws://janus.rakeroots.lan:8182/gremlin \
  -e ES_URL=http://janus.rakeroots.lan:9200 \
  -e ES_INDEX=concepts \
  -v /tmp:/work \
  jecio/release-projector:0.1 \
  --manifest-file /work/rel_2026-02-14_docs-v1.json \
  --concept-table lake.db1.docs
 ```
--- a/ingest-message-via-spark-container.sh
+++ b/ingest-message-via-spark-container.sh
@ -0,0 +1,56 @@
 #!/usr/bin/env bash
 set -euo pipefail
 TABLE="${1:-lake.db1.messages}"
 THREAD_ID="${2:-}"
 MESSAGE_ID="${3:-}"
 SENDER="${4:-}"
 CHANNEL="${5:-}"
 SENT_AT="${6:-}"
 BODY_B64="${7:-}"
 METADATA_B64="${8:-}"
 if [[ -z "$THREAD_ID" || -z "$MESSAGE_ID" || -z "$SENDER" || -z "$CHANNEL" || -z "$BODY_B64" ]]; then
  echo "Usage: $0 <table> <thread_id> <message_id> <sender> <channel> <sent_at_or_empty> <body_b64> <metadata_json_b64>" >&2
  exit 1
 fi
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 BODY="$(printf '%s' "$BODY_B64" | base64 -d)"
 METADATA_JSON="{}"
 if [[ -n "$METADATA_B64" ]]; then
  METADATA_JSON="$(printf '%s' "$METADATA_B64" | base64 -d)"
 fi
 sql_escape() {
  printf "%s" "$1" | sed "s/'/''/g"
 }
 THREAD_ID_ESC="$(sql_escape "$THREAD_ID")"
 MESSAGE_ID_ESC="$(sql_escape "$MESSAGE_ID")"
 SENDER_ESC="$(sql_escape "$SENDER")"
 CHANNEL_ESC="$(sql_escape "$CHANNEL")"
 BODY_ESC="$(sql_escape "$BODY")"
 METADATA_ESC="$(sql_escape "$METADATA_JSON")"
 if [[ -n "$SENT_AT" ]]; then
  SENT_AT_EXPR="TIMESTAMP '$(sql_escape "$SENT_AT")'"
 else
  SENT_AT_EXPR="current_timestamp()"
 fi
 SQL="INSERT INTO ${TABLE} (thread_id, message_id, sender, channel, sent_at, body, metadata_json) VALUES ('${THREAD_ID_ESC}', '${MESSAGE_ID_ESC}', '${SENDER_ESC}', '${CHANNEL_ESC}', ${SENT_AT_EXPR}, '${BODY_ESC}', '${METADATA_ESC}')"
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-sql \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    -e "$SQL"
 echo "[DONE] Inserted message_id=${MESSAGE_ID} thread_id=${THREAD_ID} into ${TABLE}"
--- a/ingest-messages-batch-via-spark-container.sh
+++ b/ingest-messages-batch-via-spark-container.sh
@ -0,0 +1,60 @@
 #!/usr/bin/env bash
 set -euo pipefail
 TABLE="${1:-lake.db1.messages}"
 DEDUPE_MODE="${2:-none}"
 PAYLOAD_B64="${3:-}"
 if [[ -z "$PAYLOAD_B64" ]]; then
  echo "Usage: $0 <table> <dedupe_mode:none|message_id|thread_message> <payload_b64_json_array|@/path/to/payload.json>" >&2
  exit 1
 fi
 if [[ "$DEDUPE_MODE" != "none" && "$DEDUPE_MODE" != "message_id" && "$DEDUPE_MODE" != "thread_message" ]]; then
  echo "Invalid dedupe_mode: $DEDUPE_MODE (expected none|message_id|thread_message)" >&2
  exit 1
 fi
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./ingest_messages_batch.py}"
 SCRIPT_REMOTE="/tmp/ingest_messages_batch.py"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "ingest_messages_batch.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 SPARK_ARGS=(
  --table "$TABLE"
  --dedupe-mode "$DEDUPE_MODE"
 )
 if [[ "${PAYLOAD_B64:0:1}" == "@" ]]; then
  PAYLOAD_FILE_HOST="${PAYLOAD_B64:1}"
  if [[ ! -f "$PAYLOAD_FILE_HOST" ]]; then
    echo "Payload file not found: $PAYLOAD_FILE_HOST" >&2
    exit 1
  fi
  PAYLOAD_FILE_REMOTE="/opt/spark/work-dir/ingest_messages_payload.json"
  docker cp "$PAYLOAD_FILE_HOST" "$CONTAINER_NAME":"$PAYLOAD_FILE_REMOTE"
  # Ensure spark user can read the file regardless of ownership from docker cp.
  docker exec -u 0 "$CONTAINER_NAME" /bin/sh -lc "chmod 644 '$PAYLOAD_FILE_REMOTE' || true"
  SPARK_ARGS+=(--payload-file "$PAYLOAD_FILE_REMOTE")
 else
  SPARK_ARGS+=(--payload-b64 "$PAYLOAD_B64")
 fi
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "$SCRIPT_REMOTE" \
      "${SPARK_ARGS[@]}"
--- a/ingest_messages_batch.py
+++ b/ingest_messages_batch.py
@ -0,0 +1,139 @@
 import argparse
 import base64
 import json
 from datetime import datetime, timezone
 from typing import Any, Dict, List
 from pyspark.sql import SparkSession, types as T
 def now_iso() -> str:
    return datetime.now(timezone.utc).isoformat()
 def decode_payload(payload_b64: str) -> List[Dict[str, Any]]:
    raw = base64.b64decode(payload_b64.encode("ascii")).decode("utf-8")
    data = json.loads(raw)
    if not isinstance(data, list):
        raise ValueError("Payload must decode to a JSON array")
    out: List[Dict[str, Any]] = []
    for i, row in enumerate(data):
        if not isinstance(row, dict):
            raise ValueError(f"Row {i} must be a JSON object")
        out.append(row)
    return out
 def normalize_rows(rows: List[Dict[str, Any]]) -> List[tuple]:
    norm: List[tuple] = []
    for i, r in enumerate(rows):
        thread_id = str(r.get("thread_id") or "").strip()
        message_id = str(r.get("message_id") or "").strip()
        sender = str(r.get("sender") or "").strip()
        channel = str(r.get("channel") or "").strip()
        body = str(r.get("body") or "").strip()
        if not thread_id or not message_id or not sender or not channel or not body:
            raise ValueError(
                f"Row {i} missing required fields. "
                "Required: thread_id, message_id, sender, channel, body"
            )
        sent_at_raw = r.get("sent_at")
        sent_at = str(sent_at_raw).strip() if sent_at_raw is not None else ""
        metadata = r.get("metadata", {})
        if not isinstance(metadata, dict):
            metadata = {}
        metadata_json = json.dumps(metadata, ensure_ascii=False, sort_keys=True)
        norm.append((thread_id, message_id, sender, channel, sent_at, body, metadata_json))
    return norm
 def main() -> None:
    p = argparse.ArgumentParser(description="Batch ingest messages into Iceberg table")
    p.add_argument("--table", required=True)
    p.add_argument(
        "--dedupe-mode",
        choices=["none", "message_id", "thread_message"],
        default="none",
        help="Optional dedupe strategy against existing target rows",
    )
    p.add_argument("--payload-b64")
    p.add_argument("--payload-file")
    args = p.parse_args()
    if not args.payload_b64 and not args.payload_file:
        raise ValueError("Provide either --payload-b64 or --payload-file")
    if args.payload_b64 and args.payload_file:
        raise ValueError("Provide only one of --payload-b64 or --payload-file")
    if args.payload_file:
        with open(args.payload_file, "r", encoding="utf-8") as f:
            file_data = json.load(f)
        if not isinstance(file_data, list):
            raise ValueError("--payload-file must contain a JSON array")
        rows = normalize_rows(file_data)
    else:
        rows = normalize_rows(decode_payload(args.payload_b64 or ""))
    if not rows:
        print("[INFO] No rows supplied; nothing to ingest.")
        return
    spark = SparkSession.builder.appName("ingest-messages-batch").getOrCreate()
    schema = T.StructType(
        [
            T.StructField("thread_id", T.StringType(), False),
            T.StructField("message_id", T.StringType(), False),
            T.StructField("sender", T.StringType(), False),
            T.StructField("channel", T.StringType(), False),
            T.StructField("sent_at_raw", T.StringType(), True),
            T.StructField("body", T.StringType(), False),
            T.StructField("metadata_json", T.StringType(), False),
        ]
    )
    df = spark.createDataFrame(rows, schema=schema)
    df.createOrReplaceTempView("_batch_messages")
    base_select = """
        SELECT
          b.thread_id,
          b.message_id,
          b.sender,
          b.channel,
          CASE
            WHEN b.sent_at_raw IS NULL OR TRIM(b.sent_at_raw) = '' THEN current_timestamp()
            ELSE CAST(b.sent_at_raw AS TIMESTAMP)
          END AS sent_at,
          b.body,
          b.metadata_json
        FROM _batch_messages b
    """
    if args.dedupe_mode == "none":
        insert_select = base_select
    elif args.dedupe_mode == "message_id":
        insert_select = (
            base_select
            + f" LEFT ANTI JOIN {args.table} t ON b.message_id = t.message_id"
        )
    else:
        insert_select = (
            base_select
            + f" LEFT ANTI JOIN {args.table} t ON b.thread_id = t.thread_id AND b.message_id = t.message_id"
        )
    spark.sql(
        f"""
        INSERT INTO {args.table} (thread_id, message_id, sender, channel, sent_at, body, metadata_json)
        {insert_select}
        """
    )
    print(f"[INFO] rows_in={len(rows)}")
    print(f"[INFO] dedupe_mode={args.dedupe_mode}")
    print(f"[INFO] table={args.table}")
    print(f"[INFO] ingested_at_utc={now_iso()}")
    print(f"[DONE] Batch ingest finished for {args.table}")
 if __name__ == "__main__":
    main()
--- a/manifests/rel_2026-02-14_docs-v1.json
+++ b/manifests/rel_2026-02-14_docs-v1.json
@ -0,0 +1,42 @@
 {
  "schema_version": "lakehouse-release-manifest/v1",
  "release": {
    "name": "rel_2026-02-14_docs-v1",
    "created_at_utc": "2026-02-14T09:48:38Z",
    "created_by": "niklas",
    "description": "First tagged release for lake.db1.docs"
  },
  "nessie": {
    "uri": "http://lakehouse-core:19120/api/v2",
    "ref": {
      "type": "tag",
      "name": "rel_2026-02-14_docs-v1",
      "hash": "1b16b4c4f6e99d43a27a21712aab319c1840a415f36bc6bebb2c9d2a89f09ef0"
    }
  },
  "warehouse": {
    "bucket": "lakehouse",
    "warehouse_path": "s3a://lakehouse/warehouse",
    "s3_endpoint": "http://lakehouse-core:9000",
    "region": "us-east-1"
  },
  "tables": [
    {
      "identifier": "lake.db1.docs",
      "format": "iceberg",
      "current_snapshot_id": 4212875880010474311,
      "metadata_location": "s3a://lakehouse/warehouse/db1/docs_2693aab9-54ea-43a8-892b-a922fdfc063a/metadata/00001-64f23fb4-2cb3-45c5-9c20-e6c91c9d73ef.metadata.json"
    }
  ],
  "projection": {
    "enabled": false,
    "projection_id": null,
    "targets": []
  },
  "artifacts": {
    "ipfs": {
      "pinned": false,
      "cid": null
    }
  }
 }
--- a/query-assistant-actions-via-spark-container.sh
+++ b/query-assistant-actions-via-spark-container.sh
@ -0,0 +1,39 @@
 #!/usr/bin/env bash
 set -euo pipefail
 STATUS="${1:-}"
 TASK_TYPE="${2:-}"
 RELEASE_NAME="${3:-}"
 STEP_ID="${4:-}"
 ACTION_TYPE="${5:-}"
 LIMIT="${6:-50}"
 ACTION_TABLE="${ACTION_TABLE:-lake.db1.assistant_actions}"
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./query_assistant_actions.py}"
 SCRIPT_REMOTE="/tmp/query_assistant_actions.py"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "query_assistant_actions.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "$SCRIPT_REMOTE" \
      --table "$ACTION_TABLE" \
      --status "$STATUS" \
      --task-type "$TASK_TYPE" \
      --release-name "$RELEASE_NAME" \
      --step-id "$STEP_ID" \
      --action-type "$ACTION_TYPE" \
      --limit "$LIMIT"
--- a/query-assistant-feedback-via-spark-container.sh
+++ b/query-assistant-feedback-via-spark-container.sh
@ -0,0 +1,35 @@
 #!/usr/bin/env bash
 set -euo pipefail
 OUTCOME="${1:-}"
 TASK_TYPE="${2:-}"
 RELEASE_NAME="${3:-}"
 LIMIT="${4:-50}"
 FEEDBACK_TABLE="${FEEDBACK_TABLE:-lake.db1.assistant_feedback}"
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./query_assistant_feedback.py}"
 SCRIPT_REMOTE="/tmp/query_assistant_feedback.py"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "query_assistant_feedback.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "$SCRIPT_REMOTE" \
      --table "$FEEDBACK_TABLE" \
      --outcome "$OUTCOME" \
      --task-type "$TASK_TYPE" \
      --release-name "$RELEASE_NAME" \
      --limit "$LIMIT"
--- a/query-assistant-metrics-via-spark-container.sh
+++ b/query-assistant-metrics-via-spark-container.sh
@ -0,0 +1,42 @@
 #!/usr/bin/env bash
 set -euo pipefail
 TASK_TYPE="${1:-}"
 RELEASE_NAME="${2:-}"
 OUTCOME="${3:-}"
 GROUP_BY="${4:-both}"
 LIMIT="${5:-100}"
 FEEDBACK_TABLE="${FEEDBACK_TABLE:-lake.db1.assistant_feedback}"
 if [[ "$GROUP_BY" != "task_type" && "$GROUP_BY" != "release_name" && "$GROUP_BY" != "both" ]]; then
  echo "Invalid group_by: $GROUP_BY (expected task_type|release_name|both)" >&2
  exit 1
 fi
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./query_assistant_metrics.py}"
 SCRIPT_REMOTE="/tmp/query_assistant_metrics.py"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "query_assistant_metrics.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "$SCRIPT_REMOTE" \
      --table "$FEEDBACK_TABLE" \
      --task-type "$TASK_TYPE" \
      --release-name "$RELEASE_NAME" \
      --outcome "$OUTCOME" \
      --group-by "$GROUP_BY" \
      --limit "$LIMIT"
--- a/query-imap-checkpoint-via-spark-container.sh
+++ b/query-imap-checkpoint-via-spark-container.sh
@ -0,0 +1,38 @@
 #!/usr/bin/env bash
 set -euo pipefail
 HOST="${1:-}"
 MAILBOX="${2:-}"
 USERNAME="${3:-}"
 TABLE="${4:-lake.db1.messages}"
 if [[ -z "$HOST" || -z "$MAILBOX" || -z "$USERNAME" ]]; then
  echo "Usage: $0 <host> <mailbox> <username> [table]" >&2
  exit 1
 fi
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./query_imap_checkpoint.py}"
 SCRIPT_REMOTE="/tmp/query_imap_checkpoint.py"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "query_imap_checkpoint.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "$SCRIPT_REMOTE" \
      --table "$TABLE" \
      --host "$HOST" \
      --mailbox "$MAILBOX" \
      --username "$USERNAME"
--- a/query_assistant_actions.py
+++ b/query_assistant_actions.py
@ -0,0 +1,45 @@
 import argparse
 import json
 import os
 from pyspark.sql import SparkSession
 from pyspark.sql import functions as F
 def main() -> None:
    p = argparse.ArgumentParser(description="Query assistant actions")
    p.add_argument("--table", default=os.getenv("ACTION_TABLE", "lake.db1.assistant_actions"))
    p.add_argument("--status", default="")
    p.add_argument("--task-type", default="")
    p.add_argument("--release-name", default="")
    p.add_argument("--step-id", default="")
    p.add_argument("--action-type", default="")
    p.add_argument("--limit", type=int, default=50)
    args = p.parse_args()
    spark = SparkSession.builder.appName("query-assistant-actions").getOrCreate()
    df = spark.table(args.table)
    if args.status:
        df = df.where(F.col("status") == args.status)
    if args.task_type:
        df = df.where(F.col("task_type") == args.task_type)
    if args.release_name:
        df = df.where(F.col("release_name") == args.release_name)
    if args.step_id:
        df = df.where(F.col("step_id") == args.step_id)
    if args.action_type:
        df = df.where(F.col("action_type") == args.action_type)
    rows = (
        df.orderBy(F.col("created_at_utc").desc_nulls_last())
        .limit(max(1, min(args.limit, 500)))
        .collect()
    )
    out = [r.asDict(recursive=True) for r in rows]
    print(json.dumps(out, ensure_ascii=False))
 if __name__ == "__main__":
    main()
--- a/query_assistant_feedback.py
+++ b/query_assistant_feedback.py
@ -0,0 +1,43 @@
 import argparse
 import json
 import os
 from pyspark.sql import SparkSession
 from pyspark.sql import functions as F
 def main() -> None:
    p = argparse.ArgumentParser(description="Query assistant feedback rows")
    p.add_argument("--table", default=os.getenv("FEEDBACK_TABLE", "lake.db1.assistant_feedback"))
    p.add_argument("--outcome", default="")
    p.add_argument("--task-type", default="")
    p.add_argument("--release-name", default="")
    p.add_argument("--limit", type=int, default=50)
    args = p.parse_args()
    spark = SparkSession.builder.appName("query-assistant-feedback").getOrCreate()
    df = spark.table(args.table)
    if args.outcome:
        df = df.where(F.col("outcome") == args.outcome)
    if args.task_type:
        df = df.where(F.col("task_type") == args.task_type)
    if args.release_name:
        df = df.where(F.col("release_name") == args.release_name)
    rows = (
        df.orderBy(F.col("created_at_utc").desc_nulls_last())
        .limit(max(1, min(args.limit, 500)))
        .collect()
    )
    out = []
    for r in rows:
        item = r.asDict(recursive=True)
        out.append(item)
    print(json.dumps(out, ensure_ascii=False))
 if __name__ == "__main__":
    main()
--- a/query_assistant_metrics.py
+++ b/query_assistant_metrics.py
@ -0,0 +1,57 @@
 import argparse
 import json
 import os
 from pyspark.sql import SparkSession
 from pyspark.sql import functions as F
 def main() -> None:
    p = argparse.ArgumentParser(description="Query assistant feedback metrics")
    p.add_argument("--table", default=os.getenv("FEEDBACK_TABLE", "lake.db1.assistant_feedback"))
    p.add_argument("--task-type", default="")
    p.add_argument("--release-name", default="")
    p.add_argument("--outcome", default="")
    p.add_argument("--group-by", choices=["task_type", "release_name", "both"], default="both")
    p.add_argument("--limit", type=int, default=100)
    args = p.parse_args()
    spark = SparkSession.builder.appName("query-assistant-metrics").getOrCreate()
    df = spark.table(args.table)
    if args.task_type:
        df = df.where(F.col("task_type") == args.task_type)
    if args.release_name:
        df = df.where(F.col("release_name") == args.release_name)
    if args.outcome:
        df = df.where(F.col("outcome") == args.outcome)
    if args.group_by == "task_type":
        group_cols = [F.col("task_type")]
    elif args.group_by == "release_name":
        group_cols = [F.col("release_name")]
    else:
        group_cols = [F.col("task_type"), F.col("release_name")]
    agg = (
        df.groupBy(*group_cols)
        .agg(
            F.count(F.lit(1)).alias("total"),
            F.sum(F.when(F.col("outcome") == "accepted", F.lit(1)).otherwise(F.lit(0))).alias("accepted"),
            F.sum(F.when(F.col("outcome") == "edited", F.lit(1)).otherwise(F.lit(0))).alias("edited"),
            F.sum(F.when(F.col("outcome") == "rejected", F.lit(1)).otherwise(F.lit(0))).alias("rejected"),
            F.avg(F.col("confidence")).alias("avg_confidence"),
        )
        .withColumn("accept_rate", F.when(F.col("total") > 0, F.col("accepted") / F.col("total")).otherwise(F.lit(0.0)))
        .withColumn("edit_rate", F.when(F.col("total") > 0, F.col("edited") / F.col("total")).otherwise(F.lit(0.0)))
        .withColumn("reject_rate", F.when(F.col("total") > 0, F.col("rejected") / F.col("total")).otherwise(F.lit(0.0)))
        .orderBy(F.col("total").desc(), *[c.asc() for c in group_cols])
        .limit(max(1, min(args.limit, 1000)))
    )
    rows = [r.asDict(recursive=True) for r in agg.collect()]
    print(json.dumps(rows, ensure_ascii=False))
 if __name__ == "__main__":
    main()
--- a/query_imap_checkpoint.py
+++ b/query_imap_checkpoint.py
@ -0,0 +1,43 @@
 import argparse
 import json
 import os
 from pyspark.sql import SparkSession
 from pyspark.sql import functions as F
 def main() -> None:
    p = argparse.ArgumentParser(description="Query latest IMAP UID checkpoint from messages table")
    p.add_argument("--table", default=os.getenv("MESSAGES_TABLE", "lake.db1.messages"))
    p.add_argument("--host", required=True)
    p.add_argument("--mailbox", required=True)
    p.add_argument("--username", required=True)
    args = p.parse_args()
    spark = SparkSession.builder.appName("query-imap-checkpoint").getOrCreate()
    df = spark.table(args.table)
    md = F.col("metadata_json")
    uid_col = F.get_json_object(md, "$.imap_uid")
    host_col = F.get_json_object(md, "$.host")
    mailbox_col = F.get_json_object(md, "$.mailbox")
    username_col = F.get_json_object(md, "$.username")
    filtered = (
        df.where(F.col("channel") == "email-imap")
        .where(host_col == args.host)
        .where(mailbox_col == args.mailbox)
        .where((username_col == args.username) | username_col.isNull() | (username_col == ""))
        .where(uid_col.isNotNull())
    )
    row = filtered.select(F.max(uid_col.cast("long")).alias("max_uid")).collect()
    max_uid = None
    if row and row[0]["max_uid"] is not None:
        max_uid = int(row[0]["max_uid"])
    print(json.dumps({"max_uid": max_uid}, ensure_ascii=False))
 if __name__ == "__main__":
    main()
--- a/record-assistant-action-via-spark-container.sh
+++ b/record-assistant-action-via-spark-container.sh
@ -0,0 +1,60 @@
 #!/usr/bin/env bash
 set -euo pipefail
 ACTION_TABLE="${ACTION_TABLE:-lake.db1.assistant_actions}"
 ACTION_ID="${1:-}"
 CREATED_AT_UTC="${2:-}"
 TASK_TYPE="${3:-}"
 RELEASE_NAME="${4:-}"
 OBJECTIVE_B64="${5:-}"
 STEP_ID="${6:-}"
 STEP_TITLE_B64="${7:-}"
 ACTION_TYPE="${8:-}"
 REQUIRES_APPROVAL="${9:-false}"
 APPROVED="${10:-false}"
 STATUS="${11:-}"
 OUTPUT_B64="${12:-}"
 ERROR_B64="${13:-}"
 if [[ -z "$ACTION_ID" || -z "$CREATED_AT_UTC" || -z "$TASK_TYPE" || -z "$STEP_ID" || -z "$ACTION_TYPE" || -z "$STATUS" ]]; then
  echo "Usage: $0 <action_id> <created_at_utc> <task_type> <release_name> <objective_b64> <step_id> <step_title_b64> <action_type> <requires_approval> <approved> <status> <output_b64> <error_b64>" >&2
  exit 1
 fi
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./write_assistant_action.py}"
 SCRIPT_REMOTE="/tmp/write_assistant_action.py"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "write_assistant_action.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "$SCRIPT_REMOTE" \
      --table "$ACTION_TABLE" \
      --action-id "$ACTION_ID" \
      --created-at-utc "$CREATED_AT_UTC" \
      --task-type "$TASK_TYPE" \
      --release-name "$RELEASE_NAME" \
      --objective-b64 "$OBJECTIVE_B64" \
      --step-id "$STEP_ID" \
      --step-title-b64 "$STEP_TITLE_B64" \
      --action-type "$ACTION_TYPE" \
      --requires-approval "$REQUIRES_APPROVAL" \
      --approved "$APPROVED" \
      --status "$STATUS" \
      --output-b64 "$OUTPUT_B64" \
      --error-b64 "$ERROR_B64"
 echo "[DONE] Recorded assistant action ${ACTION_ID} into ${ACTION_TABLE}"
--- a/record-assistant-feedback-via-spark-container.sh
+++ b/record-assistant-feedback-via-spark-container.sh
@ -0,0 +1,58 @@
 #!/usr/bin/env bash
 set -euo pipefail
 FEEDBACK_TABLE="${FEEDBACK_TABLE:-lake.db1.assistant_feedback}"
 FEEDBACK_ID="${1:-}"
 CREATED_AT_UTC="${2:-}"
 OUTCOME="${3:-}"
 TASK_TYPE="${4:-}"
 RELEASE_NAME="${5:-}"
 CONFIDENCE="${6:-0}"
 NEEDS_REVIEW="${7:-true}"
 GOAL_B64="${8:-}"
 DRAFT_B64="${9:-}"
 FINAL_B64="${10:-}"
 SOURCES_B64="${11:-}"
 NOTES_B64="${12:-}"
 if [[ -z "$FEEDBACK_ID" || -z "$CREATED_AT_UTC" || -z "$OUTCOME" || -z "$TASK_TYPE" ]]; then
  echo "Usage: $0 <feedback_id> <created_at_utc> <outcome> <task_type> <release_name> <confidence> <needs_review> <goal_b64> <draft_b64> <final_b64> <sources_b64> <notes_b64>" >&2
  exit 1
 fi
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./write_assistant_feedback.py}"
 SCRIPT_REMOTE="/tmp/write_assistant_feedback.py"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "write_assistant_feedback.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "$SCRIPT_REMOTE" \
      --table "$FEEDBACK_TABLE" \
      --feedback-id "$FEEDBACK_ID" \
      --created-at-utc "$CREATED_AT_UTC" \
      --outcome "$OUTCOME" \
      --task-type "$TASK_TYPE" \
      --release-name "$RELEASE_NAME" \
      --confidence "$CONFIDENCE" \
      --needs-review "$NEEDS_REVIEW" \
      --goal-b64 "$GOAL_B64" \
      --draft-b64 "$DRAFT_B64" \
      --final-b64 "$FINAL_B64" \
      --sources-b64 "$SOURCES_B64" \
      --notes-b64 "$NOTES_B64"
 echo "[DONE] Recorded assistant feedback ${FEEDBACK_ID} into ${FEEDBACK_TABLE}"
--- a/record-run-event-via-spark-container.sh
+++ b/record-run-event-via-spark-container.sh
@ -0,0 +1,67 @@
 #!/usr/bin/env bash
 set -euo pipefail
 # Args:
 # 1 run_id
 # 2 event_type
 # 3 event_at_utc
 # 4 detail_json_b64
 RUN_ID="${1:-}"
 EVENT_TYPE="${2:-}"
 EVENT_AT_UTC="${3:-}"
 DETAIL_JSON_B64="${4:-}"
 if [[ -z "$RUN_ID" || -z "$EVENT_TYPE" || -z "$EVENT_AT_UTC" ]]; then
  echo "usage: $0 <run_id> <event_type> <event_at_utc> <detail_json_b64>" >&2
  exit 1
 fi
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 RUN_EVENTS_TABLE="${RUN_EVENTS_TABLE:-lake.db1.run_events}"
 decode_b64() {
  local s="$1"
  if [[ -z "$s" ]]; then
    printf ""
    return
  fi
  printf '%s' "$s" | base64 -d
 }
 escape_sql() {
  sed "s/'/''/g"
 }
 DETAIL_JSON="$(decode_b64 "$DETAIL_JSON_B64" | escape_sql)"
 RUN_ID_ESC="$(printf '%s' "$RUN_ID" | escape_sql)"
 EVENT_TYPE_ESC="$(printf '%s' "$EVENT_TYPE" | escape_sql)"
 EVENT_AT_ESC="$(printf '%s' "$EVENT_AT_UTC" | escape_sql)"
 SQL="
 CREATE TABLE IF NOT EXISTS ${RUN_EVENTS_TABLE} (
  run_id STRING,
  event_type STRING,
  event_at_utc STRING,
  detail_json STRING,
  ingested_at_utc STRING
 ) USING iceberg;
 INSERT INTO ${RUN_EVENTS_TABLE} VALUES (
  '${RUN_ID_ESC}',
  '${EVENT_TYPE_ESC}',
  '${EVENT_AT_ESC}',
  '${DETAIL_JSON}',
  '${EVENT_AT_ESC}'
 );
 "
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-sql \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    -e "$SQL"
--- a/record-run-via-spark-container.sh
+++ b/record-run-via-spark-container.sh
@ -0,0 +1,92 @@
 #!/usr/bin/env bash
 set -euo pipefail
 # Args:
 # 1 run_id
 # 2 run_type
 # 3 status
 # 4 started_at_utc
 # 5 finished_at_utc (or empty)
 # 6 actor
 # 7 input_json_b64
 # 8 output_json_b64
 # 9 error_text_b64
 RUN_ID="${1:-}"
 RUN_TYPE="${2:-}"
 STATUS="${3:-}"
 STARTED_AT_UTC="${4:-}"
 FINISHED_AT_UTC="${5:-}"
 ACTOR="${6:-}"
 INPUT_JSON_B64="${7:-}"
 OUTPUT_JSON_B64="${8:-}"
 ERROR_TEXT_B64="${9:-}"
 if [[ -z "$RUN_ID" || -z "$RUN_TYPE" || -z "$STATUS" || -z "$STARTED_AT_UTC" ]]; then
  echo "usage: $0 <run_id> <run_type> <status> <started_at_utc> <finished_at_utc> <actor> <input_json_b64> <output_json_b64> <error_text_b64>" >&2
  exit 1
 fi
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 RUNS_TABLE="${RUNS_TABLE:-lake.db1.runs}"
 decode_b64() {
  local s="$1"
  if [[ -z "$s" ]]; then
    printf ""
    return
  fi
  printf '%s' "$s" | base64 -d
 }
 escape_sql() {
  sed "s/'/''/g"
 }
 INPUT_JSON="$(decode_b64 "$INPUT_JSON_B64" | escape_sql)"
 OUTPUT_JSON="$(decode_b64 "$OUTPUT_JSON_B64" | escape_sql)"
 ERROR_TEXT="$(decode_b64 "$ERROR_TEXT_B64" | escape_sql)"
 RUN_ID_ESC="$(printf '%s' "$RUN_ID" | escape_sql)"
 RUN_TYPE_ESC="$(printf '%s' "$RUN_TYPE" | escape_sql)"
 STATUS_ESC="$(printf '%s' "$STATUS" | escape_sql)"
 STARTED_ESC="$(printf '%s' "$STARTED_AT_UTC" | escape_sql)"
 FINISHED_ESC="$(printf '%s' "$FINISHED_AT_UTC" | escape_sql)"
 ACTOR_ESC="$(printf '%s' "$ACTOR" | escape_sql)"
 SQL="
 CREATE TABLE IF NOT EXISTS ${RUNS_TABLE} (
  run_id STRING,
  run_type STRING,
  status STRING,
  started_at_utc STRING,
  finished_at_utc STRING,
  actor STRING,
  input_json STRING,
  output_json STRING,
  error_text STRING,
  ingested_at_utc STRING
 ) USING iceberg;
 INSERT INTO ${RUNS_TABLE} VALUES (
  '${RUN_ID_ESC}',
  '${RUN_TYPE_ESC}',
  '${STATUS_ESC}',
  '${STARTED_ESC}',
  '${FINISHED_ESC}',
  '${ACTOR_ESC}',
  '${INPUT_JSON}',
  '${OUTPUT_JSON}',
  '${ERROR_TEXT}',
  '${STARTED_ESC}'
 );
 "
 docker exec \
  -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-sql \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    -e "$SQL"
--- a/release_projector.py
+++ b/release_projector.py
@ -0,0 +1,607 @@
 import argparse
 import hashlib
 import json
 import os
 import urllib.error
 import urllib.request
 from datetime import date, datetime, timezone
 from typing import Any, Dict, List, Optional
 try:
    from dotenv import load_dotenv
 except Exception:
    load_dotenv = None
 DEFAULT_SPARK_PACKAGES = (
    "org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,"
    "org.apache.iceberg:iceberg-aws-bundle:1.10.1,"
    "org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5"
 )
 def utc_now_iso() -> str:
    return datetime.now(timezone.utc).isoformat()
 def parse_json_maybe(value: Any, expected_type: type, fallback: Any) -> Any:
    if value is None:
        return fallback
    if isinstance(value, expected_type):
        return value
    if isinstance(value, str):
        try:
            parsed = json.loads(value)
            if isinstance(parsed, expected_type):
                return parsed
        except Exception:
            return fallback
    return fallback
 def first_str(row: Dict[str, Any], keys: List[str]) -> Optional[str]:
    for key in keys:
        val = row.get(key)
        if isinstance(val, str) and val.strip():
            return val.strip()
    return None
 def to_iso(value: Any) -> Optional[str]:
    if isinstance(value, datetime):
        return value.isoformat()
    if isinstance(value, date):
        return datetime.combine(value, datetime.min.time(), timezone.utc).isoformat()
    if isinstance(value, str) and value.strip():
        return value.strip()
    return None
 def make_fingerprint(name: str, kind: Optional[str], external_ids: Dict[str, str]) -> str:
    norm = (name or "").strip().lower()
    kind_norm = (kind or "").strip().lower()
    ext = "|".join(f"{k}:{v}".lower() for k, v in sorted(external_ids.items()))
    raw = f"{norm}|{kind_norm}|{ext}"
    return hashlib.sha256(raw.encode("utf-8")).hexdigest()
 def load_manifest(path: str) -> Dict[str, Any]:
    with open(path, "r", encoding="utf-8") as f:
        raw = json.load(f)
    if isinstance(raw, dict):
        manifest_json = raw.get("manifest_json")
        if isinstance(manifest_json, str):
            try:
                parsed = json.loads(manifest_json)
                if isinstance(parsed, dict):
                    return parsed
            except Exception:
                pass
        return raw
    if isinstance(raw, list) and raw and isinstance(raw[0], dict):
        manifest_json = raw[0].get("manifest_json")
        if isinstance(manifest_json, str):
            parsed = json.loads(manifest_json)
            if isinstance(parsed, dict):
                return parsed
    raise ValueError("Manifest file must contain a manifest object or releases_v2 row with manifest_json.")
 def infer_manifest_ref(manifest: Dict[str, Any]) -> Optional[str]:
    nessie = manifest.get("nessie")
    if isinstance(nessie, dict):
        ref_obj = nessie.get("ref")
        if isinstance(ref_obj, dict):
            ref_name = ref_obj.get("name")
            if isinstance(ref_name, str) and ref_name.strip():
                return ref_name.strip()
        tag = nessie.get("tag")
        if isinstance(tag, str) and tag.strip():
            return tag.strip()
    release_obj = manifest.get("release")
    if isinstance(release_obj, dict):
        release_name = release_obj.get("name")
        if isinstance(release_name, str) and release_name.strip():
            return release_name.strip()
    for key in ("nessie_tag", "tag", "release_name"):
        val = manifest.get(key)
        if isinstance(val, str) and val.strip():
            return val.strip()
    return None
 def extract_table_identifiers(manifest: Dict[str, Any]) -> List[str]:
    out: List[str] = []
    tables = manifest.get("tables")
    if isinstance(tables, list):
        for t in tables:
            if not isinstance(t, dict):
                continue
            ident = t.get("table_identifier") or t.get("identifier") or t.get("table")
            if isinstance(ident, str) and ident.strip():
                out.append(ident.strip())
    if out:
        return out
    rows = manifest.get("rows")
    if isinstance(rows, list):
        for row in rows:
            if not isinstance(row, dict):
                continue
            ident = row.get("table_identifier")
            if isinstance(ident, str) and ident.strip():
                out.append(ident.strip())
    return out
 def infer_concept_table(tables: List[str]) -> Optional[str]:
    for t in tables:
        lower = t.lower()
        if "concept" in lower:
            return t
    return tables[0] if tables else None
 def load_manifest_from_registry(
    spark: Any,
    catalog: str,
    release_name: str,
    releases_table: Optional[str] = None,
 ) -> Dict[str, Any]:
    from pyspark.sql import functions as F
    table = releases_table or os.getenv("RELEASES_TABLE", "db1.releases_v2")
    if table.count(".") == 1:
        table = f"{catalog}.{table}"
    row = (
        spark.table(table)
        .where(F.col("release_name") == release_name)
        .orderBy(F.col("ingested_at_utc").desc_nulls_last())
        .select("manifest_json")
        .limit(1)
        .collect()
    )
    if not row:
        raise ValueError(f"Release '{release_name}' not found in registry table {table}.")
    manifest_json = row[0]["manifest_json"]
    if not isinstance(manifest_json, str) or not manifest_json.strip():
        raise ValueError(f"Release '{release_name}' has empty manifest_json in {table}.")
    manifest = json.loads(manifest_json)
    if not isinstance(manifest, dict):
        raise ValueError(f"Release '{release_name}' manifest_json is not a JSON object.")
    return manifest
 def build_spark(ref: str):
    try:
        from pyspark.sql import SparkSession
    except Exception as e:
        raise RuntimeError(
            "pyspark is not installed. Install it or run this with spark-submit."
        ) from e
    catalog = os.getenv("SPARK_CATALOG", "lake")
    builder = (
        SparkSession.builder.appName("release-projector")
        .config(
            "spark.sql.extensions",
            "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions,"
            "org.projectnessie.spark.extensions.NessieSparkSessionExtensions",
        )
        .config("spark.jars.packages", os.getenv("SPARK_PACKAGES", DEFAULT_SPARK_PACKAGES))
        .config(f"spark.sql.catalog.{catalog}", "org.apache.iceberg.spark.SparkCatalog")
        .config(f"spark.sql.catalog.{catalog}.catalog-impl", "org.apache.iceberg.nessie.NessieCatalog")
        .config(f"spark.sql.catalog.{catalog}.uri", os.getenv("NESSIE_URI", "http://lakehouse-core:19120/api/v2"))
        .config(f"spark.sql.catalog.{catalog}.ref", ref)
        .config(
            f"spark.sql.catalog.{catalog}.warehouse",
            os.getenv("NESSIE_WAREHOUSE", "s3a://lakehouse/warehouse"),
        )
        .config(f"spark.sql.catalog.{catalog}.io-impl", "org.apache.iceberg.aws.s3.S3FileIO")
        .config("spark.hadoop.fs.s3a.endpoint", os.getenv("S3_ENDPOINT", "http://lakehouse-core:9000"))
        .config("spark.hadoop.fs.s3a.path.style.access", os.getenv("S3_PATH_STYLE", "true"))
        .config(
            "spark.hadoop.fs.s3a.access.key",
            os.getenv("AWS_ACCESS_KEY_ID", os.getenv("MINIO_ROOT_USER", "minioadmin")),
        )
        .config(
            "spark.hadoop.fs.s3a.secret.key",
            os.getenv("AWS_SECRET_ACCESS_KEY", os.getenv("MINIO_ROOT_PASSWORD", "minioadmin")),
        )
    )
    spark_master = os.getenv("SPARK_MASTER")
    if spark_master:
        builder = builder.master(spark_master)
    return builder.getOrCreate(), catalog
 def ensure_es_index(es_url: str, es_index: str) -> None:
    mapping = {
        "mappings": {
            "properties": {
                "concept_id": {"type": "keyword"},
                "concept_type": {"type": "keyword"},
                "display_name": {"type": "text"},
                "description": {"type": "text"},
                "text": {"type": "text"},
                "source_table": {"type": "keyword"},
                "source_pk": {"type": "keyword"},
                "release_name": {"type": "keyword"},
                "ref_hash": {"type": "keyword"},
                "attributes_json": {"type": "text"},
                "canonical_name": {"type": "text"},
                "kind": {"type": "keyword"},
                "aliases": {"type": "text"},
                "tags": {"type": "keyword"},
                "summary": {"type": "text"},
                "latest_cid": {"type": "keyword"},
                "fingerprint": {"type": "keyword"},
                "created_at": {"type": "date"},
                "updated_at": {"type": "date"},
            }
        }
    }
    url = f"{es_url.rstrip('/')}/{es_index}"
    req_get = urllib.request.Request(url, method="GET")
    try:
        with urllib.request.urlopen(req_get, timeout=30) as resp:
            if 200 <= resp.status < 300:
                return
    except urllib.error.HTTPError as e:
        if e.code != 404:
            raise
    body = json.dumps(mapping).encode("utf-8")
    req_put = urllib.request.Request(url, data=body, method="PUT")
    req_put.add_header("Content-Type", "application/json")
    with urllib.request.urlopen(req_put, timeout=30) as resp:
        if resp.status >= 400:
            raise RuntimeError(f"Failed to create ES index {es_index}: HTTP {resp.status}")
 def es_upsert(es_url: str, es_index: str, doc: Dict[str, Any]) -> None:
    url = f"{es_url.rstrip('/')}/{es_index}/_doc/{doc['concept_id']}"
    body = json.dumps(doc, default=str).encode("utf-8")
    req = urllib.request.Request(url, data=body, method="PUT")
    req.add_header("Content-Type", "application/json")
    with urllib.request.urlopen(req, timeout=30) as resp:
        if resp.status >= 400:
            raise RuntimeError(f"Failed ES upsert for {doc['concept_id']}: HTTP {resp.status}")
 def gremlin_upsert(gremlin_url: str, concept: Dict[str, Any]) -> None:
    from gremlin_python.driver import client as gremlin_client
    from gremlin_python.driver.serializer import GraphSONSerializersV3d0
    created_at = concept.get("created_at") or utc_now_iso()
    updated_at = concept.get("updated_at") or utc_now_iso()
    query = """
    g.V().hasLabel('Concept').has('concept_id', concept_id).fold()
      .coalesce(
        unfold(),
        addV('Concept').property('concept_id', concept_id).property('created_at', created_at)
      )
      .property('canonical_name', canonical_name)
      .property('kind', kind)
      .property('concept_type', concept_type)
      .property('display_name', display_name)
      .property('description', description)
      .property('text', text)
      .property('source_table', source_table)
      .property('source_pk', source_pk)
      .property('release_name', release_name)
      .property('ref_hash', ref_hash)
      .property('attributes_json', attributes_json)
      .property('aliases', aliases_json)
      .property('external_ids', external_ids_json)
      .property('tags', tags_json)
      .property('fingerprint', fingerprint)
      .property('latest_cid', latest_cid)
      .property('summary', summary)
      .property('updated_at', updated_at)
      .values('concept_id')
    """
    c = gremlin_client.Client(
        gremlin_url,
        "g",
        message_serializer=GraphSONSerializersV3d0(),
    )
    try:
        c.submit(
            query,
            {
                "concept_id": concept["concept_id"],
                "canonical_name": concept.get("canonical_name") or "",
                "kind": concept.get("kind") or "",
                "concept_type": concept.get("concept_type") or "",
                "display_name": concept.get("display_name") or "",
                "description": concept.get("description") or "",
                "text": concept.get("text") or "",
                "source_table": concept.get("source_table") or "",
                "source_pk": concept.get("source_pk") or "",
                "release_name": concept.get("release_name") or "",
                "ref_hash": concept.get("ref_hash") or "",
                "attributes_json": concept.get("attributes_json") or "{}",
                "aliases_json": json.dumps(concept.get("aliases", []), ensure_ascii=False),
                "external_ids_json": json.dumps(concept.get("external_ids", {}), ensure_ascii=False),
                "tags_json": json.dumps(concept.get("tags", []), ensure_ascii=False),
                "fingerprint": concept["fingerprint"],
                "latest_cid": concept.get("latest_cid") or "",
                "summary": concept.get("summary") or "",
                "created_at": created_at,
                "updated_at": updated_at,
            },
        ).all().result()
    finally:
        c.close()
 def _infer_concept_type(row: Dict[str, Any], source_table: Optional[str]) -> str:
    explicit = first_str(row, ["concept_type", "kind", "type"])
    if explicit:
        return explicit.lower()
    lower_table = (source_table or "").lower()
    if "messages" in lower_table:
        return "message"
    if "docs" in lower_table or "documents" in lower_table:
        return "document"
    if "message_id" in row:
        return "message"
    if "doc_id" in row or "document_id" in row:
        return "document"
    return "entity"
 def _source_pk(row: Dict[str, Any]) -> Optional[str]:
    return first_str(row, ["source_pk", "message_id", "doc_id", "document_id", "id", "uuid"])
 def row_to_concept(
    row: Dict[str, Any],
    source_table: Optional[str],
    release_name: Optional[str],
    ref_hash: Optional[str],
 ) -> Optional[Dict[str, Any]]:
    concept_type = _infer_concept_type(row, source_table)
    source_pk = _source_pk(row)
    display_name = first_str(
        row,
        [
            "display_name",
            "canonical_name",
            "title",
            "name",
            "subject",
            "doc_name",
            "document_name",
        ],
    )
    if not display_name and source_pk:
        display_name = f"{concept_type}:{source_pk}"
    if not display_name:
        display_name = first_str(row, ["body", "text", "content"])
        if display_name:
            display_name = display_name[:120]
    if not display_name:
        return None
    external_ids = parse_json_maybe(row.get("external_ids"), dict, {})
    aliases = parse_json_maybe(row.get("aliases"), list, [])
    tags = parse_json_maybe(row.get("tags"), list, [])
    kind = first_str(row, ["kind", "type", "doc_type", "document_type"]) or concept_type
    concept_id = first_str(row, ["concept_id", "doc_id", "document_id", "id", "uuid"])
    if not concept_id and source_pk:
        concept_id = f"{concept_type}:{source_pk}"
    if not isinstance(concept_id, str) or not concept_id.strip():
        concept_id = hashlib.sha256(
            f"{concept_type}|{display_name}|{json.dumps(external_ids, sort_keys=True)}".encode("utf-8")
        ).hexdigest()
    description = first_str(row, ["description", "summary", "abstract"])
    if not description:
        body = first_str(row, ["content", "text", "body"])
        if body:
            description = body[:512]
    text = first_str(row, ["text", "content", "body"])
    if not text:
        text = description
    # Keep typed attributes stable and searchable without exploding ES mapping.
    attributes_obj = row
    return {
        "concept_id": concept_id,
        "concept_type": concept_type,
        "display_name": display_name,
        "description": description,
        "text": text,
        "source_table": source_table,
        "source_pk": source_pk,
        "release_name": release_name,
        "ref_hash": ref_hash,
        "attributes_json": json.dumps(attributes_obj, ensure_ascii=False, default=str, sort_keys=True),
        "canonical_name": display_name,
        "kind": kind,
        "aliases": aliases,
        "external_ids": external_ids,
        "tags": tags,
        "latest_cid": first_str(row, ["latest_cid", "cid", "ipfs_cid"]),
        "summary": description,
        "created_at": to_iso(row.get("created_at")) or utc_now_iso(),
        "updated_at": to_iso(row.get("updated_at")) or utc_now_iso(),
        "fingerprint": make_fingerprint(display_name, concept_type, external_ids),
    }
 def project_release(
    manifest_file: Optional[str],
    release_name: Optional[str],
    concept_table: Optional[str],
    nessie_ref: Optional[str],
    releases_ref: Optional[str],
    dry_run: bool,
    targets: str,
 ) -> None:
    if not manifest_file and not release_name:
        raise ValueError("Provide either --manifest-file or --release-name.")
    manifest: Optional[Dict[str, Any]] = load_manifest(manifest_file) if manifest_file else None
    # Release-name mode: lookup manifest on registry ref (usually main), then project on release tag.
    if manifest is None and release_name:
        registry_ref = releases_ref or os.getenv("RELEASES_REF", "main")
        spark, catalog = build_spark(registry_ref)
        manifest = load_manifest_from_registry(spark, catalog, release_name)
        ref = nessie_ref or infer_manifest_ref(manifest) or release_name
        if ref != registry_ref:
            spark.stop()
            spark, catalog = build_spark(ref)
    else:
        ref = nessie_ref or (infer_manifest_ref(manifest) if manifest else None) or release_name
        if not ref:
            raise ValueError("Unable to infer Nessie ref/tag; pass --nessie-ref explicitly.")
        spark, catalog = build_spark(ref)
    table_identifiers: List[str] = extract_table_identifiers(manifest) if manifest else []
    table = concept_table or (infer_concept_table(table_identifiers) if manifest else None)
    if not table:
        raise ValueError("Unable to infer concept table; pass --concept-table explicitly.")
    if table.count(".") == 1:
        table = f"{catalog}.{table}"
    print(f"[INFO] Using Nessie ref/tag: {ref}")
    print(f"[INFO] Reading table: {table}")
    release_name_effective = None
    ref_hash = None
    if manifest:
        rel = manifest.get("release")
        if isinstance(rel, dict):
            rel_name = rel.get("name")
            if isinstance(rel_name, str) and rel_name.strip():
                release_name_effective = rel_name.strip()
        nes = manifest.get("nessie")
        if isinstance(nes, dict):
            ref_obj = nes.get("ref")
            if isinstance(ref_obj, dict):
                h = ref_obj.get("hash")
                if isinstance(h, str) and h.strip():
                    ref_hash = h.strip()
    if not release_name_effective and release_name and isinstance(release_name, str) and release_name.strip():
        release_name_effective = release_name.strip()
    df = spark.table(table)
    rows = [r.asDict(recursive=True) for r in df.collect()]
    concepts = [c for c in (row_to_concept(r, table, release_name_effective, ref_hash) for r in rows) if c]
    print(f"[INFO] Read {len(rows)} rows, {len(concepts)} valid concepts")
    print("[STEP] spark_read_done")
    if dry_run:
        print("[INFO] Dry-run enabled. No writes performed.")
        return
    use_es = targets in ("both", "es")
    use_gremlin = targets in ("both", "gremlin")
    print(f"[INFO] Projection targets: {targets}")
    gremlin_url = os.getenv("GREMLIN_URL", "ws://localhost:8182/gremlin")
    es_url = os.getenv("ES_URL", "http://localhost:9200")
    es_index = os.getenv("ES_INDEX", "concepts")
    if use_es:
        ensure_es_index(es_url, es_index)
    success = 0
    failures = 0
    gremlin_missing = False
    es_missing = False
    for concept in concepts:
        try:
            wrote_any = False
            if use_gremlin and not gremlin_missing:
                try:
                    gremlin_upsert(gremlin_url, concept)
                    wrote_any = True
                except ModuleNotFoundError as e:
                    gremlin_missing = True
                    print(f"[WARN] Gremlin dependency missing ({e}). Continuing with ES only.")
                except Exception as e:
                    print(f"[WARN] Gremlin upsert failed for {concept.get('concept_id')}: {e}")
            if use_es and not es_missing:
                try:
                    es_upsert(es_url, es_index, concept)
                    wrote_any = True
                except ModuleNotFoundError as e:
                    es_missing = True
                    print(f"[WARN] ES dependency missing ({e}). Continuing with Gremlin only.")
                except Exception as e:
                    print(f"[WARN] ES upsert failed for {concept.get('concept_id')}: {e}")
            if wrote_any:
                success += 1
            else:
                failures += 1
                print(f"[WARN] No projection target succeeded for {concept.get('concept_id')}")
        except Exception as e:
            failures += 1
            print(f"[WARN] Failed concept {concept.get('concept_id')}: {e}")
    print("[STEP] projection_done")
    print(f"[DONE] Projected {success} concepts ({failures} failed)")
 def parse_args() -> argparse.Namespace:
    p = argparse.ArgumentParser(description="Project a lakehouse release into JanusGraph + Elasticsearch.")
    p.add_argument("--manifest-file", help="Path to release manifest JSON")
    p.add_argument("--release-name", help="Release name to load from releases_v2 registry")
    p.add_argument("--concept-table", help="Full Iceberg table identifier holding concepts")
    p.add_argument("--nessie-ref", help="Nessie branch/tag to read from (defaults to manifest tag)")
    p.add_argument("--releases-ref", help="Nessie ref used to read releases_v2 (default: main)")
    p.add_argument(
        "--targets",
        choices=["es", "gremlin", "both"],
        default="both",
        help="Projection targets to write (default: both)",
    )
    p.add_argument("--dry-run", action="store_true", help="Read and validate only")
    return p.parse_args()
 def main() -> None:
    if load_dotenv is not None:
        load_dotenv()
    args = parse_args()
    project_release(
        manifest_file=args.manifest_file,
        release_name=args.release_name,
        concept_table=args.concept_table,
        nessie_ref=args.nessie_ref,
        releases_ref=args.releases_ref,
        dry_run=args.dry_run,
        targets=args.targets,
    )
 if __name__ == "__main__":
    main()
--- a/requirements-app.txt
+++ b/requirements-app.txt
@ -0,0 +1,8 @@
 fastapi>=0.115,<1.0
 uvicorn[standard]>=0.32,<1.0
 pydantic>=2.9,<3.0
 httpx>=0.28,<1.0
 gremlinpython>=3.7,<4.0
 python-dotenv>=1.0,<2.0
 requests>=2.32,<3.0
 websocket-client>=1.8,<2.0
--- a/requirements-projector.txt
+++ b/requirements-projector.txt
@ -0,0 +1,4 @@
 pyspark==3.5.8
 python-dotenv>=1.0,<2.0
 httpx>=0.28,<1.0
 gremlinpython>=3.7,<4.0
--- a/run-projector-standard.sh
+++ b/run-projector-standard.sh
@ -0,0 +1,67 @@
 #!/usr/bin/env bash
 set -euo pipefail
 # Canonical projector command for lakehouse-core.
 # Usage:
 #   ./run-projector-standard.sh                 # publish (both targets)
 #   ./run-projector-standard.sh --dry-run       # validate only
 #   ./run-projector-standard.sh --targets es    # ES-only publish
 #   ./run-projector-standard.sh --release-name rel_2026-02-14_docs-v1
 MANIFEST_FILE="${MANIFEST_FILE:-./manifests/rel_2026-02-14_docs-v1.json}"
 CONCEPT_TABLE="${CONCEPT_TABLE:-lake.db1.docs}"
 TARGETS="${TARGETS:-both}"
 RELEASE_NAME="${RELEASE_NAME:-}"
 MODE=""
 while [[ $# -gt 0 ]]; do
  case "$1" in
    --dry-run)
      MODE="--dry-run"
      shift
      ;;
    --targets)
      TARGETS="${2:-}"
      if [[ -z "$TARGETS" ]]; then
        echo "--targets requires one of: es|gremlin|both" >&2
        exit 1
      fi
      shift 2
      ;;
    --manifest-file)
      MANIFEST_FILE="${2:-}"
      if [[ -z "$MANIFEST_FILE" ]]; then
        echo "--manifest-file requires a value" >&2
        exit 1
      fi
      shift 2
      ;;
    --release-name)
      RELEASE_NAME="${2:-}"
      if [[ -z "$RELEASE_NAME" ]]; then
        echo "--release-name requires a value" >&2
        exit 1
      fi
      shift 2
      ;;
    --concept-table)
      CONCEPT_TABLE="${2:-}"
      if [[ -z "$CONCEPT_TABLE" ]]; then
        echo "--concept-table requires a value" >&2
        exit 1
      fi
      shift 2
      ;;
    *)
      echo "Unknown argument: $1" >&2
      exit 1
      ;;
  esac
 done
 if [[ "$TARGETS" != "es" && "$TARGETS" != "gremlin" && "$TARGETS" != "both" ]]; then
  echo "Invalid --targets value: $TARGETS (expected es|gremlin|both)" >&2
  exit 1
 fi
 ./run-projector-via-spark-container.sh "$MANIFEST_FILE" "$CONCEPT_TABLE" "$MODE" "$TARGETS" "$RELEASE_NAME"
--- a/run-projector-via-spark-container.sh
+++ b/run-projector-via-spark-container.sh
@ -0,0 +1,63 @@
 #!/usr/bin/env bash
 set -euo pipefail
 MANIFEST_FILE="${1:-/tmp/rel_2026-02-14_docs-v1.json}"
 CONCEPT_TABLE="${2:-lake.db1.docs}"
 MODE="${3:-}"
 TARGETS="${4:-both}"
 RELEASE_NAME="${5:-${RELEASE_NAME:-}}"
 CONTAINER_NAME="${SPARK_CONTAINER_NAME:-spark}"
 SPARK_PROPS="${SPARK_PROPS:-/opt/lakehouse/spark-conf/lakehouse-spark-defaults.conf}"
 PACKAGES="${SPARK_PACKAGES:-org.apache.iceberg:iceberg-spark-runtime-3.5_2.12:1.10.1,org.apache.iceberg:iceberg-aws-bundle:1.10.1,org.projectnessie.nessie-integrations:nessie-spark-extensions-3.5_2.12:0.104.5}"
 SCRIPT_LOCAL="${SCRIPT_LOCAL:-./release_projector.py}"
 SCRIPT_REMOTE="/tmp/release_projector.py"
 MANIFEST_REMOTE="/tmp/$(basename "$MANIFEST_FILE")"
 if [[ ! -f "$SCRIPT_LOCAL" ]]; then
  echo "release_projector.py not found at: $SCRIPT_LOCAL" >&2
  exit 1
 fi
 if [[ -z "$RELEASE_NAME" && ! -f "$MANIFEST_FILE" ]]; then
  echo "manifest file not found: $MANIFEST_FILE (or provide release name arg5)" >&2
  exit 1
 fi
 docker cp "$SCRIPT_LOCAL" "$CONTAINER_NAME":"$SCRIPT_REMOTE"
 if [[ -f "$MANIFEST_FILE" ]]; then
  docker cp "$MANIFEST_FILE" "$CONTAINER_NAME":"$MANIFEST_REMOTE"
 fi
 ARGS=(
  "$SCRIPT_REMOTE"
  "--concept-table" "$CONCEPT_TABLE"
  "--targets" "$TARGETS"
 )
 if [[ -n "$RELEASE_NAME" ]]; then
  ARGS+=("--release-name" "$RELEASE_NAME")
 else
  ARGS+=("--manifest-file" "$MANIFEST_REMOTE")
 fi
 if [[ -n "$MODE" ]]; then
  ARGS+=("$MODE")
 fi
 docker exec -e AWS_REGION="${AWS_REGION:-us-east-1}" \
  -e AWS_DEFAULT_REGION="${AWS_DEFAULT_REGION:-us-east-1}" \
  -e NESSIE_URI="${NESSIE_URI:-http://lakehouse-core:19120/api/v2}" \
  -e NESSIE_WAREHOUSE="${NESSIE_WAREHOUSE:-s3a://lakehouse/warehouse}" \
  -e S3_ENDPOINT="${S3_ENDPOINT:-http://lakehouse-core:9000}" \
  -e AWS_ACCESS_KEY_ID="${AWS_ACCESS_KEY_ID:-minioadmin}" \
  -e AWS_SECRET_ACCESS_KEY="${AWS_SECRET_ACCESS_KEY:-minioadmin}" \
  -e GREMLIN_URL="${GREMLIN_URL:-ws://janus.rakeroots.lan:8182/gremlin}" \
  -e ES_URL="${ES_URL:-http://janus.rakeroots.lan:9200}" \
  -e ES_INDEX="${ES_INDEX:-concepts}" \
  "$CONTAINER_NAME" \
  /opt/spark/bin/spark-submit \
    --properties-file "$SPARK_PROPS" \
    --packages "$PACKAGES" \
    "${ARGS[@]}"
--- a/setup_local_env.sh
+++ b/setup_local_env.sh
@ -0,0 +1,11 @@
 #!/usr/bin/env bash
 set -euo pipefail
 VENV_DIR="${1:-.venv}"
 python3 -m venv "$VENV_DIR"
 "$VENV_DIR/bin/pip" install --upgrade pip
 "$VENV_DIR/bin/pip" install -r requirements-app.txt -r requirements-projector.txt
 echo "Environment ready: $VENV_DIR"
 echo "Activate with: source $VENV_DIR/bin/activate"
--- a/ui/assets/app.js
+++ b/ui/assets/app.js
@ -0,0 +1,215 @@
 function getConfig() {
  return {
    apiKey: document.getElementById("apiKey").value.trim(),
    releaseName: document.getElementById("releaseName").value.trim(),
  };
 }
 function saveConfig() {
  const cfg = getConfig();
  cfg.chatSessionId = document.getElementById("chatSessionId").value.trim();
  localStorage.setItem("assistant_ui_cfg", JSON.stringify(cfg));
 }
 function loadConfig() {
  try {
    const raw = localStorage.getItem("assistant_ui_cfg");
    if (!raw) return;
    const cfg = JSON.parse(raw);
    document.getElementById("apiKey").value = cfg.apiKey || "";
    document.getElementById("releaseName").value = cfg.releaseName || "";
    document.getElementById("chatSessionId").value = cfg.chatSessionId || "main";
  } catch (_) {}
 }
 async function apiGet(path, params) {
  const cfg = getConfig();
  const url = new URL(path, window.location.origin);
  Object.entries(params || {}).forEach(([k, v]) => {
    if (v !== null && v !== undefined && String(v).length > 0) url.searchParams.set(k, String(v));
  });
  const r = await fetch(url, {
    headers: { "X-Admin-Api-Key": cfg.apiKey },
  });
  if (!r.ok) throw new Error(await r.text());
  return r.json();
 }
 async function apiPost(path, payload) {
  const cfg = getConfig();
  const r = await fetch(path, {
    method: "POST",
    headers: {
      "Content-Type": "application/json",
      "X-Admin-Api-Key": cfg.apiKey,
    },
    body: JSON.stringify(payload),
  });
  if (!r.ok) throw new Error(await r.text());
  return r.json();
 }
 function renderRows(target, rows, formatter) {
  target.innerHTML = "";
  if (!rows || rows.length === 0) {
    target.innerHTML = '<div class="row">No rows.</div>';
    return;
  }
  rows.forEach((row) => {
    const el = document.createElement("div");
    el.className = "row";
    el.innerHTML = formatter(row);
    target.appendChild(el);
  });
 }
 async function loadInbox() {
  const cfg = getConfig();
  const q = document.getElementById("inboxQuery").value.trim();
  const out = document.getElementById("inboxResults");
  out.innerHTML = '<div class="row">Loading...</div>';
  try {
    const data = await apiGet("/assistant/inbox", { release_name: cfg.releaseName, q, limit: 20 });
    renderRows(out, data.rows || [], (r) => {
      const text = (r.text || r.summary || r.description || "").slice(0, 280);
      return `
        <div><strong>${r.display_name || r.concept_id || "message"}</strong></div>
        <div>${text || "(no text)"}</div>
        <div class="meta">${r.source_pk || ""} | ${r.release_name || ""}</div>
      `;
    });
  } catch (e) {
    out.innerHTML = `<div class="row">Error: ${String(e)}</div>`;
  }
 }
 async function loadTasks() {
  const cfg = getConfig();
  const onlyPending = document.getElementById("onlyPending").checked;
  const out = document.getElementById("taskResults");
  out.innerHTML = '<div class="row">Loading...</div>';
  try {
    const data = await apiGet("/assistant/tasks", {
      release_name: cfg.releaseName,
      only_pending: onlyPending,
      limit: 30,
    });
    renderRows(out, data.rows || [], (r) => {
      const safeTodo = (r.todo || "").replace(/"/g, "&quot;");
      return `
        <div><strong>${r.todo || "(empty task)"}</strong></div>
        <div class="meta">status=${r.status} | due=${r.due_hint || "-"} | who=${r.who || "-"}</div>
        <div class="meta">source=${r.source_pk || ""} | release=${r.release_name || ""}</div>
        <div style="margin-top:6px"><button data-goal="${safeTodo}" class="use-goal">Use as goal</button></div>
      `;
    });
    document.querySelectorAll(".use-goal").forEach((btn) => {
      btn.addEventListener("click", () => {
        const goal = btn.getAttribute("data-goal") || "";
        document.getElementById("goalText").value = goal;
      });
    });
  } catch (e) {
    out.innerHTML = `<div class="row">Error: ${String(e)}</div>`;
  }
 }
 async function makeDraft() {
  const cfg = getConfig();
  const goal = document.getElementById("goalText").value.trim();
  const recipient = document.getElementById("recipient").value.trim();
  const out = document.getElementById("draftOutput");
  if (!goal) {
    out.textContent = "Provide goal text first.";
    return;
  }
  out.textContent = "Generating...";
  try {
    const data = await apiPost("/assistant/draft", {
      task_type: "message",
      goal,
      recipient: recipient || null,
      tone: "friendly-professional",
      constraints: ["keep it concise"],
      release_name: cfg.releaseName || null,
      max_sources: 5,
    });
    const sourceLine = (data.sources || []).map((s) => s.concept_id).filter(Boolean).slice(0, 5).join(", ");
    out.textContent = `${data.draft || ""}\n\nconfidence=${data.confidence}\nneeds_review=${data.needs_review}\nsources=${sourceLine}`;
  } catch (e) {
    out.textContent = `Error: ${String(e)}`;
  }
 }
 async function saveLearn() {
  const cfg = getConfig();
  const title = document.getElementById("learnTitle").value.trim();
  const tags = document.getElementById("learnTags").value
    .split(",")
    .map((x) => x.trim())
    .filter(Boolean);
  const text = document.getElementById("learnText").value.trim();
  const out = document.getElementById("learnOutput");
  if (!text) {
    out.textContent = "Provide note text first.";
    return;
  }
  out.textContent = "Saving...";
  try {
    const data = await apiPost("/assistant/learn", {
      text,
      title: title || null,
      tags,
      release_name: cfg.releaseName || null,
    });
    out.textContent = `saved=${data.stored}\nconcept_id=${data.concept_id}\ntitle=${data.title}`;
    document.getElementById("learnText").value = "";
  } catch (e) {
    out.textContent = `Error: ${String(e)}`;
  }
 }
 function appendChat(role, text, meta) {
  const target = document.getElementById("chatTranscript");
  const el = document.createElement("div");
  el.className = "row";
  el.innerHTML = `
    <div><strong>${role}</strong></div>
    <div>${(text || "").replace(/\n/g, "<br/>")}</div>
    ${meta ? `<div class="meta">${meta}</div>` : ""}
  `;
  target.prepend(el);
 }
 async function sendChat() {
  const cfg = getConfig();
  const sessionInput = document.getElementById("chatSessionId");
  const session_id = (sessionInput.value || "main").trim();
  sessionInput.value = session_id;
  const messageEl = document.getElementById("chatMessage");
  const message = messageEl.value.trim();
  if (!message) return;
  appendChat("user", message, `session=${session_id}`);
  messageEl.value = "";
  try {
    const data = await apiPost("/assistant/chat", {
      session_id,
      message,
      release_name: cfg.releaseName || null,
      max_sources: 6,
    });
    const sourceLine = (data.sources || []).map((s) => s.concept_id).filter(Boolean).slice(0, 4).join(", ");
    appendChat("assistant", data.answer || "", `confidence=${data.confidence} | sources=${sourceLine || "-"}`);
  } catch (e) {
    appendChat("assistant", `Error: ${String(e)}`, "");
  }
 }
 document.getElementById("saveConfig").addEventListener("click", saveConfig);
 document.getElementById("loadInbox").addEventListener("click", loadInbox);
 document.getElementById("loadTasks").addEventListener("click", loadTasks);
 document.getElementById("makeDraft").addEventListener("click", makeDraft);
 document.getElementById("saveLearn").addEventListener("click", saveLearn);
 document.getElementById("sendChat").addEventListener("click", sendChat);
 loadConfig();
--- a/ui/assets/styles.css
+++ b/ui/assets/styles.css
@ -0,0 +1,124 @@
 :root {
  --bg: #f2f4f5;
  --panel: #ffffff;
  --ink: #182126;
  --muted: #5c6770;
  --line: #dde4e8;
  --accent: #0f766e;
 }
 * {
  box-sizing: border-box;
 }
 body {
  margin: 0;
  font-family: "IBM Plex Sans", "Segoe UI", sans-serif;
  color: var(--ink);
  background: linear-gradient(165deg, #e9eff2 0%, #f8fafb 100%);
 }
 .layout {
  max-width: 1100px;
  margin: 0 auto;
  padding: 18px;
  display: grid;
  gap: 14px;
 }
 .topbar {
  background: var(--panel);
  border: 1px solid var(--line);
  border-radius: 10px;
  padding: 12px;
  display: flex;
  justify-content: space-between;
  align-items: center;
  gap: 12px;
 }
 .topbar h1,
 .panel h2 {
  margin: 0;
  font-size: 18px;
 }
 .panel {
  background: var(--panel);
  border: 1px solid var(--line);
  border-radius: 10px;
  padding: 12px;
 }
 .panel-header {
  display: flex;
  justify-content: space-between;
  align-items: center;
  gap: 12px;
  margin-bottom: 8px;
 }
 .controls {
  display: flex;
  gap: 8px;
  align-items: center;
  flex-wrap: wrap;
 }
 input,
 textarea,
 button {
  font: inherit;
 }
 input,
 textarea {
  border: 1px solid var(--line);
  border-radius: 7px;
  padding: 8px;
  background: #fff;
 }
 button {
  border: 1px solid #0d5f59;
  background: var(--accent);
  color: #fff;
  border-radius: 7px;
  padding: 8px 10px;
  cursor: pointer;
 }
 button:hover {
  filter: brightness(0.95);
 }
 .list {
  display: grid;
  gap: 8px;
 }
 .row {
  border: 1px solid var(--line);
  border-radius: 8px;
  padding: 8px;
 }
 .row .meta {
  color: var(--muted);
  font-size: 12px;
  margin-top: 4px;
 }
 .output {
  white-space: pre-wrap;
  border: 1px solid var(--line);
  border-radius: 8px;
  padding: 10px;
  min-height: 96px;
  background: #fbfdfe;
 }
 #chatTranscript {
  max-height: 360px;
  overflow: auto;
 }
--- a/ui/index.html
+++ b/ui/index.html
@ -0,0 +1,82 @@
 <!doctype html>
 <html lang="en">
 <head>
  <meta charset="utf-8" />
  <meta name="viewport" content="width=device-width, initial-scale=1" />
  <title>Jecio Assistant Console</title>
  <link rel="stylesheet" href="/ui/assets/styles.css" />
 </head>
 <body>
  <main class="layout">
    <header class="topbar">
      <h1>Assistant Console</h1>
      <div class="controls">
        <input id="apiKey" type="password" placeholder="X-Admin-Api-Key" />
        <input id="releaseName" type="text" placeholder="release_name (optional)" />
        <button id="saveConfig">Save</button>
      </div>
    </header>
    <section class="panel">
      <div class="panel-header">
        <h2>Inbox</h2>
        <div class="controls">
          <input id="inboxQuery" type="text" placeholder="Search text (optional)" />
          <button id="loadInbox">Load Inbox</button>
        </div>
      </div>
      <div id="inboxResults" class="list"></div>
    </section>
    <section class="panel">
      <div class="panel-header">
        <h2>Pending Tasks</h2>
        <div class="controls">
          <label><input id="onlyPending" type="checkbox" checked /> Only pending</label>
          <button id="loadTasks">Load Tasks</button>
        </div>
      </div>
      <div id="taskResults" class="list"></div>
    </section>
    <section class="panel">
      <div class="panel-header">
        <h2>Draft</h2>
        <div class="controls">
          <input id="recipient" type="text" placeholder="Recipient (optional)" />
          <button id="makeDraft">Draft From Goal</button>
        </div>
      </div>
      <textarea id="goalText" rows="3" placeholder="Goal text (or click 'Use as goal' from a task)"></textarea>
      <pre id="draftOutput" class="output"></pre>
    </section>
    <section class="panel">
      <div class="panel-header">
        <h2>Learn</h2>
        <div class="controls">
          <input id="learnTitle" type="text" placeholder="Title (optional)" />
          <input id="learnTags" type="text" placeholder="tags comma-separated (optional)" />
          <button id="saveLearn">Save Note</button>
        </div>
      </div>
      <textarea id="learnText" rows="3" placeholder="Knowledge note you want the assistant to remember"></textarea>
      <pre id="learnOutput" class="output"></pre>
    </section>
    <section class="panel">
      <div class="panel-header">
        <h2>Chat</h2>
        <div class="controls">
          <input id="chatSessionId" type="text" placeholder="session_id (default: main)" />
          <button id="sendChat">Send</button>
        </div>
      </div>
      <textarea id="chatMessage" rows="2" placeholder="Ask the assistant..."></textarea>
      <div id="chatTranscript" class="list"></div>
    </section>
  </main>
  <script src="/ui/assets/app.js"></script>
 </body>
 </html>
--- a/write_assistant_action.py
+++ b/write_assistant_action.py
@ -0,0 +1,106 @@
 import argparse
 import json
 import base64
 from pyspark.sql import SparkSession, types as T
 def d(s: str) -> str:
    if not s:
        return ""
    return base64.b64decode(s.encode("ascii")).decode("utf-8")
 def main() -> None:
    p = argparse.ArgumentParser(description="Write assistant action row via Spark DataFrame")
    p.add_argument("--table", required=True)
    p.add_argument("--action-id", required=True)
    p.add_argument("--created-at-utc", required=True)
    p.add_argument("--task-type", required=True)
    p.add_argument("--release-name", default="")
    p.add_argument("--objective-b64", default="")
    p.add_argument("--step-id", required=True)
    p.add_argument("--step-title-b64", default="")
    p.add_argument("--action-type", required=True)
    p.add_argument("--requires-approval", default="false")
    p.add_argument("--approved", default="false")
    p.add_argument("--status", required=True)
    p.add_argument("--output-b64", default="")
    p.add_argument("--error-b64", default="")
    args = p.parse_args()
    requires_approval = str(args.requires_approval).lower() == "true"
    approved = str(args.approved).lower() == "true"
    objective = d(args.objective_b64)
    step_title = d(args.step_title_b64)
    output_json = d(args.output_b64)
    error_text = d(args.error_b64)
    if not output_json:
        output_json = "{}"
    try:
        json.loads(output_json)
    except Exception:
        output_json = "{}"
    spark = SparkSession.builder.appName("write-assistant-action").getOrCreate()
    spark.sql(
        f"""
        CREATE TABLE IF NOT EXISTS {args.table} (
          action_id STRING,
          created_at_utc STRING,
          task_type STRING,
          release_name STRING,
          objective STRING,
          step_id STRING,
          step_title STRING,
          action_type STRING,
          requires_approval BOOLEAN,
          approved BOOLEAN,
          status STRING,
          output_json STRING,
          error_text STRING
        ) USING iceberg
        """
    )
    schema = T.StructType(
        [
            T.StructField("action_id", T.StringType(), False),
            T.StructField("created_at_utc", T.StringType(), False),
            T.StructField("task_type", T.StringType(), False),
            T.StructField("release_name", T.StringType(), True),
            T.StructField("objective", T.StringType(), True),
            T.StructField("step_id", T.StringType(), False),
            T.StructField("step_title", T.StringType(), True),
            T.StructField("action_type", T.StringType(), False),
            T.StructField("requires_approval", T.BooleanType(), False),
            T.StructField("approved", T.BooleanType(), False),
            T.StructField("status", T.StringType(), False),
            T.StructField("output_json", T.StringType(), True),
            T.StructField("error_text", T.StringType(), True),
        ]
    )
    row = [
        (
            args.action_id,
            args.created_at_utc,
            args.task_type,
            args.release_name or "",
            objective,
            args.step_id,
            step_title,
            args.action_type,
            requires_approval,
            approved,
            args.status,
            output_json,
            error_text,
        )
    ]
    df = spark.createDataFrame(row, schema=schema)
    df.writeTo(args.table).append()
    print(f"[DONE] Recorded assistant action {args.action_id} into {args.table}")
 if __name__ == "__main__":
    main()
--- a/write_assistant_feedback.py
+++ b/write_assistant_feedback.py
@ -0,0 +1,103 @@
 import argparse
 import base64
 import json
 from pyspark.sql import SparkSession, types as T
 def d(s: str) -> str:
    if not s:
        return ""
    return base64.b64decode(s.encode("ascii")).decode("utf-8")
 def main() -> None:
    p = argparse.ArgumentParser(description="Write assistant feedback row via Spark DataFrame")
    p.add_argument("--table", required=True)
    p.add_argument("--feedback-id", required=True)
    p.add_argument("--created-at-utc", required=True)
    p.add_argument("--outcome", required=True)
    p.add_argument("--task-type", required=True)
    p.add_argument("--release-name", default="")
    p.add_argument("--confidence", type=float, default=0.0)
    p.add_argument("--needs-review", default="true")
    p.add_argument("--goal-b64", default="")
    p.add_argument("--draft-b64", default="")
    p.add_argument("--final-b64", default="")
    p.add_argument("--sources-b64", default="")
    p.add_argument("--notes-b64", default="")
    args = p.parse_args()
    needs_review = str(args.needs_review).lower() == "true"
    goal = d(args.goal_b64)
    draft_text = d(args.draft_b64)
    final_text = d(args.final_b64)
    sources_json = d(args.sources_b64)
    notes = d(args.notes_b64)
    if not sources_json:
        sources_json = "[]"
    # Validate JSON shape but keep raw string in table.
    try:
        json.loads(sources_json)
    except Exception:
        sources_json = "[]"
    spark = SparkSession.builder.appName("write-assistant-feedback").getOrCreate()
    spark.sql(
        f"""
        CREATE TABLE IF NOT EXISTS {args.table} (
          feedback_id STRING,
          created_at_utc STRING,
          outcome STRING,
          task_type STRING,
          release_name STRING,
          confidence DOUBLE,
          needs_review BOOLEAN,
          goal STRING,
          draft_text STRING,
          final_text STRING,
          sources_json STRING,
          notes STRING
        ) USING iceberg
        """
    )
    schema = T.StructType(
        [
            T.StructField("feedback_id", T.StringType(), False),
            T.StructField("created_at_utc", T.StringType(), False),
            T.StructField("outcome", T.StringType(), False),
            T.StructField("task_type", T.StringType(), False),
            T.StructField("release_name", T.StringType(), True),
            T.StructField("confidence", T.DoubleType(), True),
            T.StructField("needs_review", T.BooleanType(), False),
            T.StructField("goal", T.StringType(), True),
            T.StructField("draft_text", T.StringType(), True),
            T.StructField("final_text", T.StringType(), True),
            T.StructField("sources_json", T.StringType(), True),
            T.StructField("notes", T.StringType(), True),
        ]
    )
    row = [
        (
            args.feedback_id,
            args.created_at_utc,
            args.outcome,
            args.task_type,
            args.release_name or "",
            float(args.confidence),
            needs_review,
            goal,
            draft_text,
            final_text,
            sources_json,
            notes,
        )
    ]
    df = spark.createDataFrame(row, schema=schema)
    df.writeTo(args.table).append()
    print(f"[DONE] Recorded assistant feedback {args.feedback_id} into {args.table}")
 if __name__ == "__main__":
    main()