Initial release: Multi-provider AI chat with RAG

FastAPI backend (wiki-vector-chat.py) with Odysseus-style frontend. Features: multi-provider LLM, Wiki KB + VectorDB RAG, session history, chat modes, save-to-wiki, markdown rendering, SSE streaming. Co-Authored-By: Claude Opus 4.7 <noreply@anthropic.com>
2026-06-03 10:25:29 +00:00
commit ae621ecbb5
10 changed files with 3004 additions and 0 deletions
--- a/.gitignore
+++ b/.gitignore
@@ -0,0 +1,18 @@
+# Secrets
+.wiki-api-token
+.htpasswd-wiki
+wiki-chat-providers.json
+
+# Data files
+wiki-kb.json
+vector-db/
+data/
+
+# Backups
+*.bak
+*.bak-zcode
+
+# Old wiki HTML (not part of this project)
+zai-ambassador-team-wiki-old.html
+zai-ambassador-team-wiki.html.bak
+zai-ambassadors-wiki.html
--- a/CHANGELOG.md
+++ b/CHANGELOG.md
@@ -0,0 +1,48 @@
+# Changelog
+
+## v2.0.0 (2026-06-03) — Odysseus UI + Multi-Provider + RAG
+
+### Added
+- Complete Odysseus-style UI with Tokyo Night color palette
+- Multi-provider LLM support (OpenAI, Anthropic, Ollama, OpenRouter, Groq, custom)
+- RAG pipeline: dual-source context from Wiki KB (:8097) + VectorDB (:8099)
+- Per-session RAG toggles (Wiki KB / VectorDB enable/disable)
+- Chat modes: Chat, Code, Brainstorm with mode-specific system prompts
+- Session history with localStorage persistence (up to 50 sessions)
+- Save AI answers as new Q&A entries to Wiki KB
+- Message action buttons: Copy, Redo, Save-to-Wiki on AI responses
+- Markdown rendering in AI replies (bold, italic, code blocks, lists)
+- Provider management: CRUD for custom providers, preset forking with API keys
+- SSE streaming with format detection (OpenAI vs Anthropic)
+- Model picker dropdown in input bar
+- Manage Providers modal with select/edit/delete
+- Quick action chips on welcome screen
+- Mobile responsive layout with sidebar drawer
+
+### Backend (wiki-vector-chat.py)
+- FastAPI service on port 8770
+- Shared API token auth from `/opt/blog/.wiki-api-token`
+- `build_rag_context()` with per-source toggle support
+- `call_llm_stream()` with format auto-detection
+- Anthropic SSE parsing (content_block_delta, message_stop)
+- `POST /chat/save-to-wiki` writes directly to wiki-kb.json
+- `ChatMessage` model extended with rag_wiki, rag_vector, mode fields
+
+### Fixed
+- "Save failed: fetch().json is not a function" — double await
+- RAG chevron toggle checked CSS class instead of state
+- addMessage wrong arguments (empty objects vs string roles)
+- SSE done not breaking outer loop — streamDone flag
+- Welcome screen never hidden — .hidden CSS class + toggle
+- Preset providers not editable — forking with custom- prefix
+- RAG not working — auth tokens for wiki-api and vector-db
+- Anthropic message format — {role, content} not {type, text}
+- Anthropic SSE parsing missing — added content_block_delta handler
+- LLM ignoring RAG context — improved system prompt instructions
+- Markdown showing raw tags in AI replies — renderMd() conversion
+
+## v1.0.0 (2026-05-28) — Initial
+
+- Basic chat UI embedded in wiki
+- Single-provider Z.ai GLM-4 proxy (wiki-chat-server.js on :8098)
+- Wiki KB search integration
--- a/README.md
+++ b/README.md
@@ -0,0 +1,75 @@
+# Zportal Wiki VectorDB Chat
+
+Multi-provider AI chat with RAG (Wiki KB + VectorDB) for the Z.ai portal.
+
+## Architecture
+
+| Component | Port | File | Purpose |
+|-----------|------|------|---------|
+| **wiki-vector-chat** | 8770 | `wiki-vector-chat.py` | FastAPI chat backend — multi-provider LLM, RAG pipeline, SSE streaming |
+| **wiki-api** | 8097 | `wiki-api.py` | KB keyword search over `wiki-kb.json` (1,301 Q&A entries) |
+| **vector-db-service** | 8099 | `vector-db-service.py` | TF-IDF vector search on Discord/Reddit messages |
+| **Frontend** | static | `zportal-chat.html` | Odysseus-style chat UI at `/zportal/chat` |
+| **wiki-chat-server** | 8098 | `wiki-chat-server.py` | Legacy Z.ai GLM-4 proxy (being replaced) |
+| **wiki-chat-proxy** | — | `wiki-chat-proxy.py` | Legacy chat proxy helper |
+
+## Features
+
+- **Multi-provider LLM** — OpenAI, Anthropic, Ollama, OpenRouter, Groq, custom endpoints
+- **RAG pipeline** — Dual-source context from Wiki KB + VectorDB with per-session toggles
+- **Chat modes** — Chat, Code, Brainstorm with mode-specific system prompts
+- **Session history** — localStorage persistence, switch between sessions, auto-save
+- **Save to Wiki** — Save AI answers as new Q&A entries in the Wiki KB
+- **Message actions** — Copy, Redo, Save-to-Wiki buttons on AI responses
+- **Markdown rendering** — Bold, italic, code blocks, lists in AI replies
+- **SSE streaming** — Server-Sent Events for real-time token streaming
+- **Provider management** — CRUD for custom providers, preset forking with API keys
+- **Odysseus UI** — Tokyo Night palette, sidebar, chat bubbles, model picker
+
+## Provider Presets
+
+| ID | Name | Format |
+|----|------|--------|
+| zai-coding | Z.ai Coding Plan | OpenAI |
+| openadapter | OpenAdapter | OpenAI |
+| openrouter | OpenRouter | OpenRouter |
+| crofai | Crof.AI | OpenAI |
+| opencode-zen | Opencode Zen | OpenAI |
+
+## Nginx Config
+
+```nginx
+location = /zportal/chat {
+    default_type text/html;
+    alias /opt/zportal/chat.html;
+}
+location ^~ /zportal/wiki/api/chat/ {
+    proxy_pass http://127.0.0.1:8770/;
+    proxy_http_version 1.1;
+    proxy_set_header Host $host;
+    proxy_set_header X-Real-IP $remote_addr;
+    proxy_buffering off;
+    proxy_cache off;
+    proxy_read_timeout 120s;
+}
+```
+
+## Systemd
+
+```bash
+sudo systemctl restart wiki-vector-chat
+sudo systemctl status wiki-vector-chat
+```
+
+## API Endpoints
+
+| Method | Path | Description |
+|--------|------|-------------|
+| POST | `/chat/message` | Main chat (SSE stream) |
+| POST | `/chat/tunnel` | Server-side token chat |
+| POST | `/chat/save-to-wiki` | Save Q&A to wiki KB |
+| GET | `/providers` | List all providers |
+| GET | `/providers/presets` | Built-in presets |
+| POST | `/providers/save` | Save/edit custom provider |
+| DELETE | `/providers/{id}` | Remove custom provider |
+| GET | `/health` | Health check |
--- a/inject_wiki_chat.py
+++ b/inject_wiki_chat.py
@@ -0,0 +1,347 @@
+#!/usr/bin/env python3
+"""Inject VectorDB Chat panel into wiki HTML files.
+
+Usage: python3 inject_wiki_chat.py [--file /path/to/wiki.html]
+If no --file, modifies both ambassador and support wikis in-place.
+"""
+
+import os
+import re
+import sys
+
+WIKI_FILES = [
+    "/opt/blog/zai-ambassador-team-wiki.html",
+    "/opt/blog/zai-support-wiki.html",
+]
+
+CHAT_CSS = """
+/* ── VectorDB Chat Panel ── */
+.vdb-fab{position:fixed;bottom:24px;right:24px;width:56px;height:56px;border-radius:28px;
+background:linear-gradient(135deg,#4a9eff,#a78bfa);border:none;color:#fff;font-size:22px;
+cursor:pointer;box-shadow:0 4px 20px rgba(74,158,255,.35);z-index:999;transition:all .2s;display:flex;align-items:center;justify-content:center}
+.vdb-fab:hover{transform:scale(1.08);box-shadow:0 6px 28px rgba(74,158,255,.45)}
+.vdb-chat-container{position:fixed;bottom:0;right:0;width:420px;height:560px;background:#131620;
+border:1px solid #252a3b;border-radius:16px 16px 0 0;z-index:998;display:flex;
+flex-direction:column;box-shadow:-4px 0 30px rgba(0,0,0,.4);font-family:'Inter',system-ui,sans-serif;
+transition:opacity .25s, transform .25s cubic-bezier(.175,.885,.32,1.275)}
+.vdb-chat-container.hidden{opacity:0;pointer-events:none;transform:translateY(20px)}
+.vdb-chat-header{display:flex;align-items:center;gap:10px;padding:14px 16px;
+background:#0c0e14;border-bottom:1px solid #252a3b;flex-shrink:0}
+.vdb-chat-title{font-size:13px;font-weight:600;color:#e8eaed;flex:1;white-space:nowrap;overflow:hidden;text-overflow:ellipsis}
+.vdb-provider-select{font-size:11px;padding:4px 8px;border:1px solid #333;border-radius:6px;
+background:#1a1d26;color:#ccc;cursor:pointer;outline:none;color:#e8eaed;min-width:120px}
+.vdb-provider-select:focus{border-color:#4a9eff}
+.vdb-toggle{background:none;border:none;color:#888;font-size:18px;cursor:pointer;padding:4px 8px;line-height:1}
+.vdb-toggle:hover{color:#fff}
+.vdb-messages{flex:1;overflow-y:auto;padding:12px 16px;display:flex;flex-direction:column;gap:8px;
+scrollbar-width:4px;scrollbar-thumb:#333}
+.vdb-msg{max-width:85%;padding:10px 14px;border-radius:12px;font-size:13px;line-height:1.5;
+color:#b0b5bc;word-wrap:break-word}
+.vdb-msg-user{align-self:flex-end;background:#1e3a5f;border:1px solid #2a4070;margin-left:auto}
+.vdb-msg-assistant{align-self:flex-start;background:#1a1f2e;border:1px solid #252a3b}
+.vdb-msg-meta{font-size:10px;color:#666;margin-top:4px;display:flex;gap:8px;align-items:center}
+.vdb-msg-provider{background:rgba(74,158,255,.1);color:#4a9eff;padding:1px 6px;border-radius:3px;font-weight:600}
+.vdb-msg-error{background:rgba(248,113,113,.1);color:#f87171;border-color:rgba(248,113,113,.3)}
+.vdb-typing{font-size:11px;color:#7c8497;font-style:italic;padding:8px 16px 0;display:none}
+.vdb-typing.active{display:block}
+.vdb-input-row{display:flex;gap:8px;padding:12px 16px;border-top:1px solid #252a3b;
+background:#0c0e14;flex-shrink:0}
+.vdb-input{flex:1;padding:10px 12px;border:1px solid #333;border-radius:8px;
+background:#1a1d26;color:#e8eaed;font-size:13px;font-family:inherit;resize:none;
+outline:none;min-height:20px;max-height:80px;line-height:1.4}
+.vdb-input:focus{border-color:#4a9eff}
+.vdb-send{padding:10px 18px;border:1px solid #333;border-radius:8px;background:rgba(74,158,255,.1);
+color:#4a9eff;font-weight:600;font-size:12px;cursor:pointer;white-space:nowrap;
+transition:all .15s}
+.vdb-send:hover{background:rgba(74,158,255,.2);color:#fff}
+.vdb-send:disabled{opacity:.4;cursor:not-allowed}
+.vdb-settings{border-top:1px solid #252a3b;padding:12px 16px;display:none}
+.vdb-settings-row{display:flex;gap:8px;margin-bottom:8px;align-items:center}
+.vdb-settings-row label{font-size:11px;color:#888;width:70px;flex-shrink:0}
+.vdb-settings-row input,.vdb-settings-row select{flex:1;padding:6px 8px;border:1px solid #333;
+border-radius:4px;background:#1a1d26;color:#e8eaed;font-size:11px}
+.vdb-settings-btn{padding:4px 12px;border-radius:4px;font-size:10px;cursor:pointer;
+border:1px solid #333;background:#1a1d26;color:#aaa;transition:all .15s}
+.vdb-settings-btn:hover{color:#fff;border-color:#444}
+.vdb-settings-btn.danger{color:#f87171;border-color:rgba(248,113,113,.3)}
+@media(max-width:600px){
+.vdb-chat-container{width:100vw;height:100vh;border-radius:0;right:0;bottom:0}
+}
+"""
+
+CHAT_HTML = """
+<div id="vdb-chat" class="vdb-chat-container hidden" style="display:none">
+<div class="vdb-chat-header">
+<span class="vdb-chat-title">VectorDB Chat</span>
+<select id="vdb-provider-select" class="vdb-provider-select"></select>
+<button id="vdb-toggle" class="vdb-toggle">&#x2014;</button>
+</div>
+<div class="vdb-messages" id="vdb-chat-messages"></div>
+<div class="vdb-typing" id="vdb-typing"> thinking...</div>
+<div class="vdb-input-row">
+<textarea id="vdb-input" class="vdb-input" placeholder="Ask about Z.ai wiki, community issues..." rows="1"></textarea>
+<button id="vdb-send" class="vdb-send">Send</button>
+</div>
+<div class="vdb-settings" id="vdb-settings">
+<div style="font-size:11px;color:#888;margin-bottom:8px;font-weight:600;text-transform:uppercase;letter-spacing:.5px">Custom Provider</div>
+<div class="vdb-settings-row"><label>Name</label><input id="vdb-cust-name" placeholder"My Provider"></div></div>
+<div class="vdb-settings-row"><label>API URL</label><input id="vdb-cust-url" placeholder="https://api.example.com/v1"></div></div>
+<div class="vdb-settings-row"><label>Model</label><input id="vdb-cust-model" placeholder="gpt-4o-mini"></div></div>
+<div class="vdb-settings-row"><label>API Key</label><input id="vdb-cust-key" type="password" placeholder="sk-..."></div></div>
+<div style="display:flex;gap:6px;margin-top:8px">
+<button id="vdb-cust-save" class="vdb-settings-btn">Save Provider</button>
+<button id="vdb-cust-cancel" class="vdb-settings-btn danger">Cancel</button>
+</div>
+</div>
+</div>
+<button id="vdb-chat-btn" class="vdb-fab" title="Open Wiki Chat">&#x1F4AC;</button>
+"""
+
+CHAT_JS = """
+(function(){
+const CHAT_API = (function(){
+ const p = location.pathname;
+ return p.endsWith('/') ? p : p + '/';
+})();
+const $ = id => document.getElementById(id);
+let _providers = [];
+let _activeProvider = null;
+let _history = [];
+let _isStreaming = false;
+
+function esc(s){ if(!s) return ''; const d=document.createElement('div'); d.textContent=s; return d.innerHTML; }
+
+function providerIcon(p){ return p.icon || '\u2B99'; }
+function providerLabel(p){ return p.icon + ' ' + p.name; }
+
+function renderProviders(){
+ const sel = $('vdb-provider-select');
+ sel.innerHTML = '<option value="">Select provider...</option>';
+ _providers.forEach(p => {
+   const opt = document.createElement('option');
+   opt.value = p.id;
+   opt.textContent = providerLabel(p);
+   if(_activeProvider && p.id === _activeProvider.id) opt.selected = true;
+   sel.appendChild(opt);
+ });
+}
+
+function addMsg(content, isUser, meta){
+ const msgs = $('vdb-chat-messages');
+ const div = document.createElement('div');
+ div.className = 'vdb-msg vdb-msg-' + (isUser ? 'user' : 'assistant');
+ let html = '';
+ if(meta && meta.provider) html += '<div class="vdb-msg-meta"><span class="vdb-msg-provider">' + providerIcon(meta.provider) + ' ' + meta.provider.name + '</span></div>';
+ if(meta && meta.error) { div.className += ' vdb-msg-error'; html = content; }
+ else { html += esc(content).replace(/\\n/g, '<br>'); }
+ div.innerHTML = html;
+ msgs.appendChild(div);
+ msgs.scrollTop = msgs.scrollHeight;
+ return div;
+}
+
+function setStreaming(on){
+ _isStreaming = on;
+ $('vdb-typing').className = 'vdb-typing' + (on ? ' active' : '');
+ $('vdb-send').disabled = on;
+}
+
+async function sendMessage(){
+ const input = $('vdb-input');
+ const text = (input.value || '').trim();
+ if(!text || !_activeProvider || _isStreaming) return;
+ _history.push({role:'user', content:text});
+ addMsg(text, true, null);
+ input.value = '';
+ input.style.height = 'auto';
+ setStreaming(true);
+
+ try{
+   const resp = await fetch(CHAT_API + 'chat/message', {
+     method:'POST',
+     headers:{'Content-Type':'application/json'},
+     body:JSON.stringify({message:text, provider_id:_activeProvider.id, history:_history})
+   });
+   const reader = resp.body.getReader();
+   const decoder = new TextDecoder();
+   let buf = '';
+   let fullText = '';
+   let assistantDiv = null;
+
+   while(true){
+     const {done, value} = await reader.read();
+     if(value) buf += decoder.decode(value, {stream:true});
+     if(done) break;
+     const lines = buf.split('\\n');
+     buf = lines.pop(); // keep incomplete line
+     for(const line of lines){
+       if(!line.startsWith('data: ') || !line.slice(5)) continue;
+       try{
+         const chunk = JSON.parse(line.slice(5));
+         if(chunk.type === 'done'){ setStreaming(false); break; }
+         if(chunk.type === 'error'){
+           if(!assistantDiv) assistantDiv = addMsg(chunk.delta, false, {error:true});
+           else assistantDiv.textContent += chunk.delta;
+           continue;
+         }
+         if(chunk.type === 'delta'){
+           if(!assistantDiv) assistantDiv = addMsg('', false, {provider:_activeProvider});
+           fullText += chunk.delta;
+           assistantDiv.innerHTML = esc(fullText.replace(/\\n/g, '<br>'));
+           assistantDiv.scrollIntoView({block:'nearest', behavior:'smooth'});
+         } else if(chunk.type === 'tool' || chunk.type === 'raw'){
+           if(!assistantDiv) assistantDiv = addMsg('', false, {provider:_activeProvider});
+           assistantDiv.innerHTML += esc(chunk.delta).replace(/\\n/g, '<br>');
+         }
+       }catch(e){ /* skip malformed */ }
+     }
+   }
+   // Process remaining buffer
+   if(buf){
+     for(const line of buf.split('\\n')){
+       if(!line.startsWith('data: ')) continue;
+       try{
+         const chunk = JSON.parse(line.slice(5));
+         if(chunk.type === 'delta' && chunk.delta){
+           if(!assistantDiv) assistantDiv = addMsg('', false, {provider:_activeProvider});
+           fullText += chunk.delta;
+           assistantDiv.innerHTML = esc(fullText.replace(/\\n/g, '<br>'));
+         }
+       }catch(e){}
+     }
+   }
+   _history.push({role:'assistant', content:fullText || '(no response)'});
+ } catch(e){
+   addMsg('Error: ' + e.message, false, {error:true});
+ }
+ setStreaming(false);
+}
+
+// Provider selection
+$('vdb-provider-select').addEventListener('change', function(){
+ const pid = this.value;
+ _activeProvider = _providers.find(p => p.id === pid) || null;
+});
+
+// Send button
+$('vdb-send').addEventListener('click', sendMessage);
+$('vdb-input').addEventListener('keydown', function(e){ if(e.key === 'Enter' && !e.shiftKey){ e.preventDefault(); sendMessage(); }});
+
+// Toggle chat panel
+let _chatOpen = false;
+$('vdb-chat-btn').addEventListener('click', function(){
+ _chatOpen = !_chatOpen;
+ const chat = $('vdb-chat');
+ chat.classList.toggle('hidden', !_chatOpen);
+ this.textContent = _chatOpen ? '\u2715' : '\u1F4AC';
+ this.title = _chatOpen ? 'Close Chat' : 'Open Wiki Chat';
+});
+
+$('vdb-toggle').addEventListener('click', function(){
+ _chatOpen = false;
+ $('vdb-chat').classList.add('hidden');
+ this.textContent = '\u25B2';
+ $('vdb-chat-btn').textContent = '\u1F4AC';
+ $('vdb-chat-btn').title = 'Open Wiki Chat';
+});
+
+// Settings
+$('vdb-cust-save').addEventListener('click', async function(){
+ const name = $('vdb-cust-name').value.trim();
+ const url = $('vdb-cust-url').value.trim();
+ const model = $('vdb-cust-model').value.trim();
+ const key = $('vdb-cust-key').value.trim();
+ if(!name || !url || !model){ alert('Name, URL, and Model are required'); return; }
+ const provider = {id:'custom-'+Date.now(), name:name, base_url:url, model:model,
+   api_key:key, format:'openai', icon:'\u2699', description:'Custom'};
+ // Save via API
+ try{
+   await fetch(CHAT_API + 'providers/save', {
+     method:'POST', headers:{'Content-Type':'application/json'}, body:JSON.stringify(provider)
+   });
+   _providers = await (await fetch(CHAT_API + 'providers')).json();
+   renderProviders();
+   _activeProvider = provider;
+   $('vdb-settings').style.display = 'none';
+   alert('Provider saved!');
+ } catch(e){ alert('Save failed: ' + e.message); }
+});
+
+$('vdb-cust-cancel').addEventListener('click', function(){
+ $('vdb-settings').style.display = 'none';
+});
+
+// Auto-open settings if no providers loaded
+function checkProviders(){
+ if(!_providers.length){
+   $('vdb-settings').style.display = '';
+ }
+}
+
+// Init
+async function init(){
+ try{
+   const [presetsResp, customResp] = await Promise.all([
+     fetch(CHAT_API + 'providers/presets'),
+     fetch(CHAT_API + 'providers')
+   ]);
+   _presets = await presetsResp.json();
+   _custom = await customResp.json();
+   _providers = [..._presets, ..._custom];
+   renderProviders();
+   // Auto-select first available provider
+   if(_providers.length > 0 && !_activeProvider){
+     _activeProvider = _providers[0];
+     renderProviders();
+   }
+   checkProviders();
+ } catch(e){
+   console.error('Chat init error:', e);
+   $('vdb-chat-messages').innerHTML = '<div class="vdb-msg vdb-msg-error">Failed to load chat service.</div>';
+ }
+}
+
+init();
+})();
+"""
+
+
+def inject_chat(html_content: str) -> str:
+    """Inject chat CSS, HTML, and JS into wiki HTML."""
+    # Inject CSS before </style>
+    if "</style>" in html_content:
+        html_content = html_content.replace("</style>", CHAT_CSS + "</style>", 1)
+
+    # Inject HTML before </body>
+    if "</body>" in html_content:
+        html_content = html_content.replace("</body>", CHAT_HTML + "\n<script>" + CHAT_JS + "\n</script>", 1)
+
+    return html_content
+
+
+def main():
+    files = WIKI_FILES
+    # Check for --file argument
+    if "--file" in sys.argv:
+        idx = sys.argv.index("--file") + 1
+        if idx < len(sys.argv):
+            files = [sys.argv[idx]]
+
+    for fpath in files:
+        if not os.path.exists(fpath):
+            print(f"SKIP: {fpath} not found")
+            continue
+        with open(fpath, "r") as f:
+            content = f.read()
+        # Check if already injected
+        if "vdb-chat-container" in content:
+            print(f"SKIP: {fpath} already has chat injected")
+            continue
+        new_content = inject_chat(content)
+        with open(fpath, "w") as f:
+            f.write(new_content)
+        print(f"OK: {fpath} ({len(new_content)} bytes)")
+
+
+if __name__ == "__main__":
+    main()
--- a/vector-db-service.py
+++ b/vector-db-service.py
@@ -0,0 +1,225 @@
+#!/usr/bin/env python3
+"""Z.ai Wiki Vector DB Service
+
+Stores Discord messages as vector embeddings using sentence-transformers.
+Provides a search API for the wiki chat system to query as an additional data source.
+
+Data sources:
+- Server 1346756824233148527 (Z.ai Community)
+- Server 1410352583364841555 (Z.ai Mod Server)
+- Channel 1476364011091136544 (Z.ai Mod Channel)
+
+Endpoints:
+- POST /vector/search  - Search with a query, return top-K matches
+- POST /vector/index    - Add messages to the index
+- GET  /vector/stats    - Get index statistics
+- POST /vector/rebuild  - Rebuild from stored messages
+"""
+
+import json
+import os
+import glob
+import numpy as np
+from flask import Flask, request, jsonify, make_response
+from sentence_transformers import SentenceTransformer
+
+app = Flask(__name__)
+
+DATA_DIR = os.environ.get('VECTOR_DB_DIR', '/opt/blog/vector-db')
+MESSAGES_FILE = os.path.join(DATA_DIR, 'messages.json')
+EMBEDDINGS_FILE = os.path.join(DATA_DIR, 'embeddings.npy')
+META_FILE = os.path.join(DATA_DIR, 'meta.json')
+
+os.makedirs(DATA_DIR, exist_ok=True)
+
+model = None
+embeddings = None
+meta = []  # parallel array: [{id, content, source, author, channel, server, timestamp, link}, ...]
+
+
+def get_model():
+    global model
+    if model is None:
+        print('[VectorDB] Loading sentence-transformer model...')
+        model = SentenceTransformer('all-MiniLM-L6-v2')
+        print('[VectorDB] Model loaded')
+    return model
+
+
+def load_index():
+    global embeddings, meta
+    if os.path.exists(EMBEDDINGS_FILE) and os.path.exists(META_FILE):
+        embeddings = np.load(EMBEDDINGS_FILE)
+        meta = json.load(open(META_FILE))
+        print(f'[VectorDB] Loaded index: {len(meta)} entries, dim={embeddings.shape[1]}')
+    else:
+        embeddings = np.empty((0, 384), dtype=np.float32)
+        meta = []
+        print('[VectorDB] No existing index, starting fresh')
+
+
+def save_index():
+    np.save(EMBEDDINGS_FILE, embeddings)
+    json.dump(meta, open(META_FILE, 'w'))
+    print(f'[VectorDB] Saved index: {len(meta)} entries')
+
+
+def load_messages():
+    """Load raw messages from JSON files"""
+    msgs = []
+    for f in glob.glob(os.path.join(DATA_DIR, 'messages_*.json')):
+        msgs.extend(json.load(open(f)))
+    return msgs
+
+
+@app.after_request
+def add_cors(response):
+    response.headers['Access-Control-Allow-Origin'] = '*'
+    response.headers['Access-Control-Allow-Methods'] = 'POST, GET, OPTIONS'
+    response.headers['Access-Control-Allow-Headers'] = 'Content-Type, Authorization'
+    return response
+
+
+@app.route('/vector/stats', methods=['GET', 'OPTIONS'])
+def stats():
+    if request.method == 'OPTIONS':
+        return make_response('', 200)
+    sources = {}
+    for m in meta:
+        s = m.get('source', 'unknown')
+        sources[s] = sources.get(s, 0) + 1
+    return jsonify({
+        'total': len(meta),
+        'dimension': int(embeddings.shape[1]) if embeddings.shape[0] > 0 else 0,
+        'sources': sources,
+        'is_indexed': len(meta) > 0,
+    })
+
+
+@app.route('/vector/search', methods=['POST', 'OPTIONS'])
+def search():
+    if request.method == 'OPTIONS':
+        return make_response('', 200)
+    try:
+        body = request.get_json(force=True)
+        query = body.get('query', '')
+        top_k = min(body.get('top_k', 10), 50)
+
+        if not query or embeddings.shape[0] == 0:
+            return jsonify({'results': [], 'query': query})
+
+        mdl = get_model()
+        q_emb = mdl.encode([query], normalize_embeddings=True).astype(np.float32)
+
+        # Cosine similarity (embeddings are already normalized)
+        scores = (embeddings @ q_emb.T).flatten()
+
+        top_idx = np.argsort(scores)[::-1][:top_k]
+
+        results = []
+        for i in top_idx:
+            if scores[i] < 0.1:  # threshold
+                break
+            results.append({
+                'content': meta[i]['content'],
+                'source': meta[i].get('source', ''),
+                'author': meta[i].get('author', ''),
+                'channel': meta[i].get('channel', ''),
+                'server': meta[i].get('server', ''),
+                'timestamp': meta[i].get('timestamp', ''),
+                'link': meta[i].get('link', ''),
+                'score': float(scores[i]),
+            })
+
+        return jsonify({'results': results, 'query': query, 'total': len(meta)})
+    except Exception as e:
+        return jsonify({'error': str(e)}), 500
+
+
+@app.route('/vector/index', methods=['POST', 'OPTIONS'])
+def index_messages():
+    if request.method == 'OPTIONS':
+        return make_response('', 200)
+    try:
+        body = request.get_json(force=True)
+        messages = body.get('messages', [])
+        source = body.get('source', 'unknown')
+
+        if not messages:
+            return jsonify({'error': 'messages required'}), 400
+
+        global embeddings, meta
+
+        mdl = get_model()
+        texts = [m.get('content', '')[:2000] for m in messages]
+        new_emb = mdl.encode(texts, normalize_embeddings=True, show_progress_bar=False,
+                              batch_size=64).astype(np.float32)
+
+        start_idx = len(meta)
+        for m in messages:
+            meta.append({
+                'id': m.get('id', ''),
+                'content': m.get('content', ''),
+                'source': source,
+                'author': m.get('author', ''),
+                'channel': m.get('channel', ''),
+                'server': m.get('server', ''),
+                'timestamp': m.get('timestamp', ''),
+                'link': m.get('link', ''),
+            })
+
+        if embeddings.shape[0] == 0:
+            embeddings = new_emb
+        else:
+            embeddings = np.vstack([embeddings, new_emb])
+
+        save_index()
+        return jsonify({'indexed': len(messages), 'total': len(meta)})
+    except Exception as e:
+        return jsonify({'error': str(e)}), 500
+
+
+@app.route('/vector/rebuild', methods=['POST', 'OPTIONS'])
+def rebuild():
+    if request.method == 'OPTIONS':
+        return make_response('', 200)
+    try:
+        messages = load_messages()
+        if not messages:
+            return jsonify({'error': 'No messages found. Run scraper first.'}), 404
+
+        global embeddings, meta
+        meta = []
+        mdl = get_model()
+
+        # Filter out empty/short messages
+        valid = [m for m in messages if len(m.get('content', '').strip()) > 10]
+        print(f'[VectorDB] Rebuilding index from {len(valid)} valid messages...')
+
+        texts = [m.get('content', '')[:2000] for m in valid]
+        embeddings = mdl.encode(texts, normalize_embeddings=True,
+                                show_progress_bar=True, batch_size=128).astype(np.float32)
+
+        for m in valid:
+            meta.append({
+                'id': m.get('id', ''),
+                'content': m.get('content', ''),
+                'source': m.get('source', ''),
+                'author': m.get('author', ''),
+                'channel': m.get('channel', ''),
+                'server': m.get('server', ''),
+                'timestamp': m.get('timestamp', ''),
+                'link': m.get('link', ''),
+            })
+
+        save_index()
+        return jsonify({'indexed': len(meta), 'total_valid': len(valid), 'total_raw': len(messages)})
+    except Exception as e:
+        return jsonify({'error': str(e)}), 500
+
+
+if __name__ == '__main__':
+    load_index()
+    port = int(os.environ.get('VECTOR_DB_PORT', 8099))
+    print(f'[VectorDB] Service running on port {port}')
+    app.run(host='0.0.0.0', port=port)
--- a/wiki-api.py
+++ b/wiki-api.py
@@ -0,0 +1,171 @@
+#!/usr/bin/env python3
+"""Z.ai Wiki KB Search API - token-protected"""
+import json, os, sys, urllib.parse, hashlib
+from http.server import HTTPServer, BaseHTTPRequestHandler
+
+KB_PATH = "/opt/blog/wiki-kb.json"
+TOKEN_PATH = "/opt/blog/.wiki-api-token"
+PORT = 8097
+LOG_PATH = "/opt/blog/data/search-logs.json"
+MAX_LOG_ENTRIES = 5000
+
+def load_logs():
+    if os.path.exists(LOG_PATH):
+        try:
+            with open(LOG_PATH) as f:
+                return json.load(f)
+        except:
+            pass
+    return []
+
+def save_logs(logs):
+    os.makedirs(os.path.dirname(LOG_PATH), exist_ok=True)
+    # Keep only last MAX_LOG_ENTRIES
+    with open(LOG_PATH, 'w') as f:
+        json.dump(logs[-MAX_LOG_ENTRIES:], f)
+
+def log_search(source, query, results, meta=None):
+    logs = load_logs()
+    entry = {
+        "ts": __import__('time').strftime("%Y-%m-%dT%H:%M:%SZ"),
+        "source": source,
+        "query": query,
+        "result_count": len(results) if isinstance(results, list) else 0,
+        "top_results": [
+            {"q": r.get("q", r.get("content", ""))[:100], "score": r.get("score", 0), "source": r.get("source", "")}
+            for r in (results[:3] if isinstance(results, list) else [])
+        ],
+    }
+    if meta:
+        entry["meta"] = meta
+    logs.append(entry)
+    save_logs(logs)
+    return entry
+
+
+
+# Load or generate token
+def load_token():
+    if os.path.exists(TOKEN_PATH):
+        with open(TOKEN_PATH) as f:
+            return f.read().strip()
+    return None
+
+API_TOKEN = load_token()
+
+with open(KB_PATH) as f:
+    KB = json.load(f)
+
+def search_kb(query, topic=None, limit=20):
+    query_lower = query.lower()
+    query_words = set(query_lower.split())
+    results = []
+    for entry in KB:
+        score = 0
+        q_text = entry.get("q", "").lower()
+        a_text = entry.get("a", "").lower()
+        q_words = set(q_text.split())
+        a_words = set(a_text.split())
+        score += len(query_words & q_words) * 3
+        score += len(query_words & a_words) * 1
+        if query_lower in q_text: score += 10
+        if query_lower in a_text: score += 5
+        if topic and entry.get("topic", "").lower() != topic.lower(): score -= 50
+        if score > 0:
+            results.append({**entry, "score": score})
+    results.sort(key=lambda x: -x["score"])
+    return results[:limit]
+
+def check_auth(params, headers):
+    if not API_TOKEN:
+        return False
+    # Check query param ?token=...
+    token = params.get("token", [""])[0]
+    if token == API_TOKEN:
+        return True
+    # Check header Authorization: Bearer ...
+    auth = headers.get("Authorization", "")
+    if auth.startswith("Bearer "):
+        if auth[7:] == API_TOKEN:
+            return True
+    # Check header X-API-Key
+    api_key = headers.get("X-Api-Key", "")
+    if api_key == API_TOKEN:
+        return True
+    return False
+
+class Handler(BaseHTTPRequestHandler):
+    def do_GET(self):
+        parsed = urllib.parse.urlparse(self.path)
+        params = urllib.parse.parse_qs(parsed.query)
+
+        if not check_auth(params, self.headers):
+            self.send_response(401)
+            self.send_header("Content-Type", "application/json")
+            self.send_header("Access-Control-Allow-Origin", "*")
+            self.end_headers()
+            self.wfile.write(json.dumps({"error": "Unauthorized. Provide ?token=YOUR_TOKEN or Authorization: Bearer YOUR_TOKEN"}).encode())
+            return
+
+        if parsed.path == "/search":
+            query = params.get("q", [""])[0]
+            topic = params.get("topic", [None])[0]
+            limit = int(params.get("limit", [20])[0])
+            if not query:
+                body = json.dumps({"error": "Missing ?q= parameter"}).encode()
+            else:
+                results = search_kb(query, topic, limit)
+                log_search("kb", query, results, {"topic": topic, "limit": limit, "ip": self.headers.get("X-Real-IP", self.client_address[0])})
+                body = json.dumps({"query": query, "count": len(results), "results": results}, ensure_ascii=False).encode()
+        elif parsed.path == "/kb":
+            body = json.dumps(KB, ensure_ascii=False).encode()
+        elif parsed.path == "/logs":
+            logs = load_logs()
+            body = json.dumps({"total": len(logs), "logs": logs[::-1]}, ensure_ascii=False).encode()
+        else:
+            self.send_response(404)
+            self.end_headers()
+            return
+
+        self.send_response(200)
+        self.send_header("Content-Type", "application/json")
+        self.send_header("Access-Control-Allow-Origin", "*")
+        self.send_header("Content-Length", len(body))
+        self.end_headers()
+        self.wfile.write(body)
+
+    def do_DELETE(self):
+        parsed = urllib.parse.urlparse(self.path)
+        params = urllib.parse.parse_qs(parsed.query)
+        if not check_auth(params, self.headers):
+            self.send_response(401)
+            self.send_header("Content-Type", "application/json")
+            self.send_header("Access-Control-Allow-Origin", "*")
+            self.end_headers()
+            self.wfile.write(json.dumps({"error": "Unauthorized"}).encode())
+            return
+        if parsed.path == "/logs":
+            save_logs([])
+            self.send_response(200)
+            self.send_header("Content-Type", "application/json")
+            self.send_header("Access-Control-Allow-Origin", "*")
+            self.end_headers()
+            self.wfile.write(json.dumps({"cleared": True}).encode())
+            return
+        self.send_response(404)
+        self.end_headers()
+
+    def do_OPTIONS(self):
+        self.send_response(200)
+        self.send_header("Access-Control-Allow-Origin", "*")
+        self.send_header("Access-Control-Allow-Methods", "GET, POST, DELETE, OPTIONS")
+        self.send_header("Access-Control-Allow-Headers", "Authorization, X-Api-Key, Content-Type")
+        self.end_headers()
+
+    def log_message(self, format, *args):
+        pass
+
+if __name__ == "__main__":
+    print(f"Wiki KB API running on port {PORT}")
+    server = HTTPServer(("127.0.0.1", PORT), Handler)
+    server.serve_forever()
--- a/wiki-chat-proxy.py
+++ b/wiki-chat-proxy.py
@@ -0,0 +1,54 @@
+#!/usr/bin/env python3
+"""Wiki Chat Proxy - Proxies chat requests to z.ai GLM-4-Plus"""
+
+import json
+import os
+import urllib.request
+
+ZAI_TOKEN = os.environ.get('ZAI_API_TOKEN', '')
+
+def handler(event):
+    try:
+        if event.get('method') != 'POST':
+            return {'status': 405, 'body': 'Method not allowed'}
+        
+        body = json.loads(event.get('body', '{}'))
+        messages = body.get('messages', [])
+        
+        if not messages:
+            return {'status': 400, 'body': json.dumps({'error': 'messages required'})}
+        
+        api_url = 'https://api.z.ai/api/coding/paas/v4/chat/completions'
+        
+        payload = json.dumps({
+            'model': 'glm-4-plus',
+            'messages': messages,
+            'temperature': 0.7,
+            'max_tokens': 2000,
+        }).encode()
+        
+        headers = {'Content-Type': 'application/json'}
+        if ZAI_TOKEN:
+            headers['Authorization'] = 'Bearer ' + ZAI_TOKEN
+        
+        req = urllib.request.Request(api_url, data=payload, headers=headers, method='POST')
+        
+        try:
+            with urllib.request.urlopen(req, timeout=60) as resp:
+                data = json.loads(resp.read().decode())
+                content = data.get('choices', [{}])[0].get('message', {}).get('content', '')
+                return {
+                    'status': 200,
+                    'headers': {'Content-Type': 'application/json'},
+                    'body': json.dumps({'response': content})
+                }
+        except urllib.error.HTTPError as e:
+            err_body = e.read().decode() if e.fp else ''
+            try:
+                err_json = json.loads(err_body)
+                err_msg = err_json.get('error', {}).get('message', err_json.get('message', str(e)))
+            except:
+                err_msg = str(e)
+            return {'status': e.code, 'body': json.dumps({'error': err_msg})}
+    except Exception as e:
+        return {'status': 500, 'body': json.dumps({'error': str(e)})}
--- a/wiki-chat-server.py
+++ b/wiki-chat-server.py
@@ -0,0 +1,90 @@
+#!/usr/bin/env python3
+"""Wiki Chat LLM Proxy Server on port 8098 using Flask"""
+
+import json
+import os
+import urllib.request
+from flask import Flask, request, jsonify, make_response
+
+app = Flask(__name__)
+
+ZAI_TOKEN = os.environ.get('ZAI_API_TOKEN', '')
+
+@app.after_request
+def add_cors(response):
+    h = 'Access-Control-Allow-Origin'
+    response.headers[h] = '*'
+    response.headers['Access-Control-Allow-Methods'] = 'POST, OPTIONS'
+    response.headers['Access-Control-Allow-Headers'] = 'Content-Type, Authorization'
+    return response
+
+def call_zai(messages, token=None):
+    api_url = 'https://api.z.ai/api/coding/paas/v4/chat/completions'
+    payload = json.dumps({
+        'model': 'glm-4-plus',
+        'messages': messages,
+        'temperature': 0.7,
+        'max_tokens': 2000,
+    }).encode()
+    headers = {'Content-Type': 'application/json'}
+    if token:
+        headers['Authorization'] = 'Bearer ' + token
+    req = urllib.request.Request(api_url, data=payload, headers=headers, method='POST')
+    with urllib.request.urlopen(req, timeout=60) as resp:
+        data = json.loads(resp.read().decode())
+        return data.get('choices', [{}])[0].get('message', {}).get('content', '')
+
+@app.route('/chat/wiki', methods=['POST', 'OPTIONS'])
+def chat_wiki():
+    if request.method == 'OPTIONS':
+        return make_response('', 200)
+    try:
+        body = request.get_json(force=True)
+        messages = body.get('messages', [])
+        if not messages:
+            return jsonify({'error': 'messages required'}), 400
+        token = body.get('token') or ZAI_TOKEN
+        if not token:
+            return jsonify({'error': 'No token provided'}), 401
+        content = call_zai(messages, token)
+        return jsonify({'response': content})
+    except urllib.error.HTTPError as e:
+        err_body = e.read().decode() if e.fp else ''
+        try:
+            err_json = json.loads(err_body)
+            err_msg = err_json.get('error', {}).get('message', err_json.get('message', str(e)))
+        except Exception:
+            err_msg = str(e)
+        return jsonify({'error': err_msg}), e.code
+    except Exception as e:
+        return jsonify({'error': str(e)}), 500
+
+@app.route('/chat/wiki-tunnel', methods=['POST', 'OPTIONS'])
+def chat_wiki_tunnel():
+    if request.method == 'OPTIONS':
+        return make_response('', 200)
+    try:
+        body = request.get_json(force=True)
+        messages = body.get('messages', [])
+        if not messages:
+            return jsonify({'error': 'messages required'}), 400
+        token = ZAI_TOKEN
+        if not token:
+            return jsonify({'error': 'No server token configured. Use Token mode and paste your API key.'}), 503
+        content = call_zai(messages, token)
+        return jsonify({'response': content})
+    except urllib.error.HTTPError as e:
+        err_body = e.read().decode() if e.fp else ''
+        try:
+            err_json = json.loads(err_body)
+            err_msg = err_json.get('error', {}).get('message', err_json.get('message', str(e)))
+        except Exception:
+            err_msg = str(e)
+        return jsonify({'error': err_msg}), e.code
+    except Exception as e:
+        return jsonify({'error': str(e)}), 500
+
+if __name__ == '__main__':
+    port = int(os.environ.get('WIKI_CHAT_PORT', 8098))
+    print(f'[WikiChat] LLM proxy running on port {port}')
+    app.run(host='0.0.0.0', port=port)
--- a/wiki-vector-chat.py
+++ b/wiki-vector-chat.py
@@ -0,0 +1,503 @@
+#!/usr/bin/env python3
+"""Wiki VectorDB Chat — Multi-Provider AI Chat with RAG (KB + VectorDB).
+
+Serves at port 8770, proxied via nginx at /zportal/wiki/api/chat
+Uses wiki-api (:8097) for KB search and vector-db (:8099) for vector search.
+"""
+
+import asyncio
+import json
+import os
+import re
+import time
+import urllib.request
+from pathlib import Path
+
+PROVIDERS_FILE = Path("/opt/blog/wiki-chat-providers.json")
+CUSTOM_PROVIDERS_FILE = Path("/opt/blog/wiki-chat-providers.json")
+
+WIKI_API = "http://127.0.0.1:8097"
+VECTOR_DB = "http://127.0.0.1:8099"
+
+# Shared API token for wiki-api and vector-db
+_API_TOKEN = ""
+try:
+    _API_TOKEN = Path("/opt/blog/.wiki-api-token").read_text().strip()
+except Exception:
+    pass
+
+PRESETS = [
+    {
+        "id": "zai-coding",
+        "name": "Z.ai Coding Plan",
+        "base_url": "https://api.z.ai/api/coding/paas/v4",
+        "model": "glm-4-plus",
+        "format": "openai",
+        "icon": "\u26a1",
+        "description": "Official Z.ai coding plan API",
+    },
+    {
+        "id": "openadapter",
+        "name": "OpenAdapter",
+        "base_url": "https://api.openadapter.com/v1",
+        "model": "gpt-4o-mini",
+        "format": "openai",
+        "icon": "\u1f512",
+        "description": "OpenAdapter unified API",
+    },
+    {
+        "id": "openrouter",
+        "name": "OpenRouter",
+        "base_url": "https://openrouter.ai/api/v1",
+        "model": "anthropic/claude-sonnet-4",
+        "format": "openrouter",
+        "icon": "\u1f6e3",
+        "description": "Model router across providers",
+    },
+    {
+        "id": "crofai",
+        "name": "Crof.AI",
+        "base_url": "https://api.crof.ai/v1",
+        "model": "crof-4-plus",
+        "format": "openai",
+        "icon": "\u1f42a",
+        "description": "Crof AI models",
+    },
+    {
+        "id": "opencode-zen",
+        "name": "Opencode Zen",
+        "base_url": "https://api.zen.opencode.com/v1",
+        "model": "glm-4-plus",
+        "format": "openai",
+        "icon": "\u1f9e0",
+        "description": "Opencode Zen hosted models",
+    },
+]
+
+
+def load_custom_providers():
+    try:
+        if CUSTOM_PROVIDERS_FILE.exists():
+            return json.loads(CUSTOM_PROVIDERS_FILE.read_text())
+    except Exception:
+        pass
+    return []
+
+
+def save_custom_providers(providers):
+    CUSTOM_PROVIDERS_FILE.write_text(json.dumps(providers, indent=2))
+
+
+def get_all_providers():
+    """Return presets + custom providers."""
+    custom = load_custom_providers()
+    seen = {p["id"] for p in PRESETS}
+    result = list(PRESETS)
+    for p in custom:
+        if p.get("id") not in seen:
+            seen.add(p["id"])
+            result.append(p)
+    return result
+
+
+def detect_provider_format(base_url: str) -> str:
+    from urllib.parse import urlparse
+    host = urlparse(base_url).hostname.lower()
+    if "ollama" in host or host in ("localhost", "127.0.0.1"):
+        return "ollama"
+    if "anthropic" in host:
+        return "anthropic"
+    if "openrouter" in host:
+        return "openrouter"
+    if "groq" in host:
+        return "groq"
+    return "openai"
+
+
+async def search_kb(query: str, limit: int = 3) -> str:
+    """Search wiki-kb.json via wiki-api."""
+    try:
+        url = f"{WIKI_API}/search?q={urllib.parse.quote(query)}&limit={limit}&token={_API_TOKEN}"
+        req = urllib.request.Request(url)
+        with urllib.request.urlopen(req, timeout=5) as resp:
+            data = json.loads(resp.read())
+            results = data.get("results", [])
+            if not results:
+                return ""
+            lines = []
+            for r in results[:limit]:
+                q_text = r.get("q", "")
+                a_text = r.get("a", "")
+                topic = r.get("topic", "")
+                score = r.get("_score", 0)
+                lines.append(f"[{topic}] Q: {q_text}\nA: {a_text}")
+            return "\n\n".join(lines)
+    except Exception as e:
+        return f"(KB search error: {e})"
+
+
+async def search_vector(query: str, top_k: int = 5) -> str:
+    """Search vector-db for related Discord/Reddit messages."""
+    try:
+        data = json.dumps({"query": query, "top_k": top_k}).encode()
+        req = urllib.request.Request(
+            f"{VECTOR_DB}/vector/search",
+            data=data,
+            headers={"Content-Type": "application/json", "x-api-key": _API_TOKEN},
+        )
+        with urllib.request.urlopen(req, timeout=8) as resp:
+            result = json.loads(resp.read())
+            hits = result.get("results", [])
+            if not hits:
+                return ""
+            lines = []
+            for h in hits[:top_k]:
+                text = h.get("text", "")[:300]
+                score = h.get("score", 0)
+                source = h.get("source", "unknown")
+                meta = h.get("metadata", {})
+                author = meta.get("author", "")
+                channel = meta.get("channel", "")
+                preview = text.replace("\n", " ")[:200]
+                lines.append(f"[{source}] @{author} in #{channel}: {preview}  (score: {score:.2f})")
+            return "\n\n".join(lines)
+    except Exception as e:
+        return f"(Vector search error: {e})"
+
+
+async def build_rag_context(user_message: str, rag_wiki: bool = True, rag_vector: bool = True) -> str:
+    """Build RAG context from KB + VectorDB searches."""
+    kb_results = ""
+    vec_results = ""
+    tasks = []
+    if rag_wiki:
+        tasks.append(search_kb(user_message, 3))
+    if rag_vector:
+        tasks.append(search_vector(user_message, 5))
+
+    if tasks:
+        results = await asyncio.gather(*tasks)
+        idx = 0
+        if rag_wiki:
+            kb_results = results[idx]; idx += 1
+        if rag_vector:
+            vec_results = results[idx]
+
+    parts = [
+        "You are Z.ai Wiki Assistant. Use ALL the knowledge sources below to answer the user's question.",
+        "Draw from both the Wiki KB and Community Messages. Synthesize information even from partial matches.",
+        "If the context mentions anything relevant, include it in your answer. Be specific — quote authors, channels, and details when available.",
+        "Only say you don't have information if the sources are truly empty or completely unrelated.",
+        "",
+    ]
+    if rag_wiki:
+        parts += ["=== Wiki Knowledge Base ===", kb_results or "(no KB results found)", ""]
+    if rag_vector:
+        parts += ["=== Related Community Messages (Discord/Reddit) ===", vec_results or "(no community messages found)"]
+    if not rag_wiki and not rag_vector:
+        parts.append("(RAG sources disabled for this session)")
+    return "\n".join(parts)
+
+
+# ── LLM Provider Calls ──
+
+def format_messages_openai(system: str, messages: list, model: str) -> dict:
+    """Format for OpenAI-compatible /chat/completions endpoint."""
+    return {"model": model, "messages": [{"role": "system", "content": system}] + messages,
+            "temperature": 0.7, "max_tokens": 2048, "stream": True}
+
+
+def format_messages_anthropic(system: str, messages: list, model: str) -> dict:
+    """Convert OpenAI-format messages to Anthropic format."""
+    anthropic_msgs = []
+    for m in messages:
+        role = "user" if m["role"] == "user" else "assistant"
+        anthropic_msgs.append({"role": role, "content": m["content"]})
+    return {"model": model, "system": system, "messages": anthropic_msgs,
+            "max_tokens": 2048, "stream": True}
+
+
+def format_messages_ollama(system: str, messages: list, model: str) -> dict:
+    """Format for Ollama /api/chat endpoint."""
+    ollama_msgs = []
+    for m in messages:
+        role = "user" if m["role"] == "user" else "assistant"
+        ollama_msgs.append({"role": role, "content": m["content"]})
+    return {"model": model, "messages": ollama_msgs, "stream": True}
+
+
+async def call_llm_stream(provider: dict, system: str, messages: list):
+    """Call LLM provider and yield SSE delta chunks."""
+    base_url = provider["base_url"].rstrip("/")
+    fmt = provider.get("format", detect_provider_format(base_url))
+    api_key = provider.get("api_key", "")
+    model = provider.get("model", "gpt-4o-mini")
+
+    if fmt == "anthropic":
+        payload = format_messages_anthropic(system, messages, model)
+        url = f"{base_url}/v1/messages"
+        headers = {"x-api-key": api_key, "Content-Type": "application/json",
+                  "anthropic-version": "2023-06-01"}
+    elif fmt == "ollama":
+        payload = format_messages_ollama(system, messages, model)
+        url = f"{base_url}/api/chat"
+        headers = {"Content-Type": "application/json"}
+    else:
+        # openai / openrouter / groq / default
+        payload = format_messages_openai(system, messages, model)
+        url = f"{base_url}/chat/completions"
+        headers = {}
+        if api_key:
+            headers["Authorization"] = f"Bearer {api_key}"
+        if fmt == "openrouter":
+            headers["HTTP-OpenRouter-AI-Model"] = model
+        headers["Content-Type"] = "application/json"
+
+    data = json.dumps(payload).encode()
+    req = urllib.request.Request(url, data=data, headers=headers)
+
+    try:
+        with urllib.request.urlopen(req, timeout=60) as resp:
+            reader = resp
+            buf = b""
+            while True:
+                chunk = reader.read(4096)
+                if not chunk:
+                    break
+                buf += chunk
+                while b"\n" in buf:
+                    line, buf = buf.split(b"\n", 1)
+                    line = line.decode("utf-8", errors="replace").strip()
+                    if not line:
+                        continue
+                    if line.startswith("data: "):
+                        data_str = line[5:].strip()
+                        if data_str == "[DONE]":
+                            yield {"type": "done"}
+                            return
+                        try:
+                            chunk_data = json.loads(data_str)
+                        except json.JSONDecodeError:
+                            yield {"delta": data_str, "type": "raw"}
+                            continue
+
+                        # Anthropic SSE format
+                        if fmt == "anthropic":
+                            evt_type = chunk_data.get("type", "")
+                            if evt_type == "content_block_delta":
+                                text = chunk_data.get("delta", {}).get("text", "")
+                                if text:
+                                    yield {"delta": text, "type": "delta"}
+                            elif evt_type == "message_stop":
+                                yield {"type": "done"}
+                                return
+                            elif evt_type == "error":
+                                err_msg = chunk_data.get("error", {}).get("message", str(chunk_data))
+                                yield {"type": "error", "delta": err_msg}
+                                return
+                            continue
+
+                        # OpenAI-compatible SSE format
+                        deltas = chunk_data.get("choices", [{}])[0].get("delta", {})
+                        content = deltas.get("content", "")
+                        if content:
+                            yield {"delta": content, "type": "delta"}
+                        tool_calls = deltas.get("tool_calls")
+                        if tool_calls:
+                            names = [tc.get("function", {}).get("name", "?") for tc in tool_calls]
+                            yield {"delta": f"\n[Using tools: {', '.join(names)}]", "type": "tool"}
+                        finish = chunk_data.get("finish_reason")
+                        if finish:
+                            yield {"type": "done"}
+                    elif line.startswith("event:"):
+                        pass  # SSE event name, skip
+    except urllib.error.HTTPError as e:
+        body = e.read().decode("utf-8", errors="replace")[:500]
+        yield {"type": "error", "delta": f"HTTP {e.code}: {body}"}
+    except Exception as e:
+        yield {"type": "error", "delta": str(e)}
+
+
+# ── FastAPI App ──
+
+try:
+    from fastapi import FastAPI
+    from fastapi.responses import StreamingResponse, JSONResponse, Response
+    from pydantic import BaseModel
+except ImportError:
+    print("Installing fastapi...")
+    os.system("pip install fastapi uvicorn httpx -q")
+    from fastapi import FastAPI
+    from fastapi.responses import StreamingResponse, JSONResponse, Response
+    from pydantic import BaseModel
+
+app = FastAPI(title="Wiki VectorDB Chat")
+
+
+class ChatMessage(BaseModel):
+    message: str
+    provider_id: str = "zai-coding"
+    history: list = []
+    rag_wiki: bool = True
+    rag_vector: bool = True
+    mode: str = "chat"
+
+
+class ProviderSave(BaseModel):
+    id: str
+    name: str
+    base_url: str
+    model: str
+    api_key: str = ""
+    format: str = "openai"
+    icon: str = "\u2b99"
+    description: str = ""
+
+
+@app.get("/providers/presets")
+async def get_presets():
+    return PRESETS
+
+
+@app.get("/providers")
+async def list_providers():
+    return get_all_providers()
+
+
+@app.post("/providers/save")
+async def save_provider(p: ProviderSave):
+    custom = load_custom_providers()
+    p_dict = p.model_dump()
+    # Update or append
+    found = False
+    for i, existing in enumerate(custom):
+        if existing.get("id") == p.id:
+            custom[i] = p_dict
+            found = True
+            break
+    if not found:
+        custom.append(p_dict)
+    save_custom_providers(custom)
+    return {"ok": True, "provider": p_dict}
+
+
+@app.delete("/providers/{provider_id}")
+async def delete_provider(provider_id: str):
+    custom = load_custom_providers()
+    custom = [p for p in custom if p.get("id") != provider_id]
+    save_custom_providers(custom)
+    return {"ok": True}
+
+
+@app.post("/chat/message")
+async def chat_message(msg: ChatMessage):
+    async def generate():
+        providers = get_all_providers()
+        provider = next((p for p in providers if p.get("id") == msg.provider_id), None)
+        if not provider:
+            yield f"data: {json.dumps({'type':'error','delta':'Provider not found'})}\n\n"
+            return
+
+        # Build conversation history
+        messages = []
+        for h in msg.history[-10:]:
+            messages.append(h)
+
+        messages.append({"role": "user", "content": msg.message})
+
+        # Build RAG context with per-session toggles
+        rag_context = await build_rag_context(msg.message, msg.rag_wiki, msg.rag_vector)
+
+        # Mode-specific system prompt additions
+        mode_hints = {
+            "chat": "",
+            "code": "\n\nMODE: Coding. The user is working on code. Provide precise, well-structured code examples with explanations. Use markdown code blocks. Be concise and technical.",
+            "brain": "\n\nMODE: Brainstorm. The user wants creative exploration. Think freely, offer multiple perspectives, suggest unconventional approaches. Be enthusiastic and expansive.",
+        }
+        system_prompt = rag_context + mode_hints.get(msg.mode, "")
+
+        async for chunk in call_llm_stream(provider, system_prompt, messages):
+            data = json.dumps(chunk, ensure_ascii=False)
+            yield f"data: {data}\n\n"
+        yield f"data: {json.dumps({'type':'done'})}\n\n"
+
+    return StreamingResponse(generate(), media_type="text/event-stream",
+                                headers={"Cache-Control": "no-cache", "X-Accel-Buffering": "no"})
+
+
+@app.post("/chat/tunnel")
+async def chat_tunnel(msg: ChatMessage):
+    """Server-side token chat — uses ZAI_API_TOKEN env var if available."""
+    async def generate():
+        providers = get_all_providers()
+        provider = next((p for p in providers if p.get("id") == msg.provider_id), None)
+        if not provider:
+            yield f"data: {json.dumps({'type':'error','delta':'Provider not found'})}\n\n"
+            return
+
+        # Use server-side token if available (for tunnel mode)
+        token = os.environ.get("ZAI_API_TOKEN", "")
+        if token and not provider.get("api_key"):
+            provider = dict(provider)
+            provider["api_key"] = token
+
+        messages = []
+        for h in msg.history[-10:]:
+            messages.append(h)
+        messages.append({"role": "user", "content": msg.message})
+
+        rag_context = await build_rag_context(msg.message)
+
+        async for chunk in call_llm_stream(provider, rag_context, messages):
+            data = json.dumps(chunk, ensure_ascii=False)
+            yield f"data: {data}\n\n"
+        yield f"data: {json.dumps({'type':'done'})}\n\n"
+
+    return StreamingResponse(generate(), media_type="text/event-stream",
+                                headers={"Cache-Control": "no-cache", "X-Accel-Buffering": "no"})
+
+
+@app.get("/health")
+async def health():
+    return {"status": "ok", "providers": len(get_all_providers())}
+
+
+class WikiSave(BaseModel):
+    question: str
+    answer: str
+    topic: str = "chat-saved"
+
+
+@app.post("/chat/save-to-wiki")
+async def save_to_wiki(item: WikiSave):
+    """Save a Q&A pair directly to wiki-kb.json."""
+    try:
+        kb_path = Path("/opt/blog/wiki-kb.json")
+        kb = json.loads(kb_path.read_text())
+        entry = {
+            "q": item.question,
+            "a": item.answer,
+            "topic": item.topic,
+            "author": "chat-assistant",
+            "source": "chat-saved",
+            "timestamp": time.strftime("%Y-%m-%d %H:%M"),
+        }
+        kb.append(entry)
+        kb_path.write_text(json.dumps(kb, ensure_ascii=False, indent=2))
+        return {"ok": True, "total": len(kb)}
+    except Exception as e:
+        return {"ok": False, "error": str(e)}
+
+
+def main():
+    import uvicorn
+    port = 8770
+    for i, arg in enumerate(__import__("sys").argv):
+        if arg == "--port" and i + 1 < len(__import__("sys").argv):
+            port = int(__import__("sys").argv[i + 1])
+    print(f"Wiki VectorDB Chat starting on port {port}")
+    uvicorn.run(app, host="127.0.0.1", port=port, log_level="warning")
+
+
+if __name__ == "__main__":
+    main()
--- a/zportal-chat.html
+++ b/zportal-chat.html