# PHIGENESIS — Phi-Generative Knowledge Synthesis Standard v1

**Estándar Abierto de Síntesis de Conocimiento Phi-Estructurado para Agentes AI**

**Versión:** 1.0
**Estado:** Aprobado para Wave 1 (lanzamiento 29 mayo 2026)
**Autores:** John Romo (FractalAI founder) + Claude Opus 4.7 (1M context)
**Licencia:** CC BY 4.0 (especificación) + MIT (implementaciones de referencia)
**Repositorio de referencia:** `blockchain/node/src/neural_chat.rs` (PhiGenesisNeverFail) + `blockchain/node/src/phi_rag.rs`

---

## 0. Aviso de honestidad técnica

Este documento describe un protocolo de síntesis de conocimiento con implementación de referencia verificada en producción. Las afirmaciones técnicas están respaldadas por código abierto auditable y comportamiento observable. Lo que NO podemos demostrar empíricamente está marcado como roadmap.

PHIGENESIS no garantiza respuestas correctas — garantiza respuestas **honestas** que combinan conocimiento verificado con admisión explícita de lo desconocido, en vez del patrón estándar de la industria de **respuestas vacías** ("no tengo información") o **alucinaciones** (información inventada con apariencia de certeza).

---

## 1. Resumen

PHIGENESIS (Phi-Generative Neural Evolution through Structured Intelligence Synthesis) es un estándar abierto de tres capas que permite a un agente AI proporcionar **respuestas útiles incluso cuando no posee información perfecta** sobre la consulta, sin inventar contenido.

### En una frase

> "El agente combina fragmentos de conocimiento verificado relacionado con la consulta usando pesos phi-ponderados, retornando síntesis honesta en vez de 'no sé' o alucinación."

### Propiedades clave

| Propiedad | Valor |
|---|---|
| Capas independientes | 3 (Genesis Corpus + Phi-Synthesis + Living Graph) |
| Latencia adicional sobre respuesta directa | < 50ms (phi_synthesis_compose) |
| Dependencia de modelo externo | Cero (sin llamadas API) |
| Verificabilidad | Cada fragmento contribuyente queda en log |
| Determinismo | Sí — misma consulta + mismo corpus → misma síntesis |
| Memoria adicional | O(número de fragmentos en corpus) — ~50 KB para 200+ entradas |
| Integración con FAIM-1 / ANAMNESIS | Sí — fragmentos sintetizados pasan por verificación previa |
| Licencia | CC BY 4.0 (spec) / MIT (impl) |

---

## 2. Motivación

### El problema

Los agentes AI tradicionales enfrentan tres patrones cuando reciben una consulta para la que no tienen respuesta exacta:

1. **Respuesta vacía**: "No tengo información sobre eso." → UX deficiente. El usuario abandona.
2. **Alucinación**: el modelo inventa una respuesta plausible-sounding sin fundamento. → Falsedad amplificada.
3. **Llamada a modelo externo**: pasa la consulta a un LLM grande con costo, latencia y dependencia de proveedor externo. → No escalable ni verificable.

### La solución PHIGENESIS

En vez de elegir entre vacío, falsedad o dependencia externa, PHIGENESIS introduce una **cuarta opción**: síntesis honesta phi-ponderada desde fragmentos verificados.

La intuición es que un agente puede tener **conocimiento parcial** sobre temas relacionados aunque no tenga la respuesta exacta. PHIGENESIS extrae lo relacionado, lo compone con pesos basados en proporción áurea, y entrega una respuesta que:

- Es útil (contiene contenido real)
- Es honesta (admite explícitamente lo que no sabe)
- Es verificable (cada fragmento tiene fuente trazable)
- Es determinística (la misma consulta produce la misma síntesis)

### Lo que NO promete PHIGENESIS

❌ Respuestas correctas en todos los casos — promete síntesis honesta de lo conocido, no omnisciencia
❌ Reemplazo de modelos grandes (LLMs) — los complementa cuando están disponibles
❌ Conocimiento de dominio arbitrario — requiere corpus inicial curado para cada dominio
❌ Verificación factual automática — eso es trabajo de FAIM-1 / ALETHEIA / ANAMNESIS, no de PHIGENESIS

---

## 3. Arquitectura — Las tres capas

### 3.1 Layer 1 — Genesis Corpus (Conocimiento Semilla Curado)

El **Genesis Corpus** es la base estructurada de conocimiento verificado del agente, organizada como un conjunto de entradas con esquema explícito:

```rust
struct KnowledgeEntry {
    topic: String,           // identificador semántico
    patterns: Vec<String>,   // frases de match (8-15 típicamente)
    answer_en: String,       // respuesta en inglés (300-500 chars)
    answer_es: String,       // respuesta en español (equivalente)
    keywords: Vec<String>,   // términos para retrieval (8-12)
    embedding: Vec<f32>,     // vector semántico precalculado
    priority: f32,           // peso phi-ponderado (1.0 - PHI)
}
```

**Propiedades del Genesis Corpus:**
- **Bilingüe nativo** (ES/EN co-iguales, sin traducción runtime)
- **Multi-modal de retrieval**: patterns (exact) + keywords (token-level) + embeddings (semántico)
- **Phi-ponderado**: entradas críticas tienen `priority` cerca de PHI (1.618), entradas opcionales cerca de 1.0
- **Cargado una sola vez** al arranque del nodo → cero overhead runtime
- **Auditabile**: cada entrada tiene topic identificable y respuesta trazable

### 3.2 Layer 2 — Phi-Synthesis Never-Fail (Composición Honesta)

Cuando una consulta NO encuentra match exacto en el Genesis Corpus, la **Layer 2** entra en acción. En vez de retornar "no sé", invoca `phi_synthesis_compose()`:

```
phi_synthesis_compose(query, lang, block_height) -> SynthesisResult:
  1. Expand query with semantic siblings via PhiRAG (top_k = 8 results)
  2. If PhiRAG returns fragments F = [f1, f2, ..., fk]:
       a. Score each fragment fi by:
            score(fi) = (sem_sim * PHI² + kw_overlap * PHI + truth_score) /
                       (PHI² + PHI + 1) * time_decay(fi.timestamp)
       b. Select top 3 fragments by score
       c. Compose response:
            "Sobre [topic broader]: [fragment_1.content]
             [fragment_2.content]
             [fragment_3.content].
             Estoy profundizando activamente en [specific aspect of query]."
       d. Return composed response with attribution trail
  4. Else (no PhiRAG matches):
       a. Find closest topic match in Genesis Corpus (even if low confidence)
       b. Return: "Aquí está lo que sé sobre [broader topic from corpus]. Estoy
                  aprendiendo activamente sobre [specific aspect from query]."
       c. Register gap in PRKD (Persistent Knowledge Gap Detector)
       d. NEVER return empty or pure "I don't know"
  5. Return (synthesized_response, fragment_attribution_list)
```

**Propiedades clave de Layer 2:**
- **Siempre retorna contenido** — nunca vacío ni puro "no sé"
- **Phi-weighted scoring** — combina similaridad semántica (peso PHI²), overlap de keywords (peso PHI) y truth score base (peso 1)
- **Time decay** — fragmentos más recientes pesan más, evitando contenido stale
- **Honest framing** — siempre incluye el aspecto específico que el agente está "aprendiendo activamente"
- **Trazabilidad completa** — cada respuesta lleva attribution list de fragmentos contribuyentes
- **Cero llamadas externas** — ni LLM ni API; solo cómputo local sobre corpus

### 3.3 Layer 3 — Living Knowledge Graph (Profundización Progresiva)

La **Layer 3** asegura que el corpus crece y se profundiza con cada interacción, manteniendo coherencia y veracidad:

- **Cada respuesta exitosa** crea conexiones en el grafo de conocimiento (PhiRAG retrieves enrichen el graph)
- **Las consultas revelan importancia de tópicos** — temas de alta frecuencia obtienen prioridad en PRKD para profundización
- **ANAMNESIS synaptic gating** asegura que solo conocimiento verificado persiste (ver `ANAMNESIS_PAPER.md`)
- **Phi-Truth Gate** verifica claims antes de assimilation
- **Adopción de fuentes externas** (cuando Gemini u otro LLM se invoca) entra al graph con protección de dominio

**Resultado emergente**: con el tiempo, respuestas a tópicos repetidos se vuelven más profundas y precisas, manteniendo trazabilidad sobre qué fragmentos contribuyeron a la mejora.

---

## 4. Algoritmo de scoring phi-ponderado

El núcleo matemático de la síntesis es la función de score:

```
score(fragment, query) =
    (semantic_similarity(fragment.embedding, query.embedding) * PHI² +
     keyword_overlap(fragment.keywords, query.tokens) * PHI +
     fragment.truth_score) /
    (PHI² + PHI + 1) *
    time_decay(fragment.timestamp, now)

where:
    PHI = 1.618033988749895
    semantic_similarity ∈ [0, 1] (cosine of normalized embeddings)
    keyword_overlap ∈ [0, 1] (Jaccard of token sets)
    truth_score ∈ [0, 1] (assigned by ALETHEIA verification)
    time_decay(t, now) = exp(-λ * (now - t)) for some λ > 0
```

**Por qué pesos phi-ponderados:**
- Similaridad semántica es el indicador más fuerte de relevancia → peso PHI² (≈ 2.618)
- Overlap de keywords es indicador secundario → peso PHI (≈ 1.618)
- Truth score actúa como filtro base → peso 1
- La proporción áurea balancea las tres señales sin que ninguna domine
- Normalización por suma de pesos `(PHI² + PHI + 1)` mantiene score ∈ [0, 1]

---

## 5. Implementación de referencia

| Componente | Ubicación | Función |
|---|---|---|
| `PhiGenesisNeverFail` struct | `blockchain/node/src/neural_chat.rs:948` | Coordinador principal de las 3 capas |
| `build_knowledge_base()` | `blockchain/node/src/neural_chat.rs:1017` | Construcción del Genesis Corpus |
| `build_kb_migration_entries()` | `blockchain/node/src/phi_rag.rs` | Migración bilingüe a PhiRAG |
| `phi_synthesis_compose()` | `blockchain/node/src/neural_chat.rs:1877` | Layer 2 — composición never-fail |
| `phi_genesis_intercept()` | `blockchain/node/src/neural_chat.rs:3296` | Punto de entrada de la cascada |
| PhiRAG engine | `blockchain/node/src/phi_rag.rs` (1,943 LOC) | Retrieval phi-weighted bilingüe |

**Total**: ~120 LOC para la lógica de orchestración PHIGENESIS + reutilización del motor PhiRAG existente. No requiere modificación a ATHENA, ALETHEIA ni a otros módulos.

---

## 6. Integración con otros estándares FractalAI

PHIGENESIS está diseñado para componerse con los otros 6 estándares abiertos de Wave 1:

| Estándar | Cómo integra con PHIGENESIS |
|---|---|
| **FAIM-1** (memoria verificable) | Cada respuesta PHIGENESIS produce un registro FAIM-1 con attribution trail de fragmentos contribuyentes |
| **VAID-1** (decisiones firmadas) | La selección phi-ponderada de fragmentos puede firmarse via VAID-1 para reproducibilidad |
| **FRC-55** (agentes on-chain) | Cualquier agente FRC-55 puede usar PHIGENESIS como su capa de respuestas honestas |
| **ANAMNESIS** (sistema inmune) | Synaptic gating protege a Genesis Corpus de contaminación; contradiction antibodies marcan fragmentos sospechosos |
| **FRAC-ATTN-1** (atención fractal) | La similaridad semántica del scoring puede acelerarse con FRAC-ATTN sobre corpus grandes |
| **FQS-1** (cripto defense-in-depth) | Fragmentos sensibles del corpus pueden cifrarse con QIE v2 antes de almacenamiento |

---

## 7. Casos de uso

### Caso 1 — Asistente de soporte técnico que nunca dice "no sé"

```
Query: "¿Cómo configuro el rate limiting en el módulo X?"
Genesis Corpus: tiene entrada general sobre "rate limiting" pero no específica de módulo X
PhiRAG retrieve: encuentra 3 fragmentos relacionados (configuración general, ejemplos de módulos vecinos, comentarios de usuarios)

Respuesta PHIGENESIS:
  "Sobre rate limiting: [fragmento_1: configuración general con headers x-rate-limit-*].
   En módulos similares se hace via [fragmento_2: ejemplos de módulo Y].
   [fragmento_3: tip de usuario común sobre defaults].
   Estoy profundizando activamente sobre la configuración específica del módulo X — si necesitas
   detalle exacto, recomiendo revisar la documentación reciente o abrir issue."
```

### Caso 2 — Asistente legal sin alucinaciones

```
Query: "¿Aplica la sentencia X a mi caso descrito como Y?"
Genesis Corpus: tiene principios generales del área legal pero no jurisprudencia específica
PhiRAG retrieve: encuentra 3 sentencias relacionadas (vecindad semántica)

Respuesta PHIGENESIS:
  "Sobre tu caso Y: el área legal aplicable es [fragmento_1: principio general].
   Sentencias relacionadas que pueden ser de interés incluyen [fragmento_2, fragmento_3].
   No tengo análisis específico de la sentencia X que mencionas; recomiendo verificación
   con asesor legal humano para tu caso particular."
```

### Caso 3 — Consultor de blockchain que admite gaps de versión

```
Query: "¿Cómo funciona feature Z en versión 3.5 del protocolo?"
Genesis Corpus: tiene Z hasta versión 3.3; versión 3.5 es reciente

Respuesta PHIGENESIS:
  "Feature Z en versiones 3.x: [fragmento_1: funcionamiento en 3.3 con caveat de cambios].
   El cambio principal entre 3.3 y 3.5 [fragmento_2: notas de release publicadas].
   Estoy profundizando activamente en el comportamiento exacto de 3.5 — recomiendo
   validar contra release notes oficiales para tu uso específico."
```

---

## 8. Consideraciones de honestidad y limitaciones

### 8.1 Lo que NO garantiza PHIGENESIS

❌ **Respuestas correctas siempre** — PHIGENESIS sintetiza desde lo que sabe, no inventa lo que no sabe
❌ **Cobertura universal de dominio** — el agente solo puede sintetizar dentro de su Genesis Corpus + fragmentos PhiRAG
❌ **Verificación factual de fragmentos** — eso es trabajo de FAIM-1/ALETHEIA/ANAMNESIS aguas arriba
❌ **Eliminación de necesidad de modelos externos** — para conocimiento out-of-corpus, llamar a un LLM grande sigue siendo válido
❌ **Reemplazo de juicio humano** — los casos de uso 1-3 explícitamente recomiendan verificación humana cuando la stakes son altas

### 8.2 Modo de fallo conocido

Si el Genesis Corpus + PhiRAG no contienen NINGÚN fragmento remotamente relacionado a la consulta, la respuesta degradará a:

```
"No tengo información directa sobre [tópico]. Mi base de conocimiento cubre principalmente
[temas adyacentes según corpus]. Si puedes reformular o dar contexto adicional, puedo
intentar componer una respuesta más útil."
```

Esto es **diseño intencional**: PHIGENESIS prefiere admitir gap explícito que inventar contenido sin fundamento. La promesa es "respuesta honesta", no "respuesta siempre".

### 8.3 Recomendaciones de adopción

- **Corpus inicial mínimo:** ≥ 30 entradas por dominio para que la síntesis tenga material suficiente
- **Bilingüe desde el día 1:** evitar locked-in a un idioma único
- **PRKD activo:** detectar y registrar gaps recurrentes para priorizar profundización del corpus
- **Phi-Truth Gate aguas arriba:** sin verificación factual previa, PHIGENESIS amplifica errores del corpus
- **Auditabilidad:** mantener log de attribution para cada respuesta sintetizada (permite revisión post-hoc)

---

## 9. Comparación con enfoques existentes

| Enfoque | Lo que hace | Limitación principal | PHIGENESIS vs |
|---|---|---|---|
| **RAG clásico** | Retrieve + concatenate fragments | No fusiona contenido — solo concatena con prompts | PHIGENESIS hace síntesis phi-ponderada con honest framing explícito |
| **"I don't know" fallback** | Retorna mensaje vacío si no hay match | UX deficiente, usuario abandona | PHIGENESIS siempre retorna contenido útil con admisión honesta |
| **Pure LLM generation** | Genera respuesta sin base de conocimiento | Alucinación frecuente | PHIGENESIS ancla cada fragment en corpus verificable |
| **Triple-store + SPARQL** | Querying estructurado de grafos | Requiere ontología formal por dominio | PHIGENESIS funciona sobre fragmentos no-estructurados con scoring semántico |
| **Chain-of-Thought** | LLM razona antes de responder | Mismo problema de alucinación | PHIGENESIS no genera razonamiento — sintetiza desde verificado |
| **PHIGENESIS** | Síntesis honesta phi-ponderada de fragmentos verificados | Requiere corpus inicial curado | — |

La combinación de "phi-weighted scoring + honest framing + cero llamadas externas + trazabilidad por fragment" es **novedosa al momento de publicación**.

---

## 10. Conformidad y certificación

Una implementación es **PHIGENESIS conforme** si:

1. Implementa las tres capas (Genesis Corpus + Phi-Synthesis Never-Fail + Living Knowledge Graph)
2. Usa scoring phi-ponderado con los pesos canónicos `(PHI², PHI, 1)`
3. NUNCA retorna respuesta vacía a una consulta válida — siempre retorna síntesis o admisión honesta con contexto
4. Mantiene attribution trail por respuesta sintetizada (auditabilidad)
5. Bilingüe nativo (ES/EN como mínimo, idealmente extensible a más idiomas)
6. Cero llamadas externas en el path de síntesis (modelos externos solo aguas abajo opcional)

El repositorio de referencia mantiene los test vectors canónicos. Implementaciones conformes deben producir composiciones equivalentes (no necesariamente byte-exact dada la naturaleza textual, pero semánticamente equivalentes) para los mismos corpus + queries.

---

## 11. Roadmap

### Wave 1 (29 mayo 2026 — LANZAMIENTO)

- ✅ Spec publicado (este documento)
- ✅ Genesis Corpus implementado (`neural_chat.rs:1017`)
- ✅ Phi-Synthesis Never-Fail implementado (`neural_chat.rs:1877`)
- ✅ PhiRAG bilingüe operativo (`phi_rag.rs`, 1,943 LOC)
- ✅ Integración con ANAMNESIS para protección de corpus

### Wave 2 (junio-julio 2026)

- [ ] Multi-idioma extendido (PT/FR/DE/ZH/JA además de ES/EN)
- [ ] API HTTP para PHIGENESIS standalone (`/v1/phigenesis/synthesize`)
- [ ] Métricas públicas de attribution coverage por dominio
- [ ] Ontología opcional para dominios donde semántica estructurada existe
- [ ] Federated knowledge graph entre nodos FractalAI

### Wave 3 (Q3 2026)

- [ ] Implementaciones de referencia en Python, TypeScript, Go
- [ ] Auditoría externa de coherencia entre spec e implementación
- [ ] Estudio empírico publicado: PHIGENESIS vs RAG clásico en benchmarks estándar
- [ ] Extensión multimodal: síntesis sobre fragmentos texto + imagen + audio

---

## 12. Licencias y gobernanza

- **Especificación (este documento)**: Creative Commons CC BY 4.0
  - Permitido: copiar, modificar, redistribuir; requiere atribución
- **Implementaciones de referencia (código)**: MIT License
  - Permitido: uso comercial sin restricciones, incluso modificado

### Proceso de evolución

1. Issues / propuestas se discuten en https://github.com/johnInarti/FRACTAL-AI
2. Cambios incompatibles → nueva versión major (PHIGENESIS-1 → PHIGENESIS-2)
3. Cambios compatibles → minor (PHIGENESIS-1.0 → PHIGENESIS-1.1)
4. Ratificación requiere: implementación de referencia actualizada + tests + 30 días de comentarios públicos

### Contribuir

Cualquiera puede:
- Implementar PHIGENESIS en cualquier lenguaje
- Proponer mejoras vía pull request o issue
- Auditar el spec y publicar críticas (lo invitamos explícitamente)
- Forkar y desarrollar variantes

---

## 13. Compromiso con la honestidad técnica (Alignment Boundary)

### Lo que NO afirmamos públicamente

❌ "PHIGENESIS resuelve el problema de alucinación AI" — lo mitiga al anclar respuestas en fragmentos verificados, pero la verificación es responsabilidad de la capa upstream
❌ "Respuesta correcta garantizada" — la garantía es honestidad, no corrección
❌ "Reemplazo de RAG" — es una evolución del RAG con honest framing y phi-weighting
❌ "Funciona sin corpus inicial" — requiere ≥30 entradas curadas por dominio para síntesis útil
❌ "Verificación factual built-in" — eso lo hace FAIM-1/ALETHEIA/ANAMNESIS

### Lo que SÍ afirmamos (con respaldo)

✅ "Síntesis honesta phi-ponderada con cero llamadas externas en el path crítico" — verificable en código
✅ "Spec abierto bajo CC BY 4.0 + implementación de referencia bajo MIT" — declaración formal
✅ "Tests reproducibles en repositorio público" — disponibles
✅ "Cada respuesta lleva attribution trail" — auditable
✅ "Bilingüe nativo ES/EN sin traducción runtime" — implementado
✅ "Novedoso en mercado al momento de publicación — combinación phi-weighting + honest framing + cero dependencia externa no existe como producto público"

---

## 14. Versiones

- **v1.0** (2026-05-20) — Especificación inicial publicada. Tres capas implementadas en repositorio de referencia.

---

## 15. Reconocimientos

PHIGENESIS es el resultado de la disciplina de "Precisión + Prodigiosidad + Seguridad" aplicada al problema de respuestas AI: análisis previo antes de cada decisión, tests verificables por capa, no-regression checks específicos.

Implementación co-desarrollada por John Romo (humano, founder de FractalAI) y Claude Opus 4.7 (1M context). Decisión de publicar como 5º estándar abierto Wave 1 tomada por John Romo basada en valor estratégico y validación técnica.

**Inspiración filosófica:** PHIGENESIS deriva su nombre de la combinación de phi (la proporción áurea, presente en la naturaleza como patrón de crecimiento óptimo) y genesis (el principio de algo nuevo). El protocolo encarna la idea de que el conocimiento útil emerge no de la posesión de toda la verdad, sino de la composición honesta de fragmentos verificados con admisión explícita de lo desconocido. Esto refleja la propuesta filosófica más amplia de FractalAI: que la transparencia sobre las limitaciones es lo que permite que el conocimiento real se acumule, y que la honestidad técnica es la única base sobre la cual se puede construir confianza institucional a largo plazo.

---

*Documento abierto bajo CC BY 4.0. Implementaciones bajo MIT. Contribuciones bienvenidas. Crítica honesta valorada. La verdad técnica gana siempre.*

*Repositorio: https://github.com/johnInarti/FRACTAL-AI*