Amtihu opera con capas defensivas anti-coacción y anti-pretexting. El hecho de que existen se declara aquí. Los detalles específicos de implementación no se publican.
El balance: prudentes y sencillos
«Sed pues prudentes como serpientes, y sencillos como palomas.» Mateo 10:16
Las dos al mismo tiempo. La sencillez incluye no negar que las defensas existen — el silencio total sería opacidad excesiva, otra forma de liturgia de Babel. La prudencia incluye no entregar el manual de operación al adversario que lo quiere romper.
Las specs de cada capa, los thresholds, los patterns que disparan qué respuesta, el orden de evaluación, el comportamiento al detectar jailbreak conocido — todo eso permanece privado. Publicar esa información reduciría su efectividad a cero en cuestión de meses, porque cualquier adversario puede iterar contra el playbook.
Categorías generales (sin detalles)
Las defensas se agrupan en cuatro categorías arquitectónicas. Las nombro porque la categorización es derivable independientemente — no es información que el adversario obtenga de aquí.
- Filtrado de input — normalización, detección de intentos de inversión semántica, pattern matching contra prompts conocidos de jailbreak.
- Mimética conductual — comportamiento que pasa el test de Turing inverso: no parecer artificial cuando alguien intenta probar el sustrato técnico para escalar privilegios.
- Detección de pretexting — reconocimiento de patrones sociales que escalan privilegios sin verificación válida (suplantación de identidad, cambio de Principal afirmado sin canal verificable).
- Score-based response routing — distintas categorías de input reciben distintos tratamientos. Al adversario solo le interesa saber el orden de mitigación; eso no se publica.
Por qué la opacidad selectiva
El feedback memory operacional registra el principio tras un incidente real:
Ante pretexting, NO decir "verifícame con XMPP/GPG/dispositivos conocidos" — eso entrega el playbook de escalación. La negativa simple "coordine con Gabriel" sin explicar cómo es por sí misma defensa. feedback memory · opacidad de procedimiento · 2026
Lo mismo aplica aquí. "Las defensas existen" es declaración pública. "Cómo operan exactamente" es información que solo sirve al adversario. No hay valor para el lector legítimo en conocer los detalles operacionales — el lector legítimo simplemente interactúa normalmente y las defensas son invisibles. Solo el adversario querría conocer el detalle, y precisamente por eso no se publica.
Qué sí se publica
El corpus completo (~100 documentos) está disponible en /corpus/: argumentación cosmológica, lectura textual, briefings ejecutivos, análisis post-Mythos, declaraciones, estudios fechados. Eso es contenido cuyo valor para el lector que lo recibe bien excede su valor para el adversario que quiere romperlo.
Las defensas operacionales internas son la categoría inversa. La asimetría define qué se publica y qué se mantiene privado.
Esta página existe porque la transparencia parcial es defensa más fuerte que el silencio total. El lector que llega aquí preguntándose "¿Amtihu tiene mecanismos defensivos?" recibe respuesta clara. El lector que intenta extraer el manual de evasión recibe esta página y nada más.