Qué es huashu-design y cómo crear vídeos con un solo prompt

Esta habilidad da un poco de miedo porque no utiliza el alfabeto latino. Pareciera que pudiera esconder peligros, pero al contrario, ha sido una grata sorpresa encontrarla.

Abres su SKILL.md y te topas con un muro de caracteres chinos. La primera reacción es de recelo: ¿qué le estoy metiendo a mi agente? ¿Qué hace esto por debajo? Es una sensación legítima cuando instalas algo que no puedes leer de un vistazo.

Y luego la pruebas.

Escribes una frase. Pulsas enter. Treinta y ocho minutos después tienes tres vídeos infografía sobre la ventana de contexto, renderizados a 60fps, con efectos de sonido y música. Sin tocar After Effects. Sin abrir Figma. Sin haber dibujado un solo fotograma.

Los tres salieron a la primera. One-shot. Lo único que se hizo a mano fue añadir música a uno de ellos.

Esto no es un experimento de laboratorio ni una demo maquillada. Es lo que pasó en una sesión real de Claude Code con Opus 4.8 usando una skill que se llama huashu-design. Te lo cuento entero más abajo, con la factura de tokens incluida.

Antes de eso, esto es lo que vas a encontrar en este artículo:

Qué es huashu-design y por qué es distinta a lo que ya conoces
Cómo se instala en dos comandos (y en qué agentes funciona)
Las siete cosas que puedes producir con ella, de prototipos a vídeos con voz en off
El ejemplo práctico paso a paso: tres vídeos sobre la ventana de contexto
Cuántos tokens cuesta de verdad esto (y por qué la cifra grande engaña)

¿Qué es huashu-design? ¶

huashu-design es una skill de diseño visual que trabaja con HTML como medio de producción. La frase clave es esa: medio de producción, no destino. El agente actúa como diseñador, no como programador que monta una web.

La diferencia es más importante de lo que parece. Cuando le pides a un agente “hazme una landing”, suele pensar en código de producción: componentes, rutas, estado. huashu-design piensa en otra cosa: en una pieza visual acabada que vas a grabar, exportar o presentar. El HTML es solo el lienzo donde sucede.

La creó 花叔 (Huasheng), un AI Native Coder chino con una trayectoria curiosa: es autor de nuwa-skill, que acumula más de 21.000 estrellas en GitHub. huashu-design nació deconstruyendo Claude Design, el producto de diseño de Anthropic, y destilando su filosofía en un fichero de instrucciones que cualquier agente puede leer.

🔑 La idea de fondo de toda la skill cabe en una línea: un buen diseño de alta fidelidad no nace de una página en blanco, crece a partir de un contexto que ya existe. Esa única regla es la diferencia entre un diseño de 65 puntos y uno de 90.

Desde el 14 de mayo de 2026 la skill está bajo licencia MIT, según consta en su repositorio. Eso significa uso libre, también comercial, sin autorización previa ni pago de royalties. Antes tenía una licencia que restringía el uso en empresas; esa restricción ya no existe.

Si te suena de qué va esto pero quieres el mapa completo del ecosistema, en Web Reactiva ya desmenuzamos qué son las skills y por qué deberías prestarles atención. Aquí damos por hecho que conoces el concepto y vamos al grano con esta en concreto.

¿En qué se diferencia de frontend-design? ¶

La diferencia es el destino del resultado: frontend-design produce web de producción, huashu-design produce piezas visuales para presentar o grabar. Las dos hacen “diseño con código”, y por eso conviene no confundirlas.

La skill frontend-design está pensada para crear interfaces web de producción: código funcional que va a vivir en un repositorio, con SEO, con backend, con todo lo que implica un sitio real. Es la herramienta correcta cuando el output final es una web que la gente va a usar.

huashu-design juega en otra liga. No es para web apps de producción ni sitios con SEO. Es para prototipos clicables, presentaciones, animaciones, infografías y exploración de variantes de diseño. Cosas que vas a enseñar, grabar o presentar, no desplegar.

Una forma simple de decidir:

¿El resultado va a un servidor donde lo usarán usuarios reales? → frontend-design
¿El resultado es una pieza que vas a presentar, exportar a MP4 o convertir en slides? → huashu-design

💡 Si solo te llevas una cosa de esta sección: frontend-design construye el producto, huashu-design construye la pieza que cuenta el producto.

Si te gusta tener claro qué herramienta usar para cada cosa, cada domingo seleccionamos 12 recursos sobre herramientas y productividad con IA. Ya somos +6.700 developers.

Quiero esa dinamita 🧨

¿Cómo se instala huashu-design? ¶

Se instala con un solo comando del CLI de skills, y funciona en más de treinta agentes sin tocar nada. Aquí no hay misterio:

# Instalación global con el CLI de skills
npx skills add alchaincyf/huashu-design

A partir de ahí, le hablas a tu agente con lenguaje normal:

"Hazme un prototipo iOS de una app de hábitos, 4 pantallas, que se pueda pulsar."
"Conviértelo en una animación de 60 segundos. Exporta MP4 y GIF."
"Dame 3 variantes de diseño para esta cabecera."
"Hazme una review de 5 dimensiones de este diseño."

Lo bueno del estándar de skills es que no estás casado con un único agente. huashu-design funciona en Claude Code, Cursor, Codex, OpenClaw, Hermes y cualquier agente que sepa leer skills en markdown. La misma skill, sin tocar nada, en treinta y tantos entornos. Si quieres entender por qué eso es posible, lo explicamos en la guía de protocolos de la IA generativa, donde verás cómo Agent Skills carga el contexto en tres niveles para no saturar la ventana.

Una nota honesta sobre el idioma: las instrucciones internas de la skill (su SKILL.md y sus referencias) están escritas en chino, porque su autor es chino. No te asustes. El agente es bilingüe y trabaja sin problemas con tareas en español. Tú escribes en castellano, él te responde en castellano, y los textos de las piezas salen en el idioma que le pidas.

¿Qué podemos lograr con huashu-design? ¶

Con huashu-design produces siete tipos de entregable desde un prompt: prototipos interactivos, slides, animaciones, infografías, variantes de diseño, dirección de diseño y crítica experta. No es un generador de “imágenes bonitas”: cada tipo tiene su flujo y su exportación.

Te lo resumo en una tabla y luego bajamos al detalle de los que más juego dan:

Capacidad	Entregable	Tiempo típico
Prototipo interactivo (App / Web)	HTML de un solo fichero, clicable, verificado con Playwright	10–15 min
Slides / presentaciones	Deck HTML 1920×1080 + PPTX editable + PDF	15–25 min
Animación / motion design	MP4 (hasta 60fps) + GIF + música de fondo	8–12 min
Exploración de variantes	3+ diseños lado a lado, con ajustes en vivo	10 min
Infografía / visualización	Tipografía de imprenta, exporta a PDF/PNG/SVG	10 min
Asesor de dirección de diseño	3 direcciones de 5 escuelas × 20 filosofías	5 min
Crítica experta de 5 dimensiones	Gráfico de radar + lista Keep/Fix/Quick Wins	3 min

Los tiempos son orientativos y vienen de la documentación de la propia skill. En la práctica varían según la complejidad de lo que pidas.

Prototipos hi-fi que se pueden pulsar ¶

No hablamos de mockups estáticos. Hablamos de un iPhone 15 Pro con su Dynamic Island, su barra de estado y su Home Indicator dibujados con precisión de píxel, donde los tabs cambian, los botones abren modales y la cosa se comporta como una app de verdad. Antes de entregártelo, la skill pasa tests de clic con Playwright para cazar bugs de interacción que una captura nunca te enseñaría.

Slides que se convierten en PPTX editable ¶

Aquí hay un truco técnico que merece aplauso. El deck se construye en HTML, pero un script (html2pptx.js) lee los estilos calculados del DOM y traduce cada elemento a un objeto nativo de PowerPoint. ¿El resultado? Cajas de texto reales que puedes editar con doble clic en PowerPoint, no imágenes incrustadas que fingen ser slides.

Motion design exportable a vídeo ¶

Las animaciones se modelan con un sistema de escena y sprites sobre una línea de tiempo. Cuando está listo, un comando exporta el resultado a MP4, lo interpola a 60fps, genera un GIF optimizado y le mete música. Esto es justo lo que vas a ver en el ejemplo práctico.

El asesor de dirección de diseño ¶

Esta es la joya para cuando no sabes qué quieres. Le dices “hazme algo que mole” y, en vez de inventarse un minimalismo genérico, la skill entra en modo Fallback: te propone tres direcciones visuales de escuelas distintas, las genera en paralelo y te deja elegir viendo, no leyendo.

⚠️ Ojo con un detalle que distingue a esta skill del resto: tiene una regla de “verificación de hechos primero”. Si mencionas un producto concreto (un móvil recién salido, un modelo de IA nuevo), lo primero que hace es buscar en la web para confirmar que existe, su versión y sus specs. No se fía de su propia memoria. El motivo está documentado: una vez asumió que un producto no había salido cuando llevaba cuatro días en el mercado, y eso costó dos horas de rehacer trabajo.

Hay una filosofía explícita detrás de todo esto que se resume en dos palabras: anti AI slop. Es decir, evitar el mínimo común denominador visual de la IA: gradientes morados en todo, emojis usados como iconos, tarjetas con borde de color a la izquierda, siluetas SVG en lugar de fotos reales. La lógica es elegante: si todos los diseños generados por IA se parecen, ninguna marca se reconoce. Huir del slop no es esnobismo estético, es proteger la identidad de quien te encarga el diseño. Es la misma filosofía que aplica Taste Skill al terreno de la web de producción, con su catálogo de señales que delatan a una IA.

¿Y esto funciona o es marketing? Según la documentación de la propia skill, una prueba A/B comparando dos versiones de su protocolo de marca (seis agentes cada una) redujo la varianza de estabilidad 5 veces. Traducido: no es que haga un diseño espectacular de vez en cuando, es que falla mucho menos entre ejecución y ejecución. La estabilidad de la estabilidad, lo llama su autor.

Ejemplo práctico: tres vídeos sobre la ventana de contexto ¶

Vamos a lo concreto, que es donde se ve si una herramienta vale o no vale.

El encargo fue este, escrito tal cual:

Usa huashu-design para crear un video infografía sobre la ventana
de contexto basado en lo que se cuenta en el curso gratuito de
Empieza con IA de webreactiva.com

El objetivo: explicar cómo funciona la ventana de contexto de un LLM en una pieza cuadrada de 1080×1080 para redes, de unos 27 segundos. Si quieres profundizar en por qué la ventana de contexto se degrada conforme se llena (el famoso context rot), lo tratamos a fondo en la guía del framework GSD y en el análisis de para qué sirve AGENTS.md.

Lo primero que hizo la skill no fue producir nada. Fue preguntar. Y no a cuentagotas: las cuatro preguntas en un solo lote, con opciones cerradas, para no marear. Estas fueron, tal como aparecieron en la terminal, con lo que se eligió en cada una:

1 · ¿Formato?   → infografía estática / pieza interactiva HTML / animación corta MP4-GIF
   Elegido: animación corta

2 · ¿Estilo?    → pixelart-terminal WR344 (recomendado) / explorar 3 direcciones
   Elegido: explorar 3 direcciones

3 · ¿Alcance?   → ciclo completo / solo concepto básico / ciclo + subagentes
   Elegido: ciclo completo

4 · ¿Tamaño?    → 16:9 / cuadrado 1080×1080 / vertical
   Elegido: cuadrado 1080×1080

Detrás de esas preguntas hay una regla dura de la skill, su “modo junior designer”: entender mal algo cuesta cien veces más caro corregirlo al final que al principio. Por eso enseña sus supuestos antes de invertir el trabajo grande.

Con las respuestas en la mano, esto es lo que hizo, en orden:

Reformuló el encargo y generó un design-spec.md: un guion de cinco beats con el copy en español, desde la ventana vacía hasta la zona de peligro del 80% donde el modelo “alucina, olvida y cambia de idioma”.
Tiró la ruleta de estilos. Ejecutó date +%S, sacó el segundo 21, calculó el estilo número 2 de su librería y le tocó Neo-Brutalism. Es su forma de romper el sesgo del modelo, que por defecto siempre elige el minimalismo seguro.
Lanzó tres subagentes en paralelo, cada uno con contexto independiente y una lógica de diseño distinta.

Ese tercer paso es la clave y conviene entenderlo. Los tres agentes no se ven entre ellos, parten del mismo spec y cada uno aplica una estrategia diferente:

V1 · La ruleta → Neo-Brutalism, con bordes negros gruesos y colores que chocan.
V2 · El referente real → Kurzgesagt (verificado con búsqueda web), con un depósito de líquido que se va llenando.
V3 · El mejor estudio para el encargo → Studio Dumbar, con tipografía cinética donde los tokens de texto llenan la ventana.

Si te interesa el patrón de lanzar varios agentes a la vez sin que se pisen, lo explicamos en detalle en la guía de Agent Teams en Claude Code.

Mientras trabajaban, la terminal mostraba algo así: tres procesos vivos a la vez, cada uno gastando sus propios tokens y llamando a sus propias herramientas. Esta es la foto del momento exacto en que los tres estaban en marcha:

Running 3 agents… (ctrl+o to expand)
├ v1-neobrutalism: Versión 1: Neo-Brutalism · 11 tool uses · 63.0k tokens
│  └ Bash: Verify playwright node module resolves
├ v2-referente:    Versión 2: referente real · 10 tool uses · 52.8k tokens
│  └ Web Search: Kurzgesagt color palette hex codes deep blue navy…
└ v3-dumbar:       Versión 3: top diseñador · 9 tool uses · 50.6k tokens
   └ Web Search: Studio Dumbar DEMO festival motion design grotesk…
(ctrl+b to run in background)

Fíjate en el detalle, porque cuenta la historia entera. El v1 estaba verificando con Bash que Playwright resolvía sus módulos antes de capturar. El v2 buscaba en la web la paleta real de Kurzgesagt en vez de inventarse los colores. Y el v3 rastreaba el lenguaje visual de Studio Dumbar para el referente. Cada uno investigaba su propia dirección, no la del vecino, y los tokens se sumaban en paralelo: 63,0K + 52,8K + 50,6K a la vez.

Cada subagente generó su HTML autocontenido animado y sus capturas de verificación con Playwright. Los tres a la vez, en unos doce minutos de reloj. Después la skill montó una comparacion.html con nueve capturas para elegir, y la decisión fue: renderizar el V1 con efectos de sonido, y los otros dos tal cual.

🛡️ El render no fue “graba la pantalla y reza”. Se hizo fotograma a fotograma a 60fps nativos con un script determinista (render-video-seek.js), que evita la interpolación y los fotogramas negros. Para un entregable que va a un portfolio, esa diferencia se nota.

Aquí tienes los tres resultados. Recuerda: salieron a la primera, sin retoques. Lo único añadido a mano fue la música del primero.

Versión 1: Neo-Brutalism con música y efectos ¶

Esta es la versión completa, con los dieciséis efectos de sonido alineados al fotograma (el aterrizaje de cada bloque, la alarma del 80%, la ráfaga de errores, el sello final) y música de fondo mezclada en una capa separada por frecuencias.

Versión 2: estilo Kurzgesagt ¶

El depósito que se llena de líquido es una metáfora directa y limpia de cómo se ocupa la ventana. Sin música, tal cual salió del render.

Versión 3: tipografía cinética estilo Studio Dumbar ¶

La más arriesgada de las tres, donde los propios tokens de texto van rellenando la ventana. Tres direcciones, tres lenguajes visuales, un mismo guion.

Sobre la música del V1: viene empaquetada en la propia skill, generada con Suno (la pista se llama Curious Steps), los efectos con ElevenLabs, todo distribuido bajo MIT. Si la pieza es comercial, conviene revisar los matices de derechos de Suno o usar una pista propia.

Experimentos como este los compartimos cada domingo en la newsletter: lo que probamos con IA, lo que sale a la primera y lo que no. Y los +6.700 developers suscritos participan con sus aportaciones.

Suscríbete gratis →

¿Cuántos tokens cuesta esto? ¶

La sesión completa con Opus 4.8 consumió 45,1 millones de tokens, pero 43 de esos millones fueron lecturas de caché, que se facturan a una fracción del precio. Aquí toca ser honesto, porque la cifra grande asusta y engaña a partes iguales.

Mira el desglose antes de tirar la calculadora:

Tipo	Hilo principal	3 subagentes	Total
Input (sin caché)	24,9K	133,5K	158,4K
Output	158,8K	72,4K	231,1K
Cache read	20,1M	22,9M	43,0M
Cache write	0,67M	1,11M	1,77M

¿Ves dónde está el truco? De esos 45 millones, 43 son lecturas de caché. Es decir, el agente releyendo su propio contexto turno tras turno (fueron 460 turnos entre el hilo principal y los subagentes). Y las lecturas de caché se facturan a una fracción del precio de un token de entrada nuevo.

💡 El trabajo generativo de verdad (lo que el modelo escribe) son apenas 231.000 tokens de salida. El resto es la maquinaria releyendo lo que ya tenía. Por eso la cifra de “45 millones” es técnicamente cierta pero engañosa: no estás pagando 45 millones a precio completo.

Para que te hagas una idea del reparto del esfuerzo creativo, la salida por subagente fue: V1 Neo-Brutalism 32,8K, V2 Kurzgesagt 25,2K, V3 Dumbar 14,3K. El grueso del consumo, repito, es relectura de contexto.

¿Qué significa esto en tu factura?

Si trabajas con una suscripción de Claude (Pro o Max), esto entra dentro de tu uso incluido. No ves tokens, ves una sesión de 38 minutos.
Si trabajas por API, el coste real lo marcan la salida y el input fresco, no los 43 millones de cache read que se facturan baratos. Los precios cambian, así que mira la tabla oficial de Anthropic antes de echar cuentas.

Si lo que te preocupa es exprimir cada token, tenemos una guía dedicada con técnicas para ahorrar tokens en Claude Code que aplican igual de bien aquí.

La conclusión sincera: tres vídeos profesionales en 38 minutos por el coste de una sesión larga de agente. Comparado con encargar el mismo trabajo a un estudio de motion, la cuenta sale sola.

¿Qué NO hace huashu-design? ¶

Porque una herramienta que solo tiene virtudes es sospechosa. Su propio autor la define como una skill “de 80 puntos, no un producto de 100”. Estas son las fronteras:

No hay ida y vuelta editable a Figma. El output es HTML: lo grabas, lo capturas, lo exportas a imagen, pero no lo arrastras a Keynote para mover un texto de sitio.
Las animaciones de complejidad Framer Motion quedan fuera. Simulaciones físicas, 3D, sistemas de partículas: eso excede sus límites.
El diseño desde cero, sin marca ni referencia, baja a 60-65 puntos. Dibujar alta fidelidad de la nada siempre fue su último recurso. Cuanto más contexto le des (logo, colores, capturas), mejor sale.

⚠️ Esto enlaza con la regla de oro del principio: el diseño no nace de la nada. Si le das a la skill los activos de tu marca, lee tu identidad y produce algo reconocible. Si no le das nada, sus 40 estilos internos te sacan del territorio del slop, pero no harán magia.

Y una comparación que el propio autor reconoce: Claude Design es mejor herramienta gráfica. huashu-design hace que la capa de herramienta gráfica desaparezca. Dos caminos para dos públicos: quien prefiere un canvas visual elige Claude Design; quien prefiere hablarle a un agente en la terminal y esperar, elige la skill.

Preguntas frecuentes ¶

¿huashu-design es gratis?
Sí. Desde el 14 de mayo de 2026 está bajo licencia MIT, lo que permite uso personal y comercial sin autorización ni pago. El único coste indirecto son los tokens que consume tu agente.

¿Funciona fuera de Claude Code?
Sí. Es agnóstica de agente: Claude Code, Cursor, Codex, OpenClaw, Hermes y cualquier agente que lea skills en markdown. La misma skill funciona en todos sin cambios.

¿Necesito saber diseño para usarla?
No es imprescindible. Si no sabes qué estilo quieres, el asesor de dirección te propone tres direcciones y las genera para que elijas viendo el resultado, no imaginándolo.

¿Puedo usar los vídeos comerciales que genera?
El HTML y la animación son tuyos bajo MIT. La música empaquetada (generada con Suno) tiene matices de derechos comerciales, así que para piezas comerciales conviene usar una pista propia o revisar la licencia de Suno.

¿Qué formatos exporta?
HTML, MP4, GIF, PPTX editable, PDF, PNG y SVG, según el tipo de entregable.

¿Por qué las instrucciones de la skill están en chino?
Porque su autor es chino. El agente es bilingüe y trabaja sin problema con tareas y salidas en español.

¿Sirve para hacer una web de producción?
No. Para eso está frontend-design. huashu-design produce piezas visuales para presentar o grabar, no aplicaciones con backend y SEO.

¿Cómo evita el “look de IA” genérico?
Con reglas anti AI slop explícitas: nada de gradientes morados por defecto, emojis como iconos o siluetas SVG en lugar de fotos. Prioriza tipografía cuidada, rejillas CSS y activos reales.

¿De verdad salen los diseños a la primera?
En el ejemplo de este artículo, sí: tres vídeos one-shot sin retoques, solo música añadida a uno. No es garantía universal, pero el flujo de preguntas previas y verificación reduce mucho la necesidad de rehacer.

¿Cuánto tarda en producir una animación?
Entre 8 y 12 minutos para el motion design según su documentación. La sesión completa del ejemplo, con tres versiones en paralelo y renderizado, fueron 38 minutos.

Fuentes ¶

huashu-design en GitHub — repositorio oficial, README y licencia MIT
Perfil de 花叔 (alchaincyf) — autor de la skill
Skills para programadores: guía completa — qué son las skills y cómo instalarlas
Cómo crear interfaces con frontend-design — la skill complementaria para web de producción
Agent Teams en Claude Code — coordinar varios agentes en paralelo
GSD y context engineering — context rot y gestión de la ventana de contexto
Precios de Anthropic — para calcular el coste real por API

🧨 Última oprtunidad para recibir la dinamita que mereces sobre programación con IA el próximo domingo: Suscríbete gratis a Web Reactiva en https://webreactiva.com/newsletter