Creatify

Introduction

Creatify's AI models are integrated into the Runware platform through our unified API, providing access to advanced avatar video generation technology powered by the Aurora model family. These models specialize in transforming static images and audio into high-fidelity, lifelike avatar videos with natural speaking motion, accurate lip synchronization, and expressive facial animations.

Aurora uses a diffusion transformer (DiT) architecture with multimodal fusion, combining image encoding, audio analysis, and optional text guidance to produce smooth, expressive video outputs. This enables creation of studio-grade avatar videos that maintain identity consistency while capturing subtle facial and body expressions from audio input.

Video models

Aurora v1

Creatify's Aurora v1 is a multimodal avatar video generation model that creates talking-head videos from a single image and audio input. Built on a diffusion transformer architecture with multimodal fusion, this model produces studio-quality results with realistic facial animation, accurate lip synchronization, and expressive motion for spoken or musical performances.

Model AIR ID: creatify:aurora@0.

Supported workflows: Image-to-video, audio-to-video.

Technical specifications:

Positive prompt: 2-3000 characters (optional).
Image input: Via inputs.image (required).
Audio input: Via inputs.audio (required).
CFG Scale: 0.0-10.0 (default: 1.0).
Output resolution: 720p.

Audio-driven avatar

{
  "taskType": "videoInference",
  "taskUUID": "24cd5dff-cb81-4db5-8506-b72a9425f9e0",
  "model": "creatify:aurora@0",
  "inputs": {
    "image": "c64351d5-4c59-42f7-95e1-eace013eddab",
    "audio": "b4c57832-2075-492b-bf89-9b5e3ac02503"
  },
  "CFGScale": 1.0
}

With prompt guidance

{
  "taskType": "videoInference",
  "taskUUID": "6ba7b836-9dad-11d1-80b4-00c04fd430c8",
  "model": "creatify:aurora@0",
  "inputs": {
    "image": "c64351d5-4c59-42f7-95e1-eace013eddab",
    "audio": "b4c57832-2075-492b-bf89-9b5e3ac02503"
  },
  "positivePrompt": "Professional presentation with confident facial expressions and natural speaking gestures",
  "CFGScale": 2.5
}

Aurora v1 Fast

Creatify's Aurora v1 Fast is an optimized variant of Aurora v1 designed for faster avatar video generation. This model converts a single image and audio input into a talking-head video with synchronized lip movement and facial motion, prioritizing speed and responsiveness for rapid iteration workflows and high-volume production.

Model AIR ID: creatify:aurora@fast.

Supported workflows: Image-to-video, audio-to-video.

Technical specifications:

Positive prompt: 2-3000 characters (optional).
Image input: Via inputs.image (required).
Audio input: Via inputs.audio (required).
CFG Scale: 0.0-10.0 (default: 1.0).
Output resolution: 480p.

Fast generation

{
  "taskType": "videoInference",
  "taskUUID": "24cd5dff-cb81-4db5-8506-b72a9425f9e1",
  "model": "creatify:aurora@fast",
  "inputs": {
    "image": "c64351d5-4c59-42f7-95e1-eace013eddab",
    "audio": "b4c57832-2075-492b-bf89-9b5e3ac02503"
  },
  "CFGScale": 1.0
}

Quick preview workflow

{
  "taskType": "videoInference",
  "taskUUID": "550e8400-e29b-41d4-a716-446655440018",
  "model": "creatify:aurora@fast",
  "inputs": {
    "image": "c64351d5-4c59-42f7-95e1-eace013eddab",
    "audio": "b4c57832-2075-492b-bf89-9b5e3ac02503"
  },
  "positivePrompt": "Natural conversation with casual facial expressions",
  "CFGScale": 1.5
}