multimodal-llm Guide

Name: multimodal-llm
Author: yonatangross

Vision, audio, video generation, and multimodal LLM integration patterns. Use when processing images, transcribing audio, generating speech, generating AI video (Kling v3, Sora 2, Veo 3.1 std/lite/fast, Runway Gen-4.5 via `gen4_turbo`), or building multimodal AI pipelines.

176 starsby yonatangross

When to use multimodal-llm

How to use multimodal-llm

multimodal-llm is a Claude skill in the SKILL.md format. Add it to your Claude environment from the source repository below, then it activates as a user-invocable skill when your task matches its description.

Skill source

https://raw.githubusercontent.com/yonatangross/orchestkit/main/plugins/ork/skills/multimodal-llm/SKILL.md

Details

PlatformClaude

CategoryAI & ML

Invocationuser-invocable

Modelany

Maintaineryonatangross

LicenseMIT

multimodal-llm Guide

When to use multimodal-llm

How to use multimodal-llm

Details

Resources