LiveKit docs › Multimodality › Images & video › Overview

---

# Images and video

> Process images and video input, and send visual output with avatars and byte streams.

## Overview

LiveKit Agents supports images and video as both input and output modalities. On the input side, you can add images to your agent's chat context, receive images from the frontend, sample video frames, or enable live video input with a supported realtime model. On the output side, you can send images to the frontend using [byte streams](https://docs.livekit.io/transport/data/byte-streams.md) or add a virtual avatar for lifelike video output.

## In this section

This page provides an overview of image and video capabilities. The following pages in this section cover each topic in detail:

| Topic | Description |
| [Images](https://docs.livekit.io/agents/multimodality/vision/images.md) | Add images to your agent's context, receive images from the frontend, and send images back to users. |
| [Video](https://docs.livekit.io/agents/multimodality/vision/video.md) | Sample video frames, enable live video input, and add virtual avatars for video output. |

## Additional resources

- **[Voice AI quickstart](https://docs.livekit.io/agents/start/voice-ai.md)**: Use the quickstart as a starting base for adding vision code.

- **[Byte streams](https://docs.livekit.io/transport/data/byte-streams.md)**: Send and receive images and files with byte streams.

- **[Virtual avatar models](https://docs.livekit.io/agents/models/avatar.md)**: Detailed setup guides for each avatar provider.

- **[Frontend avatars](https://docs.livekit.io/frontends/build/virtual-avatars.md)**: Build frontends that render avatar video.

- **[Gemini Vision Assistant](https://docs.livekit.io/reference/recipes/gemini_live_vision.md)**: A voice AI agent with video input powered by Gemini Live.

- **[Camera and microphone](https://docs.livekit.io/transport/media/publish.md)**: Publish camera and microphone tracks from your frontend.

---

This document was rendered at 2026-06-07T11:33:41.208Z.
For the latest version of this document, see [https://docs.livekit.io/agents/multimodality/vision.md](https://docs.livekit.io/agents/multimodality/vision.md).

To explore all LiveKit documentation, see [llms.txt](https://docs.livekit.io/llms.txt).