Accelerating LLM Inference Code - Search Videos

Faster LLMs: Accelerate Inference with Speculative Decoding

Faster LLMs: Accelerate Inference with Speculative Decoding

22.1K views11 months ago

YouTubeIBM Technology

FAST '26 - Accelerating Model Loading in LLM Inference by Programmable Page Cache

FAST '26 - Accelerating Model Loading in LLM Inference by Programmable Page Cache

63 views1 month ago

Lossless LLM inference acceleration with Speculators

Lossless LLM inference acceleration with Speculators

637 views5 months ago

Double Your LLM Inference Speed with One Line of Code | Cerebras Predicted Outputs

Double Your LLM Inference Speed with One Line of Code | Cerebras Predicted Outputs

756 views4 months ago

YouTubeCerebras

Accelerating LLM Serving with Prompt Cache Offloading via CXL

Accelerating LLM Serving with Prompt Cache Offloading via CXL

944 views7 months ago

YouTubeOpen Compute Project

Accelerating LLM Inference with vLLM (and SGLang) - Ion Stoica

Accelerating LLM Inference with vLLM (and SGLang) - Ion Stoica

7.8K viewsMar 5, 2025

YouTubeNadav Timor

Run 70B AI Models on 4GB GPU – Memory-Efficient LLM Inference Explained for Research & Demos

Run 70B AI Models on 4GB GPU – Memory-Efficient LLM Inference Explained for Research & Demos

1K views2 months ago

YouTubeLearningHub

A recipe for 50x faster local LLM inference | AI & ML Monthly

9.5K views10 months ago

YouTubeDaniel Bourke

DFlash: Faster LLM Inference via Block Diffusion

230 views3 months ago

YouTubeAI Research Roundup

I Ran Claude Code With Gemma 4 FREE Local LLM on My MacBook and PC (No API Key Needed) step by step

11.7K views1 month ago

YouTubeTech-Practice

KV Cache Acceleration of vLLM using DDN EXAScaler

365 views6 months ago

Quantization in vLLM: From Zero to Hero

1.4K views10 months ago

YouTubeSiemens Knowledge Hub

What Is Llama.cpp? The LLM Inference Engine for Local AI

133.2K views2 months ago

YouTubeIBM Technology

Optimize LLM inference with vLLM

15.3K views10 months ago

vLLM: Easily Deploying & Serving LLMs

43.9K views8 months ago

YouTubeNeuralNine

Understanding vLLM with a Hands On Demo

24.1K views1 month ago

YouTubeKodeKloud

The Rise of vLLM: Building an Open Source LLM Inference Engine

4.5K views4 months ago

YouTubeAnyscale

KV Cache in LLM Inference - Complete Technical Deep Dive

1.1K views3 months ago

YouTubeAI Depth School

Inside LLM Inference: GPUs, KV Cache, and Token Generation

896 views5 months ago

YouTubeAI Explained in 5 Minutes

Why Inference is hard..

232 views1 month ago

YouTubeCaleb Writes Code

CMU LLM Inference (2): Probability Review and Code Examples

744 views8 months ago

YouTubeGraham Neubig

Mastering LLM Chatbots And RAG Evaluation Crash Course

31.2K views2 months ago

YouTubeKrish Naik

NVIDIA NCA-GENL - Q2 | NVIDIA LLM Optimization

81 views6 months ago

YouTubealgoholic

How the VLLM inference engine works?

20.1K views8 months ago

What is vLLM? Efficient AI Inference for Large Language Models

77.6K views11 months ago

YouTubeIBM Technology

Introducing Lemonade Server: Local LLM Serving with GPU and NPU Acceleration

11.1K views10 months ago

YouTubeAMD Developer Central

Deep Dive: Quantizing Large Language Models, part 1

23.1K viewsMar 6, 2024

YouTubeJulien Simon

Eldar Kurtić - Beginner Friendly Introduction to LLM Quantization: From Zero to Hero

2.8K viewsMar 13, 2025

SLM Inference on a Windows laptop 🤯 Intel Lunar Lake CPU/GPU/NPU + OpenVINO

25.4K views10 months ago

YouTubeJulien Simon

RocketKV: Accelerating Long-Context LLM Inference via Two-Stage KV Cache Compression

151 viewsFeb 21, 2025

YouTubeArxiv Papers

See more