claude-real-video ,让Claude——或任何大型语言模型——真

claude-real-video ,让Claude——或任何大型语言模型——真正地观看视频。地址：github.com/HUANGCHIHHUNGLeo/claude-real-video

大多数AI工具并不能真正"看"视频。把YouTube链接粘贴到ChatGPT里，它只会读取字幕文本，而不是画面。Claude根本不会接受视频文件。即使是原生支持读取视频的Gemini，也必须将视频上传到谷歌，并以固定间隔（默认每秒1帧）采样帧，因此快速剪辑的画面就会被遗漏。

claude-real-video的做法不同，而且是在本地完成：只需指向一个网址或本地文件，它就会提取真正重要的帧（每次场景变化时提取，而非固定数量），丢弃近乎重复的帧，转录音频，然后交给你一个任何大型语言模型都能读取的整洁文件夹——全程在你的本地机器上运行，无需上传任何内容。

工作流程大致是这样：输入一个 YouTube、Instagram、TikTok 等 URL，或者本地视频文件；工具用 yt-dlp 下载或读取视频，用 ffmpeg 抽取场景变化帧，再通过像素差异做滑动窗口去重；音频部分优先使用已有字幕，如果没有字幕才调用 Whisper 转写；最后生成 frames/*.jpg、transcript.txt 和 MANIFEST.txt。README 还提到可选保留完整音轨 audio.m4a，方便支持听音频的模型分析音乐、语气和音效。

众力资讯网

claude-real-video ,让Claude——或任何大型语言模型——真

热门分类