众力资讯网

claude-real-video ,让Claude——或任何大型语言模型——真

claude-real-video ,让Claude——或任何大型语言模型——真正地观看视频。地址:github.com/HUANGCHIHHUNGLeo/claude-real-video

大多数AI工具并不能真正"看"视频。把YouTube链接粘贴到ChatGPT里,它只会读取字幕文本,而不是画面。Claude根本不会接受视频文件。即使是原生支持读取视频的Gemini,也必须将视频上传到谷歌,并以固定间隔(默认每秒1帧)采样帧,因此快速剪辑的画面就会被遗漏。

claude-real-video的做法不同,而且是在本地完成:只需指向一个网址或本地文件,它就会提取真正重要的帧(每次场景变化时提取,而非固定数量),丢弃近乎重复的帧,转录音频,然后交给你一个任何大型语言模型都能读取的整洁文件夹——全程在你的本地机器上运行,无需上传任何内容。

工作流程大致是这样:输入一个 YouTube、Instagram、TikTok 等 URL,或者本地视频文件;工具用 yt-dlp 下载或读取视频,用 ffmpeg 抽取场景变化帧,再通过像素差异做滑动窗口去重;音频部分优先使用已有字幕,如果没有字幕才调用 Whisper 转写;最后生成 frames/*.jpg、transcript.txt 和 MANIFEST.txt。README 还提到可选保留完整音轨 audio.m4a,方便支持听音频的模型分析音乐、语气和音效。