微软开源文档转Markdown工具一键转Markdown工具爆火微软开源工具Ma

量子位看科技 2025-07-15 13:31:14

微软开源文档转Markdown工具一键转Markdown工具爆火

微软开源工具MarkItDown:文档一键转Markdown,专门为大模型(LLM)设计。GitHub Star数已达惊人的61.3K!

这个工具用Python实现,主要特点为:

1. 格式丰富且保留结构

支持的文件类型很广:PDF、PPT、Word、Excel、图片、音频、HTML、CSV、JSON、XML、EPUB,甚至油管链接和压缩包都能转。除了提取纯文本,它还能保留文档中的标题、表格、列表、超链接等结构——这对LLM来说非常重要。

2. 专为模型输入优化

Markdown格式本身接近纯文本,又能表达结构信息,是LLM最熟悉的输入格式。MarkItDown的输出并不是给人看的“完美排版”,而是让大模型读得懂、处理得好。

此外,它还支持:

- 插件机制:可以自定义格式支持,GitHub上已有部分第三方插件;

- LLM辅助OCR/图像描述:支持通过OpenAI API让模型参与图片转写;

- 音频转写、视频字幕提取等高级功能,按需安装依赖即可启用。

安装方式也很简单,仅需一句:

`pip install 'markitdown[all]'`

或者按需安装单独模块,比如只处理PDF:

`pip install 'markitdown[pdf]'`

感兴趣的可以看看它的GitHub项目页:github.com/microsoft/markitdown

0 阅读:2
量子位看科技

量子位看科技

感谢大家的关注