📄 Document Analyzer

智能文档分析工具 - 自动解析文档并生成摘要

快速开始 查看源码

✨ 功能特性

📁

多格式支持

支持 PDF、Word(DOCX)、Markdown、TXT 四种文档格式

🧠

智能解析

自动提取文档文本、元数据和结构信息

🔑

关键词提取

基于词频和停用词过滤提取核心关键词

📝

摘要生成

提供简略、标准、详细三种摘要模式

🌐

语言检测

自动识别文档主要语言(中文/英文/混合)

📊

结构化输出

生成美观的 Markdown 格式摘要报告

🚀 快速开始

1. 安装依赖

pip install -r requirements.txt

2. 基本使用

# 标准模式分析
python src/main.py document.pdf

# 简略摘要
python src/main.py document.pdf -m brief

# 详细摘要
python src/main.py document.pdf -m detailed

# 保存摘要到文件
python src/main.py document.pdf -o summary.md

3. 命令行参数

📋 输出示例

📄 文件信息

文件名: sample_doc.md
格式: MARKDOWN
大小: 2.74 KB

📊 文本统计

总字数: 807
中文: 802
英文: 5
语言: chinese
句子数: 32

🔑 核心关键词

人工智能技术发展报告, 摘要, 机器学习,
深度学习, 自然语言处理, 发展趋势

🏗️ 技术架构

项目结构

hello/
├── skills/
│   └── document-analyzer/       # Skill配置
│       ├── skill.json
│       └── prompt.md
├── src/
│   ├── main.py                  # CLI入口
│   ├── analyzer/                # 分析器模块
│   │   ├── processor.py         # 文档处理器
│   │   ├── pdf_parser.py        # PDF解析器
│   │   ├── docx_parser.py       # Word解析器
│   │   └── summary_generator.py # 摘要生成器
│   └── utils/                   # 工具模块
│       ├── file_handler.py      # 文件处理
│       └── text_utils.py        # 文本处理
├── tests/                       # 测试文件
├── test_samples/                # 测试样例
├── requirements.txt             # 依赖列表
└── README.md                    # 项目文档

核心模块

🧪 测试

# 运行所有测试
python3 tests/test_processor.py

# 预期输出
Ran 8 tests in 0.001s
OK

📦 依赖项

🚀 在线演示

查看 Hugging Face 上的在线演示和部署示例:

🤗 Hugging Face Spaces

📄 许可证

MIT License