✨ 功能特性
多格式支持
支持 PDF、Word(DOCX)、Markdown、TXT 四种文档格式
智能解析
自动提取文档文本、元数据和结构信息
关键词提取
基于词频和停用词过滤提取核心关键词
摘要生成
提供简略、标准、详细三种摘要模式
语言检测
自动识别文档主要语言(中文/英文/混合)
结构化输出
生成美观的 Markdown 格式摘要报告
🚀 快速开始
1. 安装依赖
pip install -r requirements.txt
2. 基本使用
# 标准模式分析
python src/main.py document.pdf
# 简略摘要
python src/main.py document.pdf -m brief
# 详细摘要
python src/main.py document.pdf -m detailed
# 保存摘要到文件
python src/main.py document.pdf -o summary.md
3. 命令行参数
file- 要分析的文档文件路径(必需)-m, --mode- 摘要模式: brief(简略) / standard(标准) / detailed(详细)-o, --output- 输出摘要到指定文件--print- 在终端打印摘要内容--stats- 仅显示文档统计信息
📋 输出示例
📄 文件信息
文件名: sample_doc.md
格式: MARKDOWN
大小: 2.74 KB
📊 文本统计
总字数: 807
中文: 802
英文: 5
语言: chinese
句子数: 32
🔑 核心关键词
人工智能技术发展报告, 摘要, 机器学习,
深度学习, 自然语言处理, 发展趋势
🏗️ 技术架构
项目结构
hello/
├── skills/
│ └── document-analyzer/ # Skill配置
│ ├── skill.json
│ └── prompt.md
├── src/
│ ├── main.py # CLI入口
│ ├── analyzer/ # 分析器模块
│ │ ├── processor.py # 文档处理器
│ │ ├── pdf_parser.py # PDF解析器
│ │ ├── docx_parser.py # Word解析器
│ │ └── summary_generator.py # 摘要生成器
│ └── utils/ # 工具模块
│ ├── file_handler.py # 文件处理
│ └── text_utils.py # 文本处理
├── tests/ # 测试文件
├── test_samples/ # 测试样例
├── requirements.txt # 依赖列表
└── README.md # 项目文档
核心模块
- DocumentProcessor - 文档处理器主类,协调各模块完成分析流程
- PDFParser/DocxParser - 专门解析PDF和Word文档
- SummaryGenerator - 摘要生成器,支持多种输出模式
- FileHandler/TextUtils - 文件处理和文本分析工具类
🧪 测试
# 运行所有测试
python3 tests/test_processor.py
# 预期输出
Ran 8 tests in 0.001s
OK
📦 依赖项
- PyPDF2 - PDF文档解析
- python-docx - Word文档解析
- colorama - 终端彩色输出
🚀 在线演示
查看 Hugging Face 上的在线演示和部署示例:
🤗 Hugging Face Spaces📄 许可证
MIT License