Document Analyzer - 文档智能分析工具

✨ 功能特性

📁

多格式支持

支持 PDF、Word(DOCX)、Markdown、TXT 四种文档格式

🧠

智能解析

自动提取文档文本、元数据和结构信息

🔑

关键词提取

基于词频和停用词过滤提取核心关键词

📝

摘要生成

提供简略、标准、详细三种摘要模式

🌐

语言检测

自动识别文档主要语言（中文/英文/混合）

📊

结构化输出

生成美观的 Markdown 格式摘要报告

🚀 快速开始

1. 安装依赖

pip install -r requirements.txt

2. 基本使用

# 标准模式分析
python src/main.py document.pdf

# 简略摘要
python src/main.py document.pdf -m brief

# 详细摘要
python src/main.py document.pdf -m detailed

# 保存摘要到文件
python src/main.py document.pdf -o summary.md

3. 命令行参数

file - 要分析的文档文件路径（必需）
-m, --mode - 摘要模式: brief(简略) / standard(标准) / detailed(详细)
-o, --output - 输出摘要到指定文件
--print - 在终端打印摘要内容
--stats - 仅显示文档统计信息

📋 输出示例

📄 文件信息

文件名: sample_doc.md
格式: MARKDOWN
大小: 2.74 KB

📊 文本统计

总字数: 807
中文: 802
英文: 5
语言: chinese
句子数: 32

🔑 核心关键词

人工智能技术发展报告, 摘要, 机器学习,
深度学习, 自然语言处理, 发展趋势

🏗️ 技术架构

项目结构

hello/
├── skills/
│   └── document-analyzer/       # Skill配置
│       ├── skill.json
│       └── prompt.md
├── src/
│   ├── main.py                  # CLI入口
│   ├── analyzer/                # 分析器模块
│   │   ├── processor.py         # 文档处理器
│   │   ├── pdf_parser.py        # PDF解析器
│   │   ├── docx_parser.py       # Word解析器
│   │   └── summary_generator.py # 摘要生成器
│   └── utils/                   # 工具模块
│       ├── file_handler.py      # 文件处理
│       └── text_utils.py        # 文本处理
├── tests/                       # 测试文件
├── test_samples/                # 测试样例
├── requirements.txt             # 依赖列表
└── README.md                    # 项目文档

核心模块

DocumentProcessor - 文档处理器主类，协调各模块完成分析流程
PDFParser/DocxParser - 专门解析PDF和Word文档
SummaryGenerator - 摘要生成器，支持多种输出模式
FileHandler/TextUtils - 文件处理和文本分析工具类

🧪 测试

# 运行所有测试
python3 tests/test_processor.py

# 预期输出
Ran 8 tests in 0.001s
OK

📦 依赖项

PyPDF2 - PDF文档解析
python-docx - Word文档解析
colorama - 终端彩色输出

🚀 在线演示

查看 Hugging Face 上的在线演示和部署示例：

🤗 Hugging Face Spaces

📄 许可证

MIT License