81 lines
1.5 KiB
Markdown
81 lines
1.5 KiB
Markdown
# 使用速查
|
||
|
||
## 最常用命令
|
||
|
||
### 一次跑完整流程
|
||
|
||
```bash
|
||
python main.py --mode full --sources all
|
||
```
|
||
|
||
### 只抓取并写向量库
|
||
|
||
```bash
|
||
python main.py --mode crawl --sources all
|
||
```
|
||
|
||
### 只出综合报告
|
||
|
||
```bash
|
||
python main.py --mode report
|
||
```
|
||
|
||
### 出主题报告
|
||
|
||
```bash
|
||
python main.py --mode topic --topic "交通管理"
|
||
```
|
||
|
||
### 报告生成后自动发邮件
|
||
|
||
```bash
|
||
python auto_report_and_email.py --mode full --sources all
|
||
```
|
||
|
||
### 打开收件人管理界面
|
||
|
||
```bash
|
||
python email_web_app.py
|
||
```
|
||
|
||
## 数据源标识
|
||
|
||
- `traffic`:赛文交通网
|
||
- `wechat`:微信公众号(高德地图)
|
||
- `baidu`:微信公众号(百度地图)
|
||
- `ccgp`:中国政府采购网
|
||
- `all`:全部
|
||
|
||
## 常见组合
|
||
|
||
```bash
|
||
python main.py --mode crawl --sources traffic,wechat
|
||
python main.py --mode crawl --sources baidu,ccgp
|
||
python main.py --mode full --sources ccgp
|
||
```
|
||
|
||
## 输出文件
|
||
|
||
### 抓取结果
|
||
|
||
- `news_*.json`
|
||
- `wechat_articles_*.json`
|
||
- `baidu_map_articles_*.json`
|
||
- `ccgp_results_*.json`
|
||
- `ccgp_probe_*.json`
|
||
|
||
### 报告
|
||
|
||
- `report_summary_*.txt`
|
||
- `report_topic_*.txt`
|
||
- `report_comprehensive_*.txt`
|
||
- `report_source_*.txt`
|
||
|
||
## 当前需要记住的差异
|
||
|
||
- 独立跑 `news_crawler.py` 只会生成 JSON,不会自动入库
|
||
- `main.py --mode crawl/full` 会统一写入向量库
|
||
- 政府采购网当前带有回退抓取和 probe 诊断逻辑
|
||
- Web 界面的“单次发送”会重新抓取并生成最新报告,而不是发送手选历史文件
|
||
|