# 使用速查 ## 最常用命令 ### 一次跑完整流程 ```bash python main.py --mode full --sources all ``` ### 只抓取并写向量库 ```bash python main.py --mode crawl --sources all ``` ### 只出综合报告 ```bash python main.py --mode report ``` ### 出主题报告 ```bash python main.py --mode topic --topic "交通管理" ``` ### 报告生成后自动发邮件 ```bash python auto_report_and_email.py --mode full --sources all ``` ### 打开收件人管理界面 ```bash python email_web_app.py ``` ## 数据源标识 - `traffic`:赛文交通网 - `wechat`:微信公众号(高德地图) - `baidu`:微信公众号(百度地图) - `ccgp`:中国政府采购网 - `all`:全部 ## 常见组合 ```bash python main.py --mode crawl --sources traffic,wechat python main.py --mode crawl --sources baidu,ccgp python main.py --mode full --sources ccgp ``` ## 输出文件 ### 抓取结果 - `news_*.json` - `wechat_articles_*.json` - `baidu_map_articles_*.json` - `ccgp_results_*.json` - `ccgp_probe_*.json` ### 报告 - `report_summary_*.txt` - `report_topic_*.txt` - `report_comprehensive_*.txt` - `report_source_*.txt` ## 当前需要记住的差异 - 独立跑 `news_crawler.py` 只会生成 JSON,不会自动入库 - `main.py --mode crawl/full` 会统一写入向量库 - 政府采购网当前带有回退抓取和 probe 诊断逻辑 - Web 界面的“单次发送”会重新抓取并生成最新报告,而不是发送手选历史文件