1.5 KiB
1.5 KiB
使用速查
最常用命令
一次跑完整流程
python main.py --mode full --sources all
只抓取并写向量库
python main.py --mode crawl --sources all
只出综合报告
python main.py --mode report
出主题报告
python main.py --mode topic --topic "交通管理"
报告生成后自动发邮件
python auto_report_and_email.py --mode full --sources all
打开收件人管理界面
python email_web_app.py
数据源标识
traffic:赛文交通网wechat:微信公众号(高德地图)baidu:微信公众号(百度地图)ccgp:中国政府采购网all:全部
常见组合
python main.py --mode crawl --sources traffic,wechat
python main.py --mode crawl --sources baidu,ccgp
python main.py --mode full --sources ccgp
输出文件
抓取结果
news_*.jsonwechat_articles_*.jsonbaidu_map_articles_*.jsonccgp_results_*.jsonccgp_probe_*.json
报告
report_summary_*.txtreport_topic_*.txtreport_comprehensive_*.txtreport_source_*.txt
当前需要记住的差异
- 独立跑
news_crawler.py只会生成 JSON,不会自动入库 main.py --mode crawl/full会统一写入向量库- 政府采购网当前带有回退抓取和 probe 诊断逻辑
- Web 界面的“单次发送”会重新抓取并生成最新报告,而不是发送手选历史文件