newsreport_agent_for_traffic/USAGE.md

1.5 KiB
Raw Blame History

使用速查

最常用命令

一次跑完整流程

python main.py --mode full --sources all

只抓取并写向量库

python main.py --mode crawl --sources all

只出综合报告

python main.py --mode report

出主题报告

python main.py --mode topic --topic "交通管理"

报告生成后自动发邮件

python auto_report_and_email.py --mode full --sources all

打开收件人管理界面

python email_web_app.py

数据源标识

  • traffic:赛文交通网
  • wechat:微信公众号(高德地图)
  • baidu:微信公众号(百度地图)
  • ccgp:中国政府采购网
  • all:全部

常见组合

python main.py --mode crawl --sources traffic,wechat
python main.py --mode crawl --sources baidu,ccgp
python main.py --mode full --sources ccgp

输出文件

抓取结果

  • news_*.json
  • wechat_articles_*.json
  • baidu_map_articles_*.json
  • ccgp_results_*.json
  • ccgp_probe_*.json

报告

  • report_summary_*.txt
  • report_topic_*.txt
  • report_comprehensive_*.txt
  • report_source_*.txt

当前需要记住的差异

  • 独立跑 news_crawler.py 只会生成 JSON不会自动入库
  • main.py --mode crawl/full 会统一写入向量库
  • 政府采购网当前带有回退抓取和 probe 诊断逻辑
  • Web 界面的“单次发送”会重新抓取并生成最新报告,而不是发送手选历史文件