修复 LLM 输出的 json
https://github.com/mangiucugna/json_repair
pip install json_repair
repair_json()
pythonfrom json_repair import repair_json, loads
bad_json_string = '{"a": 1'
good_json_string = repair_json(bad_json_string)
print(good_json_string) # '{"a": 1}'
功能 | JSONPath符号 | XPath符号 | 描述 |
---|---|---|---|
根节点 | $ | / | 访问JSON或XML的根节点 |
子节点 | . | / | 访问当前节点的子节点 |
所有子节点 | * | * | 访问当前节点的所有子节点 |
数组索引 | [n] | [n] | 访问数组的第n个元素 |
所有数组元素 | [*] | * | 访问数组中的所有元素 |
合并操作符 | [,] | 访问若干个元素 | |
切片运算符 | [:] | 访问若干个元素,左闭右开 | |
递归下级 | .. | // | 访问当前节点及其所有子孙节点 |
过滤条件 | [?()] | [condition] | 根据条件筛选节点 |
返回的结果均为数组
https://github.com/scrapy/w3lib
pip install w3lib
w3lib.url
canonicalize_url(url, keep_fragments=False)
规范化 URL