| 123456789101112131415161718192021222324252627282930313233343536 |
- import os
- import json
- def merge_jsonl_files(input_folder, output_file):
- """
- 合并指定文件夹下所有.jsonl文件的内容到results.txt
- :param input_folder: 包含.jsonl文件的文件夹路径
- :param output_file: 输出文件路径(如results.txt)
- """
- # 确保输出目录存在
- with open(output_file, 'w', encoding='utf-8') as out_f:
- # 遍历文件夹中的所有文件
- for filename in os.listdir(input_folder):
- if filename.endswith('.jsonl'):
- filepath = os.path.join(input_folder, filename)
- try:
- with open(filepath, 'r', encoding='utf-8') as in_f:
- for line in in_f:
- # 直接写入原始行(保留JSONL格式)
- out_f.write(line)
- # 如果需要提取特定字段,可以解析JSON:
- # data = json.loads(line)
- # out_f.write(data.get('text', '') + '\n')
- print(f"已合并: {filename}")
- except Exception as e:
- print(f"处理文件 {filename} 时出错: {e}")
- print(f"所有.jsonl文件已合并到 {output_file}")
- if __name__ == "__main__":
- # 使用示例
- input_folder = "./localworkspace/results/" # 替换为你的.jsonl文件所在文件夹
- output_file = "./results.txt" # 输出文件路径
-
- merge_jsonl_files(input_folder, output_file)
|