1 rok temu · c2a1bc2990
--- a/app.py
+++ b/app.py
@@ -1,6 +1,88 @@
 
															-#!/usr/bin/env python3
														
 
															-# -*- coding:utf-8 -*-
														
 
															-# 0：执行所有模块
														
 
															-# 1：只执行热度找回
														
 
															-# 2：协同过滤
														
 
															-# --config 
														
 
															+import argparse
														
 
															+from dao import load_order_data_from_mysql
														
 
															+from dao.redis_db import Redis
														
 
															+from models import HotRecallModel, UserItemScore, ItemCFModel, calculate_similarity_and_save_results
														
 
															+import os
														
 
															+
														
 
															+def run_hot_recall(order_data):
														
 
															+    """运行热度召回算法"""
														
 
															+    hot_model = HotRecallModel(order_data)
														
 
															+    hot_model.calculate_all_hot_score()
														
 
															+    print("热度召回已完成！")
														
 
															+
														
 
															+def run_itemcf(args):
														
 
															+    # """运行协同过滤算法"""
														
 
															+    # if os.path.exists(args.interst_score_path) and os.path.exists(args.similarity_matrix_path):
														
 
															+    #     os.remove(args.interst_score_path)
														
 
															+    #     os.remove(args.similarity_matrix_path)
														
 
															+    # # n_jobs = 4
														
 
															+    
														
 
															+    # # 计算user-score-item数据
														
 
															+    # cal_interest_scores_model = UserItemScore()
														
 
															+    # scores = cal_interest_scores_model.score(order_data)
														
 
															+    # scores.to_csv(args.interst_score_path, index=False, encoding="utf-8")
														
 
															+    # print("Interest Scores cal done!")
														
 
															+    
														
 
															+    # # 计算商户共现矩阵及相似度矩阵
														
 
															+    # calculate_similarity_and_save_results(order_data, args.similarity_matrix_path)
														
 
															+    # print("Shops similarity matrix cal done!")
														
 
															+    
														
 
															+    # 运行协同过滤召回
														
 
															+    itemcf_model = ItemCFModel()
														
 
															+    itemcf_model.train(args.interst_score_path, args.similarity_matrix_path, args.n, args.k, args.top_n, args.n_jobs)
														
 
															+    print("协同过滤已完成！")
														
 
															+
														
 
															+def run_itemcf_inference(product_code):
														
 
															+        """
														
 
															+        从 Redis 中读取推荐结果，并返回 {shop_id: score} 的列表
														
 
															+        """
														
 
															+        redis_db = Redis()
														
 
															+        redis_key = f"fc:{product_code}"
														
 
															+        recommendations = redis_db.redis.zrange(redis_key, 0, -1, withscores=True, desc=True)
														
 
															+        
														
 
															+        # 将推荐结果转换为 {shop_id: score} 的字典列表
														
 
															+        result = [{shop_id: float(score)} for shop_id, score in recommendations]
														
 
															+        
														
 
															+        return result
														
 
															+
														
 
															+def run():
														
 
															+    parser = argparse.ArgumentParser()
														
 
															+    
														
 
															+    # 运行方式
														
 
															+    parser.add_argument("--run_all", action='store_true')
														
 
															+    parser.add_argument("--run_hot", action='store_true')
														
 
															+    parser.add_argument("--run_itemcf", action='store_true')
														
 
															+    parser.add_argument("--run_itemcf_inference", action='store_true')
														
 
															+    
														
 
															+    # 协同过滤相关配置
														
 
															+    parser.add_argument("--interst_score_path", type=str, default="./models/recall/itemCF/matrix/score.csv")
														
 
															+    parser.add_argument("--similarity_matrix_path", type=str, default="./models/recall/itemCF/matrix/similarity.csv")
														
 
															+    parser.add_argument("--n", type=int, default=100)
														
 
															+    parser.add_argument("--k", type=int, default=10)
														
 
															+    parser.add_argument("--top_n", type=int, default=200, help='default n * k')
														
 
															+    parser.add_argument("--n_jobs", type=int, default=4)
														
 
															+    
														
 
															+    # 协同过滤推理配置
														
 
															+    parser.add_argument("--product_code", type=int, default=110111)
														
 
															+    
														
 
															+    args = parser.parse_args()
														
 
															+    
														
 
															+    if args.run_all:
														
 
															+        order_data = load_order_data_from_mysql()
														
 
															+        run_hot_recall(order_data)
														
 
															+        run_itemcf(order_data, args)
														
 
															+        
														
 
															+    elif args.run_hot:
														
 
															+        order_data = load_order_data_from_mysql()
														
 
															+        run_hot_recall(order_data)
														
 
															+        
														
 
															+    elif args.run_itemcf:
														
 
															+        # order_data = load_order_data_from_mysql()
														
 
															+        run_itemcf(args)
														
 
															+        
														
 
															+    elif args.run_itemcf_inference:
														
 
															+        recomments = run_itemcf_inference(args.product_code)
														
 
															+        print(recomments)
														
 
															+    
														
 
															+if __name__ == "__main__":
														
 
															+    run()
														
--- a/dao/__init__.py
+++ b/dao/__init__.py
@@ -1,7 +1,9 @@
 
															 #!/usr/bin/env python3
														
 
															 # -*- coding:utf-8 -*-
														
 
															 from dao.mysql_client import Mysql
														
 
															+from dao.dao import load_order_data_from_mysql
														
 
															 __all__ = [
														
 
															-    "Mysql"
														
 
															+    "Mysql",
														
 
															+    "load_order_data_from_mysql"
														
 
															 ]
														
--- a/dao/dao.py
+++ b/dao/dao.py
@@ -0,0 +1,14 @@
 
															+from dao import Mysql
														
 
															+
														
 
															+def load_order_data_from_mysql():
														
 
															+    """从数据库中读取数据"""
														
 
															+    client = Mysql()
														
 
															+    tablename = "mock_order"
														
 
															+    query_text = "*"
														
 
															+    
														
 
															+    df = client.load_data(tablename, query_text)
														
 
															+    
														
 
															+     # 去除重复值和填补缺失值
														
 
															+    df.drop_duplicates(inplace=True)
														
 
															+    df.fillna(0, inplace=True)
														
 
															+    return df
														
--- a/dao/redis_db.py
+++ b/dao/redis_db.py
@@ -21,7 +21,7 @@ if __name__ == '__main__':
 
															     r = Redis().redis
														
 
															     # 有序集合的键名
														
 
															-    zset_key = 'hotkeys'
														
 
															+    zset_key = 'configs:hotkeys'
														
 
															     data_list = ['ORDER_FULLORDR_RATE', 'MONTH6_SALE_QTY_YOY', 'MONTH6_SALE_QTY_MOM', 'MONTH6_SALE_QTY']
														
--- a/models/__init__.py
+++ b/models/__init__.py
@@ -1,2 +1,12 @@
 
															 #!/usr/bin/env python3
														
 
															 # -*- coding:utf-8 -*-
														
 
															+from models.recall.hot_recall import HotRecallModel
														
 
															+from models.recall.itemCF.calculate_similarity_matrix import calculate_similarity_and_save_results
														
 
															+from models.recall.itemCF.user_item_score import UserItemScore
														
 
															+from models.recall.itemCF.ItemCF import ItemCFModel
														
 
															+__all__ = [
														
 
															+    "HotRecallModel",
														
 
															+    "UserItemScore",
														
 
															+    "calculate_similarity_and_save_results",
														
 
															+    "ItemCFModel"
														
 
															+]
														
--- a/models/recall/__init__.py
+++ b/models/recall/__init__.py
@@ -1,2 +0,0 @@
 
															-#!/usr/bin/env python3
														
 
															-# -*- coding:utf-8 -*-
														
--- a/models/recall/hot_recall.py
+++ b/models/recall/hot_recall.py
@@ -10,20 +10,17 @@
 
															 import pandas as pd
														
 
															 from dao.redis_db import Redis
														
 
															 from dao.mysql_client import Mysql
														
 
															-import random
														
 
															 from tqdm import tqdm
														
 
															-import joblib
														
 
															-random.seed(12345)
														
 
															 class HotRecallModel:
														
 
															-    def __init__(self):
														
 
															+    def __init__(self, order_data):
														
 
															         self._redis_db = Redis()
														
 
															         self._hotkeys = self.get_hotkeys()
														
 
															-        self._order_data = self._load_data_from_dataset()
														
 
															+        self._order_data = order_data
														
 
															     def get_hotkeys(self):
														
 
															-        info = self._redis_db.redis.zrange("hotkeys", 0, -1, withscores=True)
														
 
															+        info = self._redis_db.redis.zrange("configs:hotkeys", 0, -1, withscores=True)
														
 
															         hotkeys = []
														
 
															         for item, _ in info:
														
 
															             hotkeys.append(item)
														
--- a/models/recall/itemCF/ItemCF.py
+++ b/models/recall/itemCF/ItemCF.py
@@ -6,7 +6,7 @@ from scipy.sparse import csr_matrix
 
															 from joblib import Parallel, delayed
														
 
															 import joblib
														
 
															-class ItemCF:
														
 
															+class ItemCFModel:
														
 
															     def __init__(self):
														
 
															         self._recommendations = {}
														
@@ -53,9 +53,10 @@ class ItemCF:
 
															         # 并行处理每个品规
														
 
															         results = Parallel(n_jobs=n_jobs)(delayed(process_product)(product_code, scores) 
														
 
															                                           for product_code, scores in tqdm(self._score_df.groupby("PRODUCT_CODE"), desc="train:正在计算候选得分"))
														
 
															-        
														
 
															+        print(len(results))
														
 
															         # 存储结果
														
 
															         self._recommendations = {product_code: sorted_candidates for product_code, sorted_candidates in results}
														
 
															+        self.to_redis_zset()
														
 
															     def to_redis_zset(self):
														
 
															         """
														
@@ -76,31 +77,20 @@ class ItemCF:
 
															             redis_db.redis.zadd(redis_key, zset_data)
														
 
															-    def inference(self, product_code):
														
 
															-        """
														
 
															-        从 Redis 中读取推荐结果，并返回 {shop_id: score} 的列表
														
 
															-        """
														
 
															-        redis_db = Redis()
														
 
															-        redis_key = f"fc:{product_code}"
														
 
															-        recommendations = redis_db.redis.zrange(redis_key, 0, -1, withscores=True, desc=True)
														
 
															-        
														
 
															-        # 将推荐结果转换为 {shop_id: score} 的字典列表
														
 
															-        result = [{shop_id: float(score)} for shop_id, score in recommendations]
														
 
															-        
														
 
															-        return result
														
 
															-    
														
 
															 if __name__ == "__main__":
														
 
															     score_path = "./models/recall/itemCF/matrix/score.csv"
														
 
															     similarity_path = "./models/recall/itemCF/matrix/similarity.csv"
														
 
															-    itemcf_model = ItemCF()
														
 
															+    # itemcf_model = ItemCFModel()
														
 
															     # itemcf_model.train(score_path, similarity_path, n_jobs=4)
														
 
															-    recommend_list = itemcf_model.inference(110111)
														
 
															+    # recommend_list = itemcf_model.inference(110111)
														
 
															     # itemcf_model.to_redis_zset()
														
 
															     # print(len(recommend_list))
														
 
															-    print(recommend_list)
														
 
															+    # print(recommend_list)
														
 
															     # joblib.dump(itemcf_model, "itemCF.model")
														
 
															     # model = joblib.load("./itemCF.model")
														
 
															     # recommend_list = model.inference(110102)
														
 
															     # print(len(recommend_list))
														
 
															-    # print(recommend_list)
														
 
															+    # print(recommend_list)
														
 
															+    data = pd.read_csv(similarity_path, index_col=0)
														
 
															+    print(data)
														
--- a/models/recall/itemCF/calculate_co_occurrence_matrix.py
+++ b/models/recall/itemCF/calculate_co_occurrence_matrix.py
@@ -1,3 +1,4 @@
 
															+from dao import load_order_data_from_mysql
														
 
															 import pandas as pd
														
 
															 import numpy as np
														
@@ -5,18 +6,6 @@ from itertools import combinations
 
															 from dao.mysql_client import Mysql
														
 
															 from tqdm import tqdm
														
 
															-def load_data_from_dataset():
														
 
															-    """从数据库中读取数据"""
														
 
															-    client = Mysql()
														
 
															-    tablename = "mock_order"
														
 
															-    query_text = "*"
														
 
															-    
														
 
															-    df = client.load_data(tablename, query_text)
														
 
															-    
														
 
															-     # 去除重复值和填补缺失值
														
 
															-    df.drop_duplicates(inplace=True)
														
 
															-    df.fillna(0, inplace=True)
														
 
															-    return df
														
 
															 def build_co_occurence_matrix(order_data):
														
 
															     """
														
@@ -53,7 +42,6 @@ def calculate_similarity_matrix(co_occurrence_matrix, order_data, shops_to_index
 
															     """
														
 
															     # 计算每个商铺售卖品规的总次数
														
 
															     shop_counts = order_data.groupby("BB_RETAIL_CUSTOMER_CODE").size()
														
 
															-    num_shops = len(shops_to_index)
														
 
															     # 将商户售卖次数转换为数组
														
 
															     counts = np.array([shop_counts[shop] for shop in shops_to_index.keys()])
														
@@ -76,14 +64,17 @@ def save_matrix(matrix, shops, save_path):
 
															     matrix_df = pd.DataFrame(matrix, index=shops, columns=shops)
														
 
															     matrix_df.to_csv(save_path, index=True, encoding="utf-8")
														
 
															+def calculate_similarity_and_save_results(order_data, similarity_matrix_save_path):
														
 
															+    co_occurrence_matrix, shops, shops_to_index = build_co_occurence_matrix(order_data)
														
 
															+    similarity_matrix = calculate_similarity_matrix(co_occurrence_matrix, order_data, shops_to_index)
														
 
															+    save_matrix(similarity_matrix, shops, similarity_matrix_save_path)
														
 
															+    
														
 
															 if __name__ == "__main__":
														
 
															     co_occurrence_save_path = "./models/recall/itemCF/matrix/occurrence.csv"
														
 
															     similarity_matrix_save_path = "./models/recall/itemCF/matrix/similarity.csv"
														
 
															-    order_data = load_data_from_dataset()
														
 
															+    # 从数据库中读取订单数据
														
 
															+    order_data = load_order_data_from_mysql()
														
 
															-    co_occurrence_matrix, shops, shops_to_index = build_co_occurence_matrix(order_data)
														
 
															+    calculate_similarity_and_save_results(order_data, similarity_matrix_save_path)
														
 
															-    # save_matrix(co_occurrence_matrix, shops, co_occurrence_save_path)
														
 
															-    similarity_matrix = calculate_similarity_matrix(co_occurrence_matrix, order_data, shops_to_index)
														
 
															-    save_matrix(similarity_matrix, shops, similarity_matrix_save_path)
														
--- a/models/recall/itemCF/user_item_score.py
+++ b/models/recall/itemCF/user_item_score.py
@@ -7,9 +7,9 @@
 
															 @author     : Sherlock1011 & Min1027
														
 
															 @Version     : 1.0
														
 
															 '''
														
 
															-import joblib
														
 
															-from dao.mysql_client import Mysql
														
 
															+
														
 
															+from dao import load_order_data_from_mysql
														
 
															 from decimal import Decimal
														
 
															 # 算法封装成一个类
														
@@ -61,32 +61,20 @@ class UserItemScore:
 
															         df_result = df_result.sort_values(by=["PRODUCT_CODE", "SCORE"], ascending=[True, False])
														
 
															         # 选择要保存的列
														
 
															-        # df_result[['PRODUCT_CODE', 'BB_RETAIL_CUSTOMER_CODE', 'SCORE']].to_csv("./models/recall/itemCF/matrix/score.csv", index=False, encoding="utf-8")
														
 
															         return df_result[['PRODUCT_CODE', 'BB_RETAIL_CUSTOMER_CODE', 'SCORE']]
														
 
															-
														
 
															-def load_data_from_dataset():
														
 
															-    """从数据库中读取数据"""
														
 
															-    client = Mysql()
														
 
															-    tablename = "mock_order"
														
 
															-    query_text = "*"
														
 
															-    
														
 
															-    df = client.load_data(tablename, query_text)
														
 
															-    
														
 
															-     # 去除重复值和填补缺失值
														
 
															-    df.drop_duplicates(inplace=True)
														
 
															-    df.fillna(0, inplace=True)
														
 
															-    return df
														
 
															 if __name__ == "__main__":
														
 
															     # 创建一个 ItemCF 类的实例
														
 
															     item_cf_algorithm = UserItemScore()
														
 
															     # 读取数据
														
 
															-    order_data = load_data_from_dataset()
														
 
															+    order_data = load_order_data_from_mysql()
														
 
															     # 调用算法
														
 
															     scores = item_cf_algorithm.score(order_data)
														
 
															+    scores_path = "./models/recall/itemCF/matrix/score.csv"
														
 
															+    
														
 
															     # 保存评分结果到csv文件
														
 
															-    scores.to_csv("./models/recall/itemCF/matrix/score.csv", index=False, encoding="utf-8")
														
 
															+    scores.to_csv(scores_path, index=False, encoding="utf-8")
	`@@ -1,2 +0,0 @@`
	`-#!/usr/bin/env python3`
	`-# -- coding:utf-8 --`