преди 1 година · 9f941bfea8
--- a/gbdt_lr.py
+++ b/gbdt_lr.py
@@ -134,7 +134,7 @@ def run():
 
				     parser.add_argument("--recommend", action='store_true')

			
 
				     parser.add_argument("--importance", action='store_true')

			
 
				     

			
 
				-    parser.add_argument("--train_data_dir", type=str, default="./data")

			
 
				+    parser.add_argument("--train_data_dir", type=str, default="./data/gbdt")

			
 
				     parser.add_argument("--model_path", type=str, default="./models/rank/weights")

			
 
				     parser.add_argument("--model_name", type=str, default='model.pkl')

			
 
				     parser.add_argument("--last_n", type=int, default=200)

			
--- a/models/__init__.py
+++ b/models/__init__.py
@@ -1,12 +1,10 @@
 
				 #!/usr/bin/env python3

			
 
				 # -*- coding:utf-8 -*-

			
 
				 from models.recall.hot_recall import HotRecallModel

			
 
				-from models.recall.itemCF.calculate_similarity_matrix import calculate_similarity_and_save_results

			
 
				 from models.recall.itemCF.user_item_score import UserItemScore

			
 
				 from models.recall.itemCF.ItemCF import ItemCFModel

			
 
				 __all__ = [

			
 
				     "HotRecallModel",

			
 
				     "UserItemScore",

			
 
				-    "calculate_similarity_and_save_results",

			
 
				     "ItemCFModel"

			
 
				 ]
			
--- a/models/rank/data/dataloader.py
+++ b/models/rank/data/dataloader.py
@@ -1,7 +1,7 @@
 
				 import pandas as pd

			
 
				 from models.rank.data.config import CustConfig, ProductConfig, ShopConfig

			
 
				 from sklearn.model_selection import train_test_split

			
 
				-from sklearn.preprocessing import StandardScaler

			
 
				+from sklearn.preprocessing import StandardScaler,MinMaxScaler

			
 
				 from models.rank.data.utils import one_hot_embedding

			
 
				 

			
 
				 class DataLoader:

			
--- a/models/rank/data/preprocess.py
+++ b/models/rank/data/preprocess.py
@@ -10,14 +10,14 @@ class DataProcess():
 
				     def __init__(self, city_uuid, save_dir):

			
 
				         self._mysql_dao = MySqlDao()

			
 
				         self.save_dir = save_dir

			
 
				-        print("正在加载cust_info...")

			
 
				+        print("gbdr-lr: 正在加载cust_info...")

			
 
				         self._cust_data = self._mysql_dao.load_cust_data(city_uuid)

			
 
				-        print("正在加载product_info...")

			
 
				+        print("gbdr-lr: 正在加载product_info...")

			
 
				         self._product_data = self._mysql_dao.load_product_data(city_uuid)

			
 
				-        print("正在加载order_info...")

			
 
				+        print("gbdr-lr: 正在加载order_info...")

			
 
				         self._order_data = self._mysql_dao.load_order_data(city_uuid)

			
 
				         # self._order_data = self._mysql_dao.load_mock_order_data()

			
 
				-        print("正在加载shopping_info...")

			
 
				+        print("gbdr-lr: 正在加载shopping_info...")

			
 
				         self._shopping_data = self._mysql_dao.load_shopping_data(city_uuid)

			
 
				         

			
 
				     def data_process(self):

			
--- a/models/recall/itemCF/ItemCF.py
+++ b/models/recall/itemCF/ItemCF.py
@@ -19,7 +19,7 @@ class ItemCFModel:
 
				         

			
 
				         def process_product(product_code, scores):

			
 
				             # 获取热度最高的n个商户

			
 
				-            top_n_shops = scores.nlargest(n, "SCORE")["BB_RETAIL_CUSTOMER_CODE"].values

			
 
				+            top_n_shops = scores.nlargest(n, "score")["cust_code"].values

			
 
				             top_n_indices = [self._shop_index[shop] for shop in top_n_shops]

			
 
				             

			
 
				             # 找到每个商户最相似的k个商户

			
@@ -40,7 +40,7 @@ class ItemCFModel:
 
				                 interest_score = 0

			
 
				                 for shop_idx in top_n_indices:

			
 
				                     if self._index_shop[candidate_idx] in similar_shops[self._index_shop[shop_idx]]:

			
 
				-                        shop_score = scores[scores["BB_RETAIL_CUSTOMER_CODE"]==self._index_shop[shop_idx]]["SCORE"].values[0]

			
 
				+                        shop_score = scores[scores["cust_code"]==self._index_shop[shop_idx]]["score"].values[0]

			
 
				                         interest_score += shop_score * self._similarity_matrix[shop_idx, candidate_idx]

			
 
				                 interest_scores[self._index_shop[candidate_idx]] = interest_score

			
 
				             

			
@@ -52,7 +52,7 @@ class ItemCFModel:
 
				         

			
 
				         # 并行处理每个品规

			
 
				         results = Parallel(n_jobs=n_jobs)(delayed(process_product)(product_code, scores) 

			
 
				-                                          for product_code, scores in tqdm(self._score_df.groupby("PRODUCT_CODE"), desc="train:正在计算候选得分"))

			
 
				+                                          for product_code, scores in tqdm(self._score_df.groupby("product_code"), desc="train:正在计算候选得分"))

			
 
				         print(len(results))

			
 
				         # 存储结果

			
 
				         self._recommendations = {product_code: sorted_candidates for product_code, sorted_candidates in results}

			
@@ -85,10 +85,10 @@ class ItemCFModel:
 
				             redis_db.redis.zadd(redis_key, zset_data)

			
 
				     

			
 
				 if __name__ == "__main__":

			
 
				-    score_path = "./models/recall/itemCF/matrix/score.csv"

			
 
				-    similarity_path = "./models/recall/itemCF/matrix/similarity.csv"

			
 
				-    # itemcf_model = ItemCFModel()

			
 
				-    # itemcf_model.train(score_path, similarity_path, n_jobs=4)

			
 
				+    score_path = "./data/itemcf/scores.csv"

			
 
				+    similarity_path = "./data/itemcf/similarity.csv"

			
 
				+    itemcf_model = ItemCFModel()

			
 
				+    itemcf_model.train(score_path, similarity_path, "00000000000000000000000011445301", n_jobs=4)

			
 
				     # recommend_list = itemcf_model.inference(110111)

			
 
				     # itemcf_model.to_redis_zset()

			
 
				     # print(len(recommend_list))

			
@@ -98,6 +98,4 @@ if __name__ == "__main__":
 
				     # model = joblib.load("./itemCF.model")

			
 
				     # recommend_list = model.inference(110102)

			
 
				     # print(len(recommend_list))

			
 
				-    # print(recommend_list)

			
 
				-    data = pd.read_csv(similarity_path, index_col=0)

			
 
				-    print(data)
			
 
				+    # print(recommend_list)
			
--- a/models/recall/itemCF/calculate_similarity_matrix.py
+++ b/models/recall/itemCF/calculate_similarity_matrix.py
@@ -1,79 +0,0 @@
 
				-from database import MySqlDao

			
 
				-import pandas as pd

			
 
				-import numpy as np

			
 
				-

			
 
				-from itertools import combinations

			
 
				-from tqdm import tqdm

			
 
				-

			
 
				-dao = MySqlDao()

			
 
				-def build_co_occurence_matrix(order_data):

			
 
				-    """

			
 
				-    构建商户共现矩阵

			
 
				-    """

			
 
				-    # 获取所有商户的唯一列表

			
 
				-    shops = order_data["BB_RETAIL_CUSTOMER_CODE"].unique()

			
 
				-    num_shops = len(shops)

			
 
				-    

			
 
				-    # 创建商户到索引的映射

			
 
				-    shops_to_index = {shop: idx for idx, shop in enumerate(shops)}

			
 
				-    # 初始化共现矩阵（上三角部分）

			
 
				-    co_occurrence_matrix = np.zeros((num_shops, num_shops), dtype=int)

			
 
				-    

			
 
				-    # 按照品规分组

			
 
				-    grouped = order_data.groupby("PRODUCT_CODE")["BB_RETAIL_CUSTOMER_CODE"].apply(list)

			
 
				-    

			
 
				-    # 遍历每个品规的商户列表

			
 
				-    for shop_in_product in grouped:

			
 
				-        # 生成商户对

			
 
				-        shop_pairs = combinations(shop_in_product, 2)

			
 
				-        for shop1, shop2 in shop_pairs:

			
 
				-            # 获取商户索引

			
 
				-            idx1 = shops_to_index[shop1]

			
 
				-            idx2 = shops_to_index[shop2]

			
 
				-            # 更新共现矩阵

			
 
				-            co_occurrence_matrix[idx1, idx2] += 1

			
 
				-            co_occurrence_matrix[idx2, idx1] += 1

			
 
				-    return co_occurrence_matrix, shops, shops_to_index

			
 
				-

			
 
				-def calculate_similarity_matrix(co_occurrence_matrix, order_data, shops_to_index):

			
 
				-    """

			
 
				-    使用向量计算商铺之间的相似度矩阵

			
 
				-    """

			
 
				-    # 计算每个商铺售卖品规的总次数

			
 
				-    shop_counts = order_data.groupby("BB_RETAIL_CUSTOMER_CODE").size()

			
 
				-    

			
 
				-    # 将商户售卖次数转换为数组

			
 
				-    counts = np.array([shop_counts[shop] for shop in shops_to_index.keys()])

			
 
				-    

			
 
				-    # 计算分母部分 (sqrt(count_i * count_j))

			
 
				-    denominator = np.sqrt(np.outer(counts, counts))

			
 
				-    

			
 
				-    # 计算相似度矩阵

			
 
				-    similarity_matrix = co_occurrence_matrix / denominator

			
 
				-    

			
 
				-    # 将对角线设置为1

			
 
				-    np.fill_diagonal(similarity_matrix, 1.0)

			
 
				-    

			
 
				-    return similarity_matrix

			
 
				-

			
 
				-def save_matrix(matrix, shops, save_path):

			
 
				-    """

			
 
				-    保存共现矩阵

			
 
				-    """

			
 
				-    matrix_df = pd.DataFrame(matrix, index=shops, columns=shops)

			
 
				-    matrix_df.to_csv(save_path, index=True, encoding="utf-8")

			
 
				-    

			
 
				-def calculate_similarity_and_save_results(order_data, similarity_matrix_save_path):

			
 
				-    co_occurrence_matrix, shops, shops_to_index = build_co_occurence_matrix(order_data)

			
 
				-    similarity_matrix = calculate_similarity_matrix(co_occurrence_matrix, order_data, shops_to_index)

			
 
				-    save_matrix(similarity_matrix, shops, similarity_matrix_save_path)

			
 
				-    

			
 
				-if __name__ == "__main__":

			
 
				-    co_occurrence_save_path = "./models/recall/itemCF/matrix/occurrence.csv"

			
 
				-    similarity_matrix_save_path = "./models/recall/itemCF/matrix/similarity.csv"

			
 
				-    # 从数据库中读取订单数据

			
 
				-    order_data = dao.load_order_data()

			
 
				-    

			
 
				-    calculate_similarity_and_save_results(order_data, similarity_matrix_save_path)

			
 
				-    

			
 
				-    
			
--- a/models/recall/itemCF/score.py
+++ b/models/recall/itemCF/score.py
@@ -0,0 +1,37 @@
 
				+from database import MySqlDao
			
 
				+from models.rank.data.config import OrderConfig
			
 
				+import numpy as np
			
 
				+from sklearn.preprocessing import StandardScaler
			
 
				+class UserItemScore:
			
 
				+    def __init__(self, city_uuid):
			
 
				+        self._dao = MySqlDao()
			
 
				+        self._load_data(city_uuid)
			
 
				+        
			
 
				+    def _load_data(self, city_uuid):
			
 
				+        """加载订单记录表"""
			
 
				+        print("item-cf: 正在加载order_info...")
			
 
				+        self._order_data = self._dao.load_order_data(city_uuid)
			
 
				+        self._order_data =self._order_data[OrderConfig.FEATURE_COLUMNS]
			
 
				+        
			
 
				+        # 数据清洗
			
 
				+        self._order_data["sale_qty"] = self._order_data["sale_qty"].fillna(0)
			
 
				+        self._order_data = self._order_data.groupby(["cust_code", "product_code"], as_index=False)["sale_qty"].sum()
			
 
				+        self._order_data = self._order_data[self._order_data["sale_qty"] != 0]
			
 
				+        
			
 
				+        # 归一化处理
			
 
				+        scaler = StandardScaler()
			
 
				+        normalized = scaler.fit_transform(self._order_data["sale_qty"].values.reshape(-1, 1))
			
 
				+        self._order_data["sale_qty"] = ((1 / (1 + np.exp(-normalized))) * 100).flatten()
			
 
				+    
			
 
				+        
			
 
				+    def generate_product_scores(self, save_path):
			
 
				+        self._order_data = self._order_data.rename(columns={'sale_qty': 'score'})
			
 
				+        self._order_data = self._order_data.sort_values(['product_code', 'score'], ascending=[True, False])
			
 
				+        self._score_data = self._order_data[['product_code', 'cust_code', 'score']]
			
 
				+        self._score_data.to_csv(save_path, index=False, encoding="utf-8")
			
 
				+        
			
 
				+        
			
 
				+if __name__ == "__main__":
			
 
				+    save_path = "./data/itemcf/scores.csv"
			
 
				+    score_utils = UserItemScore("00000000000000000000000011445301") 
			
 
				+    score_utils.generate_product_scores(save_path)
			
--- a/models/recall/itemCF/similarity_matrix.py
+++ b/models/recall/itemCF/similarity_matrix.py
@@ -0,0 +1,76 @@
 
				+from database import MySqlDao
			
 
				+from itertools import combinations
			
 
				+from models.rank.data.config import OrderConfig
			
 
				+import numpy as np
			
 
				+import pandas as pd
			
 
				+from tqdm import tqdm
			
 
				+
			
 
				+
			
 
				+class SimilarityMatrix:
			
 
				+    def __init__(self, city_uuid):
			
 
				+        self._dao = MySqlDao()
			
 
				+        self._load_data(city_uuid)
			
 
				+        self._build_co_occurace_matrix()
			
 
				+        
			
 
				+    def _load_data(self, city_uuid):
			
 
				+        """加载订单记录表"""
			
 
				+        print("item-cf: 正在加载order_info...")
			
 
				+        self._order_data = self._dao.load_order_data(city_uuid)
			
 
				+        self._order_data =self._order_data[OrderConfig.FEATURE_COLUMNS]
			
 
				+        
			
 
				+        # 数据清洗
			
 
				+        self._order_data["sale_qty"] = self._order_data["sale_qty"].fillna(0)
			
 
				+        self._order_data = self._order_data.groupby(["cust_code", "product_code"], as_index=False)["sale_qty"].sum()
			
 
				+        self._order_data = self._order_data[self._order_data["sale_qty"] != 0]
			
 
				+        
			
 
				+    def _build_co_occurace_matrix(self):
			
 
				+        """构建商户共现矩阵"""
			
 
				+       # 获取所有商户的唯一列表
			
 
				+        self._shops = self._order_data["cust_code"].unique()
			
 
				+        num_shops = len(self._shops)
			
 
				+        
			
 
				+        # 创建商户到索引的映射
			
 
				+        self._shops_to_index = {shop: idx for idx, shop in enumerate(self._shops)}
			
 
				+        # 初始化共现矩阵（上三角部分）
			
 
				+        self._co_occurrence_matrix = np.zeros((num_shops, num_shops), dtype=int)
			
 
				+        
			
 
				+        # 按照品规分组
			
 
				+        grouped = self._order_data.groupby("product_code")["cust_code"].apply(list)
			
 
				+        
			
 
				+        # 遍历每个品规的商户列表
			
 
				+        for shop_in_product in tqdm(grouped, desc="正在构建共现矩阵..."):
			
 
				+            # 生成商户对
			
 
				+            shop_pairs = combinations(shop_in_product, 2)
			
 
				+            for shop1, shop2 in shop_pairs:
			
 
				+                # 获取商户索引
			
 
				+                idx1 = self._shops_to_index[shop1]
			
 
				+                idx2 = self._shops_to_index[shop2]
			
 
				+                # 更新共现矩阵
			
 
				+                self._co_occurrence_matrix[idx1, idx2] += 1
			
 
				+                self._co_occurrence_matrix[idx2, idx1] += 1
			
 
				+                
			
 
				+    def calculate_similarity_matrix(self, save_path):
			
 
				+        """使用向量计算商铺之间的相似度矩阵"""
			
 
				+        # 计算每个商铺售卖品规的总次数
			
 
				+        shop_counts = self._order_data.groupby("cust_code").size()
			
 
				+        
			
 
				+        # 将商户售卖次数转换为数组
			
 
				+        counts = np.array([shop_counts[shop] for shop in self._shops_to_index.keys()])
			
 
				+        
			
 
				+        # 计算分母部分 (sqrt(count_i * count_j))
			
 
				+        denominator = np.sqrt(np.outer(counts, counts))
			
 
				+        
			
 
				+        # 计算相似度矩阵
			
 
				+        self._similarity_matrix = self._co_occurrence_matrix / denominator
			
 
				+        
			
 
				+        # 将对角线设置为1
			
 
				+        np.fill_diagonal(self._similarity_matrix, 1.0)
			
 
				+        
			
 
				+        # 保存结果
			
 
				+        self._similarity_matrix = pd.DataFrame(self._similarity_matrix, index=self._shops, columns=self._shops)
			
 
				+        self._similarity_matrix.to_csv(save_path, index=True, encoding="utf-8")
			
 
				+        
			
 
				+if __name__ == "__main__":
			
 
				+    similarity_matrix_save_path = "./data/itemcf/similarity.csv"
			
 
				+    similarity_matrix = SimilarityMatrix("00000000000000000000000011445301")
			
 
				+    similarity_matrix.calculate_similarity_matrix(similarity_matrix_save_path)
			
--- a/models/recall/itemCF/user_item_score.py
+++ b/models/recall/itemCF/user_item_score.py
@@ -1,82 +0,0 @@
 
				-#!/usr/bin/env python

			
 
				-# -*- encoding: utf-8 -*-

			
 
				-'''

			
 
				-@filename     : ShopScore.py

			
 
				-@description     : 品规-商户-评分矩阵：品规(用户)对商铺(物品)的评分矩阵，将结果保存在score.csv文件中

			
 
				-@time     : 2025/01/31/02

			
 
				-@author     : Sherlock1011 & Min1027

			
 
				-@Version     : 1.0

			
 
				-'''

			
 
				-

			
 
				-

			
 
				-from database import MySqlDao

			
 
				-from decimal import Decimal

			
 
				-

			
 
				-# 算法封装成一个类

			
 
				-class UserItemScore:

			
 
				-    """TODO 1. 将结果保存到redis数据库中"""

			
 
				-    def __init__(self):

			
 
				-        self.weights = {

			
 
				-            "MONTH6_SALE_QTY": Decimal(0.1),

			
 
				-            "MONTH6_SALE_AMT": Decimal(0.1),

			
 
				-            "MONTH6_GROSS_PROFIT_RATE": Decimal(0.03),

			
 
				-            "MONTH6_SALE_QTY_YOY": Decimal(0.1),

			
 
				-            "MONTH6_SALE_QTY_MOM": Decimal(0.1),

			
 
				-            "MONTH6_SALE_AMT_YOY": Decimal(0.1),

			
 
				-            "MONTH6_SALE_AMT_MOM": Decimal(0.1),

			
 
				-            "ORDER_FULLORDR_RATE": Decimal(0.1),

			
 
				-            "CUSTOMER_REPURCHASE_RATE": Decimal(0.1),

			
 
				-            "NEW_PRODUCT_ORDER_QTY_OCC": Decimal(0.03),

			
 
				-            "LISTING_RATE": Decimal(0.1),

			
 
				-            "OUT_STOCK_DAYS": Decimal(0.02),

			
 
				-            "RETAIL_PRICE_INDEX": Decimal(0.02)

			
 
				-        }

			
 
				-        self.dao = MySqlDao()

			
 
				-

			
 
				-    # 均值方差归一化函数

			
 
				-    def standardize_column(self, column):

			
 
				-        if(column.max() == column.min() and column.max() == 0):

			
 
				-            return 0

			
 
				-        elif (column.max() == column.min() and column.max() != 0):

			
 
				-            return 1

			
 
				-        else:

			
 
				-            return (column - column.min()) / (column.max() - column.min())

			
 
				-

			
 
				-    # 按照品规分组归一化并计算评分

			
 
				-    def calculate_heart_per_product(self, group):

			
 
				-        for column in self.weights.keys():

			
 
				-            if column == "OUT_STOCK_DAYS":

			
 
				-                group[column] = 1 - self.standardize_column(group[column])

			
 
				-            else:

			
 
				-                group[column] = self.standardize_column(group[column])

			
 
				-        group["SCORE"] = group.apply(

			
 
				-            lambda row: sum(Decimal(row[col]) * weight for col, weight in self.weights.items()) * 100, axis=1

			
 
				-        )

			
 
				-        return group

			
 
				-

			
 
				-    # 主算法函数：计算品规-商铺评分矩阵

			
 
				-    def score(self, order_data):

			
 
				-       

			
 
				-

			
 
				-        # 应用分组计算

			
 
				-        df_result = order_data.groupby("PRODUCT_CODE").apply(self.calculate_heart_per_product).reset_index(drop=True)

			
 
				-        df_result = df_result.sort_values(by=["PRODUCT_CODE", "SCORE"], ascending=[True, False])

			
 
				-

			
 
				-        # 选择要保存的列

			
 
				-        return df_result[['PRODUCT_CODE', 'BB_RETAIL_CUSTOMER_CODE', 'SCORE']]

			
 
				- 

			
 
				-if __name__ == "__main__":

			
 
				-    # 创建一个 ItemCF 类的实例

			
 
				-    item_cf_algorithm = UserItemScore()

			
 
				-    dao = MySqlDao()

			
 
				-    # 读取数据

			
 
				-    order_data = dao.load_order_data()

			
 
				-

			
 
				-    # 调用算法

			
 
				-    scores = item_cf_algorithm.score(order_data)

			
 
				-    

			
 
				-    scores_path = "./models/recall/itemCF/matrix/score.csv"

			
 
				-    

			
 
				-    # 保存评分结果到csv文件

			
 
				-    scores.to_csv(scores_path, index=False, encoding="utf-8")

			
 
				-