1 год назад · edff1af8d4
--- a/dao/__init__.py
+++ b/dao/__init__.py
@@ -1,7 +1,7 @@
 
				 #!/usr/bin/env python3
			
 
				 # -*- coding:utf-8 -*-
			
 
				 from dao.mysql_client import Mysql
			
 
				-from dao.dao import load_order_data_from_mysql, load_cust_data_from_mysql, load_product_data_from_mysql, get_product_by_id, get_custs_by_ids
			
 
				+from dao.dao import load_order_data_from_mysql, load_cust_data_from_mysql, load_product_data_from_mysql, get_product_by_id, get_custs_by_ids, get_cust_list_from_database
			
 
				 from dao.redis_db import Redis
			
 
				 
			
 
				 __all__ = [
			
@@ -11,5 +11,6 @@ __all__ = [
 
				     "load_product_data_from_mysql",
			
 
				     "Redis",
			
 
				     "get_product_by_id",
			
 
				-    "get_custs_by_ids"
			
 
				+    "get_custs_by_ids",
			
 
				+    "get_cust_list_from_database"
			
 
				 ]
			
--- a/dao/dao.py
+++ b/dao/dao.py
@@ -3,20 +3,21 @@ from dao import Mysql
 
				 def load_order_data_from_mysql(city_uuid):
			
 
				     """从数据库中读取订单数据"""
			
 
				     client = Mysql()
			
 
				-    tablename = "tads_brandcul_cust_order"
			
 
				+    tablename = "yunfu_mock_data"
			
 
				     query_text = "*"
			
 
				-    city_uuid = "00000000000000000000000011441801"
			
 
				-    df = client.load_data(tablename, query_text, "city_uuid", city_uuid)
			
 
				-    # df = client.load_mock_data(tablename, query_text)
			
 
				+    # city_uuid = "00000000000000000000000011441801"
			
 
				+    # df = client.load_data(tablename, query_text, "city_uuid", city_uuid)
			
 
				+    df = client.load_mock_data(tablename, query_text)
			
 
				     if len(df) == 0:
			
 
				         return None
			
 
				     
			
 
				-    df.drop('stat_month', axis=1, inplace=True)
			
 
				-    df.drop('city_uuid', axis=1, inplace=True)
			
 
				+    # df.drop('stat_month', axis=1, inplace=True)
			
 
				+    # df.drop('city_uuid', axis=1, inplace=True)
			
 
				     
			
 
				     # 去除重复值和填补缺失值
			
 
				     df.drop_duplicates(inplace=True)
			
 
				     df.fillna(0, inplace=True)
			
 
				+    df = df.infer_objects(copy=False)
			
 
				     return df
			
 
				 
			
 
				 def load_cust_data_from_mysql(city_uuid):
			
@@ -31,6 +32,18 @@ def load_cust_data_from_mysql(city_uuid):
 
				     
			
 
				     return df
			
 
				 
			
 
				+def get_cust_list_from_database(city_uuid):
			
 
				+    client = Mysql()
			
 
				+    tablename = "tads_brandcul_cust_info"
			
 
				+    query_text = "*"
			
 
				+    
			
 
				+    df = client.load_data(tablename, query_text, "BA_CITY_ORG_CODE", city_uuid)
			
 
				+    cust_list = df["BB_RETAIL_CUSTOMER_CODE"].to_list()
			
 
				+    if len(cust_list) == 0:
			
 
				+        return []
			
 
				+    
			
 
				+    return cust_list
			
 
				+
			
 
				 def load_product_data_from_mysql(city_uuid):
			
 
				     """从数据库中读取商品信息"""
			
 
				     client = Mysql()
			
--- a/models/rank/data/dataloader.py
+++ b/models/rank/data/dataloader.py
@@ -1,6 +1,5 @@
 
				 import pandas as pd
			
 
				 from models.rank.data.config import CustConfig, ProductConfig
			
 
				-from sklearn.preprocessing import OneHotEncoder
			
 
				 from sklearn.model_selection import train_test_split
			
 
				 from sklearn.preprocessing import StandardScaler
			
 
				 from models.rank.data.utils import one_hot_embedding
			
@@ -32,7 +31,13 @@ class DataLoader:
 
				         labels = self._gbdt_data["label"]
			
 
				         
			
 
				         # 2. 划分数据集，80%训练集、20%的测试集
			
 
				-        X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42, shuffle=True)
			
 
				+        X_train, X_test, y_train, y_test = train_test_split(
			
 
				+            features, labels, 
			
 
				+            test_size=0.2, 
			
 
				+            random_state=42, 
			
 
				+            shuffle=True,
			
 
				+            stratify=labels,
			
 
				+        )
			
 
				         
			
 
				         # 3. 数据标准化（仅对特征进行标准化）
			
 
				         scaler = StandardScaler()
			
@@ -47,4 +52,11 @@ class DataLoader:
 
				 if __name__ == '__main__':
			
 
				     path = './models/rank/data/gbdt_data.csv'
			
 
				     dataloader = DataLoader(path)
			
 
				-    dataloader.split_dataset()
			
 
				+    train_dataset, test_dataset = dataloader.split_dataset()
			
 
				+    
			
 
				+    # 打印训练集和测试集的正负样本分布
			
 
				+    print("训练集正负样本分布：")
			
 
				+    print(train_dataset["label"].value_counts(normalize=True))
			
 
				+    
			
 
				+    print("测试集正负样本分布：")
			
 
				+    print(test_dataset["label"].value_counts(normalize=True))
			
--- a/models/rank/data/preprocess.py
+++ b/models/rank/data/preprocess.py
@@ -3,6 +3,7 @@ from models.rank.data.config import CustConfig, ProductConfig, OrderConfig
 
				 import os
			
 
				 import pandas as pd
			
 
				 from sklearn.preprocessing import MinMaxScaler
			
 
				+from sklearn.utils import shuffle
			
 
				 import numpy as np
			
 
				 
			
 
				 class DataProcess():
			
@@ -40,7 +41,7 @@ class DataProcess():
 
				         self._calculate_score()
			
 
				         
			
 
				         # 4. 根据中位数打标签
			
 
				-        self.labeled_data_by_score()
			
 
				+        self.labeled_data()
			
 
				         
			
 
				         # 5. 选取训练样本
			
 
				         self._generate_train_data()
			
@@ -61,6 +62,7 @@ class DataProcess():
 
				                     self._cust_data[feature] = self._cust_data[feature].fillna(self._cust_data[rules["value"]])
			
 
				                 elif rules["opt"] == "mean":
			
 
				                     self._cust_data[feature] = self._cust_data[feature].fillna(self._cust_data[feature].mean())
			
 
				+                self._cust_data[feature] = self._cust_data[feature].infer_objects(copy=False)
			
 
				     
			
 
				     def _clean_product_data(self):
			
 
				         """卷烟信息表数据清洗"""
			
@@ -73,6 +75,7 @@ class DataProcess():
 
				                     self._product_data[feature] = self._product_data[feature].fillna(rules["value"])
			
 
				                 elif rules["opt"] == "mean":
			
 
				                     self._product_data[feature] = self._product_data[feature].fillna(self._product_data[feature].mean())
			
 
				+                self._product_data[feature] = self._product_data[feature].infer_objects(copy=False)
			
 
				                     
			
 
				     def _clean_order_data(self):
			
 
				         pass
			
@@ -87,7 +90,7 @@ class DataProcess():
 
				         self._order_score["score"] = sum(self._order_score[feat] * weight 
			
 
				                           for feat, weight in OrderConfig.WEIGHTS.items())
			
 
				     
			
 
				-    def labeled_data_by_score(self):
			
 
				+    def labeled_data(self):
			
 
				         """通过计算分数打标签"""
			
 
				         # 按品规分组计算中位数
			
 
				         product_medians = self._order_score.groupby("PRODUCT_CODE")["score"].median().reset_index()
			
@@ -102,7 +105,20 @@ class DataProcess():
 
				         )
			
 
				         self._order_score = self._order_score.sort_values("score", ascending=False)
			
 
				         self._order_score = self._order_score[["BB_RETAIL_CUSTOMER_CODE", "PRODUCT_CODE", "label"]]
			
 
				-        self._order_score.to_csv("./models/rank/data/train.csv")
			
 
				+        self._order_score.rename(columns={"PRODUCT_CODE": "product_code"}, inplace=True)
			
 
				+    
			
 
				+    def _generate_train_data(self):
			
 
				+        cust_feats = self._cust_data.set_index("BB_RETAIL_CUSTOMER_CODE")
			
 
				+        product_feats = self._product_data.set_index("product_code")
			
 
				+        
			
 
				+        self._train_data = self._order_score.copy()
			
 
				+        
			
 
				+        self._train_data = self._train_data.join(cust_feats, on="BB_RETAIL_CUSTOMER_CODE", how="left")
			
 
				+        self._train_data = self._train_data.join(product_feats, on="product_code", how="left")
			
 
				+        
			
 
				+        self._train_data = shuffle(self._train_data, random_state=42)
			
 
				+        
			
 
				+        self._train_data.to_csv(self._save_res_path, index=False)
			
 
				     
			
 
				     def _descartes(self):
			
 
				         """将零售户信息与卷烟信息进行笛卡尔积连接"""
			
@@ -111,7 +127,7 @@ class DataProcess():
 
				         
			
 
				         self._descartes_data = pd.merge(self._cust_data, self._product_data, on="descartes").drop("descartes", axis=1)
			
 
				         
			
 
				-    def _labeled_data(self):
			
 
				+    def _labeled_data_from_descartes(self):
			
 
				         """根据order表信息给descartes_data数据打标签"""
			
 
				         # 获取order表中的正样本组合
			
 
				         order_combinations = self._order_data[["BB_RETAIL_CUSTOMER_CODE", "PRODUCT_CODE"]].drop_duplicates()
			
@@ -121,7 +137,7 @@ class DataProcess():
 
				         self._descartes_data['label'] = self._descartes_data.apply(
			
 
				             lambda row: 1 if (row['BB_RETAIL_CUSTOMER_CODE'], row['product_code']) in order_set else 0, axis=1)
			
 
				     
			
 
				-    def _generate_train_data(self):
			
 
				+    def _generate_train_data_from_descartes(self):
			
 
				         """从descartes_data中生成训练数据"""
			
 
				         positive_samples = self._descartes_data[self._descartes_data["label"] == 1]
			
 
				         negative_samples = self._descartes_data[self._descartes_data["label"] == 0]
			
--- a/models/rank/gbdt_lr_sort.py
+++ b/models/rank/gbdt_lr_sort.py
@@ -1,5 +1,5 @@
 
				 import joblib
			
 
				-from dao import Redis, get_product_by_id, get_custs_by_ids
			
 
				+from dao import Redis, get_product_by_id, get_custs_by_ids, load_cust_data_from_mysql
			
 
				 from models.rank.data import ProductConfig, CustConfig
			
 
				 from models.rank.data.utils import one_hot_embedding, sample_data_clear
			
 
				 import pandas as pd
			
@@ -16,19 +16,26 @@ class GbdtLrModel:
 
				         self.gbdt_model, self.lr_model, self.onehot_encoder = models["gbdt_model"], models["lr_model"], models["onehot_encoder"]
			
 
				         
			
 
				     
			
 
				-    def get_recall_list(self, city_uuid, product_id):
			
 
				-        """根据卷烟id获取召回的商铺列表"""
			
 
				-        key = f"fc:{city_uuid}:{product_id}"
			
 
				-        self.recall_cust_list = self.redis.zrange(key, 0, -1, withscores=False)
			
 
				+    # def get_recall_list(self, city_uuid, product_id):
			
 
				+    #     """根据卷烟id获取召回的商铺列表"""
			
 
				+    #     key = f"fc:{city_uuid}:{product_id}"
			
 
				+    #     self.recall_cust_list = self.redis.zrange(key, 0, -1, withscores=False)
			
 
				     
			
 
				-    def load_recall_data(self, city_uuid, product_id):
			
 
				+    # def load_recall_data(self, city_uuid, product_id):
			
 
				+    #     self.product_data = get_product_by_id(city_uuid, product_id)[ProductConfig.FEATURE_COLUMNS]
			
 
				+    #     self.custs_data = get_custs_by_ids(city_uuid, self.recall_cust_list)[CustConfig.FEATURE_COLUMNS]
			
 
				+        
			
 
				+    def get_cust_and_product_data(self, city_uuid, product_id):
			
 
				+        """从商户数据库中获取指定城市所有商户的id"""
			
 
				         self.product_data = get_product_by_id(city_uuid, product_id)[ProductConfig.FEATURE_COLUMNS]
			
 
				-        self.custs_data = get_custs_by_ids(city_uuid, self.recall_cust_list)[CustConfig.FEATURE_COLUMNS]
			
 
				+        self.custs_data = load_cust_data_from_mysql(city_uuid)[CustConfig.FEATURE_COLUMNS]
			
 
				     
			
 
				     def generate_feats_map(self, city_uuid, product_id):
			
 
				         """组合卷烟、商户特征矩阵"""
			
 
				-        self.get_recall_list(city_uuid, product_id)
			
 
				-        self.load_recall_data(city_uuid, product_id)
			
 
				+        # self.get_recall_list(city_uuid, product_id)
			
 
				+        # self.load_recall_data(city_uuid, product_id)
			
 
				+        
			
 
				+        self.get_cust_and_product_data(city_uuid, product_id)
			
 
				         # 做数据清洗
			
 
				         self.product_data = sample_data_clear(self.product_data, ProductConfig)
			
 
				         self.custs_data = sample_data_clear(self.custs_data, CustConfig)
			
@@ -65,6 +72,7 @@ class GbdtLrModel:
 
				         self.recommend_list = sorted(self.recommend_list, key=lambda x: list(x.values())[0], reverse=True)
			
 
				         for res in self.recommend_list[:200]:
			
 
				             print(res)
			
 
				+        return self.recommend_list
			
 
				     
			
 
				     def generate_feats_importance(self):
			
 
				         """生成特征重要性"""
			
@@ -102,7 +110,8 @@ if __name__ == "__main__":
 
				     city_uuid = "00000000000000000000000011445301"
			
 
				     product_id = "110102"
			
 
				     gbdt_sort = GbdtLrModel(model_path)
			
 
				-    # gbdt_sort.sort(city_uuid, product_id)
			
 
				-    importances = gbdt_sort.generate_feats_importance()
			
 
				-    for importance in importances:
			
 
				-        print(importance)
			
 
				+    gbdt_sort.sort(city_uuid, product_id)
			
 
				+    
			
 
				+    # importances = gbdt_sort.generate_feats_importance()
			
 
				+    # for importance in importances:
			
 
				+    #     print(importance)
			
--- a/models/rank/weights/model.pkl
+++ b/models/rank/weights/model.pkl