Kaynağa Gözat

gbdtlr训练数据抽样训练

yangzeyu 5 ay önce
ebeveyn
işleme
43b1358a13
2 değiştirilmiş dosya ile 9 ekleme ve 1 silme
  1. 8 0
      models/rank/data/dataloader.py
  2. 1 1
      train.py

+ 8 - 0
models/rank/data/dataloader.py

@@ -15,6 +15,14 @@ class DataLoader:
         self._gbdt_data.drop('cust_code', axis=1, inplace=True)
         self._gbdt_data.drop('product_code', axis=1, inplace=True)
         
+        # 随机降采样数据
+        sampled_data, _ = train_test_split(
+            self._gbdt_data, 
+            test_size=0.7,
+            random_state=42
+        )
+        self._gbdt_data = sampled_data
+        
         self._onehot_feats = {**CustConfig.ONEHOT_CAT, **ProductConfig.ONEHOT_CAT, **ShopConfig.ONEHOT_CAT}
         
         self._onehot_columns = list(self._onehot_feats.keys())

+ 1 - 1
train.py

@@ -73,7 +73,7 @@ def run():
     parser.add_argument("--largest_n", type=int, default=300)
     parser.add_argument("--similarity_k", type=int, default=100)
     parser.add_argument("--top_n", type=int, default=1500)
-    parser.add_argument("--n_jobs", type=int, default=4)
+    parser.add_argument("--n_jobs", type=int, default=2)
     
     
     args = parser.parse_args()