From cd0bd4ac5ea72b9931744dd0e9ded970c88805e7 Mon Sep 17 00:00:00 2001
From: xLyons <75569795+Lyons-T@users.noreply.github.com>
Date: Thu, 24 Feb 2022 22:50:53 +0800
Subject: [PATCH] Add files via upload

---
 .../create_ctr_data.cpython-39.pyc            | Bin 0 -> 2067 bytes
 .../news_data_process.cpython-39.pyc          | Bin 0 -> 5572 bytes
 .../dataset/data_process/create_ctr_data.py   |  53 ++++
 .../dataset/data_process/news_data_process.py | 163 +++++++++++
 .../data_process/train&test_data_split.py     |  46 +++
 .../data_process/user&doc_data_process.py     | 103 +++++++
 .../raw_data/将原始文件存放在该目录下.txt     |  13 +
 .../recprocess/rank/examples/deepfm_news.py   |  29 ++
 .../rank/examples/deepfm_ppnet_news.py        |  29 ++
 .../rank/examples/set_para/deepfm_news.yaml   |  14 +
 .../examples/set_para/deepfm_ppnet_news.yaml  |  16 +
 .../recprocess/rank/layers/__init__.py        |   6 +
 .../__pycache__/__init__.cpython-39.pyc       | Bin 0 -> 120 bytes
 .../__pycache__/activation.cpython-39.pyc     | Bin 0 -> 643 bytes
 .../layers/__pycache__/core.cpython-39.pyc    | Bin 0 -> 7751 bytes
 .../__pycache__/embedding.cpython-39.pyc      | Bin 0 -> 1049 bytes
 .../__pycache__/interaction.cpython-39.pyc    | Bin 0 -> 1156 bytes
 .../recprocess/rank/layers/activation.py      |  24 ++
 .../recprocess/rank/layers/core.py            | 238 +++++++++++++++
 .../recprocess/rank/layers/embedding.py       |  41 +++
 .../recprocess/rank/layers/interaction.py     |  32 ++
 .../recprocess/rank/model_tools/__init__.py   |   6 +
 .../__pycache__/__init__.cpython-39.pyc       | Bin 0 -> 125 bytes
 .../feature_columns.cpython-39.pyc            | Bin 0 -> 3284 bytes
 .../rank/model_tools/feature_columns.py       | 102 +++++++
 .../recprocess/rank/models/__init__.py        |   6 +
 .../__pycache__/__init__.cpython-39.pyc       | Bin 0 -> 119 bytes
 .../models/__pycache__/deepfm.cpython-39.pyc  | Bin 0 -> 1726 bytes
 .../__pycache__/deepfm_ppnet.cpython-39.pyc   | Bin 0 -> 2042 bytes
 .../recprocess/rank/models/deepfm.py          |  63 ++++
 .../recprocess/rank/models/deepfm_ppnet.py    |  77 +++++
 .../news_rec_server/recprocess/rank/readme.md | 273 ++++++++++++++++++
 .../__pycache__/run_deepfm.cpython-39.pyc     | Bin 0 -> 1072 bytes
 .../run_deepfm_ppnet.cpython-39.pyc           | Bin 0 -> 1142 bytes
 .../recprocess/rank/run_train/run_deepfm.py   |  39 +++
 .../rank/run_train/run_deepfm_ppnet.py        |  42 +++
 .../__pycache__/set_parament.cpython-39.pyc   | Bin 0 -> 532 bytes
 .../recprocess/rank/utils/data_compression.py |  44 +++
 .../recprocess/rank/utils/set_device.py       |  16 +
 .../recprocess/rank/utils/set_parament.py     |  20 ++
 40 files changed, 1495 insertions(+)
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/__pycache__/create_ctr_data.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/__pycache__/news_data_process.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/create_ctr_data.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/news_data_process.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/train&test_data_split.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/user&doc_data_process.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/raw_data/将原始文件存放在该目录下.txt
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/deepfm_news.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/deepfm_ppnet_news.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/set_para/deepfm_news.yaml
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/examples/set_para/deepfm_ppnet_news.yaml
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/__init__.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/__init__.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/activation.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/core.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/embedding.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/interaction.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/activation.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/core.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/embedding.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/layers/interaction.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__init__.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__pycache__/__init__.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__pycache__/feature_columns.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/model_tools/feature_columns.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/models/__init__.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/__init__.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/deepfm.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/deepfm_ppnet.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/models/deepfm.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/models/deepfm_ppnet.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/readme.md
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/run_train/__pycache__/run_deepfm.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/run_train/__pycache__/run_deepfm_ppnet.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/run_train/run_deepfm.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/run_train/run_deepfm_ppnet.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/utils/__pycache__/set_parament.cpython-39.pyc
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/utils/data_compression.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/utils/set_device.py
 create mode 100644 codes/news_recsys/news_rec_server/recprocess/rank/utils/set_parament.py

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/__pycache__/create_ctr_data.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/__pycache__/create_ctr_data.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..cc6a3218d2b1cf01578174f93ba7171a91b58c81
GIT binary patch
literal 2067
zcmbtVOK%)S5bo}I?Ck7%y*LoZ32!1xgOCZ~5M)^vLRO9u!jTXwqtSS~*Is*Gbk7Fc
zn!VsiULPVrTsYbnB%e4V{z)G}0r||05TL5ZYcC0KNsqevQQcitUp*$8n(_%WdvtmI
zLywT3aWUB}SiBEieE@_LPGi!kM%rO!ZFOuIS?nZk$EC=#;#%T$yrkZ#!@9;D?%t;z
zpVL(mc&G3Vxf4)bQ=5ZcFBSpQ{%RgcC2otT(DfCOR@1v(6h3YZn1F%=_f&@xQjikV
znFZ1N?92I~RnQ|=TE}#a9g?A4T1VC~q2yyw$cAs<q9kp<L)798*v0P?=!HEZ`}B~E
z;N#XD;r2GrLu+EqV9g5W$OUQ6EIFn_r*O7vBgWkgI!8(e41^i?9@s;tw0Rx&Z0^sI
zSu%7>CVx7xdXzVK^S)QQD<ExH8(Ao8%Nu$J40ux$ygIyB@tpKMbF;;#|MO;hf;VxK
zKL`7$1?XZV`lWwB4rq_@8FRzvhn!nv=$Ez9>#-8<1ND0rIO)=zJ&#94w2*Jdn#uJ+
z6F~pv+wUKK_1&*u{P6JL$J4){?X?P_iZG7WMQlzw{gjIxZO5WlfLE=}>~qbsRJS;~
zH0*(U2T~|Kt&F?RH@e`>^TuFSgMJCRdKE|?{QT*aAuVY^j_8P#fcg<T22Xs$KC@TJ
z2|2MeOLOf+QbxPlEwZ?;iW8>U!VPVwQ6f&L_6iyG(~$S%6ukNS;>zOM?LqpH=&p&K
zD9K}?*3e=l3Nwbe%(_CUwXOuMMc6H5SRt~j{UzS-7Tqk#mtTRmeuGZ--gxrhQk-?8
zSS>GHoPIVtjpDKe!sHAPu&HM7KQl?rBIgQ_*Kjfi<SBVBY#Lmz!ej$+of%G`dQ87I
zh#E;JOitrNZ6qjAzJLVLGok<ngxSDw9XC<p|G{v6`kB;{FQP1?4;pcyk9-N1^SJe|
zrejF0LRbGZy`)&fID24KrU%w32BWU^;w&oOy%|{Yd0f|dKY<|bLo_?Q*v&;ir40-~
z2?5nM26v^*IYLIG0JsWEtZT8yHf5Ck`IP;2U>mo*1ry_z>*$seLViTICPJP=Q8C&&
zV{PTja79Dnp{`D)t1psu!9xsuU9aY#z4q@xK(2?Xzb7Py2$+VoR3c{DN}?V4I_@&<
zMR9C`UE7h|P)|U-0EZMtq3f_mXpl`?l>HIZwVmZ6)o$MJZpQ+uKo)WBbmL43iAk+l
z&UFLQiHB!LoJ7bCq1}5?JP;~q0LqYpVICEm@=dtW@di*fFxfQi>E>De2>WR->ohKE
zkJ3%lcwAmO%_`OVX+9{_cx9@TI=gnpYLBmk-7Fp?X=Q3)OLUsiKwiVyWh9thdiseh
z$K+5qfe_jT80IYx#x`rwtE>&c%upYClU1Y7T+4mzIxWY2<kjRYxE0X5K|`Y3wUZ8#
zeAnb0U>K!5Qu1wJbfy%*8Od~EQ1oL}L3u67xQN3d%VM=K#${}T@hS$V5it>z=aH$s
VC3s*Ei)H+yn(*`}eofZ4{swKl<}m;O

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/__pycache__/news_data_process.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/__pycache__/news_data_process.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..ccba4681b020d3540eb826c02063f9b7261fcdb8
GIT binary patch
literal 5572
zcmbVQ>yI1N6`#2?w#Q!E>wP~GLQ+z|rCnZ1A9S073Mp-)RBG~Rl*pR(o%PPHJ@(!i
zlk9dZrEKU1sY{bWfI<+v5#^y)Nhk;iAt3cb|A)@kvg_<8K2-Z9ADaHo9eZDiQiQF!
z&vVW_=iGbG<64<aO2O}6iZ-@;ucG{$I-7qQI*;S?#!zsDt7XNEYSm=2ubDb(R*qHT
zW?ZE?t(>SBrXkyUIax`WDcO#dJB}zk&J(8;GtCX2M4jOo-oewSR5Q!f!%9B8iglDj
zc{SAiX<k8{@Fwcx<7FGo^g(OPE<fcKtK1gotKTUy0&o3v)G>TN!{-TAQG8`m4OFfU
zfIqHreL-umlEPyb)PNOO#EGv3j2lDBocbg_YL6;BNj%D#)TWu#C{ffwu|rZ!^9(3z
zpqK?kt-u0pG8SmOb4Xc?2a2o{OUjZ8ohZ+-aW<qhG_D2s^BiD|B?W7(_j%V8lPe^N
zPK3jAgvGmg5AR*jCR2+Yyl)9>@!Y7g396r<7Snuy51zt$nD5^*Kg5Sia{bB7WZKX2
z9en2kxaGrG|E`v-8sD`pE84(UCOd<czQDuXd^g_%d82WX`db%NIo{bG$Nt@OXf{{(
zY*BFB@oHh;@sXnU%ndb3yP>?tLd~;lX3}xFeWFmTmh*`)5kd2{G$5{D{CxSX`Q<YU
z&37)#ft42*zPxt6`N7rZ)i>9YfLM9{<nsA<o9BPGski*evukn8EnoR?_48A*xpMNI
z<<oyH(yHwrofJA9hw*uXC`ypzSgxV^ijPw=hyPhNtshq2ix~BVY1Bk@>=CzK$+M7+
zJY*VH$(DkN9Pnjv<AEn1J9?n*{>CmI<(6+1fKs$Q@2G1Z_X?XwMrt!*YP9Tlez97q
z?I#ZYgHM^gXWX{@y0F`*BctVN(JFiU(P%@9EFiy`I1#U1z|S+$gUU2KXrK0HLk!W2
z3DJjQh#LJ=bfTC|^J-DTj`%111E64F)J&DD#|ss^QWZ0_g^q7m3J$N+Caf&ZuU>dn
zZr<`A&#t^Yzw*jQtFL?*4ZQw&^ZEIebC*}=|0oB({N!ZwQ|#35o9|zZ20s16#sKa2
z@^c@ozI5^Wr3Ep7o*=E6i6>kxst!LAvWiECs_qv<z3w{xjm#6CV?B6y!g5O!mLo`*
zEn1@kK?gw|0usf?A($h>qr&ExT_kPIDHgEjg<{#ZT(UAJw&^J}M$1-Zj9dF*F(YNo
z?zzJzMzCU-fOnu+B`!c%w@x_T7WRlWvSN}w+7fw2({x7ZghuC6asy`5CEG7d*)xUX
zRl!?(8^);PZDUw&?7bitZR}38LcMH{`+`(V8l0#e4_VdC$0IebvnmKys!^&wp9@)y
zhla2%Uck)`6S&0nit7pD+)T-F-x@31p@u^o>W=5QVH{gCUAN7+<GJ;6IqdMObTe$<
zsn{XoewgxSVGZ18Y~hD7t5z$|!0I1&#(i6uIg-+|G0h9U<AZXnVvCZU*F(c9m*o`;
zlhH-9{0TF;ZhcIneRj90BkbI^S#&GBhfpZ2S52{Dby!2K?qxYOr|N3&O+#fj4Ypgo
z7c*H^zZqw;)WnZ~vt<Wq)974DAM{V`C0AibamYB?adisyI3wH2wIO(?NrsjlwFYT4
zCg);uL_<G5x<Mh{q7aWLOzJ#VQh9<K3rqzrpp)<dF+a{zykm|n!8$i!+2F4>#?!5F
z7O=$x&y-YnC-NNz&r*9axda~tj#Kaso$$@Mmc{SjU0ii&wQjlE?WyX4zKv?n|DoD@
z2dZruVnJ-3YM<n_{|;0E%?F^V)D+}u#Dn-Y+`&8GDtu^&^f)}E>>z)dhA&n44(SVZ
zF1_f6z9&22M>pvN9&zUdwUGeE#@^l~_wz1roq=YJz*x*KDXQXk`nkaH<9=6Qkms3W
zb7~_AOoHqVl5$=6V84g<i1*>U8{ckx8MGM6-6d9vQ`B<oLL*gD8XbJkVsDUIQeTH>
zeuFjAL1M8lfCN|#C&KR!l8XaNFm^mOpv*Dg9cX0ase#`QGE=bpjckxzOb`v8Aw36a
ze$O~t*H<>k1X&pwbbxY}D4$`|ula+ELqW%q+US($rjvIDDZZ;jQI|YDfEnWhjojCi
zrE6W5E-B02Zzv1mD#!vFfsC~v%eOblqCu7@${|@aDT_8eej8c3w#cGQk8t)iW%);A
zyDaxYmTtLEk!<&&-y`>_n>diIo;&Q=!CQ80yOiA|WzfU#hpeywt^0hdtoro9uOaIV
zoR7pfgL}*$k|Eq0g$OGjoxc9z74qxnzWD01)6IAO^wnq2M-Kk|bIlhnM;>1~jJk~3
zWCXDM@x?WA-%(WHSC;|%)~AIC7?Vff!oG)jgcEM9Y!&S_GRp+jrU=--tek&Skk?(M
zSYwrZrSxHWwssfV&6nO?IsNg<$*Y@LEL{KM?887s@L8{j`v~QJDxN@*SH(}LVr#om
zMd-^{K3INZemjLniGp51NFd0zOFs!T@{}#Kh*PY6?lLX8j}T(TYTfmvZdP8sw0!36
z=CfCp=dW%-jE0Em4McH()_9tVr%<d>Ak(7ReC<@UV1(CvVLq=*St7oEK{%r*LY;hU
zsBvp%BlHN>f|)H$Agn~_2A>P&<Wi<yDEdM?2|TlZeV*5a<vUdup`PWMeYcK#K8IF)
zo*xz?wC*ER{Ia$9j0YA(wI&{<ftWx{W`~KAsMc#^GofacN@0hvJ-Bz74~Xv*SbW?m
zmt70s;EfA%%AxL65g6#)Df*!{>(mfi*lws*teOlvLVdDIQ3e7B+XX)r>qHoT#wyos
zPdp%LB6uiTe!f@yfVwGPSdJ?L2Qv}1A4axmS8DC<qwU5%vm*l7SEyCJu-EgU4}|r$
z>)DjQQ0NoJNY5Uk4O9g%73vgTm<h;Mu!IP8*Fv15ax>G8R|;~m3{fkz$HKU8A*}ID
zRzikED3R6;*@TX_2Qh;(Fp>=U4)TRUE2!}vhLGOdC=}Mub|Ql5S998+Hb}7yqL`f8
zefxG4?GOYapl-FB8Cp(Fs|N79S+|<LnPNI<q|{-QSv8Knfg16WrUQO`9@sf`7x3g9
za5m-$o8qgSx_5nEOwgvpxII=cZAs_pVS;YC45gk%%q-J+ghRJa=Mm<_r<gcMY5Sat
z;D`bvwShoKCez91=((buhBH5o@dP>QIdYK7q=D2Q$v&{~9D!6jxtQV^I1h}%h0D3g
z<YWh0S?W^_=+3EFtCgElA14>e{4{3aVA0ADCr8mj+TX>yORRwaDbNO#2Cycxl+>S6
zf*3tKVBJ0$SfO`pxDod|7jtl=EI`mVKq)<1qssJk1R4D@$VdQgFW|c7qOhVnf?e$K
zdzTQ%Met|T>0A&C5`5r1LwLc0q%`J(hi1DrE<r0x7o=-x<V6Clyde#1ln?wE1JZ~!
zubsXA@ulVqmzFQgMHV0C_T|efe_Mj_+T;ShytdH1c2WGCNIph|gW?FR?XOWg*ENg~
zO+iLm?4n{175k|m^Dcf$#S|5{<ZxS(q;7yX2-%LMDAeW3i!z1BLX>04E7Q)5G~Czi
zcPKSVMn&f1e<yg#duQ(}B8|aSUeDlRqBiB^>lk<xh)FXOxsc2zeN7UvG8J@)MF$o1
zz9BMHP%baC>kYds^DGd|My92GmBUW2W(nAu_CUT*nl$lUB0=6#K$VK1d=beOrChO^
za9pHO-h@@N1=)hgDnClCUr|9hi@bE=2wEX?$)HwCf}E+D8F%~w&W7vZd7uKL>iILE
zLu$^a#19EUuh8=wnNl%EDBWWgINV|r@vOJmL<&xD*_JGAyUEI9VY(&Q?VcmTp4)81
zpFznZHWZaoH3O!kpHeb46(wo$986wHO=|`W%piT50jRjTQ)4RoZ#*V`3tXHJI*|EJ
zu@6-kL%Ls^5p`<EYnIEc$a9!UdV?IX>hP8_!OeJ6coY!sNZohJp47eB*B+}0yY=|v
zxGin&jPlaxNob@kYYS@AMi5V%&Zc}_qD&Gm4N!KyZ11O>(xY7<xeS(uVNSz98@r5&
F{{a>T-w6N!

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/create_ctr_data.py b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/create_ctr_data.py
new file mode 100644
index 00000000..a23af03b
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/create_ctr_data.py
@@ -0,0 +1,53 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : create_ctr_data.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/7
+
+import pickle
+import numpy as np
+import pandas as pd
+from sklearn.utils import shuffle
+
+from model_tools.feature_columns import SparseFeat, DenseFeat
+
+
+def create_ctr_data(data_path, args, use_dict=True):
+    with open(data_path + 'data.pkl', 'rb') as f:
+        all_data, feature_info = pickle.load(f)
+        f.close()
+
+    # 训练数据和测试数据
+    all_data = shuffle(all_data)
+    train_df = all_data[all_data['是否点击'] != -1]
+    test_df = all_data[all_data['是否点击'] == -1]
+    # 测试数据的标签
+    test_labels = pd.read_pickle(data_path + 'test_label.pkl')
+    test_labels = pd.merge(test_df[['index']], test_labels, how='left', on=['index'])
+
+    all_features = feature_info['dense_features'] + feature_info['sparse_features']
+    if use_dict:
+        train_inputs = {name: np.array(train_df[name].tolist()) for name in all_features}
+        train_labels = train_df['是否点击'].values
+        test_inputs = {name: np.array(test_df[name].tolist()) for name in all_features}
+        test_labels = test_labels['是否点击'].values
+    else:
+        train_inputs = [np.array(train_df[name]) for name in all_features]
+        train_labels = train_df['是否点击'].values
+        test_inputs = [np.array(test_df[name]) for name in all_features]
+        test_labels = test_labels['是否点击'].values
+
+    features_columns = [DenseFeat(name=feat,
+                                  dimension=1,
+                                  dtype='float32',)
+                        for feat in feature_info['dense_features']]
+
+    features_columns += [SparseFeat(name=feat,
+                                    embed_name=feat,
+                                    embed_dim=args.embed_dim,
+                                    vocab_size=all_data[feat].max()+1,
+                                    dtype='int32',)
+                         for feat in feature_info['sparse_features']]
+
+    return (train_inputs, train_labels), (test_inputs, test_labels), features_columns
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/news_data_process.py b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/news_data_process.py
new file mode 100644
index 00000000..6dc8ef8c
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/news_data_process.py
@@ -0,0 +1,163 @@
+#!/usrbin/env python
+# -*- coding:utf-8 -*-
+# @File  : news_data_process.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/7
+
+import os
+import gc
+import swifter
+import pickle
+import numpy as np
+import pandas as pd
+
+from tqdm.auto import tqdm
+from sklearn.preprocessing import LabelEncoder, StandardScaler
+from utils.data_compression import reduce_mem
+
+
+def get_statistical_features(all_data, past_day=7):
+    # 统计新闻从发文到展示的日期差
+    temp = all_data['展现日期'] - all_data['发文日期']
+    all_data['从发文到展现的日期差'] = temp.dt.days
+    all_data.loc[all_data['从发文到展现的日期差'] < 0, '从发文到展现的日期差'] = 0
+    all_data.fillna(value={'从发文到展现的日期差': 0}, inplace=True)
+
+    statis_dense_columns = ['从发文到展现的日期差']
+
+    dates = all_data['展现日期'].unique()
+    dates.sort()
+    date_num = len(dates)
+    date_map = dict(zip(dates, range(date_num)))
+    all_data['展现日期_idx'] = all_data['展现日期'].map(date_map)
+
+    train_data = all_data[all_data['是否点击'] != -1]
+
+    # ===================================================================================
+    for feat in tqdm([['user_id'], ['item_id'], ['一级分类'], ['二级分类'],
+                      ['user_id', '一级分类'], ['user_id', '二级分类']]):
+        res_arr = []
+        name = f'过去{past_day}天_特征({"_".join(feat)})_展现总数'
+        statis_dense_columns.append(name)
+
+        for day in range(0, date_num):
+            train_data_temp = train_data[
+                (train_data['展现日期_idx'] >= day-past_day) & (train_data['展现日期_idx'] < day)]
+            train_data_temp = train_data_temp.groupby(feat)['item_id'].agg([
+                (name, 'count')]).reset_index()
+            train_data_temp['展现日期_idx'] = day
+            res_arr.append(train_data_temp)
+        stat_all_data = pd.concat(res_arr)
+        all_data = all_data.merge(stat_all_data, how='left', on=feat + ['展现日期_idx'])
+
+    target = '是否点击'
+    for feat in tqdm([['user_id'], ['item_id'], ['一级分类'], ['二级分类'],
+                     ['user_id', '一级分类'], ['user_id', '二级分类']]):
+        res_arr = []
+        name_mean = f'过去{past_day}天_特征({"_".join(feat)})_点击率mean'
+        name_sum = f'过去{past_day}天_特征({"_".join(feat)})_点击总数sum'
+
+        statis_dense_columns.append(name_mean)
+        statis_dense_columns.append(name_sum)
+
+        for day in range(0, date_num):
+            train_data_temp = train_data[
+                (train_data['展现日期_idx'] >= day-past_day) & (train_data['展现日期_idx'] < day)]
+            train_data_temp = train_data_temp.groupby(feat)[target].agg(
+                [(name_mean, 'mean'), (name_sum, 'sum')]).reset_index()
+            train_data_temp['展现日期_idx'] = day
+            res_arr.append(train_data_temp)
+        stat_all_data = pd.concat(res_arr)
+        all_data = all_data.merge(stat_all_data, how='left', on=feat + ['展现日期_idx'])
+
+    target = '消费时长（秒）'
+    for feat in tqdm([['user_id'], ['item_id'], ['一级分类'], ['二级分类'],
+                     ['user_id', '一级分类'], ['user_id', '二级分类']]):
+        res_arr = []
+        name_mean = f'过去{past_day}天_特征({"_".join(feat)})_消费时长mean'
+        name_std = f'过去{past_day}天_特征({"_".join(feat)})_消费时长std'
+        name_sum = f'过去{past_day}天_特征({"_".join(feat)})_消费时长sum'
+        statis_dense_columns.append(name_mean)
+        statis_dense_columns.append(name_std)
+        statis_dense_columns.append(name_sum)
+
+        for day in range(0, date_num):
+            train_data_temp = train_data[
+                (train_data['展现日期_idx'] >= day-past_day) & (train_data['展现日期_idx'] < day)]
+            train_data_temp = train_data_temp.groupby(feat)[target].agg(
+                [(name_mean, 'mean'), (name_std, 'std'), (name_sum, 'sum')]
+            ).reset_index()
+            train_data_temp['展现日期_idx'] = day
+            res_arr.append(train_data_temp)
+        stat_all_data = pd.concat(res_arr)
+        all_data = all_data.merge(stat_all_data, how='left', on=feat + ['展现日期_idx'])
+
+    return all_data, statis_dense_columns
+
+
+def main():
+    raw_data_path = '../raw_data'
+    new_data_path = '../new_data'
+    os.makedirs(new_data_path, exist_ok=True)
+
+    train_data_path = os.path.join(raw_data_path, 'train_data.pkl')
+    test_data_path = os.path.join(raw_data_path, 'test_data.pkl')
+
+    train_data = pd.read_pickle(train_data_path)
+    test_data = pd.read_pickle(test_data_path)
+    test_data['是否点击'] = -1
+    all_data = pd.concat([train_data, test_data])
+
+    # 1. 合并用户特征
+    user_path = os.path.join(new_data_path, 'user_info_5w.pkl')
+    user_info = pd.read_pickle(user_path)
+    all_data = all_data.merge(
+        user_info[['user_id', '设备名称', '操作系统', '所在省', '所在市', '年龄', '性别']],
+        how='left', on='user_id'
+    )
+    del user_info
+    gc.collect()
+
+    # 2. 合并文档特征
+    doc_path = os.path.join(new_data_path, 'doc_info.pkl')
+    doc_info = pd.read_pickle(doc_path)
+    all_data = all_data.merge(
+        doc_info[['item_id', '一级分类', '二级分类', '关键词', '图片数量', '发文时间', '发文日期']],
+        how='left', on='item_id'
+    )
+    del doc_info
+    gc.collect()
+
+    # 3. 获取统计特征
+    all_data, statis_dense_columns = get_statistical_features(all_data)
+
+    # 4. 连续特征处理
+    base_dense_columns = ['刷新次数', '图片数量']
+    dense_columns = base_dense_columns + statis_dense_columns
+
+    all_data.fillna(value={feat: 0 for feat in dense_columns}, inplace=True)
+    # sc = StandardScaler()
+    # all_data[dense_columns] = sc.fit_transform(all_data[dense_columns])
+    for feat in dense_columns:
+        all_data[feat] = np.log(1 + all_data[feat])
+
+    # 5. 离散特征处理
+    sparse_columns = ['user_id', 'item_id', '网路环境', '设备名称', '操作系统', '展现位置',
+                      '所在省', '所在市', '年龄', '性别', '一级分类', '二级分类', '关键词']
+    for feat in sparse_columns:
+        lb = LabelEncoder()
+        all_data[feat] = lb.fit_transform(all_data[feat].astype(str))
+
+    all_data = reduce_mem(all_data)
+    feature_info = {'dense_features': dense_columns,
+                    'sparse_features': sparse_columns}
+    file = [all_data, feature_info]
+    file_save_path = os.path.join(new_data_path, 'data.pkl')
+    with open(file_save_path, 'wb') as f:
+        pickle.dump(file, f)
+        f.close()
+
+
+if __name__ == '__main__':
+    main()
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/train&test_data_split.py b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/train&test_data_split.py
new file mode 100644
index 00000000..515eba88
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/train&test_data_split.py
@@ -0,0 +1,46 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : train&test_data_split.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/16
+
+
+import os
+import pandas as pd
+
+
+def main():
+    raw_data_path = '../raw_data'
+    new_data_path = '../new_data'
+
+    # 1. 数据读取
+    all_data_path = os.path.join(raw_data_path, 'train_data_5w.csv')
+    all_data = pd.read_csv(all_data_path, sep='\t', index_col=0)    # .sample(n=100000)
+    all_data.columns = ['user_id', 'item_id', '展现时间', '网路环境', '刷新次数', '展现位置', '是否点击', '消费时长（秒）']
+    print(f'样本总数为：{all_data.shape[0]}')
+
+    # 2. 数据处理
+    all_data.loc[all_data['消费时长（秒）'] < 0, '消费时长（秒）'] = 0
+    all_data['展现时间'] = pd.to_datetime(
+        all_data.loc[:, '展现时间'], utc=True, unit='ms').dt.tz_convert('Asia/Shanghai')
+    all_data['展现日期'] = all_data['展现时间'].dt.date
+    all_data['index'] = range(all_data.shape[0])
+
+    dates = all_data['展现日期'].unique()
+    dates.sort()
+    # 3. 训练、测试数据集划分
+    train_data = all_data[all_data['展现日期'] != dates[-1]]
+    test_data = all_data[all_data['展现日期'] == dates[-1]]
+    test_label = test_data[['index', '是否点击']]
+
+    # 4. 测试集处理
+    test_data = test_data.drop(columns=['消费时长（秒）', '展现位置', '是否点击'])
+
+    train_data.to_pickle(os.path.join(raw_data_path, 'train_data.pkl'))
+    test_data.to_pickle(os.path.join(raw_data_path, 'test_data.pkl'))
+    test_label.to_pickle(os.path.join(new_data_path, 'test_label.pkl'))
+
+
+if __name__ == '__main__':
+    main()
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/user&doc_data_process.py b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/user&doc_data_process.py
new file mode 100644
index 00000000..deb8966b
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/data_process/user&doc_data_process.py
@@ -0,0 +1,103 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : user&doc_data_process.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/9
+
+import os
+import swifter
+import pandas as pd
+import numpy as np
+
+from tqdm.auto import tqdm
+
+
+def prob2val(feat_info):
+    # 判断是否为空
+    if feat_info == feat_info:
+        prob_list = [values.split(':') for values in feat_info.split(',')]
+        prob_list = sorted(prob_list, key=lambda x: float(x[1]))
+        return prob_list[-1][0]
+    else:
+        return np.NaN
+
+
+def get_second_title(x):
+    if x['二级分类'] == x['二级分类']:
+        second_titles = x['二级分类'].split('/')
+        for title in second_titles:
+            # 跳过异常数据
+            if title == 'A_0_24:0.447656,A_25_29:0.243809,A_30_39:0.076268,A_40+:0.232267':
+                continue
+            # 优先返回不等于一级分类的二级分类
+            if title != x['一级分类']:
+                return title
+
+    return x['一级分类']
+
+
+def get_key_word(feat_info):
+    if feat_info == feat_info and isinstance(feat_info, str):
+        key_word_list = [values.split(':') for values in feat_info.replace('^', '').split(',')]
+
+        new_list = []
+        last_elem = ''
+        for idx, values in enumerate(key_word_list):
+            if len(values) == 1:
+                last_elem = values[0] if last_elem == '' else ','.join([last_elem, values[0]])
+                continue
+            if len(values) > 2:
+                # 将类似于‘你好，李焕英’这种关键词重新进行拼接
+                # 这类关键词由于存在逗号，在获取key_word_list时被误分开了
+                values[0] = ':'.join(values[:-1])
+
+            values[0] = values[0] if last_elem == '' else ','.join([last_elem, values[0]])
+            new_list.append(values)
+            last_elem = ''
+
+        return new_list[-1][0]
+    else:
+        return np.NaN
+
+
+def main():
+    raw_data_path = '../raw_data'
+    new_data_path = '../new_data'
+    os.makedirs(new_data_path, exist_ok=True)
+
+    # 1. 处理用户文件
+    user_path = os.path.join(raw_data_path, 'user_info_5w.csv')
+    user_info = pd.read_csv(user_path, sep='\t', index_col=0)
+    user_info.columns = ['user_id', '设备名称', '操作系统', '所在省', '所在市', '年龄', '性别']
+
+    user_info['年龄'] = [prob2val(age_info) for age_info in tqdm(user_info['年龄'])]
+    user_info['性别'] = [prob2val(sex_info) for sex_info in tqdm(user_info['性别'])]
+
+    user_info.to_pickle(os.path.join(new_data_path, 'user_info_5w.pkl'))
+
+    # 2. 处理文档文件
+    doc_path = os.path.join(raw_data_path, 'doc_info.txt')
+    doc_info = pd.read_table(doc_path, sep='\t', low_memory=False, header=None)
+    doc_info.columns = ['item_id', '标题', '发文时间', '图片数量', '一级分类', '二级分类', '关键词']
+
+    # 处理异常的发文时间数据
+    condition_row = (doc_info['发文时间'].isnull()) | (doc_info['发文时间'] == 'Android')
+    time_fill_value = doc_info.loc[~condition_row, '发文时间'].swifter.apply(lambda x: int(x[:10])).astype('int').min()
+    doc_info.loc[condition_row, '发文时间'] = str(time_fill_value)
+
+    doc_info['发文时间'] = pd.to_datetime(
+        doc_info.loc[:, '发文时间'], utc=True, unit='ms').dt.tz_convert('Asia/Shanghai')
+    doc_info['发文日期'] = doc_info['发文时间'].dt.date
+
+    doc_info['图片数量'] = doc_info.loc[:, '图片数量'].swifter.apply(
+        lambda x: 0 if (x in ['上海', '云南', '山东'] or x != x) else int(x))
+
+    doc_info['二级分类'] = doc_info.loc[:, ['一级分类', '二级分类']].swifter.apply(get_second_title, axis=1)
+    doc_info['关键词'] = [get_key_word(words) for words in tqdm(doc_info['关键词'])]
+
+    doc_info.to_pickle(os.path.join(new_data_path, 'doc_info.pkl'))
+
+
+if __name__ == '__main__':
+    main()
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/raw_data/将原始文件存放在该目录下.txt b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/raw_data/将原始文件存放在该目录下.txt
new file mode 100644
index 00000000..1bee8d38
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/dataset/raw_data/将原始文件存放在该目录下.txt
@@ -0,0 +1,13 @@
+原始数据集共包含3个，实验时存放在目录`rank/examples/dataset/raw_data/`下。
+
++ **user_info_5w.csv**
+  + 该文件共包含了5万条用户的个人数据；
+  + 特征分别包括了：['user_id', 'device', 'os', 'province', 'city', 'age', 'gender']；
+  + 各特征的含义为：['用户id', '设备名称', '操作系统', '所在省', '所在市', '年龄', '性别']；
++ **doc_info.txt**
+  + 该文件包含了所有新闻的特征数据；
+  + 各特征的含义为：['文档id', '标题', '发文时间', '图片数量', '一级分类', '二级分类', '关键词']；
+
++ **train_data_5w.csv**
+  + 该文件为用户点击数据，包含了5万个用户在过去13天的点击数据；
+  + 各特征的含义为：['用户id', '文档id', '展现时间', '网路环境', '刷新次数', '展现位置', '是否点击', '消费时长（秒）']；
\ No newline at end of file
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/deepfm_news.py b/codes/news_recsys/news_rec_server/recprocess/rank/examples/deepfm_news.py
new file mode 100644
index 00000000..3beb3f60
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/deepfm_news.py
@@ -0,0 +1,29 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : deepfm_news.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/1/27
+
+import argparse
+
+from run_train import run_deepfm
+from utils.set_parament import get_args
+from dataset.data_process.create_ctr_data import create_ctr_data
+
+
+parser = argparse.ArgumentParser(description='Model Parameter')
+parser.add_argument('--yaml_path',
+                    default='./set_para/deepfm_news.yaml',
+                    required=False)
+parser.add_argument('--data_path',
+                    default='./dataset/new_data/',
+                    required=False)
+parse_args = parser.parse_args()
+
+
+if __name__ == '__main__':
+    args = get_args(parse_args.yaml_path)
+    train_data, test_data, feature_info = create_ctr_data(parse_args.data_path, args)
+
+    run_deepfm.run(train_data, test_data, feature_info, args)
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/deepfm_ppnet_news.py b/codes/news_recsys/news_rec_server/recprocess/rank/examples/deepfm_ppnet_news.py
new file mode 100644
index 00000000..2cb709d7
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/deepfm_ppnet_news.py
@@ -0,0 +1,29 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : deepfm_ppnet_news.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/8
+
+import argparse
+
+from run_train import run_deepfm_ppnet
+from utils.set_parament import get_args
+from dataset.data_process.create_ctr_data import create_ctr_data
+
+
+parser = argparse.ArgumentParser(description='Model Parameter')
+parser.add_argument('--yaml_path',
+                    default='./set_para/deepfm_ppnet_news.yaml',
+                    required=False)
+parser.add_argument('--data_path',
+                    default='./dataset/new_data/',
+                    required=False)
+parse_args = parser.parse_args()
+
+
+if __name__ == '__main__':
+    args = get_args(parse_args.yaml_path)
+    train_data, test_data, feature_info = create_ctr_data(parse_args.data_path, args)
+
+    run_deepfm_ppnet.run(train_data, test_data, feature_info, args)
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/set_para/deepfm_news.yaml b/codes/news_recsys/news_rec_server/recprocess/rank/examples/set_para/deepfm_news.yaml
new file mode 100644
index 00000000..f3d8cdb8
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/set_para/deepfm_news.yaml
@@ -0,0 +1,14 @@
+# data para
+seed: 48
+# model para
+embed_dim: 32
+drop_rate: 0.5
+use_bn: Ture
+hidden_units: [64, 128, 64]
+# compile para
+learning_rate: 0.001
+epochs: 1
+batch_size: 2048
+val_splite: 0.1
+patience: 5
+restore_best_weights: True
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/examples/set_para/deepfm_ppnet_news.yaml b/codes/news_recsys/news_rec_server/recprocess/rank/examples/set_para/deepfm_ppnet_news.yaml
new file mode 100644
index 00000000..f5be149c
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/examples/set_para/deepfm_ppnet_news.yaml
@@ -0,0 +1,16 @@
+# data para
+seed: 48
+# model para
+embed_dim: 32
+drop_rate: 0.5
+ppnet_size: 256
+ppnet_features: ['user_id', '一级分类', '年龄']
+use_bn: Ture
+hidden_units: [64, 128, 64]
+# compile para
+learning_rate: 0.001
+epochs: 1
+batch_size: 2048
+val_splite: 0.1
+patience: 5
+restore_best_weights: True
\ No newline at end of file
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/__init__.py b/codes/news_recsys/news_rec_server/recprocess/rank/layers/__init__.py
new file mode 100644
index 00000000..0cb6e9d2
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/layers/__init__.py
@@ -0,0 +1,6 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : __init__.py.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/1/27
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/__init__.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/__init__.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..d541026cff4fc17bbc6c5bc9e660c1c6f42e89e1
GIT binary patch
literal 120
zcmYe~<>g`k0=o{eq;??v7{oyaj6jY95Erumi4=xl22Do4l?+87VFd9@*2OBuFSWcl
qC^b1IC$TcMs5mA*J~J<~BtBlRpz;=nO>TZlX-=vgNZV&1W&i+E>lh>e

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/activation.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/activation.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..2d1fd991fc5e94cfb4064b945c56f8c78a9045b1
GIT binary patch
literal 643
zcmZWm&1=*^6rVTw*lgI=J=If}Ts#CM^eiHksvu|&3W8xlW;3&xIy)mXlS)fOaK*pF
z9{VrNwI}}tFZw1crr?A3%lr7fuMFGU%L&Tr`@!l9CFCYJw*_P57}XvjaKb^78t_Xc
z-9&W+Ar{Galhg?ik=7F)^W+<;GY+pwnf}Boa$15<YGJeu#tU{KOameDSHg@K^#s)(
zBRJ9%2ac}kmYRi&&f>G=N7|Ds_zY^{CYa4IbJUY9!N|-_IrQX!Y~d^PVJ<zreED3R
zGuiTjHLg8puGQ-PT6c;U_iXi6cZGegJIRaAih>o^nL-;h9{*z(!=lBBWY$(??(^2R
z$~vYR;UnbxNvGOIbK$95`{aW#%=%P@>#WbmKB3Tdt0wd@5nku>H%xZosWIA=)aT=Z
z^%U)QLyK!-_L2K*@#MksS*Ko!X1Qy<9O>1^3qK#-UEv+9vU3Ci`!I(bGD;!+9a9s6
z<<#d+D67p{>Q82ZA%8dqs^N;NRjq6B=Uw6{CcKWn`yXew&2W%OkYdsRVaBldEeIR=
V?BPc9PKrkvdNx1?Gnmmh`U9iXtS$fm

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/core.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/core.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..e863ff4723c67c2787a74ac9d12bc560545fef37
GIT binary patch
literal 7751
zcmc&(TZ|i58J=_I;+gT-yV<5mQ+iq2P-+27XiIOT>4k05(qdY&P-;@9UeD~t?%3X(
znI-JXTZwL@gomw!)F&QLicrx?Jo3OBJXC!FB;Jtb34sL48xn6xtMGsSjMw(Ay(~h3
zvF4w1zx?OFeCKz)RB|<X{`St%#ov5J)BcLg@MBQs8G7UQhy+?7BCRIqD<j#~YkJ$L
z8Evy>wym1gF4PJFZS=@)J2j{6*4%cnR^&1x^4g_ZiPL6OZco*wgmy*?te|j73kspW
zsn@0{ZwC(L9nK%3yc-lLU*!A@<-MRp`4Z=E3&dHiQocqj)2bCSHD9i;g(@}Y!%iHg
z&hzcXFbJBR<#gt`deS&w?W%S?YOdFlX19|T=2ds4yP8z=w6q*`RX6cF+#oe;q3XtI
zIWJx9G?%ENB2pPWM0C2|NSfd0LHr04HZcG2W96Cn5lV#2ubK=>m$fCq`*mtMr?FSN
zW(4J+7<iXN&AhA`TFs(8O{MyLwVE0#j8^~NANq9l+6hWG?0x}#9eQy@MSA0TB0bU5
ze61&mik?nX_6(wW&m?N}ETU$wK-5YKiQUsSWy@L8np)5Pxp-ILc+P6uqFQlN?|d@|
z!j4b-PvX=a>^ilghkO+-r(Te;&{y>&Os&;8^cOqnA!6#vYT^%dFyb%_QZrs%36=6_
zm8tFfO&Zttx1E$~qa}5Siq#CrZ6Jq1ZU;F6a+FAFy>+p!mg8-aI=<hC>Tyi{wd=>`
zpFCF$FUH>t8|U~y;&Y9z3g=eV)G_LYf#Yc+nzY2wPp*5!<GKDq8WK(NN2f2?if{a9
zB0Uj^W7>vHh_#zyStR0$Xi@5@_9N}Gc3CXRKnD6HJJAy(tJxIu+9tK~O{x`vF`?F?
z)&;d5m{hNg>1}gwYeH{_YYP)<T^hTnexG>wVl6E<5GS>yl$5WCO?h>yC*IGGykb|c
z-K3`>XtVtX9D#u0K;qLxmbISt#;FaAM1qoto&X1~5O<C-4Jda^Tat;S7J4AJ1argO
z6oDQXTjr1D1%t%Pq>~I)CycIPwr#<uyFkT8r``@pPR`d?!n6nhX+mL1r;8+St5IEX
z#z|DY*{Lr^;kHGB83g{tu(^CbN%c5U3M=Lj6)YP|)3!|I+=)~)w`C@0pF+*OAhSeL
z_hi(JlSa3_a_ZBRk0E@PC9jv|^i3(HFm4*s7V`S~-H@2Y)n*jTos7DTdK90cM8EGI
z=0Q`LdC*&C-h;$EZIpQ}3HB|CMBgOyN=!3yHtDIc*sRA3+lKlq^;ZvqR6ssQgi61F
z^c)B)4`x$eM3qpZ8&nTdDZ0l{K1-LMl!Yq{AwSu(WJvv4w7i1|FL`=HBwCB4{i^=H
zmMx80w{4^{SxQYh%6d#T0j4lkCUqk&W5cQNGam0Sn%99<|C3&A&)l$^%&rG0!E@i!
zpSz_K+YEZm9?4jsZONQTLXp?fwk`D}ebiS#PJ&>p%!t5rFk95)NR2KA>{3q?*|Qih
zf)@k(!;2|nF|-5{`e8Om1>>8UuBVV1GtEON$267cRBv{Y)PT_Nv8AS}cb3Cck3w=v
znO?-|%jf{}mpY4`%*~KT>f76l*Xf~wiOrj2#*){A^UG|l$pX8rvrs^-V4X7^bMp+;
z>TY!4h0Y@N5)l-|_Yu*AEe{LN@~+zjSNA@#4NKf9UE$rd^?S&yPRn&?M>Q52Fq{1c
zQi%m&y!b;RJ+WaVFdiBVD9q#=zuYhry=7blwcxK>g`RmV(+2WkEgQM_<pz1LmZKJk
zx+o!UMn-pw%GZxjS#h-NHLY{f&=PO$1EFmYFj+sIlmeqy*p!0ISikkA*sxyHUMG>-
zD7;<hxY_rFb^>k6qa*gL4dcR0k4;#WgdDa)WhN{&>OTnKnQXRA1UjytY}elkXX8~B
z&L-!>*}+-OF0FP5LUcQ`<S}Ra?Pr&w`ts}wdDKuvYn3VWJVuAr&9ocxoytxpwP6%|
zvU;hL5YXwWpqr>OXtyIY>IG!Kh91ts+DiDmQeDDDD~d!<y-3B|b|wrKpMR_t(Ecv8
zcY`ooA>T|gqP~OzxztESxJ!{!gKS^)1l8x_VaOS>DBev&*f$N`5;H=IBLY_DIMrBk
z-G+FeQ^isx%vSD`(^WM^>55p`E&vz62l#&K`hL3`tVT$CzJFo09%VJ`)LA^$o768Y
z<yfE*Mv*^kaaf>dsR^qA5I_u%U<*xXH_M)P7nkorZ%}+ZF?3-Ey}69ojKI9qM{hu`
zKyQp#hp<~QwO(#^!n)!up61Op`h#L%m`LQI6)~*xUd#qx&@vd883SCVu!oAtE-keg
zZjmTtzK+!$aEI#I_``OoWe_%iINVId2L=$$zd>&d9n~^yB-f|1)sF{8fCL4485q?l
zL0Uq3O7KXMzUt)qbG=TWw+1<WV%Zk3C%r98o#yt$x}-qfj+nOvbZRF~;sT3aEe=5v
zr&=pT%t=2pi<!b5r&$*iTtuyyS1;C^aYZQ9s7HxZyv#RZrMsYjx*uiC7wkII8D`!R
zvanJWnQ`#zC}1HPunhIzrZ>Kahz1u*B5u=9-mnW6=Ls$d`LSJC_i{$E`5l3mIDJR~
z+eGXH4i-|-l8gZK4RB9a_W{ATjK?&}>vS#9tJxl3r7m>N?DD=t>7h-*22_k}1LshM
zgWus})LkYpze|}}jm}fETn<QIg)7&K`SMw5^&w$ab&ShAVKUG&u&|1OEF!ij7rYsT
zvOPM6dOZKl4aqt~w~lIcU`<Y^g}Axg?lyx==UA$<d2Y=;Dbq(cv(NipT@*_gc$`_U
zJCWKYTF}M|^p3x)Ol7+rua(e7$P{bk&nR*0t}A@uz-49JRi{9(-&XG?4!(ThDDZ{D
zO^STs@P@S8s<Jxo!CklD!l3|R)aOAM?=i?3==8%>@k4qi!~WTv`Try2uO7itAKO{)
z<4BFJ_X^f~ATWOr46B~Q3{QcKnQIH>PZOz>)K`(72RQ^Xz$j;sWdH)$u^Wf7<ipyj
zmqA$aN1^5hmGhlr57absfawh%!af-DCp6L+jQP$%F(zY4XB7G6Skhg4cLz%rhp=Sc
zdLJyggB%qcF8QYc=a`Xf%HdelYandYcd_(!RMbGe3&Qd+5Q;ac>^*v8*n4tJBY13p
z#R!QNb3Tp-W2#Br`+#h+rN@D;&^wB#jw+Pj5^Hb1@=7&KhKzlN8XGVd{Rij{X0S+a
z3^CjbtR@A+dK3!tDIk_O91?RGdO5qHS21;0RyrZwo^WB}gFArPZ_!HF>{r~(FTaI?
z1N5GR*?xijVd7m8E#T}j^XUL?!k~*w<|Y8$_Kj>&>}IUFr+6i~14*%~@%2_7yBc4c
zIg6hL1?oL6@|DH5><MGLJhn5TmfTItQ~yXx__8A^29hFQ<z$K-(e#iba;toY`#0VQ
z-h-n6$2kfhS`^1Y+-6w@gnwz8e#k2ia#i$9R-sM=)dr`Ha6%U11TH72#<r0~f+0Jj
z^+|5(*VHA(&55E@H_8M)0XB_~*YC|v{owxT|KnwUi{(RbEfdSfB{2`J-PnTzY-+~7
z3!x<D{C^NTJAeoM2x~cz2R)0Hcl1{=DIBJrpca`A-DR2|ri$O85<Ya#J^_V!pAS&t
zU_meS3^i5Hg0P^B@!5Ys<=FXPAbCCr;y!V${V~BG`{P#*O~eHB4+<f4ztfLjjSW(~
zh=ImI2DX|np>`5v_!U+1{aF*9I4n6jWqYP~!?q^GsER{sGKwHv8mmYzCXD|=q$keF
z4TCVlXr$^RjzQ@?i=s~y*4`+PLn$043vgJYsFu+(uUbS=il`N}!rua0xWzfhQ4EV5
zP0Lk^Xpu*;DTZZG49jNR;f<E%xTCc8A>j^(V_4<D>^XT1D{oEfu=5y}^R~k=Ec)g#
ztf|ovdp5<ejv$6rv8vZ3?Nq%2@+t@<U44s4WqLP2iBPpaO1T|PUI5|q9N-n4ao_jx
zopdMMq~4&aS}}8~gP>EtBqod!s_$V)A7qzey-8(%qBn->05{H1#L3$~4&`PdFdqEu
zM4~1GABg1#m=h9{hmuO({R-uk!>OBv<d&lDMdns|bWkwIk@C4bP|mE!g-t;tId0BD
z>)PFWdJO#$5~~7Q!#MIE9b;M#{ZkV2Um&$Z*_3mG5M&mzhV|q7dFF$#g&`I*vuCL+
dwNGY|xKo&xucx-SOHe#mdiwOK>HDT1{TB#b%Ypy^

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/embedding.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/embedding.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..5ac32f42ea2f1e34fa4b0942350f43cdfe151aa5
GIT binary patch
literal 1049
zcmZWoPjAyO6t^AcU)RAlM$sh35vi9Qc0y=ElNdYpupti7P?W~r2z8Urc8ZGJ(<W|6
ze1z@Dm5<{qr+o#u@SL<;B`m#{=l4JF_nfV-cMzOk-+IFzK0?3UW%YP)IRsLBz!+j!
zpfOG`b}|uU>?Iz^9;4SNp{&C~7G2}SXYncOuiZfm>SG(f8xJ{SMR@@iBKC9Q42u)M
zHv)PKqz1qWG$#ffp^t}i&v>8FoEmD#4ZcNFEF(=o=P?YN0{J>H_zE-f-Jko+GkzKx
z-w;C&&}C!@bU_Dq7_#<#8yDrI)+sB-w%dw=mlyhz?Nqg1T6%oht4fQq&_yPSuUy(y
zz2q0Q$fVQ1??<-NgrsFQ=9Z55OiA~Dwll5rY?vx=vvKR<N-w-!Zt13LV=c3y%!Y#Z
z1KU%ROe&t9^Gw&0r+Fpnaj9&#O(6DDC~h|wUdybxw$w!=j~!1R`bpLnaoLQ^pGa;)
z!9Tl4ug{L_@`UGS!s*pn<K*z!o6PKHE+GkDWMM_FyAY+G14EeN2nV=}2}q784*mvV
zfICF?z}^%%&S8`8PYe<TYViF40^kb>0lu&1fe8TLPy?EPAs!L+(uBsFA{iNM!W}e^
z3<4jrgG_XV0oky@mC6$hSl`fFbcIim@d0NtkPDn?gM<g*O1IpWib81{Ofyk))sN+t
zQ?50WYSuu>4bUWyE^97l%gHMn>MC`S$=1qH+f7mOiHnFEgR7Qw9?~^4XxUR&Y2$vn
zsi>+^J$V6I<(gQIa~p=bO(^aXxeMAspR{v?eR!sMsVaFcsxNyZE;F^)Le{R>?tj*m
l)l|)TwXnFfD}A{&kWF*Z!MI|z;BVX$RPHTyao3Bs{sEHL7fb*E

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/interaction.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/layers/__pycache__/interaction.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..fc6b27e36c9a106a837f4580fd500d5574ab025e
GIT binary patch
literal 1156
zcmaJ=OK;Oa5Z?9LiAfV4QYi%?;R_OxP=v${AwU9(#3Kiul2vKtdN;+5V~5?f+D7h$
zRP+SDp_RDwFZqPTDL;S<7noTm5H5@~yWZKI*EgS|PNzjcwmz+G{a}QA$HTI?aCiW!
zZ@?mmpeYF{>`v;8SjZ@OLIe};ArY=*Qx>{{z9L<32CqrKODperv@cbR$7O+3R`e~{
zqzxH5M`S<+70#g_GW(5zeF*7^#vuv4BjS><0pXifbK}KBm1`Z-c_7>zP^@<aR9}I`
z5JO8cb#|NqNk~b*(l3-k7Z8H>yR7nbF_ubUF_q7Gk|l=ou2Z>Mrh}?6+>O+>KBd(e
z&f_%Fn)6fg^V*|3n;S*;QpTGp_NF(J%t#f*Cdsqjcwc!C?ktvo^$<EaKd-g7$Pn8L
zyaZVkjYU{A3=}#A9EMC?HGoEaUL#Zbks8M^Z0Oi6>B*uM)}NvC<lUQ0?u}(^qzIC1
zTo@gQWF#{Ub?M-GAZ`Z#liD{hd9Wpe+e@xpuVSgps@B^mE#zaRa-|UF8aHpNNK(;t
zR0B-aicQS*`v`#b@e$HX;Y8FqST2BS%Q)JmE^Yj3ut{fukB#&XI2f}D`V8Hk!eYoV
zHDt#rEl~vf%ueV5t1Ts61%3(#tp{$&N_U+cc*3=}9+C)eR>4+!NTU7>$@3cL9qlE$
z@`qB60WrM|W{_|9XE>Y<Ac|vv4*Ek8DOt6Y6h$n#E=Ju(-F2geTVbhTr+&xt0X~6a
zF|yy*J8Z>BTMmR7)zJLGr*h*cP1hmB9H2G2>iD3O_5vV$0OSX%X3<D;UbQ$M<)TRO
zyUjVINb4I*LW{V%3=yl&oWZe7Q_hz%+ZoyMAcs1b9YObLo3)#E!Z7}p0T$(IkmkGU
mB8I#4*U%dR_jRxS6%+zyy_Qn^?a;qlS9=e$YUGgbwApV*Vh2M2

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/activation.py b/codes/news_recsys/news_rec_server/recprocess/rank/layers/activation.py
new file mode 100644
index 00000000..c2f4ab0c
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/layers/activation.py
@@ -0,0 +1,24 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : activation.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/1/27
+
+import tensorflow as tf
+from tensorflow.keras.initializers import Zeros
+from tensorflow.keras.layers import Layer
+
+unicode = str
+
+
+def activation_layer(activation):
+    if isinstance(activation, (str, unicode)):
+        act_layer = tf.keras.layers.Activation(activation)
+    elif issubclass(activation, Layer):
+        act_layer = activation()
+    else:
+        raise ValueError(
+            "Invalid activation,found %s.You should use a str or a Activation Layer Class." % (activation))
+    return act_layer
+
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/core.py b/codes/news_recsys/news_rec_server/recprocess/rank/layers/core.py
new file mode 100644
index 00000000..be5dd8da
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/layers/core.py
@@ -0,0 +1,238 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+# @File  : core.py
+# @Author: xLyons
+# @IDE   ：PyCharm
+# @Time  : 2022/1/27
+
+import tensorflow as tf
+from tensorflow.keras.layers import Layer, Dense, Embedding, BatchNormalization, Dropout
+from tensorflow.keras.initializers import glorot_normal, Zeros, glorot_uniform
+from tensorflow.keras.regularizers import l2
+
+from layers.activation import activation_layer
+
+
+class DNN(Layer):
+    def __init__(self, hidden_units, activation='relu', l2_reg=.0, dropout_rate=.0, use_bn=False,
+                 output_activation=None, seed=48, **kwargs):
+        self.hidden_units = hidden_units
+        self.activation = activation
+        self.l2_reg = l2_reg
+        self.dropout_rate = dropout_rate
+        self.use_bn = use_bn
+        self.output_activation = output_activation
+        self.seed = seed
+
+        super(DNN, self).__init__(**kwargs)
+
+    def build(self, input_shape):
+        input_size = input_shape[-1]
+
+        hidden_units = [int(input_size)] + list(self.hidden_units)
+        self.kernels = [self.add_weight(name='kernel' + str(i),
+                                        shape=(
+                                            hidden_units[i], hidden_units[i + 1]),
+                                        initializer=glorot_uniform(
+                                            seed=self.seed),
+                                        regularizer=l2(self.l2_reg),
+                                        trainable=True) for i in range(len(self.hidden_units))]
+        self.bias = [self.add_weight(name='bias' + str(i),
+                                     shape=(self.hidden_units[i],),
+                                     initializer=Zeros(),
+                                     trainable=True) for i in range(len(self.hidden_units))]
+        if self.use_bn:
+            self.bn_layers = [tf.keras.layers.BatchNormalization() for _ in range(len(self.hidden_units))]
+
+        self.dropout_layers = [tf.keras.layers.Dropout(self.dropout_rate, seed=self.seed + i) for i in
+                               range(len(self.hidden_units))]
+
+        self.activation_layers = [activation_layer(self.activation) for _ in range(len(self.hidden_units))]
+
+        if self.output_activation:
+            self.activation_layers[-1] = activation_layer(self.output_activation)
+
+        super(DNN, self).build(input_shape)
+
+    def call(self, inputs, training=True, **kwargs):
+        deep_input = inputs
+
+        for i in range(len(self.hidden_units)):
+            fc = tf.nn.bias_add(tf.tensordot(
+                deep_input, self.kernels[i], axes=(-1, 0)), self.bias[i])
+
+            if self.use_bn:
+                fc = self.bn_layers[i](fc, training=training)
+            try:
+                fc = self.activation_layers[i](fc, training=training)
+            except TypeError as e:
+                print("make sure the activation function use training flag properly", e)
+                fc = self.activation_layers[i](fc)
+
+            fc = self.dropout_layers[i](fc, training=training)
+            deep_input = fc
+
+        return deep_input
+
+
+class Linear(Layer):
+    def __init__(self, l2_reg=.0, use_bias=False, seed=48, **kwargs):
+        self.l2_reg = l2_reg
+        self.use_bias = use_bias
+        self.seed = seed
+
+        super().__init__(**kwargs)
+
+    def build(self, input_shape):
+        self.kernel = self.add_weight(
+            name='linear_kernel',
+            shape=(input_shape[-1], 1),
+            initializer=glorot_normal(self.seed),
+            regularizer=l2(self.l2_reg),
+            trainable=True,
+        )
+        if self.use_bias:
+            self.bias = self.add_weight(
+                name='linear_bais',
+                shape=(1, ),
+                initializer=Zeros(),
+                trainable=True
+            )
+
+        super(Linear, self).build(input_shape)
+
+    def call(self, inputs, **kwargs):
+        linear_logits = tf.tensordot(inputs, self.kernel, axes=1)
+        if self.use_bias:
+            linear_logits += self.bias
+
+        return linear_logits
+
+
+class GateNN(Layer):
+    def __init__(self, hidden_units, activation='relu', l2_reg=.0, dropout_rate=.0, use_bn=False,
+                 output_activation='sigmoid', seed=48, **kwargs):
+        self.hidden_units = hidden_units
+        self.activation = activation
+        self.l2_reg = l2_reg
+        self.dropout_rate = dropout_rate
+        self.use_bn = use_bn
+        self.output_activation = output_activation
+        self.seed = seed
+
+        super(GateNN, self).__init__(**kwargs)
+
+    def build(self, input_shape):
+        input_size = input_shape[-1]
+
+        hidden_units = [int(input_size)] + list(self.hidden_units)
+        self.kernels = [self.add_weight(name='kernel' + str(i),
+                                        shape=(
+                                            hidden_units[i], hidden_units[i + 1]),
+                                        initializer=glorot_uniform(
+                                            seed=self.seed),
+                                        regularizer=l2(self.l2_reg),
+                                        trainable=True) for i in range(len(self.hidden_units))]
+        self.bias = [self.add_weight(name='bias' + str(i),
+                                     shape=(self.hidden_units[i],),
+                                     initializer=Zeros(),
+                                     trainable=True) for i in range(len(self.hidden_units))]
+
+        self.activation_layers = [activation_layer(self.activation) for _ in range(len(self.hidden_units))]
+
+        if self.output_activation:
+            self.activation_layers[-1] = activation_layer(self.output_activation)
+
+        super(GateNN, self).build(input_shape)
+
+    def call(self, inputs, training=True, **kwargs):
+        deep_input = inputs
+
+        for i in range(len(self.hidden_units)):
+            fc = tf.nn.bias_add(tf.tensordot(
+                deep_input, self.kernels[i], axes=(-1, 0)), self.bias[i])
+
+            try:
+                fc = self.activation_layers[i](fc, training=training)
+            except TypeError as e:
+                print("make sure the activation function use training flag properly", e)
+                fc = self.activation_layers[i](fc)
+
+            deep_input = fc
+
+        return deep_input
+
+
+class PPNet(Layer):
+    def __init__(self, ppnet_size, hidden_units, activation='relu', l2_reg=.0, dropout_rate=.0, use_bn=False,
+                 output_activation=None, seed=48, **kwargs):
+        self.ppnet_size = ppnet_size
+        self.hidden_units = hidden_units
+        self.activation = activation
+        self.l2_reg = l2_reg
+        self.dropout_rate = dropout_rate
+        self.use_bn = use_bn
+        self.output_activation = output_activation
+        self.seed = seed
+
+        super(PPNet, self).__init__(**kwargs)
+
+    def build(self, input_shape):
+        input_size = input_shape[0][-1]
+        hidden_units = [int(input_size)] + list(self.hidden_units)
+
+        self.gate_nn_layers = [
+            GateNN(hidden_units=[self.ppnet_size, hidden_units[i]],
+                   activation='relu',
+                   output_activation='sigmoid',
+                   l2_reg=self.l2_reg,
+                   seed=self.seed)
+            for i in range(len(self.hidden_units))
+        ]
+        self.kernels = [self.add_weight(name='kernel' + str(i),
+                                        shape=(hidden_units[i], hidden_units[i + 1]),
+                                        initializer=glorot_uniform(
+                                            seed=self.seed),
+                                        regularizer=l2(self.l2_reg),
+                                        trainable=True) for i in range(len(self.hidden_units))]
+        self.bias = [self.add_weight(name='bias' + str(i),
+                                     shape=(self.hidden_units[i],),
+                                     initializer=Zeros(),
+                                     trainable=True) for i in range(len(self.hidden_units))]
+        if self.use_bn:
+            self.bn_layers = [tf.keras.layers.BatchNormalization() for _ in range(len(self.hidden_units))]
+
+        self.dropout_layers = [tf.keras.layers.Dropout(self.dropout_rate, seed=self.seed + i) for i in
+                               range(len(self.hidden_units))]
+
+        self.activation_layers = [activation_layer(self.activation) for _ in range(len(self.hidden_units))]
+
+        if self.output_activation:
+            self.activation_layers[-1] = activation_layer(self.output_activation)
+
+        super(PPNet, self).build(input_shape)
+
+    def call(self, inputs, training=True, **kwargs):
+        deep_input, ppnet_input = inputs
+
+        for i in range(len(self.hidden_units)):
+            ppnet_scale = self.gate_nn_layers[i](ppnet_input)
+            deep_input = deep_input * ppnet_scale * 2
+            fc = tf.nn.bias_add(tf.tensordot(
+                deep_input, self.kernels[i], axes=(-1, 0)), self.bias[i])
+
+            if self.use_bn:
+                fc = self.bn_layers[i](fc, training=training)
+            try:
+                fc = self.activation_layers[i](fc, training=training)
+            except TypeError as e:
+                print("make sure the activation function use training flag properly", e)
+                fc = self.activation_layers[i](fc)
+
+            fc = self.dropout_layers[i](fc, training=training)
+            deep_input = fc
+
+        return deep_input
+
+
+    
\ No newline at end of file
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/embedding.py b/codes/news_recsys/news_rec_server/recprocess/rank/layers/embedding.py
new file mode 100644
index 00000000..79ebefdd
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/layers/embedding.py
@@ -0,0 +1,41 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+# @File  : embedding.py
+# @Author: xLyons
+# @IDE   ：PyCharm 
+# @Time  : 2021/8/27
+
+from tensorflow.keras.layers import Embedding
+from tensorflow.keras.regularizers import l2
+
+
+def create_embed_dict(sparse_feature_columns, embed_l2_reg):
+    sparse_embed_dict = {}
+    for feat in sparse_feature_columns:
+        feat_embed_name = feat.embed_name
+        if feat_embed_name not in sparse_embed_dict.keys():
+            embed_layer = Embedding(
+                input_dim=feat.vocab_size,
+                input_length=1,
+                output_dim=feat.embed_dim,
+                embeddings_initializer=feat.embed_init,
+                embeddings_regularizer=l2(embed_l2_reg)
+            )
+            embed_layer.trainable = True
+            sparse_embed_dict[feat_embed_name] = embed_layer
+
+    return sparse_embed_dict
+
+
+def embedding_lookup(sparse_embed_dict, feat_inputs, sparse_feature_columns, query_features=(), to_list=False):
+    feat_embed_outputs = {}
+    for feat in sparse_feature_columns:
+        feat_name = feat.name
+        if len(query_features) == 0 or feat_name in query_features:
+            feat_input = feat_inputs[feat_name]
+            feat_embed_outputs[feat_name] = sparse_embed_dict[feat.embed_name](feat_input)
+
+    if to_list:
+        return list(feat_embed_outputs.values())
+
+    return feat_embed_outputs
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/layers/interaction.py b/codes/news_recsys/news_rec_server/recprocess/rank/layers/interaction.py
new file mode 100644
index 00000000..2aa49b96
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/layers/interaction.py
@@ -0,0 +1,32 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @file  : interaction.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2021/9/15
+
+import tensorflow as tf
+
+from tensorflow.keras.layers import Layer
+
+
+class FMCross(Layer):
+    def __init__(self, **kwargs):
+        super(FMCross, self).__init__(**kwargs)
+
+    def build(self, input_shape):
+        if len(input_shape) != 3:
+            raise ValueError("Unexpected inputs dimensions % d,\
+                             expect to be 3 dimensions" % (len(input_shape)))
+
+        super(FMCross, self).build(input_shape)  # Be sure to call this somewhere!
+
+    def call(self, inputs, **kwargs):
+        square_of_sum = tf.square(tf.reduce_sum(inputs, axis=1, keepdims=True))      # None, 1, dim
+        sum_of_square = tf.reduce_sum(inputs * inputs, axis=1, keepdims=True)        # None, 1, dim
+
+        cross_term = square_of_sum - sum_of_square
+        cross_term = 0.5 * tf.reduce_sum(cross_term, axis=2, keepdims=False)         # None, 1
+
+        return cross_term
+
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__init__.py b/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__init__.py
new file mode 100644
index 00000000..0cb6e9d2
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__init__.py
@@ -0,0 +1,6 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : __init__.py.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/1/27
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__pycache__/__init__.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__pycache__/__init__.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..3945a59cce4c407534e5cc6fd48a18ae19ec8ad9
GIT binary patch
literal 125
zcmYe~<>g`k0=o{eq;??v7{oyaj6jY95Erumi4=xl22Do4l?+87VFd9@$;B$hFSWcl
uC^b1IH$NpcC%z;<Kc_e*K0Y%qvm`!Vub}c4hYe7sG$+*#r1vurGXMbNFB&=k

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__pycache__/feature_columns.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/__pycache__/feature_columns.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..1e6b01d7a910f23ee8ecdef25aacc5baef2793b3
GIT binary patch
literal 3284
zcma)8OK&8%5hmG>>FMbijULuM65E24*dD|Y93S#<6gh~Mbqp92#L}s;Mx)iF#-r`W
zh~#WmO3x)Dz`p1|?B24MAea0Z-U0_O_88<61V}bj>>0hBLnyF@MHSiPS6@{z?RG-~
z?WbRE9{#&a$XBRbZ!RdmfUf=wf)h@25;wmzW}vg&DcsnlIOpVE;m3Z_id#hx2X@ZQ
z+eH|MMJMi9-OHn*8+Yy4&wIs6ykf_#ykD%wtHoNpM#)En2fTewcw4N`op=NEkas}u
zSp5|q@$NZ^H+he*!0#P?m#^}*a~j{}_xL8i1EYJK?vug&7jSAa98lBwjpRZKzBkVF
zz%ky(<z%W&>p`AsElSh*uqv|@M$iY$M4zT5uZm$Mi!?W0EM%o%lW1SdaXI>=svb=z
zp!=VUOOZ-gu$oB$OA}EX3Z8KIi0Rug2m2(q3o<;*^@iADQ?G##B&M7IrrsCih;oO!
z=k3_}g197h;U>Nb_a~`T;sJbT_~Knyk+pE~qT$$s?m$<+22s<RB&2pg(wc!}+ToP5
z+UL#%&bqY=(yKlBZta!K+WWetgPP3Q)Alohet|E$!>?gG+eW|N_|r#!Jv;vZ5OfQX
zmd00_bMe@?N(ep(ja#OLFyZ4WOAiw@J`<+Bgrtx@Y+}MjAD3foJg!eCVBSpGrJkBj
zgp?7Q21$ZuNit~R2l6Ai2Geo_#X5>j6n9Xpf_P3%J4v!URVqoIlYhOv_x{5N)ACc1
zJuE6N@<dlvt{xr%fKw@wtjecFskSGl@*b?ly;Khbp}zg=Q=j$N+4>di+n48ILkYn`
zo_lykJa>|qFiGGu(;UZ9lAKJ_y!nsa-gFm7%S4_hiF_57H{x43LI&7NzXAirKm^q4
z|0ii&OB%+V8>I0}dry=L&SXov!RElKhANgW-vwns7bFU`qyf5UAP7*wTT<aU9S(f!
z1JmZ?0(Kr(W#fdqu!Y2Z>}3b8ypLn+t~YUHJ!NldFK(}ksDB5#3P3DSXJ>1dC%%H4
z4(01$@;^btkG=tY2^#7d1+i=x70A2~p{vIrG?|kbM8_Wa>}bX`M2BW`CVzzSQL|$g
zy2sgtGjjk4JF`PhLTl%P-Jy2CqIGoB7NhCPHsFqK*KAJb><{!LtT7k4kcM91!7%-(
z&r_he#Rs7|d;R0`ahi|$)`Fc|4Li3mKHeEsdJsw^g$c)MTq>QGnXvSb=)kLe8W$kq
zrhNcQe<fuljf=YsJhO6(`lf>u5Mz)Em2puqU1hV(ax&t`pM`b}e{`VPIGm1io-B85
z_W3^iM{R*Xj|McPF8=+;cOn=E%Q5RS`9rYD@K(!)p2BWDg&EFz3NjOTYHQ|z2Oyu_
zBTv~gtTyz5%@B1~JLsR90mf_yxwy$b(>#@@CM;6*2m=3+C^2VYVwOlZ<4?=+$rMnD
zgA@Xir#g*S7I$A<NX2W*t2Oz|uHJ^#ainY^z<?L|ZCLK#ge9wN4X~!Wu=p~`1T>=T
zrO!g(9?TzP=*wlhfdwub5#S>t@!HJQq;@rMO9r*`6hgLkj{%owl#-L6X7YXQ9(%RT
z_J9$v7?5#>FJ3}}9O<S{#tPzi0GnFA7(bm%M9G`TX8OqZnXQHcPyPUn-T`4c&0KPn
zrz45Zk%+|YyZ1*zC)YWHrD$<u*V18)xwOY5UP)rQ{rc~pfA!^G{`t3En^7~2)MZ<N
z!DZzB5fn|H(waV_Gr#r$iEqzZn$<1s01`cj-B#jiZ%*LXKk3y}{t~Mh$D~MVh}=0X
z8K4+IWCCt;Hf!s!ZUcG&ce!`r&O+S*%?Hhg=<n!gPIQ;IcyK}M5Mr6mBHcS)sXKKv
zVs@U*y1EYxbZc+!)LpRX)jdGFJ(O?3d2i$)41M(QK6HhTF7P5jFYXihJx~X%aS4{b
z0X6i=ZES;`JS`4+y893;{sEnwy@7D&_7MV)jL}$c@8nQ=bF~YD#`pmCYUv8Blpav|
zb66&SjN&IC2CK%+s>!JdxDXQ@U7ew+v-qx%Sd@&5I~f0HoNFl1cmdf#VLj>M2stZ%
zhGGXr8^mDc8il&clfIWoF)~q8_VY#yrjTb2$EmWlJYHGYE@RQM&1~L`&}9ubtBd*N
zTLYe7H>dFImbGU6hUp^rEl;*kqvb&n(%WvZ6u)k80QXc_c8JYzA>_T#VJ}@8L1!-+
z3u&MA=muTGtoK_)g&shOME1)MKpa@=5AMr7P)rD~P*usJy!xF56C*FrMW&(Hs-_Cu
zxiZ;)BxI_#^Ym0m)l`E^Uzk_FVTbRjF%+6Jw8q$y=-~LhZx}WkZi^>Srm)oOG~b>`
zF_Bd!6x5(mlSVrWyR4GJIy~+#SK><;Gv5_ej9(od!$q3Pg^1Z2V6$ICBLwFf-j{C$
i6YMl^t6e0O!pB8G0~P_OeHy`U-|2Vz?O;6!!|1<8bQ^^L

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/feature_columns.py b/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/feature_columns.py
new file mode 100644
index 00000000..2ff1d919
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/model_tools/feature_columns.py
@@ -0,0 +1,102 @@
+#!/usr/bin/env python
+# -*- coding: utf-8 -*-
+# @File  : feature_columns.py
+# @Author: xLyons
+# @IDE   ：PyCharm 
+# @Time  : 2022/1/27
+
+
+import copy
+import tensorflow as tf
+
+from collections import OrderedDict
+from tensorflow.keras.layers import Input, Flatten, Concatenate
+from tensorflow.keras.initializers import RandomNormal, Zeros
+from tensorflow.keras.layers.experimental.preprocessing import StringLookup
+
+from layers.core import Linear
+from layers.embedding import create_embed_dict, embedding_lookup
+
+
+class SparseFeat(object):
+    def __init__(self, name, embed_dim, vocab_size, dtype, embed_name=None, seed=48):
+        self.name = name
+        self.vocab_size = vocab_size
+        self.embed_dim = embed_dim
+        self.embed_init = RandomNormal(mean=0.0, stddev=0.01, seed=seed)
+        self.dtype = dtype
+
+        self.embed_name = embed_name if embed_name else name
+
+        super(SparseFeat, self).__init__()
+
+
+class DenseFeat(object):
+    def __init__(self, name, dimension, dtype=None):
+        self.name = name
+        self.dimension = dimension
+        self.dtype = dtype
+
+        super(DenseFeat, self).__init__()
+
+
+def build_feature_inputs(feature_columns):
+    feat_inputs = OrderedDict()
+    for feat in feature_columns:
+        if isinstance(feat, SparseFeat):
+            sparse_inputs = Input(shape=(1, ),
+                                  name=feat.name,
+                                  dtype=feat.dtype)
+            feat_inputs[feat.name] = sparse_inputs
+        elif isinstance(feat, DenseFeat):
+            dense_inputs = Input(shape=(feat.dimension, ),
+                                 name=feat.name,
+                                 dtype=feat.dtype)
+            feat_inputs[feat.name] = dense_inputs
+        else:
+            raise TypeError("Invalid feature column type,got", type(feat))
+
+    return feat_inputs
+
+
+def build_feature_coding_model(all_data, sparse_features):
+    feature_vocab_dict = dict()
+    for feat in sparse_features:
+        string_model = StringLookup(vocabulary=all_data[feat].unique(),
+                                    mask_token=None)
+        feature_vocab_dict[feat] = string_model
+
+    return feature_vocab_dict
+
+
+def get_dense_inputs(feat_inputs, feature_columns, concat_flag=True):
+    dense_inputs = []
+    for feat in feature_columns:
+        if isinstance(feat, DenseFeat):
+            dense_inputs.append(feat_inputs[feat.name])
+
+    if concat_flag:
+        dense_inputs = tf.concat(dense_inputs, axis=-1)
+
+    return dense_inputs
+
+
+def get_linear_logit(feat_inputs, feature_columns, linear_l2_reg=.0, embed_l2_reg=1e-5, use_bias=True, seed=48,):
+    linear_features = copy.deepcopy(feature_columns)
+    for feat in linear_features:
+        if isinstance(feat, SparseFeat):
+            feat.embed_dim = 1
+            feat.embed_init = Zeros()
+
+    sparse_feature_columns = list(
+        filter(lambda x: isinstance(x, SparseFeat), linear_features)) if feature_columns else []
+    sparse_embed_dict = create_embed_dict(sparse_feature_columns, embed_l2_reg)
+    sparse_embed_list = embedding_lookup(sparse_embed_dict, feat_inputs, sparse_feature_columns, to_list=True)
+
+    dense_inputs = get_dense_inputs(feat_inputs, linear_features, concat_flag=True)
+    sparse_embed_inputs = Flatten()(Concatenate(axis=-1)(sparse_embed_list))
+    linear_inputs = tf.concat([dense_inputs, sparse_embed_inputs], axis=-1)
+
+    linear_logit = Linear(linear_l2_reg, use_bias, seed)(linear_inputs)
+
+    return linear_logit
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/models/__init__.py b/codes/news_recsys/news_rec_server/recprocess/rank/models/__init__.py
new file mode 100644
index 00000000..0cb6e9d2
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/models/__init__.py
@@ -0,0 +1,6 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : __init__.py.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/1/27
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/__init__.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/__init__.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..167ba48dcf557f55aa5cded46a0ff0380beabd53
GIT binary patch
literal 119
zcmYe~<>g`k0=o{eq;??v7{oyaj6jY95Erumi4=xl22Do4l?+87VFd9@#>Fbetu!wv
oH900XKP5G%I3_+mGcU6wK3=b&@)m~;P_Q&7)efZVGY~TX05ka)qW}N^

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/deepfm.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/deepfm.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..11c8aaac891d5f3be2f607c11a5d53519b9304e6
GIT binary patch
literal 1726
zcmZ8iOK%%D5GJ_~y;e`l541q<%0UQvYhV}!Z0KekYM&Mc7Hg4G)}eL<l1h_+Iw^-<
z^apxMj{O1sGrXoi;A7E4i=?eP<VucR3gmvn84hQ@nO&vLW*x!!nSV-0HH1D`;o+!)
z@I6fV3>Jzg=4g&%j4dXd%)Qui*yH{@hy#ax9$q5aq753o#c_o;FVLWU3+K@Qo8XM)
zk^%6}#$$L?M(3xZkP;w%^6~fQAAb7vuis8CKU#A;M#dM6FK?d$p14@uHbO`6w9%cy
zlp#h)A&u5}RaaQo-;wtgH#8DY6jmO^l)SZivc@@?p;e@O9ci*AtELKcQ`dDwJ?d}#
zRZE2+A&`QNw`!}3m9(dc_H~Vhn{d@pRa&9d4c0BVqpNCbq`QE6s=h{`tL=2Kx2GC6
zk#6g~8FBk$)mKf8byWvC)D>Fa1iBA)`>F*#8(`hO>D+YTrf7p{bK~iKr)}Ky-tFm*
z?j0h%e~8}W)q%6^-|Xv#KA^1)Ssm&_%k+2xWZVynJ(w3TrRC4kr0|-6DIO1qsb@0F
zrAqS&i|ZGQR7f^rsj~HW^$QXa9QpLs*|V$BGXH^1uI2@0TwYPe7Ss7~@!C|6c{;zQ
z>B%=>`3Fq&=I9Kxqx0c0FD5CMCjd&5OIvVNBs`OFLEM-W`6N}zl&7;nXc|+vH_7tF
zQc2Uc!cwqgQt;(Gm!`?HoTVb+-zI|1OvL8bjP9iBQnKVaOQrE8WAxT$4R`tJt4!YB
z!59Q4dY)0r@?@E3;J=<uRQ57eS&_%#&L<VcqFAa#q>7o)`OHTHEDo$Y&jjwM*ayk<
zUNDg}4&i1hOL_K&2_Q4vMqdFhHjTkS+`nFCoF=<;wg$eXz=SVTzGTvb(~K)7;_gI1
z)+{M=quE56j>9y|X9+Kg7t2N5nK6|>B9L+EtlZhrQ_M1D8mEp~mV-Cp+juJ@o+`z1
zL)6rSCGo;Gh9FiQKsvx)^dKE+S~FgVLRrS9g_s+X=cXdF*}TZ83Cm6}!MW{-!I9`$
zKOLIq$wQ(=-`=qYOWfXuxT{rMx5iuUn-*LCOY)tnEI{0{sxReo)ev2KTcaev^;3Kx
zUGv^Ey=|PhyWRgn>i@P}DWXS=Mi1GHYt#9T>MB5PDUSCZx!so4g}tpx&1L7x(VS*^
z%9CwVn7~ozUafLz+GN7=t!V?6V^~n5iX)HQ`8a|}?ub{%9nvCzcfZeJrG@LHk9+uj
z_isNSpZ(Cvt$%%w{No3pC*nKsI383*2v4_MmaqcyNZ2o_fIk2<sK$rTCbAGyUi>(8
zZ87BOYbK=Yl(<m}!$~2SYoNHd-N|xjHe076cRd$>?ea`iQE)ljy#U*?xOg5=V81iM
c@lZX6V@u9XY)sOA<|7i}2v-AyAN~IP4;8KZMgRZ+

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/deepfm_ppnet.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/models/__pycache__/deepfm_ppnet.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..46365be3fbb38177bf56496056ed83bacf3aebcf
GIT binary patch
literal 2042
zcmZWqPjA~c6enp}R%}^z5-0Be4ZFFAVAy3qQ3M4V_|~9Uau|dHf@0FHQd%-dx@!yi
z<O1u(-=RI`1MCazWANGmMX=Mb9kvcz_ejZY($OIG9{ET<{(e8wX}jG-P<}n^pO6+p
zZ>@8&1mN6*D(^r;5yc!$ag4FG2`AH9Tyu7fd((Pccecm<V?-m`qTx#%H)#6^4LavA
z9}TdnAFy09Ydm~-$P^fj;e-34kP=LM``vGk-@f|k&tLYB-`NSa42>rkpPzpX_9%2+
zWpfigHoqEF`8`HRA&r)J5h|?1*W``0+Zu`63ac8$l)SX#WQlV!L5oOvI?~>fEIO*L
zJ37=6tx<2~ExO7F4}n)-)fStoVLe^fp7wQ%`YV62r2^WZ!3ygx?6IvjmPl`d)l<zS
zg0YSD81(I^)@i6W_0EL2ezMqwoPM@B{fNexHX*OzLSFqUn|_tel}l@0Sz=i8s%pJ%
z>#J|96=|$%x~UsF&>OV1^7XF1I)PIzuBi@W8N&YE)6LT@$i2P7G+Nd4H8<Ki-G1HE
zTe{ar`dS~sYS&%t&grgh>+7_$B8waP2C&yX909x^i?uE2M^L5Jj|E=gB{@Q8_;5f>
zGm}{^Rho}j+&r44Lb4%C)fq7S><ozrro8|1;LfArJpYc39!(3%xO_wzn~kT*Y?d>%
zH+yb^yF8tq&~*PRi2ofbdU5LjVulYAr=7jKycnfi?t@VV9$Pu7BH@_?WyP&gk&jZ9
zjCnd4_@*_69Fi=b&6PAA>&yj9Mg^Zwb7|T<%ULQC{!Jp-#Dr{m!syxy=8`2RSt^Yu
z8KdVG0ocn+pJnp=1C;;aLm*-ss>4U4Q}hZw1;B)b%g)TxDHB%B07~SJoKzV}hmYvM
znCL?Dtu;2Gfg?1_NSVE0CVZSx%JO8MXK<coI#SuwRAogT`|C4MQOt_DN<^xd@!c8n
z;Q)&(cD0(RyQ!iNp4ocBM9w(Clc_A_uz>&~{R*uHtYTps^yA*iJmYko>>5tbLT>!0
zDW5ZG{Bgz=6Y=Iq0Lm;Wv835ZnXa>GmQNC16i?=}xI1Agfr9|T<!)uqnvP<UDbu>|
zm}EJuCOn&OW5`pbSZ;_K8^0vlw52L$$wZ_yW4RJmqrwtl>To(BFT8L%X`%@)M4>Ez
z<3dag$#c_?*<@N|)cB<+P5prt=isL3*~PxF%`LlPm*#nLkpZ!5$9ABJJ5}y$(Zo#~
zT#?eYwk4)y#SN9r#E~8P#G|80SP_|4iHs9=yer*}`ba^g;CQp@|Ah8uU5=yh64c>E
znBxt&eia7+nA~C?Z(mxr5`;^;3f;LR-}QxxyJdHEk3b%ASoT!YHXJC9-u5`lQ=U{J
zGj)f3c@69%@9u&LFW!B7F(icsMF9?L<b#JpsN@5wHF1|j1nl+iZ@&@YCh6fV7uPN0
zNEi1=lYES_(eJ&6|CbloxzWE~jr`-)VHOehV4uT5Abj|`=D0K);17lU4-y;D41%~1
zl9YuQ^Wuj+r@1|zK4(HY8OE*B*&7vtId#TcRZo_Kur2jP?(`jBcNiq9D7f7F?5%S7
il<?T6^wWC*PbN&8bGC2Ok@lL0B*Y;O0)#L9{`e0+H&6ip

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/models/deepfm.py b/codes/news_recsys/news_rec_server/recprocess/rank/models/deepfm.py
new file mode 100644
index 00000000..bc6535a2
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/models/deepfm.py
@@ -0,0 +1,63 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : deepfm.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/1/27
+
+from tensorflow.keras.layers import Dense
+
+from layers.core import DNN
+from layers.interaction import FMCross
+from model_tools.feature_columns import *
+
+
+def DeepFM(feature_columns,
+           dnn_hidden_units,
+           embed_l2_reg=1e-5,
+           linear_l2_reg=1e-5,
+           linear_use_bias=True,
+           dnn_l2_reg=1e-5,
+           dnn_drop_rate=.0,
+           dnn_use_bn=False,
+           dnn_activation='relu',
+           seed=48):
+
+    feat_inputs = build_feature_inputs(feature_columns)
+    inputs_list = list(feat_inputs.values())
+
+    sparse_feature_columns = list(
+        filter(lambda x: isinstance(x, SparseFeat), feature_columns)) if feature_columns else []
+
+    sparse_embed_dict = create_embed_dict(sparse_feature_columns, embed_l2_reg)
+    sparse_embed_list = embedding_lookup(sparse_embed_dict, feat_inputs, sparse_feature_columns, to_list=True)
+
+    dense_inputs = get_dense_inputs(feat_inputs, feature_columns, concat_flag=True)
+
+    linear_logit = get_linear_logit(feat_inputs=feat_inputs,
+                                    feature_columns=feature_columns,
+                                    linear_l2_reg=linear_l2_reg,
+                                    embed_l2_reg=embed_l2_reg,
+                                    use_bias=linear_use_bias,
+                                    seed=seed)
+
+    fm_inputs = Concatenate(axis=1)(sparse_embed_list)
+    fm_logit = FMCross()(fm_inputs)
+
+    sparse_embed_inputs = Flatten()(Concatenate(axis=-1)(sparse_embed_list))
+    dnn_inputs = tf.concat([dense_inputs, sparse_embed_inputs], axis=-1)
+    dnn_logit = DNN(hidden_units=dnn_hidden_units,
+                    activation=dnn_activation,
+                    l2_reg=dnn_l2_reg,
+                    dropout_rate=dnn_drop_rate,
+                    use_bn=dnn_use_bn
+                    )(dnn_inputs)
+    dnn_logit = Dense(units=1,
+                      use_bias=False,
+                      kernel_initializer=tf.keras.initializers.glorot_uniform(seed=seed)
+                      )(dnn_logit)
+
+    final_outputs = tf.nn.sigmoid(linear_logit + fm_logit + dnn_logit)
+    model = tf.keras.models.Model(inputs=inputs_list, outputs=final_outputs)
+
+    return model
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/models/deepfm_ppnet.py b/codes/news_recsys/news_rec_server/recprocess/rank/models/deepfm_ppnet.py
new file mode 100644
index 00000000..9a01921a
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/models/deepfm_ppnet.py
@@ -0,0 +1,77 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : deepfm_ppnet.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/8
+
+
+from tensorflow.keras.layers import Dense
+
+from layers.core import PPNet
+from layers.interaction import FMCross
+from model_tools.feature_columns import *
+
+
+def DeepFM_PPNet(
+        feature_columns,
+        ppnet_size,
+        ppnet_features,
+        dnn_hidden_units,
+        embed_l2_reg=1e-5,
+        linear_l2_reg=1e-5,
+        linear_use_bias=True,
+        dnn_l2_reg=1e-5,
+        dnn_drop_rate=.0,
+        dnn_use_bn=False,
+        dnn_activation='relu',
+        seed=48):
+
+    feat_inputs = build_feature_inputs(feature_columns)
+    inputs_list = list(feat_inputs.values())
+
+    sparse_feature_columns = list(
+        filter(lambda x: isinstance(x, SparseFeat), feature_columns)) if feature_columns else []
+
+    sparse_embed_dict = create_embed_dict(sparse_feature_columns, embed_l2_reg)
+    sparse_embed_list = embedding_lookup(sparse_embed_dict, feat_inputs, sparse_feature_columns, to_list=True)
+
+    dense_inputs = get_dense_inputs(feat_inputs, feature_columns, concat_flag=True)
+
+    linear_logit = get_linear_logit(feat_inputs=feat_inputs,
+                                    feature_columns=feature_columns,
+                                    linear_l2_reg=linear_l2_reg,
+                                    embed_l2_reg=embed_l2_reg,
+                                    use_bias=linear_use_bias,
+                                    seed=seed)
+
+    fm_inputs = Concatenate(axis=1)(sparse_embed_list)
+    fm_logit = FMCross()(fm_inputs)
+
+    sparse_embed_inputs = Flatten()(Concatenate(axis=-1)(sparse_embed_list))
+    dnn_inputs = tf.concat([dense_inputs, sparse_embed_inputs], axis=-1)
+
+    ppnet_feature_columns = list(
+        filter(lambda x: x.name in ppnet_features, feature_columns)) if feature_columns else []
+    ppnet_embed_list = embedding_lookup(sparse_embed_dict, feat_inputs, ppnet_feature_columns, to_list=True)
+    ppnet_inputs = Flatten()(Concatenate(axis=-1)(ppnet_embed_list))
+    # stop gradient propagation
+    ppnet_inputs = tf.stop_gradient(ppnet_inputs)
+
+    dnn_logit = PPNet(
+        ppnet_size=ppnet_size,
+        hidden_units=dnn_hidden_units,
+        activation=dnn_activation,
+        l2_reg=dnn_l2_reg,
+        dropout_rate=dnn_drop_rate,
+        use_bn=dnn_use_bn
+        )([dnn_inputs, ppnet_inputs])
+    dnn_logit = Dense(units=1,
+                      use_bias=False,
+                      kernel_initializer=tf.keras.initializers.glorot_uniform(seed=seed)
+                      )(dnn_logit)
+
+    final_outputs = tf.nn.sigmoid(linear_logit + fm_logit + dnn_logit)
+    model = tf.keras.models.Model(inputs=inputs_list, outputs=final_outputs)
+
+    return model
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/readme.md b/codes/news_recsys/news_rec_server/recprocess/rank/readme.md
new file mode 100644
index 00000000..c67d87fe
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/readme.md
@@ -0,0 +1,273 @@
+# 1. 数据集介绍
+
+原始数据集共包含3个，实验时存放在目录`rank/examples/dataset/raw_data/`下。
+
++ **user_info_5w.csv**
+  + 该文件共包含了5万条用户的个人数据；
+  + 特征分别包括了：['user_id', 'device', 'os', 'province', 'city', 'age', 'gender']；
+  + 各特征的含义为：['用户id', '设备名称', '操作系统', '所在省', '所在市', '年龄', '性别']；
++ **doc_info.txt**
+  + 该文件包含了所有新闻的特征数据；
+  + 各特征的含义为：['文档id', '标题', '发文时间', '图片数量', '一级分类', '二级分类', '关键词']；
+
++ **train_data_5w.csv**
+  + 该文件为用户点击数据，包含了5万个用户在过去13天的点击数据；
+  + 各特征的含义为：['用户id', '文档id', '展现时间', '网路环境', '刷新次数', '展现位置', '是否点击', '消费时长（秒）']；
+
+
+
+# 2. 数据处理
+
+数据处理的文件存放在`rank/examples/dataset/data_process/`下。
+
+## 2.1 训练集和测试集的划分
+
+训练集和测试集的划分程序为：**train&test_data_split.py**
+
++ 训练集：将所有用户在前12天的点击行为划为训练集；
++ 测试集：
+  + 将所有用户在第13天的点击行为化为测试集；
+  + 测试集丢弃特征：消费时长（秒），展现位置，是否点击；
+
++ 测试标签：
+  + 将测试集的真实标签单独进行存储；
+
+其他特征处理：
+
++ 选中消费时长小于0的样本，并将其消费时长设置为0；
++ 对所有样本的展现时间进行了格式处理，并新增了特征展现日期；
++ 新增特征index，目的是为了后续对测试集进行评估；
+
+## 2.2 特征处理
+
+### 2.2.1 用户和文档特征
+
+用户数据和文档数据的处理程序为：**user&doc_data_process.py**
+
+**用户数据处理**
+
++ 性别特征：原始的用户性别数据为用户对应不同性别的概率，这里直接将概率最高的性别作为用户的实际性别；
+
++ 年龄数据：原始的用户年龄数据为用户对应不同年龄段的概率，这里将概率最高的年龄段作为用户所处的年龄段；
+
+**文档数据处理**
+
++ 发文时间：对于部分发文时间异常或者为空的数据，使用已有文档中最早的发文时间进行填充；
++ 发文日期：将文档的发文时间，提取出对应的发文日期（年-月-日）；
++ 图片数量：对部分异常的脏数据，使用 $0$ 进行填充处理；
++ 二级分类：对于存在多个二级分类的文档，从其选取一个作为其二级分类。优先选择不等于一级分类的二级分类，对于二级分类为空的文档使用一级分类进行填充；
++ 关键词：
+  + 每篇文档均存在多个关键词，每个关键词也会对应一个权重，这里选取权重最高的关键词作为文章的唯一关键词；
+  + 文档中不同的关键词及权重是采用逗号进行隔开的，但部分关键词本来就包含逗号（如==你好，李焕英==），故相关函数还对此进行了特殊处理；
+
+### 2.2.2 统计特征
+
+统计特征的生成的程序为：**news_data_process.py**
+
++ 从文档发文到展示的时间差：对于每一个样本，统计对应文档从发文到展示的日期差；
++ 用户特征统计：
+
+  + 统计每个用户过去几天，所展现的文档总数；
+  + 统计每个用户过去几天，在不同类别文档（一级分类）上的展现总数；
+  + 统计每个用户过去几天，在不同类别文档（二级分类）上的展现总数；
+  + 统计每个用户过去几天，整体的点击率；
+  + 统计每个用户过去几天，对不同类别文档（一级分类）上的点击率；
+  + 统计每个用户过去几天，对不同类别文档（二级分类）上的点击率；
+  + 统计每个用户过去几天，消费时长的总和；
+  + 统计每个用户过去几天，在不同类别文档（一级分类）上的总消费时长；
+  + 统计每个用户过去几天，在不同类别文档（二级分类）上的总消费时长；
+  + 统计每个用户过去几天，在不同类别文档（一级分类）上的平均消费时长；
+  + 统计每个用户过去几天，在不同类别文档（二级分类）上的平均消费时长；
+  + 统计每个用户过去几天，在不同类别文档（一级分类）上的消费时长的方差；
+  + 统计每个用户过去几天，在不同类别文档（二级分类）上的消费时长的方差；
++ 文档特征统计：
+
+  + 统计每篇文档在过去几天，被展示的总次数；
+  + 统计各类别（一级分类）文档在过去几天，被展示的总次数；
+  + 统计各类别（二级分类）文档在过去几天，被展示的总次数；
+  + 统计每篇文档在过去几天，平均的被点击率；
+  + 统计各类别（一级分类）文档在过去几天，平均被点击率；
+  + 统计各类别（二级分类）文档在过去几天，平均被点击率；
+  + 统计每篇文档在过去几天，总的被消费时长；
+  + 统计每篇文档在过去几天，平均的被消费时长；
+  + 统计每篇文档在过去几天，被消费时长的方差；
+  + 统计各类别（一级分类）文档在过去几天，总的被消费时长；
+  + 统计各类别（一级分类）文档在过去几天，平均的被消费时长；
+  + 统计各类别（一级分类）文档在过去几天，被消费时长的方差；
+  + 统计各类别（二级分类）文档在过去几天，总的被消费时长；
+  + 统计各类别（二级分类）文档在过去几天，平均的被消费时长；
+  + 统计各类别（二级分类）文档在过去几天，被消费时长的方差；
+
+
+### 2.2.3 特征归一化和编码
+
++ 连续型特征：
+  + 连续型特征包含的主要是统计特征，这里对于空值统一使用 $0$ 进行填充；
+  + 之后，对所有的连续型特征进行对数归一化， 即取 $log$ 对数；
+
++ 类别型特征：
+
+  + 类别型特征这里主要是通过 $LabelEncoder$ 的方式进行编码，以便后续模型处理为相应的 $Embedding$；
+
+
+
+# 3. 排序模型
+
+排序模型的执行程序存放在`rank/examples/`下，分别为`deepfm_news.py`和`deepfm_ppnet_news.py`。
+
+## 3.1 DeepFM
+
+DeepFM是2017年由华为与哈工大提出的排序模型，，模型主要包含两部分：FM部分+Deep部分。
+
++ FM部分：对不同特征域的Embedding进行两两交叉,以加强模型在浅层网络中的特征组合能力。
++ Deep部分：多层感知机网络模型。通过对特征各个维度进行充分的特征交叉组合，来学习到更多非线性以及组合特征的信息。
+
+论文链接：[[DeepFM: A Factorization-Machine based Neural Network for CTR Prediction (arxiv.org)](https://arxiv.org/abs/1703.04247)
+
+**实验结果**
+
+1. 参数设置
+
+```yaml
+# data para
+seed: 48
+# model para
+embed_dim: 32
+drop_rate: 0.5
+use_bn: Ture
+hidden_units: [64, 128, 64]
+# compile para
+learning_rate: 0.001
+epochs: 20
+batch_size: 2048
+val_splite: 0.1
+patience: 5
+restore_best_weights: True
+```
+
+2. 运行结果
+
+```bash
+Epoch 1/20
+2653/2653 [==============================] - 47s 17ms/step - loss: 0.3921 - auc: 0.7287 - val_loss: 0.3628 - val_auc: 0.7588
+Epoch 2/20
+2653/2653 [==============================] - 44s 17ms/step - loss: 0.3619 - auc: 0.7616 - val_loss: 0.3581 - val_auc: 0.7647
+Epoch 3/20
+2653/2653 [==============================] - 44s 17ms/step - loss: 0.3569 - auc: 0.7705 - val_loss: 0.3561 - val_auc: 0.7682
+Epoch 4/20
+2653/2653 [==============================] - 47s 18ms/step - loss: 0.3548 - auc: 0.7754 - val_loss: 0.3557 - val_auc: 0.7699
+Epoch 5/20
+2653/2653 [==============================] - 47s 18ms/step - loss: 0.3540 - auc: 0.7777 - val_loss: 0.3560 - val_auc: 0.7702
+Epoch 6/20
+2653/2653 [==============================] - 46s 18ms/step - loss: 0.3536 - auc: 0.7788 - val_loss: 0.3557 - val_auc: 0.7708
+Epoch 7/20
+2653/2653 [==============================] - 45s 17ms/step - loss: 0.3533 - auc: 0.7797 - val_loss: 0.3556 - val_auc: 0.7714
+Epoch 8/20
+2653/2653 [==============================] - 45s 17ms/step - loss: 0.3532 - auc: 0.7802 - val_loss: 0.3558 - val_auc: 0.7712
+Epoch 9/20
+2653/2653 [==============================] - 46s 17ms/step - loss: 0.3530 - auc: 0.7806 - val_loss: 0.3560 - val_auc: 0.7713
+Epoch 10/20
+2653/2653 [==============================] - 46s 17ms/step - loss: 0.3530 - auc: 0.7808 - val_loss: 0.3560 - val_auc: 0.7711
+Epoch 11/20
+2653/2653 [==============================] - 45s 17ms/step - loss: 0.3529 - auc: 0.7811 - val_loss: 0.3560 - val_auc: 0.7715
+Epoch 12/20
+2653/2653 [==============================] - 46s 17ms/step - loss: 0.3528 - auc: 0.7813 - val_loss: 0.3557 - val_auc: 0.7718
+251/251 [==============================] - 3s 11ms/step - loss: 0.3719 - auc: 0.7508
+test AUC: 0.750784
+```
+
+## 3.2 DeepFM+PPNet
+
+将DeepFM模型中，DNN 模块替换为PPNet模型：
+
++ 在语音识别领域中，2014 年和 2016 年提出的 LHUC 算法（learning hidden unit contributions）核心思想是做说话人自适应（speaker adaptation），其中一个关键突破是在 DNN 网络中，为每个说话人学习一个特定的隐式单位贡献（hidden unit contributions），来提升不同说话人的语音识别效果。
++ 借鉴 LHUC 的思想，快手推荐团队在精排模型上展开了尝试。经过多次迭代优化，推荐团队设计出一种 gating 机制，可以增加 DNN 网络参数个性化并能够让模型快速收敛。快手把这种模型叫做 **PPNet（Parameter Personalized Net）**。
+
+参考链接：[1.9万亿参数量，快手落地业界首个万亿参数推荐精排模型](https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&idx=4&mid=2650808254&scene=21&sn=6c295c8306b7339858f8ecfadfc9d698#wechat_redirect)
+
+**实验结果:**
+
+1. 参数设置
+
+```yaml
+# data para
+seed: 48
+# model para
+embed_dim: 32
+drop_rate: 0.5
+ppnet_size: 256
+ppnet_features: ['user_id', '一级分类', '年龄']
+use_bn: Ture
+hidden_units: [64, 128, 64]
+# compile para
+learning_rate: 0.001
+epochs: 20
+batch_size: 2048
+val_splite: 0.1
+patience: 5
+restore_best_weights: True
+```
+
+2. 运行结果
+
+```bash
+Epoch 1/20
+2653/2653 [==============================] - 56s 20ms/step - loss: 0.3929 - auc: 0.7303 - val_loss: 0.3648 - val_auc: 0.7568
+Epoch 2/20
+2653/2653 [==============================] - 53s 20ms/step - loss: 0.3620 - auc: 0.7622 - val_loss: 0.3591 - val_auc: 0.7651
+Epoch 3/20
+2653/2653 [==============================] - 55s 21ms/step - loss: 0.3578 - auc: 0.7706 - val_loss: 0.3580 - val_auc: 0.7690
+Epoch 4/20
+2653/2653 [==============================] - 53s 20ms/step - loss: 0.3560 - auc: 0.7755 - val_loss: 0.3587 - val_auc: 0.7701
+Epoch 5/20
+2653/2653 [==============================] - 54s 20ms/step - loss: 0.3551 - auc: 0.7787 - val_loss: 0.3580 - val_auc: 0.7706
+Epoch 6/20
+2653/2653 [==============================] - 55s 21ms/step - loss: 0.3545 - auc: 0.7809 - val_loss: 0.3587 - val_auc: 0.7718
+Epoch 7/20
+2653/2653 [==============================] - 54s 20ms/step - loss: 0.3541 - auc: 0.7829 - val_loss: 0.3586 - val_auc: 0.7720
+Epoch 8/20
+2653/2653 [==============================] - 53s 20ms/step - loss: 0.3538 - auc: 0.7842 - val_loss: 0.3587 - val_auc: 0.7721
+251/251 [==============================] - 4s 13ms/step - loss: 0.3686 - auc: 0.7543
+test AUC: 0.754304
+```
+
+
+
+# 4. 程序执行
+
+```bash
+# 数据预处理
+1. user&doc_data_process.py
+2. train&test_data_split.py
+3. news_data_process.py
+
+# 排序模型
+4. deepfm_news.py 或 deepfm_ppnet_news.py
+```
+
+
+
+# Requirements
+
+- Tensorflow2.5 (GPU)
+- Numpy
+- Pandas
+- Swifter
+- Sklearn
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
+
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/run_train/__pycache__/run_deepfm.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/run_train/__pycache__/run_deepfm.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..710a96c56b7728a7f79a893bd8a0a6e637b89e68
GIT binary patch
literal 1072
zcmZWnOKTM|6i#L`&wHn>4{WQOBDffk`vXc5ORI=r7Zx|6Fyu~h@11sDBpFM~byc_b
z54h5$e`&U^`VT~?c#>;tr3v}Y$$2E_d<jdE7{LhMtdHM%2>mdd+rxp)OIT_LfFq7e
zRAGv-(Vfz%T<TigElK53&+4S~tAGZed))twXvl*@l!ljZ0!ne8ykfFEJJe0v7WEVi
zWS6rFq`UiJ4}`xjMEm+(PE7pY0i~e<tUXxj3xGy*XYL+jSVp=WFUTh{C&xs4u=lyM
zz}(fr1)5?`7Et7zd=0-LBafpwl(vZgeL(j(hBeSb9)L`E2)M$d1(}-DS9!efG16;%
z0GapZ*k<DEOg>z=Mt_7ZEGf`va*&dKbt0JVq{#B7?5bMPHD1@*tl(VKSyvZY(ZpD|
zY}!mREof}Eof6r&HYAmT$r|`sIv<RSn#r>)myJ@Q){u3Ux-@E9T~x)nkd&0*p+P0I
zEOI3=aCB*ah96m(8E5ZSMV%6eY2f}w_F>C(A?jT8q-wb6A4;LX4i$jRPDL@DX$8H+
zW2W<2rr@657j2WzR3GK6EXOQAfzIH9g2PcwovF4g^!ZT30bB5z+gr~jDV7P;k=~c)
z5$W(h4x)ek`^(<@AaAO+D1~$(Tm}ZrPoRP7stP#h-ASSCk#fa2%@3946U(6qi%q+>
z4AFb7ENV?d0k#e}PQ5<Xk`+KZ)2xq7nO2oPr1pf#sp>t$Mfn}cb+G+<y1#vNAWqeL
zksryf&TP8XIQ-H{HEN+CaI8VFdJcdbg6+KWy%p?W|F`dkPK^Df70|)t$|vNfKaiUc
ze~?D>u@<#z<fLp)M<+ruHM*hK_D7%G3AlNAWr?C2cOtI8f@LqUU8&KsYWo!ScH8AG
Y*no=qa0jBhQoM*@r$T@shUpC5KRjz8s{jB1

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/run_train/__pycache__/run_deepfm_ppnet.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/run_train/__pycache__/run_deepfm_ppnet.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..b73487f0bc2acf5ee35f0b9a7de449c9ceeffcea
GIT binary patch
literal 1142
zcmZWn&2AGh5Vm)n&1Un{LM!Ocr57ajk^{%8LR2l>2o)6<tJ2C@JIS`Y-j(f8wF;+l
z%{u@$o`bjWl~dmURRS^IG^MDvW;`Cx*x!6(*6l_J#>Ts+!ygTVe!9*5;lbt=h~5Lm
z5yv?yFvZx}UhWk>^=sSDNztH<+9r8WG-(s;1`j?X8uI2bio<KT0mayMUo(|o9GkML
zGC2kZ+2^c))!+Yc088gki0aMT<mhN1OiEnV?ErwN4RQdYzkxDn=FR+54B}QFgn%?S
zo(G@EjGP9h3Hy+HbIg6yx<X^j$s8ch$d~9Va_eb(20%9v=m4~T+5zdB9(S25JOsVU
zTXQmYuRP+>Jiy32=55Gao8dYWFEe>(?mPPlx~eIHvb%#guqz|M%v6aaE%Rw1wT-Gu
z3X|yUQrO<Yz75fIl}njSGR}oerZO{{cAbZ-vPu*)f<|sT)gl>6M`tdWlECERaBY}L
zrY@3Hm0AmFAnPLbX{)SER={(Lk{nKGvk*pQsa6<xympF)A6cHbL+clrj0wb)@P4Um
zSTU0cnF>pak_)@8ga$t#fHgT6*?3}fOl&k{CY>zG3Pe?=6Kz{5%kv>i&!94RAmeaV
zDHC1gnYrv3xL^nRzPs~m6l1jlIO28X8m*d6g$`KfKQ>zbm<Sdu*k)Q5RhA3oyPTF&
z?%&X+o)!hLVf|5N>dV!tJ9NKVb)4$Cu*el&0}{4TsZ1Ig3h+&V?YLnhqgVzFV20V2
z16-RbfK*GE8f)8dtmNO3+63Rt^TXYffjHOiMS7y9GO5#Ri^I<z6-nLjeg&}L*a6Zn
zKq1e=9wy6q6NEk32Y&)T^dcNA{VwKrK*+D4t+pX+5Vz=-5mJ|Gl$YoIGohI7-;rL|
zO1B>b-2De#lSVflL@Yl@&E#5Lq3++WV9_Rrp|1O$+5(>q_aJAQi<hn++BLF+VR{|^
EFF$2CmjD0&

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/run_train/run_deepfm.py b/codes/news_recsys/news_rec_server/recprocess/rank/run_train/run_deepfm.py
new file mode 100644
index 00000000..21c3f9a6
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/run_train/run_deepfm.py
@@ -0,0 +1,39 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : run_deepfm.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/1/27
+
+
+from tensorflow.keras.callbacks import EarlyStopping
+from tensorflow.keras.optimizers import Adam
+from tensorflow.keras.metrics import AUC
+
+from models.deepfm import DeepFM
+
+
+def run(train_data, test_data, feature_columns, args):
+    # 1. 建模
+    model = DeepFM(feature_columns=feature_columns,
+                   dnn_hidden_units=args.hidden_units,
+                   dnn_drop_rate=args.drop_rate,
+                   dnn_use_bn=args.use_bn)
+    # 2. 编译
+    model.compile(optimizer=Adam(learning_rate=args.learning_rate),
+                  loss="binary_crossentropy",
+                  metrics=[AUC()])
+    model.summary()
+    # 3. 训练
+    model.fit(train_data[0],
+              train_data[1],
+              batch_size=args.batch_size,
+              epochs=args.epochs,
+              callbacks=[EarlyStopping(monitor='val_loss',
+                                       patience=args.patience,
+                                       mode='min',
+                                       restore_best_weights=args.restore_best_weights)],
+              validation_split=args.val_splite,
+              )
+    # 4. 测试
+    print('test AUC: %f' % model.evaluate(test_data[0], test_data[1], batch_size=args.batch_size)[1])
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/run_train/run_deepfm_ppnet.py b/codes/news_recsys/news_rec_server/recprocess/rank/run_train/run_deepfm_ppnet.py
new file mode 100644
index 00000000..df0a238a
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/run_train/run_deepfm_ppnet.py
@@ -0,0 +1,42 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : run_deepfm_ppnet.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/8
+
+
+from tensorflow.keras.callbacks import EarlyStopping
+from tensorflow.keras.optimizers import Adam
+from tensorflow.keras.metrics import AUC
+
+from models.deepfm_ppnet import DeepFM_PPNet
+
+
+def run(train_data, test_data, feature_columns, args):
+    # 1. 建模
+    model = DeepFM_PPNet(
+        feature_columns=feature_columns,
+        ppnet_size=args.ppnet_size,
+        ppnet_features=args.ppnet_features,
+        dnn_hidden_units=args.hidden_units,
+        dnn_drop_rate=args.drop_rate,
+        dnn_use_bn=args.use_bn)
+    # 2. 编译
+    model.compile(optimizer=Adam(learning_rate=args.learning_rate),
+                  loss="binary_crossentropy",
+                  metrics=[AUC()])
+    model.summary()
+    # 3. 训练
+    model.fit(train_data[0],
+              train_data[1],
+              batch_size=args.batch_size,
+              epochs=args.epochs,
+              callbacks=[EarlyStopping(monitor='val_loss',
+                                       patience=args.patience,
+                                       mode='min',
+                                       restore_best_weights=args.restore_best_weights)],
+              validation_split=args.val_splite,
+              )
+    # 4. 测试
+    print('test AUC: %f' % model.evaluate(test_data[0], test_data[1], batch_size=args.batch_size)[1])
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/utils/__pycache__/set_parament.cpython-39.pyc b/codes/news_recsys/news_rec_server/recprocess/rank/utils/__pycache__/set_parament.cpython-39.pyc
new file mode 100644
index 0000000000000000000000000000000000000000..659b4dfb88544d2924cd44c6f4d6ae55fa0e7561
GIT binary patch
literal 532
zcmYjNJ!>2>5S@{<=e_d>hhtK^3TzQ$cg7fFNN{DYh>PImz)@DZ^V+)IMbZ*3>{XW{
zjg!CN12_3S>C~pmUr3eF1%gM+(~M@`Xn1madjMqDUtfOwi2%Q1^4u6D=j3jmK!HL7
zdAymy8Os@h;!1phoGZM7Ecs1cFv>6tDml~2w~f&S&HZl)MJf3ka#s;}=xC~9ia+r0
zmkacG$2xrEE1*ay@xT_$Co1v1jy-OyV2Mk%;2obp2_1XFZ@3WDpRNGmJ#8lFEIC3o
zJOcOOkY3}tChr7o*c%13pOe;4ULVt%sjiAzmDQBu-eoP7wxQQZ>$J`KLDY?|f|$#h
z3Bph{2&<*a2N$g||GI4yh>E52LEP)P3rS&Wr?VvVBk!h>{x;ww@6%Lyqsqbu*0>;~
zow^@jcZvRI|Lw_mq(8ZLx)`^<G;Zv)C#EG0D}T_;Lpr60NZE?IMF1S)9^1toe8ub@
q<(aTi*sxjDhD7&eUAgsk>+1TWXYeAnrl+%7wML&sq7wuuZt=e&=YX{U

literal 0
HcmV?d00001

diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/utils/data_compression.py b/codes/news_recsys/news_rec_server/recprocess/rank/utils/data_compression.py
new file mode 100644
index 00000000..fcb3f6b5
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/utils/data_compression.py
@@ -0,0 +1,44 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @File  : data_compression.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/7
+
+
+import gc
+import numpy as np
+
+from tqdm.auto import tqdm
+
+
+def reduce_mem(df):
+    start_mem = df.memory_usage().sum() / 1024 ** 2
+    print(f'开始进行内存压缩...')
+    for col in tqdm(df.columns):
+        col_type = df[col].dtypes
+        if col_type != object:
+            c_min = df[col].min()
+            c_max = df[col].max()
+            if str(col_type)[:3] == 'int':
+                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
+                    df[col] = df[col].astype(np.int8)
+                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
+                    df[col] = df[col].astype(np.int16)
+                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
+                    df[col] = df[col].astype(np.int32)
+                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
+                    df[col] = df[col].astype(np.int64)
+            elif str(col_type)[:5] == 'float':
+                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
+                    df[col] = df[col].astype(np.float16)
+                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
+                    df[col] = df[col].astype(np.float32)
+                else:
+                    df[col] = df[col].astype(np.float64)
+
+    end_mem = df.memory_usage().sum() / 1024 ** 2
+    print('{:.2f} Mb, {:.2f} Mb ({:.2f} %)'.format(start_mem, end_mem, 100 * (start_mem - end_mem) / start_mem))
+    gc.collect()
+
+    return df
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/utils/set_device.py b/codes/news_recsys/news_rec_server/recprocess/rank/utils/set_device.py
new file mode 100644
index 00000000..43294a90
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/utils/set_device.py
@@ -0,0 +1,16 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @file  : set_device.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/7
+
+import tensorflow as tf
+
+
+def set_GPU():
+    gpus = tf.config.experimental.list_physical_devices('GPU')
+    print(gpus)
+
+    for gpu in gpus:
+        tf.config.experimental.set_memory_growth(gpu, True)
diff --git a/codes/news_recsys/news_rec_server/recprocess/rank/utils/set_parament.py b/codes/news_recsys/news_rec_server/recprocess/rank/utils/set_parament.py
new file mode 100644
index 00000000..7a84dc7d
--- /dev/null
+++ b/codes/news_recsys/news_rec_server/recprocess/rank/utils/set_parament.py
@@ -0,0 +1,20 @@
+#!/usr/bin/env python
+# -*- coding:utf-8 -*-
+# @file  : set_parament.py
+# @Author: xLyons
+# @IDE   : PyCharm
+# @Time  : 2022/2/7
+
+import yaml
+from collections import namedtuple
+
+
+def get_args(yaml_path):
+    with open(yaml_path, 'r', encoding='utf-8') as f:
+        para_dict = yaml.load(f.read(), Loader=yaml.FullLoader)
+
+        ps = namedtuple('parser', list(para_dict.keys()))
+        args = ps(**para_dict)
+        f.close()
+
+    return args