一号店架构师：如何使用用户画像？

2021-01-07 13:42:12 阅读（212） 评论（0）

在网络应用程序中，如何将用户形象分析成一个完整的商业模式，如何从大数据中获得更大的价值？如何开发出真正满足用户实际需求的推荐系统？1月9日，在七牛云主办的架构师实践日——*电商：从架构开发到系统优化专场沙龙，一号店架构师王富平为大家逐一解答了这些问题。以下是他的演讲记录。开场前，我想引用梵高的一句话：“我想强调的是，同一个人有各种各样的自画像。与其追求摄影般的相似性，不如深入探索相似之处”。下图是梵高当时比较骄傲的画像，戴着礼帽，穿着西装，但当时耳朵已经割掉了。我觉得作为一个好的架构师，要有艺术家的精神。到目前为止，架构发生了很多变化，新语言不断出现，我觉得没有必要把思维停留在某个方面。.HBase的离线和在线分离，HBase的KV阅读和Solr的批量阅读分离，region的热点监控和切割。5.数据流不断优化。6.数据存储改进。第一版肖像现状偏好系统包括类别偏好和导购属性偏好。第一版的偏好系统接口每天调用数千万次，主要服务于推荐栏和EMD，但变化偏好系统性能低，偏好分布不合理。、8.0范围内的得分数几乎为03。用户强偏好和弱偏好的阈值边界没有明确规定4。用户没有产生新的行为，兴趣偏好分数不会改变（没有时间衰减）新的肖像系统过程非常简单，是每个人都能想到离线和在线，离线基于用户的行为，产品信息评分，获得个人偏好，前端提供接口，基本上是这样的。肖像模型优化1对算法模型进行了一些优化，第一个优化是评分，通过操作评分使其偏好更加不同，历史行为应该衰减。你的评分假设总是叠加的，这也是一个问题，因为你在一个月前或一年前的所有行为，如果仍然影响你的评分，就会有不准确的评分，所以会有一个历史衰减评分。偏好分布应与用户对类别的权重分布一致，关键是如何处理数据，以及如何调整您的所有行为，如果您仍然影响您的评分，将会有不准确的评分，因此将会有一个历史衰减评分。偏好分布应该与用户对类别的权重分布相一致，关键是如何处理数据，以及如何通过对数据的偏好分布，以及如何调整模型，以及如何调整您的偏好评分类别或导购物属性。 |一般】。参数调整原则:衰减系数的设置满足两个月衰减的一半(结合用户在不同类别下的购买周期，见下页)。各种行为权重之间的比例设置相当于用户对各种行为数量的比例偏好。分布应与用户对类别权重分布的画像模型优化一致。2然后就会出现购买周期的问题，也就是说不同的东西会有购买周期，比如牙膏多久前买，牛奶多久前买。这些东西的周期性比较强。以后会有实时推荐，根据用户的行为进行评分，根据各类的偏好进行实时推荐。以后会有实时推荐，根据用户的行为进行评分，根据各类的偏好进行实时推荐。主题标签，如美食家，如喜欢吃零食的女性，是美食家的范围。还有数码极客，就是通过主题划分人。我就不多说具体的方法了，就是对你买的东西进行分类。下图显示了用户不同类别的购买周期。标签主题与标签的映射关系如下：将标签表中的关键词列表与商品评论和标题数据相结合。商品标签公式为：用户标签公式为：HBase离线与在线分离谈HBase，我们拿了很多开源的东西。我想问一下大家都知道的CAP。你只能在一个数据库中获得两个特性。在这里，我们采用离线和在线的方式来提高可用性。如下图所示。Solr解决批处理选择我们还有一个选择机制，是用户肖像的另一个场景，因为你有各种各样的用户信息，所以对于其他业务，如广告业务，如促销业务他们提供了一个需求，即选择，是基于Solr的选择中心。如下图所示。根据每台机器的热点，调整相关表格，提高读写性能，迁移或切割。在数据流优化guid和userid之间的对应关系中，过滤掉公共计算机和黄牛党账户（全国约有20万人从事计费产业链）。为了进一步提高离线部分的计算速度，牺牲算法的准确性，还可以增加用户行为权重的计算：将Wh设置为用户对某一类别的历史行为权重，将WC设置为用户在最新一天的行为权重，然后将总行为权重设置为WT=λWh Wc,0<λ<如果采用上述方法，则无需遍历用户的所有行为数据，每次更新时，只需遍历一天的数据即可。用户行为和行为统计表优化数据存储，HBase被Hive取代，最后的肖像表保留为HBase。考虑到类别偏好使用频繁，导购属性偏好的数据量远远大于类别偏好，解耦将两者分开存储。类别偏好离线数据结构-Hive全数据过滤全数据过滤，即类别偏好离线全数据过滤后，导入在线部分，主要优化是刚才提到的模型优化。过滤原则：每个用户偏好类别的数量小于固定值。用户偏好得分大于下限。下限可以假设用户当天在某一类别中只有一个加载行为，然后将导购属性偏好的全部数据带入模型进行反向过滤，然后导入在线部分。过滤原理：属性偏好大于固定下限属性值的数量小于固定下限的主要优化和改进点，如下图所示。长期兴趣和短期偏好的解耦类别和属性不同。我们曾经想在未来做实时肖像，但我们没有这样做。我们所做的是实时推荐。为什么不呢？因为这些算法不容易计算。例如，如果你计算一个衰减周期，你应该根据30天的编号计算当前类别的变化。你应该拿30天的数据。这种算法压力很大。以后想做的就是用HBase镜像双集群，ApacheLgnite HBase。我们也做了一些有趣的事情，也就是一些排名，一些大学排名，事实上，根据大学的特定群体，我们已经做了推荐，这个东西实际上很有趣。一些启示1。提取案例(或项目)的哲学和方法论。2.必须牺牲其他指标来制衡算法的准确性、数据规模和更新速度。3.当系统遇到性能瓶颈时，跳出系统本身，了解业务，根据业务解耦，以满足不同的场景。4.数据流的每个环节都可能出错，考虑降级和延迟环境，自动检查每个节点的中间数据。5.系统的演变是一个长期的过程，与业务量有关，防止过度结构浪费资源。6.开发不同版本时，适度改变开发者，融入新思路，避免思维模式。7.标签系统的管理规范比技术本身更重要，否则大部分标签都会睡着，以后基本不用了。8.数据驱动，通过观察和研究数据，对数据有一定的敏感性，产生新的用户肖像数据。

以上就是关于一号店架构师：如何使用用户画像？的相关介绍，更多一号店架构师：如何使用用户画像？相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对一号店架构师：如何使用用户画像？有更深的了解和认识。

内容来源:数据分析网，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：互联网+大数据选址的三个免费应用下一条：数据分析师面试经验：给自己时间熟悉概念