Python如何爬数据？3个关键点

2020-12-28 14:14:03 阅读（157） 评论（0）

几天前，我看到一家公司对数据分析师有一个招聘要求：分析客户的购买习惯，并通过客户的购买行为进行相关的数据分析。好的项目，正好让大家练Python，于是决定研究亚马逊Top100的细分类——女式内衣！！！销售情况。这个话题，遐想空间很大，老司机坐稳了！分析分为三个步骤：数据采集、数据清理、可视化分析的第一步，数据采集。没有数据怎么办？用万能Python爬。爬行产品排名和详细页面链接，所需字段为：排名、产品名称、详细页面链接。爬取商品细节，所需信息为：店铺：即竞争对手。分析爆炸性产品，保留商店链接，后续有针对性的挖掘分析；价格：分析爆炸性产品的价格范围，有助于商品定价；货架时间：什么时候？爆炸需要多长时间；星级、评论数量、评论标签、所有评论链接：爬上评论内容，分析爆炸性产品的优缺点；尺寸和颜色：嗯哼？同时也是非常有价值的参考资料；图片链接：难道你不想看看商品是什么样子吗？第三步是将数据转换为可视化图表并进行分析。你迫不及待地想看看这个过程吗？来吧~如何爬内衣数据Python爬数据很简单。我个人的总结大致有三点:数据处理写数据的第一点可能有几种:1、非常简单的html页面，直接requests可以要求成功；2、js渲染的页面太多了，requests要求一堆js数据；3、需要登录才能获得，到目前为止我用cookie登录，但是应该有更好的办法；4、json数据；数据处理的第二点有几种可能性：1、要求的数据是简单的html结构页面-直接BS4分析、要求的数据是json-导入json模块进行分析3、请求的数据是简单的js渲染html页面遇到这个页面通过抓取包或简单地在网站上审查请求，然后找到你想要的部分数据，如果是js渲染的html，实际上是js拼写的html，只要匹配其他无用的数据，找到剩下的html文本。然后BS4分析。第三点是编写数据open方法，打开文件中的参数，设置文件格式，读写文件，编码格式操作withopen("XXX.xxx","a",encoding="utf-8")asf:f.write('''编写的数据''')我用过txtt的文件格式、csv、大多数文本格式都支持xml。a–每次创建文件时，都会重新创建w–是追加a–读数据encoding=utf-8″不添加encoding=在windows系统下报告编码错误，linux不会。a–每次创建文件时，都会重新创建w–是追加a–读数据encoding=utf-8″这句话不加encoding=编码错误会在windows系统下报告，linux不会。然后数据量太大，用sqlite写入数据库数据库。记得引入模块importsqlite3，即创建数据表。好了，不要啰嗦，开始爬数据。爬行过程分为三个步骤，完整代码见文末，无需感谢。1、爬行商品排名和详细页面链接需要爬行的具体字段：排名（Rank），商品名（item_name），链接产品详情页面（item_link）、商品图片链接（img_src）。2、更多商品信息商店名称、商店链接、商品名称、价格星级、评论标签核心：构建函数获取单个商品的详细信息；使用for循环，通过商品详细信息页面链接列表获取每个商品的详细信息3、星级核心：从上一步的csv文件中，读取Rank，item_name,reviews,reviews_link字段构建函数通过for循环读取每个商品的所有评论，并将所有商品的所有评论存储在数据库和CSV文件中4、爬行size和color数据与第三步基本相同，代码基本相同，主要是确认每页评论的size&color个数。1.数据清洗和预处理、从CSV文件中读取100个商品的数据，筛选出所需的字段，进行数据清洗。1.数据清洗和预处理、读取和清理CSV文件中100种商品的数据，筛选所需字段进行数据清理。这里需要注意的是，一些读取的数据似乎是值，但实际上是字符。因此，需要参与数值计算的Nan需要转换类型（如price拆分后，也需要转换为float类型），并使用平均值进行替换。2、从业务维度处理数据获取所需数据：业务星级、评论总和、评论平均值、最低平均值、最高平均值、价格平均值、商品数量和比例。标准化星级、评论平均值、价格平均值和商品数量，并计算加权点。分析:歪果情趣内衣哪个强1？、不同商家的星级排名平均为4.15分，超过一半(17/32)Top1的LAL**A高达4.9分，其次有5家达到4.5分。倒数第一N-peari只有3.2分，让我看看LAL**A长什么样。亚马逊上的商品看起来像普通泳衣。米国人还是很保守的~但是高分真的意味着产品好吗？让我们来看看评论数。②首先，不同企业的平均评论数量只有193条，只有不到30%（12/32）高于平均水平。想想淘宝，我们的人口优势让米国人羡慕不已；让我们来看看星级前1的LAL*A。如果评论数量很少，我们将怀疑其商品的真实质量；星级倒数N-pearI，同样的评论数也很少，很有可能它的产品不是很好；另一方面，Garmol的星级评价是4.4，有很多口碑好的评论，似乎是不错的产品；接下来，它的星级分数低于平均分。那么，亚马逊的星级评价只受评论数的几颗星的比例影响吗？我在网上查阅了一些信息，发现亚马逊评价星级评价的三个重要因素:评论距离现在，评论被买家投票，评论是否有verifiedpurchase标志(意思是真正的买家)。我在网上查阅了一些信息，发现亚马逊评估星级评估的三个重要因素：评论从现在开始，评论被买家投票，评论是否有verifiedpurchase标志（意味着真正的买家）。此外，评论的字符数、点击次数和其他因素也可能对评论星级产生影响。亚马逊对评论的监控和管理似乎非常严格和复杂！当然，最重要的是看评论第一的Garmol长什么样：比上面的泳衣更有问题，大家都说好才是真的好，verysexy！2、从图中可以看出，ELOVER明显锁定了高端市场，定价范围约为49刀；相反，Godesvan的定价只有0.39刀，只有一刀。猜测可能是亏损冲动，增加商家曝光率，抢占低端市场。从均价来看，基本分布在10-20刀间，这表明这是性感内衣市场的主要价格范围；但20-40刀范围没有企业，可以深入研究，看看是否能找到蓝海的证据，具有更大的市场潜力，从每个企业的价格范围来看，大多数采用多色或风格策略，一方面为用户提供更多的选择，另一方面，它也反映了企业的新能力；只有少数采用单一热风格策略的最豪华的ELOVER看起来更像女神，缩略图比其他家庭更小心。那么，哪个企业的策略更可靠，市场份额更大呢？那么，哪个企业的策略更可靠，市场份额更大呢？3、在Top100的商品比例中，Avidlove以28%的巨大优势占据主导地位，而其他商家基本上占据了个位数。Avidlove内衣没有明显的优缺点，很酷。我喜欢。毕竟单方面还是很难衡量哪个商家更好。最好综合多个指标来分析~4、不同商家的加权分数标准化星级、平均评论数、平均商品价格和商品数量后，由于加权比例难以确定，将四项分类结果x10后直接累积得到总分，并制作成条形堆积图。而每个商家四项指标的比例，则侧面反映了自身的优缺点。Avidlove，刚才酷酷的内衣，在其他三种情况下，以商品数量优势获得综合得分第一，有一种乡村包围城市的感觉，主要依靠声誉（星级、平均评论）优势，赢得第二ELOVER，主要依靠高端市场的准确划分，赢得第三N-pearI，没有优势，意想不到的光荣垫底口碑最差的N-pearI，能找到的商品也最少，不过图片很刺激，emm...但是，如果我的菜不粗略，想要排名靠前，口碑一定不能太差，至少要保持在平均水平以上！5、不同商家的星级/价格散点图由Python制作。x轴是商家的平均商品价格，y轴是商家的星级，点的大小是商品的数量。商品数量越大，点越大，点的颜色是评论的平均值，评论的平均值越大，颜色越深。利用价格平均值和星级平均值，将图片分为四个象限：①左上象限:实惠好评的商家②右上象限：有点贵，但一分钱一分货的商家③右下象限:昂贵但质量差的商家④左下象限：便宜的商家没有好商品，所以在这张散点图的帮助下，选择商家买东西要容易得多：追求成本效益，你可以选择Avidlove，有很多商品，你可以选择；追求高端，可以选择ELOVER，这是有道理的；追求大众，可以选择Garmol，评论最多，赞不绝口。顾客可以根据自己的喜好选择合适的商家，那么作为商家如何提升自己呢？6、在爬行过程中，前面的词频分析也爬行了评论标签，对此进行了词频分析，可以发现，客户最关心的依次是：①是否合身：size、fit等相关字眼多次出现，排名靠前②质量：goodquality、wellmade；softandcomfortable、fabric是对材料的肯定③款式：cute、sexy、你知道likethepicture吗？④价格：cheaplymade勉强算价格，但更多的是对商品质量的怀疑。⑤口碑：highlyrecommend，评论仍然很有参考价值的评论标签数量较少，进一步分析2.4w条评论的词频，并制作成词云：表扬我的底图选择得很好！最直观的还是和“是否合身”、质量或者款式有关。然后我们从客户那里购买商品的Sizee&Color在这里继续分析，Size&Color的词频数据有几个问题：1、数据量少，只有约6000条2、Size&color无法更好的区分，所以我们一起分析3、商家的命名规则不同，比如同样是黑色的，有一个商家会命名black，有些可能是style1(所以一些奇怪的数字号实际上是商家的风格号)4、一些奇怪的词，比如trim，可能是爬虫时爬错了，也可能是导出csv时格式混乱。可以清楚地看出:size:large、medium、small肯定有涵盖，但除了xlargeee，还有、xxlarge、xxxlarge，亚马逊主要是欧美客户，也许体型比较大，所以商家应该为体型较大的客户开发和备货更多的商品。Color：非常直观：Black>red>blue>green>white>purple….所以黑色，红色永远不会错；绿色出乎我的意料，企业也可以大胆尝试。Color：非常直观：Black>red>blue>green>white>purple….所以黑色和红色永远不会错；绿色出乎我的意料，商家可以大胆尝试。style:trim出现在词频中、lace字眼，蕾丝最高！！！最后，在分析了Top100的商品信息和2.4w条评论后，作为一项严肃的Python数据分析研究，我们将总结亚马逊性感内衣产品和销售策略：1、Garmol必须注意竞争产品、ELOVER、Avidlove在口碑、定价、产品数量三个方面都有其核心优势，是需要重点研究的竞争对手。2、Review和星级是影响口碑的重要因素。有必要深入研究其算法机制，制定有针对性的营销策略。Review和星级有基本要求平均星级达到4.15分。超过一半的商家的平均评论只有193条，约30%的商家的平均评论比淘宝少。亚马逊的算法复杂，惩罚力度大。因此，Review的重精度优于重多3、定价策略主流市场竞争激烈，价格主要集中在10-20刀间高端市场，目前只有ELOVER，价格在40-55刀间低端市场价值不大，利润率小，为了提高曝光率或数量可以考虑，但不利于未来影响高端市场机会，20-40刀间没有其他业务，4.市场潜力巨大、产品策略应结合目标市场和定价，提高研发和创新能力，先尝试更多的产品错误，然后尝试单一的热风格来巩固市场内衣的大小：合身是最重要的，需要适合外国客户的大小，一般标志或以上。颜色:黑色和红色可以保守使用，绿色可以大胆尝试。款式：蕾丝装饰质量和质量控制是底线5、拓展&思考：亚马逊BestSellers每小时更新一次。理论上，你可以每小时爬一次，看看商品的排名变化，是否有新产品等。你可以尝试自动爬虫；对于最后一点，但商品的评论内容并不经常更新。如何避免重复爬行？(类似于断点续传功能)；还有一个链接可以爬上商品图片，可以全部下载；在积累了一定的图片材料后，你可以在一定程度上看到颜色甚至风格的趋势。(类似于断点续传功能)；这一次，还有一个链接可以爬上商品图片，可以全部下载；在积累了一定的图片材料后，你可以在一定程度上看到颜色甚至风格的趋势。最后，这是一个脸红和心跳的数据分析，Python的研究也结束了。

以上就是关于Python如何爬数据？3个关键点的相关介绍，更多Python如何爬数据？3个关键点相关内容可以咨询我们或者浏览页面上的推荐内容。我们将让你对Python如何爬数据？3个关键点有更深的了解和认识。

内容来源:网络，以上内容来源于网络，不代表本站观点，如有侵权，请联系删除。

上一条：Excel可视化，如何展示一个完整的数据分析？下一条：线下企业，如何进行客流统计分析？