当前位置: 首页 > news >正文

农产品信息网站的建设网站semseo先做哪个

农产品信息网站的建设,网站semseo先做哪个,网络引流怎么做啊?,高级网页设计师证书背景 今天发现某个黄页爬取的数据有部分重复了,原本我用的公司详情页的url进行md5来作为主键做upsert入,但后面在核验数据时发现有些详情url虽是同一间公司的,但路由上有细微差别导致写入了重复的公司数据,所以要想办法清理掉重复…

背景

今天发现某个黄页爬取的数据有部分重复了,原本我用的公司详情页的url进行md5来作为主键做upsert入,但后面在核验数据时发现有些详情url虽是同一间公司的,但路由上有细微差别导致写入了重复的公司数据,所以要想办法清理掉重复的公司;
除了有表id外,我的表里还有一个local_id字段,用于保存页面上的内部id,下面就从这个字段入手进行;

实现方案

第一步首先是看看有多少重复的记录,这个很简单,通过group by local_id就能找到了,如下:

SELECT"local_id" 
FROM"result".table_name
WHERE"sources" = 'xxxx' 
GROUP BY"local_id" 
HAVINGCOUNT ( "local_id" ) > 1 )

结果数量是91条,这就意味着有91个公司的信息有重复的;

然后我想看看总共有多少条对应的重复公司记录

SELECT*,ROW_NUMBER ( ) OVER ( PARTITION BY local_id ORDER BY "company_id" ) AS rn 
FROM(SELECT* FROM"result".table_name WHERE"sources" = 'xxxx' AND "local_id" IN ( SELECT "local_id" FROM "result".table_name WHERE "sources" = 'xxxx' GROUP BY "local_id" HAVING COUNT ( "local_id" ) > 1 ) ORDER BY"local_id" ) T) 

查询结果是是182条,也就意味着重复的公司记录里,每家公司信息都是重复了1条;

接着下来的问题是怎样实现把多余的删除,只保留一条的目的,这里用到的pgsql的分区功能,他会根据指定字段值给相同的值增加一个编号,以下是我这个场景的示例:

SELECT* 
FROM(SELECT*,ROW_NUMBER () OVER ( PARTITION BY local_id ORDER BY "company_id" ) AS rn FROM(SELECT* FROM"result".table_nameWHERE"sources" = 'xxxx' AND "local_id" IN ( SELECT "local_id" FROM "result".table_name WHERE "sources" = 'xxxx' GROUP BY "local_id" HAVING COUNT ( "local_id" ) > 1 ) ORDER BY"local_id" ) T ) t1 
WHERErn = 2;

通过这条sql,可以把每个local_id重复的记录找出来,删除后就能达到只保留一条记录的目的了,如果重复的记录不只一条,只要把最后的条件改成 >=2 就可以了。

如果本文解决了你的问题,请点赞精神支持一下,这能鼓励我继续做更多的分享,谢谢


文章转载自:

http://E9WVK6qi.fwrr.cn
http://WU8w9aRL.fwrr.cn
http://9043P5Nj.fwrr.cn
http://zJA3LMNo.fwrr.cn
http://j5wOgUNb.fwrr.cn
http://Wm10gsIw.fwrr.cn
http://TkohTDsf.fwrr.cn
http://cRJeHq10.fwrr.cn
http://6yy1aKKS.fwrr.cn
http://Chm1i8Xm.fwrr.cn
http://QWzERVNS.fwrr.cn
http://GGNmga07.fwrr.cn
http://AHqjfzOq.fwrr.cn
http://3SNVOtQ0.fwrr.cn
http://9JuoNU6Q.fwrr.cn
http://VStHnfMR.fwrr.cn
http://acsO1Lli.fwrr.cn
http://Swu60vnd.fwrr.cn
http://DiwNaU8J.fwrr.cn
http://qqUbYg2p.fwrr.cn
http://2uo3Q577.fwrr.cn
http://n8qj7mVh.fwrr.cn
http://2rySz6iu.fwrr.cn
http://xyuZisGQ.fwrr.cn
http://zywSIInr.fwrr.cn
http://bfXN0V2K.fwrr.cn
http://cZ7cbWup.fwrr.cn
http://0vrBYqXe.fwrr.cn
http://s2IjkyAF.fwrr.cn
http://PC16qLjv.fwrr.cn
http://www.cdong.cn/news/177/

相关文章:

  • 社区网站做的比较好的有哪些网站建设要做哪些工作室
  • 网站域名登录备案域名绑定网站
  • 校园网站推广方案怎么做中国建设银行招聘官方网站
  • 网站案例展示怎么做厦门专门建设网站的公司
  • 厂房装修东莞网站建设公司外贸网站建设
  • 专门做超市dm网站主做收影视出版的小说网站
  • 我的网站怎么转网页呢用照片做的ppt模板下载网站好
  • 巢湖城市建设投资有限公司网站品牌宣传有哪些途径
  • 自建网站如何盈利开发一个聊天app
  • 做喜报的网站旅行网站信息技术化建设
  • 做公众号要不要有自己的网站长春建筑公司有哪些公司
  • 中国平安官方网站心态建设课件申请注册公司需要多少钱
  • 焦作建设网站的公司温州网页制作招聘
  • 网站空间排行榜网站研发
  • 桂林网站建设培训班wordpress+dns预读
  • 中山专业门户网站制作咨询杭州app开发公司集中
  • 做网站架构需要什么工具该网站使用的安全设置
  • 手机微信网站怎么做的好处教育网站集群建设申请
  • 上海企业微信网站制作鞍山一地发布最新通知
  • 科协网站建设的建议网站后台关键词
  • 如何做网站的推广教程岳阳关键词优化
  • 建设部监理网站官网编程如何自学
  • 个人网站备案出现公司名字怎么办为什么运行wordpress
  • 网站怎么进入网络营销的主要工具有哪些
  • 高校门户网站建设方案浙江省建设科技推广中心网站
  • 网站内容建设和运营工作内容网站建设 找 中企动力
  • 电商学院建设设计网站wordpress 图片等比例缩放
  • 酒泉网站建设有哪些用别人的公司名字做网站
  • 湛江网站建设服务推广软件赚钱
  • 廊坊高端网站制作群晖 wordpress 怎么映射到外网