最近的文章显示,嵌入在许多网站上的追踪器增加了 Facebook,Google(和其他公司)可用来了解我们的信息 - 即使你根本没有登录(甚至你可以完全没有账户!)也同样可被它们窥视。我开始考虑有多少个不同的网站可能会跟踪我在网络上的浏览。
我们如何知道公司跟踪我们的地点和数量?
有多少网站使用 Facebook 跟踪 API? Twitter 的 API?亚马逊?公司/追踪者的数量可能是无穷无尽的,但本文只关注一小部分 - Facebook,Google,Twitter,LinkedIn 和亚马逊。用 url,HTTPArchive 可以做到。
方法是这样的。在“Facebook隐私”上进行 Google 搜索,选择了前 6 篇文章:
https://www.chronicle.com/blogs/profhacker/firefox-add-on-protects-against-most-facebook-tracking/65281
https://www.thequint.com/tech-and-auto/tech-news/prevent-facebook-data-access-with-this-firefox-web-extension
http://www.thedailystar.net/world/limiting-facebooks-data-brokers-wont-stop-tracking-1555630
https://globalnews.ca/news/4110311/how-to-stop-targeted-ads-facebook-google-browser/
https://www.cbsnews.com/news/how-facebook-was-able-to-collect-android-phone-and-text-logs/
https://www.makeuseof.com/tag/facebook-tracking-stop/
然后,使用 Ghostery(Chrome 浏览器插件,即 ID 跟踪器/广告等)来识别这些页面上的跟踪器。例如这里有两个 Facebook 追踪器:
现在,我标记的某些网址可能无害,并且无法通过网络跟踪用户。我没有深入了解每个 API 或他们收集的数据,我为 Facebook 建立了以下查询:
SELECT pages.rank, pages.url, requests.url, ext FROM httparchive.runs.latest_requests_mobile requests JOIN ( SELECT rank, pageid, url FROM httparchive.runs.latest_pages_mobile) pages ON pages.pageid = requests.pageid WHERE (requests.url CONTAINS “facebook.com/tr”|| requests.url CONTAINS “graph.facebook.com”|| requests.url CONTAINS “facebook.com/impression” || requests.url CONTAINS “facebook.com/connect”|| requests.url CONTAINS “connect.facebook.net”|| requests.url CONTAINS “connect.facebook.com”|| requests.url CONTAINS “facebook.com/brandlift” ) ORDER BY rank ASC
所以,Facebook 跟踪了你多少?
我在数据库中发现了超过 147.5k 站点的 805k Facebook 追踪请求。这意味着平均每页5个 Facebook 追踪者,约占整个互联网的 33%。
有趣的是,按排名显示,排名前100位的网站使用远远低于 Facebook 的追踪数据(11%) - 可能是因为 Facebook 的许多竞争对手都位列前100名。
Twitter 在这方面怎么样? 在检查的6页中,我找到了2个跟踪网址:
requests.url CONTAINS “syndication.twitter.com/i/jot”||
requests.url CONTAINS “platform.twitter.com/widgets.js”
此查询结果意味着 39.7k 个站点发生 117.5k 个跟踪请求。
亚马逊怎么样?
amazon-adsystem.com/widgets
2.4k 的网站上有 6k 个跟踪实例。
requests.url CONTAINS “px.ads.linkedin.com/collect”||
requests.url CONTAINS “snap.licdn.com/li.lms-analytics”
跨越 7.6k 个站点有 22.5k 个跟踪实例
在我有限的网站样本中,Google 拥有最多的被指定为追踪者的网址。实际上有多大?举个例子吧 - 如果我尝试一次全部运行它们,BigQuery 会遇到内存问题。我只能将这些分解成更小的查询并获得完整的图像:
Google Analytics
requests.url CONTAINS “https://www.google-analytics.com/collect”||
requests.url CONTAINS “https://ssl.google-analytics.com”
176k results across 103.7k sites (23% of all sites in the dataset)
Google Ads (不是 DoubleClick)
requests.url CONTAINS “https://www.googletagservices.com/tag/js”||
requests.url CONTAINS “https://www.google-analytics.com/collect”||
requests.url CONTAINS “https://ssl.google-analytics.com”||
requests.url CONTAINS “pagead2.googlesyndication.com/pagead”||
requests.url CONTAINS “www.googleadservices.com/pagead/”||
requests.url CONTAINS “imasdk.googleapis.com/js/sdkloader”
600k entries across 202k sites (44% of all sites tested have one of these urls)
Google Ads - DoubleClick
requests.url CONTAINS “stats.g.doubleclick.net/r/collect”||
requests.url CONTAINS “securepubads.g.doubleclick.net/gpt/”||
requests.url CONTAINS “googleads.g.doubleclick.net”
1.02M entries across 250k sites (54% of all sites tested have one of these urls)
将这些条目加起来可以提供 1.79M 的 Google 追踪者。如果我只为网页网址运行查询,则可以成功运行,并且这些跟踪链接会显示在 268k 个网站上(占所有网站的 58%)。
汇总
综合所有这些结果可以在 HTTPArchive 找到所有追踪者的总和:
HTTPArchive 中 64% 的站点至少使用了上面指定的 22 个URL中的一个。正如您大概能猜的那样,大多数网站都使用这些追踪器中的一个以上:
结论
所有的跟踪都是不同的。每一次点击和页面访问都会随附发送不同级别的个人信息,它们单独看起来似乎没什么,但是一旦汇总起来,即刻能把你完全扒光。
来自 Ghostery 和6 个新闻文章的跟踪数量非常有限。然而在网络的一个大横截面上发现使用了许多跟踪器:所有站点中有 64% 的站点至少有一个跟踪器存在,并且跟踪器的中间站点利用了上述 22 个 URL 中的 7 个。
コメント