guimikeqi 发表于 2023-2-27 01:30:26

俄版百度44.7G源码泄露!遭前员工背刺,涉及搜索地图等主要服务

<p></p><blockquote id="1H7U3T82">鱼羊 Pine 发自 凹非寺<br>量子位 | 公众号 QbitAI<br></blockquote><p></p><p id="1H7U3T5M">俄罗斯第一大科技巨头,这回遇上了大麻烦:</p><p id="1H7U3T5N"><strong>44.7GB源代码,全被泄露到了网上。</strong></p><p id="1H7U3T5O">什么概念?</p><p id="1H7U3T5P">就是这家名为<strong>Yandex</strong>的公司,<strong>几乎所有主要服务的源代码都被挖了个底掉</strong>……</p><p id="1H7U3T5Q">要知道,在俄罗斯,Yandex不仅干着搜索引擎的活儿,还把俄国老百姓购物、打车、订外卖、租车这一连串生活服务都给包圆了。</p><p id="1H7U3T5R">简单来说,约等于俄版百度+淘宝+美团+滴滴。</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T5T">这么大个事儿,自然引起了全世界网友的围观。</p><p id="1H7U3T5U">但就在众人纷纷猜测这又是哪家黑客手笔之际,Yandex的声明却有些令人大跌眼镜:</p><p></p><blockquote id="1H7U3T83">我们没有被黑,就是被前员工给卖了……<br></blockquote><p></p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T61">44.7GB源代码遭泄露,代码被扒了个底朝天</p><p id="1H7U3T62">具体来说,泄密链接最早出现在了一个黑客论坛上。</p><p id="1H7U3T63">泄密者称,这份44.7GB的Yandex代码库,包含该公司2022年7月以前,除反垃圾邮件规则之外的所有源代码。</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T65">这些被泄露出来的代码信息量到底有多大?</p><p id="1H7U3T66">看看网友们热火朝天扒出来的细节就知道了……</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T68">Yandex不是以搜索引擎起家,常被称作“俄版百度”/“俄版谷歌”嘛,那就先以搜索引擎部分的代码为例。</p><p id="1H7U3T69">一位名叫Alex Buraks的老哥就深扒了下Yandex搜索引擎的排名规则,还戏称这对理解谷歌SEO(搜索引擎优化)有很多有用的信息。</p><p id="1H7U3T6A">毕竟Yandex和谷歌的搜索结果有70%的匹配度,不少人认为其搜索技术用的就是谷歌同款:如PageRank、BERT等。</p><p id="1H7U3T6B">(掌握了Yandex的规则不就相当于透了谷歌排名算法的家底,手动狗头)</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T6D">目前已经有大批吃瓜群众来围观,甚至Alex Buraks的这条线程曾在谷歌搜索“yandex”中排名第8。</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T6F">有趣的是,在Yandex的排名因素中,排在第一个的就是<strong>PageRank</strong>。</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T6H">Buraks还直接列出了Yandex的10个排名因素:</p><p></p><blockquote id="1H7U3T84">(1)链接的创建时间;(2)流量和有机流量的百分比;(3)URL中的数字不利于排名;(4)URL中的斜杠不利于排名;(5)负面情绪过重的PageRank=0;(6)主机可靠性;(7)“维基百科”还单独列了一个因素<br>;(8)用户行为:点击率,跳出率等;(9)文件年龄与上次更新日期;(10)所有查询域名的平均位置……<br></blockquote><p></p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T6L">当然这还只是其中的一部分,Buraks表示后续还会继续分析。</p><p id="1H7U3T6M">除了Alex Buraks,也有不少营销大师深扒了Yandex的排名因素,甚至有人都详细整理出了完整的<strong>1900+</strong>个排名因素。</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T6O">值得一提的是,在各路大神扒代码的过程中,Yandex搜索引擎的一些“潜规则”也被摆上了台面。</p><p id="1H7U3T6P">就比如说加拿大黑客Aubrey Cottle就在代码中发现了Yandex是容忍种族歧视的。</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T6R">还有网友在代码中发现,Yandex的广告投放中,普通广告和色情广告是分开计算的。</p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T6T">官方声明:没有被黑,是前员工泄密</p><p id="1H7U3T6U">这事儿一出,很快还有一份详细的泄密文件目录被整理出来放在了GitHub上。</p><p id="1H7U3T6V">作者是一位名叫Arseniy Shestakov的软件工程师。据他评估,这些源代码确实涉及了Yandex的所有主要服务。</p><p id="1H7U3T70">包括:</p><p></p><ul><li id="1H7U3T7K">搜索引擎和索引机器人</li><li id="1H7U3T7L">地图服务</li><li id="1H7U3T7M">AI语音助手</li><li id="1H7U3T7N">打车服务</li><li id="1H7U3T7O">广告服务</li><li id="1H7U3T7P">邮件服务</li><li id="1H7U3T7Q">存储服务(类似百度网盘)</li><li id="1H7U3T7R">电商服务(类似淘宝)</li><li id="1H7U3T7S">旅游服务</li><li id="1H7U3T7T">云服务</li></ul><p></p><p id="1H7U3T71">还包括在线协同办公、支付、数据分析等等业务。</p><p id="1H7U3T72">不过,泄露内容并不包括用户数据等敏感信息。</p><p id="1H7U3T73">Arseniy Shestakov总结了几个关键细节:</p><p></p><ul><li id="1H7U3T7U">泄露出来的主要是git存储库里的源代码,不包含git历史记录</li><li id="1H7U3T7V">所有文件日期均可追溯至2022年2月24日</li><li id="1H7U3T80">大部分软件都没有预先编译好,只有少数例外</li><li id="1H7U3T81">除了一些例外,没有预先训练好的机器学习模型</li></ul><p></p><p class="f_center"><div style="text-align:center"></div><br><br></p><p id="1H7U3T75">△Yandex办公楼</p><p id="1H7U3T76">事情闹得这么大,Yandex官方也坐不住了,很快发表声明表示:其实我们并没有被黑,是前员工出卖了我们!</p><p></p><blockquote id="1H7U3T85">Yandex没有被黑。我们在公共领域发现了泄露自内部存储库的代码片段,但其内容与Yandex当前使用的代码版本并不相同。<br>存储库是用来存储和处理代码的工具。大多数公司都采用这种方式来使用代码。<br>代码库并未存储个人用户数据。<br>我们正在进行内部调查,但并没有发现该事件给用户数据和平台性能带来了任何威胁。<br></blockquote><p></p><p id="1H7U3T7B">Yandex倒是信誓旦旦,但外部的专业人士却有不同看法。</p><p id="1H7U3T7C">据bleepingcomputer消息,前Yandex技术专家Grigory Bakunov对此事做出了回应。</p><p id="1H7U3T7D">他认为,这次代码泄露确实不会对用户的隐私或安全构成直接风险,也不会直接威胁到Yandex的专有技术。</p><p id="1H7U3T7E">不过一些文件仍可能会暴露正在运行的服务,比如说“blacklist.txt”,Bakunov还称:</p><p></p><blockquote id="1H7U3T86">尽管泄密的部分不涉及敏感数据,但黑客针对性利用代码中的安全漏洞,只是时间问题;<br>(BTW)虽然Yandex官方回应泄露的代码与公司工作服务中使用的当前代码不同,但相似度可能高达90%。<br></blockquote><p></p><p id="1H7U3T7H">泄露代码目录:<br>https://gist.github.com/ArseniyShestakov/53a80e3214601aa20d1075872a1ea989</p><p id="1H7U3T7I">参考链接:<br>https://www.bleepingcomputer.com/news/security/yandex-denies-hack-blames-source-code-leak-on-former-employee/<br>https://arseniyshestakov.com/2023/01/26/yandex-services-source-code-leak/<br>https://twitter.com/Kirtaner/status/1619007274202329091<br>https://twitter.com/dom_woodman/status/1619028740201398274<br>https://twitter.com/alex_buraks/status/1618988134850785280</p><p class="f_center"><div style="text-align:center"></div><br></p><br><br><br>来源网址:https://www.163.com/dy/article/HS8KPTK20511DSSR.html
页: [1]
查看完整版本: 俄版百度44.7G源码泄露!遭前员工背刺,涉及搜索地图等主要服务