怎样构建数据搜索引擎

2020-11-27 14:59:57

无论是通过WhatsApp消息安排可卡因从圣保罗到阿姆斯特丹的分发,还是其他加密对话,以诱使敌人陷入致命的伏击;分子长期以来一直试图隐藏其数字足迹。

证据全部存储在数字档案中:电子邮件,照片和云存储数据。执法机构可以使用这些数字线索来找出分子去往何处以及他们目前正在做什么。

数据分析平台在打击方面变得越来越重要。我们与汉斯肯的两名法医软件专家进行了交谈,探讨了他们如何支持执法机构,例如荷兰国家警察和荷兰财政信息与调查服务公司。

数字化挖掘

没有任何一个侦探能够有效地搜索没收数据载体上存储的大量数据。

自2012年以来,荷兰法证研究所(NFI)一直 专注于数字取证即服务(DFaaS),旨在提供一种服务,该服务可以处理大量数字取证材料,并提供对分析数据的可访问和安全访问。

NFI在2015年推出了汉斯肯平台(Hansken),该平台以著名的17世纪大象永生化命名,是数字取证分析中的宝贵工具。

Hansken处理聊天对话,照片,电子邮件,音频等。就像搜索引擎一样,它使数据透明和可搜索。目标是侦探和专家可以使用标准搜索查询,并能够在发生48小时后访问数据。该平台最大程度地缩短了案件准备时间,确保了最大的覆盖范围,并且用户可以轻松地进行搜索。

来龙去脉

汉斯肯可以分为三个级别:拥有法医学知识的后端,集中化的DFaaS平台以及可以用于刑事调查,研究和开发的前端。

“汉斯肯的核心平台及其提取工具均用Java编码,”汉斯肯法医软件开发商Christophe Creeten指出。Creeten在后端团队中工作,该团队负责与第三方进行协作。通过使他们能够添加自己的数字取证知识和工具,然后可以与更多人共享这些信息和工具,可以进一步开发该平台。

NFI的取证软件开发人员使用现有的和自行开发的工具,从用于分布式处理的开源软件Hadoop到用于使信息可搜索的Elasticsearch。“我们还使用Cassandra来存储大量数据,使用Kafka来在服务之间发送消息,还使用Zookeeper来命名,存储信息和服务同步,” Creeten说。

执法机构合法没收数据载体后,会将其发送给Hansken处理数据,将其拆开,然后描述信息的来源。

“一切都存储了。在Elasticsearch中,我们存储跟踪以及有关如何导出这些跟踪的信息,以便我们可以追溯。” Creeten告诉TNW。“因此,如果一名侦探在Hansken中输入内容,它将变成一个搜索查询,该查询将引发到Elasticsearch数据库上,并搜索与之匹配的跟踪并将其返回。”

无论是,欺诈,洗钱还是其他形式的有组织,都将对越来越多的数据进行加密。Hansken后端库团队的法证软件开发人员Carly Bakker说:“当密钥不再可用时,访问数据是一项艰巨的任务。但是,深入研究各种数据结构是一个有趣的挑战。”

Bakker和她的同事们努力工作以恰当地解释被没收携带者的数据。“金属是由NFI开发的Java库,用于真正读取字节级的数据。因此,我们经常使用它来读取文件格式并提取字节。然后,我们可以解析文件并将其拆分为小块,以便有目的地提取信息。” Bakker说。“因此,您不必经过Java繁琐的过程即可从该流中一一提取所有这些字节,而这通常会使代码不可读。”

想要在国立总统府工作吗?他们正在招聘。

流畅的用户体验

该平台的用户友好性确保了无论是否具有IT知识的侦探都可以使用搜索引擎从可用数据中提取证据。

侦探和数字专家的用户体验 可改善自动测试和集成,以实现连续部署。Bakker说,其中一项调整是视觉时间轴:“我们正在努力的是,我们可以在时间范围内显示所有内容。有一个时间表,用户可以看到何时更改了某些数据。然后,侦探或专家立即查看在特定时间段内发生的情况。它通常在电子邮件流量或聊天时非常方便。”

NFI开发人员确保Hansken能够公开(删除)电子邮件,识别模式,对图像进行分类以及使用坐标映射数据位置,但是由侦探和数字专家来解释和评估所呈现的数据。

高调案例

Hansken的平台设计处理刑事调查隐私,透明度和安全性,现在已经在使用了超过700刑事案件。

2016年,荷兰检察署在加拿大没收了邮件服务器,这些邮件服务器用于与经过改编的黑莓手机进行安全(PGP)通信。在2018年,阿姆斯特丹法院裁定可以合法地使用Hansken来搜索和提供对已有证据的洞察力-合法搜索了来自加拿大邮件服务器的360万条加密邮件。

对于绰号Noffel的荷兰罪犯Naoufal F.而言,这是一种痛苦的药丸,当时他因清算失败而于2018年被判入狱18年。一年后,有六人因极度的准备和(未遂)清算狂潮而被定罪,判处七年至无期徒刑。荷兰检察院在汉斯肯(Hansken)的帮助下,使用在加密邮件中找到的证据定罪。

智能助手

Hansken向法医软件开发人员提出挑战,要求他们不断评估和开发有效分析大型数据收集的方法。Bakker:“这项工作凝聚了我们对难题,解决问题和编程热情的热爱。”

NFI确保执法机构在数字取证调查期间获得足够的援助。Hansken通过解决问题,快速分析数据,确保法医知识得到保护以及为刑事案件提供有价值的线索节省了时间。数字取证调查将在刑事司法中发挥越来越重要的作用。“我们将继续开发该平台并扩展其取证能力。总是有改进的空间,” Creeten补充说。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。