Hồ sơ panama là gì

Năm 2016, 11,5 triệu tài liệu mật của shop Panama Mossachồng Fonseca bị thất thoát cho thấy thêm, thông tin chi tiết của rộng 214 ndở hơi công ty “ma” được Thành lập và hoạt động để trốn thuế, bao hàm cả danh sách của các người đóng cổ phần cùng những người có quyền lực cao. Trong các danh sách này có không ít bên chính trị và những tổ chức triển khai phong lưu, nhiều quyền lực của tương đối nhiều đất nước. Cả nhân loại chấn đụng, tuy vậy ít bạn biết là nhằm giải pháp xử lý kăn năn tài liệu lớn lao này, giới báo chí truyền thông đang đề xuất tiếp cận cùng với công nghệ số tiến bộ, nhưng mà thời nay fan ta Gọi là technology Dữ liệu bự.

Bạn đang xem: Hồ sơ panama là gì

*
Biếm họa về vụ Hồ sơ Panama. Giới truyền thông (Media) sẽ soi rọi đa số tư liệu về bài toán trốn thuế (Tax evasion) Tnhãi con của Paresh bên trên The Khaleej Times, Dubai

* Tóm tắt về làm hồ sơ Panama

Hồ sơ Panama là gì? Là lượng tư liệu mật to đùng bật mý phương thức những người dân phong lưu với quyền lực giấu tài sản của mình.

Hồ sơ Panama tới từ đâu? Ai huyết lộ? Đến từ đại lý dữ liệu nội bộ của Công ty lý lẽ Mossaông chồng Fonseca của Panama, bên cung cấp các dịch vụ tài sản ngơi nghỉ nước ngoài phệ sản phẩm tư thế giới. Mossack Fonseca chuyển động phù hợp pháp cơ mà luôn bị chỉ ra rằng chăm cung ứng ngầm những dịch vụ cọ tiền, trốn thuế. Nhân trang bị bật mí Hồ sơ Panama rước túng danh “John Doe” nói rằng trước đó chưa từng làm việc cho 1 ban ngành tình báo tốt cơ quan cơ quan chỉ đạo của chính phủ với chính sự bất bình đẳng thu nhập cá nhân vẫn thôi thúc bạn này chia sẻ tư liệu mật. Tài liệu được đưa mang lại Liên đoàn Pđợi viên khảo sát nước ngoài (ICIJ) với tổ chức triển khai này sẽ phân păn năn cho khoảng tầm 400 những công ty báo trên 107 tổ chức truyền thông trên rộng 80 đất nước nhằm so sánh.

Có gì trong những tài liệu? Trong những tài liệu có: báo cáo các giao dịch chuyển chi phí mặt, ngày ra đời những cửa hàng, link giữa các đơn vị cùng cá nhân, cách thức góp quý khách rửa chi phí, tránh các biện pháp trừng phạt và trốn thuế.

* Hồ sơ Panama mập cho cỡ nào?

Hồ sơ Panama tất cả 11,5 triệu tư liệu liên quan đến 214 nngây ngô cửa hàng, chỉ chiếm một dung tích lên tới mức 2,6TB (tức 2.600GB). Các tư liệu này không 1-1 thuần là 1 một số loại dữ liệu cơ mà bao gồm những định dạng không giống nhau như: e-mail, những tập tin PDF, hình hình họa và các trích dẫn xuất phát từ một cửa hàng dữ liệu nội cỗ hãng Mossaông chồng Fonseca. Các tư liệu trải nhiều năm từ những năm 1970 mang lại mùa xuân năm năm nhâm thìn, bao hàm 4.804.618 gmail, 3.047.306 tập tin từ cửa hàng tài liệu, 2.154.264 tập tin PDF, 1.117.026 hình hình họa, 3đôi mươi.166 tập tin văn bạn dạng, và 2.242 tập tin trong những định hình không giống.

Dung lượng tài liệu thất thoát này to hơn hẳn những ngôi trường phù hợp thất thoát trước đó. Báo Guardian (Anh) đang dùng hình hình họa minc họa sau nhằm cho thấy thêm lượng dữ liệu của hồ sơ Panama to hơn không ít so với tài liệu các vụ rò rỉ ban bố không giống.

Người ta ước tính rằng, giả dụ một fan ngồi coi cho hết những tư liệu này sẽ mất 30 năm. Ấy là chỉ xem một lượt toàn bộ các tư liệu chứ đọng không có nhận định và đánh giá so với gì cả! Trên thực tế có đến 376 đơn vị báo trực thuộc 110 đối tác doanh nghiệp truyền thông của 80 nước thuộc tđắm đuối gia cách xử trí tư liệu này, dẫu vậy cũng cấp thiết cách xử lý nổi trọng lượng tài liệu béo tốt bằng phần nhiều phương pháp thân quen. Phải đề xuất cho thiết bị tính!

*
Trong hình, lượng dữ liệu của các vụ thất thoát không giống được biểu lộ bằng diện tích những ô bé dại sáng màu, lượng tài liệu của Hồ sơ Panama bằng toàn thể diện tích phần còn lại

Thế dẫu vậy gồm laptop cũng không hẳn vẫn giải quyết và xử lý được vấn đề. Các chương trình cách xử trí dữ liệu trên máy tính thường chỉ xử trí các tài liệu thuần tốt nhất, nhưng mà các dữ liệu tại chỗ này vừa nhiều vừa phong phú. Các khối hận dữ liệu có kết cấu khác nhau đang là phức hợp rồi, lại còn chủng một số loại khác biệt nữa (mail, tệp tin PDF, hình ảnh…). Đây đó là tính chất của Dữ liệu lớn.

Vậy các nhà báo đã làm như vậy nào? Chúng ta hãy xem lời nhắc của 2 nhà báo tyêu thích gia chiến dịch là Jérémie Baruch cùng Maxime Vaudano, nhà báo dữ liệu của tờ Decodeurs, đăng trên tờ Le Monde (Pháp) mon 4-năm nhâm thìn.

* Họ vẫn có tác dụng ráng nào? Lời nhắc của Jérémie Baruch và Maxime Vaudano:

Cần phải có một cách thức tìm tìm gồm hiệu năng cao nhằm tìm hiểu những các đại lý dữ liệu. Đội ngũ nghệ thuật của ICIJ đã tất cả sẵn một luật pháp khỏe khoắn, dựa vào hệ thống Solr cùng được cách tân dành cho chiến nhờn này. Hệ thống bao gồm toán tử tìm kiếm tiên tiến (“AND”, “OR”, tìm kiếm cùng với độ đúng mực cao hồ hết từ bỏ trong dấu ngoặc kép) và một khối hệ thống những “hành lang cửa số nhỏ” để chọn lựa hàng ngàn kết quả mà lại một số trong những cuộc tìm kiếm vẫn tạo nên nhờ vào các cực kỳ dữ liệu (dạng vnạp năng lượng phiên bản, ngày chế tác vnạp năng lượng phiên bản, chủ thể liên kết). Hệ thống cũng được cho phép trích xuất vnạp năng lượng phiên bản thô trường đoản cú hàng trăm định dạng tập tin, từ dạng vnạp năng lượng bản .PDF cho dạng văn phiên bản .DOC, qua dạng văn bạn dạng .MSG (dạng thư năng lượng điện tử lắp cùng với Microsoft Outlook).

Xem thêm: Windows 7 Ultimate Product Key Window7 Windows 7 All Edition Online/Offline

Nhưng trước tiên, vẻ ngoài được sản phẩm một hình thức tra cứu tìm gần đúng (fuzzy search) có thể chấp nhận được tra cứu tìm thoáng hơn. lấy ví dụ tìm kiếm “Jean Dupont” sẽ tạo ra cả “Dupont Jean” tốt “Jean Edouard Michel Dupont”.

Mặc cho tất cả tính năng này, Cửa Hàng chúng tôi vẫn cần đối mặt mọi hạn chế về kết cấu tương quan cho bản chất biết tin “rò rỉ”. Có rất nhiều tư liệu nhưng mà bạn dạng cội ko dưới đa số dạng mà máy tính hoàn toàn có thể hiểu được (nhỏng bên dưới dạng scan, hình ảnh) đã có được cách xử trí sang một hệ thống nhấn dạng cam kết từ bỏ quang học tập (OCR) của ICIJ. Kỹ thuật này cho dù giỏi mang đến đâu cũng có nguy hại bỏ lỡ gần như trường đoản cú ghi nhận không nên, nhỏng chữ viết tay hoặc phiên bản scan kém nhẹm unique.

Những lỗi thiết yếu tả hoặc chuyển ngữ âm không nên tên các cá nhân có thể khiến cho đông đảo nhân đồ đó thoát khỏi sự vạc hiện của chúng tôi. Chưa nói tới sự việc dịch thuật trường đoản cú những cái tên giờ đồng hồ Nga hay Trung Quốc được viết theo bảng vần âm Kirin xuất xắc chữ tượng hình…

Sau tiến độ dò la trước tiên các dữ liệu mang tính chất lộn xộn, Shop chúng tôi đang đề nghị hợp lý hóa công việc kiếm tìm kiếm để đảm bảo an toàn ko bỏ qua các chiếc tên quan trọng. Về sự việc này, tổ chức triển khai ICIJ vào quá trình triển khai dự án sẽ cách tân và phát triển một hình thức tra cứu kiếm theo kăn năn (batch search). Ttuyệt bởi vì tìm kiếm tìm từng cái thương hiệu một, thì chúng ta có thể đưa vào chế độ kiếm tìm kiếm một list tất cả cấu tạo những cái thương hiệu. Sau một vài ba phút ít, cơ chế sẽ đã tạo ra một bảng tác dụng dưới định hình .CSV, gồm đựng toàn bộ những lần xuất hiện thêm được tra cứu thấy đối với mỗi mục nhập của list. Phần sót lại là chọn lọc “gạo cùng với trấu” nhỏng so với phần nhiều qui định tra cứu tìm.

Chúng tôi còn sử dụng nhiều cách thức khác để tìm thấy danh sách những người dân xứng đáng quan tâm. Với 214.488 chủ thể “ma” tìm kiếm được, bao gồm trên 450 ngàn cổ đông, toàn bộ đều phải sở hữu một shop bưu điện tương ứng. Với phần mềm xử lý tài liệu OpenRefine, chúng tôi vẫn “làm sạch” và cân đối các liên can này nhằm trích xuất list cổ đông cần thiết, sau đó áp dụng một cách gồm hệ thống luật tra cứu tìm Google để phân phát hiện ra số đông nhân vật có công dụng là đặc biệt.

Sự phức tạp của các dàn dựng làm việc quốc tế, cùng với rất nhiều công ty bình phong lồng trong nhau giống như những bé búp bê Nga, đã khiến cho quá trình lần theo dấu tích của những fan trúc hưởng thực cực kỳ vất vả. Vì vậy, ICIJ vẫn hỗ trợ cho các đối tác doanh nghiệp truyền thông một pháp luật hiển thị bằng vật dụng thị, Linkurious, để giúp dò xét các cơ sở dữ liệu được thuận tiện. Cụ thể, pháp luật này đã links 4 thực thể khác nhau mang tên trong phần “bao gồm cấu trúc” của đọc tin rò rỉ: những công ty, những trung gian, những cổ đông cùng tác động của họ. Nó có thể chấp nhận được thực hiện rất nhiều kiếm tìm kiếm nhanh hao và trực quan về các thực thể này.

* Sự bắt đầu của điều tra báo chí vào thời đại technology 4.0

Trên trên đây chỉ cần 1 phần lời đề cập của 2 đơn vị báo về hồ hết công việc mà người ta đã đề xuất triển khai nhằm khám phá về Hồ sơ Panama. Jérémie Baruch cùng Maxime Vaudano, sau khi nói lại đa số điều đã trải qua, kết luận: Đây là sự việc bắt đầu của những gì hoàn toàn có thể là bước tiếp sau của khảo sát báo chí truyền thông với sự hỗ trợ của sản phẩm tính: vấn đề thực hiện một cách gồm khối hệ thống những hình thức Dữ liệu béo, điều nhưng tới lúc này còn giới hạn vào lĩnh vực phân tích với công ty, cùng vẫn còn cực kỳ xa lạ với giới truyền thông media.

Còn chủ tịch của tờ Le Monde thì viết trong bài làng mạc luận của mình: Đối mặt với sự chuyển đổi của cuộc khảo sát sang thời đại Dữ liệu béo là việc 110 đối tác media ttê mê gia cuộc điều tra đã phải từ bỏ vứt cuốn nắn sổ tay tiếp thu và cây cây bút chì để thực hiện đầy đủ điều khoản điện toán tiên tiến và phát triển.

Cuộc biện pháp mạng công nghiệp 4.0 với mọi công nghệ tuyệt vời của chính nó là Trí tuệ nhân tạo (AI), Dữ liệu béo (Big Data) đã tác động đến toàn bộ đều lĩnh vực, ngành nghề, trong số đó tất cả giới truyền thông media. Câu cthị xã về Hồ sơ Panama là một trong những minh chứng trung thực.