近日,微軟宣布Visual Studio Code支持SQL Server 2019大數據群集PySpark開發和查詢。它為Azure Data Studio提供了補充功能,可供數據工程師在數據科學家的數據探索和試驗之后編寫和生產PySpark作業。Visual Studio Code Apache Spark和Hive擴展使您可以享受跨平臺和增強的輕量級Python編輯功能,它涵蓋了有關Python編寫、調試、Jupyter Notebook集成以及類似于交互式查詢的筆記型計算機的場景。
通過Visual Studio Code擴展,您可以享受本機Python編程體驗,比如linting、調試支持、語言服務等。您可以為PY文件運行當前行、運行選定的代碼行或全部運行,可以導入和導出一個.ipynb筆記本,并執行類似于“運行單元格”、“在上方運行”或“在下方運行”的查詢筆記本,可以享受像筆記本電腦一樣的交互式體驗,其中包括您的源代碼和標記注釋以及運行結果和輸出,可以在交互式結果窗口中刪除不需要的部分、輸入注釋或鍵入其他代碼。此外,您還可以通過matplotlib(如Jupyter Notebook)以圖形格式可視化結果。 與SQL Server 2019大數據集群的集成使您能夠快速向大數據集群提交PySpark批處理作業并監視作業進度。
主要功能亮點
1、您可以鏈接到SQL Server。該工具包使您可以連接PySpark作業并將其提交到SQL Server 2019大數據群集。
2、Python編輯。開發具有本地Python創作支持(例如IntelliSense、自動格式、錯誤檢查等)的PySpark應用程序。
3、Jupyter Notebook集成。導入和導出.ipynb文件。
4、PySpark交互式。運行選定的代碼行,或運行諸如PySpark單元格之類的筆記本,以及交互式可視化。
5、PySpark批處理將PySpark應用程序提交到SQL Server 2019大數據群集。
6、PySpark監視。與Apache Spark歷史記錄服務器集成以查看作業歷史記錄、調試和診斷Spark作業。
如何安裝或更新
首先,安裝Visual Studio Code,然后下載適用于Linux或Mac的Mono4.2.x。然后轉到Visual Studio Code擴展存儲庫或Visual Studio Code市場并搜索Spark,獲取最新的Apache Spark和Hive工具。
另外有需要云服務器可以了解下創新互聯cdcxhl.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業上云的綜合解決方案,具有“安全穩定、簡單易用、服務可用性高、性價比高”等特點與優勢,專為企業上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。