Tutorial by Examples



Apache Spark 관련 질문에 다음 정보를 포함 시키십시오. 적용 가능한 경우 클라이언트 및 Spark 배포에 사용되는 Apache Spark 버전입니다. API 관련 질문의 경우 주요 버그 (1.6, 2.0, 2.1 등)가 일반적으로 충분합니다. 가능한 버그에 관한 질문은 항상 정식 버전 정보를 사용합니다. Spark 바이너리를 빌드하는 데 사용되는 스칼라 버전. JDK 버전 ( java -version ). 게스트 언어 (Python, R)를 사용하는 경우 언어 버전에 대한 정보를 제공하십시오. 파이썬에서는 다음과...
예제 데이터 분산 데이터 구조를 작성하는 데 필요한 모든 코드로 입력 파일 또는 로컬 콜렉션과 같은 지루하고 시간이 많이 드는 구문 분석없이 응답에서 직접 사용할 수있는 형식으로 최소한의 예제 입력 데이터를 제공하십시오. 해당되는 경우 항상 유형 정보를 포함하십시오. RDD 기반 API에서 필요한 경우 주석을 사용하십시오. DataFrame 기반 API에서 같은 스키마 정보 제공 StrucType 에서 또는 출력 Dataset.printSchema . Dataset.show 또는 print 출력은 좋게 보이지만 기본 유형...
디버깅 질문. 질문이 특정 예외를 디버깅하는 것과 관련된 경우 항상 관련 추적을 제공하십시오. 중복 된 출력을 (다른 실행자 또는 시도에서) 제거하는 것이 바람직하지만, 추적 라인을 단일 행 또는 예외 클래스로만 잘라 내지 마십시오. 성능 관련 질문. 컨텍스트에 따라 다음과 같은 세부 정보를 제공하십시오. RDD.debugString / Dataset.explain . 적용 가능한 경우 DAG 다이어그램을 사용하여 Spark UI에서 출력 할 수 있습니다. 관련 로그 메시지. 외부 도구에 의해 수집 된 진단 정보 (G...
중복 질문에 대한 스택 오버플로 검색. 이미 광범위하게 문서화되어있는 일반적인 종류의 문제가 있습니다. 어떻게하면 좋은 질문을 할 수 있습니까? . 내가 읽을 수있는 주제는 무엇입니까? Apache Spark 커뮤니티 리소스

Page 1 of 1